{
  "best_metric": 2.20203996,
  "best_model_checkpoint": "/scratch/ms-swift-chatas/exp_output_paligemma_imgchat/v3-20250529-040720/checkpoint-105000",
  "epoch": 4.498521914228182,
  "eval_steps": 500,
  "global_step": 105000,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 4.284306584979221e-05,
      "grad_norm": 24.429079055786133,
      "learning_rate": 9.999999998188407e-05,
      "loss": 4.934672832489014,
      "memory(GiB)": 14.51,
      "step": 1,
      "token_acc": 0.19298245614035087,
      "train_speed(iter/s)": 0.332266
    },
    {
      "epoch": 0.00021421532924896104,
      "grad_norm": 21.24069595336914,
      "learning_rate": 9.999999954710156e-05,
      "loss": 4.759311676025391,
      "memory(GiB)": 20.53,
      "step": 5,
      "token_acc": 0.2627450980392157,
      "train_speed(iter/s)": 0.918491
    },
    {
      "epoch": 0.0004284306584979221,
      "grad_norm": 9.067500114440918,
      "learning_rate": 9.99999981884062e-05,
      "loss": 3.620919036865234,
      "memory(GiB)": 29.98,
      "step": 10,
      "token_acc": 0.34177215189873417,
      "train_speed(iter/s)": 1.127471
    },
    {
      "epoch": 0.0006426459877468832,
      "grad_norm": 23.622352600097656,
      "learning_rate": 9.999999592391398e-05,
      "loss": 2.6890094757080076,
      "memory(GiB)": 29.98,
      "step": 15,
      "token_acc": 0.42168674698795183,
      "train_speed(iter/s)": 1.249265
    },
    {
      "epoch": 0.0008568613169958442,
      "grad_norm": 17.0115909576416,
      "learning_rate": 9.999999275362494e-05,
      "loss": 2.420244598388672,
      "memory(GiB)": 29.98,
      "step": 20,
      "token_acc": 0.45454545454545453,
      "train_speed(iter/s)": 1.309945
    },
    {
      "epoch": 0.0010710766462448053,
      "grad_norm": 16.966550827026367,
      "learning_rate": 9.999998867753912e-05,
      "loss": 2.4537260055541994,
      "memory(GiB)": 32.43,
      "step": 25,
      "token_acc": 0.4560810810810811,
      "train_speed(iter/s)": 1.352727
    },
    {
      "epoch": 0.0012852919754937663,
      "grad_norm": 25.70478057861328,
      "learning_rate": 9.999998369565659e-05,
      "loss": 1.8708484649658204,
      "memory(GiB)": 37.5,
      "step": 30,
      "token_acc": 0.516320474777448,
      "train_speed(iter/s)": 1.392101
    },
    {
      "epoch": 0.0014995073047427273,
      "grad_norm": 20.09503173828125,
      "learning_rate": 9.999997780797748e-05,
      "loss": 2.0371498107910155,
      "memory(GiB)": 37.5,
      "step": 35,
      "token_acc": 0.5399239543726235,
      "train_speed(iter/s)": 1.420257
    },
    {
      "epoch": 0.0017137226339916883,
      "grad_norm": 12.851018905639648,
      "learning_rate": 9.999997101450185e-05,
      "loss": 1.8779441833496093,
      "memory(GiB)": 37.5,
      "step": 40,
      "token_acc": 0.5800711743772242,
      "train_speed(iter/s)": 1.437215
    },
    {
      "epoch": 0.0019279379632406496,
      "grad_norm": 13.68235969543457,
      "learning_rate": 9.999996331522983e-05,
      "loss": 1.577826690673828,
      "memory(GiB)": 37.5,
      "step": 45,
      "token_acc": 0.6123188405797102,
      "train_speed(iter/s)": 1.494192
    },
    {
      "epoch": 0.0021421532924896106,
      "grad_norm": 17.75782585144043,
      "learning_rate": 9.99999547101616e-05,
      "loss": 1.5587465286254882,
      "memory(GiB)": 37.5,
      "step": 50,
      "token_acc": 0.6147540983606558,
      "train_speed(iter/s)": 1.505993
    },
    {
      "epoch": 0.002356368621738572,
      "grad_norm": 17.360958099365234,
      "learning_rate": 9.999994519929725e-05,
      "loss": 1.8693782806396484,
      "memory(GiB)": 37.5,
      "step": 55,
      "token_acc": 0.564935064935065,
      "train_speed(iter/s)": 1.541611
    },
    {
      "epoch": 0.0025705839509875326,
      "grad_norm": 13.06774616241455,
      "learning_rate": 9.9999934782637e-05,
      "loss": 1.2743507385253907,
      "memory(GiB)": 37.5,
      "step": 60,
      "token_acc": 0.6413043478260869,
      "train_speed(iter/s)": 1.539487
    },
    {
      "epoch": 0.002784799280236494,
      "grad_norm": 13.181123733520508,
      "learning_rate": 9.999992346018105e-05,
      "loss": 1.2007725715637207,
      "memory(GiB)": 37.5,
      "step": 65,
      "token_acc": 0.6468401486988847,
      "train_speed(iter/s)": 1.544209
    },
    {
      "epoch": 0.0029990146094854547,
      "grad_norm": 16.61612892150879,
      "learning_rate": 9.999991123192957e-05,
      "loss": 1.581649112701416,
      "memory(GiB)": 37.5,
      "step": 70,
      "token_acc": 0.6384364820846905,
      "train_speed(iter/s)": 1.572008
    },
    {
      "epoch": 0.003213229938734416,
      "grad_norm": 9.395951271057129,
      "learning_rate": 9.99998980978828e-05,
      "loss": 1.1370491981506348,
      "memory(GiB)": 37.5,
      "step": 75,
      "token_acc": 0.7173252279635258,
      "train_speed(iter/s)": 1.569566
    },
    {
      "epoch": 0.0034274452679833767,
      "grad_norm": 18.296876907348633,
      "learning_rate": 9.999988405804095e-05,
      "loss": 1.1459007263183594,
      "memory(GiB)": 37.5,
      "step": 80,
      "token_acc": 0.6875,
      "train_speed(iter/s)": 1.57181
    },
    {
      "epoch": 0.003641660597232338,
      "grad_norm": 14.201404571533203,
      "learning_rate": 9.999986911240431e-05,
      "loss": 0.8491975784301757,
      "memory(GiB)": 37.5,
      "step": 85,
      "token_acc": 0.7830508474576271,
      "train_speed(iter/s)": 1.569464
    },
    {
      "epoch": 0.003855875926481299,
      "grad_norm": 18.60801124572754,
      "learning_rate": 9.999985326097314e-05,
      "loss": 0.8592746734619141,
      "memory(GiB)": 37.5,
      "step": 90,
      "token_acc": 0.8047945205479452,
      "train_speed(iter/s)": 1.571062
    },
    {
      "epoch": 0.00407009125573026,
      "grad_norm": 12.978971481323242,
      "learning_rate": 9.999983650374773e-05,
      "loss": 0.620181941986084,
      "memory(GiB)": 37.5,
      "step": 95,
      "token_acc": 0.84375,
      "train_speed(iter/s)": 1.571153
    },
    {
      "epoch": 0.004284306584979221,
      "grad_norm": 11.887883186340332,
      "learning_rate": 9.999981884072838e-05,
      "loss": 0.9150229454040527,
      "memory(GiB)": 37.5,
      "step": 100,
      "token_acc": 0.7623456790123457,
      "train_speed(iter/s)": 1.573168
    },
    {
      "epoch": 0.004498521914228182,
      "grad_norm": 9.54543685913086,
      "learning_rate": 9.999980027191539e-05,
      "loss": 0.6089622497558593,
      "memory(GiB)": 37.5,
      "step": 105,
      "token_acc": 0.8269896193771626,
      "train_speed(iter/s)": 1.575867
    },
    {
      "epoch": 0.004712737243477144,
      "grad_norm": 8.852176666259766,
      "learning_rate": 9.999978079730912e-05,
      "loss": 0.77999906539917,
      "memory(GiB)": 37.5,
      "step": 110,
      "token_acc": 0.8046875,
      "train_speed(iter/s)": 1.574787
    },
    {
      "epoch": 0.0049269525727261045,
      "grad_norm": 10.61286735534668,
      "learning_rate": 9.999976041690993e-05,
      "loss": 0.4582165241241455,
      "memory(GiB)": 37.5,
      "step": 115,
      "token_acc": 0.87,
      "train_speed(iter/s)": 1.574832
    },
    {
      "epoch": 0.005141167901975065,
      "grad_norm": 14.49724006652832,
      "learning_rate": 9.999973913071817e-05,
      "loss": 0.7001579761505127,
      "memory(GiB)": 37.5,
      "step": 120,
      "token_acc": 0.8417721518987342,
      "train_speed(iter/s)": 1.57417
    },
    {
      "epoch": 0.005355383231224026,
      "grad_norm": 5.007709980010986,
      "learning_rate": 9.999971693873423e-05,
      "loss": 0.5804262161254883,
      "memory(GiB)": 37.5,
      "step": 125,
      "token_acc": 0.8686131386861314,
      "train_speed(iter/s)": 1.577141
    },
    {
      "epoch": 0.005569598560472988,
      "grad_norm": 5.54777717590332,
      "learning_rate": 9.999969384095851e-05,
      "loss": 0.793398094177246,
      "memory(GiB)": 37.5,
      "step": 130,
      "token_acc": 0.8489425981873112,
      "train_speed(iter/s)": 1.579617
    },
    {
      "epoch": 0.0057838138897219485,
      "grad_norm": 6.828816890716553,
      "learning_rate": 9.999966983739143e-05,
      "loss": 0.7011696815490722,
      "memory(GiB)": 37.5,
      "step": 135,
      "token_acc": 0.8466453674121406,
      "train_speed(iter/s)": 1.584269
    },
    {
      "epoch": 0.005998029218970909,
      "grad_norm": 3.7883553504943848,
      "learning_rate": 9.999964492803344e-05,
      "loss": 0.6213380336761475,
      "memory(GiB)": 37.5,
      "step": 140,
      "token_acc": 0.8313609467455622,
      "train_speed(iter/s)": 1.586497
    },
    {
      "epoch": 0.006212244548219871,
      "grad_norm": 3.573042392730713,
      "learning_rate": 9.999961911288497e-05,
      "loss": 0.7266541957855225,
      "memory(GiB)": 37.5,
      "step": 145,
      "token_acc": 0.8593272171253823,
      "train_speed(iter/s)": 1.586805
    },
    {
      "epoch": 0.006426459877468832,
      "grad_norm": 8.436943054199219,
      "learning_rate": 9.99995923919465e-05,
      "loss": 0.7316388607025146,
      "memory(GiB)": 37.5,
      "step": 150,
      "token_acc": 0.84375,
      "train_speed(iter/s)": 1.582906
    },
    {
      "epoch": 0.006640675206717793,
      "grad_norm": 6.530291557312012,
      "learning_rate": 9.99995647652185e-05,
      "loss": 0.97288818359375,
      "memory(GiB)": 37.5,
      "step": 155,
      "token_acc": 0.7899686520376176,
      "train_speed(iter/s)": 1.579621
    },
    {
      "epoch": 0.006854890535966753,
      "grad_norm": 12.907530784606934,
      "learning_rate": 9.99995362327015e-05,
      "loss": 1.5455241203308105,
      "memory(GiB)": 37.5,
      "step": 160,
      "token_acc": 0.7263843648208469,
      "train_speed(iter/s)": 1.587404
    },
    {
      "epoch": 0.007069105865215715,
      "grad_norm": 4.760413646697998,
      "learning_rate": 9.999950679439598e-05,
      "loss": 0.8227068901062011,
      "memory(GiB)": 37.5,
      "step": 165,
      "token_acc": 0.788135593220339,
      "train_speed(iter/s)": 1.583452
    },
    {
      "epoch": 0.007283321194464676,
      "grad_norm": 5.44415283203125,
      "learning_rate": 9.99994764503025e-05,
      "loss": 0.5133443355560303,
      "memory(GiB)": 37.5,
      "step": 170,
      "token_acc": 0.8970588235294118,
      "train_speed(iter/s)": 1.58748
    },
    {
      "epoch": 0.007497536523713637,
      "grad_norm": 6.975241184234619,
      "learning_rate": 9.99994452004216e-05,
      "loss": 0.5468311309814453,
      "memory(GiB)": 37.5,
      "step": 175,
      "token_acc": 0.8566433566433567,
      "train_speed(iter/s)": 1.588545
    },
    {
      "epoch": 0.007711751852962598,
      "grad_norm": 7.101792812347412,
      "learning_rate": 9.999941304475385e-05,
      "loss": 0.6864105224609375,
      "memory(GiB)": 37.5,
      "step": 180,
      "token_acc": 0.862876254180602,
      "train_speed(iter/s)": 1.585918
    },
    {
      "epoch": 0.007925967182211559,
      "grad_norm": 6.368824481964111,
      "learning_rate": 9.999937998329982e-05,
      "loss": 0.4765233039855957,
      "memory(GiB)": 37.5,
      "step": 185,
      "token_acc": 0.8905660377358491,
      "train_speed(iter/s)": 1.58731
    },
    {
      "epoch": 0.00814018251146052,
      "grad_norm": 7.348299503326416,
      "learning_rate": 9.999934601606014e-05,
      "loss": 0.5627351760864258,
      "memory(GiB)": 37.5,
      "step": 190,
      "token_acc": 0.90234375,
      "train_speed(iter/s)": 1.589881
    },
    {
      "epoch": 0.00835439784070948,
      "grad_norm": 1.9697582721710205,
      "learning_rate": 9.999931114303538e-05,
      "loss": 0.5596720695495605,
      "memory(GiB)": 37.5,
      "step": 195,
      "token_acc": 0.8664259927797834,
      "train_speed(iter/s)": 1.592077
    },
    {
      "epoch": 0.008568613169958442,
      "grad_norm": 10.599143028259277,
      "learning_rate": 9.99992753642262e-05,
      "loss": 0.606598949432373,
      "memory(GiB)": 37.5,
      "step": 200,
      "token_acc": 0.890625,
      "train_speed(iter/s)": 1.59393
    },
    {
      "epoch": 0.008782828499207404,
      "grad_norm": 12.356439590454102,
      "learning_rate": 9.999923867963326e-05,
      "loss": 0.6704184532165527,
      "memory(GiB)": 37.5,
      "step": 205,
      "token_acc": 0.8259493670886076,
      "train_speed(iter/s)": 1.594455
    },
    {
      "epoch": 0.008997043828456364,
      "grad_norm": 12.116998672485352,
      "learning_rate": 9.999920108925719e-05,
      "loss": 0.3740549564361572,
      "memory(GiB)": 37.5,
      "step": 210,
      "token_acc": 0.9186440677966101,
      "train_speed(iter/s)": 1.593623
    },
    {
      "epoch": 0.009211259157705326,
      "grad_norm": 7.658473491668701,
      "learning_rate": 9.99991625930987e-05,
      "loss": 0.46704916954040526,
      "memory(GiB)": 37.5,
      "step": 215,
      "token_acc": 0.8715277777777778,
      "train_speed(iter/s)": 1.591522
    },
    {
      "epoch": 0.009425474486954287,
      "grad_norm": 7.820702075958252,
      "learning_rate": 9.999912319115848e-05,
      "loss": 0.5134871482849122,
      "memory(GiB)": 37.5,
      "step": 220,
      "token_acc": 0.889795918367347,
      "train_speed(iter/s)": 1.590246
    },
    {
      "epoch": 0.009639689816203247,
      "grad_norm": 10.563454627990723,
      "learning_rate": 9.999908288343722e-05,
      "loss": 0.36905412673950194,
      "memory(GiB)": 37.5,
      "step": 225,
      "token_acc": 0.9238754325259516,
      "train_speed(iter/s)": 1.590638
    },
    {
      "epoch": 0.009853905145452209,
      "grad_norm": 7.489234447479248,
      "learning_rate": 9.999904166993568e-05,
      "loss": 0.6234542846679687,
      "memory(GiB)": 37.5,
      "step": 230,
      "token_acc": 0.8741721854304636,
      "train_speed(iter/s)": 1.592308
    },
    {
      "epoch": 0.010068120474701169,
      "grad_norm": 9.480616569519043,
      "learning_rate": 9.999899955065461e-05,
      "loss": 0.27893307209014895,
      "memory(GiB)": 37.5,
      "step": 235,
      "token_acc": 0.9230769230769231,
      "train_speed(iter/s)": 1.593709
    },
    {
      "epoch": 0.01028233580395013,
      "grad_norm": 6.010523796081543,
      "learning_rate": 9.999895652559475e-05,
      "loss": 0.515814733505249,
      "memory(GiB)": 37.5,
      "step": 240,
      "token_acc": 0.8803680981595092,
      "train_speed(iter/s)": 1.593967
    },
    {
      "epoch": 0.010496551133199092,
      "grad_norm": 2.7071032524108887,
      "learning_rate": 9.999891259475688e-05,
      "loss": 0.5466588973999024,
      "memory(GiB)": 37.5,
      "step": 245,
      "token_acc": 0.8641114982578397,
      "train_speed(iter/s)": 1.597942
    },
    {
      "epoch": 0.010710766462448052,
      "grad_norm": 1.9350463151931763,
      "learning_rate": 9.999886775814182e-05,
      "loss": 0.5178678512573243,
      "memory(GiB)": 37.5,
      "step": 250,
      "token_acc": 0.8927536231884058,
      "train_speed(iter/s)": 1.59555
    },
    {
      "epoch": 0.010924981791697014,
      "grad_norm": 10.719970703125,
      "learning_rate": 9.999882201575036e-05,
      "loss": 0.7327447414398194,
      "memory(GiB)": 37.5,
      "step": 255,
      "token_acc": 0.840782122905028,
      "train_speed(iter/s)": 1.594301
    },
    {
      "epoch": 0.011139197120945975,
      "grad_norm": 5.915596008300781,
      "learning_rate": 9.999877536758334e-05,
      "loss": 0.35034244060516356,
      "memory(GiB)": 37.5,
      "step": 260,
      "token_acc": 0.9221789883268483,
      "train_speed(iter/s)": 1.594393
    },
    {
      "epoch": 0.011353412450194935,
      "grad_norm": 2.983351230621338,
      "learning_rate": 9.99987278136416e-05,
      "loss": 0.3717252969741821,
      "memory(GiB)": 37.5,
      "step": 265,
      "token_acc": 0.9102990033222591,
      "train_speed(iter/s)": 1.594807
    },
    {
      "epoch": 0.011567627779443897,
      "grad_norm": 3.788642644882202,
      "learning_rate": 9.9998679353926e-05,
      "loss": 0.4846203327178955,
      "memory(GiB)": 37.5,
      "step": 270,
      "token_acc": 0.8902439024390244,
      "train_speed(iter/s)": 1.594427
    },
    {
      "epoch": 0.011781843108692859,
      "grad_norm": 18.387821197509766,
      "learning_rate": 9.999862998843743e-05,
      "loss": 0.48232064247131345,
      "memory(GiB)": 37.5,
      "step": 275,
      "token_acc": 0.8978102189781022,
      "train_speed(iter/s)": 1.595423
    },
    {
      "epoch": 0.011996058437941819,
      "grad_norm": 6.788666248321533,
      "learning_rate": 9.999857971717678e-05,
      "loss": 0.42172679901123045,
      "memory(GiB)": 37.5,
      "step": 280,
      "token_acc": 0.9145907473309609,
      "train_speed(iter/s)": 1.595964
    },
    {
      "epoch": 0.01221027376719078,
      "grad_norm": 4.882266521453857,
      "learning_rate": 9.999852854014495e-05,
      "loss": 0.5513773918151855,
      "memory(GiB)": 37.5,
      "step": 285,
      "token_acc": 0.9,
      "train_speed(iter/s)": 1.595335
    },
    {
      "epoch": 0.012424489096439742,
      "grad_norm": 3.1192901134490967,
      "learning_rate": 9.999847645734286e-05,
      "loss": 0.5741590023040771,
      "memory(GiB)": 37.5,
      "step": 290,
      "token_acc": 0.8801498127340824,
      "train_speed(iter/s)": 1.593588
    },
    {
      "epoch": 0.012638704425688702,
      "grad_norm": 1.6065020561218262,
      "learning_rate": 9.999842346877148e-05,
      "loss": 0.6212421894073487,
      "memory(GiB)": 37.5,
      "step": 295,
      "token_acc": 0.887719298245614,
      "train_speed(iter/s)": 1.595328
    },
    {
      "epoch": 0.012852919754937664,
      "grad_norm": 5.243360996246338,
      "learning_rate": 9.999836957443175e-05,
      "loss": 0.5061389923095703,
      "memory(GiB)": 37.5,
      "step": 300,
      "token_acc": 0.8674698795180723,
      "train_speed(iter/s)": 1.597761
    },
    {
      "epoch": 0.013067135084186625,
      "grad_norm": 2.6955361366271973,
      "learning_rate": 9.999831477432466e-05,
      "loss": 0.5978442192077636,
      "memory(GiB)": 37.5,
      "step": 305,
      "token_acc": 0.8909090909090909,
      "train_speed(iter/s)": 1.599338
    },
    {
      "epoch": 0.013281350413435585,
      "grad_norm": 2.0817008018493652,
      "learning_rate": 9.99982590684512e-05,
      "loss": 0.8117890357971191,
      "memory(GiB)": 37.5,
      "step": 310,
      "token_acc": 0.7814070351758794,
      "train_speed(iter/s)": 1.598153
    },
    {
      "epoch": 0.013495565742684547,
      "grad_norm": 4.403717517852783,
      "learning_rate": 9.999820245681236e-05,
      "loss": 0.3038931131362915,
      "memory(GiB)": 37.5,
      "step": 315,
      "token_acc": 0.9394904458598726,
      "train_speed(iter/s)": 1.596641
    },
    {
      "epoch": 0.013709781071933507,
      "grad_norm": 4.085194110870361,
      "learning_rate": 9.999814493940918e-05,
      "loss": 0.46436023712158203,
      "memory(GiB)": 37.5,
      "step": 320,
      "token_acc": 0.8921933085501859,
      "train_speed(iter/s)": 1.597431
    },
    {
      "epoch": 0.013923996401182468,
      "grad_norm": 3.3823909759521484,
      "learning_rate": 9.999808651624271e-05,
      "loss": 0.6125343799591064,
      "memory(GiB)": 37.5,
      "step": 325,
      "token_acc": 0.897887323943662,
      "train_speed(iter/s)": 1.597719
    },
    {
      "epoch": 0.01413821173043143,
      "grad_norm": 2.7831838130950928,
      "learning_rate": 9.9998027187314e-05,
      "loss": 0.2069556474685669,
      "memory(GiB)": 37.5,
      "step": 330,
      "token_acc": 0.9566666666666667,
      "train_speed(iter/s)": 1.598621
    },
    {
      "epoch": 0.01435242705968039,
      "grad_norm": 2.0364551544189453,
      "learning_rate": 9.999796695262413e-05,
      "loss": 0.288651704788208,
      "memory(GiB)": 37.5,
      "step": 335,
      "token_acc": 0.9361702127659575,
      "train_speed(iter/s)": 1.597348
    },
    {
      "epoch": 0.014566642388929352,
      "grad_norm": 2.626919984817505,
      "learning_rate": 9.999790581217418e-05,
      "loss": 0.41779317855834963,
      "memory(GiB)": 37.5,
      "step": 340,
      "token_acc": 0.8868613138686131,
      "train_speed(iter/s)": 1.596166
    },
    {
      "epoch": 0.014780857718178313,
      "grad_norm": 1.1496812105178833,
      "learning_rate": 9.999784376596526e-05,
      "loss": 0.8692158699035645,
      "memory(GiB)": 37.5,
      "step": 345,
      "token_acc": 0.8304498269896193,
      "train_speed(iter/s)": 1.59527
    },
    {
      "epoch": 0.014995073047427273,
      "grad_norm": 21.77144432067871,
      "learning_rate": 9.999778081399851e-05,
      "loss": 0.4736666679382324,
      "memory(GiB)": 37.5,
      "step": 350,
      "token_acc": 0.8617021276595744,
      "train_speed(iter/s)": 1.595339
    },
    {
      "epoch": 0.015209288376676235,
      "grad_norm": 2.4206700325012207,
      "learning_rate": 9.999771695627505e-05,
      "loss": 0.7434126377105713,
      "memory(GiB)": 37.5,
      "step": 355,
      "token_acc": 0.8715596330275229,
      "train_speed(iter/s)": 1.597642
    },
    {
      "epoch": 0.015423503705925197,
      "grad_norm": 1.0732156038284302,
      "learning_rate": 9.999765219279605e-05,
      "loss": 0.329630184173584,
      "memory(GiB)": 37.5,
      "step": 360,
      "token_acc": 0.9285714285714286,
      "train_speed(iter/s)": 1.600512
    },
    {
      "epoch": 0.015637719035174157,
      "grad_norm": 3.207695484161377,
      "learning_rate": 9.999758652356268e-05,
      "loss": 0.5550663471221924,
      "memory(GiB)": 37.5,
      "step": 365,
      "token_acc": 0.8937728937728938,
      "train_speed(iter/s)": 1.601205
    },
    {
      "epoch": 0.015851934364423118,
      "grad_norm": 9.176240921020508,
      "learning_rate": 9.999751994857614e-05,
      "loss": 0.44768366813659666,
      "memory(GiB)": 37.5,
      "step": 370,
      "token_acc": 0.9,
      "train_speed(iter/s)": 1.600252
    },
    {
      "epoch": 0.01606614969367208,
      "grad_norm": 1.6933114528656006,
      "learning_rate": 9.999745246783761e-05,
      "loss": 0.30030553340911864,
      "memory(GiB)": 37.5,
      "step": 375,
      "token_acc": 0.9278996865203761,
      "train_speed(iter/s)": 1.601716
    },
    {
      "epoch": 0.01628036502292104,
      "grad_norm": 3.441840171813965,
      "learning_rate": 9.999738408134832e-05,
      "loss": 0.557397985458374,
      "memory(GiB)": 37.5,
      "step": 380,
      "token_acc": 0.8806451612903226,
      "train_speed(iter/s)": 1.601425
    },
    {
      "epoch": 0.01649458035217,
      "grad_norm": 2.432704448699951,
      "learning_rate": 9.999731478910952e-05,
      "loss": 0.6375790596008301,
      "memory(GiB)": 37.5,
      "step": 385,
      "token_acc": 0.8679245283018868,
      "train_speed(iter/s)": 1.603461
    },
    {
      "epoch": 0.01670879568141896,
      "grad_norm": 21.01386833190918,
      "learning_rate": 9.999724459112247e-05,
      "loss": 0.8644254684448243,
      "memory(GiB)": 37.5,
      "step": 390,
      "token_acc": 0.8057324840764332,
      "train_speed(iter/s)": 1.602844
    },
    {
      "epoch": 0.016923011010667923,
      "grad_norm": 2.6111390590667725,
      "learning_rate": 9.999717348738843e-05,
      "loss": 0.3196715354919434,
      "memory(GiB)": 37.5,
      "step": 395,
      "token_acc": 0.9330708661417323,
      "train_speed(iter/s)": 1.602462
    },
    {
      "epoch": 0.017137226339916885,
      "grad_norm": 2.777621269226074,
      "learning_rate": 9.999710147790869e-05,
      "loss": 0.9574935913085938,
      "memory(GiB)": 37.5,
      "step": 400,
      "token_acc": 0.8109965635738832,
      "train_speed(iter/s)": 1.602791
    },
    {
      "epoch": 0.017351441669165846,
      "grad_norm": 3.066444158554077,
      "learning_rate": 9.999702856268456e-05,
      "loss": 0.29958043098449705,
      "memory(GiB)": 37.5,
      "step": 405,
      "token_acc": 0.9444444444444444,
      "train_speed(iter/s)": 1.602091
    },
    {
      "epoch": 0.017565656998414808,
      "grad_norm": 1.603281855583191,
      "learning_rate": 9.999695474171735e-05,
      "loss": 0.27283363342285155,
      "memory(GiB)": 37.5,
      "step": 410,
      "token_acc": 0.9421487603305785,
      "train_speed(iter/s)": 1.600658
    },
    {
      "epoch": 0.017779872327663766,
      "grad_norm": 4.4891743659973145,
      "learning_rate": 9.99968800150084e-05,
      "loss": 0.5744076728820801,
      "memory(GiB)": 37.5,
      "step": 415,
      "token_acc": 0.8875502008032129,
      "train_speed(iter/s)": 1.600338
    },
    {
      "epoch": 0.017994087656912728,
      "grad_norm": 2.173382520675659,
      "learning_rate": 9.999680438255908e-05,
      "loss": 0.31710736751556395,
      "memory(GiB)": 37.5,
      "step": 420,
      "token_acc": 0.9172932330827067,
      "train_speed(iter/s)": 1.598889
    },
    {
      "epoch": 0.01820830298616169,
      "grad_norm": 4.699966907501221,
      "learning_rate": 9.999672784437075e-05,
      "loss": 0.4020712852478027,
      "memory(GiB)": 37.5,
      "step": 425,
      "token_acc": 0.896797153024911,
      "train_speed(iter/s)": 1.597389
    },
    {
      "epoch": 0.01842251831541065,
      "grad_norm": 2.7447617053985596,
      "learning_rate": 9.999665040044477e-05,
      "loss": 0.9783286094665528,
      "memory(GiB)": 37.5,
      "step": 430,
      "token_acc": 0.8021201413427562,
      "train_speed(iter/s)": 1.59801
    },
    {
      "epoch": 0.018636733644659613,
      "grad_norm": 2.9146900177001953,
      "learning_rate": 9.99965720507826e-05,
      "loss": 0.5752747535705567,
      "memory(GiB)": 37.5,
      "step": 435,
      "token_acc": 0.8657718120805369,
      "train_speed(iter/s)": 1.598449
    },
    {
      "epoch": 0.018850948973908575,
      "grad_norm": 3.7495129108428955,
      "learning_rate": 9.999649279538562e-05,
      "loss": 0.5166052341461181,
      "memory(GiB)": 37.5,
      "step": 440,
      "token_acc": 0.9022556390977443,
      "train_speed(iter/s)": 1.59966
    },
    {
      "epoch": 0.019065164303157533,
      "grad_norm": 8.264739990234375,
      "learning_rate": 9.999641263425524e-05,
      "loss": 0.5609297752380371,
      "memory(GiB)": 37.5,
      "step": 445,
      "token_acc": 0.881578947368421,
      "train_speed(iter/s)": 1.599844
    },
    {
      "epoch": 0.019279379632406494,
      "grad_norm": 3.1182284355163574,
      "learning_rate": 9.999633156739298e-05,
      "loss": 0.26049754619598386,
      "memory(GiB)": 37.5,
      "step": 450,
      "token_acc": 0.9355932203389831,
      "train_speed(iter/s)": 1.598198
    },
    {
      "epoch": 0.019493594961655456,
      "grad_norm": 2.6130237579345703,
      "learning_rate": 9.999624959480025e-05,
      "loss": 0.3706441164016724,
      "memory(GiB)": 37.5,
      "step": 455,
      "token_acc": 0.9210526315789473,
      "train_speed(iter/s)": 1.597391
    },
    {
      "epoch": 0.019707810290904418,
      "grad_norm": 3.1408162117004395,
      "learning_rate": 9.999616671647858e-05,
      "loss": 0.6261306762695312,
      "memory(GiB)": 37.5,
      "step": 460,
      "token_acc": 0.8765060240963856,
      "train_speed(iter/s)": 1.597834
    },
    {
      "epoch": 0.01992202562015338,
      "grad_norm": 1.5691791772842407,
      "learning_rate": 9.999608293242943e-05,
      "loss": 0.4467515468597412,
      "memory(GiB)": 37.5,
      "step": 465,
      "token_acc": 0.8958990536277602,
      "train_speed(iter/s)": 1.597067
    },
    {
      "epoch": 0.020136240949402338,
      "grad_norm": 0.5782378315925598,
      "learning_rate": 9.999599824265436e-05,
      "loss": 0.2356778860092163,
      "memory(GiB)": 37.5,
      "step": 470,
      "token_acc": 0.9591078066914498,
      "train_speed(iter/s)": 1.596383
    },
    {
      "epoch": 0.0203504562786513,
      "grad_norm": 2.6782076358795166,
      "learning_rate": 9.999591264715485e-05,
      "loss": 0.462082576751709,
      "memory(GiB)": 37.5,
      "step": 475,
      "token_acc": 0.8793650793650793,
      "train_speed(iter/s)": 1.596656
    },
    {
      "epoch": 0.02056467160790026,
      "grad_norm": 3.1960690021514893,
      "learning_rate": 9.99958261459325e-05,
      "loss": 0.5928387641906738,
      "memory(GiB)": 37.5,
      "step": 480,
      "token_acc": 0.8697183098591549,
      "train_speed(iter/s)": 1.597514
    },
    {
      "epoch": 0.020778886937149223,
      "grad_norm": 1.192889928817749,
      "learning_rate": 9.999573873898887e-05,
      "loss": 0.4984272956848145,
      "memory(GiB)": 37.5,
      "step": 485,
      "token_acc": 0.8830645161290323,
      "train_speed(iter/s)": 1.598017
    },
    {
      "epoch": 0.020993102266398184,
      "grad_norm": 2.858001470565796,
      "learning_rate": 9.999565042632553e-05,
      "loss": 0.405056095123291,
      "memory(GiB)": 37.5,
      "step": 490,
      "token_acc": 0.9055944055944056,
      "train_speed(iter/s)": 1.598171
    },
    {
      "epoch": 0.021207317595647146,
      "grad_norm": 3.2187016010284424,
      "learning_rate": 9.999556120794407e-05,
      "loss": 0.5845155715942383,
      "memory(GiB)": 37.5,
      "step": 495,
      "token_acc": 0.875,
      "train_speed(iter/s)": 1.597507
    },
    {
      "epoch": 0.021421532924896104,
      "grad_norm": 2.782825469970703,
      "learning_rate": 9.999547108384612e-05,
      "loss": 0.3612308740615845,
      "memory(GiB)": 37.5,
      "step": 500,
      "token_acc": 0.9260450160771704,
      "train_speed(iter/s)": 1.596431
    },
    {
      "epoch": 0.021421532924896104,
      "eval_loss": 2.7975118160247803,
      "eval_runtime": 11.6902,
      "eval_samples_per_second": 8.554,
      "eval_steps_per_second": 8.554,
      "eval_token_acc": 0.41278295605858856,
      "step": 500
    },
    {
      "epoch": 0.021635748254145066,
      "grad_norm": 3.0929579734802246,
      "learning_rate": 9.999538005403332e-05,
      "loss": 0.2719956159591675,
      "memory(GiB)": 37.5,
      "step": 505,
      "token_acc": 0.5549076773566569,
      "train_speed(iter/s)": 1.535152
    },
    {
      "epoch": 0.021849963583394028,
      "grad_norm": 2.1490466594696045,
      "learning_rate": 9.999528811850732e-05,
      "loss": 0.2739660978317261,
      "memory(GiB)": 37.5,
      "step": 510,
      "token_acc": 0.9323308270676691,
      "train_speed(iter/s)": 1.534688
    },
    {
      "epoch": 0.02206417891264299,
      "grad_norm": 19.568870544433594,
      "learning_rate": 9.999519527726974e-05,
      "loss": 0.44692068099975585,
      "memory(GiB)": 37.5,
      "step": 515,
      "token_acc": 0.8656716417910447,
      "train_speed(iter/s)": 1.536063
    },
    {
      "epoch": 0.02227839424189195,
      "grad_norm": 1.5414575338363647,
      "learning_rate": 9.999510153032234e-05,
      "loss": 0.3300382375717163,
      "memory(GiB)": 37.5,
      "step": 520,
      "token_acc": 0.9042553191489362,
      "train_speed(iter/s)": 1.535326
    },
    {
      "epoch": 0.022492609571140913,
      "grad_norm": 2.7912769317626953,
      "learning_rate": 9.999500687766675e-05,
      "loss": 0.43247041702270506,
      "memory(GiB)": 37.5,
      "step": 525,
      "token_acc": 0.8990536277602523,
      "train_speed(iter/s)": 1.535081
    },
    {
      "epoch": 0.02270682490038987,
      "grad_norm": 3.2685458660125732,
      "learning_rate": 9.999491131930472e-05,
      "loss": 0.4273550510406494,
      "memory(GiB)": 37.5,
      "step": 530,
      "token_acc": 0.9026845637583892,
      "train_speed(iter/s)": 1.536094
    },
    {
      "epoch": 0.022921040229638832,
      "grad_norm": 9.24952507019043,
      "learning_rate": 9.999481485523798e-05,
      "loss": 0.4911740779876709,
      "memory(GiB)": 37.5,
      "step": 535,
      "token_acc": 0.8870967741935484,
      "train_speed(iter/s)": 1.535483
    },
    {
      "epoch": 0.023135255558887794,
      "grad_norm": 3.0415287017822266,
      "learning_rate": 9.999471748546826e-05,
      "loss": 0.51724271774292,
      "memory(GiB)": 37.5,
      "step": 540,
      "token_acc": 0.8731707317073171,
      "train_speed(iter/s)": 1.535609
    },
    {
      "epoch": 0.023349470888136756,
      "grad_norm": 3.4089932441711426,
      "learning_rate": 9.999461920999733e-05,
      "loss": 0.5261340141296387,
      "memory(GiB)": 37.5,
      "step": 545,
      "token_acc": 0.888135593220339,
      "train_speed(iter/s)": 1.535769
    },
    {
      "epoch": 0.023563686217385717,
      "grad_norm": 18.20499610900879,
      "learning_rate": 9.999452002882699e-05,
      "loss": 0.49789934158325194,
      "memory(GiB)": 37.5,
      "step": 550,
      "token_acc": 0.8901734104046243,
      "train_speed(iter/s)": 1.534946
    },
    {
      "epoch": 0.023777901546634676,
      "grad_norm": 1.6879369020462036,
      "learning_rate": 9.999441994195902e-05,
      "loss": 0.46434779167175294,
      "memory(GiB)": 37.5,
      "step": 555,
      "token_acc": 0.8896797153024911,
      "train_speed(iter/s)": 1.53443
    },
    {
      "epoch": 0.023992116875883637,
      "grad_norm": 4.219235420227051,
      "learning_rate": 9.999431894939522e-05,
      "loss": 0.455576229095459,
      "memory(GiB)": 37.5,
      "step": 560,
      "token_acc": 0.912,
      "train_speed(iter/s)": 1.534119
    },
    {
      "epoch": 0.0242063322051326,
      "grad_norm": 3.3723971843719482,
      "learning_rate": 9.999421705113743e-05,
      "loss": 0.31247141361236574,
      "memory(GiB)": 37.5,
      "step": 565,
      "token_acc": 0.9265536723163842,
      "train_speed(iter/s)": 1.533377
    },
    {
      "epoch": 0.02442054753438156,
      "grad_norm": 8.35122299194336,
      "learning_rate": 9.999411424718752e-05,
      "loss": 0.5269171714782714,
      "memory(GiB)": 37.5,
      "step": 570,
      "token_acc": 0.8896321070234113,
      "train_speed(iter/s)": 1.532915
    },
    {
      "epoch": 0.024634762863630522,
      "grad_norm": 4.387744426727295,
      "learning_rate": 9.999401053754731e-05,
      "loss": 0.5076206207275391,
      "memory(GiB)": 37.5,
      "step": 575,
      "token_acc": 0.872093023255814,
      "train_speed(iter/s)": 1.532767
    },
    {
      "epoch": 0.024848978192879484,
      "grad_norm": 7.58473014831543,
      "learning_rate": 9.999390592221871e-05,
      "loss": 0.5435320854187011,
      "memory(GiB)": 37.5,
      "step": 580,
      "token_acc": 0.8801261829652997,
      "train_speed(iter/s)": 1.532441
    },
    {
      "epoch": 0.025063193522128442,
      "grad_norm": 5.430418491363525,
      "learning_rate": 9.999380040120362e-05,
      "loss": 0.4074378967285156,
      "memory(GiB)": 37.5,
      "step": 585,
      "token_acc": 0.907051282051282,
      "train_speed(iter/s)": 1.533476
    },
    {
      "epoch": 0.025277408851377404,
      "grad_norm": 5.6270222663879395,
      "learning_rate": 9.999369397450392e-05,
      "loss": 0.29258089065551757,
      "memory(GiB)": 37.5,
      "step": 590,
      "token_acc": 0.9219330855018587,
      "train_speed(iter/s)": 1.533386
    },
    {
      "epoch": 0.025491624180626365,
      "grad_norm": 3.47228741645813,
      "learning_rate": 9.999358664212158e-05,
      "loss": 0.46176977157592775,
      "memory(GiB)": 37.5,
      "step": 595,
      "token_acc": 0.9120879120879121,
      "train_speed(iter/s)": 1.532775
    },
    {
      "epoch": 0.025705839509875327,
      "grad_norm": 2.8095438480377197,
      "learning_rate": 9.999347840405848e-05,
      "loss": 0.5177341938018799,
      "memory(GiB)": 37.5,
      "step": 600,
      "token_acc": 0.8825622775800712,
      "train_speed(iter/s)": 1.532215
    },
    {
      "epoch": 0.02592005483912429,
      "grad_norm": 2.0089073181152344,
      "learning_rate": 9.999336926031666e-05,
      "loss": 0.5143534183502197,
      "memory(GiB)": 37.5,
      "step": 605,
      "token_acc": 0.8606271777003485,
      "train_speed(iter/s)": 1.531688
    },
    {
      "epoch": 0.02613427016837325,
      "grad_norm": 4.277317523956299,
      "learning_rate": 9.999325921089804e-05,
      "loss": 0.6927183151245118,
      "memory(GiB)": 37.5,
      "step": 610,
      "token_acc": 0.8675213675213675,
      "train_speed(iter/s)": 1.530854
    },
    {
      "epoch": 0.02634848549762221,
      "grad_norm": 1.7104228734970093,
      "learning_rate": 9.999314825580464e-05,
      "loss": 0.22567715644836425,
      "memory(GiB)": 37.5,
      "step": 615,
      "token_acc": 0.9471698113207547,
      "train_speed(iter/s)": 1.530962
    },
    {
      "epoch": 0.02656270082687117,
      "grad_norm": 1.8629549741744995,
      "learning_rate": 9.999303639503845e-05,
      "loss": 0.43591885566711425,
      "memory(GiB)": 37.5,
      "step": 620,
      "token_acc": 0.8933333333333333,
      "train_speed(iter/s)": 1.532513
    },
    {
      "epoch": 0.026776916156120132,
      "grad_norm": 5.931727886199951,
      "learning_rate": 9.999292362860151e-05,
      "loss": 0.48184781074523925,
      "memory(GiB)": 37.5,
      "step": 625,
      "token_acc": 0.8773006134969326,
      "train_speed(iter/s)": 1.532107
    },
    {
      "epoch": 0.026991131485369094,
      "grad_norm": 5.596036911010742,
      "learning_rate": 9.999280995649588e-05,
      "loss": 0.5929035663604736,
      "memory(GiB)": 37.5,
      "step": 630,
      "token_acc": 0.8419117647058824,
      "train_speed(iter/s)": 1.534377
    },
    {
      "epoch": 0.027205346814618055,
      "grad_norm": 1.9156562089920044,
      "learning_rate": 9.999269537872357e-05,
      "loss": 0.48219833374023435,
      "memory(GiB)": 37.5,
      "step": 635,
      "token_acc": 0.8817204301075269,
      "train_speed(iter/s)": 1.534226
    },
    {
      "epoch": 0.027419562143867014,
      "grad_norm": 4.1125078201293945,
      "learning_rate": 9.99925798952867e-05,
      "loss": 0.594445276260376,
      "memory(GiB)": 37.5,
      "step": 640,
      "token_acc": 0.8737864077669902,
      "train_speed(iter/s)": 1.535033
    },
    {
      "epoch": 0.027633777473115975,
      "grad_norm": 5.104694843292236,
      "learning_rate": 9.999246350618734e-05,
      "loss": 0.3508764266967773,
      "memory(GiB)": 37.5,
      "step": 645,
      "token_acc": 0.9194630872483222,
      "train_speed(iter/s)": 1.535305
    },
    {
      "epoch": 0.027847992802364937,
      "grad_norm": 0.9887524843215942,
      "learning_rate": 9.999234621142764e-05,
      "loss": 0.26190521717071535,
      "memory(GiB)": 37.5,
      "step": 650,
      "token_acc": 0.952076677316294,
      "train_speed(iter/s)": 1.534936
    },
    {
      "epoch": 0.0280622081316139,
      "grad_norm": 1.7562607526779175,
      "learning_rate": 9.999222801100966e-05,
      "loss": 0.3767815351486206,
      "memory(GiB)": 37.5,
      "step": 655,
      "token_acc": 0.9178082191780822,
      "train_speed(iter/s)": 1.536059
    },
    {
      "epoch": 0.02827642346086286,
      "grad_norm": 3.4479074478149414,
      "learning_rate": 9.999210890493558e-05,
      "loss": 0.5469394207000733,
      "memory(GiB)": 37.5,
      "step": 660,
      "token_acc": 0.8622950819672132,
      "train_speed(iter/s)": 1.536771
    },
    {
      "epoch": 0.028490638790111822,
      "grad_norm": 2.079695701599121,
      "learning_rate": 9.999198889320755e-05,
      "loss": 0.3911888599395752,
      "memory(GiB)": 37.5,
      "step": 665,
      "token_acc": 0.907051282051282,
      "train_speed(iter/s)": 1.537522
    },
    {
      "epoch": 0.02870485411936078,
      "grad_norm": 16.93535614013672,
      "learning_rate": 9.999186797582775e-05,
      "loss": 0.5500761032104492,
      "memory(GiB)": 37.5,
      "step": 670,
      "token_acc": 0.8861538461538462,
      "train_speed(iter/s)": 1.537979
    },
    {
      "epoch": 0.028919069448609742,
      "grad_norm": 0.9915966987609863,
      "learning_rate": 9.999174615279836e-05,
      "loss": 0.35157554149627684,
      "memory(GiB)": 37.5,
      "step": 675,
      "token_acc": 0.9375,
      "train_speed(iter/s)": 1.537608
    },
    {
      "epoch": 0.029133284777858703,
      "grad_norm": 4.492029190063477,
      "learning_rate": 9.999162342412161e-05,
      "loss": 0.7387548446655273,
      "memory(GiB)": 37.5,
      "step": 680,
      "token_acc": 0.8228782287822878,
      "train_speed(iter/s)": 1.539182
    },
    {
      "epoch": 0.029347500107107665,
      "grad_norm": 5.000621795654297,
      "learning_rate": 9.999149978979969e-05,
      "loss": 0.4824190616607666,
      "memory(GiB)": 37.5,
      "step": 685,
      "token_acc": 0.9118541033434651,
      "train_speed(iter/s)": 1.540438
    },
    {
      "epoch": 0.029561715436356627,
      "grad_norm": 11.169784545898438,
      "learning_rate": 9.999137524983485e-05,
      "loss": 0.43438305854797366,
      "memory(GiB)": 37.5,
      "step": 690,
      "token_acc": 0.9242424242424242,
      "train_speed(iter/s)": 1.541368
    },
    {
      "epoch": 0.02977593076560559,
      "grad_norm": 1.4074715375900269,
      "learning_rate": 9.999124980422936e-05,
      "loss": 0.4303253173828125,
      "memory(GiB)": 37.5,
      "step": 695,
      "token_acc": 0.921146953405018,
      "train_speed(iter/s)": 1.541026
    },
    {
      "epoch": 0.029990146094854547,
      "grad_norm": 4.374685287475586,
      "learning_rate": 9.999112345298549e-05,
      "loss": 0.31561267375946045,
      "memory(GiB)": 37.5,
      "step": 700,
      "token_acc": 0.9330855018587361,
      "train_speed(iter/s)": 1.540852
    },
    {
      "epoch": 0.03020436142410351,
      "grad_norm": 2.667980194091797,
      "learning_rate": 9.999099619610552e-05,
      "loss": 0.39325225353240967,
      "memory(GiB)": 37.5,
      "step": 705,
      "token_acc": 0.9301310043668122,
      "train_speed(iter/s)": 1.540221
    },
    {
      "epoch": 0.03041857675335247,
      "grad_norm": 3.627833366394043,
      "learning_rate": 9.999086803359174e-05,
      "loss": 0.40247907638549807,
      "memory(GiB)": 37.5,
      "step": 710,
      "token_acc": 0.920265780730897,
      "train_speed(iter/s)": 1.540041
    },
    {
      "epoch": 0.03063279208260143,
      "grad_norm": 9.585838317871094,
      "learning_rate": 9.99907389654465e-05,
      "loss": 0.3499692678451538,
      "memory(GiB)": 37.5,
      "step": 715,
      "token_acc": 0.9121338912133892,
      "train_speed(iter/s)": 1.540381
    },
    {
      "epoch": 0.030847007411850393,
      "grad_norm": 3.949024200439453,
      "learning_rate": 9.999060899167214e-05,
      "loss": 0.237078857421875,
      "memory(GiB)": 37.5,
      "step": 720,
      "token_acc": 0.93359375,
      "train_speed(iter/s)": 1.540724
    },
    {
      "epoch": 0.03106122274109935,
      "grad_norm": 1.7394932508468628,
      "learning_rate": 9.9990478112271e-05,
      "loss": 0.34479718208312987,
      "memory(GiB)": 37.5,
      "step": 725,
      "token_acc": 0.911864406779661,
      "train_speed(iter/s)": 1.540744
    },
    {
      "epoch": 0.03127543807034831,
      "grad_norm": 2.779735803604126,
      "learning_rate": 9.999034632724546e-05,
      "loss": 0.37788422107696534,
      "memory(GiB)": 37.5,
      "step": 730,
      "token_acc": 0.9292307692307692,
      "train_speed(iter/s)": 1.541058
    },
    {
      "epoch": 0.03148965339959728,
      "grad_norm": 1.852493166923523,
      "learning_rate": 9.999021363659788e-05,
      "loss": 0.6921148300170898,
      "memory(GiB)": 37.5,
      "step": 735,
      "token_acc": 0.8653198653198653,
      "train_speed(iter/s)": 1.541423
    },
    {
      "epoch": 0.031703868728846236,
      "grad_norm": 0.9349266886711121,
      "learning_rate": 9.99900800403307e-05,
      "loss": 0.21682896614074706,
      "memory(GiB)": 37.5,
      "step": 740,
      "token_acc": 0.9425675675675675,
      "train_speed(iter/s)": 1.540994
    },
    {
      "epoch": 0.031918084058095195,
      "grad_norm": 8.975934982299805,
      "learning_rate": 9.998994553844632e-05,
      "loss": 0.428836727142334,
      "memory(GiB)": 37.5,
      "step": 745,
      "token_acc": 0.9118541033434651,
      "train_speed(iter/s)": 1.540857
    },
    {
      "epoch": 0.03213229938734416,
      "grad_norm": 2.3629822731018066,
      "learning_rate": 9.99898101309472e-05,
      "loss": 0.33065619468688967,
      "memory(GiB)": 37.5,
      "step": 750,
      "token_acc": 0.9331103678929766,
      "train_speed(iter/s)": 1.540187
    },
    {
      "epoch": 0.03234651471659312,
      "grad_norm": 7.855225563049316,
      "learning_rate": 9.998967381783575e-05,
      "loss": 0.8223451614379883,
      "memory(GiB)": 37.5,
      "step": 755,
      "token_acc": 0.8458904109589042,
      "train_speed(iter/s)": 1.5409
    },
    {
      "epoch": 0.03256073004584208,
      "grad_norm": 3.2996723651885986,
      "learning_rate": 9.998953659911447e-05,
      "loss": 0.598546314239502,
      "memory(GiB)": 37.5,
      "step": 760,
      "token_acc": 0.8862876254180602,
      "train_speed(iter/s)": 1.541645
    },
    {
      "epoch": 0.03277494537509104,
      "grad_norm": 0.6902215480804443,
      "learning_rate": 9.998939847478585e-05,
      "loss": 0.3614722490310669,
      "memory(GiB)": 37.5,
      "step": 765,
      "token_acc": 0.9185185185185185,
      "train_speed(iter/s)": 1.540245
    },
    {
      "epoch": 0.03298916070434,
      "grad_norm": 2.2645633220672607,
      "learning_rate": 9.998925944485238e-05,
      "loss": 0.48872909545898435,
      "memory(GiB)": 38.87,
      "step": 770,
      "token_acc": 0.8937007874015748,
      "train_speed(iter/s)": 1.541166
    },
    {
      "epoch": 0.033203376033588965,
      "grad_norm": 1.8801430463790894,
      "learning_rate": 9.998911950931658e-05,
      "loss": 0.5205110549926758,
      "memory(GiB)": 38.87,
      "step": 775,
      "token_acc": 0.9100346020761245,
      "train_speed(iter/s)": 1.541245
    },
    {
      "epoch": 0.03341759136283792,
      "grad_norm": 3.595539093017578,
      "learning_rate": 9.998897866818099e-05,
      "loss": 0.36504881381988524,
      "memory(GiB)": 38.87,
      "step": 780,
      "token_acc": 0.9351851851851852,
      "train_speed(iter/s)": 1.541212
    },
    {
      "epoch": 0.03363180669208689,
      "grad_norm": 2.0644922256469727,
      "learning_rate": 9.998883692144817e-05,
      "loss": 0.21479194164276122,
      "memory(GiB)": 38.87,
      "step": 785,
      "token_acc": 0.945619335347432,
      "train_speed(iter/s)": 1.540907
    },
    {
      "epoch": 0.033846022021335846,
      "grad_norm": 1.4296272993087769,
      "learning_rate": 9.998869426912065e-05,
      "loss": 0.3351928234100342,
      "memory(GiB)": 38.87,
      "step": 790,
      "token_acc": 0.8934707903780069,
      "train_speed(iter/s)": 1.540714
    },
    {
      "epoch": 0.034060237350584804,
      "grad_norm": 2.193852186203003,
      "learning_rate": 9.998855071120104e-05,
      "loss": 0.603451156616211,
      "memory(GiB)": 43.84,
      "step": 795,
      "token_acc": 0.8564231738035264,
      "train_speed(iter/s)": 1.541129
    },
    {
      "epoch": 0.03427445267983377,
      "grad_norm": 1.8556686639785767,
      "learning_rate": 9.998840624769196e-05,
      "loss": 0.6407320022583007,
      "memory(GiB)": 43.84,
      "step": 800,
      "token_acc": 0.8717948717948718,
      "train_speed(iter/s)": 1.540613
    },
    {
      "epoch": 0.03448866800908273,
      "grad_norm": 5.794185638427734,
      "learning_rate": 9.9988260878596e-05,
      "loss": 0.506827974319458,
      "memory(GiB)": 43.84,
      "step": 805,
      "token_acc": 0.8806451612903226,
      "train_speed(iter/s)": 1.541607
    },
    {
      "epoch": 0.03470288333833169,
      "grad_norm": 2.377993106842041,
      "learning_rate": 9.99881146039158e-05,
      "loss": 0.45647807121276857,
      "memory(GiB)": 46.34,
      "step": 810,
      "token_acc": 0.9004149377593361,
      "train_speed(iter/s)": 1.541177
    },
    {
      "epoch": 0.03491709866758065,
      "grad_norm": 2.1459977626800537,
      "learning_rate": 9.998796742365402e-05,
      "loss": 0.7901912212371827,
      "memory(GiB)": 46.34,
      "step": 815,
      "token_acc": 0.8502994011976048,
      "train_speed(iter/s)": 1.540799
    },
    {
      "epoch": 0.035131313996829616,
      "grad_norm": 1.7076811790466309,
      "learning_rate": 9.99878193378133e-05,
      "loss": 0.4915444850921631,
      "memory(GiB)": 46.34,
      "step": 820,
      "token_acc": 0.8833333333333333,
      "train_speed(iter/s)": 1.540874
    },
    {
      "epoch": 0.035345529326078574,
      "grad_norm": 2.646634101867676,
      "learning_rate": 9.998767034639636e-05,
      "loss": 0.2828678131103516,
      "memory(GiB)": 46.34,
      "step": 825,
      "token_acc": 0.94,
      "train_speed(iter/s)": 1.541539
    },
    {
      "epoch": 0.03555974465532753,
      "grad_norm": 7.530813217163086,
      "learning_rate": 9.998752044940587e-05,
      "loss": 0.5640981197357178,
      "memory(GiB)": 46.34,
      "step": 830,
      "token_acc": 0.9032258064516129,
      "train_speed(iter/s)": 1.541242
    },
    {
      "epoch": 0.0357739599845765,
      "grad_norm": 2.490334987640381,
      "learning_rate": 9.998736964684454e-05,
      "loss": 0.6337035179138184,
      "memory(GiB)": 46.34,
      "step": 835,
      "token_acc": 0.8539682539682539,
      "train_speed(iter/s)": 1.540477
    },
    {
      "epoch": 0.035988175313825456,
      "grad_norm": 3.5539307594299316,
      "learning_rate": 9.998721793871513e-05,
      "loss": 0.4594445705413818,
      "memory(GiB)": 46.34,
      "step": 840,
      "token_acc": 0.9052631578947369,
      "train_speed(iter/s)": 1.540459
    },
    {
      "epoch": 0.03620239064307442,
      "grad_norm": 6.169102191925049,
      "learning_rate": 9.998706532502038e-05,
      "loss": 0.6339198112487793,
      "memory(GiB)": 46.34,
      "step": 845,
      "token_acc": 0.8452722063037249,
      "train_speed(iter/s)": 1.53969
    },
    {
      "epoch": 0.03641660597232338,
      "grad_norm": 1.6487029790878296,
      "learning_rate": 9.998691180576306e-05,
      "loss": 0.2965723514556885,
      "memory(GiB)": 46.34,
      "step": 850,
      "token_acc": 0.9330985915492958,
      "train_speed(iter/s)": 1.539564
    },
    {
      "epoch": 0.03663082130157234,
      "grad_norm": 1.9045162200927734,
      "learning_rate": 9.998675738094591e-05,
      "loss": 0.3619127988815308,
      "memory(GiB)": 46.34,
      "step": 855,
      "token_acc": 0.9110169491525424,
      "train_speed(iter/s)": 1.539488
    },
    {
      "epoch": 0.0368450366308213,
      "grad_norm": 2.148482322692871,
      "learning_rate": 9.998660205057179e-05,
      "loss": 0.32315311431884763,
      "memory(GiB)": 46.34,
      "step": 860,
      "token_acc": 0.9236363636363636,
      "train_speed(iter/s)": 1.539673
    },
    {
      "epoch": 0.03705925196007026,
      "grad_norm": 3.091083526611328,
      "learning_rate": 9.998644581464348e-05,
      "loss": 0.44289202690124513,
      "memory(GiB)": 51.38,
      "step": 865,
      "token_acc": 0.9039145907473309,
      "train_speed(iter/s)": 1.539281
    },
    {
      "epoch": 0.037273467289319226,
      "grad_norm": 8.895548820495605,
      "learning_rate": 9.998628867316378e-05,
      "loss": 0.38748114109039306,
      "memory(GiB)": 51.38,
      "step": 870,
      "token_acc": 0.9142857142857143,
      "train_speed(iter/s)": 1.540028
    },
    {
      "epoch": 0.037487682618568184,
      "grad_norm": 5.906196594238281,
      "learning_rate": 9.99861306261356e-05,
      "loss": 0.20566120147705078,
      "memory(GiB)": 51.38,
      "step": 875,
      "token_acc": 0.9615384615384616,
      "train_speed(iter/s)": 1.539577
    },
    {
      "epoch": 0.03770189794781715,
      "grad_norm": 1.3452590703964233,
      "learning_rate": 9.998597167356176e-05,
      "loss": 0.5080497741699219,
      "memory(GiB)": 51.38,
      "step": 880,
      "token_acc": 0.8972602739726028,
      "train_speed(iter/s)": 1.539294
    },
    {
      "epoch": 0.03791611327706611,
      "grad_norm": 0.6689194440841675,
      "learning_rate": 9.998581181544516e-05,
      "loss": 0.4085539817810059,
      "memory(GiB)": 51.38,
      "step": 885,
      "token_acc": 0.8862876254180602,
      "train_speed(iter/s)": 1.539055
    },
    {
      "epoch": 0.038130328606315066,
      "grad_norm": 2.1357405185699463,
      "learning_rate": 9.998565105178869e-05,
      "loss": 0.14531863927841188,
      "memory(GiB)": 51.38,
      "step": 890,
      "token_acc": 0.9611307420494699,
      "train_speed(iter/s)": 1.538501
    },
    {
      "epoch": 0.03834454393556403,
      "grad_norm": 1.4525089263916016,
      "learning_rate": 9.998548938259525e-05,
      "loss": 0.5426840305328369,
      "memory(GiB)": 51.38,
      "step": 895,
      "token_acc": 0.86,
      "train_speed(iter/s)": 1.539598
    },
    {
      "epoch": 0.03855875926481299,
      "grad_norm": 1.4722031354904175,
      "learning_rate": 9.998532680786778e-05,
      "loss": 0.2029109239578247,
      "memory(GiB)": 51.38,
      "step": 900,
      "token_acc": 0.9448051948051948,
      "train_speed(iter/s)": 1.540471
    },
    {
      "epoch": 0.038772974594061954,
      "grad_norm": 5.93183708190918,
      "learning_rate": 9.998516332760924e-05,
      "loss": 0.40140385627746583,
      "memory(GiB)": 51.38,
      "step": 905,
      "token_acc": 0.9105960264900662,
      "train_speed(iter/s)": 1.540066
    },
    {
      "epoch": 0.03898718992331091,
      "grad_norm": 3.162872076034546,
      "learning_rate": 9.998499894182255e-05,
      "loss": 0.23935751914978026,
      "memory(GiB)": 51.38,
      "step": 910,
      "token_acc": 0.9539007092198581,
      "train_speed(iter/s)": 1.540308
    },
    {
      "epoch": 0.03920140525255987,
      "grad_norm": 8.498069763183594,
      "learning_rate": 9.998483365051075e-05,
      "loss": 0.6205127239227295,
      "memory(GiB)": 51.38,
      "step": 915,
      "token_acc": 0.9044117647058824,
      "train_speed(iter/s)": 1.540324
    },
    {
      "epoch": 0.039415620581808836,
      "grad_norm": 0.29947859048843384,
      "learning_rate": 9.998466745367678e-05,
      "loss": 0.5096943855285645,
      "memory(GiB)": 51.38,
      "step": 920,
      "token_acc": 0.8939393939393939,
      "train_speed(iter/s)": 1.540293
    },
    {
      "epoch": 0.039629835911057794,
      "grad_norm": 2.7575831413269043,
      "learning_rate": 9.998450035132367e-05,
      "loss": 0.45034236907958985,
      "memory(GiB)": 51.38,
      "step": 925,
      "token_acc": 0.9192982456140351,
      "train_speed(iter/s)": 1.539629
    },
    {
      "epoch": 0.03984405124030676,
      "grad_norm": 2.149522542953491,
      "learning_rate": 9.998433234345446e-05,
      "loss": 0.4027276039123535,
      "memory(GiB)": 51.38,
      "step": 930,
      "token_acc": 0.9046052631578947,
      "train_speed(iter/s)": 1.539632
    },
    {
      "epoch": 0.04005826656955572,
      "grad_norm": 9.035931587219238,
      "learning_rate": 9.998416343007215e-05,
      "loss": 0.7069473743438721,
      "memory(GiB)": 51.38,
      "step": 935,
      "token_acc": 0.8589341692789969,
      "train_speed(iter/s)": 1.539922
    },
    {
      "epoch": 0.040272481898804675,
      "grad_norm": 1.8420287370681763,
      "learning_rate": 9.998399361117985e-05,
      "loss": 0.48861284255981446,
      "memory(GiB)": 51.38,
      "step": 940,
      "token_acc": 0.8902077151335311,
      "train_speed(iter/s)": 1.539309
    },
    {
      "epoch": 0.04048669722805364,
      "grad_norm": 3.6801247596740723,
      "learning_rate": 9.998382288678062e-05,
      "loss": 0.9159446716308594,
      "memory(GiB)": 51.38,
      "step": 945,
      "token_acc": 0.832089552238806,
      "train_speed(iter/s)": 1.538811
    },
    {
      "epoch": 0.0407009125573026,
      "grad_norm": 1.0735516548156738,
      "learning_rate": 9.998365125687754e-05,
      "loss": 0.4056541919708252,
      "memory(GiB)": 51.38,
      "step": 950,
      "token_acc": 0.9027777777777778,
      "train_speed(iter/s)": 1.538582
    },
    {
      "epoch": 0.040915127886551564,
      "grad_norm": 4.29098653793335,
      "learning_rate": 9.998347872147374e-05,
      "loss": 0.28139595985412597,
      "memory(GiB)": 51.38,
      "step": 955,
      "token_acc": 0.9191919191919192,
      "train_speed(iter/s)": 1.538806
    },
    {
      "epoch": 0.04112934321580052,
      "grad_norm": 5.001364231109619,
      "learning_rate": 9.998330528057234e-05,
      "loss": 0.7093822479248046,
      "memory(GiB)": 51.38,
      "step": 960,
      "token_acc": 0.847682119205298,
      "train_speed(iter/s)": 1.538301
    },
    {
      "epoch": 0.04134355854504949,
      "grad_norm": 1.2526419162750244,
      "learning_rate": 9.998313093417646e-05,
      "loss": 0.3430963039398193,
      "memory(GiB)": 51.38,
      "step": 965,
      "token_acc": 0.937037037037037,
      "train_speed(iter/s)": 1.537642
    },
    {
      "epoch": 0.041557773874298445,
      "grad_norm": 1.0064009428024292,
      "learning_rate": 9.998295568228928e-05,
      "loss": 0.5640243053436279,
      "memory(GiB)": 51.38,
      "step": 970,
      "token_acc": 0.8888888888888888,
      "train_speed(iter/s)": 1.538076
    },
    {
      "epoch": 0.041771989203547404,
      "grad_norm": 0.7051804661750793,
      "learning_rate": 9.998277952491397e-05,
      "loss": 0.22609176635742187,
      "memory(GiB)": 51.38,
      "step": 975,
      "token_acc": 0.9472295514511874,
      "train_speed(iter/s)": 1.538037
    },
    {
      "epoch": 0.04198620453279637,
      "grad_norm": 3.6526687145233154,
      "learning_rate": 9.998260246205372e-05,
      "loss": 0.43772711753845217,
      "memory(GiB)": 51.38,
      "step": 980,
      "token_acc": 0.9403973509933775,
      "train_speed(iter/s)": 1.538141
    },
    {
      "epoch": 0.04220041986204533,
      "grad_norm": 2.3816516399383545,
      "learning_rate": 9.998242449371174e-05,
      "loss": 0.3657313346862793,
      "memory(GiB)": 51.38,
      "step": 985,
      "token_acc": 0.9190283400809717,
      "train_speed(iter/s)": 1.538226
    },
    {
      "epoch": 0.04241463519129429,
      "grad_norm": 2.511533737182617,
      "learning_rate": 9.998224561989124e-05,
      "loss": 0.5338665962219238,
      "memory(GiB)": 51.38,
      "step": 990,
      "token_acc": 0.8845070422535212,
      "train_speed(iter/s)": 1.537996
    },
    {
      "epoch": 0.04262885052054325,
      "grad_norm": 1.8468236923217773,
      "learning_rate": 9.99820658405955e-05,
      "loss": 0.32266232967376707,
      "memory(GiB)": 51.38,
      "step": 995,
      "token_acc": 0.9285714285714286,
      "train_speed(iter/s)": 1.538164
    },
    {
      "epoch": 0.04284306584979221,
      "grad_norm": 3.6786274909973145,
      "learning_rate": 9.998188515582773e-05,
      "loss": 0.5549796104431153,
      "memory(GiB)": 51.38,
      "step": 1000,
      "token_acc": 0.8723404255319149,
      "train_speed(iter/s)": 1.538393
    },
    {
      "epoch": 0.04284306584979221,
      "eval_loss": 2.5639302730560303,
      "eval_runtime": 11.3485,
      "eval_samples_per_second": 8.812,
      "eval_steps_per_second": 8.812,
      "eval_token_acc": 0.41347626339969373,
      "step": 1000
    },
    {
      "epoch": 0.043057281179041174,
      "grad_norm": 3.444283962249756,
      "learning_rate": 9.998170356559125e-05,
      "loss": 0.5242456912994384,
      "memory(GiB)": 51.38,
      "step": 1005,
      "token_acc": 0.5530546623794212,
      "train_speed(iter/s)": 1.510343
    },
    {
      "epoch": 0.04327149650829013,
      "grad_norm": 2.8902993202209473,
      "learning_rate": 9.99815210698893e-05,
      "loss": 0.45065760612487793,
      "memory(GiB)": 51.38,
      "step": 1010,
      "token_acc": 0.9032258064516129,
      "train_speed(iter/s)": 1.510987
    },
    {
      "epoch": 0.0434857118375391,
      "grad_norm": 1.7290685176849365,
      "learning_rate": 9.99813376687252e-05,
      "loss": 0.3726775884628296,
      "memory(GiB)": 51.38,
      "step": 1015,
      "token_acc": 0.9154411764705882,
      "train_speed(iter/s)": 1.511306
    },
    {
      "epoch": 0.043699927166788055,
      "grad_norm": 10.609648704528809,
      "learning_rate": 9.998115336210229e-05,
      "loss": 0.37380251884460447,
      "memory(GiB)": 51.38,
      "step": 1020,
      "token_acc": 0.9169329073482428,
      "train_speed(iter/s)": 1.512109
    },
    {
      "epoch": 0.04391414249603701,
      "grad_norm": 2.4873204231262207,
      "learning_rate": 9.998096815002391e-05,
      "loss": 0.5291335582733154,
      "memory(GiB)": 51.38,
      "step": 1025,
      "token_acc": 0.8952702702702703,
      "train_speed(iter/s)": 1.512907
    },
    {
      "epoch": 0.04412835782528598,
      "grad_norm": 9.017045974731445,
      "learning_rate": 9.998078203249341e-05,
      "loss": 0.5442335605621338,
      "memory(GiB)": 51.38,
      "step": 1030,
      "token_acc": 0.9010989010989011,
      "train_speed(iter/s)": 1.513625
    },
    {
      "epoch": 0.04434257315453494,
      "grad_norm": 1.3961349725723267,
      "learning_rate": 9.998059500951415e-05,
      "loss": 0.45108256340026853,
      "memory(GiB)": 51.38,
      "step": 1035,
      "token_acc": 0.9116719242902208,
      "train_speed(iter/s)": 1.513298
    },
    {
      "epoch": 0.0445567884837839,
      "grad_norm": 0.7750174403190613,
      "learning_rate": 9.998040708108953e-05,
      "loss": 0.31025550365447996,
      "memory(GiB)": 51.38,
      "step": 1040,
      "token_acc": 0.9447852760736196,
      "train_speed(iter/s)": 1.51326
    },
    {
      "epoch": 0.04477100381303286,
      "grad_norm": 4.272421360015869,
      "learning_rate": 9.998021824722295e-05,
      "loss": 0.5295130252838135,
      "memory(GiB)": 51.38,
      "step": 1045,
      "token_acc": 0.874251497005988,
      "train_speed(iter/s)": 1.513447
    },
    {
      "epoch": 0.044985219142281825,
      "grad_norm": 2.995204210281372,
      "learning_rate": 9.998002850791782e-05,
      "loss": 0.5304511547088623,
      "memory(GiB)": 51.38,
      "step": 1050,
      "token_acc": 0.8664495114006515,
      "train_speed(iter/s)": 1.513135
    },
    {
      "epoch": 0.04519943447153078,
      "grad_norm": 1.2003620862960815,
      "learning_rate": 9.99798378631776e-05,
      "loss": 0.18754096031188966,
      "memory(GiB)": 51.38,
      "step": 1055,
      "token_acc": 0.9590443686006825,
      "train_speed(iter/s)": 1.513315
    },
    {
      "epoch": 0.04541364980077974,
      "grad_norm": 0.8188661932945251,
      "learning_rate": 9.997964631300573e-05,
      "loss": 0.3413902997970581,
      "memory(GiB)": 51.38,
      "step": 1060,
      "token_acc": 0.9340277777777778,
      "train_speed(iter/s)": 1.513143
    },
    {
      "epoch": 0.04562786513002871,
      "grad_norm": 1.6876928806304932,
      "learning_rate": 9.997945385740568e-05,
      "loss": 0.3495121240615845,
      "memory(GiB)": 51.38,
      "step": 1065,
      "token_acc": 0.92,
      "train_speed(iter/s)": 1.513539
    },
    {
      "epoch": 0.045842080459277665,
      "grad_norm": 1.2105671167373657,
      "learning_rate": 9.997926049638094e-05,
      "loss": 0.23825652599334718,
      "memory(GiB)": 51.38,
      "step": 1070,
      "token_acc": 0.9543726235741445,
      "train_speed(iter/s)": 1.514577
    },
    {
      "epoch": 0.04605629578852663,
      "grad_norm": 7.211338043212891,
      "learning_rate": 9.9979066229935e-05,
      "loss": 0.42479524612426756,
      "memory(GiB)": 51.38,
      "step": 1075,
      "token_acc": 0.8953488372093024,
      "train_speed(iter/s)": 1.51458
    },
    {
      "epoch": 0.04627051111777559,
      "grad_norm": 2.2632038593292236,
      "learning_rate": 9.997887105807141e-05,
      "loss": 0.3877760171890259,
      "memory(GiB)": 51.38,
      "step": 1080,
      "token_acc": 0.9216300940438872,
      "train_speed(iter/s)": 1.514682
    },
    {
      "epoch": 0.046484726447024546,
      "grad_norm": 2.8610596656799316,
      "learning_rate": 9.997867498079368e-05,
      "loss": 0.28857877254486086,
      "memory(GiB)": 51.38,
      "step": 1085,
      "token_acc": 0.9309090909090909,
      "train_speed(iter/s)": 1.514415
    },
    {
      "epoch": 0.04669894177627351,
      "grad_norm": 1.3112672567367554,
      "learning_rate": 9.997847799810537e-05,
      "loss": 0.4946000576019287,
      "memory(GiB)": 51.38,
      "step": 1090,
      "token_acc": 0.8867924528301887,
      "train_speed(iter/s)": 1.513892
    },
    {
      "epoch": 0.04691315710552247,
      "grad_norm": 2.83030104637146,
      "learning_rate": 9.997828011001005e-05,
      "loss": 0.38821485042572024,
      "memory(GiB)": 51.38,
      "step": 1095,
      "token_acc": 0.9157509157509157,
      "train_speed(iter/s)": 1.513706
    },
    {
      "epoch": 0.047127372434771435,
      "grad_norm": 3.2246286869049072,
      "learning_rate": 9.99780813165113e-05,
      "loss": 0.2919719696044922,
      "memory(GiB)": 51.38,
      "step": 1100,
      "token_acc": 0.9438943894389439,
      "train_speed(iter/s)": 1.513807
    },
    {
      "epoch": 0.04734158776402039,
      "grad_norm": 1.0547010898590088,
      "learning_rate": 9.997788161761272e-05,
      "loss": 0.3507228374481201,
      "memory(GiB)": 51.38,
      "step": 1105,
      "token_acc": 0.9455782312925171,
      "train_speed(iter/s)": 1.51463
    },
    {
      "epoch": 0.04755580309326935,
      "grad_norm": 1.1477594375610352,
      "learning_rate": 9.997768101331793e-05,
      "loss": 0.2699378252029419,
      "memory(GiB)": 51.38,
      "step": 1110,
      "token_acc": 0.9387096774193548,
      "train_speed(iter/s)": 1.515017
    },
    {
      "epoch": 0.047770018422518316,
      "grad_norm": 1.6579521894454956,
      "learning_rate": 9.997747950363056e-05,
      "loss": 0.350109338760376,
      "memory(GiB)": 51.38,
      "step": 1115,
      "token_acc": 0.9196428571428571,
      "train_speed(iter/s)": 1.514926
    },
    {
      "epoch": 0.047984233751767275,
      "grad_norm": 2.149534225463867,
      "learning_rate": 9.997727708855429e-05,
      "loss": 0.3524376153945923,
      "memory(GiB)": 51.38,
      "step": 1120,
      "token_acc": 0.9132231404958677,
      "train_speed(iter/s)": 1.516448
    },
    {
      "epoch": 0.04819844908101624,
      "grad_norm": 2.5158627033233643,
      "learning_rate": 9.997707376809273e-05,
      "loss": 0.42693653106689455,
      "memory(GiB)": 51.38,
      "step": 1125,
      "token_acc": 0.8966789667896679,
      "train_speed(iter/s)": 1.517175
    },
    {
      "epoch": 0.0484126644102652,
      "grad_norm": 5.94671630859375,
      "learning_rate": 9.997686954224963e-05,
      "loss": 0.33208017349243163,
      "memory(GiB)": 51.38,
      "step": 1130,
      "token_acc": 0.8864468864468864,
      "train_speed(iter/s)": 1.517158
    },
    {
      "epoch": 0.04862687973951416,
      "grad_norm": 2.741412878036499,
      "learning_rate": 9.997666441102864e-05,
      "loss": 0.47496490478515624,
      "memory(GiB)": 51.38,
      "step": 1135,
      "token_acc": 0.9148936170212766,
      "train_speed(iter/s)": 1.517172
    },
    {
      "epoch": 0.04884109506876312,
      "grad_norm": 2.6481494903564453,
      "learning_rate": 9.99764583744335e-05,
      "loss": 0.3166871309280396,
      "memory(GiB)": 51.38,
      "step": 1140,
      "token_acc": 0.9318181818181818,
      "train_speed(iter/s)": 1.517129
    },
    {
      "epoch": 0.04905531039801208,
      "grad_norm": 2.980315685272217,
      "learning_rate": 9.997625143246791e-05,
      "loss": 0.44851255416870117,
      "memory(GiB)": 51.38,
      "step": 1145,
      "token_acc": 0.888268156424581,
      "train_speed(iter/s)": 1.517136
    },
    {
      "epoch": 0.049269525727261045,
      "grad_norm": 2.0442922115325928,
      "learning_rate": 9.997604358513566e-05,
      "loss": 0.3007690906524658,
      "memory(GiB)": 51.38,
      "step": 1150,
      "token_acc": 0.9176829268292683,
      "train_speed(iter/s)": 1.517127
    },
    {
      "epoch": 0.04948374105651,
      "grad_norm": 2.4869332313537598,
      "learning_rate": 9.997583483244051e-05,
      "loss": 0.36042160987854005,
      "memory(GiB)": 51.38,
      "step": 1155,
      "token_acc": 0.927710843373494,
      "train_speed(iter/s)": 1.516898
    },
    {
      "epoch": 0.04969795638575897,
      "grad_norm": 2.435574531555176,
      "learning_rate": 9.997562517438621e-05,
      "loss": 0.5172206878662109,
      "memory(GiB)": 51.38,
      "step": 1160,
      "token_acc": 0.8896797153024911,
      "train_speed(iter/s)": 1.516905
    },
    {
      "epoch": 0.049912171715007926,
      "grad_norm": 1.7027918100357056,
      "learning_rate": 9.997541461097659e-05,
      "loss": 0.2353591203689575,
      "memory(GiB)": 51.38,
      "step": 1165,
      "token_acc": 0.9543726235741445,
      "train_speed(iter/s)": 1.516868
    },
    {
      "epoch": 0.050126387044256884,
      "grad_norm": 3.160538673400879,
      "learning_rate": 9.997520314221547e-05,
      "loss": 0.7534217357635498,
      "memory(GiB)": 51.38,
      "step": 1170,
      "token_acc": 0.8269230769230769,
      "train_speed(iter/s)": 1.516644
    },
    {
      "epoch": 0.05034060237350585,
      "grad_norm": 1.4558066129684448,
      "learning_rate": 9.997499076810664e-05,
      "loss": 0.4312772750854492,
      "memory(GiB)": 51.38,
      "step": 1175,
      "token_acc": 0.9127272727272727,
      "train_speed(iter/s)": 1.516551
    },
    {
      "epoch": 0.05055481770275481,
      "grad_norm": 1.4315602779388428,
      "learning_rate": 9.997477748865399e-05,
      "loss": 0.2778109788894653,
      "memory(GiB)": 51.38,
      "step": 1180,
      "token_acc": 0.9471698113207547,
      "train_speed(iter/s)": 1.516573
    },
    {
      "epoch": 0.05076903303200377,
      "grad_norm": 1.6092584133148193,
      "learning_rate": 9.997456330386135e-05,
      "loss": 0.20491538047790528,
      "memory(GiB)": 51.38,
      "step": 1185,
      "token_acc": 0.959349593495935,
      "train_speed(iter/s)": 1.516727
    },
    {
      "epoch": 0.05098324836125273,
      "grad_norm": 8.878623008728027,
      "learning_rate": 9.997434821373262e-05,
      "loss": 0.509013032913208,
      "memory(GiB)": 51.38,
      "step": 1190,
      "token_acc": 0.8806584362139918,
      "train_speed(iter/s)": 1.516521
    },
    {
      "epoch": 0.05119746369050169,
      "grad_norm": 3.344947338104248,
      "learning_rate": 9.997413221827169e-05,
      "loss": 0.4472821712493896,
      "memory(GiB)": 51.38,
      "step": 1195,
      "token_acc": 0.9178082191780822,
      "train_speed(iter/s)": 1.516518
    },
    {
      "epoch": 0.051411679019750654,
      "grad_norm": 0.34666386246681213,
      "learning_rate": 9.997391531748248e-05,
      "loss": 0.4593306541442871,
      "memory(GiB)": 51.38,
      "step": 1200,
      "token_acc": 0.9252669039145908,
      "train_speed(iter/s)": 1.517171
    },
    {
      "epoch": 0.05162589434899961,
      "grad_norm": 2.0713672637939453,
      "learning_rate": 9.997369751136891e-05,
      "loss": 0.5158166408538818,
      "memory(GiB)": 51.38,
      "step": 1205,
      "token_acc": 0.8837209302325582,
      "train_speed(iter/s)": 1.517103
    },
    {
      "epoch": 0.05184010967824858,
      "grad_norm": 2.8909451961517334,
      "learning_rate": 9.997347879993495e-05,
      "loss": 0.5558267116546631,
      "memory(GiB)": 51.38,
      "step": 1210,
      "token_acc": 0.8827160493827161,
      "train_speed(iter/s)": 1.516776
    },
    {
      "epoch": 0.052054325007497536,
      "grad_norm": 1.9511113166809082,
      "learning_rate": 9.997325918318452e-05,
      "loss": 0.3545339345932007,
      "memory(GiB)": 51.38,
      "step": 1215,
      "token_acc": 0.9346153846153846,
      "train_speed(iter/s)": 1.516667
    },
    {
      "epoch": 0.0522685403367465,
      "grad_norm": 2.092160224914551,
      "learning_rate": 9.997303866112163e-05,
      "loss": 0.35593552589416505,
      "memory(GiB)": 51.38,
      "step": 1220,
      "token_acc": 0.9285714285714286,
      "train_speed(iter/s)": 1.516334
    },
    {
      "epoch": 0.05248275566599546,
      "grad_norm": 1.5525164604187012,
      "learning_rate": 9.997281723375027e-05,
      "loss": 0.3682552814483643,
      "memory(GiB)": 51.38,
      "step": 1225,
      "token_acc": 0.8964401294498382,
      "train_speed(iter/s)": 1.516233
    },
    {
      "epoch": 0.05269697099524442,
      "grad_norm": 2.2168424129486084,
      "learning_rate": 9.997259490107444e-05,
      "loss": 0.20818624496459961,
      "memory(GiB)": 51.38,
      "step": 1230,
      "token_acc": 0.9580152671755725,
      "train_speed(iter/s)": 1.516862
    },
    {
      "epoch": 0.05291118632449338,
      "grad_norm": 1.4821821451187134,
      "learning_rate": 9.997237166309818e-05,
      "loss": 0.330265736579895,
      "memory(GiB)": 51.38,
      "step": 1235,
      "token_acc": 0.9184782608695652,
      "train_speed(iter/s)": 1.516919
    },
    {
      "epoch": 0.05312540165374234,
      "grad_norm": 2.0231335163116455,
      "learning_rate": 9.997214751982552e-05,
      "loss": 0.36339459419250486,
      "memory(GiB)": 51.38,
      "step": 1240,
      "token_acc": 0.8934707903780069,
      "train_speed(iter/s)": 1.516675
    },
    {
      "epoch": 0.053339616982991306,
      "grad_norm": 1.8057479858398438,
      "learning_rate": 9.997192247126055e-05,
      "loss": 0.3743975877761841,
      "memory(GiB)": 51.38,
      "step": 1245,
      "token_acc": 0.9203187250996016,
      "train_speed(iter/s)": 1.516694
    },
    {
      "epoch": 0.053553832312240264,
      "grad_norm": 1.090306043624878,
      "learning_rate": 9.99716965174073e-05,
      "loss": 0.36141095161437986,
      "memory(GiB)": 51.38,
      "step": 1250,
      "token_acc": 0.9114391143911439,
      "train_speed(iter/s)": 1.516947
    },
    {
      "epoch": 0.05376804764148922,
      "grad_norm": 7.8877058029174805,
      "learning_rate": 9.997146965826991e-05,
      "loss": 0.48181495666503904,
      "memory(GiB)": 51.38,
      "step": 1255,
      "token_acc": 0.8859060402684564,
      "train_speed(iter/s)": 1.517056
    },
    {
      "epoch": 0.05398226297073819,
      "grad_norm": 1.3813396692276,
      "learning_rate": 9.997124189385246e-05,
      "loss": 0.5706547737121582,
      "memory(GiB)": 51.38,
      "step": 1260,
      "token_acc": 0.8902077151335311,
      "train_speed(iter/s)": 1.517625
    },
    {
      "epoch": 0.054196478299987146,
      "grad_norm": 1.9278581142425537,
      "learning_rate": 9.99710132241591e-05,
      "loss": 0.35936579704284666,
      "memory(GiB)": 51.38,
      "step": 1265,
      "token_acc": 0.9180327868852459,
      "train_speed(iter/s)": 1.517747
    },
    {
      "epoch": 0.05441069362923611,
      "grad_norm": 1.1481678485870361,
      "learning_rate": 9.997078364919395e-05,
      "loss": 0.2735938310623169,
      "memory(GiB)": 51.38,
      "step": 1270,
      "token_acc": 0.9376947040498442,
      "train_speed(iter/s)": 1.517946
    },
    {
      "epoch": 0.05462490895848507,
      "grad_norm": 4.700014591217041,
      "learning_rate": 9.997055316896118e-05,
      "loss": 0.6771193027496338,
      "memory(GiB)": 51.38,
      "step": 1275,
      "token_acc": 0.8317460317460318,
      "train_speed(iter/s)": 1.518431
    },
    {
      "epoch": 0.05483912428773403,
      "grad_norm": 3.1703174114227295,
      "learning_rate": 9.997032178346495e-05,
      "loss": 0.6109764099121093,
      "memory(GiB)": 51.38,
      "step": 1280,
      "token_acc": 0.8733333333333333,
      "train_speed(iter/s)": 1.518472
    },
    {
      "epoch": 0.05505333961698299,
      "grad_norm": 2.3404700756073,
      "learning_rate": 9.997008949270947e-05,
      "loss": 0.297015643119812,
      "memory(GiB)": 51.38,
      "step": 1285,
      "token_acc": 0.9522058823529411,
      "train_speed(iter/s)": 1.518602
    },
    {
      "epoch": 0.05526755494623195,
      "grad_norm": 4.2131147384643555,
      "learning_rate": 9.996985629669894e-05,
      "loss": 0.3699419736862183,
      "memory(GiB)": 51.38,
      "step": 1290,
      "token_acc": 0.9154929577464789,
      "train_speed(iter/s)": 1.51856
    },
    {
      "epoch": 0.055481770275480916,
      "grad_norm": 2.8389170169830322,
      "learning_rate": 9.996962219543762e-05,
      "loss": 0.5456232070922852,
      "memory(GiB)": 51.38,
      "step": 1295,
      "token_acc": 0.8678678678678678,
      "train_speed(iter/s)": 1.518415
    },
    {
      "epoch": 0.055695985604729874,
      "grad_norm": 2.318523406982422,
      "learning_rate": 9.996938718892969e-05,
      "loss": 0.726338005065918,
      "memory(GiB)": 51.38,
      "step": 1300,
      "token_acc": 0.8176470588235294,
      "train_speed(iter/s)": 1.518156
    },
    {
      "epoch": 0.05591020093397884,
      "grad_norm": 1.733306884765625,
      "learning_rate": 9.996915127717944e-05,
      "loss": 0.32180898189544677,
      "memory(GiB)": 51.38,
      "step": 1305,
      "token_acc": 0.9417808219178082,
      "train_speed(iter/s)": 1.517906
    },
    {
      "epoch": 0.0561244162632278,
      "grad_norm": 0.3320750892162323,
      "learning_rate": 9.996891446019114e-05,
      "loss": 0.2527446746826172,
      "memory(GiB)": 51.38,
      "step": 1310,
      "token_acc": 0.9473684210526315,
      "train_speed(iter/s)": 1.517771
    },
    {
      "epoch": 0.056338631592476755,
      "grad_norm": 2.064291000366211,
      "learning_rate": 9.996867673796908e-05,
      "loss": 0.4167318820953369,
      "memory(GiB)": 51.38,
      "step": 1315,
      "token_acc": 0.9,
      "train_speed(iter/s)": 1.518003
    },
    {
      "epoch": 0.05655284692172572,
      "grad_norm": 3.971425771713257,
      "learning_rate": 9.996843811051757e-05,
      "loss": 0.5044966697692871,
      "memory(GiB)": 51.38,
      "step": 1320,
      "token_acc": 0.896551724137931,
      "train_speed(iter/s)": 1.517826
    },
    {
      "epoch": 0.05676706225097468,
      "grad_norm": 3.699244499206543,
      "learning_rate": 9.996819857784093e-05,
      "loss": 0.48551130294799805,
      "memory(GiB)": 51.38,
      "step": 1325,
      "token_acc": 0.8914728682170543,
      "train_speed(iter/s)": 1.51909
    },
    {
      "epoch": 0.056981277580223644,
      "grad_norm": 2.5205869674682617,
      "learning_rate": 9.996795813994348e-05,
      "loss": 0.30181887149810793,
      "memory(GiB)": 51.38,
      "step": 1330,
      "token_acc": 0.9291338582677166,
      "train_speed(iter/s)": 1.519103
    },
    {
      "epoch": 0.0571954929094726,
      "grad_norm": 1.52571439743042,
      "learning_rate": 9.996771679682961e-05,
      "loss": 0.3247175455093384,
      "memory(GiB)": 51.38,
      "step": 1335,
      "token_acc": 0.9299363057324841,
      "train_speed(iter/s)": 1.519235
    },
    {
      "epoch": 0.05740970823872156,
      "grad_norm": 2.56339693069458,
      "learning_rate": 9.996747454850368e-05,
      "loss": 0.20460102558135987,
      "memory(GiB)": 51.38,
      "step": 1340,
      "token_acc": 0.9638157894736842,
      "train_speed(iter/s)": 1.519522
    },
    {
      "epoch": 0.057623923567970525,
      "grad_norm": 2.294597625732422,
      "learning_rate": 9.996723139497008e-05,
      "loss": 0.3838940143585205,
      "memory(GiB)": 51.38,
      "step": 1345,
      "token_acc": 0.9134615384615384,
      "train_speed(iter/s)": 1.520011
    },
    {
      "epoch": 0.057838138897219483,
      "grad_norm": 1.980448842048645,
      "learning_rate": 9.99669873362332e-05,
      "loss": 0.5758762359619141,
      "memory(GiB)": 51.38,
      "step": 1350,
      "token_acc": 0.9059233449477352,
      "train_speed(iter/s)": 1.5202
    },
    {
      "epoch": 0.05805235422646845,
      "grad_norm": 2.297365188598633,
      "learning_rate": 9.996674237229748e-05,
      "loss": 0.3962706565856934,
      "memory(GiB)": 51.38,
      "step": 1355,
      "token_acc": 0.9015151515151515,
      "train_speed(iter/s)": 1.520016
    },
    {
      "epoch": 0.05826656955571741,
      "grad_norm": 1.7686997652053833,
      "learning_rate": 9.996649650316734e-05,
      "loss": 0.5702567577362061,
      "memory(GiB)": 51.38,
      "step": 1360,
      "token_acc": 0.8688524590163934,
      "train_speed(iter/s)": 1.521128
    },
    {
      "epoch": 0.058480784884966365,
      "grad_norm": 2.8843319416046143,
      "learning_rate": 9.996624972884725e-05,
      "loss": 0.2401970386505127,
      "memory(GiB)": 51.38,
      "step": 1365,
      "token_acc": 0.9440298507462687,
      "train_speed(iter/s)": 1.521219
    },
    {
      "epoch": 0.05869500021421533,
      "grad_norm": 1.9975236654281616,
      "learning_rate": 9.996600204934165e-05,
      "loss": 0.9091359138488769,
      "memory(GiB)": 51.38,
      "step": 1370,
      "token_acc": 0.8115015974440895,
      "train_speed(iter/s)": 1.521695
    },
    {
      "epoch": 0.05890921554346429,
      "grad_norm": 0.9617891907691956,
      "learning_rate": 9.996575346465508e-05,
      "loss": 0.23971343040466309,
      "memory(GiB)": 51.38,
      "step": 1375,
      "token_acc": 0.9605734767025089,
      "train_speed(iter/s)": 1.521473
    },
    {
      "epoch": 0.059123430872713253,
      "grad_norm": 2.983628988265991,
      "learning_rate": 9.9965503974792e-05,
      "loss": 0.233282208442688,
      "memory(GiB)": 51.38,
      "step": 1380,
      "token_acc": 0.9424460431654677,
      "train_speed(iter/s)": 1.52146
    },
    {
      "epoch": 0.05933764620196221,
      "grad_norm": 3.085155725479126,
      "learning_rate": 9.996525357975697e-05,
      "loss": 0.37925961017608645,
      "memory(GiB)": 51.38,
      "step": 1385,
      "token_acc": 0.9073482428115016,
      "train_speed(iter/s)": 1.521391
    },
    {
      "epoch": 0.05955186153121118,
      "grad_norm": 0.47211727499961853,
      "learning_rate": 9.996500227955447e-05,
      "loss": 0.19322605133056642,
      "memory(GiB)": 51.38,
      "step": 1390,
      "token_acc": 0.9606557377049181,
      "train_speed(iter/s)": 1.521499
    },
    {
      "epoch": 0.059766076860460135,
      "grad_norm": 1.674572467803955,
      "learning_rate": 9.99647500741891e-05,
      "loss": 0.4049801826477051,
      "memory(GiB)": 51.38,
      "step": 1395,
      "token_acc": 0.9183673469387755,
      "train_speed(iter/s)": 1.521672
    },
    {
      "epoch": 0.05998029218970909,
      "grad_norm": 3.302664279937744,
      "learning_rate": 9.99644969636654e-05,
      "loss": 0.6448951244354248,
      "memory(GiB)": 51.38,
      "step": 1400,
      "token_acc": 0.8580645161290322,
      "train_speed(iter/s)": 1.521502
    },
    {
      "epoch": 0.06019450751895806,
      "grad_norm": 0.8046497702598572,
      "learning_rate": 9.996424294798796e-05,
      "loss": 0.37420654296875,
      "memory(GiB)": 51.38,
      "step": 1405,
      "token_acc": 0.9077490774907749,
      "train_speed(iter/s)": 1.52237
    },
    {
      "epoch": 0.06040872284820702,
      "grad_norm": 1.8491744995117188,
      "learning_rate": 9.99639880271614e-05,
      "loss": 0.4521156311035156,
      "memory(GiB)": 51.38,
      "step": 1410,
      "token_acc": 0.9019607843137255,
      "train_speed(iter/s)": 1.522562
    },
    {
      "epoch": 0.06062293817745598,
      "grad_norm": 3.1976118087768555,
      "learning_rate": 9.996373220119034e-05,
      "loss": 0.454149055480957,
      "memory(GiB)": 51.38,
      "step": 1415,
      "token_acc": 0.898989898989899,
      "train_speed(iter/s)": 1.52216
    },
    {
      "epoch": 0.06083715350670494,
      "grad_norm": 4.897167682647705,
      "learning_rate": 9.996347547007938e-05,
      "loss": 0.5430358409881592,
      "memory(GiB)": 51.38,
      "step": 1420,
      "token_acc": 0.870722433460076,
      "train_speed(iter/s)": 1.522393
    },
    {
      "epoch": 0.0610513688359539,
      "grad_norm": 2.6525139808654785,
      "learning_rate": 9.99632178338332e-05,
      "loss": 0.6310051918029785,
      "memory(GiB)": 51.38,
      "step": 1425,
      "token_acc": 0.8692579505300353,
      "train_speed(iter/s)": 1.524007
    },
    {
      "epoch": 0.06126558416520286,
      "grad_norm": 4.990790367126465,
      "learning_rate": 9.996295929245647e-05,
      "loss": 0.42801456451416015,
      "memory(GiB)": 51.38,
      "step": 1430,
      "token_acc": 0.9212598425196851,
      "train_speed(iter/s)": 1.524911
    },
    {
      "epoch": 0.06147979949445182,
      "grad_norm": 15.687381744384766,
      "learning_rate": 9.996269984595386e-05,
      "loss": 0.4732830047607422,
      "memory(GiB)": 51.38,
      "step": 1435,
      "token_acc": 0.89419795221843,
      "train_speed(iter/s)": 1.525455
    },
    {
      "epoch": 0.06169401482370079,
      "grad_norm": 2.1707847118377686,
      "learning_rate": 9.996243949433006e-05,
      "loss": 0.4140774250030518,
      "memory(GiB)": 51.38,
      "step": 1440,
      "token_acc": 0.8979591836734694,
      "train_speed(iter/s)": 1.525211
    },
    {
      "epoch": 0.061908230152949745,
      "grad_norm": 2.256479024887085,
      "learning_rate": 9.996217823758981e-05,
      "loss": 0.7792396545410156,
      "memory(GiB)": 51.38,
      "step": 1445,
      "token_acc": 0.8466257668711656,
      "train_speed(iter/s)": 1.524942
    },
    {
      "epoch": 0.0621224454821987,
      "grad_norm": 3.6348414421081543,
      "learning_rate": 9.996191607573782e-05,
      "loss": 0.4104060173034668,
      "memory(GiB)": 51.38,
      "step": 1450,
      "token_acc": 0.9154929577464789,
      "train_speed(iter/s)": 1.524937
    },
    {
      "epoch": 0.06233666081144767,
      "grad_norm": 6.284909248352051,
      "learning_rate": 9.996165300877886e-05,
      "loss": 0.3679136514663696,
      "memory(GiB)": 51.38,
      "step": 1455,
      "token_acc": 0.8955696202531646,
      "train_speed(iter/s)": 1.52487
    },
    {
      "epoch": 0.06255087614069663,
      "grad_norm": 6.9890642166137695,
      "learning_rate": 9.99613890367177e-05,
      "loss": 0.3739237070083618,
      "memory(GiB)": 51.38,
      "step": 1460,
      "token_acc": 0.9174603174603174,
      "train_speed(iter/s)": 1.524622
    },
    {
      "epoch": 0.06276509146994559,
      "grad_norm": 1.7847683429718018,
      "learning_rate": 9.99611241595591e-05,
      "loss": 0.36158716678619385,
      "memory(GiB)": 51.38,
      "step": 1465,
      "token_acc": 0.9154518950437318,
      "train_speed(iter/s)": 1.524604
    },
    {
      "epoch": 0.06297930679919456,
      "grad_norm": 1.2134177684783936,
      "learning_rate": 9.996085837730787e-05,
      "loss": 0.13551115989685059,
      "memory(GiB)": 51.38,
      "step": 1470,
      "token_acc": 0.975177304964539,
      "train_speed(iter/s)": 1.524672
    },
    {
      "epoch": 0.06319352212844351,
      "grad_norm": 1.8310520648956299,
      "learning_rate": 9.996059168996883e-05,
      "loss": 0.2702314853668213,
      "memory(GiB)": 51.38,
      "step": 1475,
      "token_acc": 0.9337979094076655,
      "train_speed(iter/s)": 1.524726
    },
    {
      "epoch": 0.06340773745769247,
      "grad_norm": 1.1094238758087158,
      "learning_rate": 9.996032409754679e-05,
      "loss": 0.25986108779907224,
      "memory(GiB)": 51.38,
      "step": 1480,
      "token_acc": 0.9251968503937008,
      "train_speed(iter/s)": 1.5248
    },
    {
      "epoch": 0.06362195278694144,
      "grad_norm": 3.232971668243408,
      "learning_rate": 9.996005560004662e-05,
      "loss": 0.3610643148422241,
      "memory(GiB)": 51.38,
      "step": 1485,
      "token_acc": 0.9156626506024096,
      "train_speed(iter/s)": 1.525003
    },
    {
      "epoch": 0.06383616811619039,
      "grad_norm": 1.139391303062439,
      "learning_rate": 9.995978619747317e-05,
      "loss": 0.3275965929031372,
      "memory(GiB)": 51.38,
      "step": 1490,
      "token_acc": 0.9052287581699346,
      "train_speed(iter/s)": 1.524837
    },
    {
      "epoch": 0.06405038344543935,
      "grad_norm": 5.002138614654541,
      "learning_rate": 9.995951588983135e-05,
      "loss": 0.3748301029205322,
      "memory(GiB)": 51.38,
      "step": 1495,
      "token_acc": 0.929368029739777,
      "train_speed(iter/s)": 1.524804
    },
    {
      "epoch": 0.06426459877468832,
      "grad_norm": 1.408638834953308,
      "learning_rate": 9.995924467712601e-05,
      "loss": 0.47899637222290037,
      "memory(GiB)": 51.38,
      "step": 1500,
      "token_acc": 0.8906882591093117,
      "train_speed(iter/s)": 1.525231
    },
    {
      "epoch": 0.06426459877468832,
      "eval_loss": 2.458785057067871,
      "eval_runtime": 11.466,
      "eval_samples_per_second": 8.721,
      "eval_steps_per_second": 8.721,
      "eval_token_acc": 0.4444444444444444,
      "step": 1500
    },
    {
      "epoch": 0.06447881410393727,
      "grad_norm": 5.9918212890625,
      "learning_rate": 9.995897255936209e-05,
      "loss": 0.4755388736724854,
      "memory(GiB)": 51.38,
      "step": 1505,
      "token_acc": 0.5711592836946278,
      "train_speed(iter/s)": 1.506281
    },
    {
      "epoch": 0.06469302943318624,
      "grad_norm": 1.8650624752044678,
      "learning_rate": 9.995869953654452e-05,
      "loss": 0.5633135318756104,
      "memory(GiB)": 51.38,
      "step": 1510,
      "token_acc": 0.8761904761904762,
      "train_speed(iter/s)": 1.506264
    },
    {
      "epoch": 0.0649072447624352,
      "grad_norm": 2.417308807373047,
      "learning_rate": 9.995842560867826e-05,
      "loss": 0.4304789066314697,
      "memory(GiB)": 51.38,
      "step": 1515,
      "token_acc": 0.8949044585987261,
      "train_speed(iter/s)": 1.506243
    },
    {
      "epoch": 0.06512146009168417,
      "grad_norm": 1.6686387062072754,
      "learning_rate": 9.995815077576822e-05,
      "loss": 0.5134516716003418,
      "memory(GiB)": 51.38,
      "step": 1520,
      "token_acc": 0.88,
      "train_speed(iter/s)": 1.506452
    },
    {
      "epoch": 0.06533567542093312,
      "grad_norm": 1.8646697998046875,
      "learning_rate": 9.995787503781944e-05,
      "loss": 0.46658010482788087,
      "memory(GiB)": 51.38,
      "step": 1525,
      "token_acc": 0.88671875,
      "train_speed(iter/s)": 1.506583
    },
    {
      "epoch": 0.06554989075018208,
      "grad_norm": 2.853902578353882,
      "learning_rate": 9.995759839483687e-05,
      "loss": 0.5853761672973633,
      "memory(GiB)": 51.38,
      "step": 1530,
      "token_acc": 0.8825757575757576,
      "train_speed(iter/s)": 1.506613
    },
    {
      "epoch": 0.06576410607943105,
      "grad_norm": 2.231388807296753,
      "learning_rate": 9.995732084682557e-05,
      "loss": 0.48647642135620117,
      "memory(GiB)": 51.38,
      "step": 1535,
      "token_acc": 0.8928571428571429,
      "train_speed(iter/s)": 1.507245
    },
    {
      "epoch": 0.06597832140868,
      "grad_norm": 1.7234394550323486,
      "learning_rate": 9.995704239379051e-05,
      "loss": 0.30050714015960694,
      "memory(GiB)": 51.38,
      "step": 1540,
      "token_acc": 0.927007299270073,
      "train_speed(iter/s)": 1.507184
    },
    {
      "epoch": 0.06619253673792896,
      "grad_norm": 6.198657989501953,
      "learning_rate": 9.995676303573678e-05,
      "loss": 0.48572711944580077,
      "memory(GiB)": 51.38,
      "step": 1545,
      "token_acc": 0.9238095238095239,
      "train_speed(iter/s)": 1.507765
    },
    {
      "epoch": 0.06640675206717793,
      "grad_norm": 3.2689449787139893,
      "learning_rate": 9.995648277266942e-05,
      "loss": 0.44418816566467284,
      "memory(GiB)": 51.38,
      "step": 1550,
      "token_acc": 0.9064516129032258,
      "train_speed(iter/s)": 1.508001
    },
    {
      "epoch": 0.0666209673964269,
      "grad_norm": 3.0660290718078613,
      "learning_rate": 9.995620160459351e-05,
      "loss": 0.5430166244506835,
      "memory(GiB)": 51.38,
      "step": 1555,
      "token_acc": 0.8611111111111112,
      "train_speed(iter/s)": 1.508214
    },
    {
      "epoch": 0.06683518272567585,
      "grad_norm": 3.0595614910125732,
      "learning_rate": 9.995591953151415e-05,
      "loss": 0.26342718601226806,
      "memory(GiB)": 51.38,
      "step": 1560,
      "token_acc": 0.9495798319327731,
      "train_speed(iter/s)": 1.508262
    },
    {
      "epoch": 0.06704939805492481,
      "grad_norm": 1.744653344154358,
      "learning_rate": 9.995563655343645e-05,
      "loss": 0.20707738399505615,
      "memory(GiB)": 51.38,
      "step": 1565,
      "token_acc": 0.9407114624505929,
      "train_speed(iter/s)": 1.508451
    },
    {
      "epoch": 0.06726361338417378,
      "grad_norm": 1.7197892665863037,
      "learning_rate": 9.995535267036551e-05,
      "loss": 0.5075142860412598,
      "memory(GiB)": 51.38,
      "step": 1570,
      "token_acc": 0.9,
      "train_speed(iter/s)": 1.508742
    },
    {
      "epoch": 0.06747782871342273,
      "grad_norm": 1.5631802082061768,
      "learning_rate": 9.995506788230652e-05,
      "loss": 0.21766080856323242,
      "memory(GiB)": 51.38,
      "step": 1575,
      "token_acc": 0.9449838187702265,
      "train_speed(iter/s)": 1.509162
    },
    {
      "epoch": 0.06769204404267169,
      "grad_norm": 2.897325038909912,
      "learning_rate": 9.99547821892646e-05,
      "loss": 0.38132286071777344,
      "memory(GiB)": 51.38,
      "step": 1580,
      "token_acc": 0.8971061093247589,
      "train_speed(iter/s)": 1.50918
    },
    {
      "epoch": 0.06790625937192066,
      "grad_norm": 9.3455228805542,
      "learning_rate": 9.995449559124495e-05,
      "loss": 0.43044614791870117,
      "memory(GiB)": 51.38,
      "step": 1585,
      "token_acc": 0.9047619047619048,
      "train_speed(iter/s)": 1.508915
    },
    {
      "epoch": 0.06812047470116961,
      "grad_norm": 1.4786064624786377,
      "learning_rate": 9.995420808825274e-05,
      "loss": 0.2306354522705078,
      "memory(GiB)": 51.38,
      "step": 1590,
      "token_acc": 0.9528985507246377,
      "train_speed(iter/s)": 1.508495
    },
    {
      "epoch": 0.06833469003041857,
      "grad_norm": 2.4360625743865967,
      "learning_rate": 9.995391968029318e-05,
      "loss": 0.5117662429809571,
      "memory(GiB)": 51.38,
      "step": 1595,
      "token_acc": 0.8714733542319749,
      "train_speed(iter/s)": 1.508606
    },
    {
      "epoch": 0.06854890535966754,
      "grad_norm": 3.7222166061401367,
      "learning_rate": 9.995363036737152e-05,
      "loss": 0.40784215927124023,
      "memory(GiB)": 51.38,
      "step": 1600,
      "token_acc": 0.8911290322580645,
      "train_speed(iter/s)": 1.509014
    },
    {
      "epoch": 0.0687631206889165,
      "grad_norm": 3.1575143337249756,
      "learning_rate": 9.995334014949297e-05,
      "loss": 0.5195985794067383,
      "memory(GiB)": 51.38,
      "step": 1605,
      "token_acc": 0.851145038167939,
      "train_speed(iter/s)": 1.509073
    },
    {
      "epoch": 0.06897733601816546,
      "grad_norm": 1.0886998176574707,
      "learning_rate": 9.995304902666283e-05,
      "loss": 0.3257907390594482,
      "memory(GiB)": 51.38,
      "step": 1610,
      "token_acc": 0.9296636085626911,
      "train_speed(iter/s)": 1.509478
    },
    {
      "epoch": 0.06919155134741442,
      "grad_norm": 2.6948862075805664,
      "learning_rate": 9.995275699888633e-05,
      "loss": 0.4741551876068115,
      "memory(GiB)": 51.38,
      "step": 1615,
      "token_acc": 0.929368029739777,
      "train_speed(iter/s)": 1.509345
    },
    {
      "epoch": 0.06940576667666339,
      "grad_norm": 8.57968807220459,
      "learning_rate": 9.995246406616879e-05,
      "loss": 0.4293004035949707,
      "memory(GiB)": 51.38,
      "step": 1620,
      "token_acc": 0.9238754325259516,
      "train_speed(iter/s)": 1.50991
    },
    {
      "epoch": 0.06961998200591234,
      "grad_norm": 3.5558295249938965,
      "learning_rate": 9.995217022851548e-05,
      "loss": 0.5159621238708496,
      "memory(GiB)": 51.38,
      "step": 1625,
      "token_acc": 0.9045936395759717,
      "train_speed(iter/s)": 1.509928
    },
    {
      "epoch": 0.0698341973351613,
      "grad_norm": 1.4698773622512817,
      "learning_rate": 9.995187548593176e-05,
      "loss": 0.2708472013473511,
      "memory(GiB)": 51.38,
      "step": 1630,
      "token_acc": 0.937125748502994,
      "train_speed(iter/s)": 1.510065
    },
    {
      "epoch": 0.07004841266441027,
      "grad_norm": 5.997922420501709,
      "learning_rate": 9.995157983842297e-05,
      "loss": 0.2844212055206299,
      "memory(GiB)": 51.38,
      "step": 1635,
      "token_acc": 0.9253246753246753,
      "train_speed(iter/s)": 1.510468
    },
    {
      "epoch": 0.07026262799365923,
      "grad_norm": 2.321852445602417,
      "learning_rate": 9.995128328599444e-05,
      "loss": 0.1962536096572876,
      "memory(GiB)": 51.38,
      "step": 1640,
      "token_acc": 0.9602649006622517,
      "train_speed(iter/s)": 1.510542
    },
    {
      "epoch": 0.07047684332290818,
      "grad_norm": 1.744938850402832,
      "learning_rate": 9.995098582865157e-05,
      "loss": 0.5735814094543457,
      "memory(GiB)": 51.38,
      "step": 1645,
      "token_acc": 0.9119718309859155,
      "train_speed(iter/s)": 1.510522
    },
    {
      "epoch": 0.07069105865215715,
      "grad_norm": 1.280989170074463,
      "learning_rate": 9.99506874663997e-05,
      "loss": 0.3865849018096924,
      "memory(GiB)": 51.38,
      "step": 1650,
      "token_acc": 0.921146953405018,
      "train_speed(iter/s)": 1.510791
    },
    {
      "epoch": 0.07090527398140611,
      "grad_norm": 1.4695428609848022,
      "learning_rate": 9.995038819924429e-05,
      "loss": 0.4433786392211914,
      "memory(GiB)": 51.38,
      "step": 1655,
      "token_acc": 0.925,
      "train_speed(iter/s)": 1.510613
    },
    {
      "epoch": 0.07111948931065507,
      "grad_norm": 3.5578935146331787,
      "learning_rate": 9.995008802719075e-05,
      "loss": 0.30309362411499025,
      "memory(GiB)": 51.38,
      "step": 1660,
      "token_acc": 0.9351535836177475,
      "train_speed(iter/s)": 1.510605
    },
    {
      "epoch": 0.07133370463990403,
      "grad_norm": 1.125504970550537,
      "learning_rate": 9.99497869502445e-05,
      "loss": 0.7048148155212403,
      "memory(GiB)": 51.38,
      "step": 1665,
      "token_acc": 0.8827838827838828,
      "train_speed(iter/s)": 1.510553
    },
    {
      "epoch": 0.071547919969153,
      "grad_norm": 2.987349510192871,
      "learning_rate": 9.9949484968411e-05,
      "loss": 0.4896413326263428,
      "memory(GiB)": 51.38,
      "step": 1670,
      "token_acc": 0.9134615384615384,
      "train_speed(iter/s)": 1.510793
    },
    {
      "epoch": 0.07176213529840195,
      "grad_norm": 4.866359233856201,
      "learning_rate": 9.994918208169572e-05,
      "loss": 0.5303282737731934,
      "memory(GiB)": 51.38,
      "step": 1675,
      "token_acc": 0.9069767441860465,
      "train_speed(iter/s)": 1.511138
    },
    {
      "epoch": 0.07197635062765091,
      "grad_norm": 1.8487114906311035,
      "learning_rate": 9.994887829010416e-05,
      "loss": 0.20537817478179932,
      "memory(GiB)": 51.38,
      "step": 1680,
      "token_acc": 0.9584905660377359,
      "train_speed(iter/s)": 1.511191
    },
    {
      "epoch": 0.07219056595689988,
      "grad_norm": 1.6131118535995483,
      "learning_rate": 9.994857359364181e-05,
      "loss": 0.5045605182647706,
      "memory(GiB)": 51.38,
      "step": 1685,
      "token_acc": 0.8971061093247589,
      "train_speed(iter/s)": 1.51108
    },
    {
      "epoch": 0.07240478128614884,
      "grad_norm": 5.356106758117676,
      "learning_rate": 9.99482679923142e-05,
      "loss": 0.18098180294036864,
      "memory(GiB)": 51.38,
      "step": 1690,
      "token_acc": 0.9589905362776026,
      "train_speed(iter/s)": 1.510889
    },
    {
      "epoch": 0.0726189966153978,
      "grad_norm": 2.7739832401275635,
      "learning_rate": 9.994796148612684e-05,
      "loss": 0.6482490539550781,
      "memory(GiB)": 51.38,
      "step": 1695,
      "token_acc": 0.8773584905660378,
      "train_speed(iter/s)": 1.510975
    },
    {
      "epoch": 0.07283321194464676,
      "grad_norm": 2.1476213932037354,
      "learning_rate": 9.994765407508532e-05,
      "loss": 0.2253375768661499,
      "memory(GiB)": 51.38,
      "step": 1700,
      "token_acc": 0.942652329749104,
      "train_speed(iter/s)": 1.51093
    },
    {
      "epoch": 0.07304742727389572,
      "grad_norm": 0.5031588673591614,
      "learning_rate": 9.99473457591952e-05,
      "loss": 0.5168910980224609,
      "memory(GiB)": 51.38,
      "step": 1705,
      "token_acc": 0.8928571428571429,
      "train_speed(iter/s)": 1.510912
    },
    {
      "epoch": 0.07326164260314467,
      "grad_norm": 2.3974556922912598,
      "learning_rate": 9.994703653846203e-05,
      "loss": 0.5229966640472412,
      "memory(GiB)": 51.38,
      "step": 1710,
      "token_acc": 0.9006622516556292,
      "train_speed(iter/s)": 1.511488
    },
    {
      "epoch": 0.07347585793239364,
      "grad_norm": 2.3954434394836426,
      "learning_rate": 9.994672641289146e-05,
      "loss": 0.7623198986053467,
      "memory(GiB)": 51.38,
      "step": 1715,
      "token_acc": 0.8791208791208791,
      "train_speed(iter/s)": 1.512072
    },
    {
      "epoch": 0.0736900732616426,
      "grad_norm": 1.0660268068313599,
      "learning_rate": 9.994641538248907e-05,
      "loss": 0.5481812953948975,
      "memory(GiB)": 51.38,
      "step": 1720,
      "token_acc": 0.8758620689655172,
      "train_speed(iter/s)": 1.512295
    },
    {
      "epoch": 0.07390428859089157,
      "grad_norm": 1.665285587310791,
      "learning_rate": 9.994610344726055e-05,
      "loss": 0.2775076627731323,
      "memory(GiB)": 51.38,
      "step": 1725,
      "token_acc": 0.9321428571428572,
      "train_speed(iter/s)": 1.512287
    },
    {
      "epoch": 0.07411850392014052,
      "grad_norm": 2.8702712059020996,
      "learning_rate": 9.994579060721147e-05,
      "loss": 0.3199134349822998,
      "memory(GiB)": 51.38,
      "step": 1730,
      "token_acc": 0.9051724137931034,
      "train_speed(iter/s)": 1.512112
    },
    {
      "epoch": 0.07433271924938949,
      "grad_norm": 2.889202356338501,
      "learning_rate": 9.994547686234755e-05,
      "loss": 0.5146369934082031,
      "memory(GiB)": 51.38,
      "step": 1735,
      "token_acc": 0.8949416342412452,
      "train_speed(iter/s)": 1.512193
    },
    {
      "epoch": 0.07454693457863845,
      "grad_norm": 2.725888729095459,
      "learning_rate": 9.994516221267446e-05,
      "loss": 0.5483423233032226,
      "memory(GiB)": 51.38,
      "step": 1740,
      "token_acc": 0.8862876254180602,
      "train_speed(iter/s)": 1.512653
    },
    {
      "epoch": 0.0747611499078874,
      "grad_norm": 0.8897895812988281,
      "learning_rate": 9.994484665819793e-05,
      "loss": 0.2682744026184082,
      "memory(GiB)": 51.38,
      "step": 1745,
      "token_acc": 0.9415807560137457,
      "train_speed(iter/s)": 1.512607
    },
    {
      "epoch": 0.07497536523713637,
      "grad_norm": 2.2083475589752197,
      "learning_rate": 9.994453019892364e-05,
      "loss": 0.48996148109436033,
      "memory(GiB)": 51.38,
      "step": 1750,
      "token_acc": 0.8813559322033898,
      "train_speed(iter/s)": 1.512926
    },
    {
      "epoch": 0.07518958056638533,
      "grad_norm": 5.652266025543213,
      "learning_rate": 9.994421283485733e-05,
      "loss": 0.5376258850097656,
      "memory(GiB)": 52.69,
      "step": 1755,
      "token_acc": 0.891156462585034,
      "train_speed(iter/s)": 1.513313
    },
    {
      "epoch": 0.0754037958956343,
      "grad_norm": 2.5043323040008545,
      "learning_rate": 9.994389456600474e-05,
      "loss": 0.4817495346069336,
      "memory(GiB)": 52.69,
      "step": 1760,
      "token_acc": 0.8835341365461847,
      "train_speed(iter/s)": 1.513813
    },
    {
      "epoch": 0.07561801122488325,
      "grad_norm": 4.360466003417969,
      "learning_rate": 9.994357539237166e-05,
      "loss": 0.46340327262878417,
      "memory(GiB)": 52.69,
      "step": 1765,
      "token_acc": 0.9014598540145985,
      "train_speed(iter/s)": 1.514111
    },
    {
      "epoch": 0.07583222655413221,
      "grad_norm": 3.356398105621338,
      "learning_rate": 9.994325531396387e-05,
      "loss": 0.24489102363586426,
      "memory(GiB)": 52.69,
      "step": 1770,
      "token_acc": 0.9618055555555556,
      "train_speed(iter/s)": 1.514312
    },
    {
      "epoch": 0.07604644188338118,
      "grad_norm": 4.485963344573975,
      "learning_rate": 9.994293433078714e-05,
      "loss": 0.34725489616394045,
      "memory(GiB)": 52.69,
      "step": 1775,
      "token_acc": 0.9228295819935691,
      "train_speed(iter/s)": 1.514456
    },
    {
      "epoch": 0.07626065721263013,
      "grad_norm": 3.3638997077941895,
      "learning_rate": 9.994261244284733e-05,
      "loss": 0.31113581657409667,
      "memory(GiB)": 52.69,
      "step": 1780,
      "token_acc": 0.9385113268608414,
      "train_speed(iter/s)": 1.514429
    },
    {
      "epoch": 0.0764748725418791,
      "grad_norm": 3.9617857933044434,
      "learning_rate": 9.994228965015022e-05,
      "loss": 0.4347806453704834,
      "memory(GiB)": 57.83,
      "step": 1785,
      "token_acc": 0.8912280701754386,
      "train_speed(iter/s)": 1.514216
    },
    {
      "epoch": 0.07668908787112806,
      "grad_norm": 4.323101997375488,
      "learning_rate": 9.99419659527017e-05,
      "loss": 0.6595251560211182,
      "memory(GiB)": 57.83,
      "step": 1790,
      "token_acc": 0.867741935483871,
      "train_speed(iter/s)": 1.514202
    },
    {
      "epoch": 0.07690330320037701,
      "grad_norm": 1.7291053533554077,
      "learning_rate": 9.994164135050761e-05,
      "loss": 0.6059975624084473,
      "memory(GiB)": 57.83,
      "step": 1795,
      "token_acc": 0.8788659793814433,
      "train_speed(iter/s)": 1.514357
    },
    {
      "epoch": 0.07711751852962598,
      "grad_norm": 3.2331202030181885,
      "learning_rate": 9.994131584357384e-05,
      "loss": 0.6180335998535156,
      "memory(GiB)": 57.83,
      "step": 1800,
      "token_acc": 0.8861538461538462,
      "train_speed(iter/s)": 1.514862
    },
    {
      "epoch": 0.07733173385887494,
      "grad_norm": 2.0732340812683105,
      "learning_rate": 9.994098943190629e-05,
      "loss": 0.598891019821167,
      "memory(GiB)": 57.83,
      "step": 1805,
      "token_acc": 0.8802395209580839,
      "train_speed(iter/s)": 1.515055
    },
    {
      "epoch": 0.07754594918812391,
      "grad_norm": 1.7091871500015259,
      "learning_rate": 9.994066211551085e-05,
      "loss": 0.2506587266921997,
      "memory(GiB)": 57.83,
      "step": 1810,
      "token_acc": 0.9305555555555556,
      "train_speed(iter/s)": 1.514987
    },
    {
      "epoch": 0.07776016451737286,
      "grad_norm": 3.40126633644104,
      "learning_rate": 9.994033389439348e-05,
      "loss": 0.4099709987640381,
      "memory(GiB)": 57.83,
      "step": 1815,
      "token_acc": 0.9098039215686274,
      "train_speed(iter/s)": 1.514911
    },
    {
      "epoch": 0.07797437984662182,
      "grad_norm": 2.9106945991516113,
      "learning_rate": 9.994000476856011e-05,
      "loss": 0.5257450580596924,
      "memory(GiB)": 57.83,
      "step": 1820,
      "token_acc": 0.886435331230284,
      "train_speed(iter/s)": 1.514607
    },
    {
      "epoch": 0.07818859517587079,
      "grad_norm": 5.167994976043701,
      "learning_rate": 9.993967473801671e-05,
      "loss": 0.49937734603881834,
      "memory(GiB)": 57.83,
      "step": 1825,
      "token_acc": 0.8858267716535433,
      "train_speed(iter/s)": 1.514787
    },
    {
      "epoch": 0.07840281050511974,
      "grad_norm": 5.245072364807129,
      "learning_rate": 9.993934380276926e-05,
      "loss": 0.4515682220458984,
      "memory(GiB)": 57.83,
      "step": 1830,
      "token_acc": 0.9190140845070423,
      "train_speed(iter/s)": 1.51556
    },
    {
      "epoch": 0.0786170258343687,
      "grad_norm": 0.852872371673584,
      "learning_rate": 9.993901196282374e-05,
      "loss": 0.3152703046798706,
      "memory(GiB)": 57.83,
      "step": 1835,
      "token_acc": 0.9208333333333333,
      "train_speed(iter/s)": 1.515643
    },
    {
      "epoch": 0.07883124116361767,
      "grad_norm": 3.0528903007507324,
      "learning_rate": 9.993867921818619e-05,
      "loss": 0.4761196613311768,
      "memory(GiB)": 57.83,
      "step": 1840,
      "token_acc": 0.8937007874015748,
      "train_speed(iter/s)": 1.515642
    },
    {
      "epoch": 0.07904545649286664,
      "grad_norm": 3.452143430709839,
      "learning_rate": 9.993834556886259e-05,
      "loss": 0.5900424003601075,
      "memory(GiB)": 57.83,
      "step": 1845,
      "token_acc": 0.8927335640138409,
      "train_speed(iter/s)": 1.515572
    },
    {
      "epoch": 0.07925967182211559,
      "grad_norm": 6.209501266479492,
      "learning_rate": 9.993801101485903e-05,
      "loss": 0.5946532726287842,
      "memory(GiB)": 57.83,
      "step": 1850,
      "token_acc": 0.8819444444444444,
      "train_speed(iter/s)": 1.516136
    },
    {
      "epoch": 0.07947388715136455,
      "grad_norm": 4.788073539733887,
      "learning_rate": 9.993767555618157e-05,
      "loss": 0.35467915534973143,
      "memory(GiB)": 57.83,
      "step": 1855,
      "token_acc": 0.9329073482428115,
      "train_speed(iter/s)": 1.515836
    },
    {
      "epoch": 0.07968810248061352,
      "grad_norm": 7.519866466522217,
      "learning_rate": 9.993733919283624e-05,
      "loss": 0.6217827320098877,
      "memory(GiB)": 57.83,
      "step": 1860,
      "token_acc": 0.8855421686746988,
      "train_speed(iter/s)": 1.5158
    },
    {
      "epoch": 0.07990231780986247,
      "grad_norm": 1.1160533428192139,
      "learning_rate": 9.993700192482918e-05,
      "loss": 0.10757068395614625,
      "memory(GiB)": 57.83,
      "step": 1865,
      "token_acc": 0.9748201438848921,
      "train_speed(iter/s)": 1.516023
    },
    {
      "epoch": 0.08011653313911143,
      "grad_norm": 1.7273410558700562,
      "learning_rate": 9.99366637521665e-05,
      "loss": 0.43184590339660645,
      "memory(GiB)": 57.83,
      "step": 1870,
      "token_acc": 0.9030303030303031,
      "train_speed(iter/s)": 1.516274
    },
    {
      "epoch": 0.0803307484683604,
      "grad_norm": 2.937713861465454,
      "learning_rate": 9.99363246748543e-05,
      "loss": 0.32599639892578125,
      "memory(GiB)": 57.83,
      "step": 1875,
      "token_acc": 0.9340659340659341,
      "train_speed(iter/s)": 1.516639
    },
    {
      "epoch": 0.08054496379760935,
      "grad_norm": 1.5094424486160278,
      "learning_rate": 9.993598469289874e-05,
      "loss": 0.5161242008209228,
      "memory(GiB)": 57.83,
      "step": 1880,
      "token_acc": 0.8850174216027874,
      "train_speed(iter/s)": 1.51654
    },
    {
      "epoch": 0.08075917912685832,
      "grad_norm": 3.188816785812378,
      "learning_rate": 9.993564380630595e-05,
      "loss": 0.49753561019897463,
      "memory(GiB)": 57.83,
      "step": 1885,
      "token_acc": 0.9042904290429042,
      "train_speed(iter/s)": 1.516695
    },
    {
      "epoch": 0.08097339445610728,
      "grad_norm": 0.977247416973114,
      "learning_rate": 9.993530201508216e-05,
      "loss": 0.16397618055343627,
      "memory(GiB)": 57.83,
      "step": 1890,
      "token_acc": 0.9607142857142857,
      "train_speed(iter/s)": 1.516867
    },
    {
      "epoch": 0.08118760978535625,
      "grad_norm": 3.4290144443511963,
      "learning_rate": 9.993495931923352e-05,
      "loss": 0.22274844646453856,
      "memory(GiB)": 57.83,
      "step": 1895,
      "token_acc": 0.9466192170818505,
      "train_speed(iter/s)": 1.516676
    },
    {
      "epoch": 0.0814018251146052,
      "grad_norm": 1.784302830696106,
      "learning_rate": 9.993461571876624e-05,
      "loss": 0.4341409206390381,
      "memory(GiB)": 57.83,
      "step": 1900,
      "token_acc": 0.9109792284866469,
      "train_speed(iter/s)": 1.516712
    },
    {
      "epoch": 0.08161604044385416,
      "grad_norm": 4.658522129058838,
      "learning_rate": 9.993427121368656e-05,
      "loss": 0.23212058544158937,
      "memory(GiB)": 57.83,
      "step": 1905,
      "token_acc": 0.9465408805031447,
      "train_speed(iter/s)": 1.516708
    },
    {
      "epoch": 0.08183025577310313,
      "grad_norm": 1.0936843156814575,
      "learning_rate": 9.993392580400072e-05,
      "loss": 0.47963547706604004,
      "memory(GiB)": 57.83,
      "step": 1910,
      "token_acc": 0.8757763975155279,
      "train_speed(iter/s)": 1.516817
    },
    {
      "epoch": 0.08204447110235208,
      "grad_norm": 2.5820348262786865,
      "learning_rate": 9.993357948971496e-05,
      "loss": 0.4552448749542236,
      "memory(GiB)": 57.83,
      "step": 1915,
      "token_acc": 0.8964285714285715,
      "train_speed(iter/s)": 1.516672
    },
    {
      "epoch": 0.08225868643160104,
      "grad_norm": 3.126863956451416,
      "learning_rate": 9.993323227083557e-05,
      "loss": 0.35478835105895995,
      "memory(GiB)": 57.83,
      "step": 1920,
      "token_acc": 0.9135338345864662,
      "train_speed(iter/s)": 1.517165
    },
    {
      "epoch": 0.08247290176085001,
      "grad_norm": 1.8618804216384888,
      "learning_rate": 9.993288414736885e-05,
      "loss": 0.21129944324493408,
      "memory(GiB)": 57.83,
      "step": 1925,
      "token_acc": 0.9563492063492064,
      "train_speed(iter/s)": 1.517506
    },
    {
      "epoch": 0.08268711709009897,
      "grad_norm": 5.763302326202393,
      "learning_rate": 9.993253511932108e-05,
      "loss": 0.40717458724975586,
      "memory(GiB)": 57.83,
      "step": 1930,
      "token_acc": 0.8952702702702703,
      "train_speed(iter/s)": 1.517775
    },
    {
      "epoch": 0.08290133241934793,
      "grad_norm": 3.0122766494750977,
      "learning_rate": 9.99321851866986e-05,
      "loss": 0.47696518898010254,
      "memory(GiB)": 57.83,
      "step": 1935,
      "token_acc": 0.892,
      "train_speed(iter/s)": 1.518296
    },
    {
      "epoch": 0.08311554774859689,
      "grad_norm": 2.215914011001587,
      "learning_rate": 9.993183434950774e-05,
      "loss": 0.36210026741027834,
      "memory(GiB)": 57.83,
      "step": 1940,
      "token_acc": 0.926984126984127,
      "train_speed(iter/s)": 1.518298
    },
    {
      "epoch": 0.08332976307784586,
      "grad_norm": 2.2248759269714355,
      "learning_rate": 9.993148260775487e-05,
      "loss": 0.4623382091522217,
      "memory(GiB)": 57.83,
      "step": 1945,
      "token_acc": 0.9074733096085409,
      "train_speed(iter/s)": 1.518437
    },
    {
      "epoch": 0.08354397840709481,
      "grad_norm": 2.2277722358703613,
      "learning_rate": 9.993112996144634e-05,
      "loss": 0.36342473030090333,
      "memory(GiB)": 57.83,
      "step": 1950,
      "token_acc": 0.9184952978056427,
      "train_speed(iter/s)": 1.518341
    },
    {
      "epoch": 0.08375819373634377,
      "grad_norm": 4.132850170135498,
      "learning_rate": 9.993077641058856e-05,
      "loss": 0.4066637992858887,
      "memory(GiB)": 57.83,
      "step": 1955,
      "token_acc": 0.9172185430463576,
      "train_speed(iter/s)": 1.518701
    },
    {
      "epoch": 0.08397240906559274,
      "grad_norm": 4.002188205718994,
      "learning_rate": 9.993042195518793e-05,
      "loss": 0.2413576602935791,
      "memory(GiB)": 57.83,
      "step": 1960,
      "token_acc": 0.9473684210526315,
      "train_speed(iter/s)": 1.51881
    },
    {
      "epoch": 0.08418662439484169,
      "grad_norm": 1.2864103317260742,
      "learning_rate": 9.993006659525087e-05,
      "loss": 0.49903020858764646,
      "memory(GiB)": 57.83,
      "step": 1965,
      "token_acc": 0.9069767441860465,
      "train_speed(iter/s)": 1.518998
    },
    {
      "epoch": 0.08440083972409065,
      "grad_norm": 1.430816411972046,
      "learning_rate": 9.99297103307838e-05,
      "loss": 0.19716956615447997,
      "memory(GiB)": 57.83,
      "step": 1970,
      "token_acc": 0.9629629629629629,
      "train_speed(iter/s)": 1.519337
    },
    {
      "epoch": 0.08461505505333962,
      "grad_norm": 4.550480365753174,
      "learning_rate": 9.99293531617932e-05,
      "loss": 0.2833199977874756,
      "memory(GiB)": 57.83,
      "step": 1975,
      "token_acc": 0.9362416107382551,
      "train_speed(iter/s)": 1.519094
    },
    {
      "epoch": 0.08482927038258858,
      "grad_norm": 2.145718574523926,
      "learning_rate": 9.992899508828553e-05,
      "loss": 0.19301217794418335,
      "memory(GiB)": 57.83,
      "step": 1980,
      "token_acc": 0.950381679389313,
      "train_speed(iter/s)": 1.519171
    },
    {
      "epoch": 0.08504348571183754,
      "grad_norm": 2.4572529792785645,
      "learning_rate": 9.992863611026725e-05,
      "loss": 0.309356164932251,
      "memory(GiB)": 57.83,
      "step": 1985,
      "token_acc": 0.9330855018587361,
      "train_speed(iter/s)": 1.519304
    },
    {
      "epoch": 0.0852577010410865,
      "grad_norm": 3.178694248199463,
      "learning_rate": 9.992827622774494e-05,
      "loss": 0.22644588947296143,
      "memory(GiB)": 57.83,
      "step": 1990,
      "token_acc": 0.9294871794871795,
      "train_speed(iter/s)": 1.519357
    },
    {
      "epoch": 0.08547191637033547,
      "grad_norm": 2.015859842300415,
      "learning_rate": 9.992791544072504e-05,
      "loss": 0.241288161277771,
      "memory(GiB)": 57.83,
      "step": 1995,
      "token_acc": 0.946360153256705,
      "train_speed(iter/s)": 1.51945
    },
    {
      "epoch": 0.08568613169958442,
      "grad_norm": 4.4971513748168945,
      "learning_rate": 9.992755374921412e-05,
      "loss": 0.3095445156097412,
      "memory(GiB)": 57.83,
      "step": 2000,
      "token_acc": 0.9416342412451362,
      "train_speed(iter/s)": 1.519401
    },
    {
      "epoch": 0.08568613169958442,
      "eval_loss": 2.613004684448242,
      "eval_runtime": 11.7941,
      "eval_samples_per_second": 8.479,
      "eval_steps_per_second": 8.479,
      "eval_token_acc": 0.4307692307692308,
      "step": 2000
    },
    {
      "epoch": 0.08590034702883338,
      "grad_norm": 3.23629093170166,
      "learning_rate": 9.992719115321872e-05,
      "loss": 0.3552790641784668,
      "memory(GiB)": 57.83,
      "step": 2005,
      "token_acc": 0.5737211634904714,
      "train_speed(iter/s)": 1.505128
    },
    {
      "epoch": 0.08611456235808235,
      "grad_norm": 6.062796115875244,
      "learning_rate": 9.992682765274543e-05,
      "loss": 0.38274221420288085,
      "memory(GiB)": 57.83,
      "step": 2010,
      "token_acc": 0.921875,
      "train_speed(iter/s)": 1.504998
    },
    {
      "epoch": 0.08632877768733131,
      "grad_norm": 3.6300177574157715,
      "learning_rate": 9.992646324780082e-05,
      "loss": 0.27340590953826904,
      "memory(GiB)": 57.83,
      "step": 2015,
      "token_acc": 0.9681274900398407,
      "train_speed(iter/s)": 1.505316
    },
    {
      "epoch": 0.08654299301658026,
      "grad_norm": 11.48849868774414,
      "learning_rate": 9.992609793839148e-05,
      "loss": 0.49669971466064455,
      "memory(GiB)": 57.83,
      "step": 2020,
      "token_acc": 0.9094827586206896,
      "train_speed(iter/s)": 1.505956
    },
    {
      "epoch": 0.08675720834582923,
      "grad_norm": 2.913541078567505,
      "learning_rate": 9.992573172452406e-05,
      "loss": 0.3669614553451538,
      "memory(GiB)": 57.83,
      "step": 2025,
      "token_acc": 0.9254237288135593,
      "train_speed(iter/s)": 1.506047
    },
    {
      "epoch": 0.0869714236750782,
      "grad_norm": 1.4147032499313354,
      "learning_rate": 9.992536460620516e-05,
      "loss": 0.44008736610412597,
      "memory(GiB)": 57.83,
      "step": 2030,
      "token_acc": 0.9169435215946844,
      "train_speed(iter/s)": 1.506004
    },
    {
      "epoch": 0.08718563900432715,
      "grad_norm": 0.9683845639228821,
      "learning_rate": 9.992499658344145e-05,
      "loss": 0.3149267673492432,
      "memory(GiB)": 57.83,
      "step": 2035,
      "token_acc": 0.9212827988338192,
      "train_speed(iter/s)": 1.506246
    },
    {
      "epoch": 0.08739985433357611,
      "grad_norm": 1.521776795387268,
      "learning_rate": 9.99246276562396e-05,
      "loss": 0.45855345726013186,
      "memory(GiB)": 57.83,
      "step": 2040,
      "token_acc": 0.8885017421602788,
      "train_speed(iter/s)": 1.506281
    },
    {
      "epoch": 0.08761406966282508,
      "grad_norm": 7.82253360748291,
      "learning_rate": 9.992425782460628e-05,
      "loss": 0.7940710544586181,
      "memory(GiB)": 57.83,
      "step": 2045,
      "token_acc": 0.7971014492753623,
      "train_speed(iter/s)": 1.506563
    },
    {
      "epoch": 0.08782828499207403,
      "grad_norm": 2.2983646392822266,
      "learning_rate": 9.99238870885482e-05,
      "loss": 0.37485313415527344,
      "memory(GiB)": 57.83,
      "step": 2050,
      "token_acc": 0.9217687074829932,
      "train_speed(iter/s)": 1.506562
    },
    {
      "epoch": 0.08804250032132299,
      "grad_norm": 2.137162208557129,
      "learning_rate": 9.992351544807208e-05,
      "loss": 0.656770658493042,
      "memory(GiB)": 57.83,
      "step": 2055,
      "token_acc": 0.8585209003215434,
      "train_speed(iter/s)": 1.506955
    },
    {
      "epoch": 0.08825671565057196,
      "grad_norm": 0.5717587471008301,
      "learning_rate": 9.992314290318465e-05,
      "loss": 0.6279329776763916,
      "memory(GiB)": 57.83,
      "step": 2060,
      "token_acc": 0.8754863813229572,
      "train_speed(iter/s)": 1.506902
    },
    {
      "epoch": 0.08847093097982092,
      "grad_norm": 2.1988844871520996,
      "learning_rate": 9.992276945389263e-05,
      "loss": 0.3494650602340698,
      "memory(GiB)": 57.83,
      "step": 2065,
      "token_acc": 0.9271255060728745,
      "train_speed(iter/s)": 1.506966
    },
    {
      "epoch": 0.08868514630906987,
      "grad_norm": 2.193023920059204,
      "learning_rate": 9.992239510020282e-05,
      "loss": 0.37491090297698976,
      "memory(GiB)": 57.83,
      "step": 2070,
      "token_acc": 0.9072164948453608,
      "train_speed(iter/s)": 1.507381
    },
    {
      "epoch": 0.08889936163831884,
      "grad_norm": 2.935596466064453,
      "learning_rate": 9.9922019842122e-05,
      "loss": 0.6336065769195557,
      "memory(GiB)": 57.83,
      "step": 2075,
      "token_acc": 0.8517350157728707,
      "train_speed(iter/s)": 1.507402
    },
    {
      "epoch": 0.0891135769675678,
      "grad_norm": 2.072000741958618,
      "learning_rate": 9.992164367965696e-05,
      "loss": 0.2197868824005127,
      "memory(GiB)": 57.83,
      "step": 2080,
      "token_acc": 0.9484978540772532,
      "train_speed(iter/s)": 1.508086
    },
    {
      "epoch": 0.08932779229681675,
      "grad_norm": 2.5668697357177734,
      "learning_rate": 9.992126661281452e-05,
      "loss": 0.5369738578796387,
      "memory(GiB)": 57.83,
      "step": 2085,
      "token_acc": 0.8838028169014085,
      "train_speed(iter/s)": 1.5082
    },
    {
      "epoch": 0.08954200762606572,
      "grad_norm": 3.954017162322998,
      "learning_rate": 9.99208886416015e-05,
      "loss": 0.3172943115234375,
      "memory(GiB)": 57.83,
      "step": 2090,
      "token_acc": 0.9285714285714286,
      "train_speed(iter/s)": 1.508848
    },
    {
      "epoch": 0.08975622295531469,
      "grad_norm": 1.311085820198059,
      "learning_rate": 9.992050976602474e-05,
      "loss": 0.35313918590545657,
      "memory(GiB)": 57.83,
      "step": 2095,
      "token_acc": 0.9457364341085271,
      "train_speed(iter/s)": 1.50895
    },
    {
      "epoch": 0.08997043828456365,
      "grad_norm": 4.80161190032959,
      "learning_rate": 9.992012998609112e-05,
      "loss": 0.6552850723266601,
      "memory(GiB)": 57.83,
      "step": 2100,
      "token_acc": 0.8407407407407408,
      "train_speed(iter/s)": 1.509421
    },
    {
      "epoch": 0.0901846536138126,
      "grad_norm": 2.4349679946899414,
      "learning_rate": 9.991974930180752e-05,
      "loss": 0.31186347007751464,
      "memory(GiB)": 57.83,
      "step": 2105,
      "token_acc": 0.9335664335664335,
      "train_speed(iter/s)": 1.509465
    },
    {
      "epoch": 0.09039886894306157,
      "grad_norm": 3.718183755874634,
      "learning_rate": 9.991936771318083e-05,
      "loss": 0.7494807243347168,
      "memory(GiB)": 57.83,
      "step": 2110,
      "token_acc": 0.85,
      "train_speed(iter/s)": 1.509634
    },
    {
      "epoch": 0.09061308427231053,
      "grad_norm": 2.127686023712158,
      "learning_rate": 9.991898522021798e-05,
      "loss": 0.4112898826599121,
      "memory(GiB)": 57.83,
      "step": 2115,
      "token_acc": 0.9051987767584098,
      "train_speed(iter/s)": 1.509704
    },
    {
      "epoch": 0.09082729960155948,
      "grad_norm": 1.349186897277832,
      "learning_rate": 9.991860182292587e-05,
      "loss": 0.29790692329406737,
      "memory(GiB)": 57.83,
      "step": 2120,
      "token_acc": 0.9356223175965666,
      "train_speed(iter/s)": 1.509641
    },
    {
      "epoch": 0.09104151493080845,
      "grad_norm": 4.534247398376465,
      "learning_rate": 9.991821752131146e-05,
      "loss": 0.5310953617095947,
      "memory(GiB)": 57.83,
      "step": 2125,
      "token_acc": 0.9054545454545454,
      "train_speed(iter/s)": 1.509527
    },
    {
      "epoch": 0.09125573026005741,
      "grad_norm": 0.1368785947561264,
      "learning_rate": 9.991783231538172e-05,
      "loss": 0.26440062522888186,
      "memory(GiB)": 57.83,
      "step": 2130,
      "token_acc": 0.9163987138263665,
      "train_speed(iter/s)": 1.509433
    },
    {
      "epoch": 0.09146994558930636,
      "grad_norm": 9.457904815673828,
      "learning_rate": 9.991744620514363e-05,
      "loss": 0.3672290802001953,
      "memory(GiB)": 57.83,
      "step": 2135,
      "token_acc": 0.9130434782608695,
      "train_speed(iter/s)": 1.50964
    },
    {
      "epoch": 0.09168416091855533,
      "grad_norm": 3.4838483333587646,
      "learning_rate": 9.991705919060416e-05,
      "loss": 0.3392383575439453,
      "memory(GiB)": 57.83,
      "step": 2140,
      "token_acc": 0.9265734265734266,
      "train_speed(iter/s)": 1.509757
    },
    {
      "epoch": 0.0918983762478043,
      "grad_norm": 2.9616620540618896,
      "learning_rate": 9.991667127177033e-05,
      "loss": 0.4247230052947998,
      "memory(GiB)": 57.83,
      "step": 2145,
      "token_acc": 0.8885245901639345,
      "train_speed(iter/s)": 1.510005
    },
    {
      "epoch": 0.09211259157705326,
      "grad_norm": 2.5032119750976562,
      "learning_rate": 9.99162824486492e-05,
      "loss": 0.37349083423614504,
      "memory(GiB)": 57.83,
      "step": 2150,
      "token_acc": 0.9067524115755627,
      "train_speed(iter/s)": 1.510032
    },
    {
      "epoch": 0.09232680690630221,
      "grad_norm": 2.251166820526123,
      "learning_rate": 9.991589272124778e-05,
      "loss": 0.4075924396514893,
      "memory(GiB)": 57.83,
      "step": 2155,
      "token_acc": 0.91796875,
      "train_speed(iter/s)": 1.510054
    },
    {
      "epoch": 0.09254102223555118,
      "grad_norm": 2.7242372035980225,
      "learning_rate": 9.991550208957312e-05,
      "loss": 0.37511701583862306,
      "memory(GiB)": 57.83,
      "step": 2160,
      "token_acc": 0.9124579124579124,
      "train_speed(iter/s)": 1.510119
    },
    {
      "epoch": 0.09275523756480014,
      "grad_norm": 2.6500437259674072,
      "learning_rate": 9.991511055363232e-05,
      "loss": 0.28545854091644285,
      "memory(GiB)": 57.83,
      "step": 2165,
      "token_acc": 0.9304029304029304,
      "train_speed(iter/s)": 1.510347
    },
    {
      "epoch": 0.09296945289404909,
      "grad_norm": 2.7835581302642822,
      "learning_rate": 9.991471811343248e-05,
      "loss": 0.583714485168457,
      "memory(GiB)": 57.83,
      "step": 2170,
      "token_acc": 0.8945147679324894,
      "train_speed(iter/s)": 1.510669
    },
    {
      "epoch": 0.09318366822329806,
      "grad_norm": 0.1971823126077652,
      "learning_rate": 9.991432476898069e-05,
      "loss": 0.3036702394485474,
      "memory(GiB)": 57.83,
      "step": 2175,
      "token_acc": 0.9450171821305842,
      "train_speed(iter/s)": 1.510926
    },
    {
      "epoch": 0.09339788355254702,
      "grad_norm": 6.180114269256592,
      "learning_rate": 9.991393052028408e-05,
      "loss": 0.3885409116744995,
      "memory(GiB)": 57.83,
      "step": 2180,
      "token_acc": 0.9047619047619048,
      "train_speed(iter/s)": 1.511205
    },
    {
      "epoch": 0.09361209888179599,
      "grad_norm": 3.63148832321167,
      "learning_rate": 9.991353536734981e-05,
      "loss": 0.18328100442886353,
      "memory(GiB)": 57.83,
      "step": 2185,
      "token_acc": 0.95,
      "train_speed(iter/s)": 1.511533
    },
    {
      "epoch": 0.09382631421104494,
      "grad_norm": 2.290264129638672,
      "learning_rate": 9.991313931018503e-05,
      "loss": 0.25804924964904785,
      "memory(GiB)": 57.83,
      "step": 2190,
      "token_acc": 0.9415384615384615,
      "train_speed(iter/s)": 1.511479
    },
    {
      "epoch": 0.0940405295402939,
      "grad_norm": 3.2631585597991943,
      "learning_rate": 9.991274234879688e-05,
      "loss": 0.6042183399200439,
      "memory(GiB)": 57.83,
      "step": 2195,
      "token_acc": 0.8566037735849057,
      "train_speed(iter/s)": 1.511622
    },
    {
      "epoch": 0.09425474486954287,
      "grad_norm": 3.987161874771118,
      "learning_rate": 9.99123444831926e-05,
      "loss": 0.2985223770141602,
      "memory(GiB)": 57.83,
      "step": 2200,
      "token_acc": 0.934931506849315,
      "train_speed(iter/s)": 1.511633
    },
    {
      "epoch": 0.09446896019879182,
      "grad_norm": 2.3610386848449707,
      "learning_rate": 9.991194571337937e-05,
      "loss": 0.496595573425293,
      "memory(GiB)": 57.83,
      "step": 2205,
      "token_acc": 0.8944099378881988,
      "train_speed(iter/s)": 1.511663
    },
    {
      "epoch": 0.09468317552804079,
      "grad_norm": 9.483367919921875,
      "learning_rate": 9.991154603936443e-05,
      "loss": 0.31942932605743407,
      "memory(GiB)": 57.83,
      "step": 2210,
      "token_acc": 0.9267399267399268,
      "train_speed(iter/s)": 1.512148
    },
    {
      "epoch": 0.09489739085728975,
      "grad_norm": 1.038737177848816,
      "learning_rate": 9.991114546115502e-05,
      "loss": 0.2663280725479126,
      "memory(GiB)": 57.83,
      "step": 2215,
      "token_acc": 0.9328859060402684,
      "train_speed(iter/s)": 1.512615
    },
    {
      "epoch": 0.0951116061865387,
      "grad_norm": 0.5263956189155579,
      "learning_rate": 9.991074397875836e-05,
      "loss": 0.18030860424041747,
      "memory(GiB)": 57.83,
      "step": 2220,
      "token_acc": 0.9497041420118343,
      "train_speed(iter/s)": 1.512799
    },
    {
      "epoch": 0.09532582151578767,
      "grad_norm": 2.107821226119995,
      "learning_rate": 9.991034159218178e-05,
      "loss": 0.4009974479675293,
      "memory(GiB)": 57.83,
      "step": 2225,
      "token_acc": 0.928030303030303,
      "train_speed(iter/s)": 1.513203
    },
    {
      "epoch": 0.09554003684503663,
      "grad_norm": 3.1267387866973877,
      "learning_rate": 9.990993830143253e-05,
      "loss": 0.5532732963562011,
      "memory(GiB)": 57.83,
      "step": 2230,
      "token_acc": 0.8862068965517241,
      "train_speed(iter/s)": 1.513061
    },
    {
      "epoch": 0.0957542521742856,
      "grad_norm": 1.7846169471740723,
      "learning_rate": 9.990953410651793e-05,
      "loss": 0.388879132270813,
      "memory(GiB)": 57.83,
      "step": 2235,
      "token_acc": 0.8974358974358975,
      "train_speed(iter/s)": 1.513063
    },
    {
      "epoch": 0.09596846750353455,
      "grad_norm": 0.23187610507011414,
      "learning_rate": 9.990912900744529e-05,
      "loss": 0.3028446674346924,
      "memory(GiB)": 57.83,
      "step": 2240,
      "token_acc": 0.9333333333333333,
      "train_speed(iter/s)": 1.513164
    },
    {
      "epoch": 0.09618268283278351,
      "grad_norm": 2.04084849357605,
      "learning_rate": 9.990872300422198e-05,
      "loss": 0.42904019355773926,
      "memory(GiB)": 57.83,
      "step": 2245,
      "token_acc": 0.9259259259259259,
      "train_speed(iter/s)": 1.513439
    },
    {
      "epoch": 0.09639689816203248,
      "grad_norm": 2.102917194366455,
      "learning_rate": 9.990831609685532e-05,
      "loss": 0.47067956924438475,
      "memory(GiB)": 57.83,
      "step": 2250,
      "token_acc": 0.8785046728971962,
      "train_speed(iter/s)": 1.513464
    },
    {
      "epoch": 0.09661111349128143,
      "grad_norm": 1.7556836605072021,
      "learning_rate": 9.990790828535271e-05,
      "loss": 0.35270354747772215,
      "memory(GiB)": 57.83,
      "step": 2255,
      "token_acc": 0.908745247148289,
      "train_speed(iter/s)": 1.513282
    },
    {
      "epoch": 0.0968253288205304,
      "grad_norm": 2.412956714630127,
      "learning_rate": 9.990749956972152e-05,
      "loss": 0.44744095802307127,
      "memory(GiB)": 57.83,
      "step": 2260,
      "token_acc": 0.916955017301038,
      "train_speed(iter/s)": 1.513102
    },
    {
      "epoch": 0.09703954414977936,
      "grad_norm": 2.0045385360717773,
      "learning_rate": 9.990708994996916e-05,
      "loss": 0.24230170249938965,
      "memory(GiB)": 57.83,
      "step": 2265,
      "token_acc": 0.9385964912280702,
      "train_speed(iter/s)": 1.513215
    },
    {
      "epoch": 0.09725375947902833,
      "grad_norm": 2.103858470916748,
      "learning_rate": 9.990667942610303e-05,
      "loss": 0.3797850370407104,
      "memory(GiB)": 57.83,
      "step": 2270,
      "token_acc": 0.9222614840989399,
      "train_speed(iter/s)": 1.513399
    },
    {
      "epoch": 0.09746797480827728,
      "grad_norm": 3.922213315963745,
      "learning_rate": 9.990626799813061e-05,
      "loss": 0.4533543109893799,
      "memory(GiB)": 57.83,
      "step": 2275,
      "token_acc": 0.8987341772151899,
      "train_speed(iter/s)": 1.513706
    },
    {
      "epoch": 0.09768219013752624,
      "grad_norm": 1.3530110120773315,
      "learning_rate": 9.990585566605932e-05,
      "loss": 0.5892696380615234,
      "memory(GiB)": 57.83,
      "step": 2280,
      "token_acc": 0.8724137931034482,
      "train_speed(iter/s)": 1.513912
    },
    {
      "epoch": 0.09789640546677521,
      "grad_norm": 4.482554912567139,
      "learning_rate": 9.990544242989663e-05,
      "loss": 0.4555466651916504,
      "memory(GiB)": 57.83,
      "step": 2285,
      "token_acc": 0.9047619047619048,
      "train_speed(iter/s)": 1.51404
    },
    {
      "epoch": 0.09811062079602416,
      "grad_norm": 4.787440776824951,
      "learning_rate": 9.990502828965005e-05,
      "loss": 0.6266982078552246,
      "memory(GiB)": 57.83,
      "step": 2290,
      "token_acc": 0.8792569659442725,
      "train_speed(iter/s)": 1.514366
    },
    {
      "epoch": 0.09832483612527312,
      "grad_norm": 0.13243888318538666,
      "learning_rate": 9.990461324532705e-05,
      "loss": 0.5205819129943847,
      "memory(GiB)": 57.83,
      "step": 2295,
      "token_acc": 0.883495145631068,
      "train_speed(iter/s)": 1.514322
    },
    {
      "epoch": 0.09853905145452209,
      "grad_norm": 1.6306568384170532,
      "learning_rate": 9.990419729693519e-05,
      "loss": 0.43828411102294923,
      "memory(GiB)": 57.83,
      "step": 2300,
      "token_acc": 0.9178571428571428,
      "train_speed(iter/s)": 1.514963
    },
    {
      "epoch": 0.09875326678377104,
      "grad_norm": 0.08481105417013168,
      "learning_rate": 9.990378044448197e-05,
      "loss": 0.27972941398620604,
      "memory(GiB)": 57.83,
      "step": 2305,
      "token_acc": 0.9288389513108615,
      "train_speed(iter/s)": 1.515411
    },
    {
      "epoch": 0.09896748211302,
      "grad_norm": 1.7977423667907715,
      "learning_rate": 9.990336268797494e-05,
      "loss": 0.41505069732666017,
      "memory(GiB)": 57.83,
      "step": 2310,
      "token_acc": 0.9136212624584718,
      "train_speed(iter/s)": 1.515631
    },
    {
      "epoch": 0.09918169744226897,
      "grad_norm": 1.4308570623397827,
      "learning_rate": 9.990294402742171e-05,
      "loss": 0.28970272541046144,
      "memory(GiB)": 57.83,
      "step": 2315,
      "token_acc": 0.9484848484848485,
      "train_speed(iter/s)": 1.515668
    },
    {
      "epoch": 0.09939591277151794,
      "grad_norm": 2.57517147064209,
      "learning_rate": 9.990252446282982e-05,
      "loss": 0.25223736763000487,
      "memory(GiB)": 57.83,
      "step": 2320,
      "token_acc": 0.937037037037037,
      "train_speed(iter/s)": 1.515704
    },
    {
      "epoch": 0.09961012810076689,
      "grad_norm": 4.679688930511475,
      "learning_rate": 9.990210399420688e-05,
      "loss": 0.3138675928115845,
      "memory(GiB)": 57.83,
      "step": 2325,
      "token_acc": 0.9350180505415162,
      "train_speed(iter/s)": 1.515768
    },
    {
      "epoch": 0.09982434343001585,
      "grad_norm": 1.648979902267456,
      "learning_rate": 9.990168262156052e-05,
      "loss": 0.41692361831665037,
      "memory(GiB)": 57.83,
      "step": 2330,
      "token_acc": 0.9255663430420712,
      "train_speed(iter/s)": 1.515863
    },
    {
      "epoch": 0.10003855875926482,
      "grad_norm": 1.9181838035583496,
      "learning_rate": 9.990126034489837e-05,
      "loss": 0.2203444719314575,
      "memory(GiB)": 57.83,
      "step": 2335,
      "token_acc": 0.9495268138801262,
      "train_speed(iter/s)": 1.515816
    },
    {
      "epoch": 0.10025277408851377,
      "grad_norm": 2.8398234844207764,
      "learning_rate": 9.990083716422808e-05,
      "loss": 1.014545726776123,
      "memory(GiB)": 57.83,
      "step": 2340,
      "token_acc": 0.8084507042253521,
      "train_speed(iter/s)": 1.516224
    },
    {
      "epoch": 0.10046698941776273,
      "grad_norm": 1.7266123294830322,
      "learning_rate": 9.990041307955731e-05,
      "loss": 0.39326908588409426,
      "memory(GiB)": 57.83,
      "step": 2345,
      "token_acc": 0.8807017543859649,
      "train_speed(iter/s)": 1.516299
    },
    {
      "epoch": 0.1006812047470117,
      "grad_norm": 0.9288516640663147,
      "learning_rate": 9.989998809089376e-05,
      "loss": 0.3655564785003662,
      "memory(GiB)": 57.83,
      "step": 2350,
      "token_acc": 0.9139784946236559,
      "train_speed(iter/s)": 1.516616
    },
    {
      "epoch": 0.10089542007626066,
      "grad_norm": 8.746625900268555,
      "learning_rate": 9.98995621982451e-05,
      "loss": 0.3313194990158081,
      "memory(GiB)": 57.83,
      "step": 2355,
      "token_acc": 0.9191489361702128,
      "train_speed(iter/s)": 1.516719
    },
    {
      "epoch": 0.10110963540550962,
      "grad_norm": 3.8279190063476562,
      "learning_rate": 9.989913540161906e-05,
      "loss": 0.4110274314880371,
      "memory(GiB)": 57.83,
      "step": 2360,
      "token_acc": 0.9039145907473309,
      "train_speed(iter/s)": 1.517016
    },
    {
      "epoch": 0.10132385073475858,
      "grad_norm": 2.5983002185821533,
      "learning_rate": 9.989870770102339e-05,
      "loss": 0.5118196487426758,
      "memory(GiB)": 57.83,
      "step": 2365,
      "token_acc": 0.8943894389438944,
      "train_speed(iter/s)": 1.516827
    },
    {
      "epoch": 0.10153806606400755,
      "grad_norm": 3.447355270385742,
      "learning_rate": 9.989827909646581e-05,
      "loss": 0.365372896194458,
      "memory(GiB)": 57.83,
      "step": 2370,
      "token_acc": 0.9166666666666666,
      "train_speed(iter/s)": 1.516718
    },
    {
      "epoch": 0.1017522813932565,
      "grad_norm": 2.768977403640747,
      "learning_rate": 9.989784958795409e-05,
      "loss": 0.3143187999725342,
      "memory(GiB)": 57.83,
      "step": 2375,
      "token_acc": 0.9310344827586207,
      "train_speed(iter/s)": 1.516913
    },
    {
      "epoch": 0.10196649672250546,
      "grad_norm": 2.491548776626587,
      "learning_rate": 9.989741917549603e-05,
      "loss": 0.531307601928711,
      "memory(GiB)": 57.83,
      "step": 2380,
      "token_acc": 0.8753993610223643,
      "train_speed(iter/s)": 1.517235
    },
    {
      "epoch": 0.10218071205175443,
      "grad_norm": 2.7866947650909424,
      "learning_rate": 9.98969878590994e-05,
      "loss": 0.4757603645324707,
      "memory(GiB)": 57.83,
      "step": 2385,
      "token_acc": 0.8912280701754386,
      "train_speed(iter/s)": 1.517309
    },
    {
      "epoch": 0.10239492738100338,
      "grad_norm": 3.2842047214508057,
      "learning_rate": 9.989655563877203e-05,
      "loss": 0.5569895744323731,
      "memory(GiB)": 57.83,
      "step": 2390,
      "token_acc": 0.8838028169014085,
      "train_speed(iter/s)": 1.517266
    },
    {
      "epoch": 0.10260914271025234,
      "grad_norm": 1.5558867454528809,
      "learning_rate": 9.989612251452176e-05,
      "loss": 0.5476381778717041,
      "memory(GiB)": 57.83,
      "step": 2395,
      "token_acc": 0.8827838827838828,
      "train_speed(iter/s)": 1.517307
    },
    {
      "epoch": 0.10282335803950131,
      "grad_norm": 1.2142301797866821,
      "learning_rate": 9.98956884863564e-05,
      "loss": 0.44309329986572266,
      "memory(GiB)": 57.83,
      "step": 2400,
      "token_acc": 0.9152542372881356,
      "train_speed(iter/s)": 1.517484
    },
    {
      "epoch": 0.10303757336875027,
      "grad_norm": 2.1688730716705322,
      "learning_rate": 9.989525355428386e-05,
      "loss": 0.23651521205902098,
      "memory(GiB)": 57.83,
      "step": 2405,
      "token_acc": 0.9465408805031447,
      "train_speed(iter/s)": 1.51754
    },
    {
      "epoch": 0.10325178869799922,
      "grad_norm": 3.397451162338257,
      "learning_rate": 9.9894817718312e-05,
      "loss": 0.7424505233764649,
      "memory(GiB)": 57.83,
      "step": 2410,
      "token_acc": 0.8496732026143791,
      "train_speed(iter/s)": 1.517815
    },
    {
      "epoch": 0.10346600402724819,
      "grad_norm": 2.6040303707122803,
      "learning_rate": 9.98943809784487e-05,
      "loss": 0.27676370143890383,
      "memory(GiB)": 57.83,
      "step": 2415,
      "token_acc": 0.9269102990033222,
      "train_speed(iter/s)": 1.517849
    },
    {
      "epoch": 0.10368021935649716,
      "grad_norm": 2.110495090484619,
      "learning_rate": 9.989394333470188e-05,
      "loss": 0.3664689064025879,
      "memory(GiB)": 57.83,
      "step": 2420,
      "token_acc": 0.9134948096885813,
      "train_speed(iter/s)": 1.517859
    },
    {
      "epoch": 0.1038944346857461,
      "grad_norm": 3.028832197189331,
      "learning_rate": 9.989350478707949e-05,
      "loss": 0.535345458984375,
      "memory(GiB)": 57.83,
      "step": 2425,
      "token_acc": 0.8821656050955414,
      "train_speed(iter/s)": 1.518282
    },
    {
      "epoch": 0.10410865001499507,
      "grad_norm": 4.8028082847595215,
      "learning_rate": 9.989306533558944e-05,
      "loss": 0.45121183395385744,
      "memory(GiB)": 57.83,
      "step": 2430,
      "token_acc": 0.9283154121863799,
      "train_speed(iter/s)": 1.518241
    },
    {
      "epoch": 0.10432286534424404,
      "grad_norm": 4.624881744384766,
      "learning_rate": 9.98926249802397e-05,
      "loss": 0.6293641090393066,
      "memory(GiB)": 57.83,
      "step": 2435,
      "token_acc": 0.8825214899713467,
      "train_speed(iter/s)": 1.518328
    },
    {
      "epoch": 0.104537080673493,
      "grad_norm": 1.427350401878357,
      "learning_rate": 9.989218372103829e-05,
      "loss": 0.42759904861450193,
      "memory(GiB)": 57.83,
      "step": 2440,
      "token_acc": 0.9090909090909091,
      "train_speed(iter/s)": 1.518226
    },
    {
      "epoch": 0.10475129600274195,
      "grad_norm": 6.799141883850098,
      "learning_rate": 9.989174155799314e-05,
      "loss": 0.7371190071105957,
      "memory(GiB)": 57.83,
      "step": 2445,
      "token_acc": 0.8288973384030418,
      "train_speed(iter/s)": 1.518514
    },
    {
      "epoch": 0.10496551133199092,
      "grad_norm": 3.528456926345825,
      "learning_rate": 9.989129849111229e-05,
      "loss": 0.2748852729797363,
      "memory(GiB)": 57.83,
      "step": 2450,
      "token_acc": 0.9493670886075949,
      "train_speed(iter/s)": 1.518335
    },
    {
      "epoch": 0.10517972666123988,
      "grad_norm": 3.6448042392730713,
      "learning_rate": 9.989085452040377e-05,
      "loss": 0.38316822052001953,
      "memory(GiB)": 57.83,
      "step": 2455,
      "token_acc": 0.9310344827586207,
      "train_speed(iter/s)": 1.518441
    },
    {
      "epoch": 0.10539394199048883,
      "grad_norm": 2.464329719543457,
      "learning_rate": 9.989040964587563e-05,
      "loss": 0.4537045478820801,
      "memory(GiB)": 57.83,
      "step": 2460,
      "token_acc": 0.9150326797385621,
      "train_speed(iter/s)": 1.518517
    },
    {
      "epoch": 0.1056081573197378,
      "grad_norm": 3.271143913269043,
      "learning_rate": 9.988996386753591e-05,
      "loss": 0.7689284801483154,
      "memory(GiB)": 57.83,
      "step": 2465,
      "token_acc": 0.8699690402476781,
      "train_speed(iter/s)": 1.518747
    },
    {
      "epoch": 0.10582237264898676,
      "grad_norm": 1.68510901927948,
      "learning_rate": 9.988951718539269e-05,
      "loss": 0.26269633769989015,
      "memory(GiB)": 57.83,
      "step": 2470,
      "token_acc": 0.9372549019607843,
      "train_speed(iter/s)": 1.518672
    },
    {
      "epoch": 0.10603658797823572,
      "grad_norm": 5.02957820892334,
      "learning_rate": 9.988906959945407e-05,
      "loss": 0.22794866561889648,
      "memory(GiB)": 57.83,
      "step": 2475,
      "token_acc": 0.9318181818181818,
      "train_speed(iter/s)": 1.51892
    },
    {
      "epoch": 0.10625080330748468,
      "grad_norm": 4.044186592102051,
      "learning_rate": 9.988862110972816e-05,
      "loss": 0.4170974254608154,
      "memory(GiB)": 57.83,
      "step": 2480,
      "token_acc": 0.9291044776119403,
      "train_speed(iter/s)": 1.518912
    },
    {
      "epoch": 0.10646501863673365,
      "grad_norm": 4.527347087860107,
      "learning_rate": 9.988817171622307e-05,
      "loss": 0.402128267288208,
      "memory(GiB)": 57.83,
      "step": 2485,
      "token_acc": 0.9196141479099679,
      "train_speed(iter/s)": 1.518822
    },
    {
      "epoch": 0.10667923396598261,
      "grad_norm": 1.041957974433899,
      "learning_rate": 9.988772141894696e-05,
      "loss": 0.4703659534454346,
      "memory(GiB)": 57.83,
      "step": 2490,
      "token_acc": 0.9,
      "train_speed(iter/s)": 1.518862
    },
    {
      "epoch": 0.10689344929523156,
      "grad_norm": 2.0295379161834717,
      "learning_rate": 9.988727021790796e-05,
      "loss": 0.31834211349487307,
      "memory(GiB)": 57.83,
      "step": 2495,
      "token_acc": 0.92,
      "train_speed(iter/s)": 1.51896
    },
    {
      "epoch": 0.10710766462448053,
      "grad_norm": 4.6844282150268555,
      "learning_rate": 9.988681811311428e-05,
      "loss": 0.7860642910003662,
      "memory(GiB)": 57.83,
      "step": 2500,
      "token_acc": 0.7908496732026143,
      "train_speed(iter/s)": 1.519281
    },
    {
      "epoch": 0.10710766462448053,
      "eval_loss": 2.6587765216827393,
      "eval_runtime": 10.3867,
      "eval_samples_per_second": 9.628,
      "eval_steps_per_second": 9.628,
      "eval_token_acc": 0.45966709346991036,
      "step": 2500
    },
    {
      "epoch": 0.1073218799537295,
      "grad_norm": 2.199474573135376,
      "learning_rate": 9.988636510457408e-05,
      "loss": 0.4809749126434326,
      "memory(GiB)": 57.83,
      "step": 2505,
      "token_acc": 0.5813528336380256,
      "train_speed(iter/s)": 1.50909
    },
    {
      "epoch": 0.10753609528297844,
      "grad_norm": 2.483931303024292,
      "learning_rate": 9.988591119229559e-05,
      "loss": 0.3802937030792236,
      "memory(GiB)": 57.83,
      "step": 2510,
      "token_acc": 0.9191616766467066,
      "train_speed(iter/s)": 1.509405
    },
    {
      "epoch": 0.10775031061222741,
      "grad_norm": 11.589332580566406,
      "learning_rate": 9.988545637628702e-05,
      "loss": 0.6338032245635986,
      "memory(GiB)": 57.83,
      "step": 2515,
      "token_acc": 0.8818181818181818,
      "train_speed(iter/s)": 1.509805
    },
    {
      "epoch": 0.10796452594147637,
      "grad_norm": 2.526390314102173,
      "learning_rate": 9.98850006565566e-05,
      "loss": 0.3199204921722412,
      "memory(GiB)": 57.83,
      "step": 2520,
      "token_acc": 0.936026936026936,
      "train_speed(iter/s)": 1.509653
    },
    {
      "epoch": 0.10817874127072534,
      "grad_norm": 1.5145788192749023,
      "learning_rate": 9.988454403311262e-05,
      "loss": 0.2501399040222168,
      "memory(GiB)": 57.83,
      "step": 2525,
      "token_acc": 0.9333333333333333,
      "train_speed(iter/s)": 1.509578
    },
    {
      "epoch": 0.10839295659997429,
      "grad_norm": 4.9559855461120605,
      "learning_rate": 9.98840865059633e-05,
      "loss": 0.4948309898376465,
      "memory(GiB)": 57.83,
      "step": 2530,
      "token_acc": 0.897887323943662,
      "train_speed(iter/s)": 1.509829
    },
    {
      "epoch": 0.10860717192922326,
      "grad_norm": 2.4412269592285156,
      "learning_rate": 9.988362807511697e-05,
      "loss": 0.30352048873901366,
      "memory(GiB)": 57.83,
      "step": 2535,
      "token_acc": 0.9527027027027027,
      "train_speed(iter/s)": 1.509779
    },
    {
      "epoch": 0.10882138725847222,
      "grad_norm": 2.288729667663574,
      "learning_rate": 9.988316874058195e-05,
      "loss": 0.28680422306060793,
      "memory(GiB)": 57.83,
      "step": 2540,
      "token_acc": 0.9362416107382551,
      "train_speed(iter/s)": 1.509928
    },
    {
      "epoch": 0.10903560258772117,
      "grad_norm": 3.496809959411621,
      "learning_rate": 9.988270850236649e-05,
      "loss": 0.39579975605010986,
      "memory(GiB)": 57.83,
      "step": 2545,
      "token_acc": 0.9264705882352942,
      "train_speed(iter/s)": 1.510211
    },
    {
      "epoch": 0.10924981791697014,
      "grad_norm": 4.863556861877441,
      "learning_rate": 9.9882247360479e-05,
      "loss": 0.2680971145629883,
      "memory(GiB)": 57.83,
      "step": 2550,
      "token_acc": 0.9372549019607843,
      "train_speed(iter/s)": 1.510217
    },
    {
      "epoch": 0.1094640332462191,
      "grad_norm": 3.6153016090393066,
      "learning_rate": 9.98817853149278e-05,
      "loss": 0.33464913368225097,
      "memory(GiB)": 57.83,
      "step": 2555,
      "token_acc": 0.9154411764705882,
      "train_speed(iter/s)": 1.510367
    },
    {
      "epoch": 0.10967824857546805,
      "grad_norm": 7.424304962158203,
      "learning_rate": 9.988132236572126e-05,
      "loss": 0.47231369018554686,
      "memory(GiB)": 57.83,
      "step": 2560,
      "token_acc": 0.8881789137380192,
      "train_speed(iter/s)": 1.510337
    },
    {
      "epoch": 0.10989246390471702,
      "grad_norm": 1.878862738609314,
      "learning_rate": 9.988085851286778e-05,
      "loss": 0.43070077896118164,
      "memory(GiB)": 57.83,
      "step": 2565,
      "token_acc": 0.9236363636363636,
      "train_speed(iter/s)": 1.510741
    },
    {
      "epoch": 0.11010667923396598,
      "grad_norm": 2.123058557510376,
      "learning_rate": 9.988039375637574e-05,
      "loss": 0.473504638671875,
      "memory(GiB)": 57.83,
      "step": 2570,
      "token_acc": 0.8867924528301887,
      "train_speed(iter/s)": 1.510934
    },
    {
      "epoch": 0.11032089456321495,
      "grad_norm": 1.0594854354858398,
      "learning_rate": 9.98799280962536e-05,
      "loss": 0.44127693176269533,
      "memory(GiB)": 57.83,
      "step": 2575,
      "token_acc": 0.9,
      "train_speed(iter/s)": 1.510983
    },
    {
      "epoch": 0.1105351098924639,
      "grad_norm": 2.140557050704956,
      "learning_rate": 9.987946153250976e-05,
      "loss": 0.2431337833404541,
      "memory(GiB)": 57.83,
      "step": 2580,
      "token_acc": 0.9415807560137457,
      "train_speed(iter/s)": 1.51098
    },
    {
      "epoch": 0.11074932522171287,
      "grad_norm": 2.583028554916382,
      "learning_rate": 9.987899406515268e-05,
      "loss": 0.3909148693084717,
      "memory(GiB)": 57.83,
      "step": 2585,
      "token_acc": 0.9149560117302052,
      "train_speed(iter/s)": 1.511033
    },
    {
      "epoch": 0.11096354055096183,
      "grad_norm": 6.058218002319336,
      "learning_rate": 9.987852569419084e-05,
      "loss": 0.3425605773925781,
      "memory(GiB)": 57.83,
      "step": 2590,
      "token_acc": 0.9253246753246753,
      "train_speed(iter/s)": 1.511016
    },
    {
      "epoch": 0.11117775588021078,
      "grad_norm": 0.9075403809547424,
      "learning_rate": 9.98780564196327e-05,
      "loss": 0.23711061477661133,
      "memory(GiB)": 57.83,
      "step": 2595,
      "token_acc": 0.9413919413919414,
      "train_speed(iter/s)": 1.511336
    },
    {
      "epoch": 0.11139197120945975,
      "grad_norm": 2.48140287399292,
      "learning_rate": 9.98775862414868e-05,
      "loss": 0.6635601997375489,
      "memory(GiB)": 57.83,
      "step": 2600,
      "token_acc": 0.8636363636363636,
      "train_speed(iter/s)": 1.511422
    },
    {
      "epoch": 0.11160618653870871,
      "grad_norm": 3.184706449508667,
      "learning_rate": 9.987711515976164e-05,
      "loss": 0.4201952934265137,
      "memory(GiB)": 57.83,
      "step": 2605,
      "token_acc": 0.9090909090909091,
      "train_speed(iter/s)": 1.511642
    },
    {
      "epoch": 0.11182040186795768,
      "grad_norm": 0.8893657326698303,
      "learning_rate": 9.987664317446572e-05,
      "loss": 0.16378759145736693,
      "memory(GiB)": 57.83,
      "step": 2610,
      "token_acc": 0.9633699633699634,
      "train_speed(iter/s)": 1.511578
    },
    {
      "epoch": 0.11203461719720663,
      "grad_norm": 4.392936706542969,
      "learning_rate": 9.987617028560765e-05,
      "loss": 0.374851131439209,
      "memory(GiB)": 57.83,
      "step": 2615,
      "token_acc": 0.9235668789808917,
      "train_speed(iter/s)": 1.511496
    },
    {
      "epoch": 0.1122488325264556,
      "grad_norm": 2.598947048187256,
      "learning_rate": 9.987569649319595e-05,
      "loss": 0.5154757976531983,
      "memory(GiB)": 57.83,
      "step": 2620,
      "token_acc": 0.8821656050955414,
      "train_speed(iter/s)": 1.511425
    },
    {
      "epoch": 0.11246304785570456,
      "grad_norm": 3.128789186477661,
      "learning_rate": 9.987522179723923e-05,
      "loss": 0.37300848960876465,
      "memory(GiB)": 57.83,
      "step": 2625,
      "token_acc": 0.9205776173285198,
      "train_speed(iter/s)": 1.511376
    },
    {
      "epoch": 0.11267726318495351,
      "grad_norm": 2.8604416847229004,
      "learning_rate": 9.987474619774609e-05,
      "loss": 0.35259432792663575,
      "memory(GiB)": 57.83,
      "step": 2630,
      "token_acc": 0.9340277777777778,
      "train_speed(iter/s)": 1.51142
    },
    {
      "epoch": 0.11289147851420248,
      "grad_norm": 6.133558750152588,
      "learning_rate": 9.98742696947251e-05,
      "loss": 0.5564678192138672,
      "memory(GiB)": 57.83,
      "step": 2635,
      "token_acc": 0.8961038961038961,
      "train_speed(iter/s)": 1.511749
    },
    {
      "epoch": 0.11310569384345144,
      "grad_norm": 7.68245792388916,
      "learning_rate": 9.987379228818497e-05,
      "loss": 0.24802730083465577,
      "memory(GiB)": 57.83,
      "step": 2640,
      "token_acc": 0.9355932203389831,
      "train_speed(iter/s)": 1.511871
    },
    {
      "epoch": 0.11331990917270039,
      "grad_norm": 0.728346586227417,
      "learning_rate": 9.987331397813429e-05,
      "loss": 0.16649070978164673,
      "memory(GiB)": 57.83,
      "step": 2645,
      "token_acc": 0.9652173913043478,
      "train_speed(iter/s)": 1.511845
    },
    {
      "epoch": 0.11353412450194936,
      "grad_norm": 3.652160167694092,
      "learning_rate": 9.987283476458174e-05,
      "loss": 0.5777617931365967,
      "memory(GiB)": 57.83,
      "step": 2650,
      "token_acc": 0.8829113924050633,
      "train_speed(iter/s)": 1.512073
    },
    {
      "epoch": 0.11374833983119832,
      "grad_norm": 1.190796971321106,
      "learning_rate": 9.9872354647536e-05,
      "loss": 0.3771846055984497,
      "memory(GiB)": 57.83,
      "step": 2655,
      "token_acc": 0.9075907590759076,
      "train_speed(iter/s)": 1.51207
    },
    {
      "epoch": 0.11396255516044729,
      "grad_norm": 4.272654056549072,
      "learning_rate": 9.987187362700579e-05,
      "loss": 0.24348440170288085,
      "memory(GiB)": 57.83,
      "step": 2660,
      "token_acc": 0.9357429718875502,
      "train_speed(iter/s)": 1.512311
    },
    {
      "epoch": 0.11417677048969624,
      "grad_norm": 2.6485626697540283,
      "learning_rate": 9.987139170299978e-05,
      "loss": 0.4488868713378906,
      "memory(GiB)": 57.83,
      "step": 2665,
      "token_acc": 0.8949044585987261,
      "train_speed(iter/s)": 1.512758
    },
    {
      "epoch": 0.1143909858189452,
      "grad_norm": 10.228973388671875,
      "learning_rate": 9.987090887552675e-05,
      "loss": 0.6419280529022217,
      "memory(GiB)": 57.83,
      "step": 2670,
      "token_acc": 0.8522727272727273,
      "train_speed(iter/s)": 1.513388
    },
    {
      "epoch": 0.11460520114819417,
      "grad_norm": 2.5250794887542725,
      "learning_rate": 9.987042514459541e-05,
      "loss": 0.46475987434387206,
      "memory(GiB)": 57.83,
      "step": 2675,
      "token_acc": 0.8971631205673759,
      "train_speed(iter/s)": 1.513474
    },
    {
      "epoch": 0.11481941647744312,
      "grad_norm": 2.5227034091949463,
      "learning_rate": 9.986994051021454e-05,
      "loss": 0.4130404472351074,
      "memory(GiB)": 57.83,
      "step": 2680,
      "token_acc": 0.912621359223301,
      "train_speed(iter/s)": 1.513586
    },
    {
      "epoch": 0.11503363180669209,
      "grad_norm": 1.5147368907928467,
      "learning_rate": 9.98694549723929e-05,
      "loss": 0.12846802473068236,
      "memory(GiB)": 57.83,
      "step": 2685,
      "token_acc": 0.9753086419753086,
      "train_speed(iter/s)": 1.513595
    },
    {
      "epoch": 0.11524784713594105,
      "grad_norm": 0.04803531616926193,
      "learning_rate": 9.986896853113932e-05,
      "loss": 0.3742664098739624,
      "memory(GiB)": 57.83,
      "step": 2690,
      "token_acc": 0.921311475409836,
      "train_speed(iter/s)": 1.513805
    },
    {
      "epoch": 0.11546206246519002,
      "grad_norm": 1.5037118196487427,
      "learning_rate": 9.98684811864626e-05,
      "loss": 0.17264052629470825,
      "memory(GiB)": 57.83,
      "step": 2695,
      "token_acc": 0.9528985507246377,
      "train_speed(iter/s)": 1.514064
    },
    {
      "epoch": 0.11567627779443897,
      "grad_norm": 0.8887499570846558,
      "learning_rate": 9.986799293837155e-05,
      "loss": 0.32582592964172363,
      "memory(GiB)": 57.83,
      "step": 2700,
      "token_acc": 0.9333333333333333,
      "train_speed(iter/s)": 1.514342
    },
    {
      "epoch": 0.11589049312368793,
      "grad_norm": 0.673583984375,
      "learning_rate": 9.986750378687502e-05,
      "loss": 0.229567551612854,
      "memory(GiB)": 57.83,
      "step": 2705,
      "token_acc": 0.9428571428571428,
      "train_speed(iter/s)": 1.514409
    },
    {
      "epoch": 0.1161047084529369,
      "grad_norm": 2.6209771633148193,
      "learning_rate": 9.98670137319819e-05,
      "loss": 0.30509541034698484,
      "memory(GiB)": 57.83,
      "step": 2710,
      "token_acc": 0.9452554744525548,
      "train_speed(iter/s)": 1.514312
    },
    {
      "epoch": 0.11631892378218585,
      "grad_norm": 4.081751823425293,
      "learning_rate": 9.986652277370103e-05,
      "loss": 0.5211978912353515,
      "memory(GiB)": 57.83,
      "step": 2715,
      "token_acc": 0.8708333333333333,
      "train_speed(iter/s)": 1.514676
    },
    {
      "epoch": 0.11653313911143481,
      "grad_norm": 1.4904735088348389,
      "learning_rate": 9.986603091204134e-05,
      "loss": 0.49604358673095705,
      "memory(GiB)": 57.83,
      "step": 2720,
      "token_acc": 0.9116465863453815,
      "train_speed(iter/s)": 1.514809
    },
    {
      "epoch": 0.11674735444068378,
      "grad_norm": 4.701450824737549,
      "learning_rate": 9.98655381470117e-05,
      "loss": 0.5582290649414062,
      "memory(GiB)": 57.83,
      "step": 2725,
      "token_acc": 0.8846153846153846,
      "train_speed(iter/s)": 1.514966
    },
    {
      "epoch": 0.11696156976993273,
      "grad_norm": 2.8145864009857178,
      "learning_rate": 9.986504447862108e-05,
      "loss": 0.38521294593811034,
      "memory(GiB)": 57.83,
      "step": 2730,
      "token_acc": 0.896551724137931,
      "train_speed(iter/s)": 1.514848
    },
    {
      "epoch": 0.1171757850991817,
      "grad_norm": 4.379426956176758,
      "learning_rate": 9.986454990687839e-05,
      "loss": 0.2908231973648071,
      "memory(GiB)": 57.83,
      "step": 2735,
      "token_acc": 0.9551020408163265,
      "train_speed(iter/s)": 1.515
    },
    {
      "epoch": 0.11739000042843066,
      "grad_norm": 1.9115129709243774,
      "learning_rate": 9.986405443179261e-05,
      "loss": 0.19821332693099974,
      "memory(GiB)": 57.83,
      "step": 2740,
      "token_acc": 0.9563492063492064,
      "train_speed(iter/s)": 1.514957
    },
    {
      "epoch": 0.11760421575767963,
      "grad_norm": 2.380143880844116,
      "learning_rate": 9.986355805337268e-05,
      "loss": 0.6040264129638672,
      "memory(GiB)": 57.83,
      "step": 2745,
      "token_acc": 0.8637992831541219,
      "train_speed(iter/s)": 1.514922
    },
    {
      "epoch": 0.11781843108692858,
      "grad_norm": 3.1103219985961914,
      "learning_rate": 9.986306077162766e-05,
      "loss": 0.29142882823944094,
      "memory(GiB)": 57.83,
      "step": 2750,
      "token_acc": 0.9310344827586207,
      "train_speed(iter/s)": 1.514967
    },
    {
      "epoch": 0.11803264641617754,
      "grad_norm": 7.3828277587890625,
      "learning_rate": 9.98625625865665e-05,
      "loss": 0.40814385414123533,
      "memory(GiB)": 57.83,
      "step": 2755,
      "token_acc": 0.898989898989899,
      "train_speed(iter/s)": 1.515064
    },
    {
      "epoch": 0.11824686174542651,
      "grad_norm": 5.592649936676025,
      "learning_rate": 9.986206349819825e-05,
      "loss": 0.5608318328857422,
      "memory(GiB)": 57.83,
      "step": 2760,
      "token_acc": 0.8951310861423221,
      "train_speed(iter/s)": 1.515271
    },
    {
      "epoch": 0.11846107707467546,
      "grad_norm": 6.260732173919678,
      "learning_rate": 9.986156350653193e-05,
      "loss": 0.4508352279663086,
      "memory(GiB)": 57.83,
      "step": 2765,
      "token_acc": 0.9072847682119205,
      "train_speed(iter/s)": 1.51528
    },
    {
      "epoch": 0.11867529240392442,
      "grad_norm": 2.339463233947754,
      "learning_rate": 9.986106261157662e-05,
      "loss": 0.37288522720336914,
      "memory(GiB)": 57.83,
      "step": 2770,
      "token_acc": 0.9333333333333333,
      "train_speed(iter/s)": 1.515621
    },
    {
      "epoch": 0.11888950773317339,
      "grad_norm": 1.611448049545288,
      "learning_rate": 9.986056081334139e-05,
      "loss": 0.32435002326965334,
      "memory(GiB)": 57.83,
      "step": 2775,
      "token_acc": 0.9207920792079208,
      "train_speed(iter/s)": 1.515605
    },
    {
      "epoch": 0.11910372306242235,
      "grad_norm": 2.3192176818847656,
      "learning_rate": 9.986005811183533e-05,
      "loss": 0.2152947425842285,
      "memory(GiB)": 57.83,
      "step": 2780,
      "token_acc": 0.9629629629629629,
      "train_speed(iter/s)": 1.515683
    },
    {
      "epoch": 0.1193179383916713,
      "grad_norm": 1.2520666122436523,
      "learning_rate": 9.985955450706755e-05,
      "loss": 0.18490495681762695,
      "memory(GiB)": 57.83,
      "step": 2785,
      "token_acc": 0.9562043795620438,
      "train_speed(iter/s)": 1.515841
    },
    {
      "epoch": 0.11953215372092027,
      "grad_norm": 2.7619619369506836,
      "learning_rate": 9.985904999904715e-05,
      "loss": 0.6955222129821778,
      "memory(GiB)": 57.83,
      "step": 2790,
      "token_acc": 0.896551724137931,
      "train_speed(iter/s)": 1.515858
    },
    {
      "epoch": 0.11974636905016924,
      "grad_norm": 2.0278267860412598,
      "learning_rate": 9.98585445877833e-05,
      "loss": 0.29397571086883545,
      "memory(GiB)": 57.83,
      "step": 2795,
      "token_acc": 0.9501661129568106,
      "train_speed(iter/s)": 1.515919
    },
    {
      "epoch": 0.11996058437941819,
      "grad_norm": 3.959850311279297,
      "learning_rate": 9.985803827328515e-05,
      "loss": 0.5551119804382324,
      "memory(GiB)": 57.83,
      "step": 2800,
      "token_acc": 0.8618181818181818,
      "train_speed(iter/s)": 1.516182
    },
    {
      "epoch": 0.12017479970866715,
      "grad_norm": 3.183290481567383,
      "learning_rate": 9.985753105556185e-05,
      "loss": 0.5672118186950683,
      "memory(GiB)": 57.83,
      "step": 2805,
      "token_acc": 0.8962962962962963,
      "train_speed(iter/s)": 1.516486
    },
    {
      "epoch": 0.12038901503791612,
      "grad_norm": 2.8598294258117676,
      "learning_rate": 9.985702293462261e-05,
      "loss": 0.23244738578796387,
      "memory(GiB)": 57.83,
      "step": 2810,
      "token_acc": 0.940809968847352,
      "train_speed(iter/s)": 1.516338
    },
    {
      "epoch": 0.12060323036716507,
      "grad_norm": 2.8113303184509277,
      "learning_rate": 9.985651391047663e-05,
      "loss": 0.35447187423706056,
      "memory(GiB)": 57.83,
      "step": 2815,
      "token_acc": 0.9210526315789473,
      "train_speed(iter/s)": 1.516594
    },
    {
      "epoch": 0.12081744569641403,
      "grad_norm": 5.964366436004639,
      "learning_rate": 9.985600398313313e-05,
      "loss": 0.589550256729126,
      "memory(GiB)": 57.83,
      "step": 2820,
      "token_acc": 0.8715277777777778,
      "train_speed(iter/s)": 1.517069
    },
    {
      "epoch": 0.121031661025663,
      "grad_norm": 4.003259181976318,
      "learning_rate": 9.985549315260137e-05,
      "loss": 0.4359861373901367,
      "memory(GiB)": 57.83,
      "step": 2825,
      "token_acc": 0.8943396226415095,
      "train_speed(iter/s)": 1.517268
    },
    {
      "epoch": 0.12124587635491196,
      "grad_norm": 1.2504783868789673,
      "learning_rate": 9.985498141889056e-05,
      "loss": 0.3731968641281128,
      "memory(GiB)": 57.83,
      "step": 2830,
      "token_acc": 0.9316546762589928,
      "train_speed(iter/s)": 1.517497
    },
    {
      "epoch": 0.12146009168416091,
      "grad_norm": 3.0300586223602295,
      "learning_rate": 9.985446878201e-05,
      "loss": 0.33304557800292967,
      "memory(GiB)": 57.83,
      "step": 2835,
      "token_acc": 0.9264305177111717,
      "train_speed(iter/s)": 1.517645
    },
    {
      "epoch": 0.12167430701340988,
      "grad_norm": 2.5835306644439697,
      "learning_rate": 9.985395524196896e-05,
      "loss": 0.2838619232177734,
      "memory(GiB)": 57.83,
      "step": 2840,
      "token_acc": 0.9372384937238494,
      "train_speed(iter/s)": 1.517533
    },
    {
      "epoch": 0.12188852234265884,
      "grad_norm": 4.262026786804199,
      "learning_rate": 9.985344079877677e-05,
      "loss": 0.21465463638305665,
      "memory(GiB)": 57.83,
      "step": 2845,
      "token_acc": 0.9505703422053232,
      "train_speed(iter/s)": 1.517481
    },
    {
      "epoch": 0.1221027376719078,
      "grad_norm": 3.0932278633117676,
      "learning_rate": 9.985292545244274e-05,
      "loss": 0.5274602890014648,
      "memory(GiB)": 57.83,
      "step": 2850,
      "token_acc": 0.9100719424460432,
      "train_speed(iter/s)": 1.517462
    },
    {
      "epoch": 0.12231695300115676,
      "grad_norm": 3.7710769176483154,
      "learning_rate": 9.985240920297618e-05,
      "loss": 0.5049216270446777,
      "memory(GiB)": 57.83,
      "step": 2855,
      "token_acc": 0.8945783132530121,
      "train_speed(iter/s)": 1.517692
    },
    {
      "epoch": 0.12253116833040573,
      "grad_norm": 6.446800708770752,
      "learning_rate": 9.985189205038647e-05,
      "loss": 0.43161487579345703,
      "memory(GiB)": 57.83,
      "step": 2860,
      "token_acc": 0.8931297709923665,
      "train_speed(iter/s)": 1.517711
    },
    {
      "epoch": 0.12274538365965469,
      "grad_norm": 2.2979273796081543,
      "learning_rate": 9.985137399468298e-05,
      "loss": 0.2703059196472168,
      "memory(GiB)": 57.83,
      "step": 2865,
      "token_acc": 0.9429530201342282,
      "train_speed(iter/s)": 1.51774
    },
    {
      "epoch": 0.12295959898890364,
      "grad_norm": 2.292294979095459,
      "learning_rate": 9.985085503587507e-05,
      "loss": 0.20255646705627442,
      "memory(GiB)": 57.83,
      "step": 2870,
      "token_acc": 0.9351535836177475,
      "train_speed(iter/s)": 1.517784
    },
    {
      "epoch": 0.12317381431815261,
      "grad_norm": 1.2914764881134033,
      "learning_rate": 9.985033517397217e-05,
      "loss": 0.37209596633911135,
      "memory(GiB)": 57.83,
      "step": 2875,
      "token_acc": 0.9143835616438356,
      "train_speed(iter/s)": 1.517703
    },
    {
      "epoch": 0.12338802964740157,
      "grad_norm": 3.382758617401123,
      "learning_rate": 9.984981440898366e-05,
      "loss": 0.24977903366088866,
      "memory(GiB)": 57.83,
      "step": 2880,
      "token_acc": 0.9321428571428572,
      "train_speed(iter/s)": 1.51789
    },
    {
      "epoch": 0.12360224497665052,
      "grad_norm": 2.42804217338562,
      "learning_rate": 9.984929274091903e-05,
      "loss": 0.23378007411956786,
      "memory(GiB)": 57.83,
      "step": 2885,
      "token_acc": 0.9379310344827586,
      "train_speed(iter/s)": 1.517984
    },
    {
      "epoch": 0.12381646030589949,
      "grad_norm": 3.560086250305176,
      "learning_rate": 9.984877016978768e-05,
      "loss": 0.4749479293823242,
      "memory(GiB)": 57.83,
      "step": 2890,
      "token_acc": 0.8881987577639752,
      "train_speed(iter/s)": 1.518
    },
    {
      "epoch": 0.12403067563514845,
      "grad_norm": 8.214594841003418,
      "learning_rate": 9.984824669559911e-05,
      "loss": 0.5336884498596192,
      "memory(GiB)": 57.83,
      "step": 2895,
      "token_acc": 0.8757396449704142,
      "train_speed(iter/s)": 1.518337
    },
    {
      "epoch": 0.1242448909643974,
      "grad_norm": 2.159132242202759,
      "learning_rate": 9.984772231836279e-05,
      "loss": 0.4905550479888916,
      "memory(GiB)": 57.83,
      "step": 2900,
      "token_acc": 0.8881118881118881,
      "train_speed(iter/s)": 1.518725
    },
    {
      "epoch": 0.12445910629364637,
      "grad_norm": 5.26190710067749,
      "learning_rate": 9.98471970380882e-05,
      "loss": 0.4117736339569092,
      "memory(GiB)": 57.83,
      "step": 2905,
      "token_acc": 0.9033333333333333,
      "train_speed(iter/s)": 1.518704
    },
    {
      "epoch": 0.12467332162289534,
      "grad_norm": 1.8422603607177734,
      "learning_rate": 9.98466708547849e-05,
      "loss": 0.25607502460479736,
      "memory(GiB)": 57.83,
      "step": 2910,
      "token_acc": 0.94375,
      "train_speed(iter/s)": 1.518674
    },
    {
      "epoch": 0.1248875369521443,
      "grad_norm": 2.9567577838897705,
      "learning_rate": 9.984614376846238e-05,
      "loss": 0.5268765926361084,
      "memory(GiB)": 57.83,
      "step": 2915,
      "token_acc": 0.8813056379821959,
      "train_speed(iter/s)": 1.518821
    },
    {
      "epoch": 0.12510175228139325,
      "grad_norm": 0.905709445476532,
      "learning_rate": 9.98456157791302e-05,
      "loss": 0.36819746494293215,
      "memory(GiB)": 57.83,
      "step": 2920,
      "token_acc": 0.9285714285714286,
      "train_speed(iter/s)": 1.518903
    },
    {
      "epoch": 0.1253159676106422,
      "grad_norm": 3.4309463500976562,
      "learning_rate": 9.984508688679796e-05,
      "loss": 0.7342646598815918,
      "memory(GiB)": 57.83,
      "step": 2925,
      "token_acc": 0.851063829787234,
      "train_speed(iter/s)": 1.518924
    },
    {
      "epoch": 0.12553018293989118,
      "grad_norm": 2.333954095840454,
      "learning_rate": 9.984455709147519e-05,
      "loss": 0.5871391773223877,
      "memory(GiB)": 57.83,
      "step": 2930,
      "token_acc": 0.8712121212121212,
      "train_speed(iter/s)": 1.519175
    },
    {
      "epoch": 0.12574439826914013,
      "grad_norm": 2.9398860931396484,
      "learning_rate": 9.984402639317152e-05,
      "loss": 0.3576620101928711,
      "memory(GiB)": 57.83,
      "step": 2935,
      "token_acc": 0.931899641577061,
      "train_speed(iter/s)": 1.519355
    },
    {
      "epoch": 0.1259586135983891,
      "grad_norm": 2.3254878520965576,
      "learning_rate": 9.984349479189654e-05,
      "loss": 0.26828794479370116,
      "memory(GiB)": 57.83,
      "step": 2940,
      "token_acc": 0.933852140077821,
      "train_speed(iter/s)": 1.519666
    },
    {
      "epoch": 0.12617282892763806,
      "grad_norm": 0.22604233026504517,
      "learning_rate": 9.984296228765991e-05,
      "loss": 0.5109295845031738,
      "memory(GiB)": 57.83,
      "step": 2945,
      "token_acc": 0.8976377952755905,
      "train_speed(iter/s)": 1.51985
    },
    {
      "epoch": 0.12638704425688702,
      "grad_norm": 6.084090232849121,
      "learning_rate": 9.984242888047127e-05,
      "loss": 0.3661962985992432,
      "memory(GiB)": 57.83,
      "step": 2950,
      "token_acc": 0.9084507042253521,
      "train_speed(iter/s)": 1.519827
    },
    {
      "epoch": 0.126601259586136,
      "grad_norm": 1.9140913486480713,
      "learning_rate": 9.984189457034026e-05,
      "loss": 0.40433497428894044,
      "memory(GiB)": 57.83,
      "step": 2955,
      "token_acc": 0.9106529209621993,
      "train_speed(iter/s)": 1.519774
    },
    {
      "epoch": 0.12681547491538495,
      "grad_norm": 3.9491164684295654,
      "learning_rate": 9.984135935727657e-05,
      "loss": 0.623484992980957,
      "memory(GiB)": 57.83,
      "step": 2960,
      "token_acc": 0.8774703557312253,
      "train_speed(iter/s)": 1.520053
    },
    {
      "epoch": 0.1270296902446339,
      "grad_norm": 0.3098786771297455,
      "learning_rate": 9.984082324128991e-05,
      "loss": 0.43290061950683595,
      "memory(GiB)": 57.83,
      "step": 2965,
      "token_acc": 0.9032258064516129,
      "train_speed(iter/s)": 1.520065
    },
    {
      "epoch": 0.12724390557388288,
      "grad_norm": 0.8239394426345825,
      "learning_rate": 9.984028622238997e-05,
      "loss": 0.31000533103942873,
      "memory(GiB)": 57.83,
      "step": 2970,
      "token_acc": 0.9228070175438596,
      "train_speed(iter/s)": 1.520269
    },
    {
      "epoch": 0.12745812090313183,
      "grad_norm": 3.0224175453186035,
      "learning_rate": 9.98397483005865e-05,
      "loss": 0.4273125648498535,
      "memory(GiB)": 57.83,
      "step": 2975,
      "token_acc": 0.9090909090909091,
      "train_speed(iter/s)": 1.520463
    },
    {
      "epoch": 0.12767233623238078,
      "grad_norm": 2.816049337387085,
      "learning_rate": 9.983920947588923e-05,
      "loss": 0.7120389461517334,
      "memory(GiB)": 57.83,
      "step": 2980,
      "token_acc": 0.8383838383838383,
      "train_speed(iter/s)": 1.520613
    },
    {
      "epoch": 0.12788655156162976,
      "grad_norm": 5.196239471435547,
      "learning_rate": 9.983866974830794e-05,
      "loss": 0.3701418399810791,
      "memory(GiB)": 57.83,
      "step": 2985,
      "token_acc": 0.9278350515463918,
      "train_speed(iter/s)": 1.520629
    },
    {
      "epoch": 0.1281007668908787,
      "grad_norm": 1.2969125509262085,
      "learning_rate": 9.983812911785238e-05,
      "loss": 0.3047261476516724,
      "memory(GiB)": 57.83,
      "step": 2990,
      "token_acc": 0.9321428571428572,
      "train_speed(iter/s)": 1.520538
    },
    {
      "epoch": 0.12831498222012766,
      "grad_norm": 2.4254791736602783,
      "learning_rate": 9.983758758453238e-05,
      "loss": 0.2889134645462036,
      "memory(GiB)": 57.83,
      "step": 2995,
      "token_acc": 0.9253731343283582,
      "train_speed(iter/s)": 1.520495
    },
    {
      "epoch": 0.12852919754937664,
      "grad_norm": 4.898059368133545,
      "learning_rate": 9.983704514835771e-05,
      "loss": 0.6448541641235351,
      "memory(GiB)": 57.83,
      "step": 3000,
      "token_acc": 0.8770226537216829,
      "train_speed(iter/s)": 1.52089
    },
    {
      "epoch": 0.12852919754937664,
      "eval_loss": 2.43453311920166,
      "eval_runtime": 12.0073,
      "eval_samples_per_second": 8.328,
      "eval_steps_per_second": 8.328,
      "eval_token_acc": 0.44519621109607577,
      "step": 3000
    },
    {
      "epoch": 0.1287434128786256,
      "grad_norm": 1.915229082107544,
      "learning_rate": 9.983650180933822e-05,
      "loss": 0.31440489292144774,
      "memory(GiB)": 57.83,
      "step": 3005,
      "token_acc": 0.5787401574803149,
      "train_speed(iter/s)": 1.511373
    },
    {
      "epoch": 0.12895762820787454,
      "grad_norm": 2.875525712966919,
      "learning_rate": 9.983595756748376e-05,
      "loss": 0.264946722984314,
      "memory(GiB)": 57.83,
      "step": 3010,
      "token_acc": 0.9510869565217391,
      "train_speed(iter/s)": 1.511271
    },
    {
      "epoch": 0.12917184353712352,
      "grad_norm": 3.1868622303009033,
      "learning_rate": 9.983541242280417e-05,
      "loss": 0.3569046497344971,
      "memory(GiB)": 57.83,
      "step": 3015,
      "token_acc": 0.9251700680272109,
      "train_speed(iter/s)": 1.511181
    },
    {
      "epoch": 0.12938605886637247,
      "grad_norm": 6.661249160766602,
      "learning_rate": 9.983486637530934e-05,
      "loss": 0.6695085048675538,
      "memory(GiB)": 57.83,
      "step": 3020,
      "token_acc": 0.8636363636363636,
      "train_speed(iter/s)": 1.511774
    },
    {
      "epoch": 0.12960027419562145,
      "grad_norm": 1.2484638690948486,
      "learning_rate": 9.983431942500915e-05,
      "loss": 0.2602912664413452,
      "memory(GiB)": 57.83,
      "step": 3025,
      "token_acc": 0.9285714285714286,
      "train_speed(iter/s)": 1.51193
    },
    {
      "epoch": 0.1298144895248704,
      "grad_norm": 1.3934756517410278,
      "learning_rate": 9.983377157191352e-05,
      "loss": 0.33817861080169676,
      "memory(GiB)": 57.83,
      "step": 3030,
      "token_acc": 0.9326599326599326,
      "train_speed(iter/s)": 1.512141
    },
    {
      "epoch": 0.13002870485411935,
      "grad_norm": 1.4336600303649902,
      "learning_rate": 9.983322281603235e-05,
      "loss": 0.44223337173461913,
      "memory(GiB)": 57.83,
      "step": 3035,
      "token_acc": 0.9154411764705882,
      "train_speed(iter/s)": 1.512295
    },
    {
      "epoch": 0.13024292018336833,
      "grad_norm": 3.2466001510620117,
      "learning_rate": 9.983267315737563e-05,
      "loss": 0.5539028644561768,
      "memory(GiB)": 57.83,
      "step": 3040,
      "token_acc": 0.8923611111111112,
      "train_speed(iter/s)": 1.512722
    },
    {
      "epoch": 0.13045713551261728,
      "grad_norm": 3.6008198261260986,
      "learning_rate": 9.983212259595328e-05,
      "loss": 0.4770808696746826,
      "memory(GiB)": 57.83,
      "step": 3045,
      "token_acc": 0.8866666666666667,
      "train_speed(iter/s)": 1.512837
    },
    {
      "epoch": 0.13067135084186624,
      "grad_norm": 2.5835886001586914,
      "learning_rate": 9.983157113177528e-05,
      "loss": 0.37056674957275393,
      "memory(GiB)": 57.83,
      "step": 3050,
      "token_acc": 0.9180327868852459,
      "train_speed(iter/s)": 1.513113
    },
    {
      "epoch": 0.13088556617111521,
      "grad_norm": 3.0609233379364014,
      "learning_rate": 9.983101876485162e-05,
      "loss": 0.648771333694458,
      "memory(GiB)": 57.83,
      "step": 3055,
      "token_acc": 0.8781362007168458,
      "train_speed(iter/s)": 1.513379
    },
    {
      "epoch": 0.13109978150036417,
      "grad_norm": 3.6907601356506348,
      "learning_rate": 9.983046549519232e-05,
      "loss": 0.1563814878463745,
      "memory(GiB)": 57.83,
      "step": 3060,
      "token_acc": 0.9688715953307393,
      "train_speed(iter/s)": 1.513387
    },
    {
      "epoch": 0.13131399682961312,
      "grad_norm": 4.946545600891113,
      "learning_rate": 9.982991132280739e-05,
      "loss": 0.40527806282043455,
      "memory(GiB)": 57.83,
      "step": 3065,
      "token_acc": 0.9090909090909091,
      "train_speed(iter/s)": 1.51337
    },
    {
      "epoch": 0.1315282121588621,
      "grad_norm": 3.003506660461426,
      "learning_rate": 9.982935624770687e-05,
      "loss": 0.3683738708496094,
      "memory(GiB)": 57.83,
      "step": 3070,
      "token_acc": 0.9163498098859315,
      "train_speed(iter/s)": 1.513167
    },
    {
      "epoch": 0.13174242748811105,
      "grad_norm": 2.828397035598755,
      "learning_rate": 9.98288002699008e-05,
      "loss": 0.45945448875427247,
      "memory(GiB)": 57.83,
      "step": 3075,
      "token_acc": 0.9142857142857143,
      "train_speed(iter/s)": 1.51324
    },
    {
      "epoch": 0.13195664281736,
      "grad_norm": 1.51767897605896,
      "learning_rate": 9.982824338939929e-05,
      "loss": 0.3669546127319336,
      "memory(GiB)": 57.83,
      "step": 3080,
      "token_acc": 0.9192307692307692,
      "train_speed(iter/s)": 1.513253
    },
    {
      "epoch": 0.13217085814660898,
      "grad_norm": 3.191429615020752,
      "learning_rate": 9.98276856062124e-05,
      "loss": 0.402158784866333,
      "memory(GiB)": 57.83,
      "step": 3085,
      "token_acc": 0.9140625,
      "train_speed(iter/s)": 1.513174
    },
    {
      "epoch": 0.13238507347585793,
      "grad_norm": 3.9821395874023438,
      "learning_rate": 9.982712692035025e-05,
      "loss": 0.37962965965270995,
      "memory(GiB)": 57.83,
      "step": 3090,
      "token_acc": 0.9128919860627178,
      "train_speed(iter/s)": 1.51325
    },
    {
      "epoch": 0.13259928880510688,
      "grad_norm": 2.065192222595215,
      "learning_rate": 9.982656733182296e-05,
      "loss": 0.3114050626754761,
      "memory(GiB)": 57.83,
      "step": 3095,
      "token_acc": 0.9411764705882353,
      "train_speed(iter/s)": 1.51335
    },
    {
      "epoch": 0.13281350413435586,
      "grad_norm": 1.861728310585022,
      "learning_rate": 9.982600684064065e-05,
      "loss": 0.21206517219543458,
      "memory(GiB)": 57.83,
      "step": 3100,
      "token_acc": 0.9609929078014184,
      "train_speed(iter/s)": 1.513332
    },
    {
      "epoch": 0.1330277194636048,
      "grad_norm": 5.755735874176025,
      "learning_rate": 9.98254454468135e-05,
      "loss": 0.3546006441116333,
      "memory(GiB)": 57.83,
      "step": 3105,
      "token_acc": 0.8903225806451613,
      "train_speed(iter/s)": 1.51332
    },
    {
      "epoch": 0.1332419347928538,
      "grad_norm": 2.5391054153442383,
      "learning_rate": 9.982488315035166e-05,
      "loss": 0.30806798934936525,
      "memory(GiB)": 57.83,
      "step": 3110,
      "token_acc": 0.9183098591549296,
      "train_speed(iter/s)": 1.513344
    },
    {
      "epoch": 0.13345615012210274,
      "grad_norm": 2.985980272293091,
      "learning_rate": 9.982431995126531e-05,
      "loss": 0.4255964279174805,
      "memory(GiB)": 57.83,
      "step": 3115,
      "token_acc": 0.911864406779661,
      "train_speed(iter/s)": 1.513363
    },
    {
      "epoch": 0.1336703654513517,
      "grad_norm": 1.192822813987732,
      "learning_rate": 9.982375584956467e-05,
      "loss": 0.4519073009490967,
      "memory(GiB)": 57.83,
      "step": 3120,
      "token_acc": 0.9233449477351916,
      "train_speed(iter/s)": 1.513699
    },
    {
      "epoch": 0.13388458078060067,
      "grad_norm": 2.5834970474243164,
      "learning_rate": 9.982319084525995e-05,
      "loss": 0.5573528289794922,
      "memory(GiB)": 57.83,
      "step": 3125,
      "token_acc": 0.8982456140350877,
      "train_speed(iter/s)": 1.513675
    },
    {
      "epoch": 0.13409879610984962,
      "grad_norm": 3.230583906173706,
      "learning_rate": 9.98226249383614e-05,
      "loss": 0.43615331649780276,
      "memory(GiB)": 57.83,
      "step": 3130,
      "token_acc": 0.9037267080745341,
      "train_speed(iter/s)": 1.513614
    },
    {
      "epoch": 0.13431301143909857,
      "grad_norm": 2.409909725189209,
      "learning_rate": 9.982205812887925e-05,
      "loss": 0.27284438610076905,
      "memory(GiB)": 57.83,
      "step": 3135,
      "token_acc": 0.9261744966442953,
      "train_speed(iter/s)": 1.513567
    },
    {
      "epoch": 0.13452722676834755,
      "grad_norm": 3.253040075302124,
      "learning_rate": 9.98214904168238e-05,
      "loss": 0.4054275035858154,
      "memory(GiB)": 57.83,
      "step": 3140,
      "token_acc": 0.92,
      "train_speed(iter/s)": 1.51364
    },
    {
      "epoch": 0.1347414420975965,
      "grad_norm": 3.522026300430298,
      "learning_rate": 9.98209218022053e-05,
      "loss": 0.5198966026306152,
      "memory(GiB)": 57.83,
      "step": 3145,
      "token_acc": 0.8961038961038961,
      "train_speed(iter/s)": 1.513736
    },
    {
      "epoch": 0.13495565742684545,
      "grad_norm": 2.8954782485961914,
      "learning_rate": 9.982035228503407e-05,
      "loss": 0.3559462785720825,
      "memory(GiB)": 57.83,
      "step": 3150,
      "token_acc": 0.9185667752442996,
      "train_speed(iter/s)": 1.513648
    },
    {
      "epoch": 0.13516987275609443,
      "grad_norm": 7.2858381271362305,
      "learning_rate": 9.981978186532041e-05,
      "loss": 0.757664155960083,
      "memory(GiB)": 57.83,
      "step": 3155,
      "token_acc": 0.8562874251497006,
      "train_speed(iter/s)": 1.513848
    },
    {
      "epoch": 0.13538408808534338,
      "grad_norm": 1.913256049156189,
      "learning_rate": 9.981921054307469e-05,
      "loss": 0.38319687843322753,
      "memory(GiB)": 57.83,
      "step": 3160,
      "token_acc": 0.9262820512820513,
      "train_speed(iter/s)": 1.513857
    },
    {
      "epoch": 0.13559830341459234,
      "grad_norm": 2.34148907661438,
      "learning_rate": 9.981863831830723e-05,
      "loss": 0.4485775947570801,
      "memory(GiB)": 57.83,
      "step": 3165,
      "token_acc": 0.90625,
      "train_speed(iter/s)": 1.514197
    },
    {
      "epoch": 0.13581251874384132,
      "grad_norm": 2.7270936965942383,
      "learning_rate": 9.98180651910284e-05,
      "loss": 0.2431943893432617,
      "memory(GiB)": 57.83,
      "step": 3170,
      "token_acc": 0.9366197183098591,
      "train_speed(iter/s)": 1.514341
    },
    {
      "epoch": 0.13602673407309027,
      "grad_norm": 3.342893123626709,
      "learning_rate": 9.981749116124859e-05,
      "loss": 0.31734466552734375,
      "memory(GiB)": 57.83,
      "step": 3175,
      "token_acc": 0.9265734265734266,
      "train_speed(iter/s)": 1.5143
    },
    {
      "epoch": 0.13624094940233922,
      "grad_norm": 1.6825791597366333,
      "learning_rate": 9.981691622897818e-05,
      "loss": 0.435393762588501,
      "memory(GiB)": 57.83,
      "step": 3180,
      "token_acc": 0.9140127388535032,
      "train_speed(iter/s)": 1.51417
    },
    {
      "epoch": 0.1364551647315882,
      "grad_norm": 2.4499685764312744,
      "learning_rate": 9.981634039422761e-05,
      "loss": 0.5115778923034668,
      "memory(GiB)": 57.83,
      "step": 3185,
      "token_acc": 0.87890625,
      "train_speed(iter/s)": 1.514137
    },
    {
      "epoch": 0.13666938006083715,
      "grad_norm": 7.534067153930664,
      "learning_rate": 9.98157636570073e-05,
      "loss": 0.4986077308654785,
      "memory(GiB)": 57.83,
      "step": 3190,
      "token_acc": 0.9033333333333333,
      "train_speed(iter/s)": 1.514348
    },
    {
      "epoch": 0.13688359539008613,
      "grad_norm": 3.804619550704956,
      "learning_rate": 9.981518601732771e-05,
      "loss": 0.4113102912902832,
      "memory(GiB)": 57.83,
      "step": 3195,
      "token_acc": 0.9087837837837838,
      "train_speed(iter/s)": 1.51441
    },
    {
      "epoch": 0.13709781071933508,
      "grad_norm": 2.3475706577301025,
      "learning_rate": 9.981460747519928e-05,
      "loss": 0.6937938690185547,
      "memory(GiB)": 57.83,
      "step": 3200,
      "token_acc": 0.8595317725752508,
      "train_speed(iter/s)": 1.514437
    },
    {
      "epoch": 0.13731202604858403,
      "grad_norm": 8.811067581176758,
      "learning_rate": 9.98140280306325e-05,
      "loss": 0.47876739501953125,
      "memory(GiB)": 57.83,
      "step": 3205,
      "token_acc": 0.9040590405904059,
      "train_speed(iter/s)": 1.514595
    },
    {
      "epoch": 0.137526241377833,
      "grad_norm": 3.351703405380249,
      "learning_rate": 9.981344768363791e-05,
      "loss": 0.6727480888366699,
      "memory(GiB)": 57.83,
      "step": 3210,
      "token_acc": 0.8567251461988304,
      "train_speed(iter/s)": 1.514361
    },
    {
      "epoch": 0.13774045670708196,
      "grad_norm": 1.8882508277893066,
      "learning_rate": 9.981286643422596e-05,
      "loss": 0.3654142379760742,
      "memory(GiB)": 57.83,
      "step": 3215,
      "token_acc": 0.9276729559748428,
      "train_speed(iter/s)": 1.5143
    },
    {
      "epoch": 0.1379546720363309,
      "grad_norm": 3.439082622528076,
      "learning_rate": 9.981228428240721e-05,
      "loss": 0.34621386528015136,
      "memory(GiB)": 57.83,
      "step": 3220,
      "token_acc": 0.9055944055944056,
      "train_speed(iter/s)": 1.514092
    },
    {
      "epoch": 0.1381688873655799,
      "grad_norm": 2.723161458969116,
      "learning_rate": 9.98117012281922e-05,
      "loss": 0.37717175483703613,
      "memory(GiB)": 57.83,
      "step": 3225,
      "token_acc": 0.9067524115755627,
      "train_speed(iter/s)": 1.514362
    },
    {
      "epoch": 0.13838310269482884,
      "grad_norm": 2.974764347076416,
      "learning_rate": 9.98111172715915e-05,
      "loss": 0.39750161170959475,
      "memory(GiB)": 57.83,
      "step": 3230,
      "token_acc": 0.898360655737705,
      "train_speed(iter/s)": 1.514271
    },
    {
      "epoch": 0.1385973180240778,
      "grad_norm": 2.8027303218841553,
      "learning_rate": 9.981053241261567e-05,
      "loss": 0.470366096496582,
      "memory(GiB)": 57.83,
      "step": 3235,
      "token_acc": 0.8888888888888888,
      "train_speed(iter/s)": 1.51437
    },
    {
      "epoch": 0.13881153335332677,
      "grad_norm": 2.6217477321624756,
      "learning_rate": 9.980994665127535e-05,
      "loss": 0.5539867877960205,
      "memory(GiB)": 57.83,
      "step": 3240,
      "token_acc": 0.900709219858156,
      "train_speed(iter/s)": 1.514249
    },
    {
      "epoch": 0.13902574868257572,
      "grad_norm": 2.035142660140991,
      "learning_rate": 9.980935998758109e-05,
      "loss": 0.34348011016845703,
      "memory(GiB)": 57.83,
      "step": 3245,
      "token_acc": 0.9397163120567376,
      "train_speed(iter/s)": 1.514194
    },
    {
      "epoch": 0.13923996401182467,
      "grad_norm": 3.680720806121826,
      "learning_rate": 9.980877242154356e-05,
      "loss": 0.41028032302856443,
      "memory(GiB)": 57.83,
      "step": 3250,
      "token_acc": 0.9372822299651568,
      "train_speed(iter/s)": 1.514283
    },
    {
      "epoch": 0.13945417934107365,
      "grad_norm": 1.3275294303894043,
      "learning_rate": 9.980818395317339e-05,
      "loss": 0.2973785877227783,
      "memory(GiB)": 57.83,
      "step": 3255,
      "token_acc": 0.9370860927152318,
      "train_speed(iter/s)": 1.514404
    },
    {
      "epoch": 0.1396683946703226,
      "grad_norm": 9.028099060058594,
      "learning_rate": 9.980759458248125e-05,
      "loss": 0.38358306884765625,
      "memory(GiB)": 57.83,
      "step": 3260,
      "token_acc": 0.9217687074829932,
      "train_speed(iter/s)": 1.514218
    },
    {
      "epoch": 0.13988260999957156,
      "grad_norm": 9.966137886047363,
      "learning_rate": 9.98070043094778e-05,
      "loss": 0.7445281982421875,
      "memory(GiB)": 57.83,
      "step": 3265,
      "token_acc": 0.8394648829431438,
      "train_speed(iter/s)": 1.514261
    },
    {
      "epoch": 0.14009682532882053,
      "grad_norm": 4.5387749671936035,
      "learning_rate": 9.980641313417376e-05,
      "loss": 0.6203285217285156,
      "memory(GiB)": 57.83,
      "step": 3270,
      "token_acc": 0.8692579505300353,
      "train_speed(iter/s)": 1.514222
    },
    {
      "epoch": 0.14031104065806949,
      "grad_norm": 2.8319175243377686,
      "learning_rate": 9.98058210565798e-05,
      "loss": 0.3461270570755005,
      "memory(GiB)": 57.83,
      "step": 3275,
      "token_acc": 0.9158878504672897,
      "train_speed(iter/s)": 1.514171
    },
    {
      "epoch": 0.14052525598731846,
      "grad_norm": 3.8023581504821777,
      "learning_rate": 9.980522807670669e-05,
      "loss": 0.2738952159881592,
      "memory(GiB)": 57.83,
      "step": 3280,
      "token_acc": 0.9311475409836065,
      "train_speed(iter/s)": 1.514289
    },
    {
      "epoch": 0.14073947131656742,
      "grad_norm": 1.7247800827026367,
      "learning_rate": 9.980463419456516e-05,
      "loss": 0.4290821075439453,
      "memory(GiB)": 57.83,
      "step": 3285,
      "token_acc": 0.9131944444444444,
      "train_speed(iter/s)": 1.514252
    },
    {
      "epoch": 0.14095368664581637,
      "grad_norm": 1.1629656553268433,
      "learning_rate": 9.980403941016594e-05,
      "loss": 0.3153548717498779,
      "memory(GiB)": 57.83,
      "step": 3290,
      "token_acc": 0.9230769230769231,
      "train_speed(iter/s)": 1.514302
    },
    {
      "epoch": 0.14116790197506535,
      "grad_norm": 0.44684675335884094,
      "learning_rate": 9.980344372351983e-05,
      "loss": 0.41106529235839845,
      "memory(GiB)": 57.83,
      "step": 3295,
      "token_acc": 0.9088471849865952,
      "train_speed(iter/s)": 1.514324
    },
    {
      "epoch": 0.1413821173043143,
      "grad_norm": 2.70548677444458,
      "learning_rate": 9.980284713463763e-05,
      "loss": 0.4863539218902588,
      "memory(GiB)": 57.83,
      "step": 3300,
      "token_acc": 0.8921933085501859,
      "train_speed(iter/s)": 1.514554
    },
    {
      "epoch": 0.14159633263356325,
      "grad_norm": 0.2103116363286972,
      "learning_rate": 9.980224964353014e-05,
      "loss": 0.3223509550094604,
      "memory(GiB)": 57.83,
      "step": 3305,
      "token_acc": 0.9389067524115756,
      "train_speed(iter/s)": 1.514584
    },
    {
      "epoch": 0.14181054796281223,
      "grad_norm": 2.129995584487915,
      "learning_rate": 9.980165125020816e-05,
      "loss": 0.2904852867126465,
      "memory(GiB)": 57.83,
      "step": 3310,
      "token_acc": 0.9517241379310345,
      "train_speed(iter/s)": 1.51457
    },
    {
      "epoch": 0.14202476329206118,
      "grad_norm": 7.964287281036377,
      "learning_rate": 9.980105195468256e-05,
      "loss": 0.32898569107055664,
      "memory(GiB)": 57.83,
      "step": 3315,
      "token_acc": 0.9037800687285223,
      "train_speed(iter/s)": 1.514493
    },
    {
      "epoch": 0.14223897862131013,
      "grad_norm": 2.3501155376434326,
      "learning_rate": 9.980045175696418e-05,
      "loss": 0.46753315925598143,
      "memory(GiB)": 57.83,
      "step": 3320,
      "token_acc": 0.8983050847457628,
      "train_speed(iter/s)": 1.514614
    },
    {
      "epoch": 0.1424531939505591,
      "grad_norm": 2.2071940898895264,
      "learning_rate": 9.97998506570639e-05,
      "loss": 0.2081993579864502,
      "memory(GiB)": 57.83,
      "step": 3325,
      "token_acc": 0.9548611111111112,
      "train_speed(iter/s)": 1.514744
    },
    {
      "epoch": 0.14266740927980806,
      "grad_norm": 1.1213449239730835,
      "learning_rate": 9.979924865499262e-05,
      "loss": 0.2008230209350586,
      "memory(GiB)": 57.83,
      "step": 3330,
      "token_acc": 0.9545454545454546,
      "train_speed(iter/s)": 1.514742
    },
    {
      "epoch": 0.142881624609057,
      "grad_norm": 2.3316073417663574,
      "learning_rate": 9.979864575076124e-05,
      "loss": 0.4677445411682129,
      "memory(GiB)": 57.83,
      "step": 3335,
      "token_acc": 0.8981818181818182,
      "train_speed(iter/s)": 1.514755
    },
    {
      "epoch": 0.143095839938306,
      "grad_norm": 2.3299098014831543,
      "learning_rate": 9.979804194438065e-05,
      "loss": 0.28764963150024414,
      "memory(GiB)": 57.83,
      "step": 3340,
      "token_acc": 0.9401993355481728,
      "train_speed(iter/s)": 1.514756
    },
    {
      "epoch": 0.14331005526755494,
      "grad_norm": 2.3503761291503906,
      "learning_rate": 9.979743723586184e-05,
      "loss": 0.4128252029418945,
      "memory(GiB)": 57.83,
      "step": 3345,
      "token_acc": 0.9178571428571428,
      "train_speed(iter/s)": 1.51473
    },
    {
      "epoch": 0.1435242705968039,
      "grad_norm": 2.582024335861206,
      "learning_rate": 9.979683162521573e-05,
      "loss": 0.26147899627685545,
      "memory(GiB)": 57.83,
      "step": 3350,
      "token_acc": 0.9438202247191011,
      "train_speed(iter/s)": 1.51491
    },
    {
      "epoch": 0.14373848592605287,
      "grad_norm": 11.51387882232666,
      "learning_rate": 9.97962251124533e-05,
      "loss": 0.5287271499633789,
      "memory(GiB)": 57.83,
      "step": 3355,
      "token_acc": 0.8828828828828829,
      "train_speed(iter/s)": 1.514887
    },
    {
      "epoch": 0.14395270125530182,
      "grad_norm": 2.950669288635254,
      "learning_rate": 9.979561769758555e-05,
      "loss": 0.15497267246246338,
      "memory(GiB)": 57.83,
      "step": 3360,
      "token_acc": 0.9563636363636364,
      "train_speed(iter/s)": 1.515113
    },
    {
      "epoch": 0.1441669165845508,
      "grad_norm": 2.5429463386535645,
      "learning_rate": 9.979500938062345e-05,
      "loss": 0.500808572769165,
      "memory(GiB)": 57.83,
      "step": 3365,
      "token_acc": 0.9242424242424242,
      "train_speed(iter/s)": 1.515429
    },
    {
      "epoch": 0.14438113191379975,
      "grad_norm": 2.239438772201538,
      "learning_rate": 9.979440016157805e-05,
      "loss": 0.3618643760681152,
      "memory(GiB)": 57.83,
      "step": 3370,
      "token_acc": 0.9106529209621993,
      "train_speed(iter/s)": 1.51538
    },
    {
      "epoch": 0.1445953472430487,
      "grad_norm": 2.0689358711242676,
      "learning_rate": 9.97937900404604e-05,
      "loss": 0.45372705459594725,
      "memory(GiB)": 57.83,
      "step": 3375,
      "token_acc": 0.8936170212765957,
      "train_speed(iter/s)": 1.515361
    },
    {
      "epoch": 0.14480956257229768,
      "grad_norm": 3.4086170196533203,
      "learning_rate": 9.979317901728153e-05,
      "loss": 0.28501780033111573,
      "memory(GiB)": 57.83,
      "step": 3380,
      "token_acc": 0.9344827586206896,
      "train_speed(iter/s)": 1.515391
    },
    {
      "epoch": 0.14502377790154664,
      "grad_norm": 1.8076057434082031,
      "learning_rate": 9.979256709205251e-05,
      "loss": 0.40592327117919924,
      "memory(GiB)": 57.83,
      "step": 3385,
      "token_acc": 0.89198606271777,
      "train_speed(iter/s)": 1.515383
    },
    {
      "epoch": 0.1452379932307956,
      "grad_norm": 0.5522910356521606,
      "learning_rate": 9.979195426478443e-05,
      "loss": 0.44352116584777834,
      "memory(GiB)": 57.83,
      "step": 3390,
      "token_acc": 0.9057971014492754,
      "train_speed(iter/s)": 1.51541
    },
    {
      "epoch": 0.14545220856004457,
      "grad_norm": 7.993175983428955,
      "learning_rate": 9.979134053548838e-05,
      "loss": 0.46170997619628906,
      "memory(GiB)": 57.83,
      "step": 3395,
      "token_acc": 0.8939393939393939,
      "train_speed(iter/s)": 1.515358
    },
    {
      "epoch": 0.14566642388929352,
      "grad_norm": 1.7108323574066162,
      "learning_rate": 9.979072590417549e-05,
      "loss": 0.3712242364883423,
      "memory(GiB)": 57.83,
      "step": 3400,
      "token_acc": 0.9217081850533808,
      "train_speed(iter/s)": 1.515782
    },
    {
      "epoch": 0.14588063921854247,
      "grad_norm": 2.7083516120910645,
      "learning_rate": 9.97901103708569e-05,
      "loss": 0.341778564453125,
      "memory(GiB)": 57.83,
      "step": 3405,
      "token_acc": 0.9227642276422764,
      "train_speed(iter/s)": 1.515989
    },
    {
      "epoch": 0.14609485454779145,
      "grad_norm": 3.2763168811798096,
      "learning_rate": 9.978949393554374e-05,
      "loss": 0.3628240585327148,
      "memory(GiB)": 57.83,
      "step": 3410,
      "token_acc": 0.901060070671378,
      "train_speed(iter/s)": 1.516191
    },
    {
      "epoch": 0.1463090698770404,
      "grad_norm": 0.768027663230896,
      "learning_rate": 9.978887659824721e-05,
      "loss": 0.25958895683288574,
      "memory(GiB)": 57.83,
      "step": 3415,
      "token_acc": 0.9529411764705882,
      "train_speed(iter/s)": 1.5161
    },
    {
      "epoch": 0.14652328520628935,
      "grad_norm": 2.428173065185547,
      "learning_rate": 9.978825835897844e-05,
      "loss": 0.1693664312362671,
      "memory(GiB)": 57.83,
      "step": 3420,
      "token_acc": 0.9519230769230769,
      "train_speed(iter/s)": 1.516289
    },
    {
      "epoch": 0.14673750053553833,
      "grad_norm": 5.774468898773193,
      "learning_rate": 9.978763921774869e-05,
      "loss": 0.5363493919372558,
      "memory(GiB)": 57.83,
      "step": 3425,
      "token_acc": 0.8970588235294118,
      "train_speed(iter/s)": 1.516823
    },
    {
      "epoch": 0.14695171586478728,
      "grad_norm": 2.377998113632202,
      "learning_rate": 9.978701917456916e-05,
      "loss": 0.29163658618927,
      "memory(GiB)": 57.83,
      "step": 3430,
      "token_acc": 0.9363057324840764,
      "train_speed(iter/s)": 1.516737
    },
    {
      "epoch": 0.14716593119403626,
      "grad_norm": 0.927766740322113,
      "learning_rate": 9.978639822945107e-05,
      "loss": 0.38797180652618407,
      "memory(GiB)": 57.83,
      "step": 3435,
      "token_acc": 0.9341085271317829,
      "train_speed(iter/s)": 1.51684
    },
    {
      "epoch": 0.1473801465232852,
      "grad_norm": 2.2448580265045166,
      "learning_rate": 9.978577638240567e-05,
      "loss": 0.6224373817443848,
      "memory(GiB)": 57.83,
      "step": 3440,
      "token_acc": 0.8932806324110671,
      "train_speed(iter/s)": 1.517118
    },
    {
      "epoch": 0.14759436185253416,
      "grad_norm": 1.470595359802246,
      "learning_rate": 9.978515363344422e-05,
      "loss": 0.2460150957107544,
      "memory(GiB)": 57.83,
      "step": 3445,
      "token_acc": 0.9477611940298507,
      "train_speed(iter/s)": 1.517185
    },
    {
      "epoch": 0.14780857718178314,
      "grad_norm": 1.8487331867218018,
      "learning_rate": 9.978452998257801e-05,
      "loss": 0.3197047710418701,
      "memory(GiB)": 57.83,
      "step": 3450,
      "token_acc": 0.9301587301587302,
      "train_speed(iter/s)": 1.517197
    },
    {
      "epoch": 0.1480227925110321,
      "grad_norm": 2.2068471908569336,
      "learning_rate": 9.978390542981835e-05,
      "loss": 0.43758363723754884,
      "memory(GiB)": 57.83,
      "step": 3455,
      "token_acc": 0.9112903225806451,
      "train_speed(iter/s)": 1.517198
    },
    {
      "epoch": 0.14823700784028104,
      "grad_norm": 4.254453182220459,
      "learning_rate": 9.978327997517652e-05,
      "loss": 0.5796511173248291,
      "memory(GiB)": 57.83,
      "step": 3460,
      "token_acc": 0.8765432098765432,
      "train_speed(iter/s)": 1.517209
    },
    {
      "epoch": 0.14845122316953002,
      "grad_norm": 2.888956069946289,
      "learning_rate": 9.978265361866389e-05,
      "loss": 0.5181376934051514,
      "memory(GiB)": 57.83,
      "step": 3465,
      "token_acc": 0.8897338403041825,
      "train_speed(iter/s)": 1.517204
    },
    {
      "epoch": 0.14866543849877897,
      "grad_norm": 2.9730756282806396,
      "learning_rate": 9.978202636029179e-05,
      "loss": 0.4953627586364746,
      "memory(GiB)": 57.83,
      "step": 3470,
      "token_acc": 0.8871951219512195,
      "train_speed(iter/s)": 1.517293
    },
    {
      "epoch": 0.14887965382802792,
      "grad_norm": 0.9205811023712158,
      "learning_rate": 9.978139820007158e-05,
      "loss": 0.13839194774627686,
      "memory(GiB)": 57.83,
      "step": 3475,
      "token_acc": 0.9656488549618321,
      "train_speed(iter/s)": 1.517491
    },
    {
      "epoch": 0.1490938691572769,
      "grad_norm": 5.189857006072998,
      "learning_rate": 9.978076913801464e-05,
      "loss": 0.3019744873046875,
      "memory(GiB)": 57.83,
      "step": 3480,
      "token_acc": 0.9188191881918819,
      "train_speed(iter/s)": 1.517644
    },
    {
      "epoch": 0.14930808448652585,
      "grad_norm": 1.995017170906067,
      "learning_rate": 9.978013917413237e-05,
      "loss": 0.30265583992004397,
      "memory(GiB)": 57.83,
      "step": 3485,
      "token_acc": 0.9172185430463576,
      "train_speed(iter/s)": 1.517819
    },
    {
      "epoch": 0.1495222998157748,
      "grad_norm": 2.0031471252441406,
      "learning_rate": 9.977950830843619e-05,
      "loss": 0.5474436283111572,
      "memory(GiB)": 57.83,
      "step": 3490,
      "token_acc": 0.895774647887324,
      "train_speed(iter/s)": 1.518198
    },
    {
      "epoch": 0.14973651514502379,
      "grad_norm": 5.6422343254089355,
      "learning_rate": 9.977887654093751e-05,
      "loss": 0.2796337604522705,
      "memory(GiB)": 57.83,
      "step": 3495,
      "token_acc": 0.9333333333333333,
      "train_speed(iter/s)": 1.518339
    },
    {
      "epoch": 0.14995073047427274,
      "grad_norm": 1.4210344552993774,
      "learning_rate": 9.977824387164778e-05,
      "loss": 0.40498552322387693,
      "memory(GiB)": 57.83,
      "step": 3500,
      "token_acc": 0.8809523809523809,
      "train_speed(iter/s)": 1.518428
    },
    {
      "epoch": 0.14995073047427274,
      "eval_loss": 2.446537733078003,
      "eval_runtime": 11.7222,
      "eval_samples_per_second": 8.531,
      "eval_steps_per_second": 8.531,
      "eval_token_acc": 0.42618741976893454,
      "step": 3500
    },
    {
      "epoch": 0.1501649458035217,
      "grad_norm": 2.3842875957489014,
      "learning_rate": 9.977761030057847e-05,
      "loss": 0.3279412746429443,
      "memory(GiB)": 57.83,
      "step": 3505,
      "token_acc": 0.5557692307692308,
      "train_speed(iter/s)": 1.510172
    },
    {
      "epoch": 0.15037916113277067,
      "grad_norm": 3.1697916984558105,
      "learning_rate": 9.977697582774106e-05,
      "loss": 0.9414101600646972,
      "memory(GiB)": 57.83,
      "step": 3510,
      "token_acc": 0.8172043010752689,
      "train_speed(iter/s)": 1.510172
    },
    {
      "epoch": 0.15059337646201962,
      "grad_norm": 0.06750098615884781,
      "learning_rate": 9.977634045314703e-05,
      "loss": 0.3700360059738159,
      "memory(GiB)": 57.83,
      "step": 3515,
      "token_acc": 0.918918918918919,
      "train_speed(iter/s)": 1.510253
    },
    {
      "epoch": 0.1508075917912686,
      "grad_norm": 2.2560830116271973,
      "learning_rate": 9.977570417680791e-05,
      "loss": 0.358535623550415,
      "memory(GiB)": 57.83,
      "step": 3520,
      "token_acc": 0.9216417910447762,
      "train_speed(iter/s)": 1.510265
    },
    {
      "epoch": 0.15102180712051755,
      "grad_norm": 1.8879475593566895,
      "learning_rate": 9.977506699873521e-05,
      "loss": 0.38306117057800293,
      "memory(GiB)": 57.83,
      "step": 3525,
      "token_acc": 0.9032258064516129,
      "train_speed(iter/s)": 1.510338
    },
    {
      "epoch": 0.1512360224497665,
      "grad_norm": 0.23100729286670685,
      "learning_rate": 9.977442891894048e-05,
      "loss": 0.5975110054016113,
      "memory(GiB)": 57.83,
      "step": 3530,
      "token_acc": 0.8785714285714286,
      "train_speed(iter/s)": 1.51053
    },
    {
      "epoch": 0.15145023777901548,
      "grad_norm": 2.2452738285064697,
      "learning_rate": 9.977378993743528e-05,
      "loss": 0.28678576946258544,
      "memory(GiB)": 57.83,
      "step": 3535,
      "token_acc": 0.9354838709677419,
      "train_speed(iter/s)": 1.510815
    },
    {
      "epoch": 0.15166445310826443,
      "grad_norm": 2.090545654296875,
      "learning_rate": 9.977315005423117e-05,
      "loss": 0.5024127960205078,
      "memory(GiB)": 57.83,
      "step": 3540,
      "token_acc": 0.8857142857142857,
      "train_speed(iter/s)": 1.510948
    },
    {
      "epoch": 0.15187866843751338,
      "grad_norm": 5.876445293426514,
      "learning_rate": 9.977250926933977e-05,
      "loss": 0.17773880958557128,
      "memory(GiB)": 57.83,
      "step": 3545,
      "token_acc": 0.9554794520547946,
      "train_speed(iter/s)": 1.511203
    },
    {
      "epoch": 0.15209288376676236,
      "grad_norm": 2.387523651123047,
      "learning_rate": 9.977186758277268e-05,
      "loss": 0.5856736183166504,
      "memory(GiB)": 57.83,
      "step": 3550,
      "token_acc": 0.887240356083086,
      "train_speed(iter/s)": 1.511117
    },
    {
      "epoch": 0.1523070990960113,
      "grad_norm": 2.739640712738037,
      "learning_rate": 9.97712249945415e-05,
      "loss": 0.3147712707519531,
      "memory(GiB)": 57.83,
      "step": 3555,
      "token_acc": 0.9375,
      "train_speed(iter/s)": 1.511172
    },
    {
      "epoch": 0.15252131442526026,
      "grad_norm": 3.8068037033081055,
      "learning_rate": 9.97705815046579e-05,
      "loss": 0.5998228073120118,
      "memory(GiB)": 57.83,
      "step": 3560,
      "token_acc": 0.8706293706293706,
      "train_speed(iter/s)": 1.511133
    },
    {
      "epoch": 0.15273552975450924,
      "grad_norm": 3.3296754360198975,
      "learning_rate": 9.976993711313354e-05,
      "loss": 0.5841238021850585,
      "memory(GiB)": 57.83,
      "step": 3565,
      "token_acc": 0.8771929824561403,
      "train_speed(iter/s)": 1.511068
    },
    {
      "epoch": 0.1529497450837582,
      "grad_norm": 1.73323655128479,
      "learning_rate": 9.976929181998007e-05,
      "loss": 0.33115923404693604,
      "memory(GiB)": 57.83,
      "step": 3570,
      "token_acc": 0.9182156133828996,
      "train_speed(iter/s)": 1.510977
    },
    {
      "epoch": 0.15316396041300714,
      "grad_norm": 8.753364562988281,
      "learning_rate": 9.976864562520918e-05,
      "loss": 0.44001312255859376,
      "memory(GiB)": 57.83,
      "step": 3575,
      "token_acc": 0.900355871886121,
      "train_speed(iter/s)": 1.510928
    },
    {
      "epoch": 0.15337817574225612,
      "grad_norm": 0.8948017954826355,
      "learning_rate": 9.976799852883261e-05,
      "loss": 0.23592422008514405,
      "memory(GiB)": 57.83,
      "step": 3580,
      "token_acc": 0.944,
      "train_speed(iter/s)": 1.511017
    },
    {
      "epoch": 0.15359239107150507,
      "grad_norm": 2.7720398902893066,
      "learning_rate": 9.976735053086204e-05,
      "loss": 0.36278018951416013,
      "memory(GiB)": 57.83,
      "step": 3585,
      "token_acc": 0.9022222222222223,
      "train_speed(iter/s)": 1.510987
    },
    {
      "epoch": 0.15380660640075403,
      "grad_norm": 2.427790403366089,
      "learning_rate": 9.976670163130924e-05,
      "loss": 0.31174402236938475,
      "memory(GiB)": 57.83,
      "step": 3590,
      "token_acc": 0.934931506849315,
      "train_speed(iter/s)": 1.511183
    },
    {
      "epoch": 0.154020821730003,
      "grad_norm": 3.367298126220703,
      "learning_rate": 9.976605183018594e-05,
      "loss": 0.33286137580871583,
      "memory(GiB)": 57.83,
      "step": 3595,
      "token_acc": 0.9204152249134948,
      "train_speed(iter/s)": 1.511204
    },
    {
      "epoch": 0.15423503705925196,
      "grad_norm": 11.743346214294434,
      "learning_rate": 9.976540112750394e-05,
      "loss": 0.460723352432251,
      "memory(GiB)": 57.83,
      "step": 3600,
      "token_acc": 0.8888888888888888,
      "train_speed(iter/s)": 1.511203
    },
    {
      "epoch": 0.15444925238850093,
      "grad_norm": 2.4169223308563232,
      "learning_rate": 9.976474952327502e-05,
      "loss": 0.6255918979644776,
      "memory(GiB)": 57.83,
      "step": 3605,
      "token_acc": 0.8586206896551725,
      "train_speed(iter/s)": 1.511118
    },
    {
      "epoch": 0.1546634677177499,
      "grad_norm": 1.7793593406677246,
      "learning_rate": 9.976409701751097e-05,
      "loss": 0.4173449993133545,
      "memory(GiB)": 57.83,
      "step": 3610,
      "token_acc": 0.9058823529411765,
      "train_speed(iter/s)": 1.511072
    },
    {
      "epoch": 0.15487768304699884,
      "grad_norm": 2.0201361179351807,
      "learning_rate": 9.976344361022363e-05,
      "loss": 0.3983342409133911,
      "memory(GiB)": 57.83,
      "step": 3615,
      "token_acc": 0.9107142857142857,
      "train_speed(iter/s)": 1.511149
    },
    {
      "epoch": 0.15509189837624782,
      "grad_norm": 3.886936664581299,
      "learning_rate": 9.976278930142482e-05,
      "loss": 0.4150503635406494,
      "memory(GiB)": 57.83,
      "step": 3620,
      "token_acc": 0.9302325581395349,
      "train_speed(iter/s)": 1.511125
    },
    {
      "epoch": 0.15530611370549677,
      "grad_norm": 0.9845520853996277,
      "learning_rate": 9.97621340911264e-05,
      "loss": 0.4149161815643311,
      "memory(GiB)": 57.83,
      "step": 3625,
      "token_acc": 0.917981072555205,
      "train_speed(iter/s)": 1.511237
    },
    {
      "epoch": 0.15552032903474572,
      "grad_norm": 1.4967237710952759,
      "learning_rate": 9.976147797934024e-05,
      "loss": 0.41015195846557617,
      "memory(GiB)": 57.83,
      "step": 3630,
      "token_acc": 0.9172661870503597,
      "train_speed(iter/s)": 1.51135
    },
    {
      "epoch": 0.1557345443639947,
      "grad_norm": 3.5723297595977783,
      "learning_rate": 9.976082096607823e-05,
      "loss": 0.3702225923538208,
      "memory(GiB)": 57.83,
      "step": 3635,
      "token_acc": 0.9158576051779935,
      "train_speed(iter/s)": 1.511261
    },
    {
      "epoch": 0.15594875969324365,
      "grad_norm": 4.845510482788086,
      "learning_rate": 9.976016305135228e-05,
      "loss": 0.4890450477600098,
      "memory(GiB)": 57.83,
      "step": 3640,
      "token_acc": 0.9093959731543624,
      "train_speed(iter/s)": 1.511308
    },
    {
      "epoch": 0.1561629750224926,
      "grad_norm": 1.578256607055664,
      "learning_rate": 9.975950423517426e-05,
      "loss": 0.17587542533874512,
      "memory(GiB)": 57.83,
      "step": 3645,
      "token_acc": 0.9565217391304348,
      "train_speed(iter/s)": 1.511392
    },
    {
      "epoch": 0.15637719035174158,
      "grad_norm": 1.2948048114776611,
      "learning_rate": 9.975884451755618e-05,
      "loss": 0.35112183094024657,
      "memory(GiB)": 57.83,
      "step": 3650,
      "token_acc": 0.9335548172757475,
      "train_speed(iter/s)": 1.511419
    },
    {
      "epoch": 0.15659140568099053,
      "grad_norm": 2.8147289752960205,
      "learning_rate": 9.975818389850993e-05,
      "loss": 0.5415332794189454,
      "memory(GiB)": 57.83,
      "step": 3655,
      "token_acc": 0.8849557522123894,
      "train_speed(iter/s)": 1.51138
    },
    {
      "epoch": 0.15680562101023948,
      "grad_norm": 1.5178312063217163,
      "learning_rate": 9.975752237804752e-05,
      "loss": 0.6440974712371826,
      "memory(GiB)": 57.83,
      "step": 3660,
      "token_acc": 0.8806584362139918,
      "train_speed(iter/s)": 1.511509
    },
    {
      "epoch": 0.15701983633948846,
      "grad_norm": 1.194933533668518,
      "learning_rate": 9.975685995618092e-05,
      "loss": 0.5662200927734375,
      "memory(GiB)": 57.83,
      "step": 3665,
      "token_acc": 0.9113475177304965,
      "train_speed(iter/s)": 1.511504
    },
    {
      "epoch": 0.1572340516687374,
      "grad_norm": 4.714276313781738,
      "learning_rate": 9.97561966329221e-05,
      "loss": 0.29403371810913087,
      "memory(GiB)": 57.83,
      "step": 3670,
      "token_acc": 0.9367588932806324,
      "train_speed(iter/s)": 1.511465
    },
    {
      "epoch": 0.15744826699798636,
      "grad_norm": 1.2164779901504517,
      "learning_rate": 9.975553240828312e-05,
      "loss": 0.3515486240386963,
      "memory(GiB)": 57.83,
      "step": 3675,
      "token_acc": 0.9261992619926199,
      "train_speed(iter/s)": 1.511469
    },
    {
      "epoch": 0.15766248232723534,
      "grad_norm": 4.283686637878418,
      "learning_rate": 9.975486728227599e-05,
      "loss": 0.48273282051086425,
      "memory(GiB)": 57.83,
      "step": 3680,
      "token_acc": 0.8970976253298153,
      "train_speed(iter/s)": 1.51157
    },
    {
      "epoch": 0.1578766976564843,
      "grad_norm": 3.567147970199585,
      "learning_rate": 9.975420125491277e-05,
      "loss": 0.32115557193756106,
      "memory(GiB)": 57.83,
      "step": 3685,
      "token_acc": 0.9241379310344827,
      "train_speed(iter/s)": 1.511696
    },
    {
      "epoch": 0.15809091298573327,
      "grad_norm": 3.0105631351470947,
      "learning_rate": 9.975353432620552e-05,
      "loss": 0.2973757743835449,
      "memory(GiB)": 57.83,
      "step": 3690,
      "token_acc": 0.9371069182389937,
      "train_speed(iter/s)": 1.511752
    },
    {
      "epoch": 0.15830512831498222,
      "grad_norm": 3.013645648956299,
      "learning_rate": 9.975286649616633e-05,
      "loss": 0.4880228042602539,
      "memory(GiB)": 57.83,
      "step": 3695,
      "token_acc": 0.9172661870503597,
      "train_speed(iter/s)": 1.511694
    },
    {
      "epoch": 0.15851934364423118,
      "grad_norm": 2.7897558212280273,
      "learning_rate": 9.975219776480727e-05,
      "loss": 0.40114269256591795,
      "memory(GiB)": 57.83,
      "step": 3700,
      "token_acc": 0.9153846153846154,
      "train_speed(iter/s)": 1.511824
    },
    {
      "epoch": 0.15873355897348015,
      "grad_norm": 4.134271144866943,
      "learning_rate": 9.97515281321405e-05,
      "loss": 0.7008815765380859,
      "memory(GiB)": 57.83,
      "step": 3705,
      "token_acc": 0.88,
      "train_speed(iter/s)": 1.512143
    },
    {
      "epoch": 0.1589477743027291,
      "grad_norm": 1.9787652492523193,
      "learning_rate": 9.975085759817811e-05,
      "loss": 0.30160953998565676,
      "memory(GiB)": 57.83,
      "step": 3710,
      "token_acc": 0.9318181818181818,
      "train_speed(iter/s)": 1.512193
    },
    {
      "epoch": 0.15916198963197806,
      "grad_norm": 1.9093937873840332,
      "learning_rate": 9.975018616293228e-05,
      "loss": 0.227117919921875,
      "memory(GiB)": 57.83,
      "step": 3715,
      "token_acc": 0.9561752988047809,
      "train_speed(iter/s)": 1.512415
    },
    {
      "epoch": 0.15937620496122704,
      "grad_norm": 3.28204607963562,
      "learning_rate": 9.974951382641516e-05,
      "loss": 0.43659658432006837,
      "memory(GiB)": 57.83,
      "step": 3720,
      "token_acc": 0.8904593639575972,
      "train_speed(iter/s)": 1.512471
    },
    {
      "epoch": 0.159590420290476,
      "grad_norm": 2.5080363750457764,
      "learning_rate": 9.97488405886389e-05,
      "loss": 0.31663401126861573,
      "memory(GiB)": 57.83,
      "step": 3725,
      "token_acc": 0.9224806201550387,
      "train_speed(iter/s)": 1.512581
    },
    {
      "epoch": 0.15980463561972494,
      "grad_norm": 0.7743328213691711,
      "learning_rate": 9.974816644961575e-05,
      "loss": 0.21046299934387208,
      "memory(GiB)": 57.83,
      "step": 3730,
      "token_acc": 0.9429429429429429,
      "train_speed(iter/s)": 1.512683
    },
    {
      "epoch": 0.16001885094897392,
      "grad_norm": 0.660235583782196,
      "learning_rate": 9.974749140935789e-05,
      "loss": 0.52157621383667,
      "memory(GiB)": 57.83,
      "step": 3735,
      "token_acc": 0.8796992481203008,
      "train_speed(iter/s)": 1.512754
    },
    {
      "epoch": 0.16023306627822287,
      "grad_norm": 4.521226406097412,
      "learning_rate": 9.974681546787755e-05,
      "loss": 0.4067714214324951,
      "memory(GiB)": 57.83,
      "step": 3740,
      "token_acc": 0.9024390243902439,
      "train_speed(iter/s)": 1.512751
    },
    {
      "epoch": 0.16044728160747182,
      "grad_norm": 1.949479579925537,
      "learning_rate": 9.974613862518699e-05,
      "loss": 0.2712433338165283,
      "memory(GiB)": 57.83,
      "step": 3745,
      "token_acc": 0.9527272727272728,
      "train_speed(iter/s)": 1.512745
    },
    {
      "epoch": 0.1606614969367208,
      "grad_norm": 1.6037927865982056,
      "learning_rate": 9.974546088129846e-05,
      "loss": 0.3681286096572876,
      "memory(GiB)": 57.83,
      "step": 3750,
      "token_acc": 0.9144736842105263,
      "train_speed(iter/s)": 1.512854
    },
    {
      "epoch": 0.16087571226596975,
      "grad_norm": 3.949721097946167,
      "learning_rate": 9.974478223622424e-05,
      "loss": 0.48051066398620607,
      "memory(GiB)": 57.83,
      "step": 3755,
      "token_acc": 0.8810810810810811,
      "train_speed(iter/s)": 1.513012
    },
    {
      "epoch": 0.1610899275952187,
      "grad_norm": 1.9430617094039917,
      "learning_rate": 9.974410268997662e-05,
      "loss": 0.663322114944458,
      "memory(GiB)": 57.83,
      "step": 3760,
      "token_acc": 0.8722627737226277,
      "train_speed(iter/s)": 1.513232
    },
    {
      "epoch": 0.16130414292446768,
      "grad_norm": 1.7300478219985962,
      "learning_rate": 9.974342224256795e-05,
      "loss": 0.38237872123718264,
      "memory(GiB)": 57.83,
      "step": 3765,
      "token_acc": 0.9148936170212766,
      "train_speed(iter/s)": 1.513162
    },
    {
      "epoch": 0.16151835825371663,
      "grad_norm": 2.5673322677612305,
      "learning_rate": 9.974274089401048e-05,
      "loss": 0.2913210391998291,
      "memory(GiB)": 57.83,
      "step": 3770,
      "token_acc": 0.9345454545454546,
      "train_speed(iter/s)": 1.513221
    },
    {
      "epoch": 0.1617325735829656,
      "grad_norm": 1.1327354907989502,
      "learning_rate": 9.974205864431661e-05,
      "loss": 0.33402233123779296,
      "memory(GiB)": 57.83,
      "step": 3775,
      "token_acc": 0.9444444444444444,
      "train_speed(iter/s)": 1.513293
    },
    {
      "epoch": 0.16194678891221456,
      "grad_norm": 7.10791540145874,
      "learning_rate": 9.974137549349869e-05,
      "loss": 0.6685216903686524,
      "memory(GiB)": 57.83,
      "step": 3780,
      "token_acc": 0.8865248226950354,
      "train_speed(iter/s)": 1.513495
    },
    {
      "epoch": 0.1621610042414635,
      "grad_norm": 1.6271249055862427,
      "learning_rate": 9.97406914415691e-05,
      "loss": 0.2500523567199707,
      "memory(GiB)": 57.83,
      "step": 3785,
      "token_acc": 0.9418604651162791,
      "train_speed(iter/s)": 1.513489
    },
    {
      "epoch": 0.1623752195707125,
      "grad_norm": 0.12042249739170074,
      "learning_rate": 9.97400064885402e-05,
      "loss": 0.5365549564361572,
      "memory(GiB)": 57.83,
      "step": 3790,
      "token_acc": 0.89937106918239,
      "train_speed(iter/s)": 1.51342
    },
    {
      "epoch": 0.16258943489996144,
      "grad_norm": 5.95877742767334,
      "learning_rate": 9.973932063442444e-05,
      "loss": 0.23064014911651612,
      "memory(GiB)": 57.83,
      "step": 3795,
      "token_acc": 0.9511400651465798,
      "train_speed(iter/s)": 1.513404
    },
    {
      "epoch": 0.1628036502292104,
      "grad_norm": 2.0255298614501953,
      "learning_rate": 9.973863387923423e-05,
      "loss": 0.2860123634338379,
      "memory(GiB)": 57.83,
      "step": 3800,
      "token_acc": 0.9473684210526315,
      "train_speed(iter/s)": 1.513495
    },
    {
      "epoch": 0.16301786555845937,
      "grad_norm": 12.810190200805664,
      "learning_rate": 9.9737946222982e-05,
      "loss": 0.4587386131286621,
      "memory(GiB)": 57.83,
      "step": 3805,
      "token_acc": 0.901595744680851,
      "train_speed(iter/s)": 1.513465
    },
    {
      "epoch": 0.16323208088770833,
      "grad_norm": 1.8858866691589355,
      "learning_rate": 9.973725766568023e-05,
      "loss": 0.44912099838256836,
      "memory(GiB)": 57.83,
      "step": 3810,
      "token_acc": 0.8986013986013986,
      "train_speed(iter/s)": 1.513431
    },
    {
      "epoch": 0.16344629621695728,
      "grad_norm": 2.2747585773468018,
      "learning_rate": 9.973656820734136e-05,
      "loss": 0.25021114349365237,
      "memory(GiB)": 57.83,
      "step": 3815,
      "token_acc": 0.9496124031007752,
      "train_speed(iter/s)": 1.513455
    },
    {
      "epoch": 0.16366051154620626,
      "grad_norm": 2.7039852142333984,
      "learning_rate": 9.973587784797791e-05,
      "loss": 0.5598416328430176,
      "memory(GiB)": 57.83,
      "step": 3820,
      "token_acc": 0.8706293706293706,
      "train_speed(iter/s)": 1.513363
    },
    {
      "epoch": 0.1638747268754552,
      "grad_norm": 1.99837327003479,
      "learning_rate": 9.973518658760236e-05,
      "loss": 0.35742576122283937,
      "memory(GiB)": 57.83,
      "step": 3825,
      "token_acc": 0.916955017301038,
      "train_speed(iter/s)": 1.513227
    },
    {
      "epoch": 0.16408894220470416,
      "grad_norm": 3.08686900138855,
      "learning_rate": 9.973449442622729e-05,
      "loss": 0.392643141746521,
      "memory(GiB)": 57.83,
      "step": 3830,
      "token_acc": 0.9032258064516129,
      "train_speed(iter/s)": 1.513248
    },
    {
      "epoch": 0.16430315753395314,
      "grad_norm": 2.2556662559509277,
      "learning_rate": 9.973380136386516e-05,
      "loss": 0.48528685569763186,
      "memory(GiB)": 57.83,
      "step": 3835,
      "token_acc": 0.9087947882736156,
      "train_speed(iter/s)": 1.513416
    },
    {
      "epoch": 0.1645173728632021,
      "grad_norm": 11.768698692321777,
      "learning_rate": 9.973310740052859e-05,
      "loss": 0.754575252532959,
      "memory(GiB)": 57.83,
      "step": 3840,
      "token_acc": 0.8659420289855072,
      "train_speed(iter/s)": 1.51357
    },
    {
      "epoch": 0.16473158819245104,
      "grad_norm": 2.8291118144989014,
      "learning_rate": 9.973241253623011e-05,
      "loss": 0.4900012969970703,
      "memory(GiB)": 57.83,
      "step": 3845,
      "token_acc": 0.9077490774907749,
      "train_speed(iter/s)": 1.513732
    },
    {
      "epoch": 0.16494580352170002,
      "grad_norm": 2.513559579849243,
      "learning_rate": 9.973171677098233e-05,
      "loss": 0.27779397964477537,
      "memory(GiB)": 57.83,
      "step": 3850,
      "token_acc": 0.9333333333333333,
      "train_speed(iter/s)": 1.513798
    },
    {
      "epoch": 0.16516001885094897,
      "grad_norm": 2.3493876457214355,
      "learning_rate": 9.973102010479784e-05,
      "loss": 0.5915249347686767,
      "memory(GiB)": 57.83,
      "step": 3855,
      "token_acc": 0.8430769230769231,
      "train_speed(iter/s)": 1.513863
    },
    {
      "epoch": 0.16537423418019795,
      "grad_norm": 5.322275161743164,
      "learning_rate": 9.973032253768927e-05,
      "loss": 0.22183570861816407,
      "memory(GiB)": 57.83,
      "step": 3860,
      "token_acc": 0.9438202247191011,
      "train_speed(iter/s)": 1.514068
    },
    {
      "epoch": 0.1655884495094469,
      "grad_norm": 3.158512592315674,
      "learning_rate": 9.972962406966928e-05,
      "loss": 0.23666105270385743,
      "memory(GiB)": 57.83,
      "step": 3865,
      "token_acc": 0.9408602150537635,
      "train_speed(iter/s)": 1.514112
    },
    {
      "epoch": 0.16580266483869585,
      "grad_norm": 2.108837127685547,
      "learning_rate": 9.972892470075048e-05,
      "loss": 0.2621962547302246,
      "memory(GiB)": 57.83,
      "step": 3870,
      "token_acc": 0.9352750809061489,
      "train_speed(iter/s)": 1.514254
    },
    {
      "epoch": 0.16601688016794483,
      "grad_norm": 5.688636779785156,
      "learning_rate": 9.972822443094557e-05,
      "loss": 0.679051685333252,
      "memory(GiB)": 57.83,
      "step": 3875,
      "token_acc": 0.8713826366559485,
      "train_speed(iter/s)": 1.514122
    },
    {
      "epoch": 0.16623109549719378,
      "grad_norm": 2.2759616374969482,
      "learning_rate": 9.972752326026722e-05,
      "loss": 0.3941002368927002,
      "memory(GiB)": 57.83,
      "step": 3880,
      "token_acc": 0.9232876712328767,
      "train_speed(iter/s)": 1.513998
    },
    {
      "epoch": 0.16644531082644273,
      "grad_norm": 2.3648221492767334,
      "learning_rate": 9.972682118872813e-05,
      "loss": 0.25297958850860597,
      "memory(GiB)": 57.83,
      "step": 3885,
      "token_acc": 0.9346938775510204,
      "train_speed(iter/s)": 1.51403
    },
    {
      "epoch": 0.1666595261556917,
      "grad_norm": 6.614083766937256,
      "learning_rate": 9.972611821634104e-05,
      "loss": 0.343418550491333,
      "memory(GiB)": 57.83,
      "step": 3890,
      "token_acc": 0.9224489795918367,
      "train_speed(iter/s)": 1.514102
    },
    {
      "epoch": 0.16687374148494066,
      "grad_norm": 1.608016848564148,
      "learning_rate": 9.972541434311866e-05,
      "loss": 0.3323129892349243,
      "memory(GiB)": 57.83,
      "step": 3895,
      "token_acc": 0.9331210191082803,
      "train_speed(iter/s)": 1.51414
    },
    {
      "epoch": 0.16708795681418961,
      "grad_norm": 1.1930209398269653,
      "learning_rate": 9.972470956907375e-05,
      "loss": 0.2424311876296997,
      "memory(GiB)": 57.83,
      "step": 3900,
      "token_acc": 0.9411764705882353,
      "train_speed(iter/s)": 1.51436
    },
    {
      "epoch": 0.1673021721434386,
      "grad_norm": 1.5823094844818115,
      "learning_rate": 9.97240038942191e-05,
      "loss": 0.659721851348877,
      "memory(GiB)": 57.83,
      "step": 3905,
      "token_acc": 0.871875,
      "train_speed(iter/s)": 1.514245
    },
    {
      "epoch": 0.16751638747268754,
      "grad_norm": 5.76854944229126,
      "learning_rate": 9.972329731856745e-05,
      "loss": 0.37930200099945066,
      "memory(GiB)": 57.83,
      "step": 3910,
      "token_acc": 0.9094076655052264,
      "train_speed(iter/s)": 1.514499
    },
    {
      "epoch": 0.1677306028019365,
      "grad_norm": 3.249678611755371,
      "learning_rate": 9.972258984213164e-05,
      "loss": 0.5554678916931153,
      "memory(GiB)": 57.83,
      "step": 3915,
      "token_acc": 0.8571428571428571,
      "train_speed(iter/s)": 1.514611
    },
    {
      "epoch": 0.16794481813118547,
      "grad_norm": 3.475437641143799,
      "learning_rate": 9.972188146492446e-05,
      "loss": 0.39207236766815184,
      "memory(GiB)": 57.83,
      "step": 3920,
      "token_acc": 0.9245283018867925,
      "train_speed(iter/s)": 1.514608
    },
    {
      "epoch": 0.16815903346043443,
      "grad_norm": 2.7875428199768066,
      "learning_rate": 9.972117218695877e-05,
      "loss": 0.6198910713195801,
      "memory(GiB)": 57.83,
      "step": 3925,
      "token_acc": 0.8743016759776536,
      "train_speed(iter/s)": 1.514699
    },
    {
      "epoch": 0.16837324878968338,
      "grad_norm": 4.385772705078125,
      "learning_rate": 9.97204620082474e-05,
      "loss": 0.7625330924987793,
      "memory(GiB)": 57.83,
      "step": 3930,
      "token_acc": 0.8453947368421053,
      "train_speed(iter/s)": 1.514645
    },
    {
      "epoch": 0.16858746411893236,
      "grad_norm": 0.49179938435554504,
      "learning_rate": 9.971975092880321e-05,
      "loss": 0.16669465303421022,
      "memory(GiB)": 57.83,
      "step": 3935,
      "token_acc": 0.9552845528455285,
      "train_speed(iter/s)": 1.514604
    },
    {
      "epoch": 0.1688016794481813,
      "grad_norm": 3.707549571990967,
      "learning_rate": 9.97190389486391e-05,
      "loss": 0.5366193771362304,
      "memory(GiB)": 57.83,
      "step": 3940,
      "token_acc": 0.8802395209580839,
      "train_speed(iter/s)": 1.514571
    },
    {
      "epoch": 0.1690158947774303,
      "grad_norm": 4.463767051696777,
      "learning_rate": 9.971832606776797e-05,
      "loss": 0.4810950756072998,
      "memory(GiB)": 57.83,
      "step": 3945,
      "token_acc": 0.9184397163120568,
      "train_speed(iter/s)": 1.514486
    },
    {
      "epoch": 0.16923011010667924,
      "grad_norm": 2.6431195735931396,
      "learning_rate": 9.97176122862027e-05,
      "loss": 0.3314813613891602,
      "memory(GiB)": 57.83,
      "step": 3950,
      "token_acc": 0.9269102990033222,
      "train_speed(iter/s)": 1.51441
    },
    {
      "epoch": 0.1694443254359282,
      "grad_norm": 3.0546669960021973,
      "learning_rate": 9.971689760395626e-05,
      "loss": 0.34649157524108887,
      "memory(GiB)": 57.83,
      "step": 3955,
      "token_acc": 0.937984496124031,
      "train_speed(iter/s)": 1.514399
    },
    {
      "epoch": 0.16965854076517717,
      "grad_norm": 1.5945426225662231,
      "learning_rate": 9.971618202104157e-05,
      "loss": 0.501087760925293,
      "memory(GiB)": 57.83,
      "step": 3960,
      "token_acc": 0.9002493765586035,
      "train_speed(iter/s)": 1.514314
    },
    {
      "epoch": 0.16987275609442612,
      "grad_norm": 4.94426965713501,
      "learning_rate": 9.971546553747163e-05,
      "loss": 0.3618204116821289,
      "memory(GiB)": 57.83,
      "step": 3965,
      "token_acc": 0.9157509157509157,
      "train_speed(iter/s)": 1.514295
    },
    {
      "epoch": 0.17008697142367507,
      "grad_norm": 2.4892890453338623,
      "learning_rate": 9.971474815325936e-05,
      "loss": 0.378057861328125,
      "memory(GiB)": 57.83,
      "step": 3970,
      "token_acc": 0.8939929328621908,
      "train_speed(iter/s)": 1.514401
    },
    {
      "epoch": 0.17030118675292405,
      "grad_norm": 4.393266677856445,
      "learning_rate": 9.97140298684178e-05,
      "loss": 0.5813199043273926,
      "memory(GiB)": 57.83,
      "step": 3975,
      "token_acc": 0.8737864077669902,
      "train_speed(iter/s)": 1.51456
    },
    {
      "epoch": 0.170515402082173,
      "grad_norm": 2.829508066177368,
      "learning_rate": 9.971331068295998e-05,
      "loss": 0.4677761077880859,
      "memory(GiB)": 57.83,
      "step": 3980,
      "token_acc": 0.8837209302325582,
      "train_speed(iter/s)": 1.51465
    },
    {
      "epoch": 0.17072961741142195,
      "grad_norm": 1.861405611038208,
      "learning_rate": 9.971259059689887e-05,
      "loss": 0.1899072051048279,
      "memory(GiB)": 57.83,
      "step": 3985,
      "token_acc": 0.9569230769230769,
      "train_speed(iter/s)": 1.514715
    },
    {
      "epoch": 0.17094383274067093,
      "grad_norm": 1.2325413227081299,
      "learning_rate": 9.971186961024756e-05,
      "loss": 0.3861642360687256,
      "memory(GiB)": 57.83,
      "step": 3990,
      "token_acc": 0.9044585987261147,
      "train_speed(iter/s)": 1.514873
    },
    {
      "epoch": 0.17115804806991988,
      "grad_norm": 0.7051987648010254,
      "learning_rate": 9.97111477230191e-05,
      "loss": 0.36649236679077146,
      "memory(GiB)": 57.83,
      "step": 3995,
      "token_acc": 0.9222614840989399,
      "train_speed(iter/s)": 1.515001
    },
    {
      "epoch": 0.17137226339916883,
      "grad_norm": 6.859620094299316,
      "learning_rate": 9.971042493522655e-05,
      "loss": 0.5443126201629639,
      "memory(GiB)": 57.83,
      "step": 4000,
      "token_acc": 0.8884892086330936,
      "train_speed(iter/s)": 1.515298
    },
    {
      "epoch": 0.17137226339916883,
      "eval_loss": 2.59641170501709,
      "eval_runtime": 11.2737,
      "eval_samples_per_second": 8.87,
      "eval_steps_per_second": 8.87,
      "eval_token_acc": 0.41797432239657634,
      "step": 4000
    },
    {
      "epoch": 0.1715864787284178,
      "grad_norm": 1.7579963207244873,
      "learning_rate": 9.970970124688305e-05,
      "loss": 0.344852089881897,
      "memory(GiB)": 57.83,
      "step": 4005,
      "token_acc": 0.5631951466127402,
      "train_speed(iter/s)": 1.508328
    },
    {
      "epoch": 0.17180069405766676,
      "grad_norm": 2.772745132446289,
      "learning_rate": 9.970897665800167e-05,
      "loss": 0.8416284561157227,
      "memory(GiB)": 57.83,
      "step": 4010,
      "token_acc": 0.8092105263157895,
      "train_speed(iter/s)": 1.508294
    },
    {
      "epoch": 0.17201490938691572,
      "grad_norm": 1.6289725303649902,
      "learning_rate": 9.970825116859554e-05,
      "loss": 0.24476804733276367,
      "memory(GiB)": 57.83,
      "step": 4015,
      "token_acc": 0.9446254071661238,
      "train_speed(iter/s)": 1.508382
    },
    {
      "epoch": 0.1722291247161647,
      "grad_norm": 4.644321441650391,
      "learning_rate": 9.97075247786778e-05,
      "loss": 0.26848759651184084,
      "memory(GiB)": 57.83,
      "step": 4020,
      "token_acc": 0.9386281588447654,
      "train_speed(iter/s)": 1.50868
    },
    {
      "epoch": 0.17244334004541365,
      "grad_norm": 1.5828018188476562,
      "learning_rate": 9.970679748826164e-05,
      "loss": 0.32279582023620607,
      "memory(GiB)": 57.83,
      "step": 4025,
      "token_acc": 0.9377162629757786,
      "train_speed(iter/s)": 1.50879
    },
    {
      "epoch": 0.17265755537466262,
      "grad_norm": 2.312274217605591,
      "learning_rate": 9.97060692973602e-05,
      "loss": 0.38735003471374513,
      "memory(GiB)": 57.83,
      "step": 4030,
      "token_acc": 0.9144542772861357,
      "train_speed(iter/s)": 1.508841
    },
    {
      "epoch": 0.17287177070391158,
      "grad_norm": 7.7694830894470215,
      "learning_rate": 9.97053402059867e-05,
      "loss": 0.3685455799102783,
      "memory(GiB)": 57.83,
      "step": 4035,
      "token_acc": 0.927797833935018,
      "train_speed(iter/s)": 1.509093
    },
    {
      "epoch": 0.17308598603316053,
      "grad_norm": 10.439327239990234,
      "learning_rate": 9.970461021415433e-05,
      "loss": 0.42048869132995603,
      "memory(GiB)": 57.83,
      "step": 4040,
      "token_acc": 0.9056603773584906,
      "train_speed(iter/s)": 1.509127
    },
    {
      "epoch": 0.1733002013624095,
      "grad_norm": 5.950136184692383,
      "learning_rate": 9.97038793218763e-05,
      "loss": 0.43625383377075194,
      "memory(GiB)": 57.83,
      "step": 4045,
      "token_acc": 0.9102564102564102,
      "train_speed(iter/s)": 1.509342
    },
    {
      "epoch": 0.17351441669165846,
      "grad_norm": 4.210340976715088,
      "learning_rate": 9.97031475291659e-05,
      "loss": 0.29321064949035647,
      "memory(GiB)": 57.83,
      "step": 4050,
      "token_acc": 0.9335548172757475,
      "train_speed(iter/s)": 1.509316
    },
    {
      "epoch": 0.1737286320209074,
      "grad_norm": 3.2795848846435547,
      "learning_rate": 9.970241483603635e-05,
      "loss": 0.45979628562927244,
      "memory(GiB)": 57.83,
      "step": 4055,
      "token_acc": 0.8844984802431611,
      "train_speed(iter/s)": 1.509377
    },
    {
      "epoch": 0.1739428473501564,
      "grad_norm": 7.25145149230957,
      "learning_rate": 9.970168124250093e-05,
      "loss": 0.347960090637207,
      "memory(GiB)": 57.83,
      "step": 4060,
      "token_acc": 0.9214285714285714,
      "train_speed(iter/s)": 1.509588
    },
    {
      "epoch": 0.17415706267940534,
      "grad_norm": 3.4471166133880615,
      "learning_rate": 9.970094674857291e-05,
      "loss": 0.2726967096328735,
      "memory(GiB)": 57.83,
      "step": 4065,
      "token_acc": 0.9233226837060703,
      "train_speed(iter/s)": 1.509616
    },
    {
      "epoch": 0.1743712780086543,
      "grad_norm": 2.9118540287017822,
      "learning_rate": 9.970021135426564e-05,
      "loss": 0.27073240280151367,
      "memory(GiB)": 57.83,
      "step": 4070,
      "token_acc": 0.9413919413919414,
      "train_speed(iter/s)": 1.509633
    },
    {
      "epoch": 0.17458549333790327,
      "grad_norm": 3.7712721824645996,
      "learning_rate": 9.969947505959241e-05,
      "loss": 0.6009779930114746,
      "memory(GiB)": 57.83,
      "step": 4075,
      "token_acc": 0.8643410852713178,
      "train_speed(iter/s)": 1.509627
    },
    {
      "epoch": 0.17479970866715222,
      "grad_norm": 2.1265647411346436,
      "learning_rate": 9.969873786456656e-05,
      "loss": 0.1461083173751831,
      "memory(GiB)": 57.83,
      "step": 4080,
      "token_acc": 0.9673202614379085,
      "train_speed(iter/s)": 1.509627
    },
    {
      "epoch": 0.17501392399640117,
      "grad_norm": 5.783075332641602,
      "learning_rate": 9.969799976920147e-05,
      "loss": 0.6032055854797364,
      "memory(GiB)": 57.83,
      "step": 4085,
      "token_acc": 0.8757961783439491,
      "train_speed(iter/s)": 1.509451
    },
    {
      "epoch": 0.17522813932565015,
      "grad_norm": 2.392221689224243,
      "learning_rate": 9.969726077351047e-05,
      "loss": 0.33434596061706545,
      "memory(GiB)": 57.83,
      "step": 4090,
      "token_acc": 0.9278996865203761,
      "train_speed(iter/s)": 1.509466
    },
    {
      "epoch": 0.1754423546548991,
      "grad_norm": 3.594744920730591,
      "learning_rate": 9.969652087750698e-05,
      "loss": 0.28260555267333987,
      "memory(GiB)": 57.83,
      "step": 4095,
      "token_acc": 0.9421768707482994,
      "train_speed(iter/s)": 1.509403
    },
    {
      "epoch": 0.17565656998414805,
      "grad_norm": 5.460442066192627,
      "learning_rate": 9.969578008120441e-05,
      "loss": 0.5577815055847168,
      "memory(GiB)": 57.83,
      "step": 4100,
      "token_acc": 0.8711864406779661,
      "train_speed(iter/s)": 1.509502
    },
    {
      "epoch": 0.17587078531339703,
      "grad_norm": 3.3070948123931885,
      "learning_rate": 9.969503838461615e-05,
      "loss": 0.4042186737060547,
      "memory(GiB)": 57.83,
      "step": 4105,
      "token_acc": 0.9102990033222591,
      "train_speed(iter/s)": 1.509499
    },
    {
      "epoch": 0.17608500064264598,
      "grad_norm": 1.6151496171951294,
      "learning_rate": 9.969429578775567e-05,
      "loss": 0.31232290267944335,
      "memory(GiB)": 57.83,
      "step": 4110,
      "token_acc": 0.9391304347826087,
      "train_speed(iter/s)": 1.509523
    },
    {
      "epoch": 0.17629921597189496,
      "grad_norm": 0.3587826192378998,
      "learning_rate": 9.969355229063638e-05,
      "loss": 0.15982770919799805,
      "memory(GiB)": 57.83,
      "step": 4115,
      "token_acc": 0.959409594095941,
      "train_speed(iter/s)": 1.509521
    },
    {
      "epoch": 0.1765134313011439,
      "grad_norm": 2.4136569499969482,
      "learning_rate": 9.969280789327179e-05,
      "loss": 0.46406307220458987,
      "memory(GiB)": 57.83,
      "step": 4120,
      "token_acc": 0.913946587537092,
      "train_speed(iter/s)": 1.50962
    },
    {
      "epoch": 0.17672764663039287,
      "grad_norm": 2.0314478874206543,
      "learning_rate": 9.969206259567537e-05,
      "loss": 0.39525983333587644,
      "memory(GiB)": 57.83,
      "step": 4125,
      "token_acc": 0.9175627240143369,
      "train_speed(iter/s)": 1.509641
    },
    {
      "epoch": 0.17694186195964184,
      "grad_norm": 0.7080110311508179,
      "learning_rate": 9.969131639786061e-05,
      "loss": 0.21221537590026857,
      "memory(GiB)": 57.83,
      "step": 4130,
      "token_acc": 0.9422382671480144,
      "train_speed(iter/s)": 1.509516
    },
    {
      "epoch": 0.1771560772888908,
      "grad_norm": 1.65465247631073,
      "learning_rate": 9.969056929984105e-05,
      "loss": 0.47389492988586424,
      "memory(GiB)": 57.83,
      "step": 4135,
      "token_acc": 0.9027237354085603,
      "train_speed(iter/s)": 1.509454
    },
    {
      "epoch": 0.17737029261813975,
      "grad_norm": 0.24332356452941895,
      "learning_rate": 9.968982130163021e-05,
      "loss": 0.23363909721374512,
      "memory(GiB)": 57.83,
      "step": 4140,
      "token_acc": 0.9387755102040817,
      "train_speed(iter/s)": 1.509566
    },
    {
      "epoch": 0.17758450794738873,
      "grad_norm": 3.212531328201294,
      "learning_rate": 9.968907240324165e-05,
      "loss": 0.6157785415649414,
      "memory(GiB)": 57.83,
      "step": 4145,
      "token_acc": 0.8949152542372881,
      "train_speed(iter/s)": 1.509694
    },
    {
      "epoch": 0.17779872327663768,
      "grad_norm": 1.7138736248016357,
      "learning_rate": 9.968832260468892e-05,
      "loss": 0.33520939350128176,
      "memory(GiB)": 57.83,
      "step": 4150,
      "token_acc": 0.9213483146067416,
      "train_speed(iter/s)": 1.509703
    },
    {
      "epoch": 0.17801293860588663,
      "grad_norm": 2.3866288661956787,
      "learning_rate": 9.96875719059856e-05,
      "loss": 0.24670026302337647,
      "memory(GiB)": 57.83,
      "step": 4155,
      "token_acc": 0.9545454545454546,
      "train_speed(iter/s)": 1.509696
    },
    {
      "epoch": 0.1782271539351356,
      "grad_norm": 2.5758602619171143,
      "learning_rate": 9.968682030714534e-05,
      "loss": 0.44811391830444336,
      "memory(GiB)": 57.83,
      "step": 4160,
      "token_acc": 0.9024390243902439,
      "train_speed(iter/s)": 1.510023
    },
    {
      "epoch": 0.17844136926438456,
      "grad_norm": 3.3657913208007812,
      "learning_rate": 9.96860678081817e-05,
      "loss": 0.3874398708343506,
      "memory(GiB)": 57.83,
      "step": 4165,
      "token_acc": 0.9171428571428571,
      "train_speed(iter/s)": 1.510337
    },
    {
      "epoch": 0.1786555845936335,
      "grad_norm": 1.790096640586853,
      "learning_rate": 9.968531440910835e-05,
      "loss": 0.18798787593841554,
      "memory(GiB)": 57.83,
      "step": 4170,
      "token_acc": 0.9483870967741935,
      "train_speed(iter/s)": 1.51045
    },
    {
      "epoch": 0.1788697999228825,
      "grad_norm": 1.8477568626403809,
      "learning_rate": 9.96845601099389e-05,
      "loss": 0.5316804409027099,
      "memory(GiB)": 57.83,
      "step": 4175,
      "token_acc": 0.9033457249070632,
      "train_speed(iter/s)": 1.510462
    },
    {
      "epoch": 0.17908401525213144,
      "grad_norm": 1.6212821006774902,
      "learning_rate": 9.968380491068705e-05,
      "loss": 0.48261322975158694,
      "memory(GiB)": 57.83,
      "step": 4180,
      "token_acc": 0.9003831417624522,
      "train_speed(iter/s)": 1.510616
    },
    {
      "epoch": 0.1792982305813804,
      "grad_norm": 2.676987409591675,
      "learning_rate": 9.968304881136645e-05,
      "loss": 0.3033310890197754,
      "memory(GiB)": 57.83,
      "step": 4185,
      "token_acc": 0.935251798561151,
      "train_speed(iter/s)": 1.510541
    },
    {
      "epoch": 0.17951244591062937,
      "grad_norm": 0.05654676631093025,
      "learning_rate": 9.968229181199083e-05,
      "loss": 0.36115853786468505,
      "memory(GiB)": 57.83,
      "step": 4190,
      "token_acc": 0.8838709677419355,
      "train_speed(iter/s)": 1.51045
    },
    {
      "epoch": 0.17972666123987832,
      "grad_norm": 2.575967788696289,
      "learning_rate": 9.968153391257388e-05,
      "loss": 0.8765428543090821,
      "memory(GiB)": 57.83,
      "step": 4195,
      "token_acc": 0.8383838383838383,
      "train_speed(iter/s)": 1.510466
    },
    {
      "epoch": 0.1799408765691273,
      "grad_norm": 1.4130916595458984,
      "learning_rate": 9.968077511312934e-05,
      "loss": 0.3437749147415161,
      "memory(GiB)": 57.83,
      "step": 4200,
      "token_acc": 0.9316770186335404,
      "train_speed(iter/s)": 1.510521
    },
    {
      "epoch": 0.18015509189837625,
      "grad_norm": 1.4364113807678223,
      "learning_rate": 9.968001541367096e-05,
      "loss": 0.25515530109405515,
      "memory(GiB)": 57.83,
      "step": 4205,
      "token_acc": 0.948948948948949,
      "train_speed(iter/s)": 1.51067
    },
    {
      "epoch": 0.1803693072276252,
      "grad_norm": 2.408681631088257,
      "learning_rate": 9.967925481421249e-05,
      "loss": 0.4146378517150879,
      "memory(GiB)": 57.83,
      "step": 4210,
      "token_acc": 0.9096573208722741,
      "train_speed(iter/s)": 1.510749
    },
    {
      "epoch": 0.18058352255687418,
      "grad_norm": 1.3611465692520142,
      "learning_rate": 9.967849331476771e-05,
      "loss": 0.3729621171951294,
      "memory(GiB)": 57.83,
      "step": 4215,
      "token_acc": 0.9366197183098591,
      "train_speed(iter/s)": 1.510768
    },
    {
      "epoch": 0.18079773788612313,
      "grad_norm": 2.954491376876831,
      "learning_rate": 9.967773091535045e-05,
      "loss": 0.3815258026123047,
      "memory(GiB)": 57.83,
      "step": 4220,
      "token_acc": 0.9105058365758755,
      "train_speed(iter/s)": 1.510768
    },
    {
      "epoch": 0.18101195321537208,
      "grad_norm": 1.939063549041748,
      "learning_rate": 9.967696761597446e-05,
      "loss": 0.4038283348083496,
      "memory(GiB)": 57.83,
      "step": 4225,
      "token_acc": 0.8952702702702703,
      "train_speed(iter/s)": 1.511113
    },
    {
      "epoch": 0.18122616854462106,
      "grad_norm": 1.4618935585021973,
      "learning_rate": 9.967620341665361e-05,
      "loss": 0.45621585845947266,
      "memory(GiB)": 57.83,
      "step": 4230,
      "token_acc": 0.8997289972899729,
      "train_speed(iter/s)": 1.511056
    },
    {
      "epoch": 0.18144038387387001,
      "grad_norm": 1.9109877347946167,
      "learning_rate": 9.967543831740174e-05,
      "loss": 0.37326204776763916,
      "memory(GiB)": 57.83,
      "step": 4235,
      "token_acc": 0.9090909090909091,
      "train_speed(iter/s)": 1.511017
    },
    {
      "epoch": 0.18165459920311897,
      "grad_norm": 1.9764270782470703,
      "learning_rate": 9.967467231823271e-05,
      "loss": 0.35768589973449705,
      "memory(GiB)": 57.83,
      "step": 4240,
      "token_acc": 0.9149659863945578,
      "train_speed(iter/s)": 1.511046
    },
    {
      "epoch": 0.18186881453236795,
      "grad_norm": 0.5221970081329346,
      "learning_rate": 9.967390541916037e-05,
      "loss": 0.33529441356658934,
      "memory(GiB)": 57.83,
      "step": 4245,
      "token_acc": 0.9164086687306502,
      "train_speed(iter/s)": 1.511119
    },
    {
      "epoch": 0.1820830298616169,
      "grad_norm": 2.359494209289551,
      "learning_rate": 9.967313762019866e-05,
      "loss": 0.244231915473938,
      "memory(GiB)": 57.83,
      "step": 4250,
      "token_acc": 0.9407114624505929,
      "train_speed(iter/s)": 1.511386
    },
    {
      "epoch": 0.18229724519086585,
      "grad_norm": 4.730870723724365,
      "learning_rate": 9.967236892136145e-05,
      "loss": 0.34471845626831055,
      "memory(GiB)": 57.83,
      "step": 4255,
      "token_acc": 0.9283276450511946,
      "train_speed(iter/s)": 1.511515
    },
    {
      "epoch": 0.18251146052011483,
      "grad_norm": 4.2270050048828125,
      "learning_rate": 9.967159932266271e-05,
      "loss": 0.6696194171905517,
      "memory(GiB)": 57.83,
      "step": 4260,
      "token_acc": 0.8442622950819673,
      "train_speed(iter/s)": 1.511571
    },
    {
      "epoch": 0.18272567584936378,
      "grad_norm": 2.962764024734497,
      "learning_rate": 9.967082882411631e-05,
      "loss": 0.3858340740203857,
      "memory(GiB)": 57.83,
      "step": 4265,
      "token_acc": 0.8984375,
      "train_speed(iter/s)": 1.511565
    },
    {
      "epoch": 0.18293989117861273,
      "grad_norm": 5.059712886810303,
      "learning_rate": 9.967005742573627e-05,
      "loss": 0.32372465133666994,
      "memory(GiB)": 57.83,
      "step": 4270,
      "token_acc": 0.9201183431952663,
      "train_speed(iter/s)": 1.511555
    },
    {
      "epoch": 0.1831541065078617,
      "grad_norm": 3.7124290466308594,
      "learning_rate": 9.966928512753656e-05,
      "loss": 0.2611952304840088,
      "memory(GiB)": 57.83,
      "step": 4275,
      "token_acc": 0.9498207885304659,
      "train_speed(iter/s)": 1.511728
    },
    {
      "epoch": 0.18336832183711066,
      "grad_norm": 3.342367649078369,
      "learning_rate": 9.966851192953114e-05,
      "loss": 0.28155856132507323,
      "memory(GiB)": 57.83,
      "step": 4280,
      "token_acc": 0.94,
      "train_speed(iter/s)": 1.511842
    },
    {
      "epoch": 0.18358253716635964,
      "grad_norm": 3.497875452041626,
      "learning_rate": 9.966773783173403e-05,
      "loss": 0.48347039222717286,
      "memory(GiB)": 57.83,
      "step": 4285,
      "token_acc": 0.8900709219858156,
      "train_speed(iter/s)": 1.511998
    },
    {
      "epoch": 0.1837967524956086,
      "grad_norm": 4.6944732666015625,
      "learning_rate": 9.966696283415926e-05,
      "loss": 0.400393009185791,
      "memory(GiB)": 57.83,
      "step": 4290,
      "token_acc": 0.9290540540540541,
      "train_speed(iter/s)": 1.51215
    },
    {
      "epoch": 0.18401096782485754,
      "grad_norm": 1.9652750492095947,
      "learning_rate": 9.966618693682089e-05,
      "loss": 0.16524970531463623,
      "memory(GiB)": 57.83,
      "step": 4295,
      "token_acc": 0.9583333333333334,
      "train_speed(iter/s)": 1.512194
    },
    {
      "epoch": 0.18422518315410652,
      "grad_norm": 3.7286672592163086,
      "learning_rate": 9.966541013973291e-05,
      "loss": 0.41719279289245603,
      "memory(GiB)": 57.83,
      "step": 4300,
      "token_acc": 0.9025974025974026,
      "train_speed(iter/s)": 1.512149
    },
    {
      "epoch": 0.18443939848335547,
      "grad_norm": 1.9621535539627075,
      "learning_rate": 9.966463244290947e-05,
      "loss": 0.5357668399810791,
      "memory(GiB)": 57.83,
      "step": 4305,
      "token_acc": 0.9026548672566371,
      "train_speed(iter/s)": 1.512323
    },
    {
      "epoch": 0.18465361381260442,
      "grad_norm": 4.496447563171387,
      "learning_rate": 9.966385384636461e-05,
      "loss": 0.5068263530731201,
      "memory(GiB)": 57.83,
      "step": 4310,
      "token_acc": 0.9074074074074074,
      "train_speed(iter/s)": 1.512469
    },
    {
      "epoch": 0.1848678291418534,
      "grad_norm": 2.1366496086120605,
      "learning_rate": 9.966307435011245e-05,
      "loss": 0.4369688034057617,
      "memory(GiB)": 57.83,
      "step": 4315,
      "token_acc": 0.9133858267716536,
      "train_speed(iter/s)": 1.51237
    },
    {
      "epoch": 0.18508204447110235,
      "grad_norm": 2.3534796237945557,
      "learning_rate": 9.96622939541671e-05,
      "loss": 0.1094194769859314,
      "memory(GiB)": 57.83,
      "step": 4320,
      "token_acc": 0.9757085020242915,
      "train_speed(iter/s)": 1.512324
    },
    {
      "epoch": 0.1852962598003513,
      "grad_norm": 1.7149937152862549,
      "learning_rate": 9.966151265854273e-05,
      "loss": 0.42652311325073244,
      "memory(GiB)": 57.83,
      "step": 4325,
      "token_acc": 0.9079497907949791,
      "train_speed(iter/s)": 1.512297
    },
    {
      "epoch": 0.18551047512960028,
      "grad_norm": 1.6824856996536255,
      "learning_rate": 9.966073046325346e-05,
      "loss": 0.24296181201934813,
      "memory(GiB)": 57.83,
      "step": 4330,
      "token_acc": 0.9484126984126984,
      "train_speed(iter/s)": 1.512204
    },
    {
      "epoch": 0.18572469045884923,
      "grad_norm": 2.950157403945923,
      "learning_rate": 9.965994736831348e-05,
      "loss": 0.4841159820556641,
      "memory(GiB)": 57.83,
      "step": 4335,
      "token_acc": 0.9125,
      "train_speed(iter/s)": 1.512251
    },
    {
      "epoch": 0.18593890578809819,
      "grad_norm": 3.585350751876831,
      "learning_rate": 9.965916337373696e-05,
      "loss": 0.34171342849731445,
      "memory(GiB)": 57.83,
      "step": 4340,
      "token_acc": 0.9206349206349206,
      "train_speed(iter/s)": 1.512273
    },
    {
      "epoch": 0.18615312111734716,
      "grad_norm": 1.9751213788986206,
      "learning_rate": 9.965837847953812e-05,
      "loss": 0.423966646194458,
      "memory(GiB)": 57.83,
      "step": 4345,
      "token_acc": 0.8934169278996865,
      "train_speed(iter/s)": 1.512222
    },
    {
      "epoch": 0.18636733644659612,
      "grad_norm": 3.2218172550201416,
      "learning_rate": 9.965759268573117e-05,
      "loss": 0.5220558166503906,
      "memory(GiB)": 57.83,
      "step": 4350,
      "token_acc": 0.8962264150943396,
      "train_speed(iter/s)": 1.512138
    },
    {
      "epoch": 0.18658155177584507,
      "grad_norm": 0.8246796131134033,
      "learning_rate": 9.965680599233034e-05,
      "loss": 0.34073150157928467,
      "memory(GiB)": 57.83,
      "step": 4355,
      "token_acc": 0.9228187919463087,
      "train_speed(iter/s)": 1.512107
    },
    {
      "epoch": 0.18679576710509405,
      "grad_norm": 2.5992727279663086,
      "learning_rate": 9.965601839934988e-05,
      "loss": 0.24677376747131347,
      "memory(GiB)": 57.83,
      "step": 4360,
      "token_acc": 0.9331306990881459,
      "train_speed(iter/s)": 1.512095
    },
    {
      "epoch": 0.187009982434343,
      "grad_norm": 3.915160894393921,
      "learning_rate": 9.965522990680406e-05,
      "loss": 0.4797336578369141,
      "memory(GiB)": 57.83,
      "step": 4365,
      "token_acc": 0.8859060402684564,
      "train_speed(iter/s)": 1.512548
    },
    {
      "epoch": 0.18722419776359198,
      "grad_norm": 3.1434991359710693,
      "learning_rate": 9.965444051470721e-05,
      "loss": 0.38097543716430665,
      "memory(GiB)": 57.83,
      "step": 4370,
      "token_acc": 0.9194029850746268,
      "train_speed(iter/s)": 1.512669
    },
    {
      "epoch": 0.18743841309284093,
      "grad_norm": 2.0081093311309814,
      "learning_rate": 9.965365022307356e-05,
      "loss": 0.3304772853851318,
      "memory(GiB)": 57.83,
      "step": 4375,
      "token_acc": 0.943609022556391,
      "train_speed(iter/s)": 1.512568
    },
    {
      "epoch": 0.18765262842208988,
      "grad_norm": 1.8937528133392334,
      "learning_rate": 9.965285903191746e-05,
      "loss": 0.16415760517120362,
      "memory(GiB)": 57.83,
      "step": 4380,
      "token_acc": 0.9572368421052632,
      "train_speed(iter/s)": 1.512557
    },
    {
      "epoch": 0.18786684375133886,
      "grad_norm": 2.0360870361328125,
      "learning_rate": 9.965206694125324e-05,
      "loss": 0.40878992080688475,
      "memory(GiB)": 57.83,
      "step": 4385,
      "token_acc": 0.9346590909090909,
      "train_speed(iter/s)": 1.512573
    },
    {
      "epoch": 0.1880810590805878,
      "grad_norm": 3.3475382328033447,
      "learning_rate": 9.965127395109525e-05,
      "loss": 0.461670446395874,
      "memory(GiB)": 57.83,
      "step": 4390,
      "token_acc": 0.8873720136518771,
      "train_speed(iter/s)": 1.512474
    },
    {
      "epoch": 0.18829527440983676,
      "grad_norm": 1.9903428554534912,
      "learning_rate": 9.965048006145785e-05,
      "loss": 0.6634902954101562,
      "memory(GiB)": 57.83,
      "step": 4395,
      "token_acc": 0.8322147651006712,
      "train_speed(iter/s)": 1.512648
    },
    {
      "epoch": 0.18850948973908574,
      "grad_norm": 4.307553291320801,
      "learning_rate": 9.964968527235544e-05,
      "loss": 0.40163116455078124,
      "memory(GiB)": 57.83,
      "step": 4400,
      "token_acc": 0.9203187250996016,
      "train_speed(iter/s)": 1.512711
    },
    {
      "epoch": 0.1887237050683347,
      "grad_norm": 2.3854851722717285,
      "learning_rate": 9.96488895838024e-05,
      "loss": 0.20213549137115477,
      "memory(GiB)": 57.83,
      "step": 4405,
      "token_acc": 0.9545454545454546,
      "train_speed(iter/s)": 1.512822
    },
    {
      "epoch": 0.18893792039758364,
      "grad_norm": 3.276015520095825,
      "learning_rate": 9.964809299581315e-05,
      "loss": 0.4857827663421631,
      "memory(GiB)": 57.83,
      "step": 4410,
      "token_acc": 0.9053497942386831,
      "train_speed(iter/s)": 1.512917
    },
    {
      "epoch": 0.18915213572683262,
      "grad_norm": 3.4937686920166016,
      "learning_rate": 9.964729550840212e-05,
      "loss": 0.32454349994659426,
      "memory(GiB)": 57.83,
      "step": 4415,
      "token_acc": 0.9394812680115274,
      "train_speed(iter/s)": 1.51286
    },
    {
      "epoch": 0.18936635105608157,
      "grad_norm": 4.493664264678955,
      "learning_rate": 9.964649712158377e-05,
      "loss": 0.545006799697876,
      "memory(GiB)": 57.83,
      "step": 4420,
      "token_acc": 0.9032258064516129,
      "train_speed(iter/s)": 1.512908
    },
    {
      "epoch": 0.18958056638533052,
      "grad_norm": 5.973928928375244,
      "learning_rate": 9.964569783537255e-05,
      "loss": 0.31019368171691897,
      "memory(GiB)": 57.83,
      "step": 4425,
      "token_acc": 0.9206349206349206,
      "train_speed(iter/s)": 1.513157
    },
    {
      "epoch": 0.1897947817145795,
      "grad_norm": 2.399397373199463,
      "learning_rate": 9.964489764978293e-05,
      "loss": 0.4737192153930664,
      "memory(GiB)": 57.83,
      "step": 4430,
      "token_acc": 0.8904494382022472,
      "train_speed(iter/s)": 1.513106
    },
    {
      "epoch": 0.19000899704382845,
      "grad_norm": 3.1527812480926514,
      "learning_rate": 9.964409656482943e-05,
      "loss": 0.2630627632141113,
      "memory(GiB)": 57.83,
      "step": 4435,
      "token_acc": 0.9301587301587302,
      "train_speed(iter/s)": 1.513105
    },
    {
      "epoch": 0.1902232123730774,
      "grad_norm": 5.364129543304443,
      "learning_rate": 9.964329458052655e-05,
      "loss": 0.572676706314087,
      "memory(GiB)": 57.83,
      "step": 4440,
      "token_acc": 0.8729096989966555,
      "train_speed(iter/s)": 1.513282
    },
    {
      "epoch": 0.19043742770232638,
      "grad_norm": 3.5646073818206787,
      "learning_rate": 9.964249169688882e-05,
      "loss": 0.5340888977050782,
      "memory(GiB)": 57.83,
      "step": 4445,
      "token_acc": 0.9035369774919614,
      "train_speed(iter/s)": 1.513351
    },
    {
      "epoch": 0.19065164303157534,
      "grad_norm": 0.7731857895851135,
      "learning_rate": 9.964168791393077e-05,
      "loss": 0.3916285037994385,
      "memory(GiB)": 57.83,
      "step": 4450,
      "token_acc": 0.9138576779026217,
      "train_speed(iter/s)": 1.513714
    },
    {
      "epoch": 0.19086585836082431,
      "grad_norm": 1.2108426094055176,
      "learning_rate": 9.964088323166698e-05,
      "loss": 0.5063121795654297,
      "memory(GiB)": 57.83,
      "step": 4455,
      "token_acc": 0.9002695417789758,
      "train_speed(iter/s)": 1.513657
    },
    {
      "epoch": 0.19108007369007327,
      "grad_norm": 2.339223861694336,
      "learning_rate": 9.964007765011204e-05,
      "loss": 0.24514691829681395,
      "memory(GiB)": 57.83,
      "step": 4460,
      "token_acc": 0.9442379182156134,
      "train_speed(iter/s)": 1.513899
    },
    {
      "epoch": 0.19129428901932222,
      "grad_norm": 1.554818868637085,
      "learning_rate": 9.963927116928051e-05,
      "loss": 0.36054420471191406,
      "memory(GiB)": 57.83,
      "step": 4465,
      "token_acc": 0.9166666666666666,
      "train_speed(iter/s)": 1.513883
    },
    {
      "epoch": 0.1915085043485712,
      "grad_norm": 0.6397516131401062,
      "learning_rate": 9.963846378918702e-05,
      "loss": 0.23652188777923583,
      "memory(GiB)": 57.83,
      "step": 4470,
      "token_acc": 0.9521739130434783,
      "train_speed(iter/s)": 1.513856
    },
    {
      "epoch": 0.19172271967782015,
      "grad_norm": 2.72127628326416,
      "learning_rate": 9.96376555098462e-05,
      "loss": 0.2857382774353027,
      "memory(GiB)": 57.83,
      "step": 4475,
      "token_acc": 0.9522184300341296,
      "train_speed(iter/s)": 1.513792
    },
    {
      "epoch": 0.1919369350070691,
      "grad_norm": 4.367252349853516,
      "learning_rate": 9.963684633127269e-05,
      "loss": 0.38074870109558107,
      "memory(GiB)": 57.83,
      "step": 4480,
      "token_acc": 0.9136904761904762,
      "train_speed(iter/s)": 1.513707
    },
    {
      "epoch": 0.19215115033631808,
      "grad_norm": 1.1047741174697876,
      "learning_rate": 9.963603625348114e-05,
      "loss": 0.38932323455810547,
      "memory(GiB)": 57.83,
      "step": 4485,
      "token_acc": 0.9061488673139159,
      "train_speed(iter/s)": 1.513659
    },
    {
      "epoch": 0.19236536566556703,
      "grad_norm": 2.3582239151000977,
      "learning_rate": 9.963522527648623e-05,
      "loss": 0.35733709335327146,
      "memory(GiB)": 57.83,
      "step": 4490,
      "token_acc": 0.9304029304029304,
      "train_speed(iter/s)": 1.513815
    },
    {
      "epoch": 0.19257958099481598,
      "grad_norm": 3.3467960357666016,
      "learning_rate": 9.963441340030267e-05,
      "loss": 0.5948925971984863,
      "memory(GiB)": 57.83,
      "step": 4495,
      "token_acc": 0.8597560975609756,
      "train_speed(iter/s)": 1.514086
    },
    {
      "epoch": 0.19279379632406496,
      "grad_norm": 3.4974379539489746,
      "learning_rate": 9.963360062494512e-05,
      "loss": 0.5752200603485107,
      "memory(GiB)": 57.83,
      "step": 4500,
      "token_acc": 0.8830188679245283,
      "train_speed(iter/s)": 1.514203
    },
    {
      "epoch": 0.19279379632406496,
      "eval_loss": 2.4901604652404785,
      "eval_runtime": 11.5758,
      "eval_samples_per_second": 8.639,
      "eval_steps_per_second": 8.639,
      "eval_token_acc": 0.430327868852459,
      "step": 4500
    },
    {
      "epoch": 0.1930080116533139,
      "grad_norm": 1.142996072769165,
      "learning_rate": 9.963278695042835e-05,
      "loss": 0.2755196809768677,
      "memory(GiB)": 57.83,
      "step": 4505,
      "token_acc": 0.5657764589515332,
      "train_speed(iter/s)": 1.508263
    },
    {
      "epoch": 0.19322222698256286,
      "grad_norm": 3.735818386077881,
      "learning_rate": 9.963197237676709e-05,
      "loss": 0.33631291389465334,
      "memory(GiB)": 57.83,
      "step": 4510,
      "token_acc": 0.9302325581395349,
      "train_speed(iter/s)": 1.508322
    },
    {
      "epoch": 0.19343644231181184,
      "grad_norm": 0.45004796981811523,
      "learning_rate": 9.963115690397608e-05,
      "loss": 0.4286465644836426,
      "memory(GiB)": 57.83,
      "step": 4515,
      "token_acc": 0.9056603773584906,
      "train_speed(iter/s)": 1.508647
    },
    {
      "epoch": 0.1936506576410608,
      "grad_norm": 2.5010716915130615,
      "learning_rate": 9.96303405320701e-05,
      "loss": 0.38583898544311523,
      "memory(GiB)": 57.83,
      "step": 4520,
      "token_acc": 0.903125,
      "train_speed(iter/s)": 1.508699
    },
    {
      "epoch": 0.19386487297030974,
      "grad_norm": 2.5468995571136475,
      "learning_rate": 9.962952326106396e-05,
      "loss": 0.2166111946105957,
      "memory(GiB)": 57.83,
      "step": 4525,
      "token_acc": 0.9577039274924471,
      "train_speed(iter/s)": 1.50876
    },
    {
      "epoch": 0.19407908829955872,
      "grad_norm": 1.5576945543289185,
      "learning_rate": 9.962870509097245e-05,
      "loss": 0.23021812438964845,
      "memory(GiB)": 57.83,
      "step": 4530,
      "token_acc": 0.9467680608365019,
      "train_speed(iter/s)": 1.50875
    },
    {
      "epoch": 0.19429330362880767,
      "grad_norm": 5.2786335945129395,
      "learning_rate": 9.962788602181039e-05,
      "loss": 0.4434218883514404,
      "memory(GiB)": 57.83,
      "step": 4535,
      "token_acc": 0.9130434782608695,
      "train_speed(iter/s)": 1.50877
    },
    {
      "epoch": 0.19450751895805665,
      "grad_norm": 4.071503162384033,
      "learning_rate": 9.962706605359262e-05,
      "loss": 0.4134981155395508,
      "memory(GiB)": 57.83,
      "step": 4540,
      "token_acc": 0.9175257731958762,
      "train_speed(iter/s)": 1.509098
    },
    {
      "epoch": 0.1947217342873056,
      "grad_norm": 1.4005829095840454,
      "learning_rate": 9.962624518633399e-05,
      "loss": 0.4932573318481445,
      "memory(GiB)": 57.83,
      "step": 4545,
      "token_acc": 0.9071428571428571,
      "train_speed(iter/s)": 1.50929
    },
    {
      "epoch": 0.19493594961655455,
      "grad_norm": 0.8051711916923523,
      "learning_rate": 9.962542342004937e-05,
      "loss": 0.25854485034942626,
      "memory(GiB)": 57.83,
      "step": 4550,
      "token_acc": 0.9477351916376306,
      "train_speed(iter/s)": 1.509286
    },
    {
      "epoch": 0.19515016494580353,
      "grad_norm": 2.243042230606079,
      "learning_rate": 9.962460075475366e-05,
      "loss": 0.33190934658050536,
      "memory(GiB)": 57.83,
      "step": 4555,
      "token_acc": 0.9283276450511946,
      "train_speed(iter/s)": 1.509285
    },
    {
      "epoch": 0.19536438027505248,
      "grad_norm": 2.6498992443084717,
      "learning_rate": 9.962377719046176e-05,
      "loss": 0.3754370450973511,
      "memory(GiB)": 57.83,
      "step": 4560,
      "token_acc": 0.9013605442176871,
      "train_speed(iter/s)": 1.509405
    },
    {
      "epoch": 0.19557859560430144,
      "grad_norm": 3.259633779525757,
      "learning_rate": 9.962295272718858e-05,
      "loss": 0.4798471927642822,
      "memory(GiB)": 57.83,
      "step": 4565,
      "token_acc": 0.8981818181818182,
      "train_speed(iter/s)": 1.509416
    },
    {
      "epoch": 0.19579281093355042,
      "grad_norm": 5.368512153625488,
      "learning_rate": 9.962212736494905e-05,
      "loss": 0.5335381031036377,
      "memory(GiB)": 57.83,
      "step": 4570,
      "token_acc": 0.8977272727272727,
      "train_speed(iter/s)": 1.509427
    },
    {
      "epoch": 0.19600702626279937,
      "grad_norm": 5.794067859649658,
      "learning_rate": 9.962130110375815e-05,
      "loss": 0.42315058708190917,
      "memory(GiB)": 57.83,
      "step": 4575,
      "token_acc": 0.9161290322580645,
      "train_speed(iter/s)": 1.509623
    },
    {
      "epoch": 0.19622124159204832,
      "grad_norm": 1.5571739673614502,
      "learning_rate": 9.962047394363083e-05,
      "loss": 0.5238777160644531,
      "memory(GiB)": 57.83,
      "step": 4580,
      "token_acc": 0.8931750741839762,
      "train_speed(iter/s)": 1.5097
    },
    {
      "epoch": 0.1964354569212973,
      "grad_norm": 2.372591257095337,
      "learning_rate": 9.961964588458207e-05,
      "loss": 0.8912220954895019,
      "memory(GiB)": 57.83,
      "step": 4585,
      "token_acc": 0.8402777777777778,
      "train_speed(iter/s)": 1.509843
    },
    {
      "epoch": 0.19664967225054625,
      "grad_norm": 4.191328048706055,
      "learning_rate": 9.961881692662688e-05,
      "loss": 0.5701568603515625,
      "memory(GiB)": 57.83,
      "step": 4590,
      "token_acc": 0.9152542372881356,
      "train_speed(iter/s)": 1.509976
    },
    {
      "epoch": 0.1968638875797952,
      "grad_norm": 1.2514963150024414,
      "learning_rate": 9.961798706978027e-05,
      "loss": 0.36083695888519285,
      "memory(GiB)": 57.83,
      "step": 4595,
      "token_acc": 0.9285714285714286,
      "train_speed(iter/s)": 1.510002
    },
    {
      "epoch": 0.19707810290904418,
      "grad_norm": 4.413768291473389,
      "learning_rate": 9.96171563140573e-05,
      "loss": 0.24695179462432862,
      "memory(GiB)": 57.83,
      "step": 4600,
      "token_acc": 0.946031746031746,
      "train_speed(iter/s)": 1.509966
    },
    {
      "epoch": 0.19729231823829313,
      "grad_norm": 2.3286967277526855,
      "learning_rate": 9.961632465947297e-05,
      "loss": 0.3880555868148804,
      "memory(GiB)": 57.83,
      "step": 4605,
      "token_acc": 0.9337539432176656,
      "train_speed(iter/s)": 1.510053
    },
    {
      "epoch": 0.19750653356754208,
      "grad_norm": 2.0209157466888428,
      "learning_rate": 9.96154921060424e-05,
      "loss": 0.1740952253341675,
      "memory(GiB)": 57.83,
      "step": 4610,
      "token_acc": 0.9608938547486033,
      "train_speed(iter/s)": 1.510102
    },
    {
      "epoch": 0.19772074889679106,
      "grad_norm": 1.3671507835388184,
      "learning_rate": 9.961465865378063e-05,
      "loss": 0.43624320030212405,
      "memory(GiB)": 57.83,
      "step": 4615,
      "token_acc": 0.900398406374502,
      "train_speed(iter/s)": 1.510211
    },
    {
      "epoch": 0.19793496422604,
      "grad_norm": 4.369647026062012,
      "learning_rate": 9.961382430270278e-05,
      "loss": 0.4634563446044922,
      "memory(GiB)": 57.83,
      "step": 4620,
      "token_acc": 0.9146757679180887,
      "train_speed(iter/s)": 1.510368
    },
    {
      "epoch": 0.198149179555289,
      "grad_norm": 0.9397644400596619,
      "learning_rate": 9.961298905282397e-05,
      "loss": 0.1763014554977417,
      "memory(GiB)": 57.83,
      "step": 4625,
      "token_acc": 0.9580838323353293,
      "train_speed(iter/s)": 1.510456
    },
    {
      "epoch": 0.19836339488453794,
      "grad_norm": 2.5887327194213867,
      "learning_rate": 9.961215290415931e-05,
      "loss": 0.31793875694274903,
      "memory(GiB)": 57.83,
      "step": 4630,
      "token_acc": 0.9377289377289377,
      "train_speed(iter/s)": 1.510442
    },
    {
      "epoch": 0.1985776102137869,
      "grad_norm": 1.5717778205871582,
      "learning_rate": 9.961131585672396e-05,
      "loss": 0.29057703018188474,
      "memory(GiB)": 57.83,
      "step": 4635,
      "token_acc": 0.9432624113475178,
      "train_speed(iter/s)": 1.510487
    },
    {
      "epoch": 0.19879182554303587,
      "grad_norm": 2.337211847305298,
      "learning_rate": 9.961047791053309e-05,
      "loss": 0.3953556060791016,
      "memory(GiB)": 57.83,
      "step": 4640,
      "token_acc": 0.9105691056910569,
      "train_speed(iter/s)": 1.510506
    },
    {
      "epoch": 0.19900604087228482,
      "grad_norm": 3.594511032104492,
      "learning_rate": 9.960963906560188e-05,
      "loss": 0.331571364402771,
      "memory(GiB)": 57.83,
      "step": 4645,
      "token_acc": 0.9225589225589226,
      "train_speed(iter/s)": 1.510401
    },
    {
      "epoch": 0.19922025620153377,
      "grad_norm": 2.704123020172119,
      "learning_rate": 9.96087993219455e-05,
      "loss": 0.29836723804473875,
      "memory(GiB)": 57.83,
      "step": 4650,
      "token_acc": 0.9398496240601504,
      "train_speed(iter/s)": 1.510532
    },
    {
      "epoch": 0.19943447153078275,
      "grad_norm": 5.459751605987549,
      "learning_rate": 9.960795867957921e-05,
      "loss": 0.24799885749816894,
      "memory(GiB)": 57.83,
      "step": 4655,
      "token_acc": 0.944206008583691,
      "train_speed(iter/s)": 1.510529
    },
    {
      "epoch": 0.1996486868600317,
      "grad_norm": 1.7926923036575317,
      "learning_rate": 9.96071171385182e-05,
      "loss": 0.3452512502670288,
      "memory(GiB)": 57.83,
      "step": 4660,
      "token_acc": 0.9313725490196079,
      "train_speed(iter/s)": 1.51073
    },
    {
      "epoch": 0.19986290218928066,
      "grad_norm": 2.4634172916412354,
      "learning_rate": 9.960627469877773e-05,
      "loss": 0.3703289985656738,
      "memory(GiB)": 57.83,
      "step": 4665,
      "token_acc": 0.9219330855018587,
      "train_speed(iter/s)": 1.5108
    },
    {
      "epoch": 0.20007711751852963,
      "grad_norm": 1.9648911952972412,
      "learning_rate": 9.960543136037306e-05,
      "loss": 0.237589693069458,
      "memory(GiB)": 57.83,
      "step": 4670,
      "token_acc": 0.9400749063670412,
      "train_speed(iter/s)": 1.510747
    },
    {
      "epoch": 0.20029133284777859,
      "grad_norm": 6.241596221923828,
      "learning_rate": 9.960458712331946e-05,
      "loss": 0.3864278316497803,
      "memory(GiB)": 57.83,
      "step": 4675,
      "token_acc": 0.9326923076923077,
      "train_speed(iter/s)": 1.510836
    },
    {
      "epoch": 0.20050554817702754,
      "grad_norm": 7.256152153015137,
      "learning_rate": 9.960374198763225e-05,
      "loss": 0.33722898960113523,
      "memory(GiB)": 57.83,
      "step": 4680,
      "token_acc": 0.9421768707482994,
      "train_speed(iter/s)": 1.510875
    },
    {
      "epoch": 0.20071976350627652,
      "grad_norm": 2.9519288539886475,
      "learning_rate": 9.96028959533267e-05,
      "loss": 0.5873964309692383,
      "memory(GiB)": 57.83,
      "step": 4685,
      "token_acc": 0.8827361563517915,
      "train_speed(iter/s)": 1.511071
    },
    {
      "epoch": 0.20093397883552547,
      "grad_norm": 1.1075732707977295,
      "learning_rate": 9.960204902041816e-05,
      "loss": 0.42109146118164065,
      "memory(GiB)": 57.83,
      "step": 4690,
      "token_acc": 0.9175257731958762,
      "train_speed(iter/s)": 1.511159
    },
    {
      "epoch": 0.20114819416477442,
      "grad_norm": 4.078517913818359,
      "learning_rate": 9.960120118892199e-05,
      "loss": 0.4327414035797119,
      "memory(GiB)": 57.83,
      "step": 4695,
      "token_acc": 0.9,
      "train_speed(iter/s)": 1.511233
    },
    {
      "epoch": 0.2013624094940234,
      "grad_norm": 2.834219455718994,
      "learning_rate": 9.960035245885352e-05,
      "loss": 0.48975229263305664,
      "memory(GiB)": 57.83,
      "step": 4700,
      "token_acc": 0.8828571428571429,
      "train_speed(iter/s)": 1.511251
    },
    {
      "epoch": 0.20157662482327235,
      "grad_norm": 2.5123965740203857,
      "learning_rate": 9.959950283022813e-05,
      "loss": 0.41951642036437986,
      "memory(GiB)": 57.83,
      "step": 4705,
      "token_acc": 0.9238410596026491,
      "train_speed(iter/s)": 1.511223
    },
    {
      "epoch": 0.20179084015252133,
      "grad_norm": 2.2336857318878174,
      "learning_rate": 9.959865230306122e-05,
      "loss": 0.4983494281768799,
      "memory(GiB)": 57.83,
      "step": 4710,
      "token_acc": 0.9034749034749034,
      "train_speed(iter/s)": 1.511242
    },
    {
      "epoch": 0.20200505548177028,
      "grad_norm": 2.172847032546997,
      "learning_rate": 9.959780087736821e-05,
      "loss": 0.8044857978820801,
      "memory(GiB)": 57.83,
      "step": 4715,
      "token_acc": 0.8202614379084967,
      "train_speed(iter/s)": 1.511299
    },
    {
      "epoch": 0.20221927081101923,
      "grad_norm": 5.335090637207031,
      "learning_rate": 9.959694855316451e-05,
      "loss": 0.7707884788513184,
      "memory(GiB)": 57.83,
      "step": 4720,
      "token_acc": 0.8698630136986302,
      "train_speed(iter/s)": 1.511195
    },
    {
      "epoch": 0.2024334861402682,
      "grad_norm": 1.963152289390564,
      "learning_rate": 9.959609533046554e-05,
      "loss": 0.4504702568054199,
      "memory(GiB)": 57.83,
      "step": 4725,
      "token_acc": 0.9078947368421053,
      "train_speed(iter/s)": 1.511203
    },
    {
      "epoch": 0.20264770146951716,
      "grad_norm": 2.7646634578704834,
      "learning_rate": 9.959524120928678e-05,
      "loss": 0.43719005584716797,
      "memory(GiB)": 57.83,
      "step": 4730,
      "token_acc": 0.9174917491749175,
      "train_speed(iter/s)": 1.511441
    },
    {
      "epoch": 0.2028619167987661,
      "grad_norm": 0.7673521637916565,
      "learning_rate": 9.959438618964372e-05,
      "loss": 0.32702615261077883,
      "memory(GiB)": 57.83,
      "step": 4735,
      "token_acc": 0.9383561643835616,
      "train_speed(iter/s)": 1.511454
    },
    {
      "epoch": 0.2030761321280151,
      "grad_norm": 3.1478071212768555,
      "learning_rate": 9.959353027155183e-05,
      "loss": 0.31312952041625974,
      "memory(GiB)": 57.83,
      "step": 4740,
      "token_acc": 0.9423076923076923,
      "train_speed(iter/s)": 1.511531
    },
    {
      "epoch": 0.20329034745726404,
      "grad_norm": 3.342362403869629,
      "learning_rate": 9.959267345502661e-05,
      "loss": 0.4484687805175781,
      "memory(GiB)": 57.83,
      "step": 4745,
      "token_acc": 0.8779661016949153,
      "train_speed(iter/s)": 1.511565
    },
    {
      "epoch": 0.203504562786513,
      "grad_norm": 1.811107873916626,
      "learning_rate": 9.959181574008358e-05,
      "loss": 0.5537642478942871,
      "memory(GiB)": 57.83,
      "step": 4750,
      "token_acc": 0.8811188811188811,
      "train_speed(iter/s)": 1.511681
    },
    {
      "epoch": 0.20371877811576197,
      "grad_norm": 2.0825393199920654,
      "learning_rate": 9.95909571267383e-05,
      "loss": 0.3292291879653931,
      "memory(GiB)": 57.83,
      "step": 4755,
      "token_acc": 0.9393939393939394,
      "train_speed(iter/s)": 1.511602
    },
    {
      "epoch": 0.20393299344501092,
      "grad_norm": 2.1439127922058105,
      "learning_rate": 9.95900976150063e-05,
      "loss": 0.286649489402771,
      "memory(GiB)": 57.83,
      "step": 4760,
      "token_acc": 0.9305555555555556,
      "train_speed(iter/s)": 1.511617
    },
    {
      "epoch": 0.20414720877425988,
      "grad_norm": 3.171640396118164,
      "learning_rate": 9.958923720490317e-05,
      "loss": 0.4476619243621826,
      "memory(GiB)": 57.83,
      "step": 4765,
      "token_acc": 0.9112903225806451,
      "train_speed(iter/s)": 1.511584
    },
    {
      "epoch": 0.20436142410350885,
      "grad_norm": 2.0208709239959717,
      "learning_rate": 9.958837589644449e-05,
      "loss": 0.3627376317977905,
      "memory(GiB)": 57.83,
      "step": 4770,
      "token_acc": 0.9285714285714286,
      "train_speed(iter/s)": 1.511479
    },
    {
      "epoch": 0.2045756394327578,
      "grad_norm": 11.23732852935791,
      "learning_rate": 9.958751368964585e-05,
      "loss": 0.5284453392028808,
      "memory(GiB)": 57.83,
      "step": 4775,
      "token_acc": 0.8814229249011858,
      "train_speed(iter/s)": 1.511446
    },
    {
      "epoch": 0.20478985476200676,
      "grad_norm": 4.156768798828125,
      "learning_rate": 9.95866505845229e-05,
      "loss": 0.43798327445983887,
      "memory(GiB)": 57.83,
      "step": 4780,
      "token_acc": 0.9296187683284457,
      "train_speed(iter/s)": 1.511389
    },
    {
      "epoch": 0.20500407009125574,
      "grad_norm": 7.37565803527832,
      "learning_rate": 9.958578658109125e-05,
      "loss": 0.4032639980316162,
      "memory(GiB)": 57.83,
      "step": 4785,
      "token_acc": 0.9061488673139159,
      "train_speed(iter/s)": 1.511643
    },
    {
      "epoch": 0.2052182854205047,
      "grad_norm": 1.2982243299484253,
      "learning_rate": 9.958492167936658e-05,
      "loss": 0.49030346870422364,
      "memory(GiB)": 57.83,
      "step": 4790,
      "token_acc": 0.9,
      "train_speed(iter/s)": 1.51209
    },
    {
      "epoch": 0.20543250074975367,
      "grad_norm": 1.5245417356491089,
      "learning_rate": 9.958405587936452e-05,
      "loss": 0.43039278984069823,
      "memory(GiB)": 57.83,
      "step": 4795,
      "token_acc": 0.9128919860627178,
      "train_speed(iter/s)": 1.512257
    },
    {
      "epoch": 0.20564671607900262,
      "grad_norm": 1.8226889371871948,
      "learning_rate": 9.958318918110077e-05,
      "loss": 0.3904107570648193,
      "memory(GiB)": 57.83,
      "step": 4800,
      "token_acc": 0.921875,
      "train_speed(iter/s)": 1.512323
    },
    {
      "epoch": 0.20586093140825157,
      "grad_norm": 1.377678394317627,
      "learning_rate": 9.958232158459104e-05,
      "loss": 0.2371608018875122,
      "memory(GiB)": 57.83,
      "step": 4805,
      "token_acc": 0.9590163934426229,
      "train_speed(iter/s)": 1.512485
    },
    {
      "epoch": 0.20607514673750055,
      "grad_norm": 1.0462480783462524,
      "learning_rate": 9.958145308985105e-05,
      "loss": 0.24427549839019774,
      "memory(GiB)": 57.83,
      "step": 4810,
      "token_acc": 0.9614243323442137,
      "train_speed(iter/s)": 1.512482
    },
    {
      "epoch": 0.2062893620667495,
      "grad_norm": 2.586125135421753,
      "learning_rate": 9.958058369689651e-05,
      "loss": 0.39127578735351565,
      "memory(GiB)": 57.83,
      "step": 4815,
      "token_acc": 0.9105691056910569,
      "train_speed(iter/s)": 1.512711
    },
    {
      "epoch": 0.20650357739599845,
      "grad_norm": 1.9469267129898071,
      "learning_rate": 9.95797134057432e-05,
      "loss": 0.2736664772033691,
      "memory(GiB)": 57.83,
      "step": 4820,
      "token_acc": 0.934931506849315,
      "train_speed(iter/s)": 1.512761
    },
    {
      "epoch": 0.20671779272524743,
      "grad_norm": 2.6577377319335938,
      "learning_rate": 9.957884221640687e-05,
      "loss": 0.470093822479248,
      "memory(GiB)": 57.83,
      "step": 4825,
      "token_acc": 0.9042553191489362,
      "train_speed(iter/s)": 1.51272
    },
    {
      "epoch": 0.20693200805449638,
      "grad_norm": 2.445228338241577,
      "learning_rate": 9.95779701289033e-05,
      "loss": 0.35083160400390623,
      "memory(GiB)": 57.83,
      "step": 4830,
      "token_acc": 0.911864406779661,
      "train_speed(iter/s)": 1.512789
    },
    {
      "epoch": 0.20714622338374533,
      "grad_norm": 1.2371408939361572,
      "learning_rate": 9.95770971432483e-05,
      "loss": 0.27249836921691895,
      "memory(GiB)": 57.83,
      "step": 4835,
      "token_acc": 0.9566666666666667,
      "train_speed(iter/s)": 1.512879
    },
    {
      "epoch": 0.2073604387129943,
      "grad_norm": 1.713184118270874,
      "learning_rate": 9.957622325945768e-05,
      "loss": 0.45069570541381837,
      "memory(GiB)": 57.83,
      "step": 4840,
      "token_acc": 0.8892405063291139,
      "train_speed(iter/s)": 1.512984
    },
    {
      "epoch": 0.20757465404224326,
      "grad_norm": 5.630221366882324,
      "learning_rate": 9.957534847754726e-05,
      "loss": 0.4888094425201416,
      "memory(GiB)": 57.83,
      "step": 4845,
      "token_acc": 0.8812154696132597,
      "train_speed(iter/s)": 1.512977
    },
    {
      "epoch": 0.2077888693714922,
      "grad_norm": 5.215254306793213,
      "learning_rate": 9.95744727975329e-05,
      "loss": 0.2060638427734375,
      "memory(GiB)": 57.83,
      "step": 4850,
      "token_acc": 0.9563636363636364,
      "train_speed(iter/s)": 1.512908
    },
    {
      "epoch": 0.2080030847007412,
      "grad_norm": 1.721095085144043,
      "learning_rate": 9.957359621943045e-05,
      "loss": 0.43081250190734866,
      "memory(GiB)": 57.83,
      "step": 4855,
      "token_acc": 0.9254901960784314,
      "train_speed(iter/s)": 1.513036
    },
    {
      "epoch": 0.20821730002999014,
      "grad_norm": 2.5146608352661133,
      "learning_rate": 9.957271874325582e-05,
      "loss": 0.3351567506790161,
      "memory(GiB)": 57.83,
      "step": 4860,
      "token_acc": 0.9346938775510204,
      "train_speed(iter/s)": 1.513021
    },
    {
      "epoch": 0.2084315153592391,
      "grad_norm": 0.07776860147714615,
      "learning_rate": 9.957184036902488e-05,
      "loss": 0.16938194036483764,
      "memory(GiB)": 57.83,
      "step": 4865,
      "token_acc": 0.966789667896679,
      "train_speed(iter/s)": 1.513206
    },
    {
      "epoch": 0.20864573068848807,
      "grad_norm": 2.8645334243774414,
      "learning_rate": 9.957096109675354e-05,
      "loss": 0.49625649452209475,
      "memory(GiB)": 57.83,
      "step": 4870,
      "token_acc": 0.8961424332344213,
      "train_speed(iter/s)": 1.513254
    },
    {
      "epoch": 0.20885994601773702,
      "grad_norm": 5.428793907165527,
      "learning_rate": 9.957008092645777e-05,
      "loss": 0.5637722969055176,
      "memory(GiB)": 57.83,
      "step": 4875,
      "token_acc": 0.8603174603174604,
      "train_speed(iter/s)": 1.51325
    },
    {
      "epoch": 0.209074161346986,
      "grad_norm": 1.8897464275360107,
      "learning_rate": 9.956919985815345e-05,
      "loss": 0.4287055015563965,
      "memory(GiB)": 57.83,
      "step": 4880,
      "token_acc": 0.9140893470790378,
      "train_speed(iter/s)": 1.513222
    },
    {
      "epoch": 0.20928837667623496,
      "grad_norm": 3.3509104251861572,
      "learning_rate": 9.956831789185659e-05,
      "loss": 0.41711721420288084,
      "memory(GiB)": 57.83,
      "step": 4885,
      "token_acc": 0.9194139194139194,
      "train_speed(iter/s)": 1.513123
    },
    {
      "epoch": 0.2095025920054839,
      "grad_norm": 10.413986206054688,
      "learning_rate": 9.956743502758315e-05,
      "loss": 0.6830052375793457,
      "memory(GiB)": 57.83,
      "step": 4890,
      "token_acc": 0.8621908127208481,
      "train_speed(iter/s)": 1.513262
    },
    {
      "epoch": 0.20971680733473289,
      "grad_norm": 5.843488693237305,
      "learning_rate": 9.956655126534911e-05,
      "loss": 0.30419929027557374,
      "memory(GiB)": 57.83,
      "step": 4895,
      "token_acc": 0.9386792452830188,
      "train_speed(iter/s)": 1.513247
    },
    {
      "epoch": 0.20993102266398184,
      "grad_norm": 3.5841634273529053,
      "learning_rate": 9.956566660517053e-05,
      "loss": 0.2566602945327759,
      "memory(GiB)": 57.83,
      "step": 4900,
      "token_acc": 0.9375,
      "train_speed(iter/s)": 1.513151
    },
    {
      "epoch": 0.2101452379932308,
      "grad_norm": 2.064887285232544,
      "learning_rate": 9.956478104706337e-05,
      "loss": 0.25555408000946045,
      "memory(GiB)": 57.83,
      "step": 4905,
      "token_acc": 0.9501915708812261,
      "train_speed(iter/s)": 1.513169
    },
    {
      "epoch": 0.21035945332247977,
      "grad_norm": 2.448301315307617,
      "learning_rate": 9.956389459104372e-05,
      "loss": 0.5230181694030762,
      "memory(GiB)": 57.83,
      "step": 4910,
      "token_acc": 0.8971061093247589,
      "train_speed(iter/s)": 1.51335
    },
    {
      "epoch": 0.21057366865172872,
      "grad_norm": 2.210487127304077,
      "learning_rate": 9.956300723712764e-05,
      "loss": 0.21928803920745848,
      "memory(GiB)": 57.83,
      "step": 4915,
      "token_acc": 0.9515151515151515,
      "train_speed(iter/s)": 1.513353
    },
    {
      "epoch": 0.21078788398097767,
      "grad_norm": 2.2405714988708496,
      "learning_rate": 9.956211898533117e-05,
      "loss": 0.2661418914794922,
      "memory(GiB)": 57.83,
      "step": 4920,
      "token_acc": 0.9489795918367347,
      "train_speed(iter/s)": 1.513458
    },
    {
      "epoch": 0.21100209931022665,
      "grad_norm": 0.6359110474586487,
      "learning_rate": 9.956122983567042e-05,
      "loss": 0.3111840009689331,
      "memory(GiB)": 57.83,
      "step": 4925,
      "token_acc": 0.9446064139941691,
      "train_speed(iter/s)": 1.513396
    },
    {
      "epoch": 0.2112163146394756,
      "grad_norm": 3.654067039489746,
      "learning_rate": 9.95603397881615e-05,
      "loss": 0.31097049713134767,
      "memory(GiB)": 57.83,
      "step": 4930,
      "token_acc": 0.9394904458598726,
      "train_speed(iter/s)": 1.513354
    },
    {
      "epoch": 0.21143052996872455,
      "grad_norm": 1.3887428045272827,
      "learning_rate": 9.955944884282055e-05,
      "loss": 0.37289867401123045,
      "memory(GiB)": 57.83,
      "step": 4935,
      "token_acc": 0.9166666666666666,
      "train_speed(iter/s)": 1.513319
    },
    {
      "epoch": 0.21164474529797353,
      "grad_norm": 2.798880100250244,
      "learning_rate": 9.955855699966368e-05,
      "loss": 0.20896704196929933,
      "memory(GiB)": 57.83,
      "step": 4940,
      "token_acc": 0.9402985074626866,
      "train_speed(iter/s)": 1.513308
    },
    {
      "epoch": 0.21185896062722248,
      "grad_norm": 4.069769859313965,
      "learning_rate": 9.955766425870706e-05,
      "loss": 0.22878079414367675,
      "memory(GiB)": 57.83,
      "step": 4945,
      "token_acc": 0.9543726235741445,
      "train_speed(iter/s)": 1.513286
    },
    {
      "epoch": 0.21207317595647143,
      "grad_norm": 2.969782590866089,
      "learning_rate": 9.955677061996687e-05,
      "loss": 0.597745132446289,
      "memory(GiB)": 57.83,
      "step": 4950,
      "token_acc": 0.8760330578512396,
      "train_speed(iter/s)": 1.513297
    },
    {
      "epoch": 0.2122873912857204,
      "grad_norm": 4.079213619232178,
      "learning_rate": 9.955587608345928e-05,
      "loss": 0.15140869617462158,
      "memory(GiB)": 57.83,
      "step": 4955,
      "token_acc": 0.9736070381231672,
      "train_speed(iter/s)": 1.513389
    },
    {
      "epoch": 0.21250160661496936,
      "grad_norm": 0.27629417181015015,
      "learning_rate": 9.955498064920052e-05,
      "loss": 0.3577702283859253,
      "memory(GiB)": 57.83,
      "step": 4960,
      "token_acc": 0.9391304347826087,
      "train_speed(iter/s)": 1.513457
    },
    {
      "epoch": 0.21271582194421834,
      "grad_norm": 1.8692045211791992,
      "learning_rate": 9.955408431720681e-05,
      "loss": 0.16478021144866944,
      "memory(GiB)": 57.83,
      "step": 4965,
      "token_acc": 0.9614035087719298,
      "train_speed(iter/s)": 1.513468
    },
    {
      "epoch": 0.2129300372734673,
      "grad_norm": 4.027073860168457,
      "learning_rate": 9.955318708749435e-05,
      "loss": 0.39575934410095215,
      "memory(GiB)": 57.83,
      "step": 4970,
      "token_acc": 0.9256198347107438,
      "train_speed(iter/s)": 1.51353
    },
    {
      "epoch": 0.21314425260271624,
      "grad_norm": 1.9805190563201904,
      "learning_rate": 9.955228896007944e-05,
      "loss": 0.27673914432525637,
      "memory(GiB)": 57.83,
      "step": 4975,
      "token_acc": 0.9330543933054394,
      "train_speed(iter/s)": 1.513666
    },
    {
      "epoch": 0.21335846793196522,
      "grad_norm": 2.718724489212036,
      "learning_rate": 9.955138993497832e-05,
      "loss": 0.5144206523895264,
      "memory(GiB)": 57.83,
      "step": 4980,
      "token_acc": 0.8870431893687708,
      "train_speed(iter/s)": 1.513723
    },
    {
      "epoch": 0.21357268326121417,
      "grad_norm": 2.1398208141326904,
      "learning_rate": 9.95504900122073e-05,
      "loss": 0.5672962665557861,
      "memory(GiB)": 57.83,
      "step": 4985,
      "token_acc": 0.8917910447761194,
      "train_speed(iter/s)": 1.513904
    },
    {
      "epoch": 0.21378689859046313,
      "grad_norm": 4.935085296630859,
      "learning_rate": 9.954958919178265e-05,
      "loss": 0.2340653657913208,
      "memory(GiB)": 57.83,
      "step": 4990,
      "token_acc": 0.947565543071161,
      "train_speed(iter/s)": 1.51379
    },
    {
      "epoch": 0.2140011139197121,
      "grad_norm": 2.009493589401245,
      "learning_rate": 9.954868747372074e-05,
      "loss": 0.33717391490936277,
      "memory(GiB)": 57.83,
      "step": 4995,
      "token_acc": 0.9307692307692308,
      "train_speed(iter/s)": 1.513802
    },
    {
      "epoch": 0.21421532924896106,
      "grad_norm": 6.309597492218018,
      "learning_rate": 9.954778485803787e-05,
      "loss": 0.8703402519226074,
      "memory(GiB)": 57.83,
      "step": 5000,
      "token_acc": 0.8315018315018315,
      "train_speed(iter/s)": 1.513713
    },
    {
      "epoch": 0.21421532924896106,
      "eval_loss": 2.675294876098633,
      "eval_runtime": 10.0949,
      "eval_samples_per_second": 9.906,
      "eval_steps_per_second": 9.906,
      "eval_token_acc": 0.43375174337517436,
      "step": 5000
    },
    {
      "epoch": 0.21442954457821,
      "grad_norm": 5.3748250007629395,
      "learning_rate": 9.954688134475038e-05,
      "loss": 0.6445850372314453,
      "memory(GiB)": 57.83,
      "step": 5005,
      "token_acc": 0.5448136958710977,
      "train_speed(iter/s)": 1.508916
    },
    {
      "epoch": 0.214643759907459,
      "grad_norm": 2.3254969120025635,
      "learning_rate": 9.954597693387467e-05,
      "loss": 0.3609497547149658,
      "memory(GiB)": 57.83,
      "step": 5010,
      "token_acc": 0.9370860927152318,
      "train_speed(iter/s)": 1.508905
    },
    {
      "epoch": 0.21485797523670794,
      "grad_norm": 2.387509822845459,
      "learning_rate": 9.95450716254271e-05,
      "loss": 0.32059264183044434,
      "memory(GiB)": 57.83,
      "step": 5015,
      "token_acc": 0.9351145038167938,
      "train_speed(iter/s)": 1.509035
    },
    {
      "epoch": 0.2150721905659569,
      "grad_norm": 3.7847301959991455,
      "learning_rate": 9.954416541942408e-05,
      "loss": 0.6047274589538574,
      "memory(GiB)": 57.83,
      "step": 5020,
      "token_acc": 0.8809523809523809,
      "train_speed(iter/s)": 1.509218
    },
    {
      "epoch": 0.21528640589520587,
      "grad_norm": 0.8641358613967896,
      "learning_rate": 9.954325831588204e-05,
      "loss": 0.338655686378479,
      "memory(GiB)": 57.83,
      "step": 5025,
      "token_acc": 0.9127272727272727,
      "train_speed(iter/s)": 1.509236
    },
    {
      "epoch": 0.21550062122445482,
      "grad_norm": 4.458874225616455,
      "learning_rate": 9.954235031481739e-05,
      "loss": 0.4009979724884033,
      "memory(GiB)": 57.83,
      "step": 5030,
      "token_acc": 0.8949152542372881,
      "train_speed(iter/s)": 1.509388
    },
    {
      "epoch": 0.21571483655370377,
      "grad_norm": 3.2322330474853516,
      "learning_rate": 9.95414414162466e-05,
      "loss": 0.3125793218612671,
      "memory(GiB)": 57.83,
      "step": 5035,
      "token_acc": 0.9368131868131868,
      "train_speed(iter/s)": 1.509367
    },
    {
      "epoch": 0.21592905188295275,
      "grad_norm": 7.080336093902588,
      "learning_rate": 9.95405316201861e-05,
      "loss": 0.16540060043334961,
      "memory(GiB)": 57.83,
      "step": 5040,
      "token_acc": 0.956140350877193,
      "train_speed(iter/s)": 1.509439
    },
    {
      "epoch": 0.2161432672122017,
      "grad_norm": 0.4881705641746521,
      "learning_rate": 9.953962092665243e-05,
      "loss": 0.7544567108154296,
      "memory(GiB)": 57.83,
      "step": 5045,
      "token_acc": 0.8542372881355932,
      "train_speed(iter/s)": 1.509627
    },
    {
      "epoch": 0.21635748254145068,
      "grad_norm": 4.409151077270508,
      "learning_rate": 9.953870933566203e-05,
      "loss": 0.3059594392776489,
      "memory(GiB)": 57.83,
      "step": 5050,
      "token_acc": 0.9375,
      "train_speed(iter/s)": 1.5097
    },
    {
      "epoch": 0.21657169787069963,
      "grad_norm": 2.3916854858398438,
      "learning_rate": 9.953779684723146e-05,
      "loss": 0.3484335899353027,
      "memory(GiB)": 57.83,
      "step": 5055,
      "token_acc": 0.9176029962546817,
      "train_speed(iter/s)": 1.509796
    },
    {
      "epoch": 0.21678591319994858,
      "grad_norm": 4.1899309158325195,
      "learning_rate": 9.953688346137722e-05,
      "loss": 0.1644739031791687,
      "memory(GiB)": 57.83,
      "step": 5060,
      "token_acc": 0.9551724137931035,
      "train_speed(iter/s)": 1.509893
    },
    {
      "epoch": 0.21700012852919756,
      "grad_norm": 2.385327100753784,
      "learning_rate": 9.953596917811586e-05,
      "loss": 0.3313437461853027,
      "memory(GiB)": 57.83,
      "step": 5065,
      "token_acc": 0.9184952978056427,
      "train_speed(iter/s)": 1.509873
    },
    {
      "epoch": 0.2172143438584465,
      "grad_norm": 0.4071959853172302,
      "learning_rate": 9.953505399746395e-05,
      "loss": 0.17530163526535034,
      "memory(GiB)": 57.83,
      "step": 5070,
      "token_acc": 0.9538461538461539,
      "train_speed(iter/s)": 1.509903
    },
    {
      "epoch": 0.21742855918769546,
      "grad_norm": 2.0987300872802734,
      "learning_rate": 9.953413791943808e-05,
      "loss": 0.3404728412628174,
      "memory(GiB)": 57.83,
      "step": 5075,
      "token_acc": 0.9245901639344263,
      "train_speed(iter/s)": 1.509921
    },
    {
      "epoch": 0.21764277451694444,
      "grad_norm": 2.720486640930176,
      "learning_rate": 9.953322094405482e-05,
      "loss": 0.20528907775878907,
      "memory(GiB)": 57.83,
      "step": 5080,
      "token_acc": 0.9646302250803859,
      "train_speed(iter/s)": 1.509986
    },
    {
      "epoch": 0.2178569898461934,
      "grad_norm": 2.70168399810791,
      "learning_rate": 9.953230307133082e-05,
      "loss": 0.31954638957977294,
      "memory(GiB)": 57.83,
      "step": 5085,
      "token_acc": 0.9040590405904059,
      "train_speed(iter/s)": 1.51007
    },
    {
      "epoch": 0.21807120517544235,
      "grad_norm": 1.6465981006622314,
      "learning_rate": 9.953138430128266e-05,
      "loss": 0.2926447868347168,
      "memory(GiB)": 57.83,
      "step": 5090,
      "token_acc": 0.9393939393939394,
      "train_speed(iter/s)": 1.51009
    },
    {
      "epoch": 0.21828542050469132,
      "grad_norm": 2.1916592121124268,
      "learning_rate": 9.953046463392703e-05,
      "loss": 0.5407407760620118,
      "memory(GiB)": 57.83,
      "step": 5095,
      "token_acc": 0.890625,
      "train_speed(iter/s)": 1.510061
    },
    {
      "epoch": 0.21849963583394028,
      "grad_norm": 2.6684317588806152,
      "learning_rate": 9.952954406928056e-05,
      "loss": 0.548837947845459,
      "memory(GiB)": 57.83,
      "step": 5100,
      "token_acc": 0.8914956011730205,
      "train_speed(iter/s)": 1.509996
    },
    {
      "epoch": 0.21871385116318923,
      "grad_norm": 5.903489112854004,
      "learning_rate": 9.952862260735993e-05,
      "loss": 0.3151813268661499,
      "memory(GiB)": 57.83,
      "step": 5105,
      "token_acc": 0.9290540540540541,
      "train_speed(iter/s)": 1.510063
    },
    {
      "epoch": 0.2189280664924382,
      "grad_norm": 1.8895301818847656,
      "learning_rate": 9.952770024818185e-05,
      "loss": 0.349971866607666,
      "memory(GiB)": 57.83,
      "step": 5110,
      "token_acc": 0.9239130434782609,
      "train_speed(iter/s)": 1.510125
    },
    {
      "epoch": 0.21914228182168716,
      "grad_norm": 4.979547023773193,
      "learning_rate": 9.952677699176301e-05,
      "loss": 0.47161126136779785,
      "memory(GiB)": 57.83,
      "step": 5115,
      "token_acc": 0.927710843373494,
      "train_speed(iter/s)": 1.510141
    },
    {
      "epoch": 0.2193564971509361,
      "grad_norm": 2.4540181159973145,
      "learning_rate": 9.952585283812015e-05,
      "loss": 0.5155468940734863,
      "memory(GiB)": 57.83,
      "step": 5120,
      "token_acc": 0.891156462585034,
      "train_speed(iter/s)": 1.510277
    },
    {
      "epoch": 0.2195707124801851,
      "grad_norm": 3.4255449771881104,
      "learning_rate": 9.952492778727e-05,
      "loss": 0.5414937496185303,
      "memory(GiB)": 57.83,
      "step": 5125,
      "token_acc": 0.8741258741258742,
      "train_speed(iter/s)": 1.510302
    },
    {
      "epoch": 0.21978492780943404,
      "grad_norm": 1.277795672416687,
      "learning_rate": 9.952400183922933e-05,
      "loss": 0.2674806356430054,
      "memory(GiB)": 57.83,
      "step": 5130,
      "token_acc": 0.9450171821305842,
      "train_speed(iter/s)": 1.510252
    },
    {
      "epoch": 0.21999914313868302,
      "grad_norm": 3.1024203300476074,
      "learning_rate": 9.952307499401492e-05,
      "loss": 0.4587207317352295,
      "memory(GiB)": 57.83,
      "step": 5135,
      "token_acc": 0.9115384615384615,
      "train_speed(iter/s)": 1.510196
    },
    {
      "epoch": 0.22021335846793197,
      "grad_norm": 1.8915486335754395,
      "learning_rate": 9.952214725164355e-05,
      "loss": 0.3985797882080078,
      "memory(GiB)": 57.83,
      "step": 5140,
      "token_acc": 0.9084507042253521,
      "train_speed(iter/s)": 1.510218
    },
    {
      "epoch": 0.22042757379718092,
      "grad_norm": 4.540233612060547,
      "learning_rate": 9.952121861213202e-05,
      "loss": 0.3215314865112305,
      "memory(GiB)": 57.83,
      "step": 5145,
      "token_acc": 0.9295302013422819,
      "train_speed(iter/s)": 1.510308
    },
    {
      "epoch": 0.2206417891264299,
      "grad_norm": 3.0935866832733154,
      "learning_rate": 9.952028907549715e-05,
      "loss": 0.4107221126556396,
      "memory(GiB)": 57.83,
      "step": 5150,
      "token_acc": 0.9233870967741935,
      "train_speed(iter/s)": 1.510337
    },
    {
      "epoch": 0.22085600445567885,
      "grad_norm": 3.1413145065307617,
      "learning_rate": 9.951935864175581e-05,
      "loss": 0.5816514015197753,
      "memory(GiB)": 57.83,
      "step": 5155,
      "token_acc": 0.8780487804878049,
      "train_speed(iter/s)": 1.510519
    },
    {
      "epoch": 0.2210702197849278,
      "grad_norm": 3.121201515197754,
      "learning_rate": 9.951842731092482e-05,
      "loss": 0.39647445678710935,
      "memory(GiB)": 57.83,
      "step": 5160,
      "token_acc": 0.9063545150501672,
      "train_speed(iter/s)": 1.510542
    },
    {
      "epoch": 0.22128443511417678,
      "grad_norm": 2.1440978050231934,
      "learning_rate": 9.951749508302106e-05,
      "loss": 0.30507454872131345,
      "memory(GiB)": 57.83,
      "step": 5165,
      "token_acc": 0.9299191374663073,
      "train_speed(iter/s)": 1.510545
    },
    {
      "epoch": 0.22149865044342573,
      "grad_norm": 3.7923879623413086,
      "learning_rate": 9.951656195806145e-05,
      "loss": 0.28185625076293946,
      "memory(GiB)": 57.83,
      "step": 5170,
      "token_acc": 0.9342560553633218,
      "train_speed(iter/s)": 1.510549
    },
    {
      "epoch": 0.22171286577267468,
      "grad_norm": 2.7128372192382812,
      "learning_rate": 9.951562793606286e-05,
      "loss": 0.29074954986572266,
      "memory(GiB)": 57.83,
      "step": 5175,
      "token_acc": 0.9473684210526315,
      "train_speed(iter/s)": 1.510602
    },
    {
      "epoch": 0.22192708110192366,
      "grad_norm": 1.5737231969833374,
      "learning_rate": 9.951469301704221e-05,
      "loss": 0.29572305679321287,
      "memory(GiB)": 57.83,
      "step": 5180,
      "token_acc": 0.9285714285714286,
      "train_speed(iter/s)": 1.51059
    },
    {
      "epoch": 0.2221412964311726,
      "grad_norm": 3.7051002979278564,
      "learning_rate": 9.951375720101645e-05,
      "loss": 0.43220534324646,
      "memory(GiB)": 57.83,
      "step": 5185,
      "token_acc": 0.8888888888888888,
      "train_speed(iter/s)": 1.510546
    },
    {
      "epoch": 0.22235551176042156,
      "grad_norm": 4.30851411819458,
      "learning_rate": 9.951282048800255e-05,
      "loss": 0.3695226669311523,
      "memory(GiB)": 57.83,
      "step": 5190,
      "token_acc": 0.9176954732510288,
      "train_speed(iter/s)": 1.510835
    },
    {
      "epoch": 0.22256972708967054,
      "grad_norm": 4.588947296142578,
      "learning_rate": 9.951188287801744e-05,
      "loss": 0.16680512428283692,
      "memory(GiB)": 57.83,
      "step": 5195,
      "token_acc": 0.961038961038961,
      "train_speed(iter/s)": 1.51088
    },
    {
      "epoch": 0.2227839424189195,
      "grad_norm": 2.491497278213501,
      "learning_rate": 9.951094437107812e-05,
      "loss": 0.373577356338501,
      "memory(GiB)": 57.83,
      "step": 5200,
      "token_acc": 0.9291338582677166,
      "train_speed(iter/s)": 1.510948
    },
    {
      "epoch": 0.22299815774816845,
      "grad_norm": 1.0047444105148315,
      "learning_rate": 9.951000496720162e-05,
      "loss": 0.2987224817276001,
      "memory(GiB)": 57.83,
      "step": 5205,
      "token_acc": 0.9469964664310954,
      "train_speed(iter/s)": 1.510943
    },
    {
      "epoch": 0.22321237307741743,
      "grad_norm": 0.6407073140144348,
      "learning_rate": 9.950906466640493e-05,
      "loss": 0.08725958466529846,
      "memory(GiB)": 57.83,
      "step": 5210,
      "token_acc": 0.9703389830508474,
      "train_speed(iter/s)": 1.510841
    },
    {
      "epoch": 0.22342658840666638,
      "grad_norm": 3.1565215587615967,
      "learning_rate": 9.950812346870508e-05,
      "loss": 0.34076144695281985,
      "memory(GiB)": 57.83,
      "step": 5215,
      "token_acc": 0.9291044776119403,
      "train_speed(iter/s)": 1.510908
    },
    {
      "epoch": 0.22364080373591536,
      "grad_norm": 1.9211819171905518,
      "learning_rate": 9.950718137411913e-05,
      "loss": 0.31551053524017336,
      "memory(GiB)": 57.83,
      "step": 5220,
      "token_acc": 0.9425587467362925,
      "train_speed(iter/s)": 1.511015
    },
    {
      "epoch": 0.2238550190651643,
      "grad_norm": 4.720902919769287,
      "learning_rate": 9.950623838266415e-05,
      "loss": 0.457856559753418,
      "memory(GiB)": 57.83,
      "step": 5225,
      "token_acc": 0.8590785907859079,
      "train_speed(iter/s)": 1.511158
    },
    {
      "epoch": 0.22406923439441326,
      "grad_norm": 4.120320796966553,
      "learning_rate": 9.950529449435722e-05,
      "loss": 0.34027581214904784,
      "memory(GiB)": 57.83,
      "step": 5230,
      "token_acc": 0.9135338345864662,
      "train_speed(iter/s)": 1.511135
    },
    {
      "epoch": 0.22428344972366224,
      "grad_norm": 4.801386833190918,
      "learning_rate": 9.950434970921544e-05,
      "loss": 0.6660527229309082,
      "memory(GiB)": 57.83,
      "step": 5235,
      "token_acc": 0.8771331058020477,
      "train_speed(iter/s)": 1.511102
    },
    {
      "epoch": 0.2244976650529112,
      "grad_norm": 0.04696160554885864,
      "learning_rate": 9.950340402725596e-05,
      "loss": 0.35281646251678467,
      "memory(GiB)": 57.83,
      "step": 5240,
      "token_acc": 0.9188191881918819,
      "train_speed(iter/s)": 1.511111
    },
    {
      "epoch": 0.22471188038216014,
      "grad_norm": 1.169893503189087,
      "learning_rate": 9.950245744849583e-05,
      "loss": 0.31919116973876954,
      "memory(GiB)": 57.83,
      "step": 5245,
      "token_acc": 0.932475884244373,
      "train_speed(iter/s)": 1.511167
    },
    {
      "epoch": 0.22492609571140912,
      "grad_norm": 2.2136363983154297,
      "learning_rate": 9.950150997295226e-05,
      "loss": 0.35060093402862547,
      "memory(GiB)": 57.83,
      "step": 5250,
      "token_acc": 0.9409937888198758,
      "train_speed(iter/s)": 1.51112
    },
    {
      "epoch": 0.22514031104065807,
      "grad_norm": 1.971913456916809,
      "learning_rate": 9.950056160064242e-05,
      "loss": 0.26299481391906737,
      "memory(GiB)": 57.83,
      "step": 5255,
      "token_acc": 0.9346153846153846,
      "train_speed(iter/s)": 1.511047
    },
    {
      "epoch": 0.22535452636990702,
      "grad_norm": 3.196977376937866,
      "learning_rate": 9.949961233158346e-05,
      "loss": 0.40016889572143555,
      "memory(GiB)": 57.83,
      "step": 5260,
      "token_acc": 0.899641577060932,
      "train_speed(iter/s)": 1.511109
    },
    {
      "epoch": 0.225568741699156,
      "grad_norm": 4.53477668762207,
      "learning_rate": 9.949866216579258e-05,
      "loss": 0.4731039524078369,
      "memory(GiB)": 57.83,
      "step": 5265,
      "token_acc": 0.8763636363636363,
      "train_speed(iter/s)": 1.511188
    },
    {
      "epoch": 0.22578295702840495,
      "grad_norm": 1.6615723371505737,
      "learning_rate": 9.949771110328701e-05,
      "loss": 0.30172224044799806,
      "memory(GiB)": 57.83,
      "step": 5270,
      "token_acc": 0.9207920792079208,
      "train_speed(iter/s)": 1.511325
    },
    {
      "epoch": 0.2259971723576539,
      "grad_norm": 0.7929633855819702,
      "learning_rate": 9.949675914408396e-05,
      "loss": 0.22967841625213622,
      "memory(GiB)": 57.83,
      "step": 5275,
      "token_acc": 0.9337979094076655,
      "train_speed(iter/s)": 1.511481
    },
    {
      "epoch": 0.22621138768690288,
      "grad_norm": 2.9471487998962402,
      "learning_rate": 9.94958062882007e-05,
      "loss": 0.6572547912597656,
      "memory(GiB)": 57.83,
      "step": 5280,
      "token_acc": 0.8546712802768166,
      "train_speed(iter/s)": 1.511526
    },
    {
      "epoch": 0.22642560301615183,
      "grad_norm": 3.272223711013794,
      "learning_rate": 9.949485253565446e-05,
      "loss": 0.34925568103790283,
      "memory(GiB)": 57.83,
      "step": 5285,
      "token_acc": 0.918918918918919,
      "train_speed(iter/s)": 1.511583
    },
    {
      "epoch": 0.22663981834540078,
      "grad_norm": 4.095811367034912,
      "learning_rate": 9.949389788646257e-05,
      "loss": 0.5195927619934082,
      "memory(GiB)": 57.83,
      "step": 5290,
      "token_acc": 0.8765822784810127,
      "train_speed(iter/s)": 1.511747
    },
    {
      "epoch": 0.22685403367464976,
      "grad_norm": 5.455345153808594,
      "learning_rate": 9.949294234064226e-05,
      "loss": 0.34976768493652344,
      "memory(GiB)": 57.83,
      "step": 5295,
      "token_acc": 0.916955017301038,
      "train_speed(iter/s)": 1.511749
    },
    {
      "epoch": 0.22706824900389871,
      "grad_norm": 10.6483793258667,
      "learning_rate": 9.949198589821089e-05,
      "loss": 0.41425271034240724,
      "memory(GiB)": 57.83,
      "step": 5300,
      "token_acc": 0.9076923076923077,
      "train_speed(iter/s)": 1.511684
    },
    {
      "epoch": 0.2272824643331477,
      "grad_norm": 6.114230155944824,
      "learning_rate": 9.949102855918575e-05,
      "loss": 0.560057258605957,
      "memory(GiB)": 57.83,
      "step": 5305,
      "token_acc": 0.8844984802431611,
      "train_speed(iter/s)": 1.511763
    },
    {
      "epoch": 0.22749667966239664,
      "grad_norm": 6.928066730499268,
      "learning_rate": 9.949007032358422e-05,
      "loss": 0.7222353458404541,
      "memory(GiB)": 57.83,
      "step": 5310,
      "token_acc": 0.8270676691729323,
      "train_speed(iter/s)": 1.511987
    },
    {
      "epoch": 0.2277108949916456,
      "grad_norm": 3.095252275466919,
      "learning_rate": 9.948911119142363e-05,
      "loss": 0.1847246527671814,
      "memory(GiB)": 57.83,
      "step": 5315,
      "token_acc": 0.964516129032258,
      "train_speed(iter/s)": 1.511976
    },
    {
      "epoch": 0.22792511032089458,
      "grad_norm": 0.5363704562187195,
      "learning_rate": 9.948815116272137e-05,
      "loss": 0.3391617774963379,
      "memory(GiB)": 57.83,
      "step": 5320,
      "token_acc": 0.922077922077922,
      "train_speed(iter/s)": 1.512032
    },
    {
      "epoch": 0.22813932565014353,
      "grad_norm": 1.4267855882644653,
      "learning_rate": 9.948719023749482e-05,
      "loss": 0.31775732040405275,
      "memory(GiB)": 57.83,
      "step": 5325,
      "token_acc": 0.9278996865203761,
      "train_speed(iter/s)": 1.51207
    },
    {
      "epoch": 0.22835354097939248,
      "grad_norm": 4.1315765380859375,
      "learning_rate": 9.94862284157614e-05,
      "loss": 0.39707896709442136,
      "memory(GiB)": 57.83,
      "step": 5330,
      "token_acc": 0.9074074074074074,
      "train_speed(iter/s)": 1.512011
    },
    {
      "epoch": 0.22856775630864146,
      "grad_norm": 2.8201379776000977,
      "learning_rate": 9.948526569753853e-05,
      "loss": 0.32093186378479005,
      "memory(GiB)": 57.83,
      "step": 5335,
      "token_acc": 0.9136690647482014,
      "train_speed(iter/s)": 1.51203
    },
    {
      "epoch": 0.2287819716378904,
      "grad_norm": 3.2525758743286133,
      "learning_rate": 9.948430208284366e-05,
      "loss": 0.5865938663482666,
      "memory(GiB)": 57.83,
      "step": 5340,
      "token_acc": 0.8888888888888888,
      "train_speed(iter/s)": 1.512157
    },
    {
      "epoch": 0.22899618696713936,
      "grad_norm": 8.997231483459473,
      "learning_rate": 9.948333757169424e-05,
      "loss": 0.3157021999359131,
      "memory(GiB)": 57.83,
      "step": 5345,
      "token_acc": 0.9024390243902439,
      "train_speed(iter/s)": 1.512288
    },
    {
      "epoch": 0.22921040229638834,
      "grad_norm": 2.3136560916900635,
      "learning_rate": 9.948237216410771e-05,
      "loss": 0.42507014274597166,
      "memory(GiB)": 57.83,
      "step": 5350,
      "token_acc": 0.9305135951661632,
      "train_speed(iter/s)": 1.512369
    },
    {
      "epoch": 0.2294246176256373,
      "grad_norm": 4.124917984008789,
      "learning_rate": 9.948140586010162e-05,
      "loss": 0.31001982688903806,
      "memory(GiB)": 57.83,
      "step": 5355,
      "token_acc": 0.9463087248322147,
      "train_speed(iter/s)": 1.512448
    },
    {
      "epoch": 0.22963883295488624,
      "grad_norm": 3.143082857131958,
      "learning_rate": 9.948043865969344e-05,
      "loss": 0.7840003967285156,
      "memory(GiB)": 57.83,
      "step": 5360,
      "token_acc": 0.8561151079136691,
      "train_speed(iter/s)": 1.512538
    },
    {
      "epoch": 0.22985304828413522,
      "grad_norm": 4.400677680969238,
      "learning_rate": 9.94794705629007e-05,
      "loss": 0.38356771469116213,
      "memory(GiB)": 57.83,
      "step": 5365,
      "token_acc": 0.8971631205673759,
      "train_speed(iter/s)": 1.512624
    },
    {
      "epoch": 0.23006726361338417,
      "grad_norm": 2.106562376022339,
      "learning_rate": 9.947850156974093e-05,
      "loss": 0.2474466323852539,
      "memory(GiB)": 57.83,
      "step": 5370,
      "token_acc": 0.9358974358974359,
      "train_speed(iter/s)": 1.512742
    },
    {
      "epoch": 0.23028147894263312,
      "grad_norm": 2.5826547145843506,
      "learning_rate": 9.947753168023168e-05,
      "loss": 0.1397019624710083,
      "memory(GiB)": 57.83,
      "step": 5375,
      "token_acc": 0.9624060150375939,
      "train_speed(iter/s)": 1.512711
    },
    {
      "epoch": 0.2304956942718821,
      "grad_norm": 2.5432941913604736,
      "learning_rate": 9.947656089439055e-05,
      "loss": 0.44531831741333006,
      "memory(GiB)": 57.83,
      "step": 5380,
      "token_acc": 0.8992248062015504,
      "train_speed(iter/s)": 1.512806
    },
    {
      "epoch": 0.23070990960113105,
      "grad_norm": 1.2170251607894897,
      "learning_rate": 9.947558921223509e-05,
      "loss": 0.2659919023513794,
      "memory(GiB)": 57.83,
      "step": 5385,
      "token_acc": 0.933579335793358,
      "train_speed(iter/s)": 1.512882
    },
    {
      "epoch": 0.23092412493038003,
      "grad_norm": 2.260990619659424,
      "learning_rate": 9.947461663378292e-05,
      "loss": 0.268111252784729,
      "memory(GiB)": 57.83,
      "step": 5390,
      "token_acc": 0.9421221864951769,
      "train_speed(iter/s)": 1.512845
    },
    {
      "epoch": 0.23113834025962898,
      "grad_norm": 1.892275094985962,
      "learning_rate": 9.947364315905168e-05,
      "loss": 0.3372787952423096,
      "memory(GiB)": 57.83,
      "step": 5395,
      "token_acc": 0.9398496240601504,
      "train_speed(iter/s)": 1.512899
    },
    {
      "epoch": 0.23135255558887793,
      "grad_norm": 3.1225664615631104,
      "learning_rate": 9.947266878805896e-05,
      "loss": 0.487364387512207,
      "memory(GiB)": 57.83,
      "step": 5400,
      "token_acc": 0.8860294117647058,
      "train_speed(iter/s)": 1.512891
    },
    {
      "epoch": 0.2315667709181269,
      "grad_norm": 5.693371295928955,
      "learning_rate": 9.947169352082245e-05,
      "loss": 0.3013789176940918,
      "memory(GiB)": 57.83,
      "step": 5405,
      "token_acc": 0.9385964912280702,
      "train_speed(iter/s)": 1.512806
    },
    {
      "epoch": 0.23178098624737586,
      "grad_norm": 3.890791416168213,
      "learning_rate": 9.94707173573598e-05,
      "loss": 0.41579318046569824,
      "memory(GiB)": 57.83,
      "step": 5410,
      "token_acc": 0.9057239057239057,
      "train_speed(iter/s)": 1.512745
    },
    {
      "epoch": 0.23199520157662482,
      "grad_norm": 4.252648830413818,
      "learning_rate": 9.946974029768869e-05,
      "loss": 0.36588201522827146,
      "memory(GiB)": 57.83,
      "step": 5415,
      "token_acc": 0.9381107491856677,
      "train_speed(iter/s)": 1.512677
    },
    {
      "epoch": 0.2322094169058738,
      "grad_norm": 1.296302318572998,
      "learning_rate": 9.946876234182682e-05,
      "loss": 0.3545071601867676,
      "memory(GiB)": 57.83,
      "step": 5420,
      "token_acc": 0.9197707736389685,
      "train_speed(iter/s)": 1.512705
    },
    {
      "epoch": 0.23242363223512275,
      "grad_norm": 2.104524612426758,
      "learning_rate": 9.946778348979193e-05,
      "loss": 0.30637402534484864,
      "memory(GiB)": 57.83,
      "step": 5425,
      "token_acc": 0.9405204460966543,
      "train_speed(iter/s)": 1.512849
    },
    {
      "epoch": 0.2326378475643717,
      "grad_norm": 2.365469217300415,
      "learning_rate": 9.946680374160174e-05,
      "loss": 0.24333884716033935,
      "memory(GiB)": 57.83,
      "step": 5430,
      "token_acc": 0.9428571428571428,
      "train_speed(iter/s)": 1.513084
    },
    {
      "epoch": 0.23285206289362068,
      "grad_norm": 3.718229055404663,
      "learning_rate": 9.9465823097274e-05,
      "loss": 0.6619626045227051,
      "memory(GiB)": 57.83,
      "step": 5435,
      "token_acc": 0.878125,
      "train_speed(iter/s)": 1.513219
    },
    {
      "epoch": 0.23306627822286963,
      "grad_norm": 0.0720333531498909,
      "learning_rate": 9.946484155682646e-05,
      "loss": 0.15011850595474244,
      "memory(GiB)": 57.83,
      "step": 5440,
      "token_acc": 0.9644268774703557,
      "train_speed(iter/s)": 1.513348
    },
    {
      "epoch": 0.23328049355211858,
      "grad_norm": 2.354560613632202,
      "learning_rate": 9.946385912027692e-05,
      "loss": 0.4197212219238281,
      "memory(GiB)": 57.83,
      "step": 5445,
      "token_acc": 0.927536231884058,
      "train_speed(iter/s)": 1.513425
    },
    {
      "epoch": 0.23349470888136756,
      "grad_norm": 2.438321590423584,
      "learning_rate": 9.946287578764318e-05,
      "loss": 0.2757858753204346,
      "memory(GiB)": 57.83,
      "step": 5450,
      "token_acc": 0.926829268292683,
      "train_speed(iter/s)": 1.51355
    },
    {
      "epoch": 0.2337089242106165,
      "grad_norm": 4.068017959594727,
      "learning_rate": 9.946189155894303e-05,
      "loss": 0.5945128917694091,
      "memory(GiB)": 57.83,
      "step": 5455,
      "token_acc": 0.8908450704225352,
      "train_speed(iter/s)": 1.513794
    },
    {
      "epoch": 0.23392313953986546,
      "grad_norm": 8.71953010559082,
      "learning_rate": 9.946090643419432e-05,
      "loss": 0.5110372066497803,
      "memory(GiB)": 57.83,
      "step": 5460,
      "token_acc": 0.8885245901639345,
      "train_speed(iter/s)": 1.513743
    },
    {
      "epoch": 0.23413735486911444,
      "grad_norm": 3.1455283164978027,
      "learning_rate": 9.945992041341489e-05,
      "loss": 0.2318859577178955,
      "memory(GiB)": 57.83,
      "step": 5465,
      "token_acc": 0.9438943894389439,
      "train_speed(iter/s)": 1.513782
    },
    {
      "epoch": 0.2343515701983634,
      "grad_norm": 5.344240188598633,
      "learning_rate": 9.945893349662261e-05,
      "loss": 0.29605422019958494,
      "memory(GiB)": 57.83,
      "step": 5470,
      "token_acc": 0.951048951048951,
      "train_speed(iter/s)": 1.513706
    },
    {
      "epoch": 0.23456578552761237,
      "grad_norm": 2.3667197227478027,
      "learning_rate": 9.945794568383534e-05,
      "loss": 0.43529467582702636,
      "memory(GiB)": 57.83,
      "step": 5475,
      "token_acc": 0.9078947368421053,
      "train_speed(iter/s)": 1.513873
    },
    {
      "epoch": 0.23478000085686132,
      "grad_norm": 2.797313690185547,
      "learning_rate": 9.945695697507101e-05,
      "loss": 0.3729333639144897,
      "memory(GiB)": 57.83,
      "step": 5480,
      "token_acc": 0.9055374592833876,
      "train_speed(iter/s)": 1.514044
    },
    {
      "epoch": 0.23499421618611027,
      "grad_norm": 0.5955561995506287,
      "learning_rate": 9.945596737034748e-05,
      "loss": 0.1907772421836853,
      "memory(GiB)": 57.83,
      "step": 5485,
      "token_acc": 0.9518518518518518,
      "train_speed(iter/s)": 1.514244
    },
    {
      "epoch": 0.23520843151535925,
      "grad_norm": 4.504206657409668,
      "learning_rate": 9.945497686968273e-05,
      "loss": 0.25456700325012205,
      "memory(GiB)": 57.83,
      "step": 5490,
      "token_acc": 0.9401408450704225,
      "train_speed(iter/s)": 1.514363
    },
    {
      "epoch": 0.2354226468446082,
      "grad_norm": 2.924765110015869,
      "learning_rate": 9.945398547309467e-05,
      "loss": 0.5754400253295898,
      "memory(GiB)": 57.83,
      "step": 5495,
      "token_acc": 0.8952095808383234,
      "train_speed(iter/s)": 1.514374
    },
    {
      "epoch": 0.23563686217385715,
      "grad_norm": 2.1713807582855225,
      "learning_rate": 9.945299318060129e-05,
      "loss": 0.4750159740447998,
      "memory(GiB)": 57.83,
      "step": 5500,
      "token_acc": 0.8837209302325582,
      "train_speed(iter/s)": 1.514276
    },
    {
      "epoch": 0.23563686217385715,
      "eval_loss": 2.562443494796753,
      "eval_runtime": 12.8283,
      "eval_samples_per_second": 7.795,
      "eval_steps_per_second": 7.795,
      "eval_token_acc": 0.43073047858942065,
      "step": 5500
    },
    {
      "epoch": 0.23585107750310613,
      "grad_norm": 2.902458906173706,
      "learning_rate": 9.945199999222053e-05,
      "loss": 0.48052301406860354,
      "memory(GiB)": 57.83,
      "step": 5505,
      "token_acc": 0.5678793256433008,
      "train_speed(iter/s)": 1.508463
    },
    {
      "epoch": 0.23606529283235508,
      "grad_norm": 2.8268961906433105,
      "learning_rate": 9.945100590797041e-05,
      "loss": 0.17994810342788697,
      "memory(GiB)": 57.83,
      "step": 5510,
      "token_acc": 0.9567901234567902,
      "train_speed(iter/s)": 1.508501
    },
    {
      "epoch": 0.23627950816160403,
      "grad_norm": 0.816490888595581,
      "learning_rate": 9.945001092786893e-05,
      "loss": 0.2698091506958008,
      "memory(GiB)": 57.83,
      "step": 5515,
      "token_acc": 0.9482758620689655,
      "train_speed(iter/s)": 1.508505
    },
    {
      "epoch": 0.23649372349085301,
      "grad_norm": 0.8489622473716736,
      "learning_rate": 9.944901505193411e-05,
      "loss": 0.661684513092041,
      "memory(GiB)": 57.83,
      "step": 5520,
      "token_acc": 0.8794326241134752,
      "train_speed(iter/s)": 1.508536
    },
    {
      "epoch": 0.23670793882010197,
      "grad_norm": 0.5180311799049377,
      "learning_rate": 9.9448018280184e-05,
      "loss": 0.35913102626800536,
      "memory(GiB)": 57.83,
      "step": 5525,
      "token_acc": 0.9320754716981132,
      "train_speed(iter/s)": 1.50853
    },
    {
      "epoch": 0.23692215414935092,
      "grad_norm": 3.2442588806152344,
      "learning_rate": 9.944702061263664e-05,
      "loss": 0.4688821792602539,
      "memory(GiB)": 57.83,
      "step": 5530,
      "token_acc": 0.89,
      "train_speed(iter/s)": 1.508531
    },
    {
      "epoch": 0.2371363694785999,
      "grad_norm": 4.331479072570801,
      "learning_rate": 9.944602204931013e-05,
      "loss": 0.2763098955154419,
      "memory(GiB)": 57.83,
      "step": 5535,
      "token_acc": 0.9272727272727272,
      "train_speed(iter/s)": 1.508649
    },
    {
      "epoch": 0.23735058480784885,
      "grad_norm": 2.188426971435547,
      "learning_rate": 9.944502259022255e-05,
      "loss": 0.3549040794372559,
      "memory(GiB)": 57.83,
      "step": 5540,
      "token_acc": 0.9258064516129032,
      "train_speed(iter/s)": 1.508717
    },
    {
      "epoch": 0.2375648001370978,
      "grad_norm": 2.1943702697753906,
      "learning_rate": 9.944402223539199e-05,
      "loss": 0.2968748092651367,
      "memory(GiB)": 57.83,
      "step": 5545,
      "token_acc": 0.9288537549407114,
      "train_speed(iter/s)": 1.508711
    },
    {
      "epoch": 0.23777901546634678,
      "grad_norm": 3.432704448699951,
      "learning_rate": 9.944302098483659e-05,
      "loss": 0.6237911224365235,
      "memory(GiB)": 57.83,
      "step": 5550,
      "token_acc": 0.9,
      "train_speed(iter/s)": 1.508806
    },
    {
      "epoch": 0.23799323079559573,
      "grad_norm": 2.660513401031494,
      "learning_rate": 9.944201883857449e-05,
      "loss": 0.4590492248535156,
      "memory(GiB)": 57.83,
      "step": 5555,
      "token_acc": 0.9133858267716536,
      "train_speed(iter/s)": 1.508811
    },
    {
      "epoch": 0.2382074461248447,
      "grad_norm": 2.025660276412964,
      "learning_rate": 9.944101579662381e-05,
      "loss": 0.3621434211730957,
      "memory(GiB)": 57.83,
      "step": 5560,
      "token_acc": 0.9177631578947368,
      "train_speed(iter/s)": 1.508813
    },
    {
      "epoch": 0.23842166145409366,
      "grad_norm": 3.6760523319244385,
      "learning_rate": 9.944001185900278e-05,
      "loss": 0.4041323184967041,
      "memory(GiB)": 57.83,
      "step": 5565,
      "token_acc": 0.9129032258064517,
      "train_speed(iter/s)": 1.50883
    },
    {
      "epoch": 0.2386358767833426,
      "grad_norm": 3.9829273223876953,
      "learning_rate": 9.943900702572955e-05,
      "loss": 0.46795082092285156,
      "memory(GiB)": 57.83,
      "step": 5570,
      "token_acc": 0.9133858267716536,
      "train_speed(iter/s)": 1.508845
    },
    {
      "epoch": 0.2388500921125916,
      "grad_norm": 2.142476797103882,
      "learning_rate": 9.943800129682233e-05,
      "loss": 0.18385369777679444,
      "memory(GiB)": 57.83,
      "step": 5575,
      "token_acc": 0.9615384615384616,
      "train_speed(iter/s)": 1.508919
    },
    {
      "epoch": 0.23906430744184054,
      "grad_norm": 3.0535292625427246,
      "learning_rate": 9.943699467229935e-05,
      "loss": 0.43838043212890626,
      "memory(GiB)": 57.83,
      "step": 5580,
      "token_acc": 0.8892307692307693,
      "train_speed(iter/s)": 1.508961
    },
    {
      "epoch": 0.2392785227710895,
      "grad_norm": 1.9316390752792358,
      "learning_rate": 9.94359871521788e-05,
      "loss": 0.296180272102356,
      "memory(GiB)": 57.83,
      "step": 5585,
      "token_acc": 0.9256756756756757,
      "train_speed(iter/s)": 1.50894
    },
    {
      "epoch": 0.23949273810033847,
      "grad_norm": 3.25744366645813,
      "learning_rate": 9.9434978736479e-05,
      "loss": 0.5372891426086426,
      "memory(GiB)": 57.83,
      "step": 5590,
      "token_acc": 0.8873994638069705,
      "train_speed(iter/s)": 1.508991
    },
    {
      "epoch": 0.23970695342958742,
      "grad_norm": 3.0241265296936035,
      "learning_rate": 9.943396942521818e-05,
      "loss": 0.6532359600067139,
      "memory(GiB)": 57.83,
      "step": 5595,
      "token_acc": 0.8585858585858586,
      "train_speed(iter/s)": 1.508983
    },
    {
      "epoch": 0.23992116875883637,
      "grad_norm": 2.477348804473877,
      "learning_rate": 9.943295921841462e-05,
      "loss": 0.3205082654953003,
      "memory(GiB)": 57.83,
      "step": 5600,
      "token_acc": 0.9319148936170213,
      "train_speed(iter/s)": 1.509086
    },
    {
      "epoch": 0.24013538408808535,
      "grad_norm": 5.338733196258545,
      "learning_rate": 9.943194811608665e-05,
      "loss": 0.39242305755615237,
      "memory(GiB)": 57.83,
      "step": 5605,
      "token_acc": 0.8969072164948454,
      "train_speed(iter/s)": 1.509217
    },
    {
      "epoch": 0.2403495994173343,
      "grad_norm": 1.4055964946746826,
      "learning_rate": 9.943093611825256e-05,
      "loss": 0.25687711238861083,
      "memory(GiB)": 57.83,
      "step": 5610,
      "token_acc": 0.9283489096573209,
      "train_speed(iter/s)": 1.509254
    },
    {
      "epoch": 0.24056381474658325,
      "grad_norm": 1.6302130222320557,
      "learning_rate": 9.942992322493068e-05,
      "loss": 0.28458738327026367,
      "memory(GiB)": 57.83,
      "step": 5615,
      "token_acc": 0.934984520123839,
      "train_speed(iter/s)": 1.509267
    },
    {
      "epoch": 0.24077803007583223,
      "grad_norm": 1.93070387840271,
      "learning_rate": 9.942890943613939e-05,
      "loss": 0.4355536937713623,
      "memory(GiB)": 57.83,
      "step": 5620,
      "token_acc": 0.8926174496644296,
      "train_speed(iter/s)": 1.509262
    },
    {
      "epoch": 0.24099224540508118,
      "grad_norm": 2.4056849479675293,
      "learning_rate": 9.942789475189704e-05,
      "loss": 0.36538283824920653,
      "memory(GiB)": 57.83,
      "step": 5625,
      "token_acc": 0.9090909090909091,
      "train_speed(iter/s)": 1.509423
    },
    {
      "epoch": 0.24120646073433014,
      "grad_norm": 1.8821650743484497,
      "learning_rate": 9.9426879172222e-05,
      "loss": 0.295369029045105,
      "memory(GiB)": 57.83,
      "step": 5630,
      "token_acc": 0.9550561797752809,
      "train_speed(iter/s)": 1.509475
    },
    {
      "epoch": 0.24142067606357911,
      "grad_norm": 2.8725759983062744,
      "learning_rate": 9.942586269713268e-05,
      "loss": 0.3583981037139893,
      "memory(GiB)": 57.83,
      "step": 5635,
      "token_acc": 0.9253246753246753,
      "train_speed(iter/s)": 1.509592
    },
    {
      "epoch": 0.24163489139282807,
      "grad_norm": 2.384573221206665,
      "learning_rate": 9.942484532664748e-05,
      "loss": 0.24067537784576415,
      "memory(GiB)": 57.83,
      "step": 5640,
      "token_acc": 0.9555555555555556,
      "train_speed(iter/s)": 1.509604
    },
    {
      "epoch": 0.24184910672207705,
      "grad_norm": 0.7550927996635437,
      "learning_rate": 9.942382706078486e-05,
      "loss": 0.39318921566009524,
      "memory(GiB)": 57.83,
      "step": 5645,
      "token_acc": 0.9228723404255319,
      "train_speed(iter/s)": 1.509697
    },
    {
      "epoch": 0.242063322051326,
      "grad_norm": 5.150145053863525,
      "learning_rate": 9.942280789956325e-05,
      "loss": 0.6348095893859863,
      "memory(GiB)": 57.83,
      "step": 5650,
      "token_acc": 0.8562300319488818,
      "train_speed(iter/s)": 1.510071
    },
    {
      "epoch": 0.24227753738057495,
      "grad_norm": 2.3230161666870117,
      "learning_rate": 9.942178784300109e-05,
      "loss": 0.4688426494598389,
      "memory(GiB)": 57.83,
      "step": 5655,
      "token_acc": 0.8980263157894737,
      "train_speed(iter/s)": 1.510062
    },
    {
      "epoch": 0.24249175270982393,
      "grad_norm": 1.9243894815444946,
      "learning_rate": 9.94207668911169e-05,
      "loss": 0.3555765151977539,
      "memory(GiB)": 57.83,
      "step": 5660,
      "token_acc": 0.925,
      "train_speed(iter/s)": 1.510038
    },
    {
      "epoch": 0.24270596803907288,
      "grad_norm": 1.6827868223190308,
      "learning_rate": 9.941974504392916e-05,
      "loss": 0.5181779861450195,
      "memory(GiB)": 57.83,
      "step": 5665,
      "token_acc": 0.884375,
      "train_speed(iter/s)": 1.510111
    },
    {
      "epoch": 0.24292018336832183,
      "grad_norm": 4.821323871612549,
      "learning_rate": 9.941872230145637e-05,
      "loss": 0.2714211463928223,
      "memory(GiB)": 57.83,
      "step": 5670,
      "token_acc": 0.933852140077821,
      "train_speed(iter/s)": 1.510096
    },
    {
      "epoch": 0.2431343986975708,
      "grad_norm": 1.8279590606689453,
      "learning_rate": 9.941769866371708e-05,
      "loss": 0.4186239719390869,
      "memory(GiB)": 57.83,
      "step": 5675,
      "token_acc": 0.9097744360902256,
      "train_speed(iter/s)": 1.510038
    },
    {
      "epoch": 0.24334861402681976,
      "grad_norm": 3.8753745555877686,
      "learning_rate": 9.94166741307298e-05,
      "loss": 0.4857377529144287,
      "memory(GiB)": 57.83,
      "step": 5680,
      "token_acc": 0.8932384341637011,
      "train_speed(iter/s)": 1.510033
    },
    {
      "epoch": 0.2435628293560687,
      "grad_norm": 2.4755523204803467,
      "learning_rate": 9.941564870251312e-05,
      "loss": 0.37761640548706055,
      "memory(GiB)": 57.83,
      "step": 5685,
      "token_acc": 0.9104938271604939,
      "train_speed(iter/s)": 1.50998
    },
    {
      "epoch": 0.2437770446853177,
      "grad_norm": 0.06999822705984116,
      "learning_rate": 9.941462237908561e-05,
      "loss": 0.5130293369293213,
      "memory(GiB)": 57.83,
      "step": 5690,
      "token_acc": 0.8519553072625698,
      "train_speed(iter/s)": 1.510115
    },
    {
      "epoch": 0.24399126001456664,
      "grad_norm": 0.5665782690048218,
      "learning_rate": 9.941359516046586e-05,
      "loss": 0.23040213584899902,
      "memory(GiB)": 57.83,
      "step": 5695,
      "token_acc": 0.9658119658119658,
      "train_speed(iter/s)": 1.510301
    },
    {
      "epoch": 0.2442054753438156,
      "grad_norm": 3.069899797439575,
      "learning_rate": 9.941256704667249e-05,
      "loss": 0.4131608009338379,
      "memory(GiB)": 57.83,
      "step": 5700,
      "token_acc": 0.8982456140350877,
      "train_speed(iter/s)": 1.51041
    },
    {
      "epoch": 0.24441969067306457,
      "grad_norm": 0.2548567056655884,
      "learning_rate": 9.941153803772412e-05,
      "loss": 0.43128304481506347,
      "memory(GiB)": 57.83,
      "step": 5705,
      "token_acc": 0.9191919191919192,
      "train_speed(iter/s)": 1.510359
    },
    {
      "epoch": 0.24463390600231352,
      "grad_norm": 1.8311127424240112,
      "learning_rate": 9.941050813363937e-05,
      "loss": 0.2588664054870605,
      "memory(GiB)": 57.83,
      "step": 5710,
      "token_acc": 0.9448275862068966,
      "train_speed(iter/s)": 1.510323
    },
    {
      "epoch": 0.24484812133156247,
      "grad_norm": 1.2560371160507202,
      "learning_rate": 9.94094773344369e-05,
      "loss": 0.24485232830047607,
      "memory(GiB)": 57.83,
      "step": 5715,
      "token_acc": 0.9389830508474576,
      "train_speed(iter/s)": 1.510252
    },
    {
      "epoch": 0.24506233666081145,
      "grad_norm": 2.676442861557007,
      "learning_rate": 9.940844564013542e-05,
      "loss": 0.5758266448974609,
      "memory(GiB)": 57.83,
      "step": 5720,
      "token_acc": 0.8983050847457628,
      "train_speed(iter/s)": 1.510476
    },
    {
      "epoch": 0.2452765519900604,
      "grad_norm": 2.0763230323791504,
      "learning_rate": 9.94074130507536e-05,
      "loss": 0.28690686225891116,
      "memory(GiB)": 57.83,
      "step": 5725,
      "token_acc": 0.9337748344370861,
      "train_speed(iter/s)": 1.510511
    },
    {
      "epoch": 0.24549076731930938,
      "grad_norm": 2.919618606567383,
      "learning_rate": 9.940637956631013e-05,
      "loss": 0.3124751329421997,
      "memory(GiB)": 57.83,
      "step": 5730,
      "token_acc": 0.9310344827586207,
      "train_speed(iter/s)": 1.510559
    },
    {
      "epoch": 0.24570498264855833,
      "grad_norm": 2.847921848297119,
      "learning_rate": 9.940534518682376e-05,
      "loss": 0.516752052307129,
      "memory(GiB)": 57.83,
      "step": 5735,
      "token_acc": 0.8755020080321285,
      "train_speed(iter/s)": 1.51061
    },
    {
      "epoch": 0.24591919797780729,
      "grad_norm": 2.555818557739258,
      "learning_rate": 9.940430991231322e-05,
      "loss": 0.5540193557739258,
      "memory(GiB)": 57.83,
      "step": 5740,
      "token_acc": 0.8907849829351536,
      "train_speed(iter/s)": 1.510695
    },
    {
      "epoch": 0.24613341330705626,
      "grad_norm": 1.632690191268921,
      "learning_rate": 9.940327374279725e-05,
      "loss": 0.4879893779754639,
      "memory(GiB)": 57.83,
      "step": 5745,
      "token_acc": 0.8832116788321168,
      "train_speed(iter/s)": 1.510805
    },
    {
      "epoch": 0.24634762863630522,
      "grad_norm": 1.7316380739212036,
      "learning_rate": 9.940223667829465e-05,
      "loss": 0.530971622467041,
      "memory(GiB)": 57.83,
      "step": 5750,
      "token_acc": 0.8951310861423221,
      "train_speed(iter/s)": 1.510739
    },
    {
      "epoch": 0.24656184396555417,
      "grad_norm": 2.4903275966644287,
      "learning_rate": 9.940119871882416e-05,
      "loss": 0.14352777004241943,
      "memory(GiB)": 57.83,
      "step": 5755,
      "token_acc": 0.9579288025889967,
      "train_speed(iter/s)": 1.510707
    },
    {
      "epoch": 0.24677605929480315,
      "grad_norm": 4.270592212677002,
      "learning_rate": 9.940015986440464e-05,
      "loss": 0.6464215755462647,
      "memory(GiB)": 57.83,
      "step": 5760,
      "token_acc": 0.8766233766233766,
      "train_speed(iter/s)": 1.510813
    },
    {
      "epoch": 0.2469902746240521,
      "grad_norm": 2.738633155822754,
      "learning_rate": 9.939912011505487e-05,
      "loss": 0.472660493850708,
      "memory(GiB)": 57.83,
      "step": 5765,
      "token_acc": 0.9185185185185185,
      "train_speed(iter/s)": 1.51089
    },
    {
      "epoch": 0.24720448995330105,
      "grad_norm": 3.218891143798828,
      "learning_rate": 9.939807947079369e-05,
      "loss": 0.43903179168701173,
      "memory(GiB)": 57.83,
      "step": 5770,
      "token_acc": 0.8935483870967742,
      "train_speed(iter/s)": 1.510977
    },
    {
      "epoch": 0.24741870528255003,
      "grad_norm": 0.3646969795227051,
      "learning_rate": 9.939703793163998e-05,
      "loss": 0.3428455352783203,
      "memory(GiB)": 57.83,
      "step": 5775,
      "token_acc": 0.9043824701195219,
      "train_speed(iter/s)": 1.511012
    },
    {
      "epoch": 0.24763292061179898,
      "grad_norm": 0.6202086806297302,
      "learning_rate": 9.939599549761259e-05,
      "loss": 0.3049603462219238,
      "memory(GiB)": 57.83,
      "step": 5780,
      "token_acc": 0.9407114624505929,
      "train_speed(iter/s)": 1.511018
    },
    {
      "epoch": 0.24784713594104793,
      "grad_norm": 4.795821189880371,
      "learning_rate": 9.939495216873038e-05,
      "loss": 0.511199951171875,
      "memory(GiB)": 57.83,
      "step": 5785,
      "token_acc": 0.8851963746223565,
      "train_speed(iter/s)": 1.511197
    },
    {
      "epoch": 0.2480613512702969,
      "grad_norm": 2.1931283473968506,
      "learning_rate": 9.93939079450123e-05,
      "loss": 0.2502848386764526,
      "memory(GiB)": 57.83,
      "step": 5790,
      "token_acc": 0.9423728813559322,
      "train_speed(iter/s)": 1.511291
    },
    {
      "epoch": 0.24827556659954586,
      "grad_norm": 6.448992729187012,
      "learning_rate": 9.939286282647723e-05,
      "loss": 0.7362441539764404,
      "memory(GiB)": 57.83,
      "step": 5795,
      "token_acc": 0.8734567901234568,
      "train_speed(iter/s)": 1.511247
    },
    {
      "epoch": 0.2484897819287948,
      "grad_norm": 1.588218092918396,
      "learning_rate": 9.939181681314411e-05,
      "loss": 0.34906442165374757,
      "memory(GiB)": 57.83,
      "step": 5800,
      "token_acc": 0.909375,
      "train_speed(iter/s)": 1.511251
    },
    {
      "epoch": 0.2487039972580438,
      "grad_norm": 1.735824465751648,
      "learning_rate": 9.939076990503191e-05,
      "loss": 0.3238396167755127,
      "memory(GiB)": 57.83,
      "step": 5805,
      "token_acc": 0.939622641509434,
      "train_speed(iter/s)": 1.511411
    },
    {
      "epoch": 0.24891821258729274,
      "grad_norm": 3.8043572902679443,
      "learning_rate": 9.938972210215958e-05,
      "loss": 0.37131457328796386,
      "memory(GiB)": 57.83,
      "step": 5810,
      "token_acc": 0.9214876033057852,
      "train_speed(iter/s)": 1.511541
    },
    {
      "epoch": 0.24913242791654172,
      "grad_norm": 2.871668577194214,
      "learning_rate": 9.938867340454609e-05,
      "loss": 0.513247013092041,
      "memory(GiB)": 57.83,
      "step": 5815,
      "token_acc": 0.8976109215017065,
      "train_speed(iter/s)": 1.511612
    },
    {
      "epoch": 0.24934664324579067,
      "grad_norm": 0.849934458732605,
      "learning_rate": 9.938762381221047e-05,
      "loss": 0.2646330833435059,
      "memory(GiB)": 57.83,
      "step": 5820,
      "token_acc": 0.9308176100628931,
      "train_speed(iter/s)": 1.511641
    },
    {
      "epoch": 0.24956085857503962,
      "grad_norm": 3.6498281955718994,
      "learning_rate": 9.93865733251717e-05,
      "loss": 0.33288071155548093,
      "memory(GiB)": 57.83,
      "step": 5825,
      "token_acc": 0.9466192170818505,
      "train_speed(iter/s)": 1.511772
    },
    {
      "epoch": 0.2497750739042886,
      "grad_norm": 3.247913360595703,
      "learning_rate": 9.938552194344883e-05,
      "loss": 0.4855414867401123,
      "memory(GiB)": 57.83,
      "step": 5830,
      "token_acc": 0.8885448916408669,
      "train_speed(iter/s)": 1.51171
    },
    {
      "epoch": 0.24998928923353755,
      "grad_norm": 2.1371631622314453,
      "learning_rate": 9.93844696670609e-05,
      "loss": 0.5209426879882812,
      "memory(GiB)": 57.83,
      "step": 5835,
      "token_acc": 0.887459807073955,
      "train_speed(iter/s)": 1.511713
    },
    {
      "epoch": 0.2502035045627865,
      "grad_norm": 1.6553810834884644,
      "learning_rate": 9.938341649602698e-05,
      "loss": 0.43607077598571775,
      "memory(GiB)": 57.83,
      "step": 5840,
      "token_acc": 0.8872180451127819,
      "train_speed(iter/s)": 1.511652
    },
    {
      "epoch": 0.2504177198920355,
      "grad_norm": 2.712770938873291,
      "learning_rate": 9.938236243036613e-05,
      "loss": 0.3960700988769531,
      "memory(GiB)": 57.83,
      "step": 5845,
      "token_acc": 0.9174917491749175,
      "train_speed(iter/s)": 1.51167
    },
    {
      "epoch": 0.2506319352212844,
      "grad_norm": 1.7924548387527466,
      "learning_rate": 9.938130747009748e-05,
      "loss": 0.37431812286376953,
      "memory(GiB)": 57.83,
      "step": 5850,
      "token_acc": 0.92,
      "train_speed(iter/s)": 1.511694
    },
    {
      "epoch": 0.2508461505505334,
      "grad_norm": 2.274765968322754,
      "learning_rate": 9.938025161524012e-05,
      "loss": 0.6086924076080322,
      "memory(GiB)": 57.83,
      "step": 5855,
      "token_acc": 0.85,
      "train_speed(iter/s)": 1.511657
    },
    {
      "epoch": 0.25106036587978237,
      "grad_norm": 2.8473243713378906,
      "learning_rate": 9.937919486581317e-05,
      "loss": 0.4715022087097168,
      "memory(GiB)": 57.83,
      "step": 5860,
      "token_acc": 0.9158249158249159,
      "train_speed(iter/s)": 1.511643
    },
    {
      "epoch": 0.25127458120903134,
      "grad_norm": 4.891002655029297,
      "learning_rate": 9.937813722183579e-05,
      "loss": 0.3254450559616089,
      "memory(GiB)": 57.83,
      "step": 5865,
      "token_acc": 0.9233449477351916,
      "train_speed(iter/s)": 1.511665
    },
    {
      "epoch": 0.25148879653828027,
      "grad_norm": 1.9175771474838257,
      "learning_rate": 9.937707868332713e-05,
      "loss": 0.21567115783691407,
      "memory(GiB)": 57.83,
      "step": 5870,
      "token_acc": 0.9463722397476341,
      "train_speed(iter/s)": 1.511761
    },
    {
      "epoch": 0.25170301186752925,
      "grad_norm": 3.0330631732940674,
      "learning_rate": 9.937601925030638e-05,
      "loss": 0.4073945999145508,
      "memory(GiB)": 57.83,
      "step": 5875,
      "token_acc": 0.907051282051282,
      "train_speed(iter/s)": 1.511758
    },
    {
      "epoch": 0.2519172271967782,
      "grad_norm": 3.6874682903289795,
      "learning_rate": 9.937495892279272e-05,
      "loss": 0.4708213806152344,
      "memory(GiB)": 57.83,
      "step": 5880,
      "token_acc": 0.897196261682243,
      "train_speed(iter/s)": 1.51192
    },
    {
      "epoch": 0.25213144252602715,
      "grad_norm": 7.353977680206299,
      "learning_rate": 9.937389770080535e-05,
      "loss": 0.26984405517578125,
      "memory(GiB)": 57.83,
      "step": 5885,
      "token_acc": 0.9361022364217252,
      "train_speed(iter/s)": 1.512107
    },
    {
      "epoch": 0.25234565785527613,
      "grad_norm": 4.260404586791992,
      "learning_rate": 9.937283558436352e-05,
      "loss": 0.515605878829956,
      "memory(GiB)": 57.83,
      "step": 5890,
      "token_acc": 0.8945578231292517,
      "train_speed(iter/s)": 1.512329
    },
    {
      "epoch": 0.2525598731845251,
      "grad_norm": 1.5599665641784668,
      "learning_rate": 9.937177257348645e-05,
      "loss": 0.21643147468566895,
      "memory(GiB)": 57.83,
      "step": 5895,
      "token_acc": 0.9513888888888888,
      "train_speed(iter/s)": 1.512413
    },
    {
      "epoch": 0.25277408851377403,
      "grad_norm": 1.393804907798767,
      "learning_rate": 9.93707086681934e-05,
      "loss": 0.47597761154174806,
      "memory(GiB)": 57.83,
      "step": 5900,
      "token_acc": 0.8989547038327527,
      "train_speed(iter/s)": 1.512418
    },
    {
      "epoch": 0.252988303843023,
      "grad_norm": 7.8237833976745605,
      "learning_rate": 9.936964386850366e-05,
      "loss": 0.29127166271209715,
      "memory(GiB)": 57.83,
      "step": 5905,
      "token_acc": 0.9363295880149812,
      "train_speed(iter/s)": 1.512579
    },
    {
      "epoch": 0.253202519172272,
      "grad_norm": 1.7640070915222168,
      "learning_rate": 9.93685781744365e-05,
      "loss": 0.4950842380523682,
      "memory(GiB)": 57.83,
      "step": 5910,
      "token_acc": 0.9090909090909091,
      "train_speed(iter/s)": 1.512603
    },
    {
      "epoch": 0.2534167345015209,
      "grad_norm": 4.689111232757568,
      "learning_rate": 9.936751158601124e-05,
      "loss": 0.4903552532196045,
      "memory(GiB)": 57.83,
      "step": 5915,
      "token_acc": 0.9256756756756757,
      "train_speed(iter/s)": 1.51284
    },
    {
      "epoch": 0.2536309498307699,
      "grad_norm": 3.578521251678467,
      "learning_rate": 9.93664441032472e-05,
      "loss": 0.5357282638549805,
      "memory(GiB)": 57.83,
      "step": 5920,
      "token_acc": 0.890625,
      "train_speed(iter/s)": 1.512975
    },
    {
      "epoch": 0.25384516516001887,
      "grad_norm": 1.4946907758712769,
      "learning_rate": 9.936537572616372e-05,
      "loss": 0.1460087776184082,
      "memory(GiB)": 57.83,
      "step": 5925,
      "token_acc": 0.9646643109540636,
      "train_speed(iter/s)": 1.512918
    },
    {
      "epoch": 0.2540593804892678,
      "grad_norm": 1.525254487991333,
      "learning_rate": 9.936430645478014e-05,
      "loss": 0.21395883560180665,
      "memory(GiB)": 57.83,
      "step": 5930,
      "token_acc": 0.9504950495049505,
      "train_speed(iter/s)": 1.512901
    },
    {
      "epoch": 0.2542735958185168,
      "grad_norm": 2.55198073387146,
      "learning_rate": 9.936323628911584e-05,
      "loss": 0.2551476001739502,
      "memory(GiB)": 57.83,
      "step": 5935,
      "token_acc": 0.9533333333333334,
      "train_speed(iter/s)": 1.512888
    },
    {
      "epoch": 0.25448781114776575,
      "grad_norm": 2.390024423599243,
      "learning_rate": 9.936216522919021e-05,
      "loss": 0.30000245571136475,
      "memory(GiB)": 57.83,
      "step": 5940,
      "token_acc": 0.9363295880149812,
      "train_speed(iter/s)": 1.513093
    },
    {
      "epoch": 0.2547020264770147,
      "grad_norm": 2.3630917072296143,
      "learning_rate": 9.936109327502266e-05,
      "loss": 0.2939441680908203,
      "memory(GiB)": 57.83,
      "step": 5945,
      "token_acc": 0.9230769230769231,
      "train_speed(iter/s)": 1.51313
    },
    {
      "epoch": 0.25491624180626365,
      "grad_norm": 2.0397026538848877,
      "learning_rate": 9.936002042663258e-05,
      "loss": 0.4676835536956787,
      "memory(GiB)": 57.83,
      "step": 5950,
      "token_acc": 0.9084745762711864,
      "train_speed(iter/s)": 1.513206
    },
    {
      "epoch": 0.25513045713551263,
      "grad_norm": 2.654291868209839,
      "learning_rate": 9.935894668403945e-05,
      "loss": 0.5101615905761718,
      "memory(GiB)": 57.83,
      "step": 5955,
      "token_acc": 0.8989547038327527,
      "train_speed(iter/s)": 1.51333
    },
    {
      "epoch": 0.25534467246476156,
      "grad_norm": 0.5669079422950745,
      "learning_rate": 9.935787204726268e-05,
      "loss": 0.4804722309112549,
      "memory(GiB)": 57.83,
      "step": 5960,
      "token_acc": 0.8924050632911392,
      "train_speed(iter/s)": 1.513354
    },
    {
      "epoch": 0.25555888779401054,
      "grad_norm": 7.910981178283691,
      "learning_rate": 9.935679651632177e-05,
      "loss": 0.4848268985748291,
      "memory(GiB)": 57.83,
      "step": 5965,
      "token_acc": 0.8923076923076924,
      "train_speed(iter/s)": 1.513461
    },
    {
      "epoch": 0.2557731031232595,
      "grad_norm": 3.056152820587158,
      "learning_rate": 9.935572009123619e-05,
      "loss": 0.22553761005401612,
      "memory(GiB)": 57.83,
      "step": 5970,
      "token_acc": 0.945859872611465,
      "train_speed(iter/s)": 1.513468
    },
    {
      "epoch": 0.25598731845250844,
      "grad_norm": 0.06077791005373001,
      "learning_rate": 9.935464277202544e-05,
      "loss": 0.6827641010284424,
      "memory(GiB)": 57.83,
      "step": 5975,
      "token_acc": 0.8713235294117647,
      "train_speed(iter/s)": 1.513566
    },
    {
      "epoch": 0.2562015337817574,
      "grad_norm": 1.8649221658706665,
      "learning_rate": 9.935356455870904e-05,
      "loss": 0.26709082126617434,
      "memory(GiB)": 57.83,
      "step": 5980,
      "token_acc": 0.9130434782608695,
      "train_speed(iter/s)": 1.513551
    },
    {
      "epoch": 0.2564157491110064,
      "grad_norm": 2.91180419921875,
      "learning_rate": 9.93524854513065e-05,
      "loss": 0.41860089302062986,
      "memory(GiB)": 57.83,
      "step": 5985,
      "token_acc": 0.9027355623100304,
      "train_speed(iter/s)": 1.513538
    },
    {
      "epoch": 0.2566299644402553,
      "grad_norm": 2.233454942703247,
      "learning_rate": 9.93514054498374e-05,
      "loss": 0.4784512519836426,
      "memory(GiB)": 57.83,
      "step": 5990,
      "token_acc": 0.9105431309904153,
      "train_speed(iter/s)": 1.513587
    },
    {
      "epoch": 0.2568441797695043,
      "grad_norm": 2.9003942012786865,
      "learning_rate": 9.93503245543213e-05,
      "loss": 0.3319584369659424,
      "memory(GiB)": 57.83,
      "step": 5995,
      "token_acc": 0.922077922077922,
      "train_speed(iter/s)": 1.513656
    },
    {
      "epoch": 0.2570583950987533,
      "grad_norm": 6.065582752227783,
      "learning_rate": 9.934924276477779e-05,
      "loss": 0.9388570785522461,
      "memory(GiB)": 57.83,
      "step": 6000,
      "token_acc": 0.8288973384030418,
      "train_speed(iter/s)": 1.513667
    },
    {
      "epoch": 0.2570583950987533,
      "eval_loss": 2.597562551498413,
      "eval_runtime": 12.842,
      "eval_samples_per_second": 7.787,
      "eval_steps_per_second": 7.787,
      "eval_token_acc": 0.4169054441260745,
      "step": 6000
    },
    {
      "epoch": 0.2572726104280022,
      "grad_norm": 3.860740900039673,
      "learning_rate": 9.934816008122643e-05,
      "loss": 0.6344261646270752,
      "memory(GiB)": 57.83,
      "step": 6005,
      "token_acc": 0.548618219037871,
      "train_speed(iter/s)": 1.508699
    },
    {
      "epoch": 0.2574868257572512,
      "grad_norm": 2.9173896312713623,
      "learning_rate": 9.934707650368686e-05,
      "loss": 0.4706707954406738,
      "memory(GiB)": 57.83,
      "step": 6010,
      "token_acc": 0.887719298245614,
      "train_speed(iter/s)": 1.508721
    },
    {
      "epoch": 0.25770104108650016,
      "grad_norm": 3.3867757320404053,
      "learning_rate": 9.934599203217874e-05,
      "loss": 0.32073657512664794,
      "memory(GiB)": 57.83,
      "step": 6015,
      "token_acc": 0.9321428571428572,
      "train_speed(iter/s)": 1.508777
    },
    {
      "epoch": 0.2579152564157491,
      "grad_norm": 1.2818666696548462,
      "learning_rate": 9.934490666672164e-05,
      "loss": 0.3143477916717529,
      "memory(GiB)": 57.83,
      "step": 6020,
      "token_acc": 0.9240506329113924,
      "train_speed(iter/s)": 1.508893
    },
    {
      "epoch": 0.25812947174499806,
      "grad_norm": 2.0671682357788086,
      "learning_rate": 9.93438204073353e-05,
      "loss": 0.42448949813842773,
      "memory(GiB)": 57.83,
      "step": 6025,
      "token_acc": 0.9113573407202216,
      "train_speed(iter/s)": 1.508865
    },
    {
      "epoch": 0.25834368707424704,
      "grad_norm": 0.9335662722587585,
      "learning_rate": 9.934273325403935e-05,
      "loss": 0.17360650300979613,
      "memory(GiB)": 57.83,
      "step": 6030,
      "token_acc": 0.9641693811074918,
      "train_speed(iter/s)": 1.508945
    },
    {
      "epoch": 0.258557902403496,
      "grad_norm": 3.428192138671875,
      "learning_rate": 9.934164520685349e-05,
      "loss": 0.45486106872558596,
      "memory(GiB)": 57.83,
      "step": 6035,
      "token_acc": 0.9288256227758007,
      "train_speed(iter/s)": 1.509053
    },
    {
      "epoch": 0.25877211773274494,
      "grad_norm": 1.124332070350647,
      "learning_rate": 9.934055626579746e-05,
      "loss": 0.3286736965179443,
      "memory(GiB)": 57.83,
      "step": 6040,
      "token_acc": 0.9304029304029304,
      "train_speed(iter/s)": 1.509181
    },
    {
      "epoch": 0.2589863330619939,
      "grad_norm": 5.32781982421875,
      "learning_rate": 9.933946643089096e-05,
      "loss": 0.2620370626449585,
      "memory(GiB)": 57.83,
      "step": 6045,
      "token_acc": 0.9350180505415162,
      "train_speed(iter/s)": 1.509122
    },
    {
      "epoch": 0.2592005483912429,
      "grad_norm": 3.7868382930755615,
      "learning_rate": 9.933837570215374e-05,
      "loss": 0.4194647789001465,
      "memory(GiB)": 57.83,
      "step": 6050,
      "token_acc": 0.926829268292683,
      "train_speed(iter/s)": 1.509117
    },
    {
      "epoch": 0.2594147637204918,
      "grad_norm": 0.42373430728912354,
      "learning_rate": 9.933728407960556e-05,
      "loss": 0.3305581331253052,
      "memory(GiB)": 57.83,
      "step": 6055,
      "token_acc": 0.9128919860627178,
      "train_speed(iter/s)": 1.509175
    },
    {
      "epoch": 0.2596289790497408,
      "grad_norm": 1.3747516870498657,
      "learning_rate": 9.933619156326621e-05,
      "loss": 0.21721489429473878,
      "memory(GiB)": 57.83,
      "step": 6060,
      "token_acc": 0.9583333333333334,
      "train_speed(iter/s)": 1.509214
    },
    {
      "epoch": 0.2598431943789898,
      "grad_norm": 3.8711090087890625,
      "learning_rate": 9.933509815315545e-05,
      "loss": 0.2547018527984619,
      "memory(GiB)": 57.83,
      "step": 6065,
      "token_acc": 0.9528619528619529,
      "train_speed(iter/s)": 1.509209
    },
    {
      "epoch": 0.2600574097082387,
      "grad_norm": 4.243188381195068,
      "learning_rate": 9.933400384929313e-05,
      "loss": 0.5954276561737061,
      "memory(GiB)": 57.83,
      "step": 6070,
      "token_acc": 0.8631921824104235,
      "train_speed(iter/s)": 1.509226
    },
    {
      "epoch": 0.2602716250374877,
      "grad_norm": 2.7614622116088867,
      "learning_rate": 9.933290865169903e-05,
      "loss": 0.42738494873046873,
      "memory(GiB)": 57.83,
      "step": 6075,
      "token_acc": 0.9127725856697819,
      "train_speed(iter/s)": 1.509352
    },
    {
      "epoch": 0.26048584036673667,
      "grad_norm": 3.5418944358825684,
      "learning_rate": 9.933181256039301e-05,
      "loss": 0.4812305450439453,
      "memory(GiB)": 57.83,
      "step": 6080,
      "token_acc": 0.8888888888888888,
      "train_speed(iter/s)": 1.509262
    },
    {
      "epoch": 0.2607000556959856,
      "grad_norm": 2.369384288787842,
      "learning_rate": 9.933071557539494e-05,
      "loss": 0.2539195537567139,
      "memory(GiB)": 57.83,
      "step": 6085,
      "token_acc": 0.9523809523809523,
      "train_speed(iter/s)": 1.509278
    },
    {
      "epoch": 0.26091427102523457,
      "grad_norm": 1.8879045248031616,
      "learning_rate": 9.932961769672469e-05,
      "loss": 0.5910563945770264,
      "memory(GiB)": 57.83,
      "step": 6090,
      "token_acc": 0.890728476821192,
      "train_speed(iter/s)": 1.509334
    },
    {
      "epoch": 0.26112848635448355,
      "grad_norm": 1.497489333152771,
      "learning_rate": 9.932851892440211e-05,
      "loss": 0.2868366241455078,
      "memory(GiB)": 57.83,
      "step": 6095,
      "token_acc": 0.9300699300699301,
      "train_speed(iter/s)": 1.509366
    },
    {
      "epoch": 0.26134270168373247,
      "grad_norm": 1.8995040655136108,
      "learning_rate": 9.932741925844717e-05,
      "loss": 0.27905290126800536,
      "memory(GiB)": 57.83,
      "step": 6100,
      "token_acc": 0.9312714776632303,
      "train_speed(iter/s)": 1.509373
    },
    {
      "epoch": 0.26155691701298145,
      "grad_norm": 3.1291537284851074,
      "learning_rate": 9.932631869887974e-05,
      "loss": 0.4369076728820801,
      "memory(GiB)": 57.83,
      "step": 6105,
      "token_acc": 0.8892307692307693,
      "train_speed(iter/s)": 1.509506
    },
    {
      "epoch": 0.26177113234223043,
      "grad_norm": 4.167664527893066,
      "learning_rate": 9.932521724571977e-05,
      "loss": 0.5211634635925293,
      "memory(GiB)": 57.83,
      "step": 6110,
      "token_acc": 0.917981072555205,
      "train_speed(iter/s)": 1.509572
    },
    {
      "epoch": 0.26198534767147935,
      "grad_norm": 4.496867656707764,
      "learning_rate": 9.932411489898723e-05,
      "loss": 0.4579469203948975,
      "memory(GiB)": 57.83,
      "step": 6115,
      "token_acc": 0.9218106995884774,
      "train_speed(iter/s)": 1.50963
    },
    {
      "epoch": 0.26219956300072833,
      "grad_norm": 1.0329607725143433,
      "learning_rate": 9.932301165870206e-05,
      "loss": 0.222471284866333,
      "memory(GiB)": 57.83,
      "step": 6120,
      "token_acc": 0.9285714285714286,
      "train_speed(iter/s)": 1.509676
    },
    {
      "epoch": 0.2624137783299773,
      "grad_norm": 1.2141727209091187,
      "learning_rate": 9.932190752488428e-05,
      "loss": 0.2282252073287964,
      "memory(GiB)": 57.83,
      "step": 6125,
      "token_acc": 0.943609022556391,
      "train_speed(iter/s)": 1.509799
    },
    {
      "epoch": 0.26262799365922623,
      "grad_norm": 3.278120517730713,
      "learning_rate": 9.932080249755389e-05,
      "loss": 0.2538751602172852,
      "memory(GiB)": 57.83,
      "step": 6130,
      "token_acc": 0.9528985507246377,
      "train_speed(iter/s)": 1.509809
    },
    {
      "epoch": 0.2628422089884752,
      "grad_norm": 4.585535526275635,
      "learning_rate": 9.931969657673088e-05,
      "loss": 0.49903693199157717,
      "memory(GiB)": 57.83,
      "step": 6135,
      "token_acc": 0.8708609271523179,
      "train_speed(iter/s)": 1.510063
    },
    {
      "epoch": 0.2630564243177242,
      "grad_norm": 1.9522123336791992,
      "learning_rate": 9.931858976243531e-05,
      "loss": 0.3062258720397949,
      "memory(GiB)": 57.83,
      "step": 6140,
      "token_acc": 0.9148936170212766,
      "train_speed(iter/s)": 1.510221
    },
    {
      "epoch": 0.2632706396469731,
      "grad_norm": 3.4891018867492676,
      "learning_rate": 9.931748205468721e-05,
      "loss": 0.42903151512146,
      "memory(GiB)": 57.83,
      "step": 6145,
      "token_acc": 0.920265780730897,
      "train_speed(iter/s)": 1.510277
    },
    {
      "epoch": 0.2634848549762221,
      "grad_norm": 1.9862321615219116,
      "learning_rate": 9.931637345350667e-05,
      "loss": 0.38887991905212405,
      "memory(GiB)": 57.83,
      "step": 6150,
      "token_acc": 0.9211956521739131,
      "train_speed(iter/s)": 1.510299
    },
    {
      "epoch": 0.2636990703054711,
      "grad_norm": 1.3124617338180542,
      "learning_rate": 9.931526395891375e-05,
      "loss": 0.2441765308380127,
      "memory(GiB)": 57.83,
      "step": 6155,
      "token_acc": 0.9427609427609428,
      "train_speed(iter/s)": 1.510319
    },
    {
      "epoch": 0.26391328563472,
      "grad_norm": 5.413501262664795,
      "learning_rate": 9.931415357092858e-05,
      "loss": 0.306878399848938,
      "memory(GiB)": 57.83,
      "step": 6160,
      "token_acc": 0.9446366782006921,
      "train_speed(iter/s)": 1.510337
    },
    {
      "epoch": 0.264127500963969,
      "grad_norm": 1.8066558837890625,
      "learning_rate": 9.931304228957123e-05,
      "loss": 0.45495071411132815,
      "memory(GiB)": 57.83,
      "step": 6165,
      "token_acc": 0.9157894736842105,
      "train_speed(iter/s)": 1.510431
    },
    {
      "epoch": 0.26434171629321795,
      "grad_norm": 1.5612115859985352,
      "learning_rate": 9.931193011486188e-05,
      "loss": 0.41306471824645996,
      "memory(GiB)": 57.83,
      "step": 6170,
      "token_acc": 0.9228070175438596,
      "train_speed(iter/s)": 1.510632
    },
    {
      "epoch": 0.2645559316224669,
      "grad_norm": 2.812962293624878,
      "learning_rate": 9.931081704682066e-05,
      "loss": 0.3414760589599609,
      "memory(GiB)": 57.83,
      "step": 6175,
      "token_acc": 0.9473684210526315,
      "train_speed(iter/s)": 1.510661
    },
    {
      "epoch": 0.26477014695171586,
      "grad_norm": 2.1002464294433594,
      "learning_rate": 9.930970308546772e-05,
      "loss": 0.3947620153427124,
      "memory(GiB)": 57.83,
      "step": 6180,
      "token_acc": 0.9130434782608695,
      "train_speed(iter/s)": 1.510635
    },
    {
      "epoch": 0.26498436228096484,
      "grad_norm": 1.0055547952651978,
      "learning_rate": 9.930858823082327e-05,
      "loss": 0.3768031597137451,
      "memory(GiB)": 57.83,
      "step": 6185,
      "token_acc": 0.9285714285714286,
      "train_speed(iter/s)": 1.510568
    },
    {
      "epoch": 0.26519857761021376,
      "grad_norm": 3.471759557723999,
      "learning_rate": 9.930747248290747e-05,
      "loss": 0.2893956184387207,
      "memory(GiB)": 57.83,
      "step": 6190,
      "token_acc": 0.9400749063670412,
      "train_speed(iter/s)": 1.510581
    },
    {
      "epoch": 0.26541279293946274,
      "grad_norm": 3.5775911808013916,
      "learning_rate": 9.930635584174056e-05,
      "loss": 0.5177459716796875,
      "memory(GiB)": 57.83,
      "step": 6195,
      "token_acc": 0.8931750741839762,
      "train_speed(iter/s)": 1.510705
    },
    {
      "epoch": 0.2656270082687117,
      "grad_norm": 2.467583179473877,
      "learning_rate": 9.930523830734276e-05,
      "loss": 0.49843549728393555,
      "memory(GiB)": 57.83,
      "step": 6200,
      "token_acc": 0.8991097922848664,
      "train_speed(iter/s)": 1.510667
    },
    {
      "epoch": 0.2658412235979607,
      "grad_norm": 1.0195355415344238,
      "learning_rate": 9.930411987973431e-05,
      "loss": 0.39285480976104736,
      "memory(GiB)": 57.83,
      "step": 6205,
      "token_acc": 0.9094076655052264,
      "train_speed(iter/s)": 1.510672
    },
    {
      "epoch": 0.2660554389272096,
      "grad_norm": 1.5361075401306152,
      "learning_rate": 9.930300055893549e-05,
      "loss": 0.21763620376586915,
      "memory(GiB)": 57.83,
      "step": 6210,
      "token_acc": 0.9416058394160584,
      "train_speed(iter/s)": 1.51071
    },
    {
      "epoch": 0.2662696542564586,
      "grad_norm": 1.9134093523025513,
      "learning_rate": 9.930188034496655e-05,
      "loss": 0.42278389930725097,
      "memory(GiB)": 57.83,
      "step": 6215,
      "token_acc": 0.9122807017543859,
      "train_speed(iter/s)": 1.510785
    },
    {
      "epoch": 0.2664838695857076,
      "grad_norm": 2.883085012435913,
      "learning_rate": 9.93007592378478e-05,
      "loss": 0.6707213878631592,
      "memory(GiB)": 57.83,
      "step": 6220,
      "token_acc": 0.875,
      "train_speed(iter/s)": 1.510694
    },
    {
      "epoch": 0.2666980849149565,
      "grad_norm": 4.380506992340088,
      "learning_rate": 9.929963723759956e-05,
      "loss": 0.32514955997467043,
      "memory(GiB)": 57.83,
      "step": 6225,
      "token_acc": 0.9383561643835616,
      "train_speed(iter/s)": 1.510762
    },
    {
      "epoch": 0.2669123002442055,
      "grad_norm": 2.6944563388824463,
      "learning_rate": 9.929851434424216e-05,
      "loss": 0.4875223159790039,
      "memory(GiB)": 57.83,
      "step": 6230,
      "token_acc": 0.8797250859106529,
      "train_speed(iter/s)": 1.510765
    },
    {
      "epoch": 0.26712651557345446,
      "grad_norm": 3.106567859649658,
      "learning_rate": 9.92973905577959e-05,
      "loss": 0.5267004013061524,
      "memory(GiB)": 57.83,
      "step": 6235,
      "token_acc": 0.8723404255319149,
      "train_speed(iter/s)": 1.510713
    },
    {
      "epoch": 0.2673407309027034,
      "grad_norm": 0.2307433784008026,
      "learning_rate": 9.929626587828118e-05,
      "loss": 0.3483583450317383,
      "memory(GiB)": 57.83,
      "step": 6240,
      "token_acc": 0.922360248447205,
      "train_speed(iter/s)": 1.510668
    },
    {
      "epoch": 0.26755494623195236,
      "grad_norm": 3.830824851989746,
      "learning_rate": 9.929514030571834e-05,
      "loss": 0.4847075939178467,
      "memory(GiB)": 57.83,
      "step": 6245,
      "token_acc": 0.8730769230769231,
      "train_speed(iter/s)": 1.510762
    },
    {
      "epoch": 0.26776916156120134,
      "grad_norm": 0.7896789908409119,
      "learning_rate": 9.92940138401278e-05,
      "loss": 0.35685760974884034,
      "memory(GiB)": 57.83,
      "step": 6250,
      "token_acc": 0.9301587301587302,
      "train_speed(iter/s)": 1.510818
    },
    {
      "epoch": 0.26798337689045026,
      "grad_norm": 2.6878812313079834,
      "learning_rate": 9.929288648152997e-05,
      "loss": 0.5847362995147705,
      "memory(GiB)": 57.83,
      "step": 6255,
      "token_acc": 0.8881789137380192,
      "train_speed(iter/s)": 1.51081
    },
    {
      "epoch": 0.26819759221969924,
      "grad_norm": 1.2500518560409546,
      "learning_rate": 9.929175822994526e-05,
      "loss": 0.40888237953186035,
      "memory(GiB)": 57.83,
      "step": 6260,
      "token_acc": 0.8892215568862275,
      "train_speed(iter/s)": 1.51079
    },
    {
      "epoch": 0.2684118075489482,
      "grad_norm": 1.586540937423706,
      "learning_rate": 9.929062908539408e-05,
      "loss": 0.3394345760345459,
      "memory(GiB)": 57.83,
      "step": 6265,
      "token_acc": 0.9301587301587302,
      "train_speed(iter/s)": 1.510814
    },
    {
      "epoch": 0.26862602287819715,
      "grad_norm": 0.17603528499603271,
      "learning_rate": 9.928949904789695e-05,
      "loss": 0.31188762187957764,
      "memory(GiB)": 57.83,
      "step": 6270,
      "token_acc": 0.9296875,
      "train_speed(iter/s)": 1.510825
    },
    {
      "epoch": 0.2688402382074461,
      "grad_norm": 8.228421211242676,
      "learning_rate": 9.928836811747429e-05,
      "loss": 0.4547892093658447,
      "memory(GiB)": 57.83,
      "step": 6275,
      "token_acc": 0.8892857142857142,
      "train_speed(iter/s)": 1.511019
    },
    {
      "epoch": 0.2690544535366951,
      "grad_norm": 0.07260742783546448,
      "learning_rate": 9.928723629414662e-05,
      "loss": 0.13691699504852295,
      "memory(GiB)": 57.83,
      "step": 6280,
      "token_acc": 0.9588014981273408,
      "train_speed(iter/s)": 1.511016
    },
    {
      "epoch": 0.269268668865944,
      "grad_norm": 4.772095680236816,
      "learning_rate": 9.928610357793441e-05,
      "loss": 0.6448341846466065,
      "memory(GiB)": 57.83,
      "step": 6285,
      "token_acc": 0.8759398496240601,
      "train_speed(iter/s)": 1.511196
    },
    {
      "epoch": 0.269482884195193,
      "grad_norm": 1.185380458831787,
      "learning_rate": 9.928496996885821e-05,
      "loss": 0.29379274845123293,
      "memory(GiB)": 57.83,
      "step": 6290,
      "token_acc": 0.916058394160584,
      "train_speed(iter/s)": 1.511241
    },
    {
      "epoch": 0.269697099524442,
      "grad_norm": 6.321060657501221,
      "learning_rate": 9.928383546693854e-05,
      "loss": 0.3794532775878906,
      "memory(GiB)": 57.83,
      "step": 6295,
      "token_acc": 0.9261744966442953,
      "train_speed(iter/s)": 1.511215
    },
    {
      "epoch": 0.2699113148536909,
      "grad_norm": 2.030837059020996,
      "learning_rate": 9.928270007219598e-05,
      "loss": 0.4416524410247803,
      "memory(GiB)": 57.83,
      "step": 6300,
      "token_acc": 0.9047619047619048,
      "train_speed(iter/s)": 1.511289
    },
    {
      "epoch": 0.2701255301829399,
      "grad_norm": 2.938039541244507,
      "learning_rate": 9.928156378465106e-05,
      "loss": 0.43562803268432615,
      "memory(GiB)": 57.83,
      "step": 6305,
      "token_acc": 0.9019607843137255,
      "train_speed(iter/s)": 1.511539
    },
    {
      "epoch": 0.27033974551218887,
      "grad_norm": 2.070509910583496,
      "learning_rate": 9.928042660432437e-05,
      "loss": 0.22926650047302247,
      "memory(GiB)": 57.83,
      "step": 6310,
      "token_acc": 0.943217665615142,
      "train_speed(iter/s)": 1.511577
    },
    {
      "epoch": 0.2705539608414378,
      "grad_norm": 1.3242130279541016,
      "learning_rate": 9.927928853123654e-05,
      "loss": 0.34583144187927245,
      "memory(GiB)": 57.83,
      "step": 6315,
      "token_acc": 0.9365558912386707,
      "train_speed(iter/s)": 1.511685
    },
    {
      "epoch": 0.27076817617068677,
      "grad_norm": 2.14395809173584,
      "learning_rate": 9.927814956540818e-05,
      "loss": 0.3411599397659302,
      "memory(GiB)": 57.83,
      "step": 6320,
      "token_acc": 0.903448275862069,
      "train_speed(iter/s)": 1.511917
    },
    {
      "epoch": 0.27098239149993575,
      "grad_norm": 0.6943260431289673,
      "learning_rate": 9.927700970685989e-05,
      "loss": 0.5581017017364502,
      "memory(GiB)": 57.83,
      "step": 6325,
      "token_acc": 0.8691860465116279,
      "train_speed(iter/s)": 1.511982
    },
    {
      "epoch": 0.27119660682918467,
      "grad_norm": 2.602654218673706,
      "learning_rate": 9.927586895561237e-05,
      "loss": 0.3490911960601807,
      "memory(GiB)": 57.83,
      "step": 6330,
      "token_acc": 0.9228187919463087,
      "train_speed(iter/s)": 1.512171
    },
    {
      "epoch": 0.27141082215843365,
      "grad_norm": 4.910849571228027,
      "learning_rate": 9.927472731168623e-05,
      "loss": 0.25747361183166506,
      "memory(GiB)": 57.83,
      "step": 6335,
      "token_acc": 0.9498069498069498,
      "train_speed(iter/s)": 1.512208
    },
    {
      "epoch": 0.27162503748768263,
      "grad_norm": 2.9110817909240723,
      "learning_rate": 9.92735847751022e-05,
      "loss": 0.6300963401794434,
      "memory(GiB)": 57.83,
      "step": 6340,
      "token_acc": 0.861198738170347,
      "train_speed(iter/s)": 1.512111
    },
    {
      "epoch": 0.27183925281693155,
      "grad_norm": 4.162040710449219,
      "learning_rate": 9.927244134588095e-05,
      "loss": 0.7952901363372803,
      "memory(GiB)": 57.83,
      "step": 6345,
      "token_acc": 0.8501742160278746,
      "train_speed(iter/s)": 1.512383
    },
    {
      "epoch": 0.27205346814618053,
      "grad_norm": 3.174696445465088,
      "learning_rate": 9.927129702404321e-05,
      "loss": 0.5402266502380371,
      "memory(GiB)": 57.83,
      "step": 6350,
      "token_acc": 0.89198606271777,
      "train_speed(iter/s)": 1.512338
    },
    {
      "epoch": 0.2722676834754295,
      "grad_norm": 2.1442363262176514,
      "learning_rate": 9.92701518096097e-05,
      "loss": 0.4409471035003662,
      "memory(GiB)": 57.83,
      "step": 6355,
      "token_acc": 0.8938356164383562,
      "train_speed(iter/s)": 1.512288
    },
    {
      "epoch": 0.27248189880467844,
      "grad_norm": 1.0602281093597412,
      "learning_rate": 9.926900570260118e-05,
      "loss": 0.14982073307037352,
      "memory(GiB)": 57.83,
      "step": 6360,
      "token_acc": 0.9550561797752809,
      "train_speed(iter/s)": 1.512277
    },
    {
      "epoch": 0.2726961141339274,
      "grad_norm": 0.8592976331710815,
      "learning_rate": 9.926785870303839e-05,
      "loss": 0.5739680767059326,
      "memory(GiB)": 57.83,
      "step": 6365,
      "token_acc": 0.8682170542635659,
      "train_speed(iter/s)": 1.512276
    },
    {
      "epoch": 0.2729103294631764,
      "grad_norm": 7.0117011070251465,
      "learning_rate": 9.926671081094214e-05,
      "loss": 0.34189066886901853,
      "memory(GiB)": 57.83,
      "step": 6370,
      "token_acc": 0.9181494661921709,
      "train_speed(iter/s)": 1.512264
    },
    {
      "epoch": 0.27312454479242537,
      "grad_norm": 3.1320619583129883,
      "learning_rate": 9.92655620263332e-05,
      "loss": 0.33453075885772704,
      "memory(GiB)": 57.83,
      "step": 6375,
      "token_acc": 0.9306569343065694,
      "train_speed(iter/s)": 1.512203
    },
    {
      "epoch": 0.2733387601216743,
      "grad_norm": 3.2054800987243652,
      "learning_rate": 9.926441234923239e-05,
      "loss": 0.5331183433532715,
      "memory(GiB)": 57.83,
      "step": 6380,
      "token_acc": 0.8962962962962963,
      "train_speed(iter/s)": 1.512156
    },
    {
      "epoch": 0.2735529754509233,
      "grad_norm": 2.2337279319763184,
      "learning_rate": 9.926326177966052e-05,
      "loss": 0.3796213388442993,
      "memory(GiB)": 57.83,
      "step": 6385,
      "token_acc": 0.9348659003831418,
      "train_speed(iter/s)": 1.512191
    },
    {
      "epoch": 0.27376719078017225,
      "grad_norm": 2.0649187564849854,
      "learning_rate": 9.926211031763846e-05,
      "loss": 0.24826536178588868,
      "memory(GiB)": 57.83,
      "step": 6390,
      "token_acc": 0.9485294117647058,
      "train_speed(iter/s)": 1.512172
    },
    {
      "epoch": 0.2739814061094212,
      "grad_norm": 4.460148334503174,
      "learning_rate": 9.926095796318706e-05,
      "loss": 0.5327774524688721,
      "memory(GiB)": 57.83,
      "step": 6395,
      "token_acc": 0.8683274021352313,
      "train_speed(iter/s)": 1.512427
    },
    {
      "epoch": 0.27419562143867016,
      "grad_norm": 4.966132640838623,
      "learning_rate": 9.92598047163272e-05,
      "loss": 0.29757394790649416,
      "memory(GiB)": 57.83,
      "step": 6400,
      "token_acc": 0.9296875,
      "train_speed(iter/s)": 1.512397
    },
    {
      "epoch": 0.27440983676791914,
      "grad_norm": 2.0085175037384033,
      "learning_rate": 9.925865057707977e-05,
      "loss": 0.711307144165039,
      "memory(GiB)": 57.83,
      "step": 6405,
      "token_acc": 0.8515901060070671,
      "train_speed(iter/s)": 1.512531
    },
    {
      "epoch": 0.27462405209716806,
      "grad_norm": 4.277284622192383,
      "learning_rate": 9.925749554546568e-05,
      "loss": 0.6434778213500977,
      "memory(GiB)": 57.83,
      "step": 6410,
      "token_acc": 0.8485804416403786,
      "train_speed(iter/s)": 1.512558
    },
    {
      "epoch": 0.27483826742641704,
      "grad_norm": 2.425518751144409,
      "learning_rate": 9.925633962150584e-05,
      "loss": 0.2835421562194824,
      "memory(GiB)": 57.83,
      "step": 6415,
      "token_acc": 0.9362549800796812,
      "train_speed(iter/s)": 1.512474
    },
    {
      "epoch": 0.275052482755666,
      "grad_norm": 2.1404807567596436,
      "learning_rate": 9.925518280522121e-05,
      "loss": 0.2600611686706543,
      "memory(GiB)": 57.83,
      "step": 6420,
      "token_acc": 0.9439655172413793,
      "train_speed(iter/s)": 1.512418
    },
    {
      "epoch": 0.27526669808491494,
      "grad_norm": 2.3433375358581543,
      "learning_rate": 9.925402509663273e-05,
      "loss": 0.21788403987884522,
      "memory(GiB)": 57.83,
      "step": 6425,
      "token_acc": 0.936026936026936,
      "train_speed(iter/s)": 1.512482
    },
    {
      "epoch": 0.2754809134141639,
      "grad_norm": 4.9804558753967285,
      "learning_rate": 9.92528664957614e-05,
      "loss": 0.6327625274658203,
      "memory(GiB)": 57.83,
      "step": 6430,
      "token_acc": 0.8775510204081632,
      "train_speed(iter/s)": 1.512379
    },
    {
      "epoch": 0.2756951287434129,
      "grad_norm": 1.603032112121582,
      "learning_rate": 9.925170700262817e-05,
      "loss": 0.3081965923309326,
      "memory(GiB)": 57.83,
      "step": 6435,
      "token_acc": 0.9389830508474576,
      "train_speed(iter/s)": 1.512395
    },
    {
      "epoch": 0.2759093440726618,
      "grad_norm": 2.740758180618286,
      "learning_rate": 9.925054661725406e-05,
      "loss": 0.38141565322875975,
      "memory(GiB)": 57.83,
      "step": 6440,
      "token_acc": 0.9122137404580153,
      "train_speed(iter/s)": 1.512389
    },
    {
      "epoch": 0.2761235594019108,
      "grad_norm": 3.2003042697906494,
      "learning_rate": 9.924938533966012e-05,
      "loss": 0.2652620553970337,
      "memory(GiB)": 57.83,
      "step": 6445,
      "token_acc": 0.9347826086956522,
      "train_speed(iter/s)": 1.512399
    },
    {
      "epoch": 0.2763377747311598,
      "grad_norm": 0.058249182999134064,
      "learning_rate": 9.924822316986735e-05,
      "loss": 0.3652892351150513,
      "memory(GiB)": 57.83,
      "step": 6450,
      "token_acc": 0.9246575342465754,
      "train_speed(iter/s)": 1.512448
    },
    {
      "epoch": 0.2765519900604087,
      "grad_norm": 2.380427598953247,
      "learning_rate": 9.924706010789683e-05,
      "loss": 0.36388554573059084,
      "memory(GiB)": 57.83,
      "step": 6455,
      "token_acc": 0.9098837209302325,
      "train_speed(iter/s)": 1.512474
    },
    {
      "epoch": 0.2767662053896577,
      "grad_norm": 8.194302558898926,
      "learning_rate": 9.924589615376962e-05,
      "loss": 0.34850521087646485,
      "memory(GiB)": 57.83,
      "step": 6460,
      "token_acc": 0.935064935064935,
      "train_speed(iter/s)": 1.512479
    },
    {
      "epoch": 0.27698042071890666,
      "grad_norm": 0.3888047933578491,
      "learning_rate": 9.92447313075068e-05,
      "loss": 0.486391019821167,
      "memory(GiB)": 57.83,
      "step": 6465,
      "token_acc": 0.888030888030888,
      "train_speed(iter/s)": 1.512472
    },
    {
      "epoch": 0.2771946360481556,
      "grad_norm": 4.803922176361084,
      "learning_rate": 9.924356556912946e-05,
      "loss": 0.6917881011962891,
      "memory(GiB)": 57.83,
      "step": 6470,
      "token_acc": 0.8661710037174721,
      "train_speed(iter/s)": 1.512746
    },
    {
      "epoch": 0.27740885137740456,
      "grad_norm": 0.0627179816365242,
      "learning_rate": 9.924239893865874e-05,
      "loss": 0.3671936750411987,
      "memory(GiB)": 57.83,
      "step": 6475,
      "token_acc": 0.9222222222222223,
      "train_speed(iter/s)": 1.51273
    },
    {
      "epoch": 0.27762306670665354,
      "grad_norm": 7.361741542816162,
      "learning_rate": 9.924123141611578e-05,
      "loss": 0.4177116394042969,
      "memory(GiB)": 57.83,
      "step": 6480,
      "token_acc": 0.9,
      "train_speed(iter/s)": 1.512884
    },
    {
      "epoch": 0.27783728203590247,
      "grad_norm": 2.2144763469696045,
      "learning_rate": 9.924006300152173e-05,
      "loss": 0.4577498435974121,
      "memory(GiB)": 57.83,
      "step": 6485,
      "token_acc": 0.8846153846153846,
      "train_speed(iter/s)": 1.512934
    },
    {
      "epoch": 0.27805149736515145,
      "grad_norm": 1.6593632698059082,
      "learning_rate": 9.923889369489774e-05,
      "loss": 0.3942890167236328,
      "memory(GiB)": 57.83,
      "step": 6490,
      "token_acc": 0.9104477611940298,
      "train_speed(iter/s)": 1.512977
    },
    {
      "epoch": 0.2782657126944004,
      "grad_norm": 1.4027423858642578,
      "learning_rate": 9.9237723496265e-05,
      "loss": 0.24048173427581787,
      "memory(GiB)": 57.83,
      "step": 6495,
      "token_acc": 0.950354609929078,
      "train_speed(iter/s)": 1.512993
    },
    {
      "epoch": 0.27847992802364935,
      "grad_norm": 1.80897057056427,
      "learning_rate": 9.923655240564472e-05,
      "loss": 0.27468180656433105,
      "memory(GiB)": 57.83,
      "step": 6500,
      "token_acc": 0.9379310344827586,
      "train_speed(iter/s)": 1.512977
    },
    {
      "epoch": 0.27847992802364935,
      "eval_loss": 2.5823864936828613,
      "eval_runtime": 10.4329,
      "eval_samples_per_second": 9.585,
      "eval_steps_per_second": 9.585,
      "eval_token_acc": 0.44571428571428573,
      "step": 6500
    },
    {
      "epoch": 0.2786941433528983,
      "grad_norm": 2.5597188472747803,
      "learning_rate": 9.92353804230581e-05,
      "loss": 0.23364367485046386,
      "memory(GiB)": 57.83,
      "step": 6505,
      "token_acc": 0.599802371541502,
      "train_speed(iter/s)": 1.509
    },
    {
      "epoch": 0.2789083586821473,
      "grad_norm": 3.2958898544311523,
      "learning_rate": 9.923420754852634e-05,
      "loss": 0.44205989837646487,
      "memory(GiB)": 57.83,
      "step": 6510,
      "token_acc": 0.8881118881118881,
      "train_speed(iter/s)": 1.509165
    },
    {
      "epoch": 0.27912257401139623,
      "grad_norm": 3.260833263397217,
      "learning_rate": 9.923303378207077e-05,
      "loss": 0.3547123908996582,
      "memory(GiB)": 57.83,
      "step": 6515,
      "token_acc": 0.9274809160305344,
      "train_speed(iter/s)": 1.509282
    },
    {
      "epoch": 0.2793367893406452,
      "grad_norm": 2.1002116203308105,
      "learning_rate": 9.92318591237126e-05,
      "loss": 0.5263885974884033,
      "memory(GiB)": 57.83,
      "step": 6520,
      "token_acc": 0.900355871886121,
      "train_speed(iter/s)": 1.509232
    },
    {
      "epoch": 0.2795510046698942,
      "grad_norm": 9.666547775268555,
      "learning_rate": 9.923068357347312e-05,
      "loss": 0.3767200469970703,
      "memory(GiB)": 57.83,
      "step": 6525,
      "token_acc": 0.9206349206349206,
      "train_speed(iter/s)": 1.509369
    },
    {
      "epoch": 0.2797652199991431,
      "grad_norm": 8.11375617980957,
      "learning_rate": 9.92295071313736e-05,
      "loss": 0.4401705741882324,
      "memory(GiB)": 57.83,
      "step": 6530,
      "token_acc": 0.921146953405018,
      "train_speed(iter/s)": 1.509484
    },
    {
      "epoch": 0.2799794353283921,
      "grad_norm": 1.5643974542617798,
      "learning_rate": 9.922832979743542e-05,
      "loss": 0.32225751876831055,
      "memory(GiB)": 57.83,
      "step": 6535,
      "token_acc": 0.9129129129129129,
      "train_speed(iter/s)": 1.509641
    },
    {
      "epoch": 0.28019365065764107,
      "grad_norm": 1.9318766593933105,
      "learning_rate": 9.922715157167984e-05,
      "loss": 0.2171966552734375,
      "memory(GiB)": 57.83,
      "step": 6540,
      "token_acc": 0.9427480916030534,
      "train_speed(iter/s)": 1.50983
    },
    {
      "epoch": 0.28040786598689005,
      "grad_norm": 3.45180082321167,
      "learning_rate": 9.922597245412822e-05,
      "loss": 0.49033565521240235,
      "memory(GiB)": 57.83,
      "step": 6545,
      "token_acc": 0.9013157894736842,
      "train_speed(iter/s)": 1.509808
    },
    {
      "epoch": 0.28062208131613897,
      "grad_norm": 0.616552472114563,
      "learning_rate": 9.922479244480194e-05,
      "loss": 0.4805943489074707,
      "memory(GiB)": 57.83,
      "step": 6550,
      "token_acc": 0.8892508143322475,
      "train_speed(iter/s)": 1.509935
    },
    {
      "epoch": 0.28083629664538795,
      "grad_norm": 2.7647953033447266,
      "learning_rate": 9.922361154372237e-05,
      "loss": 0.4357913017272949,
      "memory(GiB)": 57.83,
      "step": 6555,
      "token_acc": 0.9007633587786259,
      "train_speed(iter/s)": 1.50997
    },
    {
      "epoch": 0.28105051197463693,
      "grad_norm": 3.669450283050537,
      "learning_rate": 9.922242975091092e-05,
      "loss": 0.2386949062347412,
      "memory(GiB)": 57.83,
      "step": 6560,
      "token_acc": 0.9401197604790419,
      "train_speed(iter/s)": 1.509952
    },
    {
      "epoch": 0.28126472730388585,
      "grad_norm": 3.3747401237487793,
      "learning_rate": 9.922124706638896e-05,
      "loss": 0.343776273727417,
      "memory(GiB)": 57.83,
      "step": 6565,
      "token_acc": 0.9366666666666666,
      "train_speed(iter/s)": 1.509892
    },
    {
      "epoch": 0.28147894263313483,
      "grad_norm": 2.7108800411224365,
      "learning_rate": 9.922006349017793e-05,
      "loss": 0.5734564781188964,
      "memory(GiB)": 57.83,
      "step": 6570,
      "token_acc": 0.8728813559322034,
      "train_speed(iter/s)": 1.509839
    },
    {
      "epoch": 0.2816931579623838,
      "grad_norm": 4.904617786407471,
      "learning_rate": 9.92188790222993e-05,
      "loss": 0.42230963706970215,
      "memory(GiB)": 57.83,
      "step": 6575,
      "token_acc": 0.8990228013029316,
      "train_speed(iter/s)": 1.50994
    },
    {
      "epoch": 0.28190737329163273,
      "grad_norm": 2.8900465965270996,
      "learning_rate": 9.921769366277449e-05,
      "loss": 0.4845584869384766,
      "memory(GiB)": 57.83,
      "step": 6580,
      "token_acc": 0.8843283582089553,
      "train_speed(iter/s)": 1.51003
    },
    {
      "epoch": 0.2821215886208817,
      "grad_norm": 3.6472396850585938,
      "learning_rate": 9.9216507411625e-05,
      "loss": 0.25217835903167723,
      "memory(GiB)": 57.83,
      "step": 6585,
      "token_acc": 0.9490196078431372,
      "train_speed(iter/s)": 1.510149
    },
    {
      "epoch": 0.2823358039501307,
      "grad_norm": 3.904006242752075,
      "learning_rate": 9.92153202688723e-05,
      "loss": 0.15459029674530028,
      "memory(GiB)": 57.83,
      "step": 6590,
      "token_acc": 0.9739776951672863,
      "train_speed(iter/s)": 1.510188
    },
    {
      "epoch": 0.2825500192793796,
      "grad_norm": 7.50876522064209,
      "learning_rate": 9.921413223453791e-05,
      "loss": 0.3593508243560791,
      "memory(GiB)": 57.83,
      "step": 6595,
      "token_acc": 0.9256505576208178,
      "train_speed(iter/s)": 1.510095
    },
    {
      "epoch": 0.2827642346086286,
      "grad_norm": 0.4729389250278473,
      "learning_rate": 9.921294330864334e-05,
      "loss": 0.31595792770385744,
      "memory(GiB)": 57.83,
      "step": 6600,
      "token_acc": 0.9361702127659575,
      "train_speed(iter/s)": 1.510229
    },
    {
      "epoch": 0.2829784499378776,
      "grad_norm": 0.17370688915252686,
      "learning_rate": 9.921175349121015e-05,
      "loss": 0.3152081251144409,
      "memory(GiB)": 57.83,
      "step": 6605,
      "token_acc": 0.9551282051282052,
      "train_speed(iter/s)": 1.510297
    },
    {
      "epoch": 0.2831926652671265,
      "grad_norm": 2.7992656230926514,
      "learning_rate": 9.921056278225986e-05,
      "loss": 0.46057796478271484,
      "memory(GiB)": 57.83,
      "step": 6610,
      "token_acc": 0.8949152542372881,
      "train_speed(iter/s)": 1.510469
    },
    {
      "epoch": 0.2834068805963755,
      "grad_norm": 3.308286428451538,
      "learning_rate": 9.920937118181408e-05,
      "loss": 0.4269710540771484,
      "memory(GiB)": 57.83,
      "step": 6615,
      "token_acc": 0.900990099009901,
      "train_speed(iter/s)": 1.510544
    },
    {
      "epoch": 0.28362109592562446,
      "grad_norm": 2.072024345397949,
      "learning_rate": 9.920817868989439e-05,
      "loss": 0.3146365642547607,
      "memory(GiB)": 57.83,
      "step": 6620,
      "token_acc": 0.9161073825503355,
      "train_speed(iter/s)": 1.510524
    },
    {
      "epoch": 0.2838353112548734,
      "grad_norm": 1.5315922498703003,
      "learning_rate": 9.920698530652235e-05,
      "loss": 0.4002521991729736,
      "memory(GiB)": 57.83,
      "step": 6625,
      "token_acc": 0.9184397163120568,
      "train_speed(iter/s)": 1.510552
    },
    {
      "epoch": 0.28404952658412236,
      "grad_norm": 5.095638275146484,
      "learning_rate": 9.920579103171963e-05,
      "loss": 0.45280728340148924,
      "memory(GiB)": 57.83,
      "step": 6630,
      "token_acc": 0.9053497942386831,
      "train_speed(iter/s)": 1.510563
    },
    {
      "epoch": 0.28426374191337134,
      "grad_norm": 1.6966438293457031,
      "learning_rate": 9.920459586550785e-05,
      "loss": 0.508296537399292,
      "memory(GiB)": 57.83,
      "step": 6635,
      "token_acc": 0.8810975609756098,
      "train_speed(iter/s)": 1.510545
    },
    {
      "epoch": 0.28447795724262026,
      "grad_norm": 1.189117431640625,
      "learning_rate": 9.920339980790864e-05,
      "loss": 0.40941715240478516,
      "memory(GiB)": 57.83,
      "step": 6640,
      "token_acc": 0.9225352112676056,
      "train_speed(iter/s)": 1.51058
    },
    {
      "epoch": 0.28469217257186924,
      "grad_norm": 2.3083910942077637,
      "learning_rate": 9.92022028589437e-05,
      "loss": 0.44415531158447263,
      "memory(GiB)": 57.83,
      "step": 6645,
      "token_acc": 0.9214285714285714,
      "train_speed(iter/s)": 1.510579
    },
    {
      "epoch": 0.2849063879011182,
      "grad_norm": 1.6124197244644165,
      "learning_rate": 9.920100501863472e-05,
      "loss": 0.3650284051895142,
      "memory(GiB)": 57.83,
      "step": 6650,
      "token_acc": 0.9178082191780822,
      "train_speed(iter/s)": 1.510626
    },
    {
      "epoch": 0.28512060323036714,
      "grad_norm": 8.5571928024292,
      "learning_rate": 9.919980628700335e-05,
      "loss": 0.5643478393554687,
      "memory(GiB)": 57.83,
      "step": 6655,
      "token_acc": 0.8436578171091446,
      "train_speed(iter/s)": 1.510659
    },
    {
      "epoch": 0.2853348185596161,
      "grad_norm": 3.511624813079834,
      "learning_rate": 9.919860666407135e-05,
      "loss": 0.6758069038391114,
      "memory(GiB)": 57.83,
      "step": 6660,
      "token_acc": 0.8715596330275229,
      "train_speed(iter/s)": 1.510655
    },
    {
      "epoch": 0.2855490338888651,
      "grad_norm": 3.285041093826294,
      "learning_rate": 9.919740614986043e-05,
      "loss": 0.3759666919708252,
      "memory(GiB)": 57.83,
      "step": 6665,
      "token_acc": 0.919732441471572,
      "train_speed(iter/s)": 1.510674
    },
    {
      "epoch": 0.285763249218114,
      "grad_norm": 2.7371280193328857,
      "learning_rate": 9.919620474439236e-05,
      "loss": 0.4539473533630371,
      "memory(GiB)": 57.83,
      "step": 6670,
      "token_acc": 0.8918032786885246,
      "train_speed(iter/s)": 1.510676
    },
    {
      "epoch": 0.285977464547363,
      "grad_norm": 2.984240770339966,
      "learning_rate": 9.919500244768886e-05,
      "loss": 0.5049794673919678,
      "memory(GiB)": 57.83,
      "step": 6675,
      "token_acc": 0.8936170212765957,
      "train_speed(iter/s)": 1.510665
    },
    {
      "epoch": 0.286191679876612,
      "grad_norm": 2.604233503341675,
      "learning_rate": 9.919379925977177e-05,
      "loss": 0.4652516841888428,
      "memory(GiB)": 57.83,
      "step": 6680,
      "token_acc": 0.886986301369863,
      "train_speed(iter/s)": 1.510782
    },
    {
      "epoch": 0.2864058952058609,
      "grad_norm": 2.2249717712402344,
      "learning_rate": 9.919259518066285e-05,
      "loss": 0.4353911876678467,
      "memory(GiB)": 57.83,
      "step": 6685,
      "token_acc": 0.8873720136518771,
      "train_speed(iter/s)": 1.510773
    },
    {
      "epoch": 0.2866201105351099,
      "grad_norm": 4.0739216804504395,
      "learning_rate": 9.919139021038392e-05,
      "loss": 0.4287562847137451,
      "memory(GiB)": 57.83,
      "step": 6690,
      "token_acc": 0.9127272727272727,
      "train_speed(iter/s)": 1.510803
    },
    {
      "epoch": 0.28683432586435886,
      "grad_norm": 1.6508581638336182,
      "learning_rate": 9.919018434895681e-05,
      "loss": 0.4799161911010742,
      "memory(GiB)": 57.83,
      "step": 6695,
      "token_acc": 0.9094076655052264,
      "train_speed(iter/s)": 1.510899
    },
    {
      "epoch": 0.2870485411936078,
      "grad_norm": 3.239684581756592,
      "learning_rate": 9.918897759640338e-05,
      "loss": 0.557736873626709,
      "memory(GiB)": 57.83,
      "step": 6700,
      "token_acc": 0.889261744966443,
      "train_speed(iter/s)": 1.510913
    },
    {
      "epoch": 0.28726275652285677,
      "grad_norm": 0.48320579528808594,
      "learning_rate": 9.918776995274547e-05,
      "loss": 0.3017580986022949,
      "memory(GiB)": 57.83,
      "step": 6705,
      "token_acc": 0.9290123456790124,
      "train_speed(iter/s)": 1.510928
    },
    {
      "epoch": 0.28747697185210574,
      "grad_norm": 3.4178154468536377,
      "learning_rate": 9.918656141800496e-05,
      "loss": 0.3725148916244507,
      "memory(GiB)": 57.83,
      "step": 6710,
      "token_acc": 0.9175627240143369,
      "train_speed(iter/s)": 1.511012
    },
    {
      "epoch": 0.2876911871813547,
      "grad_norm": 2.7487685680389404,
      "learning_rate": 9.918535199220376e-05,
      "loss": 0.46137566566467286,
      "memory(GiB)": 57.83,
      "step": 6715,
      "token_acc": 0.8955223880597015,
      "train_speed(iter/s)": 1.51118
    },
    {
      "epoch": 0.28790540251060365,
      "grad_norm": 0.9815278649330139,
      "learning_rate": 9.918414167536376e-05,
      "loss": 0.25387632846832275,
      "memory(GiB)": 57.83,
      "step": 6720,
      "token_acc": 0.9438202247191011,
      "train_speed(iter/s)": 1.511176
    },
    {
      "epoch": 0.2881196178398526,
      "grad_norm": 3.529553174972534,
      "learning_rate": 9.918293046750689e-05,
      "loss": 0.19895347356796264,
      "memory(GiB)": 57.83,
      "step": 6725,
      "token_acc": 0.9587301587301588,
      "train_speed(iter/s)": 1.511334
    },
    {
      "epoch": 0.2883338331691016,
      "grad_norm": 5.436715602874756,
      "learning_rate": 9.918171836865511e-05,
      "loss": 0.7510737419128418,
      "memory(GiB)": 57.83,
      "step": 6730,
      "token_acc": 0.8239202657807309,
      "train_speed(iter/s)": 1.511271
    },
    {
      "epoch": 0.28854804849835053,
      "grad_norm": 3.512310028076172,
      "learning_rate": 9.918050537883037e-05,
      "loss": 0.32025809288024903,
      "memory(GiB)": 57.83,
      "step": 6735,
      "token_acc": 0.918918918918919,
      "train_speed(iter/s)": 1.511346
    },
    {
      "epoch": 0.2887622638275995,
      "grad_norm": 3.33569073677063,
      "learning_rate": 9.917929149805462e-05,
      "loss": 0.30508835315704347,
      "memory(GiB)": 57.83,
      "step": 6740,
      "token_acc": 0.9314285714285714,
      "train_speed(iter/s)": 1.511338
    },
    {
      "epoch": 0.2889764791568485,
      "grad_norm": 1.867612361907959,
      "learning_rate": 9.917807672634989e-05,
      "loss": 0.5618594646453857,
      "memory(GiB)": 57.83,
      "step": 6745,
      "token_acc": 0.8936170212765957,
      "train_speed(iter/s)": 1.51151
    },
    {
      "epoch": 0.2891906944860974,
      "grad_norm": 3.2929255962371826,
      "learning_rate": 9.917686106373816e-05,
      "loss": 0.2535130977630615,
      "memory(GiB)": 57.83,
      "step": 6750,
      "token_acc": 0.9514925373134329,
      "train_speed(iter/s)": 1.511519
    },
    {
      "epoch": 0.2894049098153464,
      "grad_norm": 4.31369161605835,
      "learning_rate": 9.917564451024147e-05,
      "loss": 0.3781198740005493,
      "memory(GiB)": 57.83,
      "step": 6755,
      "token_acc": 0.9240506329113924,
      "train_speed(iter/s)": 1.511568
    },
    {
      "epoch": 0.28961912514459537,
      "grad_norm": 4.760101795196533,
      "learning_rate": 9.917442706588183e-05,
      "loss": 0.27748737335205076,
      "memory(GiB)": 57.83,
      "step": 6760,
      "token_acc": 0.9423076923076923,
      "train_speed(iter/s)": 1.511599
    },
    {
      "epoch": 0.2898333404738443,
      "grad_norm": 2.5961623191833496,
      "learning_rate": 9.917320873068132e-05,
      "loss": 0.2841786861419678,
      "memory(GiB)": 57.83,
      "step": 6765,
      "token_acc": 0.9292035398230089,
      "train_speed(iter/s)": 1.511546
    },
    {
      "epoch": 0.29004755580309327,
      "grad_norm": 2.423522472381592,
      "learning_rate": 9.9171989504662e-05,
      "loss": 0.43582978248596194,
      "memory(GiB)": 57.83,
      "step": 6770,
      "token_acc": 0.9093851132686084,
      "train_speed(iter/s)": 1.51169
    },
    {
      "epoch": 0.29026177113234225,
      "grad_norm": 2.969874858856201,
      "learning_rate": 9.917076938784597e-05,
      "loss": 0.31996402740478513,
      "memory(GiB)": 57.83,
      "step": 6775,
      "token_acc": 0.9087837837837838,
      "train_speed(iter/s)": 1.511681
    },
    {
      "epoch": 0.2904759864615912,
      "grad_norm": 2.9201338291168213,
      "learning_rate": 9.916954838025533e-05,
      "loss": 0.53292875289917,
      "memory(GiB)": 57.83,
      "step": 6780,
      "token_acc": 0.8827838827838828,
      "train_speed(iter/s)": 1.511883
    },
    {
      "epoch": 0.29069020179084015,
      "grad_norm": 2.5437862873077393,
      "learning_rate": 9.91683264819122e-05,
      "loss": 0.47618885040283204,
      "memory(GiB)": 57.83,
      "step": 6785,
      "token_acc": 0.9097222222222222,
      "train_speed(iter/s)": 1.51199
    },
    {
      "epoch": 0.29090441712008913,
      "grad_norm": 2.312044620513916,
      "learning_rate": 9.91671036928387e-05,
      "loss": 0.18593474626541137,
      "memory(GiB)": 57.83,
      "step": 6790,
      "token_acc": 0.965034965034965,
      "train_speed(iter/s)": 1.512089
    },
    {
      "epoch": 0.29111863244933806,
      "grad_norm": 1.845430850982666,
      "learning_rate": 9.9165880013057e-05,
      "loss": 0.26776275634765623,
      "memory(GiB)": 57.83,
      "step": 6795,
      "token_acc": 0.9438202247191011,
      "train_speed(iter/s)": 1.512067
    },
    {
      "epoch": 0.29133284777858703,
      "grad_norm": 1.6939797401428223,
      "learning_rate": 9.916465544258926e-05,
      "loss": 0.2662634372711182,
      "memory(GiB)": 57.83,
      "step": 6800,
      "token_acc": 0.9490196078431372,
      "train_speed(iter/s)": 1.512121
    },
    {
      "epoch": 0.291547063107836,
      "grad_norm": 1.1998353004455566,
      "learning_rate": 9.916342998145766e-05,
      "loss": 0.19747133255004884,
      "memory(GiB)": 57.83,
      "step": 6805,
      "token_acc": 0.9413793103448276,
      "train_speed(iter/s)": 1.512216
    },
    {
      "epoch": 0.29176127843708494,
      "grad_norm": 2.131963014602661,
      "learning_rate": 9.916220362968443e-05,
      "loss": 0.41002440452575684,
      "memory(GiB)": 57.83,
      "step": 6810,
      "token_acc": 0.9019607843137255,
      "train_speed(iter/s)": 1.512256
    },
    {
      "epoch": 0.2919754937663339,
      "grad_norm": 2.257479429244995,
      "learning_rate": 9.916097638729174e-05,
      "loss": 0.25909056663513186,
      "memory(GiB)": 57.83,
      "step": 6815,
      "token_acc": 0.9411764705882353,
      "train_speed(iter/s)": 1.512202
    },
    {
      "epoch": 0.2921897090955829,
      "grad_norm": 7.505083084106445,
      "learning_rate": 9.915974825430187e-05,
      "loss": 0.43703441619873046,
      "memory(GiB)": 57.83,
      "step": 6820,
      "token_acc": 0.8888888888888888,
      "train_speed(iter/s)": 1.512205
    },
    {
      "epoch": 0.2924039244248318,
      "grad_norm": 2.9049503803253174,
      "learning_rate": 9.915851923073702e-05,
      "loss": 0.23073127269744872,
      "memory(GiB)": 57.83,
      "step": 6825,
      "token_acc": 0.956140350877193,
      "train_speed(iter/s)": 1.51215
    },
    {
      "epoch": 0.2926181397540808,
      "grad_norm": 2.8844106197357178,
      "learning_rate": 9.915728931661949e-05,
      "loss": 0.7423871040344239,
      "memory(GiB)": 57.83,
      "step": 6830,
      "token_acc": 0.7993079584775087,
      "train_speed(iter/s)": 1.51224
    },
    {
      "epoch": 0.2928323550833298,
      "grad_norm": 1.5598363876342773,
      "learning_rate": 9.915605851197156e-05,
      "loss": 0.4712527275085449,
      "memory(GiB)": 57.83,
      "step": 6835,
      "token_acc": 0.8950819672131147,
      "train_speed(iter/s)": 1.512329
    },
    {
      "epoch": 0.2930465704125787,
      "grad_norm": 1.703057885169983,
      "learning_rate": 9.91548268168155e-05,
      "loss": 0.28084487915039064,
      "memory(GiB)": 57.83,
      "step": 6840,
      "token_acc": 0.9243421052631579,
      "train_speed(iter/s)": 1.512308
    },
    {
      "epoch": 0.2932607857418277,
      "grad_norm": 4.292952537536621,
      "learning_rate": 9.915359423117366e-05,
      "loss": 0.2443718433380127,
      "memory(GiB)": 57.83,
      "step": 6845,
      "token_acc": 0.9477351916376306,
      "train_speed(iter/s)": 1.51242
    },
    {
      "epoch": 0.29347500107107666,
      "grad_norm": 2.707275152206421,
      "learning_rate": 9.915236075506833e-05,
      "loss": 0.3532017946243286,
      "memory(GiB)": 57.83,
      "step": 6850,
      "token_acc": 0.9266409266409267,
      "train_speed(iter/s)": 1.512508
    },
    {
      "epoch": 0.2936892164003256,
      "grad_norm": 0.422793984413147,
      "learning_rate": 9.915112638852188e-05,
      "loss": 0.4425339698791504,
      "memory(GiB)": 57.83,
      "step": 6855,
      "token_acc": 0.9243027888446215,
      "train_speed(iter/s)": 1.512556
    },
    {
      "epoch": 0.29390343172957456,
      "grad_norm": 2.2368855476379395,
      "learning_rate": 9.914989113155668e-05,
      "loss": 0.2529210090637207,
      "memory(GiB)": 57.83,
      "step": 6860,
      "token_acc": 0.9432624113475178,
      "train_speed(iter/s)": 1.512556
    },
    {
      "epoch": 0.29411764705882354,
      "grad_norm": 1.9608335494995117,
      "learning_rate": 9.91486549841951e-05,
      "loss": 0.3926483869552612,
      "memory(GiB)": 57.83,
      "step": 6865,
      "token_acc": 0.9061488673139159,
      "train_speed(iter/s)": 1.512569
    },
    {
      "epoch": 0.2943318623880725,
      "grad_norm": 4.714572906494141,
      "learning_rate": 9.914741794645952e-05,
      "loss": 0.42986578941345216,
      "memory(GiB)": 57.83,
      "step": 6870,
      "token_acc": 0.9133333333333333,
      "train_speed(iter/s)": 1.512636
    },
    {
      "epoch": 0.29454607771732144,
      "grad_norm": 0.22730474174022675,
      "learning_rate": 9.914618001837235e-05,
      "loss": 0.5279127597808838,
      "memory(GiB)": 57.83,
      "step": 6875,
      "token_acc": 0.8885017421602788,
      "train_speed(iter/s)": 1.51257
    },
    {
      "epoch": 0.2947602930465704,
      "grad_norm": 3.1628425121307373,
      "learning_rate": 9.914494119995604e-05,
      "loss": 0.41266465187072754,
      "memory(GiB)": 57.83,
      "step": 6880,
      "token_acc": 0.8885350318471338,
      "train_speed(iter/s)": 1.512656
    },
    {
      "epoch": 0.2949745083758194,
      "grad_norm": 6.228361129760742,
      "learning_rate": 9.914370149123302e-05,
      "loss": 0.3760586500167847,
      "memory(GiB)": 57.83,
      "step": 6885,
      "token_acc": 0.9114391143911439,
      "train_speed(iter/s)": 1.51271
    },
    {
      "epoch": 0.2951887237050683,
      "grad_norm": 4.047192573547363,
      "learning_rate": 9.914246089222575e-05,
      "loss": 0.24162516593933106,
      "memory(GiB)": 57.83,
      "step": 6890,
      "token_acc": 0.9554896142433235,
      "train_speed(iter/s)": 1.512843
    },
    {
      "epoch": 0.2954029390343173,
      "grad_norm": 3.0303304195404053,
      "learning_rate": 9.914121940295669e-05,
      "loss": 0.4208077430725098,
      "memory(GiB)": 57.83,
      "step": 6895,
      "token_acc": 0.9122257053291536,
      "train_speed(iter/s)": 1.512982
    },
    {
      "epoch": 0.2956171543635663,
      "grad_norm": 1.7910605669021606,
      "learning_rate": 9.913997702344834e-05,
      "loss": 0.46535773277282716,
      "memory(GiB)": 57.83,
      "step": 6900,
      "token_acc": 0.888283378746594,
      "train_speed(iter/s)": 1.5131
    },
    {
      "epoch": 0.2958313696928152,
      "grad_norm": 4.656360149383545,
      "learning_rate": 9.913873375372321e-05,
      "loss": 0.65853910446167,
      "memory(GiB)": 57.83,
      "step": 6905,
      "token_acc": 0.8867924528301887,
      "train_speed(iter/s)": 1.513087
    },
    {
      "epoch": 0.2960455850220642,
      "grad_norm": 1.7705928087234497,
      "learning_rate": 9.913748959380382e-05,
      "loss": 0.22304284572601318,
      "memory(GiB)": 57.83,
      "step": 6910,
      "token_acc": 0.9515570934256056,
      "train_speed(iter/s)": 1.513227
    },
    {
      "epoch": 0.29625980035131316,
      "grad_norm": 4.257490634918213,
      "learning_rate": 9.913624454371273e-05,
      "loss": 0.44872655868530276,
      "memory(GiB)": 57.83,
      "step": 6915,
      "token_acc": 0.8984126984126984,
      "train_speed(iter/s)": 1.513312
    },
    {
      "epoch": 0.2964740156805621,
      "grad_norm": 3.3854780197143555,
      "learning_rate": 9.913499860347246e-05,
      "loss": 0.46138315200805663,
      "memory(GiB)": 57.83,
      "step": 6920,
      "token_acc": 0.9045936395759717,
      "train_speed(iter/s)": 1.513393
    },
    {
      "epoch": 0.29668823100981107,
      "grad_norm": 3.9084274768829346,
      "learning_rate": 9.91337517731056e-05,
      "loss": 0.23434827327728272,
      "memory(GiB)": 57.83,
      "step": 6925,
      "token_acc": 0.9540229885057471,
      "train_speed(iter/s)": 1.513354
    },
    {
      "epoch": 0.29690244633906004,
      "grad_norm": 2.3918936252593994,
      "learning_rate": 9.913250405263474e-05,
      "loss": 0.7487889766693115,
      "memory(GiB)": 57.83,
      "step": 6930,
      "token_acc": 0.8745874587458746,
      "train_speed(iter/s)": 1.513454
    },
    {
      "epoch": 0.29711666166830897,
      "grad_norm": 2.6662282943725586,
      "learning_rate": 9.913125544208248e-05,
      "loss": 0.4085972785949707,
      "memory(GiB)": 57.83,
      "step": 6935,
      "token_acc": 0.916083916083916,
      "train_speed(iter/s)": 1.513533
    },
    {
      "epoch": 0.29733087699755795,
      "grad_norm": 2.9608867168426514,
      "learning_rate": 9.913000594147144e-05,
      "loss": 0.30474166870117186,
      "memory(GiB)": 57.83,
      "step": 6940,
      "token_acc": 0.9288135593220339,
      "train_speed(iter/s)": 1.513592
    },
    {
      "epoch": 0.2975450923268069,
      "grad_norm": 1.96047842502594,
      "learning_rate": 9.912875555082425e-05,
      "loss": 0.4579944610595703,
      "memory(GiB)": 57.83,
      "step": 6945,
      "token_acc": 0.9368770764119602,
      "train_speed(iter/s)": 1.513525
    },
    {
      "epoch": 0.29775930765605585,
      "grad_norm": 1.3485209941864014,
      "learning_rate": 9.912750427016356e-05,
      "loss": 0.3267801284790039,
      "memory(GiB)": 57.83,
      "step": 6950,
      "token_acc": 0.9216216216216216,
      "train_speed(iter/s)": 1.513519
    },
    {
      "epoch": 0.29797352298530483,
      "grad_norm": 1.4287772178649902,
      "learning_rate": 9.912625209951206e-05,
      "loss": 0.5012242794036865,
      "memory(GiB)": 57.83,
      "step": 6955,
      "token_acc": 0.9052132701421801,
      "train_speed(iter/s)": 1.513531
    },
    {
      "epoch": 0.2981877383145538,
      "grad_norm": 8.136691093444824,
      "learning_rate": 9.91249990388924e-05,
      "loss": 0.33779704570770264,
      "memory(GiB)": 57.83,
      "step": 6960,
      "token_acc": 0.9241379310344827,
      "train_speed(iter/s)": 1.513459
    },
    {
      "epoch": 0.29840195364380273,
      "grad_norm": 2.9507246017456055,
      "learning_rate": 9.912374508832732e-05,
      "loss": 0.41786603927612304,
      "memory(GiB)": 57.83,
      "step": 6965,
      "token_acc": 0.9198606271777003,
      "train_speed(iter/s)": 1.513463
    },
    {
      "epoch": 0.2986161689730517,
      "grad_norm": 3.5575520992279053,
      "learning_rate": 9.912249024783951e-05,
      "loss": 0.4341097354888916,
      "memory(GiB)": 57.83,
      "step": 6970,
      "token_acc": 0.915129151291513,
      "train_speed(iter/s)": 1.513458
    },
    {
      "epoch": 0.2988303843023007,
      "grad_norm": 2.142886161804199,
      "learning_rate": 9.91212345174517e-05,
      "loss": 0.5189872741699219,
      "memory(GiB)": 57.83,
      "step": 6975,
      "token_acc": 0.9180327868852459,
      "train_speed(iter/s)": 1.513461
    },
    {
      "epoch": 0.2990445996315496,
      "grad_norm": 2.6330983638763428,
      "learning_rate": 9.911997789718666e-05,
      "loss": 0.5798794746398925,
      "memory(GiB)": 57.83,
      "step": 6980,
      "token_acc": 0.8673139158576052,
      "train_speed(iter/s)": 1.513426
    },
    {
      "epoch": 0.2992588149607986,
      "grad_norm": 4.009677410125732,
      "learning_rate": 9.911872038706713e-05,
      "loss": 0.3306786298751831,
      "memory(GiB)": 57.83,
      "step": 6985,
      "token_acc": 0.9210526315789473,
      "train_speed(iter/s)": 1.513512
    },
    {
      "epoch": 0.29947303029004757,
      "grad_norm": 2.3541738986968994,
      "learning_rate": 9.911746198711591e-05,
      "loss": 0.19779937267303466,
      "memory(GiB)": 57.83,
      "step": 6990,
      "token_acc": 0.9575289575289575,
      "train_speed(iter/s)": 1.513516
    },
    {
      "epoch": 0.2996872456192965,
      "grad_norm": 3.373408794403076,
      "learning_rate": 9.911620269735578e-05,
      "loss": 0.4963990211486816,
      "memory(GiB)": 57.83,
      "step": 6995,
      "token_acc": 0.8949152542372881,
      "train_speed(iter/s)": 1.513512
    },
    {
      "epoch": 0.2999014609485455,
      "grad_norm": 6.596762180328369,
      "learning_rate": 9.911494251780957e-05,
      "loss": 0.39969258308410643,
      "memory(GiB)": 57.83,
      "step": 7000,
      "token_acc": 0.9124293785310734,
      "train_speed(iter/s)": 1.513533
    },
    {
      "epoch": 0.2999014609485455,
      "eval_loss": 2.6168062686920166,
      "eval_runtime": 12.2294,
      "eval_samples_per_second": 8.177,
      "eval_steps_per_second": 8.177,
      "eval_token_acc": 0.4351145038167939,
      "step": 7000
    },
    {
      "epoch": 0.30011567627779445,
      "grad_norm": 2.481531858444214,
      "learning_rate": 9.911368144850011e-05,
      "loss": 0.4692357063293457,
      "memory(GiB)": 57.83,
      "step": 7005,
      "token_acc": 0.5747747747747748,
      "train_speed(iter/s)": 1.509252
    },
    {
      "epoch": 0.3003298916070434,
      "grad_norm": 4.111051559448242,
      "learning_rate": 9.911241948945022e-05,
      "loss": 0.3280489921569824,
      "memory(GiB)": 57.83,
      "step": 7010,
      "token_acc": 0.9347079037800687,
      "train_speed(iter/s)": 1.509267
    },
    {
      "epoch": 0.30054410693629235,
      "grad_norm": 1.2875235080718994,
      "learning_rate": 9.91111566406828e-05,
      "loss": 0.4860054016113281,
      "memory(GiB)": 57.83,
      "step": 7015,
      "token_acc": 0.8571428571428571,
      "train_speed(iter/s)": 1.509267
    },
    {
      "epoch": 0.30075832226554133,
      "grad_norm": 4.2224225997924805,
      "learning_rate": 9.91098929022207e-05,
      "loss": 0.280168342590332,
      "memory(GiB)": 57.83,
      "step": 7020,
      "token_acc": 0.9304029304029304,
      "train_speed(iter/s)": 1.509257
    },
    {
      "epoch": 0.30097253759479026,
      "grad_norm": 3.7367804050445557,
      "learning_rate": 9.910862827408682e-05,
      "loss": 0.420220947265625,
      "memory(GiB)": 57.83,
      "step": 7025,
      "token_acc": 0.9094202898550725,
      "train_speed(iter/s)": 1.509311
    },
    {
      "epoch": 0.30118675292403924,
      "grad_norm": 6.199322700500488,
      "learning_rate": 9.910736275630408e-05,
      "loss": 0.23392961025238038,
      "memory(GiB)": 57.83,
      "step": 7030,
      "token_acc": 0.9400749063670412,
      "train_speed(iter/s)": 1.509367
    },
    {
      "epoch": 0.3014009682532882,
      "grad_norm": 3.7858235836029053,
      "learning_rate": 9.910609634889538e-05,
      "loss": 0.3799464225769043,
      "memory(GiB)": 57.83,
      "step": 7035,
      "token_acc": 0.9166666666666666,
      "train_speed(iter/s)": 1.509381
    },
    {
      "epoch": 0.3016151835825372,
      "grad_norm": 3.575618267059326,
      "learning_rate": 9.91048290518837e-05,
      "loss": 0.5931829452514649,
      "memory(GiB)": 57.83,
      "step": 7040,
      "token_acc": 0.8847262247838616,
      "train_speed(iter/s)": 1.509484
    },
    {
      "epoch": 0.3018293989117861,
      "grad_norm": 2.242368698120117,
      "learning_rate": 9.910356086529196e-05,
      "loss": 0.39293580055236815,
      "memory(GiB)": 57.83,
      "step": 7045,
      "token_acc": 0.8931297709923665,
      "train_speed(iter/s)": 1.509537
    },
    {
      "epoch": 0.3020436142410351,
      "grad_norm": 5.320410251617432,
      "learning_rate": 9.910229178914317e-05,
      "loss": 0.5389390468597413,
      "memory(GiB)": 57.83,
      "step": 7050,
      "token_acc": 0.9016393442622951,
      "train_speed(iter/s)": 1.509554
    },
    {
      "epoch": 0.3022578295702841,
      "grad_norm": 0.04408201575279236,
      "learning_rate": 9.910102182346029e-05,
      "loss": 0.2133228063583374,
      "memory(GiB)": 57.83,
      "step": 7055,
      "token_acc": 0.9533333333333334,
      "train_speed(iter/s)": 1.509536
    },
    {
      "epoch": 0.302472044899533,
      "grad_norm": 2.8032453060150146,
      "learning_rate": 9.909975096826634e-05,
      "loss": 0.30033714771270753,
      "memory(GiB)": 57.83,
      "step": 7060,
      "token_acc": 0.9395973154362416,
      "train_speed(iter/s)": 1.509598
    },
    {
      "epoch": 0.302686260228782,
      "grad_norm": 1.5181622505187988,
      "learning_rate": 9.909847922358432e-05,
      "loss": 0.3096545934677124,
      "memory(GiB)": 57.83,
      "step": 7065,
      "token_acc": 0.9294871794871795,
      "train_speed(iter/s)": 1.509599
    },
    {
      "epoch": 0.30290047555803096,
      "grad_norm": 1.9028234481811523,
      "learning_rate": 9.909720658943733e-05,
      "loss": 0.3219677686691284,
      "memory(GiB)": 57.83,
      "step": 7070,
      "token_acc": 0.9307692307692308,
      "train_speed(iter/s)": 1.50974
    },
    {
      "epoch": 0.3031146908872799,
      "grad_norm": 2.1404778957366943,
      "learning_rate": 9.909593306584837e-05,
      "loss": 0.3770033597946167,
      "memory(GiB)": 57.83,
      "step": 7075,
      "token_acc": 0.9204892966360856,
      "train_speed(iter/s)": 1.509829
    },
    {
      "epoch": 0.30332890621652886,
      "grad_norm": 2.360537052154541,
      "learning_rate": 9.909465865284052e-05,
      "loss": 0.36577568054199217,
      "memory(GiB)": 57.83,
      "step": 7080,
      "token_acc": 0.9265175718849841,
      "train_speed(iter/s)": 1.509862
    },
    {
      "epoch": 0.30354312154577784,
      "grad_norm": 5.3821492195129395,
      "learning_rate": 9.909338335043688e-05,
      "loss": 0.41852707862854005,
      "memory(GiB)": 57.83,
      "step": 7085,
      "token_acc": 0.9217081850533808,
      "train_speed(iter/s)": 1.510056
    },
    {
      "epoch": 0.30375733687502676,
      "grad_norm": 1.135039210319519,
      "learning_rate": 9.909210715866055e-05,
      "loss": 0.31890828609466554,
      "memory(GiB)": 57.83,
      "step": 7090,
      "token_acc": 0.9364548494983278,
      "train_speed(iter/s)": 1.510078
    },
    {
      "epoch": 0.30397155220427574,
      "grad_norm": 2.247605085372925,
      "learning_rate": 9.909083007753464e-05,
      "loss": 0.4199732780456543,
      "memory(GiB)": 57.83,
      "step": 7095,
      "token_acc": 0.9020979020979021,
      "train_speed(iter/s)": 1.510076
    },
    {
      "epoch": 0.3041857675335247,
      "grad_norm": 3.257331609725952,
      "learning_rate": 9.90895521070823e-05,
      "loss": 0.3356150150299072,
      "memory(GiB)": 57.83,
      "step": 7100,
      "token_acc": 0.9396551724137931,
      "train_speed(iter/s)": 1.510097
    },
    {
      "epoch": 0.30439998286277364,
      "grad_norm": 1.700039029121399,
      "learning_rate": 9.908827324732667e-05,
      "loss": 0.2570678949356079,
      "memory(GiB)": 57.83,
      "step": 7105,
      "token_acc": 0.9446153846153846,
      "train_speed(iter/s)": 1.510109
    },
    {
      "epoch": 0.3046141981920226,
      "grad_norm": 1.92388117313385,
      "learning_rate": 9.908699349829091e-05,
      "loss": 0.2944466590881348,
      "memory(GiB)": 57.83,
      "step": 7110,
      "token_acc": 0.9233716475095786,
      "train_speed(iter/s)": 1.510128
    },
    {
      "epoch": 0.3048284135212716,
      "grad_norm": 3.6306886672973633,
      "learning_rate": 9.908571285999824e-05,
      "loss": 0.344616174697876,
      "memory(GiB)": 57.83,
      "step": 7115,
      "token_acc": 0.9418181818181818,
      "train_speed(iter/s)": 1.51033
    },
    {
      "epoch": 0.3050426288505205,
      "grad_norm": 2.640101671218872,
      "learning_rate": 9.908443133247182e-05,
      "loss": 0.23415727615356446,
      "memory(GiB)": 57.83,
      "step": 7120,
      "token_acc": 0.9636363636363636,
      "train_speed(iter/s)": 1.510335
    },
    {
      "epoch": 0.3052568441797695,
      "grad_norm": 1.8156806230545044,
      "learning_rate": 9.908314891573489e-05,
      "loss": 0.4750521183013916,
      "memory(GiB)": 57.83,
      "step": 7125,
      "token_acc": 0.9,
      "train_speed(iter/s)": 1.51035
    },
    {
      "epoch": 0.3054710595090185,
      "grad_norm": 2.5328686237335205,
      "learning_rate": 9.908186560981066e-05,
      "loss": 0.42148470878601074,
      "memory(GiB)": 57.83,
      "step": 7130,
      "token_acc": 0.9213483146067416,
      "train_speed(iter/s)": 1.510329
    },
    {
      "epoch": 0.3056852748382674,
      "grad_norm": 2.3980135917663574,
      "learning_rate": 9.908058141472239e-05,
      "loss": 0.3529754638671875,
      "memory(GiB)": 57.83,
      "step": 7135,
      "token_acc": 0.9071428571428571,
      "train_speed(iter/s)": 1.51031
    },
    {
      "epoch": 0.3058994901675164,
      "grad_norm": 2.0531702041625977,
      "learning_rate": 9.907929633049336e-05,
      "loss": 0.399121618270874,
      "memory(GiB)": 57.83,
      "step": 7140,
      "token_acc": 0.926056338028169,
      "train_speed(iter/s)": 1.510471
    },
    {
      "epoch": 0.30611370549676536,
      "grad_norm": 7.756535053253174,
      "learning_rate": 9.907801035714684e-05,
      "loss": 0.3605761766433716,
      "memory(GiB)": 57.83,
      "step": 7145,
      "token_acc": 0.9330855018587361,
      "train_speed(iter/s)": 1.510448
    },
    {
      "epoch": 0.3063279208260143,
      "grad_norm": 1.69660222530365,
      "learning_rate": 9.907672349470612e-05,
      "loss": 0.43435087203979494,
      "memory(GiB)": 57.83,
      "step": 7150,
      "token_acc": 0.9169435215946844,
      "train_speed(iter/s)": 1.510435
    },
    {
      "epoch": 0.30654213615526327,
      "grad_norm": 1.186453104019165,
      "learning_rate": 9.90754357431945e-05,
      "loss": 0.2823386907577515,
      "memory(GiB)": 57.83,
      "step": 7155,
      "token_acc": 0.9257294429708223,
      "train_speed(iter/s)": 1.51039
    },
    {
      "epoch": 0.30675635148451225,
      "grad_norm": 0.7937273979187012,
      "learning_rate": 9.907414710263534e-05,
      "loss": 0.3387059926986694,
      "memory(GiB)": 57.83,
      "step": 7160,
      "token_acc": 0.9230769230769231,
      "train_speed(iter/s)": 1.510632
    },
    {
      "epoch": 0.30697056681376117,
      "grad_norm": 2.9408700466156006,
      "learning_rate": 9.907285757305198e-05,
      "loss": 0.3308942079544067,
      "memory(GiB)": 57.83,
      "step": 7165,
      "token_acc": 0.9236111111111112,
      "train_speed(iter/s)": 1.510635
    },
    {
      "epoch": 0.30718478214301015,
      "grad_norm": 1.8256409168243408,
      "learning_rate": 9.907156715446775e-05,
      "loss": 0.37187657356262205,
      "memory(GiB)": 57.83,
      "step": 7170,
      "token_acc": 0.9267015706806283,
      "train_speed(iter/s)": 1.510746
    },
    {
      "epoch": 0.30739899747225913,
      "grad_norm": 2.4910104274749756,
      "learning_rate": 9.907027584690605e-05,
      "loss": 0.2627954244613647,
      "memory(GiB)": 57.83,
      "step": 7175,
      "token_acc": 0.9343629343629344,
      "train_speed(iter/s)": 1.510785
    },
    {
      "epoch": 0.30761321280150805,
      "grad_norm": 2.7703402042388916,
      "learning_rate": 9.906898365039027e-05,
      "loss": 0.4567392826080322,
      "memory(GiB)": 57.83,
      "step": 7180,
      "token_acc": 0.9194630872483222,
      "train_speed(iter/s)": 1.510854
    },
    {
      "epoch": 0.30782742813075703,
      "grad_norm": 2.7235138416290283,
      "learning_rate": 9.906769056494384e-05,
      "loss": 0.4511093616485596,
      "memory(GiB)": 57.83,
      "step": 7185,
      "token_acc": 0.9040590405904059,
      "train_speed(iter/s)": 1.510887
    },
    {
      "epoch": 0.308041643460006,
      "grad_norm": 1.822920560836792,
      "learning_rate": 9.906639659059015e-05,
      "loss": 0.49080400466918944,
      "memory(GiB)": 57.83,
      "step": 7190,
      "token_acc": 0.8855421686746988,
      "train_speed(iter/s)": 1.510892
    },
    {
      "epoch": 0.30825585878925493,
      "grad_norm": 3.0704030990600586,
      "learning_rate": 9.906510172735266e-05,
      "loss": 0.39001994132995604,
      "memory(GiB)": 57.83,
      "step": 7195,
      "token_acc": 0.8955223880597015,
      "train_speed(iter/s)": 1.510879
    },
    {
      "epoch": 0.3084700741185039,
      "grad_norm": 1.502203106880188,
      "learning_rate": 9.906380597525484e-05,
      "loss": 0.38588905334472656,
      "memory(GiB)": 57.83,
      "step": 7200,
      "token_acc": 0.9333333333333333,
      "train_speed(iter/s)": 1.511061
    },
    {
      "epoch": 0.3086842894477529,
      "grad_norm": 7.2122697830200195,
      "learning_rate": 9.906250933432013e-05,
      "loss": 0.326758599281311,
      "memory(GiB)": 57.83,
      "step": 7205,
      "token_acc": 0.9442379182156134,
      "train_speed(iter/s)": 1.511154
    },
    {
      "epoch": 0.30889850477700187,
      "grad_norm": 3.6200544834136963,
      "learning_rate": 9.906121180457204e-05,
      "loss": 0.32402992248535156,
      "memory(GiB)": 57.83,
      "step": 7210,
      "token_acc": 0.9064516129032258,
      "train_speed(iter/s)": 1.511188
    },
    {
      "epoch": 0.3091127201062508,
      "grad_norm": 2.5188660621643066,
      "learning_rate": 9.905991338603409e-05,
      "loss": 0.30301337242126464,
      "memory(GiB)": 57.83,
      "step": 7215,
      "token_acc": 0.9272030651340997,
      "train_speed(iter/s)": 1.511148
    },
    {
      "epoch": 0.3093269354354998,
      "grad_norm": 3.2398176193237305,
      "learning_rate": 9.905861407872977e-05,
      "loss": 0.5865688800811768,
      "memory(GiB)": 57.83,
      "step": 7220,
      "token_acc": 0.8838709677419355,
      "train_speed(iter/s)": 1.511133
    },
    {
      "epoch": 0.30954115076474875,
      "grad_norm": 1.9867908954620361,
      "learning_rate": 9.905731388268265e-05,
      "loss": 0.48798527717590334,
      "memory(GiB)": 57.83,
      "step": 7225,
      "token_acc": 0.9107142857142857,
      "train_speed(iter/s)": 1.511117
    },
    {
      "epoch": 0.3097553660939977,
      "grad_norm": 1.8459936380386353,
      "learning_rate": 9.905601279791626e-05,
      "loss": 0.2745154142379761,
      "memory(GiB)": 57.83,
      "step": 7230,
      "token_acc": 0.9340277777777778,
      "train_speed(iter/s)": 1.511229
    },
    {
      "epoch": 0.30996958142324665,
      "grad_norm": 1.4962657690048218,
      "learning_rate": 9.905471082445419e-05,
      "loss": 0.38381710052490237,
      "memory(GiB)": 57.83,
      "step": 7235,
      "token_acc": 0.9100346020761245,
      "train_speed(iter/s)": 1.511319
    },
    {
      "epoch": 0.31018379675249563,
      "grad_norm": 1.8625282049179077,
      "learning_rate": 9.905340796232e-05,
      "loss": 0.3996737957000732,
      "memory(GiB)": 57.83,
      "step": 7240,
      "token_acc": 0.9027355623100304,
      "train_speed(iter/s)": 1.511356
    },
    {
      "epoch": 0.31039801208174456,
      "grad_norm": 3.514888286590576,
      "learning_rate": 9.905210421153732e-05,
      "loss": 0.39510197639465333,
      "memory(GiB)": 57.83,
      "step": 7245,
      "token_acc": 0.9135446685878963,
      "train_speed(iter/s)": 1.51133
    },
    {
      "epoch": 0.31061222741099354,
      "grad_norm": 3.0047366619110107,
      "learning_rate": 9.905079957212975e-05,
      "loss": 0.29152426719665525,
      "memory(GiB)": 57.83,
      "step": 7250,
      "token_acc": 0.9323308270676691,
      "train_speed(iter/s)": 1.511435
    },
    {
      "epoch": 0.3108264427402425,
      "grad_norm": 2.310354709625244,
      "learning_rate": 9.904949404412094e-05,
      "loss": 0.22519874572753906,
      "memory(GiB)": 57.83,
      "step": 7255,
      "token_acc": 0.9372937293729373,
      "train_speed(iter/s)": 1.51153
    },
    {
      "epoch": 0.31104065806949144,
      "grad_norm": 3.532041549682617,
      "learning_rate": 9.904818762753454e-05,
      "loss": 0.4787618637084961,
      "memory(GiB)": 57.83,
      "step": 7260,
      "token_acc": 0.9148264984227129,
      "train_speed(iter/s)": 1.511536
    },
    {
      "epoch": 0.3112548733987404,
      "grad_norm": 0.8043096661567688,
      "learning_rate": 9.904688032239419e-05,
      "loss": 0.556431245803833,
      "memory(GiB)": 57.83,
      "step": 7265,
      "token_acc": 0.883495145631068,
      "train_speed(iter/s)": 1.511569
    },
    {
      "epoch": 0.3114690887279894,
      "grad_norm": 4.572041988372803,
      "learning_rate": 9.904557212872361e-05,
      "loss": 0.4755897521972656,
      "memory(GiB)": 57.83,
      "step": 7270,
      "token_acc": 0.9011299435028248,
      "train_speed(iter/s)": 1.511649
    },
    {
      "epoch": 0.3116833040572383,
      "grad_norm": 3.7162179946899414,
      "learning_rate": 9.904426304654648e-05,
      "loss": 0.6100828170776367,
      "memory(GiB)": 57.83,
      "step": 7275,
      "token_acc": 0.8745387453874539,
      "train_speed(iter/s)": 1.511665
    },
    {
      "epoch": 0.3118975193864873,
      "grad_norm": 1.6004219055175781,
      "learning_rate": 9.904295307588651e-05,
      "loss": 0.28150181770324706,
      "memory(GiB)": 57.83,
      "step": 7280,
      "token_acc": 0.9498069498069498,
      "train_speed(iter/s)": 1.511663
    },
    {
      "epoch": 0.3121117347157363,
      "grad_norm": 3.929323434829712,
      "learning_rate": 9.904164221676745e-05,
      "loss": 0.38715271949768065,
      "memory(GiB)": 57.83,
      "step": 7285,
      "token_acc": 0.8979591836734694,
      "train_speed(iter/s)": 1.511704
    },
    {
      "epoch": 0.3123259500449852,
      "grad_norm": 1.162683367729187,
      "learning_rate": 9.904033046921303e-05,
      "loss": 0.4963186740875244,
      "memory(GiB)": 57.83,
      "step": 7290,
      "token_acc": 0.9094076655052264,
      "train_speed(iter/s)": 1.511725
    },
    {
      "epoch": 0.3125401653742342,
      "grad_norm": 4.510733127593994,
      "learning_rate": 9.903901783324702e-05,
      "loss": 0.3640536546707153,
      "memory(GiB)": 57.83,
      "step": 7295,
      "token_acc": 0.9285714285714286,
      "train_speed(iter/s)": 1.511888
    },
    {
      "epoch": 0.31275438070348316,
      "grad_norm": 3.521667718887329,
      "learning_rate": 9.90377043088932e-05,
      "loss": 0.5091758251190186,
      "memory(GiB)": 57.83,
      "step": 7300,
      "token_acc": 0.9069767441860465,
      "train_speed(iter/s)": 1.512013
    },
    {
      "epoch": 0.3129685960327321,
      "grad_norm": 2.503905773162842,
      "learning_rate": 9.903638989617537e-05,
      "loss": 0.4140665531158447,
      "memory(GiB)": 57.83,
      "step": 7305,
      "token_acc": 0.9116719242902208,
      "train_speed(iter/s)": 1.512093
    },
    {
      "epoch": 0.31318281136198106,
      "grad_norm": 5.485773086547852,
      "learning_rate": 9.903507459511733e-05,
      "loss": 0.7755597114562989,
      "memory(GiB)": 57.83,
      "step": 7310,
      "token_acc": 0.8536585365853658,
      "train_speed(iter/s)": 1.512175
    },
    {
      "epoch": 0.31339702669123004,
      "grad_norm": 4.57386589050293,
      "learning_rate": 9.903375840574291e-05,
      "loss": 0.7655128479003906,
      "memory(GiB)": 57.83,
      "step": 7315,
      "token_acc": 0.8305647840531561,
      "train_speed(iter/s)": 1.51223
    },
    {
      "epoch": 0.31361124202047896,
      "grad_norm": 0.18039590120315552,
      "learning_rate": 9.903244132807597e-05,
      "loss": 0.25089752674102783,
      "memory(GiB)": 57.83,
      "step": 7320,
      "token_acc": 0.948339483394834,
      "train_speed(iter/s)": 1.512267
    },
    {
      "epoch": 0.31382545734972794,
      "grad_norm": 5.29689359664917,
      "learning_rate": 9.903112336214035e-05,
      "loss": 0.42615246772766113,
      "memory(GiB)": 57.83,
      "step": 7325,
      "token_acc": 0.9087947882736156,
      "train_speed(iter/s)": 1.512264
    },
    {
      "epoch": 0.3140396726789769,
      "grad_norm": 3.888011932373047,
      "learning_rate": 9.902980450795996e-05,
      "loss": 0.35603621006011965,
      "memory(GiB)": 57.83,
      "step": 7330,
      "token_acc": 0.9127725856697819,
      "train_speed(iter/s)": 1.512413
    },
    {
      "epoch": 0.31425388800822585,
      "grad_norm": 4.163918972015381,
      "learning_rate": 9.902848476555864e-05,
      "loss": 0.6894698143005371,
      "memory(GiB)": 57.83,
      "step": 7335,
      "token_acc": 0.8617363344051447,
      "train_speed(iter/s)": 1.512513
    },
    {
      "epoch": 0.3144681033374748,
      "grad_norm": 5.216299533843994,
      "learning_rate": 9.902716413496034e-05,
      "loss": 0.5508815765380859,
      "memory(GiB)": 57.83,
      "step": 7340,
      "token_acc": 0.8741496598639455,
      "train_speed(iter/s)": 1.512526
    },
    {
      "epoch": 0.3146823186667238,
      "grad_norm": 3.7649664878845215,
      "learning_rate": 9.902584261618896e-05,
      "loss": 0.33192620277404783,
      "memory(GiB)": 57.83,
      "step": 7345,
      "token_acc": 0.9494949494949495,
      "train_speed(iter/s)": 1.512612
    },
    {
      "epoch": 0.3148965339959727,
      "grad_norm": 0.5429190397262573,
      "learning_rate": 9.902452020926845e-05,
      "loss": 0.24877243041992186,
      "memory(GiB)": 57.83,
      "step": 7350,
      "token_acc": 0.9496124031007752,
      "train_speed(iter/s)": 1.512744
    },
    {
      "epoch": 0.3151107493252217,
      "grad_norm": 2.708301067352295,
      "learning_rate": 9.902319691422277e-05,
      "loss": 0.335737419128418,
      "memory(GiB)": 57.83,
      "step": 7355,
      "token_acc": 0.9164086687306502,
      "train_speed(iter/s)": 1.512727
    },
    {
      "epoch": 0.3153249646544707,
      "grad_norm": 1.7026225328445435,
      "learning_rate": 9.902187273107591e-05,
      "loss": 0.23086197376251222,
      "memory(GiB)": 57.83,
      "step": 7360,
      "token_acc": 0.9535714285714286,
      "train_speed(iter/s)": 1.512824
    },
    {
      "epoch": 0.3155391799837196,
      "grad_norm": 2.1995391845703125,
      "learning_rate": 9.902054765985182e-05,
      "loss": 0.6104345321655273,
      "memory(GiB)": 57.83,
      "step": 7365,
      "token_acc": 0.8770491803278688,
      "train_speed(iter/s)": 1.51292
    },
    {
      "epoch": 0.3157533953129686,
      "grad_norm": 3.046618938446045,
      "learning_rate": 9.901922170057452e-05,
      "loss": 0.42105765342712403,
      "memory(GiB)": 57.83,
      "step": 7370,
      "token_acc": 0.9156626506024096,
      "train_speed(iter/s)": 1.51293
    },
    {
      "epoch": 0.31596761064221757,
      "grad_norm": 3.6870734691619873,
      "learning_rate": 9.901789485326804e-05,
      "loss": 0.619783878326416,
      "memory(GiB)": 57.83,
      "step": 7375,
      "token_acc": 0.8854166666666666,
      "train_speed(iter/s)": 1.513035
    },
    {
      "epoch": 0.31618182597146655,
      "grad_norm": 2.9537124633789062,
      "learning_rate": 9.901656711795641e-05,
      "loss": 0.5222084045410156,
      "memory(GiB)": 57.83,
      "step": 7380,
      "token_acc": 0.8859060402684564,
      "train_speed(iter/s)": 1.513194
    },
    {
      "epoch": 0.31639604130071547,
      "grad_norm": 2.0172665119171143,
      "learning_rate": 9.90152384946637e-05,
      "loss": 0.32829673290252687,
      "memory(GiB)": 57.83,
      "step": 7385,
      "token_acc": 0.9249146757679181,
      "train_speed(iter/s)": 1.513381
    },
    {
      "epoch": 0.31661025662996445,
      "grad_norm": 3.6691906452178955,
      "learning_rate": 9.901390898341397e-05,
      "loss": 0.2679779052734375,
      "memory(GiB)": 57.83,
      "step": 7390,
      "token_acc": 0.9273356401384083,
      "train_speed(iter/s)": 1.51355
    },
    {
      "epoch": 0.3168244719592134,
      "grad_norm": 3.602094888687134,
      "learning_rate": 9.901257858423127e-05,
      "loss": 0.6269121170043945,
      "memory(GiB)": 57.83,
      "step": 7395,
      "token_acc": 0.8669064748201439,
      "train_speed(iter/s)": 1.513526
    },
    {
      "epoch": 0.31703868728846235,
      "grad_norm": 6.41495943069458,
      "learning_rate": 9.901124729713975e-05,
      "loss": 0.5300108909606933,
      "memory(GiB)": 57.83,
      "step": 7400,
      "token_acc": 0.889261744966443,
      "train_speed(iter/s)": 1.513503
    },
    {
      "epoch": 0.31725290261771133,
      "grad_norm": 1.362703800201416,
      "learning_rate": 9.900991512216351e-05,
      "loss": 0.30472090244293215,
      "memory(GiB)": 57.83,
      "step": 7405,
      "token_acc": 0.9107806691449815,
      "train_speed(iter/s)": 1.513474
    },
    {
      "epoch": 0.3174671179469603,
      "grad_norm": 0.4710277318954468,
      "learning_rate": 9.900858205932668e-05,
      "loss": 0.34242470264434816,
      "memory(GiB)": 57.83,
      "step": 7410,
      "token_acc": 0.9274809160305344,
      "train_speed(iter/s)": 1.513474
    },
    {
      "epoch": 0.31768133327620923,
      "grad_norm": 2.573176383972168,
      "learning_rate": 9.900724810865341e-05,
      "loss": 0.44007582664489747,
      "memory(GiB)": 57.83,
      "step": 7415,
      "token_acc": 0.9164086687306502,
      "train_speed(iter/s)": 1.51335
    },
    {
      "epoch": 0.3178955486054582,
      "grad_norm": 3.1057937145233154,
      "learning_rate": 9.900591327016786e-05,
      "loss": 0.24982075691223143,
      "memory(GiB)": 57.83,
      "step": 7420,
      "token_acc": 0.9372693726937269,
      "train_speed(iter/s)": 1.513283
    },
    {
      "epoch": 0.3181097639347072,
      "grad_norm": 2.5903825759887695,
      "learning_rate": 9.900457754389422e-05,
      "loss": 0.39055862426757815,
      "memory(GiB)": 57.83,
      "step": 7425,
      "token_acc": 0.9121813031161473,
      "train_speed(iter/s)": 1.513255
    },
    {
      "epoch": 0.3183239792639561,
      "grad_norm": 2.4176464080810547,
      "learning_rate": 9.900324092985671e-05,
      "loss": 0.22842936515808104,
      "memory(GiB)": 57.83,
      "step": 7430,
      "token_acc": 0.9386281588447654,
      "train_speed(iter/s)": 1.513277
    },
    {
      "epoch": 0.3185381945932051,
      "grad_norm": 6.054247856140137,
      "learning_rate": 9.900190342807951e-05,
      "loss": 0.35565962791442873,
      "memory(GiB)": 57.83,
      "step": 7435,
      "token_acc": 0.9235668789808917,
      "train_speed(iter/s)": 1.51343
    },
    {
      "epoch": 0.31875240992245407,
      "grad_norm": 2.6251511573791504,
      "learning_rate": 9.900056503858685e-05,
      "loss": 0.30728271007537844,
      "memory(GiB)": 57.83,
      "step": 7440,
      "token_acc": 0.9168975069252078,
      "train_speed(iter/s)": 1.513492
    },
    {
      "epoch": 0.318966625251703,
      "grad_norm": 2.477504253387451,
      "learning_rate": 9.8999225761403e-05,
      "loss": 0.22523784637451172,
      "memory(GiB)": 57.83,
      "step": 7445,
      "token_acc": 0.9501661129568106,
      "train_speed(iter/s)": 1.513571
    },
    {
      "epoch": 0.319180840580952,
      "grad_norm": 3.2621123790740967,
      "learning_rate": 9.899788559655221e-05,
      "loss": 0.41948490142822265,
      "memory(GiB)": 57.83,
      "step": 7450,
      "token_acc": 0.8904899135446686,
      "train_speed(iter/s)": 1.513587
    },
    {
      "epoch": 0.31939505591020095,
      "grad_norm": 4.438309192657471,
      "learning_rate": 9.899654454405876e-05,
      "loss": 0.4035494804382324,
      "memory(GiB)": 57.83,
      "step": 7455,
      "token_acc": 0.9251700680272109,
      "train_speed(iter/s)": 1.513566
    },
    {
      "epoch": 0.3196092712394499,
      "grad_norm": 1.571084976196289,
      "learning_rate": 9.899520260394695e-05,
      "loss": 0.5077800750732422,
      "memory(GiB)": 57.83,
      "step": 7460,
      "token_acc": 0.9063444108761329,
      "train_speed(iter/s)": 1.51363
    },
    {
      "epoch": 0.31982348656869886,
      "grad_norm": 12.723091125488281,
      "learning_rate": 9.899385977624107e-05,
      "loss": 0.6054377555847168,
      "memory(GiB)": 57.83,
      "step": 7465,
      "token_acc": 0.8781094527363185,
      "train_speed(iter/s)": 1.513839
    },
    {
      "epoch": 0.32003770189794783,
      "grad_norm": 4.132344722747803,
      "learning_rate": 9.899251606096546e-05,
      "loss": 0.47092862129211427,
      "memory(GiB)": 57.83,
      "step": 7470,
      "token_acc": 0.8962655601659751,
      "train_speed(iter/s)": 1.513811
    },
    {
      "epoch": 0.32025191722719676,
      "grad_norm": 1.435442566871643,
      "learning_rate": 9.899117145814448e-05,
      "loss": 0.4270926952362061,
      "memory(GiB)": 57.83,
      "step": 7475,
      "token_acc": 0.9100719424460432,
      "train_speed(iter/s)": 1.513902
    },
    {
      "epoch": 0.32046613255644574,
      "grad_norm": 8.602392196655273,
      "learning_rate": 9.898982596780244e-05,
      "loss": 0.4475921630859375,
      "memory(GiB)": 57.83,
      "step": 7480,
      "token_acc": 0.9134615384615384,
      "train_speed(iter/s)": 1.514004
    },
    {
      "epoch": 0.3206803478856947,
      "grad_norm": 5.675102233886719,
      "learning_rate": 9.898847958996377e-05,
      "loss": 0.3992893934249878,
      "memory(GiB)": 57.83,
      "step": 7485,
      "token_acc": 0.8829787234042553,
      "train_speed(iter/s)": 1.514034
    },
    {
      "epoch": 0.32089456321494364,
      "grad_norm": 1.5683780908584595,
      "learning_rate": 9.898713232465283e-05,
      "loss": 0.2874259948730469,
      "memory(GiB)": 57.83,
      "step": 7490,
      "token_acc": 0.9252336448598131,
      "train_speed(iter/s)": 1.514212
    },
    {
      "epoch": 0.3211087785441926,
      "grad_norm": 4.750735282897949,
      "learning_rate": 9.898578417189403e-05,
      "loss": 0.6235380649566651,
      "memory(GiB)": 57.83,
      "step": 7495,
      "token_acc": 0.86328125,
      "train_speed(iter/s)": 1.514294
    },
    {
      "epoch": 0.3213229938734416,
      "grad_norm": 4.05375862121582,
      "learning_rate": 9.89844351317118e-05,
      "loss": 0.628300952911377,
      "memory(GiB)": 61.91,
      "step": 7500,
      "token_acc": 0.8819188191881919,
      "train_speed(iter/s)": 1.514305
    },
    {
      "epoch": 0.3213229938734416,
      "eval_loss": 2.471130132675171,
      "eval_runtime": 11.2317,
      "eval_samples_per_second": 8.903,
      "eval_steps_per_second": 8.903,
      "eval_token_acc": 0.43293492695883135,
      "step": 7500
    },
    {
      "epoch": 0.3215372092026905,
      "grad_norm": 2.394857883453369,
      "learning_rate": 9.89830852041306e-05,
      "loss": 0.37443411350250244,
      "memory(GiB)": 61.91,
      "step": 7505,
      "token_acc": 0.5771375464684015,
      "train_speed(iter/s)": 1.510706
    },
    {
      "epoch": 0.3217514245319395,
      "grad_norm": 3.833411455154419,
      "learning_rate": 9.898173438917485e-05,
      "loss": 0.2604188919067383,
      "memory(GiB)": 61.91,
      "step": 7510,
      "token_acc": 0.9430604982206405,
      "train_speed(iter/s)": 1.510912
    },
    {
      "epoch": 0.3219656398611885,
      "grad_norm": 0.5899659395217896,
      "learning_rate": 9.8980382686869e-05,
      "loss": 0.19144421815872192,
      "memory(GiB)": 61.91,
      "step": 7515,
      "token_acc": 0.9614147909967846,
      "train_speed(iter/s)": 1.510866
    },
    {
      "epoch": 0.3221798551904374,
      "grad_norm": 5.379552364349365,
      "learning_rate": 9.89790300972376e-05,
      "loss": 0.6795905113220215,
      "memory(GiB)": 61.91,
      "step": 7520,
      "token_acc": 0.8622950819672132,
      "train_speed(iter/s)": 1.510819
    },
    {
      "epoch": 0.3223940705196864,
      "grad_norm": 2.046382427215576,
      "learning_rate": 9.897767662030512e-05,
      "loss": 0.18946577310562135,
      "memory(GiB)": 61.91,
      "step": 7525,
      "token_acc": 0.9609929078014184,
      "train_speed(iter/s)": 1.510886
    },
    {
      "epoch": 0.32260828584893536,
      "grad_norm": 0.10184159874916077,
      "learning_rate": 9.897632225609607e-05,
      "loss": 0.4604065418243408,
      "memory(GiB)": 61.91,
      "step": 7530,
      "token_acc": 0.8976109215017065,
      "train_speed(iter/s)": 1.510987
    },
    {
      "epoch": 0.3228225011781843,
      "grad_norm": 3.41998028755188,
      "learning_rate": 9.897496700463502e-05,
      "loss": 0.48907318115234377,
      "memory(GiB)": 61.91,
      "step": 7535,
      "token_acc": 0.9003115264797508,
      "train_speed(iter/s)": 1.511196
    },
    {
      "epoch": 0.32303671650743326,
      "grad_norm": 1.2632415294647217,
      "learning_rate": 9.897361086594649e-05,
      "loss": 0.3889720916748047,
      "memory(GiB)": 61.91,
      "step": 7540,
      "token_acc": 0.9161849710982659,
      "train_speed(iter/s)": 1.511251
    },
    {
      "epoch": 0.32325093183668224,
      "grad_norm": 3.7106964588165283,
      "learning_rate": 9.897225384005507e-05,
      "loss": 0.5398503303527832,
      "memory(GiB)": 61.91,
      "step": 7545,
      "token_acc": 0.9060402684563759,
      "train_speed(iter/s)": 1.51128
    },
    {
      "epoch": 0.3234651471659312,
      "grad_norm": 0.9939740896224976,
      "learning_rate": 9.897089592698532e-05,
      "loss": 0.2735555171966553,
      "memory(GiB)": 61.91,
      "step": 7550,
      "token_acc": 0.927007299270073,
      "train_speed(iter/s)": 1.511345
    },
    {
      "epoch": 0.32367936249518015,
      "grad_norm": 2.3408849239349365,
      "learning_rate": 9.896953712676184e-05,
      "loss": 0.12352042198181153,
      "memory(GiB)": 61.91,
      "step": 7555,
      "token_acc": 0.9666666666666667,
      "train_speed(iter/s)": 1.511299
    },
    {
      "epoch": 0.3238935778244291,
      "grad_norm": 1.8687247037887573,
      "learning_rate": 9.896817743940928e-05,
      "loss": 0.3166090965270996,
      "memory(GiB)": 61.91,
      "step": 7560,
      "token_acc": 0.9350282485875706,
      "train_speed(iter/s)": 1.511336
    },
    {
      "epoch": 0.3241077931536781,
      "grad_norm": 4.465818881988525,
      "learning_rate": 9.896681686495224e-05,
      "loss": 0.5729311943054199,
      "memory(GiB)": 61.91,
      "step": 7565,
      "token_acc": 0.8711111111111111,
      "train_speed(iter/s)": 1.511368
    },
    {
      "epoch": 0.324322008482927,
      "grad_norm": 1.1936551332473755,
      "learning_rate": 9.896545540341538e-05,
      "loss": 0.2624319553375244,
      "memory(GiB)": 61.91,
      "step": 7570,
      "token_acc": 0.9387096774193548,
      "train_speed(iter/s)": 1.511386
    },
    {
      "epoch": 0.324536223812176,
      "grad_norm": 5.345091819763184,
      "learning_rate": 9.896409305482336e-05,
      "loss": 0.5879055023193359,
      "memory(GiB)": 61.91,
      "step": 7575,
      "token_acc": 0.8701754385964913,
      "train_speed(iter/s)": 1.511341
    },
    {
      "epoch": 0.324750439141425,
      "grad_norm": 5.5520758628845215,
      "learning_rate": 9.896272981920087e-05,
      "loss": 0.3642292499542236,
      "memory(GiB)": 61.91,
      "step": 7580,
      "token_acc": 0.9135338345864662,
      "train_speed(iter/s)": 1.511333
    },
    {
      "epoch": 0.3249646544706739,
      "grad_norm": 4.101814270019531,
      "learning_rate": 9.89613656965726e-05,
      "loss": 0.7646390914916992,
      "memory(GiB)": 61.91,
      "step": 7585,
      "token_acc": 0.8488372093023255,
      "train_speed(iter/s)": 1.511417
    },
    {
      "epoch": 0.3251788697999229,
      "grad_norm": 1.3303775787353516,
      "learning_rate": 9.896000068696325e-05,
      "loss": 0.3317232847213745,
      "memory(GiB)": 61.91,
      "step": 7590,
      "token_acc": 0.9394904458598726,
      "train_speed(iter/s)": 1.511425
    },
    {
      "epoch": 0.32539308512917187,
      "grad_norm": 3.1817715167999268,
      "learning_rate": 9.895863479039756e-05,
      "loss": 0.4084768772125244,
      "memory(GiB)": 61.91,
      "step": 7595,
      "token_acc": 0.9106529209621993,
      "train_speed(iter/s)": 1.511553
    },
    {
      "epoch": 0.3256073004584208,
      "grad_norm": 4.652787208557129,
      "learning_rate": 9.895726800690028e-05,
      "loss": 0.3986428022384644,
      "memory(GiB)": 61.91,
      "step": 7600,
      "token_acc": 0.8893129770992366,
      "train_speed(iter/s)": 1.511789
    },
    {
      "epoch": 0.32582151578766977,
      "grad_norm": 10.184610366821289,
      "learning_rate": 9.895590033649616e-05,
      "loss": 0.5533396244049072,
      "memory(GiB)": 61.91,
      "step": 7605,
      "token_acc": 0.8941176470588236,
      "train_speed(iter/s)": 1.511941
    },
    {
      "epoch": 0.32603573111691875,
      "grad_norm": 5.7659220695495605,
      "learning_rate": 9.895453177920997e-05,
      "loss": 0.5086452484130859,
      "memory(GiB)": 61.91,
      "step": 7610,
      "token_acc": 0.898360655737705,
      "train_speed(iter/s)": 1.512105
    },
    {
      "epoch": 0.32624994644616767,
      "grad_norm": 4.5104265213012695,
      "learning_rate": 9.895316233506653e-05,
      "loss": 0.5718632698059082,
      "memory(GiB)": 61.91,
      "step": 7615,
      "token_acc": 0.8966789667896679,
      "train_speed(iter/s)": 1.512118
    },
    {
      "epoch": 0.32646416177541665,
      "grad_norm": 2.036647319793701,
      "learning_rate": 9.895179200409063e-05,
      "loss": 0.33007044792175294,
      "memory(GiB)": 61.91,
      "step": 7620,
      "token_acc": 0.9208333333333333,
      "train_speed(iter/s)": 1.5121
    },
    {
      "epoch": 0.32667837710466563,
      "grad_norm": 4.815316200256348,
      "learning_rate": 9.895042078630709e-05,
      "loss": 0.48027191162109373,
      "memory(GiB)": 61.91,
      "step": 7625,
      "token_acc": 0.9130434782608695,
      "train_speed(iter/s)": 1.512128
    },
    {
      "epoch": 0.32689259243391455,
      "grad_norm": 4.029754638671875,
      "learning_rate": 9.894904868174076e-05,
      "loss": 0.40860648155212403,
      "memory(GiB)": 61.91,
      "step": 7630,
      "token_acc": 0.9015151515151515,
      "train_speed(iter/s)": 1.512328
    },
    {
      "epoch": 0.32710680776316353,
      "grad_norm": 3.0286965370178223,
      "learning_rate": 9.89476756904165e-05,
      "loss": 0.5275236606597901,
      "memory(GiB)": 61.91,
      "step": 7635,
      "token_acc": 0.8834586466165414,
      "train_speed(iter/s)": 1.512375
    },
    {
      "epoch": 0.3273210230924125,
      "grad_norm": 3.2249832153320312,
      "learning_rate": 9.894630181235917e-05,
      "loss": 0.663758373260498,
      "memory(GiB)": 61.91,
      "step": 7640,
      "token_acc": 0.8501529051987767,
      "train_speed(iter/s)": 1.512375
    },
    {
      "epoch": 0.32753523842166143,
      "grad_norm": 1.9380398988723755,
      "learning_rate": 9.894492704759369e-05,
      "loss": 0.34820919036865233,
      "memory(GiB)": 61.91,
      "step": 7645,
      "token_acc": 0.9400630914826499,
      "train_speed(iter/s)": 1.512455
    },
    {
      "epoch": 0.3277494537509104,
      "grad_norm": 2.604832410812378,
      "learning_rate": 9.894355139614493e-05,
      "loss": 0.7080265045166015,
      "memory(GiB)": 61.91,
      "step": 7650,
      "token_acc": 0.805111821086262,
      "train_speed(iter/s)": 1.512485
    },
    {
      "epoch": 0.3279636690801594,
      "grad_norm": 4.896474838256836,
      "learning_rate": 9.89421748580378e-05,
      "loss": 0.335146427154541,
      "memory(GiB)": 61.91,
      "step": 7655,
      "token_acc": 0.935374149659864,
      "train_speed(iter/s)": 1.512457
    },
    {
      "epoch": 0.3281778844094083,
      "grad_norm": 0.37768590450286865,
      "learning_rate": 9.894079743329729e-05,
      "loss": 0.2550898551940918,
      "memory(GiB)": 61.91,
      "step": 7660,
      "token_acc": 0.9429657794676806,
      "train_speed(iter/s)": 1.512499
    },
    {
      "epoch": 0.3283920997386573,
      "grad_norm": 2.009614944458008,
      "learning_rate": 9.893941912194831e-05,
      "loss": 0.5242821216583252,
      "memory(GiB)": 61.91,
      "step": 7665,
      "token_acc": 0.8877887788778878,
      "train_speed(iter/s)": 1.512506
    },
    {
      "epoch": 0.3286063150679063,
      "grad_norm": 0.8282000422477722,
      "learning_rate": 9.893803992401586e-05,
      "loss": 0.3551580190658569,
      "memory(GiB)": 61.91,
      "step": 7670,
      "token_acc": 0.9087837837837838,
      "train_speed(iter/s)": 1.51245
    },
    {
      "epoch": 0.3288205303971552,
      "grad_norm": 5.967987060546875,
      "learning_rate": 9.893665983952489e-05,
      "loss": 0.501586627960205,
      "memory(GiB)": 61.91,
      "step": 7675,
      "token_acc": 0.8964285714285715,
      "train_speed(iter/s)": 1.512462
    },
    {
      "epoch": 0.3290347457264042,
      "grad_norm": 0.7959259152412415,
      "learning_rate": 9.893527886850044e-05,
      "loss": 0.27297139167785645,
      "memory(GiB)": 61.91,
      "step": 7680,
      "token_acc": 0.9111969111969112,
      "train_speed(iter/s)": 1.512429
    },
    {
      "epoch": 0.32924896105565316,
      "grad_norm": 2.402778387069702,
      "learning_rate": 9.89338970109675e-05,
      "loss": 0.4628042697906494,
      "memory(GiB)": 61.91,
      "step": 7685,
      "token_acc": 0.9072164948453608,
      "train_speed(iter/s)": 1.512426
    },
    {
      "epoch": 0.3294631763849021,
      "grad_norm": 0.6705512404441833,
      "learning_rate": 9.893251426695111e-05,
      "loss": 0.28538012504577637,
      "memory(GiB)": 61.91,
      "step": 7690,
      "token_acc": 0.9349593495934959,
      "train_speed(iter/s)": 1.512433
    },
    {
      "epoch": 0.32967739171415106,
      "grad_norm": 2.4664878845214844,
      "learning_rate": 9.893113063647632e-05,
      "loss": 0.18037619590759277,
      "memory(GiB)": 61.91,
      "step": 7695,
      "token_acc": 0.9628252788104089,
      "train_speed(iter/s)": 1.512407
    },
    {
      "epoch": 0.32989160704340004,
      "grad_norm": 3.625056028366089,
      "learning_rate": 9.89297461195682e-05,
      "loss": 0.6730573654174805,
      "memory(GiB)": 61.91,
      "step": 7700,
      "token_acc": 0.8779761904761905,
      "train_speed(iter/s)": 1.512404
    },
    {
      "epoch": 0.33010582237264896,
      "grad_norm": 4.593713283538818,
      "learning_rate": 9.892836071625182e-05,
      "loss": 0.9273441314697266,
      "memory(GiB)": 61.91,
      "step": 7705,
      "token_acc": 0.7448453608247423,
      "train_speed(iter/s)": 1.512364
    },
    {
      "epoch": 0.33032003770189794,
      "grad_norm": 6.467137336730957,
      "learning_rate": 9.89269744265523e-05,
      "loss": 0.4195289134979248,
      "memory(GiB)": 61.91,
      "step": 7710,
      "token_acc": 0.9129032258064517,
      "train_speed(iter/s)": 1.512386
    },
    {
      "epoch": 0.3305342530311469,
      "grad_norm": 5.038894176483154,
      "learning_rate": 9.892558725049474e-05,
      "loss": 0.29413418769836425,
      "memory(GiB)": 61.91,
      "step": 7715,
      "token_acc": 0.9283276450511946,
      "train_speed(iter/s)": 1.512523
    },
    {
      "epoch": 0.3307484683603959,
      "grad_norm": 2.5692009925842285,
      "learning_rate": 9.892419918810426e-05,
      "loss": 0.1654599905014038,
      "memory(GiB)": 61.91,
      "step": 7720,
      "token_acc": 0.963855421686747,
      "train_speed(iter/s)": 1.512513
    },
    {
      "epoch": 0.3309626836896448,
      "grad_norm": 3.5114898681640625,
      "learning_rate": 9.892281023940602e-05,
      "loss": 0.4527285575866699,
      "memory(GiB)": 61.91,
      "step": 7725,
      "token_acc": 0.9017543859649123,
      "train_speed(iter/s)": 1.512574
    },
    {
      "epoch": 0.3311768990188938,
      "grad_norm": 1.7316348552703857,
      "learning_rate": 9.892142040442518e-05,
      "loss": 0.18726415634155275,
      "memory(GiB)": 61.91,
      "step": 7730,
      "token_acc": 0.9664429530201343,
      "train_speed(iter/s)": 1.512535
    },
    {
      "epoch": 0.3313911143481428,
      "grad_norm": 3.220822811126709,
      "learning_rate": 9.892002968318692e-05,
      "loss": 0.6320162773132324,
      "memory(GiB)": 61.91,
      "step": 7735,
      "token_acc": 0.8689138576779026,
      "train_speed(iter/s)": 1.51246
    },
    {
      "epoch": 0.3316053296773917,
      "grad_norm": 3.338132381439209,
      "learning_rate": 9.891863807571644e-05,
      "loss": 0.5521392822265625,
      "memory(GiB)": 61.91,
      "step": 7740,
      "token_acc": 0.8805031446540881,
      "train_speed(iter/s)": 1.512405
    },
    {
      "epoch": 0.3318195450066407,
      "grad_norm": 3.192582845687866,
      "learning_rate": 9.891724558203893e-05,
      "loss": 0.24721839427947997,
      "memory(GiB)": 61.91,
      "step": 7745,
      "token_acc": 0.9473684210526315,
      "train_speed(iter/s)": 1.512391
    },
    {
      "epoch": 0.33203376033588966,
      "grad_norm": 2.6268222332000732,
      "learning_rate": 9.891585220217964e-05,
      "loss": 0.4913632869720459,
      "memory(GiB)": 61.91,
      "step": 7750,
      "token_acc": 0.9061371841155235,
      "train_speed(iter/s)": 1.51237
    },
    {
      "epoch": 0.3322479756651386,
      "grad_norm": 1.774531364440918,
      "learning_rate": 9.891445793616378e-05,
      "loss": 0.6036566734313965,
      "memory(GiB)": 61.91,
      "step": 7755,
      "token_acc": 0.8618618618618619,
      "train_speed(iter/s)": 1.512465
    },
    {
      "epoch": 0.33246219099438756,
      "grad_norm": 2.4534406661987305,
      "learning_rate": 9.891306278401665e-05,
      "loss": 0.3423898220062256,
      "memory(GiB)": 61.91,
      "step": 7760,
      "token_acc": 0.9335664335664335,
      "train_speed(iter/s)": 1.512425
    },
    {
      "epoch": 0.33267640632363654,
      "grad_norm": 2.692946195602417,
      "learning_rate": 9.891166674576349e-05,
      "loss": 0.5008926391601562,
      "memory(GiB)": 61.91,
      "step": 7765,
      "token_acc": 0.8996763754045307,
      "train_speed(iter/s)": 1.512325
    },
    {
      "epoch": 0.33289062165288547,
      "grad_norm": 3.4724202156066895,
      "learning_rate": 9.891026982142962e-05,
      "loss": 0.5043286323547364,
      "memory(GiB)": 61.91,
      "step": 7770,
      "token_acc": 0.875,
      "train_speed(iter/s)": 1.512252
    },
    {
      "epoch": 0.33310483698213444,
      "grad_norm": 3.0407371520996094,
      "learning_rate": 9.890887201104032e-05,
      "loss": 0.747948169708252,
      "memory(GiB)": 61.91,
      "step": 7775,
      "token_acc": 0.8230088495575221,
      "train_speed(iter/s)": 1.512373
    },
    {
      "epoch": 0.3333190523113834,
      "grad_norm": 3.656493902206421,
      "learning_rate": 9.890747331462092e-05,
      "loss": 0.4628904819488525,
      "memory(GiB)": 61.91,
      "step": 7780,
      "token_acc": 0.9136212624584718,
      "train_speed(iter/s)": 1.512486
    },
    {
      "epoch": 0.33353326764063235,
      "grad_norm": 0.5777880549430847,
      "learning_rate": 9.890607373219676e-05,
      "loss": 0.4038088798522949,
      "memory(GiB)": 61.91,
      "step": 7785,
      "token_acc": 0.9146757679180887,
      "train_speed(iter/s)": 1.512467
    },
    {
      "epoch": 0.3337474829698813,
      "grad_norm": 3.3492591381073,
      "learning_rate": 9.89046732637932e-05,
      "loss": 0.415972375869751,
      "memory(GiB)": 61.91,
      "step": 7790,
      "token_acc": 0.9071729957805907,
      "train_speed(iter/s)": 1.512473
    },
    {
      "epoch": 0.3339616982991303,
      "grad_norm": 3.8986597061157227,
      "learning_rate": 9.890327190943561e-05,
      "loss": 0.5687922477722168,
      "memory(GiB)": 61.91,
      "step": 7795,
      "token_acc": 0.8832807570977917,
      "train_speed(iter/s)": 1.512481
    },
    {
      "epoch": 0.33417591362837923,
      "grad_norm": 3.045149803161621,
      "learning_rate": 9.890186966914938e-05,
      "loss": 0.16700277328491211,
      "memory(GiB)": 61.91,
      "step": 7800,
      "token_acc": 0.9566929133858267,
      "train_speed(iter/s)": 1.512548
    },
    {
      "epoch": 0.3343901289576282,
      "grad_norm": 1.0379130840301514,
      "learning_rate": 9.89004665429599e-05,
      "loss": 0.23621225357055664,
      "memory(GiB)": 61.91,
      "step": 7805,
      "token_acc": 0.9316546762589928,
      "train_speed(iter/s)": 1.51252
    },
    {
      "epoch": 0.3346043442868772,
      "grad_norm": 4.811845779418945,
      "learning_rate": 9.88990625308926e-05,
      "loss": 0.32094731330871584,
      "memory(GiB)": 61.91,
      "step": 7810,
      "token_acc": 0.9348659003831418,
      "train_speed(iter/s)": 1.512562
    },
    {
      "epoch": 0.3348185596161261,
      "grad_norm": 3.1429548263549805,
      "learning_rate": 9.889765763297291e-05,
      "loss": 0.30712404251098635,
      "memory(GiB)": 61.91,
      "step": 7815,
      "token_acc": 0.9163987138263665,
      "train_speed(iter/s)": 1.512546
    },
    {
      "epoch": 0.3350327749453751,
      "grad_norm": 0.26470065116882324,
      "learning_rate": 9.889625184922628e-05,
      "loss": 0.26955225467681887,
      "memory(GiB)": 61.91,
      "step": 7820,
      "token_acc": 0.918918918918919,
      "train_speed(iter/s)": 1.512526
    },
    {
      "epoch": 0.33524699027462407,
      "grad_norm": 5.7473249435424805,
      "learning_rate": 9.889484517967818e-05,
      "loss": 0.5988773345947266,
      "memory(GiB)": 61.91,
      "step": 7825,
      "token_acc": 0.8581081081081081,
      "train_speed(iter/s)": 1.512617
    },
    {
      "epoch": 0.335461205603873,
      "grad_norm": 1.860182285308838,
      "learning_rate": 9.889343762435409e-05,
      "loss": 0.6269731998443604,
      "memory(GiB)": 61.91,
      "step": 7830,
      "token_acc": 0.8953488372093024,
      "train_speed(iter/s)": 1.512655
    },
    {
      "epoch": 0.33567542093312197,
      "grad_norm": 3.147463321685791,
      "learning_rate": 9.88920291832795e-05,
      "loss": 0.5964645862579345,
      "memory(GiB)": 61.91,
      "step": 7835,
      "token_acc": 0.8943894389438944,
      "train_speed(iter/s)": 1.512698
    },
    {
      "epoch": 0.33588963626237095,
      "grad_norm": 3.220151424407959,
      "learning_rate": 9.889061985647996e-05,
      "loss": 0.3388816356658936,
      "memory(GiB)": 61.91,
      "step": 7840,
      "token_acc": 0.92,
      "train_speed(iter/s)": 1.512711
    },
    {
      "epoch": 0.3361038515916199,
      "grad_norm": 4.865410327911377,
      "learning_rate": 9.888920964398099e-05,
      "loss": 0.5054830551147461,
      "memory(GiB)": 61.91,
      "step": 7845,
      "token_acc": 0.8869257950530035,
      "train_speed(iter/s)": 1.512784
    },
    {
      "epoch": 0.33631806692086885,
      "grad_norm": 5.422826290130615,
      "learning_rate": 9.88877985458081e-05,
      "loss": 0.6081606864929199,
      "memory(GiB)": 61.91,
      "step": 7850,
      "token_acc": 0.9055374592833876,
      "train_speed(iter/s)": 1.512771
    },
    {
      "epoch": 0.33653228225011783,
      "grad_norm": 2.2120232582092285,
      "learning_rate": 9.888638656198688e-05,
      "loss": 0.3049129009246826,
      "memory(GiB)": 61.91,
      "step": 7855,
      "token_acc": 0.9435215946843853,
      "train_speed(iter/s)": 1.512785
    },
    {
      "epoch": 0.33674649757936675,
      "grad_norm": 2.3543052673339844,
      "learning_rate": 9.88849736925429e-05,
      "loss": 0.33651270866394045,
      "memory(GiB)": 61.91,
      "step": 7860,
      "token_acc": 0.9273356401384083,
      "train_speed(iter/s)": 1.512862
    },
    {
      "epoch": 0.33696071290861573,
      "grad_norm": 3.1480846405029297,
      "learning_rate": 9.888355993750178e-05,
      "loss": 0.2654085874557495,
      "memory(GiB)": 61.91,
      "step": 7865,
      "token_acc": 0.9496124031007752,
      "train_speed(iter/s)": 1.512836
    },
    {
      "epoch": 0.3371749282378647,
      "grad_norm": 2.259981155395508,
      "learning_rate": 9.888214529688912e-05,
      "loss": 0.5286569118499755,
      "memory(GiB)": 61.91,
      "step": 7870,
      "token_acc": 0.8699690402476781,
      "train_speed(iter/s)": 1.512937
    },
    {
      "epoch": 0.33738914356711364,
      "grad_norm": 2.343120574951172,
      "learning_rate": 9.888072977073053e-05,
      "loss": 0.5320161342620849,
      "memory(GiB)": 61.91,
      "step": 7875,
      "token_acc": 0.8793650793650793,
      "train_speed(iter/s)": 1.51294
    },
    {
      "epoch": 0.3376033588963626,
      "grad_norm": 1.5522041320800781,
      "learning_rate": 9.887931335905168e-05,
      "loss": 0.2479764461517334,
      "memory(GiB)": 61.91,
      "step": 7880,
      "token_acc": 0.944078947368421,
      "train_speed(iter/s)": 1.512902
    },
    {
      "epoch": 0.3378175742256116,
      "grad_norm": 3.3239758014678955,
      "learning_rate": 9.887789606187819e-05,
      "loss": 0.4302541732788086,
      "memory(GiB)": 61.91,
      "step": 7885,
      "token_acc": 0.9226361031518625,
      "train_speed(iter/s)": 1.512798
    },
    {
      "epoch": 0.3380317895548606,
      "grad_norm": 2.633512020111084,
      "learning_rate": 9.887647787923578e-05,
      "loss": 0.4566482067108154,
      "memory(GiB)": 61.91,
      "step": 7890,
      "token_acc": 0.9066265060240963,
      "train_speed(iter/s)": 1.512796
    },
    {
      "epoch": 0.3382460048841095,
      "grad_norm": 2.6229753494262695,
      "learning_rate": 9.887505881115013e-05,
      "loss": 0.43462309837341306,
      "memory(GiB)": 61.91,
      "step": 7895,
      "token_acc": 0.9225806451612903,
      "train_speed(iter/s)": 1.512846
    },
    {
      "epoch": 0.3384602202133585,
      "grad_norm": 4.167659282684326,
      "learning_rate": 9.887363885764693e-05,
      "loss": 0.24906535148620607,
      "memory(GiB)": 61.91,
      "step": 7900,
      "token_acc": 0.9530201342281879,
      "train_speed(iter/s)": 1.512864
    },
    {
      "epoch": 0.33867443554260745,
      "grad_norm": 5.141737461090088,
      "learning_rate": 9.887221801875192e-05,
      "loss": 0.5086905479431152,
      "memory(GiB)": 61.91,
      "step": 7905,
      "token_acc": 0.8951310861423221,
      "train_speed(iter/s)": 1.512873
    },
    {
      "epoch": 0.3388886508718564,
      "grad_norm": 1.3504524230957031,
      "learning_rate": 9.887079629449083e-05,
      "loss": 0.20787546634674073,
      "memory(GiB)": 61.91,
      "step": 7910,
      "token_acc": 0.9523809523809523,
      "train_speed(iter/s)": 1.512919
    },
    {
      "epoch": 0.33910286620110536,
      "grad_norm": 3.4897971153259277,
      "learning_rate": 9.886937368488942e-05,
      "loss": 0.29567530155181887,
      "memory(GiB)": 61.91,
      "step": 7915,
      "token_acc": 0.9292604501607717,
      "train_speed(iter/s)": 1.512884
    },
    {
      "epoch": 0.33931708153035434,
      "grad_norm": 2.843583583831787,
      "learning_rate": 9.886795018997347e-05,
      "loss": 0.4375617980957031,
      "memory(GiB)": 61.91,
      "step": 7920,
      "token_acc": 0.9039735099337748,
      "train_speed(iter/s)": 1.512811
    },
    {
      "epoch": 0.33953129685960326,
      "grad_norm": 3.080043077468872,
      "learning_rate": 9.886652580976876e-05,
      "loss": 0.44490795135498046,
      "memory(GiB)": 61.91,
      "step": 7925,
      "token_acc": 0.9185185185185185,
      "train_speed(iter/s)": 1.512832
    },
    {
      "epoch": 0.33974551218885224,
      "grad_norm": 2.547186851501465,
      "learning_rate": 9.886510054430108e-05,
      "loss": 0.29417855739593507,
      "memory(GiB)": 61.91,
      "step": 7930,
      "token_acc": 0.9427480916030534,
      "train_speed(iter/s)": 1.512843
    },
    {
      "epoch": 0.3399597275181012,
      "grad_norm": 8.5975923538208,
      "learning_rate": 9.886367439359627e-05,
      "loss": 0.3139829635620117,
      "memory(GiB)": 61.91,
      "step": 7935,
      "token_acc": 0.922360248447205,
      "train_speed(iter/s)": 1.512853
    },
    {
      "epoch": 0.34017394284735014,
      "grad_norm": 3.0203027725219727,
      "learning_rate": 9.886224735768017e-05,
      "loss": 0.5224937915802002,
      "memory(GiB)": 61.91,
      "step": 7940,
      "token_acc": 0.8959731543624161,
      "train_speed(iter/s)": 1.512953
    },
    {
      "epoch": 0.3403881581765991,
      "grad_norm": 4.282827854156494,
      "learning_rate": 9.886081943657862e-05,
      "loss": 0.4737374782562256,
      "memory(GiB)": 61.91,
      "step": 7945,
      "token_acc": 0.8921933085501859,
      "train_speed(iter/s)": 1.512919
    },
    {
      "epoch": 0.3406023735058481,
      "grad_norm": 0.5158848166465759,
      "learning_rate": 9.885939063031748e-05,
      "loss": 0.3342712163925171,
      "memory(GiB)": 61.91,
      "step": 7950,
      "token_acc": 0.9397163120567376,
      "train_speed(iter/s)": 1.512945
    },
    {
      "epoch": 0.340816588835097,
      "grad_norm": 3.530867099761963,
      "learning_rate": 9.885796093892266e-05,
      "loss": 0.6008416652679444,
      "memory(GiB)": 61.91,
      "step": 7955,
      "token_acc": 0.868421052631579,
      "train_speed(iter/s)": 1.513011
    },
    {
      "epoch": 0.341030804164346,
      "grad_norm": 1.5691142082214355,
      "learning_rate": 9.885653036242004e-05,
      "loss": 0.49411940574645996,
      "memory(GiB)": 61.91,
      "step": 7960,
      "token_acc": 0.9041533546325878,
      "train_speed(iter/s)": 1.513109
    },
    {
      "epoch": 0.341245019493595,
      "grad_norm": 2.442148447036743,
      "learning_rate": 9.885509890083555e-05,
      "loss": 0.4743558406829834,
      "memory(GiB)": 61.91,
      "step": 7965,
      "token_acc": 0.9010989010989011,
      "train_speed(iter/s)": 1.513095
    },
    {
      "epoch": 0.3414592348228439,
      "grad_norm": 3.512605667114258,
      "learning_rate": 9.88536665541951e-05,
      "loss": 0.4941071033477783,
      "memory(GiB)": 61.91,
      "step": 7970,
      "token_acc": 0.8849206349206349,
      "train_speed(iter/s)": 1.51315
    },
    {
      "epoch": 0.3416734501520929,
      "grad_norm": 1.1643120050430298,
      "learning_rate": 9.885223332252464e-05,
      "loss": 0.3719114542007446,
      "memory(GiB)": 61.91,
      "step": 7975,
      "token_acc": 0.9290322580645162,
      "train_speed(iter/s)": 1.513268
    },
    {
      "epoch": 0.34188766548134186,
      "grad_norm": 5.690678119659424,
      "learning_rate": 9.885079920585017e-05,
      "loss": 0.2568089962005615,
      "memory(GiB)": 61.91,
      "step": 7980,
      "token_acc": 0.9409448818897638,
      "train_speed(iter/s)": 1.513298
    },
    {
      "epoch": 0.3421018808105908,
      "grad_norm": 1.0471134185791016,
      "learning_rate": 9.884936420419763e-05,
      "loss": 0.30522263050079346,
      "memory(GiB)": 61.91,
      "step": 7985,
      "token_acc": 0.9291044776119403,
      "train_speed(iter/s)": 1.513354
    },
    {
      "epoch": 0.34231609613983977,
      "grad_norm": 1.7572581768035889,
      "learning_rate": 9.884792831759305e-05,
      "loss": 0.49479265213012696,
      "memory(GiB)": 61.91,
      "step": 7990,
      "token_acc": 0.8945454545454545,
      "train_speed(iter/s)": 1.513384
    },
    {
      "epoch": 0.34253031146908874,
      "grad_norm": 5.182215213775635,
      "learning_rate": 9.884649154606242e-05,
      "loss": 0.3236077070236206,
      "memory(GiB)": 61.91,
      "step": 7995,
      "token_acc": 0.9184952978056427,
      "train_speed(iter/s)": 1.513386
    },
    {
      "epoch": 0.34274452679833767,
      "grad_norm": 2.6816155910491943,
      "learning_rate": 9.884505388963176e-05,
      "loss": 0.157029128074646,
      "memory(GiB)": 61.91,
      "step": 8000,
      "token_acc": 0.9741935483870968,
      "train_speed(iter/s)": 1.513428
    },
    {
      "epoch": 0.34274452679833767,
      "eval_loss": 2.548301935195923,
      "eval_runtime": 11.9686,
      "eval_samples_per_second": 8.355,
      "eval_steps_per_second": 8.355,
      "eval_token_acc": 0.41893644617380027,
      "step": 8000
    },
    {
      "epoch": 0.34295874212758665,
      "grad_norm": 1.4683775901794434,
      "learning_rate": 9.884361534832716e-05,
      "loss": 0.4339284896850586,
      "memory(GiB)": 61.91,
      "step": 8005,
      "token_acc": 0.5536881419234361,
      "train_speed(iter/s)": 1.509888
    },
    {
      "epoch": 0.3431729574568356,
      "grad_norm": 1.051316499710083,
      "learning_rate": 9.884217592217461e-05,
      "loss": 0.2653156280517578,
      "memory(GiB)": 61.91,
      "step": 8010,
      "token_acc": 0.9347826086956522,
      "train_speed(iter/s)": 1.509974
    },
    {
      "epoch": 0.34338717278608455,
      "grad_norm": 0.9830781817436218,
      "learning_rate": 9.884073561120026e-05,
      "loss": 0.15035663843154906,
      "memory(GiB)": 61.91,
      "step": 8015,
      "token_acc": 0.9711191335740073,
      "train_speed(iter/s)": 1.510085
    },
    {
      "epoch": 0.34360138811533353,
      "grad_norm": 1.0296674966812134,
      "learning_rate": 9.883929441543014e-05,
      "loss": 0.21684775352478028,
      "memory(GiB)": 61.91,
      "step": 8020,
      "token_acc": 0.9504643962848297,
      "train_speed(iter/s)": 1.510043
    },
    {
      "epoch": 0.3438156034445825,
      "grad_norm": 1.4799716472625732,
      "learning_rate": 9.88378523348904e-05,
      "loss": 0.4440103054046631,
      "memory(GiB)": 61.91,
      "step": 8025,
      "token_acc": 0.9120879120879121,
      "train_speed(iter/s)": 1.509965
    },
    {
      "epoch": 0.34402981877383143,
      "grad_norm": 1.81011164188385,
      "learning_rate": 9.883640936960716e-05,
      "loss": 0.2558621406555176,
      "memory(GiB)": 61.91,
      "step": 8030,
      "token_acc": 0.943609022556391,
      "train_speed(iter/s)": 1.50995
    },
    {
      "epoch": 0.3442440341030804,
      "grad_norm": 2.9986572265625,
      "learning_rate": 9.883496551960654e-05,
      "loss": 0.6187628746032715,
      "memory(GiB)": 61.91,
      "step": 8035,
      "token_acc": 0.8846153846153846,
      "train_speed(iter/s)": 1.50998
    },
    {
      "epoch": 0.3444582494323294,
      "grad_norm": 6.73447322845459,
      "learning_rate": 9.88335207849147e-05,
      "loss": 0.49090075492858887,
      "memory(GiB)": 61.91,
      "step": 8040,
      "token_acc": 0.9162162162162162,
      "train_speed(iter/s)": 1.510016
    },
    {
      "epoch": 0.3446724647615783,
      "grad_norm": 1.6483649015426636,
      "learning_rate": 9.883207516555784e-05,
      "loss": 0.3171398639678955,
      "memory(GiB)": 61.91,
      "step": 8045,
      "token_acc": 0.9102902374670184,
      "train_speed(iter/s)": 1.510086
    },
    {
      "epoch": 0.3448866800908273,
      "grad_norm": 4.812012672424316,
      "learning_rate": 9.883062866156213e-05,
      "loss": 0.825739860534668,
      "memory(GiB)": 61.91,
      "step": 8050,
      "token_acc": 0.8264705882352941,
      "train_speed(iter/s)": 1.510217
    },
    {
      "epoch": 0.34510089542007627,
      "grad_norm": 2.5436317920684814,
      "learning_rate": 9.882918127295376e-05,
      "loss": 0.23584940433502197,
      "memory(GiB)": 61.91,
      "step": 8055,
      "token_acc": 0.9577922077922078,
      "train_speed(iter/s)": 1.51023
    },
    {
      "epoch": 0.34531511074932525,
      "grad_norm": 2.9797515869140625,
      "learning_rate": 9.882773299975897e-05,
      "loss": 0.258160924911499,
      "memory(GiB)": 61.91,
      "step": 8060,
      "token_acc": 0.9425675675675675,
      "train_speed(iter/s)": 1.510272
    },
    {
      "epoch": 0.3455293260785742,
      "grad_norm": 1.9484457969665527,
      "learning_rate": 9.8826283842004e-05,
      "loss": 0.29850473403930666,
      "memory(GiB)": 61.91,
      "step": 8065,
      "token_acc": 0.9312977099236641,
      "train_speed(iter/s)": 1.510248
    },
    {
      "epoch": 0.34574354140782315,
      "grad_norm": 0.6624013185501099,
      "learning_rate": 9.882483379971509e-05,
      "loss": 0.20448989868164064,
      "memory(GiB)": 61.91,
      "step": 8070,
      "token_acc": 0.9467084639498433,
      "train_speed(iter/s)": 1.510224
    },
    {
      "epoch": 0.34595775673707213,
      "grad_norm": 3.270261526107788,
      "learning_rate": 9.882338287291851e-05,
      "loss": 0.4455327033996582,
      "memory(GiB)": 61.91,
      "step": 8075,
      "token_acc": 0.889967637540453,
      "train_speed(iter/s)": 1.510207
    },
    {
      "epoch": 0.34617197206632105,
      "grad_norm": 1.2199444770812988,
      "learning_rate": 9.882193106164055e-05,
      "loss": 0.14718282222747803,
      "memory(GiB)": 61.91,
      "step": 8080,
      "token_acc": 0.9606299212598425,
      "train_speed(iter/s)": 1.510202
    },
    {
      "epoch": 0.34638618739557003,
      "grad_norm": 6.157723903656006,
      "learning_rate": 9.882047836590752e-05,
      "loss": 0.5213945388793946,
      "memory(GiB)": 61.91,
      "step": 8085,
      "token_acc": 0.8988326848249028,
      "train_speed(iter/s)": 1.510292
    },
    {
      "epoch": 0.346600402724819,
      "grad_norm": 1.4888267517089844,
      "learning_rate": 9.881902478574571e-05,
      "loss": 0.219823956489563,
      "memory(GiB)": 61.91,
      "step": 8090,
      "token_acc": 0.952076677316294,
      "train_speed(iter/s)": 1.510318
    },
    {
      "epoch": 0.34681461805406794,
      "grad_norm": 3.5085060596466064,
      "learning_rate": 9.88175703211815e-05,
      "loss": 0.4283764362335205,
      "memory(GiB)": 61.91,
      "step": 8095,
      "token_acc": 0.8996282527881041,
      "train_speed(iter/s)": 1.510275
    },
    {
      "epoch": 0.3470288333833169,
      "grad_norm": 2.08805251121521,
      "learning_rate": 9.88161149722412e-05,
      "loss": 0.4971491813659668,
      "memory(GiB)": 61.91,
      "step": 8100,
      "token_acc": 0.8903225806451613,
      "train_speed(iter/s)": 1.510266
    },
    {
      "epoch": 0.3472430487125659,
      "grad_norm": 1.02228581905365,
      "learning_rate": 9.881465873895116e-05,
      "loss": 0.34533441066741943,
      "memory(GiB)": 61.91,
      "step": 8105,
      "token_acc": 0.916,
      "train_speed(iter/s)": 1.510353
    },
    {
      "epoch": 0.3474572640418148,
      "grad_norm": 3.541059732437134,
      "learning_rate": 9.881320162133781e-05,
      "loss": 0.609687089920044,
      "memory(GiB)": 61.91,
      "step": 8110,
      "token_acc": 0.8532423208191127,
      "train_speed(iter/s)": 1.5103
    },
    {
      "epoch": 0.3476714793710638,
      "grad_norm": 3.559436559677124,
      "learning_rate": 9.881174361942751e-05,
      "loss": 0.4117569446563721,
      "memory(GiB)": 61.91,
      "step": 8115,
      "token_acc": 0.9309090909090909,
      "train_speed(iter/s)": 1.510332
    },
    {
      "epoch": 0.3478856947003128,
      "grad_norm": 2.2064106464385986,
      "learning_rate": 9.881028473324669e-05,
      "loss": 0.4159360408782959,
      "memory(GiB)": 61.91,
      "step": 8120,
      "token_acc": 0.906832298136646,
      "train_speed(iter/s)": 1.51036
    },
    {
      "epoch": 0.3480999100295617,
      "grad_norm": 2.1873438358306885,
      "learning_rate": 9.880882496282176e-05,
      "loss": 0.24685986042022706,
      "memory(GiB)": 61.91,
      "step": 8125,
      "token_acc": 0.9403508771929825,
      "train_speed(iter/s)": 1.510391
    },
    {
      "epoch": 0.3483141253588107,
      "grad_norm": 3.090034008026123,
      "learning_rate": 9.88073643081792e-05,
      "loss": 0.38810784816741944,
      "memory(GiB)": 61.91,
      "step": 8130,
      "token_acc": 0.9148148148148149,
      "train_speed(iter/s)": 1.510366
    },
    {
      "epoch": 0.34852834068805966,
      "grad_norm": 2.0415897369384766,
      "learning_rate": 9.880590276934543e-05,
      "loss": 0.3362722635269165,
      "memory(GiB)": 61.91,
      "step": 8135,
      "token_acc": 0.9292929292929293,
      "train_speed(iter/s)": 1.510332
    },
    {
      "epoch": 0.3487425560173086,
      "grad_norm": 2.252575397491455,
      "learning_rate": 9.880444034634698e-05,
      "loss": 0.25062129497528074,
      "memory(GiB)": 61.91,
      "step": 8140,
      "token_acc": 0.9323076923076923,
      "train_speed(iter/s)": 1.51037
    },
    {
      "epoch": 0.34895677134655756,
      "grad_norm": 3.299809455871582,
      "learning_rate": 9.880297703921027e-05,
      "loss": 0.39873974323272704,
      "memory(GiB)": 61.91,
      "step": 8145,
      "token_acc": 0.8819188191881919,
      "train_speed(iter/s)": 1.510499
    },
    {
      "epoch": 0.34917098667580654,
      "grad_norm": 0.6998719573020935,
      "learning_rate": 9.880151284796187e-05,
      "loss": 0.43930683135986326,
      "memory(GiB)": 61.91,
      "step": 8150,
      "token_acc": 0.9046052631578947,
      "train_speed(iter/s)": 1.510582
    },
    {
      "epoch": 0.34938520200505546,
      "grad_norm": 1.9232062101364136,
      "learning_rate": 9.880004777262829e-05,
      "loss": 0.5072129726409912,
      "memory(GiB)": 61.91,
      "step": 8155,
      "token_acc": 0.9184952978056427,
      "train_speed(iter/s)": 1.510551
    },
    {
      "epoch": 0.34959941733430444,
      "grad_norm": 2.6348376274108887,
      "learning_rate": 9.879858181323607e-05,
      "loss": 0.45771026611328125,
      "memory(GiB)": 61.91,
      "step": 8160,
      "token_acc": 0.8862876254180602,
      "train_speed(iter/s)": 1.510615
    },
    {
      "epoch": 0.3498136326635534,
      "grad_norm": 5.187633991241455,
      "learning_rate": 9.879711496981174e-05,
      "loss": 0.27827725410461424,
      "memory(GiB)": 61.91,
      "step": 8165,
      "token_acc": 0.9242424242424242,
      "train_speed(iter/s)": 1.510687
    },
    {
      "epoch": 0.35002784799280234,
      "grad_norm": 3.302506923675537,
      "learning_rate": 9.879564724238193e-05,
      "loss": 1.103024959564209,
      "memory(GiB)": 61.91,
      "step": 8170,
      "token_acc": 0.8239202657807309,
      "train_speed(iter/s)": 1.510789
    },
    {
      "epoch": 0.3502420633220513,
      "grad_norm": 3.8758699893951416,
      "learning_rate": 9.879417863097318e-05,
      "loss": 0.2220090389251709,
      "memory(GiB)": 61.91,
      "step": 8175,
      "token_acc": 0.9625,
      "train_speed(iter/s)": 1.51079
    },
    {
      "epoch": 0.3504562786513003,
      "grad_norm": 2.136594295501709,
      "learning_rate": 9.879270913561209e-05,
      "loss": 0.3327904224395752,
      "memory(GiB)": 61.91,
      "step": 8180,
      "token_acc": 0.9274447949526814,
      "train_speed(iter/s)": 1.510787
    },
    {
      "epoch": 0.3506704939805492,
      "grad_norm": 2.158339023590088,
      "learning_rate": 9.879123875632534e-05,
      "loss": 0.16064339876174927,
      "memory(GiB)": 61.91,
      "step": 8185,
      "token_acc": 0.9631901840490797,
      "train_speed(iter/s)": 1.510757
    },
    {
      "epoch": 0.3508847093097982,
      "grad_norm": 1.9888887405395508,
      "learning_rate": 9.878976749313951e-05,
      "loss": 0.4534247398376465,
      "memory(GiB)": 61.91,
      "step": 8190,
      "token_acc": 0.8867313915857605,
      "train_speed(iter/s)": 1.510675
    },
    {
      "epoch": 0.3510989246390472,
      "grad_norm": 3.444143533706665,
      "learning_rate": 9.878829534608127e-05,
      "loss": 0.46887855529785155,
      "memory(GiB)": 61.91,
      "step": 8195,
      "token_acc": 0.8985507246376812,
      "train_speed(iter/s)": 1.510635
    },
    {
      "epoch": 0.3513131399682961,
      "grad_norm": 2.3185007572174072,
      "learning_rate": 9.878682231517731e-05,
      "loss": 0.4610457420349121,
      "memory(GiB)": 61.91,
      "step": 8200,
      "token_acc": 0.9097472924187726,
      "train_speed(iter/s)": 1.510627
    },
    {
      "epoch": 0.3515273552975451,
      "grad_norm": 1.0078370571136475,
      "learning_rate": 9.878534840045428e-05,
      "loss": 0.3914927959442139,
      "memory(GiB)": 61.91,
      "step": 8205,
      "token_acc": 0.939799331103679,
      "train_speed(iter/s)": 1.510606
    },
    {
      "epoch": 0.35174157062679406,
      "grad_norm": 4.583042621612549,
      "learning_rate": 9.878387360193891e-05,
      "loss": 0.3980301856994629,
      "memory(GiB)": 61.91,
      "step": 8210,
      "token_acc": 0.9228187919463087,
      "train_speed(iter/s)": 1.510649
    },
    {
      "epoch": 0.351955785956043,
      "grad_norm": 1.251065731048584,
      "learning_rate": 9.87823979196579e-05,
      "loss": 0.4213674068450928,
      "memory(GiB)": 61.91,
      "step": 8215,
      "token_acc": 0.9384615384615385,
      "train_speed(iter/s)": 1.510732
    },
    {
      "epoch": 0.35217000128529197,
      "grad_norm": 0.09758938103914261,
      "learning_rate": 9.8780921353638e-05,
      "loss": 0.23020036220550538,
      "memory(GiB)": 61.91,
      "step": 8220,
      "token_acc": 0.9339622641509434,
      "train_speed(iter/s)": 1.51076
    },
    {
      "epoch": 0.35238421661454095,
      "grad_norm": 1.883832335472107,
      "learning_rate": 9.877944390390594e-05,
      "loss": 0.34256079196929934,
      "memory(GiB)": 61.91,
      "step": 8225,
      "token_acc": 0.939873417721519,
      "train_speed(iter/s)": 1.510751
    },
    {
      "epoch": 0.3525984319437899,
      "grad_norm": 2.5986592769622803,
      "learning_rate": 9.87779655704885e-05,
      "loss": 0.5016443729400635,
      "memory(GiB)": 61.91,
      "step": 8230,
      "token_acc": 0.8869565217391304,
      "train_speed(iter/s)": 1.51076
    },
    {
      "epoch": 0.35281264727303885,
      "grad_norm": 2.5744216442108154,
      "learning_rate": 9.877648635341245e-05,
      "loss": 0.39737393856048586,
      "memory(GiB)": 61.91,
      "step": 8235,
      "token_acc": 0.9,
      "train_speed(iter/s)": 1.510754
    },
    {
      "epoch": 0.3530268626022878,
      "grad_norm": 2.31666898727417,
      "learning_rate": 9.877500625270459e-05,
      "loss": 0.2819164752960205,
      "memory(GiB)": 61.91,
      "step": 8240,
      "token_acc": 0.9450171821305842,
      "train_speed(iter/s)": 1.510727
    },
    {
      "epoch": 0.3532410779315368,
      "grad_norm": 3.0742480754852295,
      "learning_rate": 9.877352526839174e-05,
      "loss": 0.4782444953918457,
      "memory(GiB)": 61.91,
      "step": 8245,
      "token_acc": 0.9138576779026217,
      "train_speed(iter/s)": 1.51068
    },
    {
      "epoch": 0.35345529326078573,
      "grad_norm": 2.3592817783355713,
      "learning_rate": 9.877204340050075e-05,
      "loss": 0.3943544864654541,
      "memory(GiB)": 61.91,
      "step": 8250,
      "token_acc": 0.9067524115755627,
      "train_speed(iter/s)": 1.510723
    },
    {
      "epoch": 0.3536695085900347,
      "grad_norm": 7.544619083404541,
      "learning_rate": 9.87705606490584e-05,
      "loss": 0.5255274295806884,
      "memory(GiB)": 61.91,
      "step": 8255,
      "token_acc": 0.8753623188405797,
      "train_speed(iter/s)": 1.510766
    },
    {
      "epoch": 0.3538837239192837,
      "grad_norm": 2.65968656539917,
      "learning_rate": 9.876907701409164e-05,
      "loss": 0.5254755973815918,
      "memory(GiB)": 61.91,
      "step": 8260,
      "token_acc": 0.8888888888888888,
      "train_speed(iter/s)": 1.510797
    },
    {
      "epoch": 0.3540979392485326,
      "grad_norm": 4.306763172149658,
      "learning_rate": 9.876759249562727e-05,
      "loss": 0.9895835876464844,
      "memory(GiB)": 61.91,
      "step": 8265,
      "token_acc": 0.8,
      "train_speed(iter/s)": 1.510752
    },
    {
      "epoch": 0.3543121545777816,
      "grad_norm": 5.25244140625,
      "learning_rate": 9.876610709369221e-05,
      "loss": 0.6747769355773926,
      "memory(GiB)": 61.91,
      "step": 8270,
      "token_acc": 0.8655737704918033,
      "train_speed(iter/s)": 1.510732
    },
    {
      "epoch": 0.35452636990703057,
      "grad_norm": 3.238536834716797,
      "learning_rate": 9.876462080831338e-05,
      "loss": 0.4111518859863281,
      "memory(GiB)": 61.91,
      "step": 8275,
      "token_acc": 0.9142857142857143,
      "train_speed(iter/s)": 1.510708
    },
    {
      "epoch": 0.3547405852362795,
      "grad_norm": 1.3382694721221924,
      "learning_rate": 9.876313363951772e-05,
      "loss": 0.17621071338653566,
      "memory(GiB)": 61.91,
      "step": 8280,
      "token_acc": 0.9612676056338029,
      "train_speed(iter/s)": 1.510735
    },
    {
      "epoch": 0.35495480056552847,
      "grad_norm": 2.601794958114624,
      "learning_rate": 9.876164558733213e-05,
      "loss": 0.3946081638336182,
      "memory(GiB)": 61.91,
      "step": 8285,
      "token_acc": 0.916058394160584,
      "train_speed(iter/s)": 1.510716
    },
    {
      "epoch": 0.35516901589477745,
      "grad_norm": 2.5786194801330566,
      "learning_rate": 9.87601566517836e-05,
      "loss": 0.33294243812561036,
      "memory(GiB)": 61.91,
      "step": 8290,
      "token_acc": 0.9246376811594202,
      "train_speed(iter/s)": 1.510709
    },
    {
      "epoch": 0.3553832312240264,
      "grad_norm": 2.289860725402832,
      "learning_rate": 9.875866683289907e-05,
      "loss": 0.3189689159393311,
      "memory(GiB)": 61.91,
      "step": 8295,
      "token_acc": 0.926509186351706,
      "train_speed(iter/s)": 1.51064
    },
    {
      "epoch": 0.35559744655327535,
      "grad_norm": 2.7072980403900146,
      "learning_rate": 9.875717613070558e-05,
      "loss": 0.34669952392578124,
      "memory(GiB)": 61.91,
      "step": 8300,
      "token_acc": 0.9259259259259259,
      "train_speed(iter/s)": 1.510673
    },
    {
      "epoch": 0.35581166188252433,
      "grad_norm": 1.0098376274108887,
      "learning_rate": 9.875568454523008e-05,
      "loss": 0.281189489364624,
      "memory(GiB)": 61.91,
      "step": 8305,
      "token_acc": 0.9384615384615385,
      "train_speed(iter/s)": 1.510731
    },
    {
      "epoch": 0.35602587721177326,
      "grad_norm": 5.978972911834717,
      "learning_rate": 9.875419207649963e-05,
      "loss": 0.3442498207092285,
      "memory(GiB)": 61.91,
      "step": 8310,
      "token_acc": 0.9157088122605364,
      "train_speed(iter/s)": 1.510722
    },
    {
      "epoch": 0.35624009254102224,
      "grad_norm": 3.1284725666046143,
      "learning_rate": 9.875269872454127e-05,
      "loss": 0.8159701347351074,
      "memory(GiB)": 61.91,
      "step": 8315,
      "token_acc": 0.8440677966101695,
      "train_speed(iter/s)": 1.510873
    },
    {
      "epoch": 0.3564543078702712,
      "grad_norm": 1.1218222379684448,
      "learning_rate": 9.875120448938201e-05,
      "loss": 0.3257554054260254,
      "memory(GiB)": 61.91,
      "step": 8320,
      "token_acc": 0.9114754098360656,
      "train_speed(iter/s)": 1.51088
    },
    {
      "epoch": 0.35666852319952014,
      "grad_norm": 1.0046412944793701,
      "learning_rate": 9.874970937104897e-05,
      "loss": 0.4218743801116943,
      "memory(GiB)": 61.91,
      "step": 8325,
      "token_acc": 0.916083916083916,
      "train_speed(iter/s)": 1.510883
    },
    {
      "epoch": 0.3568827385287691,
      "grad_norm": 3.202280282974243,
      "learning_rate": 9.87482133695692e-05,
      "loss": 0.6752405166625977,
      "memory(GiB)": 61.91,
      "step": 8330,
      "token_acc": 0.8395061728395061,
      "train_speed(iter/s)": 1.510925
    },
    {
      "epoch": 0.3570969538580181,
      "grad_norm": 2.449254035949707,
      "learning_rate": 9.874671648496983e-05,
      "loss": 0.3161851167678833,
      "memory(GiB)": 61.91,
      "step": 8335,
      "token_acc": 0.9226006191950464,
      "train_speed(iter/s)": 1.510896
    },
    {
      "epoch": 0.357311169187267,
      "grad_norm": 2.987575054168701,
      "learning_rate": 9.874521871727795e-05,
      "loss": 0.2683391094207764,
      "memory(GiB)": 61.91,
      "step": 8340,
      "token_acc": 0.9383116883116883,
      "train_speed(iter/s)": 1.510861
    },
    {
      "epoch": 0.357525384516516,
      "grad_norm": 6.7677836418151855,
      "learning_rate": 9.87437200665207e-05,
      "loss": 0.539757776260376,
      "memory(GiB)": 61.91,
      "step": 8345,
      "token_acc": 0.8681948424068768,
      "train_speed(iter/s)": 1.510809
    },
    {
      "epoch": 0.357739599845765,
      "grad_norm": 3.3542592525482178,
      "learning_rate": 9.874222053272526e-05,
      "loss": 0.47335238456726075,
      "memory(GiB)": 61.91,
      "step": 8350,
      "token_acc": 0.9042904290429042,
      "train_speed(iter/s)": 1.510776
    },
    {
      "epoch": 0.3579538151750139,
      "grad_norm": 2.0968735218048096,
      "learning_rate": 9.874072011591875e-05,
      "loss": 0.3348551750183105,
      "memory(GiB)": 61.91,
      "step": 8355,
      "token_acc": 0.9182389937106918,
      "train_speed(iter/s)": 1.510868
    },
    {
      "epoch": 0.3581680305042629,
      "grad_norm": 2.8707685470581055,
      "learning_rate": 9.873921881612839e-05,
      "loss": 0.22373542785644532,
      "memory(GiB)": 61.91,
      "step": 8360,
      "token_acc": 0.9596412556053812,
      "train_speed(iter/s)": 1.51087
    },
    {
      "epoch": 0.35838224583351186,
      "grad_norm": 2.783865451812744,
      "learning_rate": 9.873771663338134e-05,
      "loss": 0.23436853885650635,
      "memory(GiB)": 61.91,
      "step": 8365,
      "token_acc": 0.9488054607508533,
      "train_speed(iter/s)": 1.510881
    },
    {
      "epoch": 0.3585964611627608,
      "grad_norm": 5.039813995361328,
      "learning_rate": 9.873621356770485e-05,
      "loss": 0.37659153938293455,
      "memory(GiB)": 61.91,
      "step": 8370,
      "token_acc": 0.9274809160305344,
      "train_speed(iter/s)": 1.510836
    },
    {
      "epoch": 0.35881067649200976,
      "grad_norm": 4.267390251159668,
      "learning_rate": 9.873470961912612e-05,
      "loss": 0.10687878131866455,
      "memory(GiB)": 61.91,
      "step": 8375,
      "token_acc": 0.9703703703703703,
      "train_speed(iter/s)": 1.510858
    },
    {
      "epoch": 0.35902489182125874,
      "grad_norm": 1.7893646955490112,
      "learning_rate": 9.873320478767242e-05,
      "loss": 0.30151369571685793,
      "memory(GiB)": 61.91,
      "step": 8380,
      "token_acc": 0.931740614334471,
      "train_speed(iter/s)": 1.511002
    },
    {
      "epoch": 0.35923910715050766,
      "grad_norm": 3.6432948112487793,
      "learning_rate": 9.873169907337098e-05,
      "loss": 0.35772995948791503,
      "memory(GiB)": 61.91,
      "step": 8385,
      "token_acc": 0.9385245901639344,
      "train_speed(iter/s)": 1.510989
    },
    {
      "epoch": 0.35945332247975664,
      "grad_norm": 6.112993240356445,
      "learning_rate": 9.873019247624913e-05,
      "loss": 0.5271028041839599,
      "memory(GiB)": 61.91,
      "step": 8390,
      "token_acc": 0.896551724137931,
      "train_speed(iter/s)": 1.510975
    },
    {
      "epoch": 0.3596675378090056,
      "grad_norm": 2.8249731063842773,
      "learning_rate": 9.87286849963341e-05,
      "loss": 0.42355051040649416,
      "memory(GiB)": 61.91,
      "step": 8395,
      "token_acc": 0.9094202898550725,
      "train_speed(iter/s)": 1.511035
    },
    {
      "epoch": 0.3598817531382546,
      "grad_norm": 9.644018173217773,
      "learning_rate": 9.872717663365325e-05,
      "loss": 0.8424102783203125,
      "memory(GiB)": 61.91,
      "step": 8400,
      "token_acc": 0.8312883435582822,
      "train_speed(iter/s)": 1.511131
    },
    {
      "epoch": 0.3600959684675035,
      "grad_norm": 3.3169281482696533,
      "learning_rate": 9.872566738823388e-05,
      "loss": 0.47966642379760743,
      "memory(GiB)": 61.91,
      "step": 8405,
      "token_acc": 0.9024390243902439,
      "train_speed(iter/s)": 1.511244
    },
    {
      "epoch": 0.3603101837967525,
      "grad_norm": 4.327241897583008,
      "learning_rate": 9.872415726010334e-05,
      "loss": 0.5246102809906006,
      "memory(GiB)": 61.91,
      "step": 8410,
      "token_acc": 0.8801261829652997,
      "train_speed(iter/s)": 1.511211
    },
    {
      "epoch": 0.3605243991260015,
      "grad_norm": 3.983896255493164,
      "learning_rate": 9.872264624928898e-05,
      "loss": 0.27153425216674804,
      "memory(GiB)": 61.91,
      "step": 8415,
      "token_acc": 0.9485294117647058,
      "train_speed(iter/s)": 1.511219
    },
    {
      "epoch": 0.3607386144552504,
      "grad_norm": 0.9352177381515503,
      "learning_rate": 9.872113435581818e-05,
      "loss": 0.4178792476654053,
      "memory(GiB)": 61.91,
      "step": 8420,
      "token_acc": 0.9033457249070632,
      "train_speed(iter/s)": 1.511189
    },
    {
      "epoch": 0.3609528297844994,
      "grad_norm": 3.2495973110198975,
      "learning_rate": 9.871962157971832e-05,
      "loss": 0.5291205883026123,
      "memory(GiB)": 61.91,
      "step": 8425,
      "token_acc": 0.887240356083086,
      "train_speed(iter/s)": 1.511153
    },
    {
      "epoch": 0.36116704511374836,
      "grad_norm": 2.9210622310638428,
      "learning_rate": 9.871810792101681e-05,
      "loss": 0.6802117824554443,
      "memory(GiB)": 61.91,
      "step": 8430,
      "token_acc": 0.875,
      "train_speed(iter/s)": 1.511269
    },
    {
      "epoch": 0.3613812604429973,
      "grad_norm": 2.3755571842193604,
      "learning_rate": 9.871659337974109e-05,
      "loss": 0.5982009410858155,
      "memory(GiB)": 61.91,
      "step": 8435,
      "token_acc": 0.8973509933774835,
      "train_speed(iter/s)": 1.511261
    },
    {
      "epoch": 0.36159547577224627,
      "grad_norm": 1.5956039428710938,
      "learning_rate": 9.871507795591857e-05,
      "loss": 0.3831546068191528,
      "memory(GiB)": 61.91,
      "step": 8440,
      "token_acc": 0.9135802469135802,
      "train_speed(iter/s)": 1.511235
    },
    {
      "epoch": 0.36180969110149525,
      "grad_norm": 3.2444026470184326,
      "learning_rate": 9.87135616495767e-05,
      "loss": 0.48974223136901857,
      "memory(GiB)": 61.91,
      "step": 8445,
      "token_acc": 0.901060070671378,
      "train_speed(iter/s)": 1.511247
    },
    {
      "epoch": 0.36202390643074417,
      "grad_norm": 3.5096280574798584,
      "learning_rate": 9.871204446074298e-05,
      "loss": 0.5237321853637695,
      "memory(GiB)": 61.91,
      "step": 8450,
      "token_acc": 0.9052631578947369,
      "train_speed(iter/s)": 1.51124
    },
    {
      "epoch": 0.36223812175999315,
      "grad_norm": 4.675867557525635,
      "learning_rate": 9.871052638944489e-05,
      "loss": 0.44454364776611327,
      "memory(GiB)": 61.91,
      "step": 8455,
      "token_acc": 0.8754448398576512,
      "train_speed(iter/s)": 1.51122
    },
    {
      "epoch": 0.3624523370892421,
      "grad_norm": 3.3041279315948486,
      "learning_rate": 9.87090074357099e-05,
      "loss": 0.4129662036895752,
      "memory(GiB)": 61.91,
      "step": 8460,
      "token_acc": 0.910958904109589,
      "train_speed(iter/s)": 1.511396
    },
    {
      "epoch": 0.36266655241849105,
      "grad_norm": 1.6807105541229248,
      "learning_rate": 9.870748759956556e-05,
      "loss": 0.18156312704086303,
      "memory(GiB)": 61.91,
      "step": 8465,
      "token_acc": 0.9440559440559441,
      "train_speed(iter/s)": 1.511466
    },
    {
      "epoch": 0.36288076774774003,
      "grad_norm": 2.544825553894043,
      "learning_rate": 9.87059668810394e-05,
      "loss": 0.5279191970825196,
      "memory(GiB)": 61.91,
      "step": 8470,
      "token_acc": 0.8896797153024911,
      "train_speed(iter/s)": 1.511453
    },
    {
      "epoch": 0.363094983076989,
      "grad_norm": 3.9574735164642334,
      "learning_rate": 9.870444528015895e-05,
      "loss": 0.3346928834915161,
      "memory(GiB)": 61.91,
      "step": 8475,
      "token_acc": 0.9166666666666666,
      "train_speed(iter/s)": 1.511495
    },
    {
      "epoch": 0.36330919840623793,
      "grad_norm": 3.2448995113372803,
      "learning_rate": 9.870292279695177e-05,
      "loss": 0.4908749580383301,
      "memory(GiB)": 61.91,
      "step": 8480,
      "token_acc": 0.8710801393728222,
      "train_speed(iter/s)": 1.511579
    },
    {
      "epoch": 0.3635234137354869,
      "grad_norm": 3.2215542793273926,
      "learning_rate": 9.870139943144547e-05,
      "loss": 0.5620937824249268,
      "memory(GiB)": 61.91,
      "step": 8485,
      "token_acc": 0.8802588996763754,
      "train_speed(iter/s)": 1.511511
    },
    {
      "epoch": 0.3637376290647359,
      "grad_norm": 1.8716936111450195,
      "learning_rate": 9.869987518366763e-05,
      "loss": 0.3343369722366333,
      "memory(GiB)": 61.91,
      "step": 8490,
      "token_acc": 0.9390243902439024,
      "train_speed(iter/s)": 1.511486
    },
    {
      "epoch": 0.3639518443939848,
      "grad_norm": 4.0952229499816895,
      "learning_rate": 9.869835005364587e-05,
      "loss": 0.8576143264770508,
      "memory(GiB)": 61.91,
      "step": 8495,
      "token_acc": 0.7667731629392971,
      "train_speed(iter/s)": 1.511549
    },
    {
      "epoch": 0.3641660597232338,
      "grad_norm": 1.5087676048278809,
      "learning_rate": 9.869682404140781e-05,
      "loss": 0.2970644474029541,
      "memory(GiB)": 61.91,
      "step": 8500,
      "token_acc": 0.9326599326599326,
      "train_speed(iter/s)": 1.511607
    },
    {
      "epoch": 0.3641660597232338,
      "eval_loss": 2.5182292461395264,
      "eval_runtime": 11.5797,
      "eval_samples_per_second": 8.636,
      "eval_steps_per_second": 8.636,
      "eval_token_acc": 0.4419525065963061,
      "step": 8500
    },
    {
      "epoch": 0.36438027505248277,
      "grad_norm": 2.8486454486846924,
      "learning_rate": 9.869529714698111e-05,
      "loss": 0.49498896598815917,
      "memory(GiB)": 61.91,
      "step": 8505,
      "token_acc": 0.5596153846153846,
      "train_speed(iter/s)": 1.508319
    },
    {
      "epoch": 0.3645944903817317,
      "grad_norm": 0.8331350684165955,
      "learning_rate": 9.869376937039342e-05,
      "loss": 0.5306161403656006,
      "memory(GiB)": 61.91,
      "step": 8510,
      "token_acc": 0.9027777777777778,
      "train_speed(iter/s)": 1.508284
    },
    {
      "epoch": 0.3648087057109807,
      "grad_norm": 2.1671202182769775,
      "learning_rate": 9.869224071167242e-05,
      "loss": 0.36143980026245115,
      "memory(GiB)": 61.91,
      "step": 8515,
      "token_acc": 0.9341085271317829,
      "train_speed(iter/s)": 1.508288
    },
    {
      "epoch": 0.36502292104022965,
      "grad_norm": 1.772369146347046,
      "learning_rate": 9.869071117084581e-05,
      "loss": 0.23359076976776122,
      "memory(GiB)": 61.91,
      "step": 8520,
      "token_acc": 0.9385665529010239,
      "train_speed(iter/s)": 1.508227
    },
    {
      "epoch": 0.3652371363694786,
      "grad_norm": 3.719489812850952,
      "learning_rate": 9.868918074794126e-05,
      "loss": 0.5181020259857178,
      "memory(GiB)": 61.91,
      "step": 8525,
      "token_acc": 0.8918918918918919,
      "train_speed(iter/s)": 1.508372
    },
    {
      "epoch": 0.36545135169872756,
      "grad_norm": 2.3016295433044434,
      "learning_rate": 9.868764944298656e-05,
      "loss": 0.6089282989501953,
      "memory(GiB)": 61.91,
      "step": 8530,
      "token_acc": 0.8633093525179856,
      "train_speed(iter/s)": 1.508318
    },
    {
      "epoch": 0.36566556702797653,
      "grad_norm": 3.6251890659332275,
      "learning_rate": 9.86861172560094e-05,
      "loss": 0.5702113628387451,
      "memory(GiB)": 61.91,
      "step": 8535,
      "token_acc": 0.9022801302931596,
      "train_speed(iter/s)": 1.508319
    },
    {
      "epoch": 0.36587978235722546,
      "grad_norm": 3.182731866836548,
      "learning_rate": 9.868458418703756e-05,
      "loss": 0.5166587352752685,
      "memory(GiB)": 61.91,
      "step": 8540,
      "token_acc": 0.8778135048231511,
      "train_speed(iter/s)": 1.508293
    },
    {
      "epoch": 0.36609399768647444,
      "grad_norm": 2.6207497119903564,
      "learning_rate": 9.868305023609881e-05,
      "loss": 0.19877753257751465,
      "memory(GiB)": 61.91,
      "step": 8545,
      "token_acc": 0.9423868312757202,
      "train_speed(iter/s)": 1.508357
    },
    {
      "epoch": 0.3663082130157234,
      "grad_norm": 3.0303564071655273,
      "learning_rate": 9.868151540322094e-05,
      "loss": 0.6614083766937255,
      "memory(GiB)": 61.91,
      "step": 8550,
      "token_acc": 0.8714285714285714,
      "train_speed(iter/s)": 1.508362
    },
    {
      "epoch": 0.36652242834497234,
      "grad_norm": 1.4050486087799072,
      "learning_rate": 9.867997968843175e-05,
      "loss": 0.36556806564331057,
      "memory(GiB)": 61.91,
      "step": 8555,
      "token_acc": 0.9115384615384615,
      "train_speed(iter/s)": 1.508454
    },
    {
      "epoch": 0.3667366436742213,
      "grad_norm": 0.5342100262641907,
      "learning_rate": 9.867844309175906e-05,
      "loss": 0.3324640989303589,
      "memory(GiB)": 61.91,
      "step": 8560,
      "token_acc": 0.9171270718232044,
      "train_speed(iter/s)": 1.508449
    },
    {
      "epoch": 0.3669508590034703,
      "grad_norm": 3.052577018737793,
      "learning_rate": 9.86769056132307e-05,
      "loss": 0.19841744899749755,
      "memory(GiB)": 61.91,
      "step": 8565,
      "token_acc": 0.9547038327526133,
      "train_speed(iter/s)": 1.508365
    },
    {
      "epoch": 0.3671650743327193,
      "grad_norm": 3.786212921142578,
      "learning_rate": 9.867536725287455e-05,
      "loss": 0.4685386657714844,
      "memory(GiB)": 61.91,
      "step": 8570,
      "token_acc": 0.8697183098591549,
      "train_speed(iter/s)": 1.508343
    },
    {
      "epoch": 0.3673792896619682,
      "grad_norm": 1.6783490180969238,
      "learning_rate": 9.867382801071844e-05,
      "loss": 0.28863441944122314,
      "memory(GiB)": 61.91,
      "step": 8575,
      "token_acc": 0.9448529411764706,
      "train_speed(iter/s)": 1.508382
    },
    {
      "epoch": 0.3675935049912172,
      "grad_norm": 2.4865825176239014,
      "learning_rate": 9.86722878867903e-05,
      "loss": 0.30562381744384765,
      "memory(GiB)": 61.91,
      "step": 8580,
      "token_acc": 0.9318181818181818,
      "train_speed(iter/s)": 1.508383
    },
    {
      "epoch": 0.36780772032046616,
      "grad_norm": 4.11130952835083,
      "learning_rate": 9.867074688111799e-05,
      "loss": 0.41965465545654296,
      "memory(GiB)": 61.91,
      "step": 8585,
      "token_acc": 0.916955017301038,
      "train_speed(iter/s)": 1.508407
    },
    {
      "epoch": 0.3680219356497151,
      "grad_norm": 2.2702999114990234,
      "learning_rate": 9.866920499372944e-05,
      "loss": 0.3968060493469238,
      "memory(GiB)": 61.91,
      "step": 8590,
      "token_acc": 0.9110320284697508,
      "train_speed(iter/s)": 1.508435
    },
    {
      "epoch": 0.36823615097896406,
      "grad_norm": 3.3359034061431885,
      "learning_rate": 9.86676622246526e-05,
      "loss": 0.49109683036804197,
      "memory(GiB)": 61.91,
      "step": 8595,
      "token_acc": 0.9094827586206896,
      "train_speed(iter/s)": 1.508482
    },
    {
      "epoch": 0.36845036630821304,
      "grad_norm": 4.422955513000488,
      "learning_rate": 9.866611857391541e-05,
      "loss": 0.32813491821289065,
      "memory(GiB)": 61.91,
      "step": 8600,
      "token_acc": 0.9302325581395349,
      "train_speed(iter/s)": 1.508479
    },
    {
      "epoch": 0.36866458163746196,
      "grad_norm": 0.7508419752120972,
      "learning_rate": 9.866457404154581e-05,
      "loss": 0.5170837879180908,
      "memory(GiB)": 61.91,
      "step": 8605,
      "token_acc": 0.89,
      "train_speed(iter/s)": 1.508564
    },
    {
      "epoch": 0.36887879696671094,
      "grad_norm": 3.0916597843170166,
      "learning_rate": 9.86630286275718e-05,
      "loss": 0.4983029842376709,
      "memory(GiB)": 61.91,
      "step": 8610,
      "token_acc": 0.8885448916408669,
      "train_speed(iter/s)": 1.508589
    },
    {
      "epoch": 0.3690930122959599,
      "grad_norm": 2.3805835247039795,
      "learning_rate": 9.866148233202139e-05,
      "loss": 0.33534576892852785,
      "memory(GiB)": 61.91,
      "step": 8615,
      "token_acc": 0.9333333333333333,
      "train_speed(iter/s)": 1.508667
    },
    {
      "epoch": 0.36930722762520884,
      "grad_norm": 4.513883590698242,
      "learning_rate": 9.865993515492258e-05,
      "loss": 0.5090461730957031,
      "memory(GiB)": 61.91,
      "step": 8620,
      "token_acc": 0.8940809968847352,
      "train_speed(iter/s)": 1.508649
    },
    {
      "epoch": 0.3695214429544578,
      "grad_norm": 4.873726844787598,
      "learning_rate": 9.865838709630339e-05,
      "loss": 0.5730202674865723,
      "memory(GiB)": 61.91,
      "step": 8625,
      "token_acc": 0.8971428571428571,
      "train_speed(iter/s)": 1.508673
    },
    {
      "epoch": 0.3697356582837068,
      "grad_norm": 2.3736422061920166,
      "learning_rate": 9.865683815619188e-05,
      "loss": 0.4917450904846191,
      "memory(GiB)": 61.91,
      "step": 8630,
      "token_acc": 0.9067524115755627,
      "train_speed(iter/s)": 1.508748
    },
    {
      "epoch": 0.3699498736129557,
      "grad_norm": 1.5080140829086304,
      "learning_rate": 9.865528833461611e-05,
      "loss": 0.4045114517211914,
      "memory(GiB)": 61.91,
      "step": 8635,
      "token_acc": 0.9278688524590164,
      "train_speed(iter/s)": 1.50884
    },
    {
      "epoch": 0.3701640889422047,
      "grad_norm": 4.8142805099487305,
      "learning_rate": 9.865373763160413e-05,
      "loss": 0.5263293743133545,
      "memory(GiB)": 61.91,
      "step": 8640,
      "token_acc": 0.8906752411575563,
      "train_speed(iter/s)": 1.508905
    },
    {
      "epoch": 0.3703783042714537,
      "grad_norm": 3.0230648517608643,
      "learning_rate": 9.865218604718405e-05,
      "loss": 0.22323050498962402,
      "memory(GiB)": 61.91,
      "step": 8645,
      "token_acc": 0.935374149659864,
      "train_speed(iter/s)": 1.508954
    },
    {
      "epoch": 0.3705925196007026,
      "grad_norm": 1.6971248388290405,
      "learning_rate": 9.8650633581384e-05,
      "loss": 0.2324012041091919,
      "memory(GiB)": 61.91,
      "step": 8650,
      "token_acc": 0.9538461538461539,
      "train_speed(iter/s)": 1.508954
    },
    {
      "epoch": 0.3708067349299516,
      "grad_norm": 2.856060266494751,
      "learning_rate": 9.864908023423207e-05,
      "loss": 0.39144277572631836,
      "memory(GiB)": 61.91,
      "step": 8655,
      "token_acc": 0.9297658862876255,
      "train_speed(iter/s)": 1.509068
    },
    {
      "epoch": 0.37102095025920057,
      "grad_norm": 3.013428211212158,
      "learning_rate": 9.864752600575641e-05,
      "loss": 0.336905837059021,
      "memory(GiB)": 61.91,
      "step": 8660,
      "token_acc": 0.916058394160584,
      "train_speed(iter/s)": 1.509109
    },
    {
      "epoch": 0.3712351655884495,
      "grad_norm": 8.562774658203125,
      "learning_rate": 9.864597089598519e-05,
      "loss": 0.5130837917327881,
      "memory(GiB)": 61.91,
      "step": 8665,
      "token_acc": 0.8963210702341137,
      "train_speed(iter/s)": 1.509015
    },
    {
      "epoch": 0.37144938091769847,
      "grad_norm": 3.221346855163574,
      "learning_rate": 9.864441490494658e-05,
      "loss": 0.5477745056152343,
      "memory(GiB)": 61.91,
      "step": 8670,
      "token_acc": 0.8867313915857605,
      "train_speed(iter/s)": 1.508979
    },
    {
      "epoch": 0.37166359624694745,
      "grad_norm": 3.490896463394165,
      "learning_rate": 9.864285803266876e-05,
      "loss": 0.2877952098846436,
      "memory(GiB)": 61.91,
      "step": 8675,
      "token_acc": 0.9226006191950464,
      "train_speed(iter/s)": 1.508971
    },
    {
      "epoch": 0.37187781157619637,
      "grad_norm": 4.183293342590332,
      "learning_rate": 9.864130027917993e-05,
      "loss": 0.3909464359283447,
      "memory(GiB)": 61.91,
      "step": 8680,
      "token_acc": 0.9171779141104295,
      "train_speed(iter/s)": 1.508984
    },
    {
      "epoch": 0.37209202690544535,
      "grad_norm": 1.3292711973190308,
      "learning_rate": 9.863974164450833e-05,
      "loss": 0.13097889423370362,
      "memory(GiB)": 61.91,
      "step": 8685,
      "token_acc": 0.9754385964912281,
      "train_speed(iter/s)": 1.508967
    },
    {
      "epoch": 0.37230624223469433,
      "grad_norm": 2.6631674766540527,
      "learning_rate": 9.863818212868217e-05,
      "loss": 0.6474672317504883,
      "memory(GiB)": 61.91,
      "step": 8690,
      "token_acc": 0.8528528528528528,
      "train_speed(iter/s)": 1.508984
    },
    {
      "epoch": 0.37252045756394325,
      "grad_norm": 4.954692363739014,
      "learning_rate": 9.863662173172971e-05,
      "loss": 0.5688843727111816,
      "memory(GiB)": 61.91,
      "step": 8695,
      "token_acc": 0.8545454545454545,
      "train_speed(iter/s)": 1.509054
    },
    {
      "epoch": 0.37273467289319223,
      "grad_norm": 3.2487399578094482,
      "learning_rate": 9.863506045367923e-05,
      "loss": 0.4373831272125244,
      "memory(GiB)": 61.91,
      "step": 8700,
      "token_acc": 0.8905109489051095,
      "train_speed(iter/s)": 1.509096
    },
    {
      "epoch": 0.3729488882224412,
      "grad_norm": 6.788768291473389,
      "learning_rate": 9.863349829455899e-05,
      "loss": 0.34687998294830324,
      "memory(GiB)": 61.91,
      "step": 8705,
      "token_acc": 0.9187279151943463,
      "train_speed(iter/s)": 1.509093
    },
    {
      "epoch": 0.37316310355169013,
      "grad_norm": 3.353257656097412,
      "learning_rate": 9.863193525439734e-05,
      "loss": 0.4005410194396973,
      "memory(GiB)": 61.91,
      "step": 8710,
      "token_acc": 0.8961038961038961,
      "train_speed(iter/s)": 1.509095
    },
    {
      "epoch": 0.3733773188809391,
      "grad_norm": 3.125143527984619,
      "learning_rate": 9.863037133322252e-05,
      "loss": 0.4396620273590088,
      "memory(GiB)": 61.91,
      "step": 8715,
      "token_acc": 0.9065743944636678,
      "train_speed(iter/s)": 1.509062
    },
    {
      "epoch": 0.3735915342101881,
      "grad_norm": 1.795769453048706,
      "learning_rate": 9.862880653106294e-05,
      "loss": 0.3604635238647461,
      "memory(GiB)": 61.91,
      "step": 8720,
      "token_acc": 0.8884758364312267,
      "train_speed(iter/s)": 1.509115
    },
    {
      "epoch": 0.373805749539437,
      "grad_norm": 0.6067296266555786,
      "learning_rate": 9.86272408479469e-05,
      "loss": 0.546636962890625,
      "memory(GiB)": 61.91,
      "step": 8725,
      "token_acc": 0.8633093525179856,
      "train_speed(iter/s)": 1.509112
    },
    {
      "epoch": 0.374019964868686,
      "grad_norm": 0.27054882049560547,
      "learning_rate": 9.862567428390277e-05,
      "loss": 0.4152828693389893,
      "memory(GiB)": 61.91,
      "step": 8730,
      "token_acc": 0.9022082018927445,
      "train_speed(iter/s)": 1.509045
    },
    {
      "epoch": 0.374234180197935,
      "grad_norm": 1.43099844455719,
      "learning_rate": 9.862410683895895e-05,
      "loss": 0.24917030334472656,
      "memory(GiB)": 61.91,
      "step": 8735,
      "token_acc": 0.9323943661971831,
      "train_speed(iter/s)": 1.509083
    },
    {
      "epoch": 0.37444839552718395,
      "grad_norm": 3.4434139728546143,
      "learning_rate": 9.86225385131438e-05,
      "loss": 0.37369704246520996,
      "memory(GiB)": 61.91,
      "step": 8740,
      "token_acc": 0.9076923076923077,
      "train_speed(iter/s)": 1.50919
    },
    {
      "epoch": 0.3746626108564329,
      "grad_norm": 1.5163078308105469,
      "learning_rate": 9.862096930648577e-05,
      "loss": 0.7606154918670655,
      "memory(GiB)": 61.91,
      "step": 8745,
      "token_acc": 0.7806451612903226,
      "train_speed(iter/s)": 1.50911
    },
    {
      "epoch": 0.37487682618568186,
      "grad_norm": 3.1859614849090576,
      "learning_rate": 9.861939921901326e-05,
      "loss": 0.6229585647583008,
      "memory(GiB)": 61.91,
      "step": 8750,
      "token_acc": 0.8914728682170543,
      "train_speed(iter/s)": 1.509094
    },
    {
      "epoch": 0.37509104151493083,
      "grad_norm": 2.189007520675659,
      "learning_rate": 9.861782825075475e-05,
      "loss": 0.4816583633422852,
      "memory(GiB)": 61.91,
      "step": 8755,
      "token_acc": 0.902027027027027,
      "train_speed(iter/s)": 1.509191
    },
    {
      "epoch": 0.37530525684417976,
      "grad_norm": 2.8951022624969482,
      "learning_rate": 9.861625640173865e-05,
      "loss": 0.3797547101974487,
      "memory(GiB)": 61.91,
      "step": 8760,
      "token_acc": 0.9305555555555556,
      "train_speed(iter/s)": 1.509255
    },
    {
      "epoch": 0.37551947217342874,
      "grad_norm": 3.9653022289276123,
      "learning_rate": 9.861468367199346e-05,
      "loss": 0.504998779296875,
      "memory(GiB)": 61.91,
      "step": 8765,
      "token_acc": 0.8986013986013986,
      "train_speed(iter/s)": 1.509315
    },
    {
      "epoch": 0.3757336875026777,
      "grad_norm": 1.3600616455078125,
      "learning_rate": 9.861311006154767e-05,
      "loss": 0.4426393985748291,
      "memory(GiB)": 61.91,
      "step": 8770,
      "token_acc": 0.9054054054054054,
      "train_speed(iter/s)": 1.509286
    },
    {
      "epoch": 0.37594790283192664,
      "grad_norm": 0.5868422985076904,
      "learning_rate": 9.86115355704298e-05,
      "loss": 0.3044178247451782,
      "memory(GiB)": 61.91,
      "step": 8775,
      "token_acc": 0.9394904458598726,
      "train_speed(iter/s)": 1.509279
    },
    {
      "epoch": 0.3761621181611756,
      "grad_norm": 0.8829467296600342,
      "learning_rate": 9.860996019866836e-05,
      "loss": 0.6389955043792724,
      "memory(GiB)": 61.91,
      "step": 8780,
      "token_acc": 0.8696883852691218,
      "train_speed(iter/s)": 1.509371
    },
    {
      "epoch": 0.3763763334904246,
      "grad_norm": 2.661935567855835,
      "learning_rate": 9.860838394629188e-05,
      "loss": 0.4936662197113037,
      "memory(GiB)": 61.91,
      "step": 8785,
      "token_acc": 0.8888888888888888,
      "train_speed(iter/s)": 1.509398
    },
    {
      "epoch": 0.3765905488196735,
      "grad_norm": 5.699188232421875,
      "learning_rate": 9.860680681332894e-05,
      "loss": 1.0407577514648438,
      "memory(GiB)": 61.91,
      "step": 8790,
      "token_acc": 0.7862068965517242,
      "train_speed(iter/s)": 1.509432
    },
    {
      "epoch": 0.3768047641489225,
      "grad_norm": 2.2169668674468994,
      "learning_rate": 9.860522879980809e-05,
      "loss": 0.49826393127441404,
      "memory(GiB)": 61.91,
      "step": 8795,
      "token_acc": 0.9121338912133892,
      "train_speed(iter/s)": 1.509482
    },
    {
      "epoch": 0.3770189794781715,
      "grad_norm": 2.9898324012756348,
      "learning_rate": 9.860364990575792e-05,
      "loss": 0.22864351272583008,
      "memory(GiB)": 61.91,
      "step": 8800,
      "token_acc": 0.935361216730038,
      "train_speed(iter/s)": 1.509478
    },
    {
      "epoch": 0.3772331948074204,
      "grad_norm": 7.7009406089782715,
      "learning_rate": 9.860207013120706e-05,
      "loss": 0.3538163423538208,
      "memory(GiB)": 61.91,
      "step": 8805,
      "token_acc": 0.9285714285714286,
      "train_speed(iter/s)": 1.509428
    },
    {
      "epoch": 0.3774474101366694,
      "grad_norm": 1.1530338525772095,
      "learning_rate": 9.860048947618408e-05,
      "loss": 0.3381653308868408,
      "memory(GiB)": 61.91,
      "step": 8810,
      "token_acc": 0.9309090909090909,
      "train_speed(iter/s)": 1.509492
    },
    {
      "epoch": 0.37766162546591836,
      "grad_norm": 3.4894630908966064,
      "learning_rate": 9.859890794071767e-05,
      "loss": 0.7393455982208252,
      "memory(GiB)": 61.91,
      "step": 8815,
      "token_acc": 0.8550185873605948,
      "train_speed(iter/s)": 1.509594
    },
    {
      "epoch": 0.3778758407951673,
      "grad_norm": 2.5774238109588623,
      "learning_rate": 9.859732552483642e-05,
      "loss": 0.33259222507476804,
      "memory(GiB)": 61.91,
      "step": 8820,
      "token_acc": 0.9404388714733543,
      "train_speed(iter/s)": 1.50965
    },
    {
      "epoch": 0.37809005612441626,
      "grad_norm": 2.599008798599243,
      "learning_rate": 9.859574222856905e-05,
      "loss": 0.6008551597595215,
      "memory(GiB)": 61.91,
      "step": 8825,
      "token_acc": 0.8633720930232558,
      "train_speed(iter/s)": 1.509661
    },
    {
      "epoch": 0.37830427145366524,
      "grad_norm": 6.7987895011901855,
      "learning_rate": 9.859415805194422e-05,
      "loss": 0.5541271209716797,
      "memory(GiB)": 61.91,
      "step": 8830,
      "token_acc": 0.8909774436090225,
      "train_speed(iter/s)": 1.509744
    },
    {
      "epoch": 0.37851848678291417,
      "grad_norm": 2.970623731613159,
      "learning_rate": 9.859257299499064e-05,
      "loss": 0.5560859680175781,
      "memory(GiB)": 61.91,
      "step": 8835,
      "token_acc": 0.8996539792387543,
      "train_speed(iter/s)": 1.50981
    },
    {
      "epoch": 0.37873270211216314,
      "grad_norm": 3.2410740852355957,
      "learning_rate": 9.859098705773701e-05,
      "loss": 0.7154887199401856,
      "memory(GiB)": 61.91,
      "step": 8840,
      "token_acc": 0.865814696485623,
      "train_speed(iter/s)": 1.509869
    },
    {
      "epoch": 0.3789469174414121,
      "grad_norm": 3.1667914390563965,
      "learning_rate": 9.858940024021205e-05,
      "loss": 0.6933043479919434,
      "memory(GiB)": 61.91,
      "step": 8845,
      "token_acc": 0.8764478764478765,
      "train_speed(iter/s)": 1.510022
    },
    {
      "epoch": 0.37916113277066105,
      "grad_norm": 2.7921695709228516,
      "learning_rate": 9.858781254244455e-05,
      "loss": 0.4047614574432373,
      "memory(GiB)": 61.91,
      "step": 8850,
      "token_acc": 0.9144981412639405,
      "train_speed(iter/s)": 1.510042
    },
    {
      "epoch": 0.37937534809991,
      "grad_norm": 2.2751972675323486,
      "learning_rate": 9.858622396446325e-05,
      "loss": 0.3717304229736328,
      "memory(GiB)": 61.91,
      "step": 8855,
      "token_acc": 0.9226190476190477,
      "train_speed(iter/s)": 1.510011
    },
    {
      "epoch": 0.379589563429159,
      "grad_norm": 5.262077808380127,
      "learning_rate": 9.85846345062969e-05,
      "loss": 0.36046175956726073,
      "memory(GiB)": 61.91,
      "step": 8860,
      "token_acc": 0.9322033898305084,
      "train_speed(iter/s)": 1.510122
    },
    {
      "epoch": 0.37980377875840793,
      "grad_norm": 3.5558032989501953,
      "learning_rate": 9.858304416797433e-05,
      "loss": 0.33611431121826174,
      "memory(GiB)": 61.91,
      "step": 8865,
      "token_acc": 0.925531914893617,
      "train_speed(iter/s)": 1.510117
    },
    {
      "epoch": 0.3800179940876569,
      "grad_norm": 2.180654764175415,
      "learning_rate": 9.858145294952435e-05,
      "loss": 0.3827423095703125,
      "memory(GiB)": 61.91,
      "step": 8870,
      "token_acc": 0.9194630872483222,
      "train_speed(iter/s)": 1.510101
    },
    {
      "epoch": 0.3802322094169059,
      "grad_norm": 13.460418701171875,
      "learning_rate": 9.857986085097577e-05,
      "loss": 0.3861852645874023,
      "memory(GiB)": 61.91,
      "step": 8875,
      "token_acc": 0.9166666666666666,
      "train_speed(iter/s)": 1.510144
    },
    {
      "epoch": 0.3804464247461548,
      "grad_norm": 1.0547109842300415,
      "learning_rate": 9.857826787235744e-05,
      "loss": 0.3148952960968018,
      "memory(GiB)": 61.91,
      "step": 8880,
      "token_acc": 0.9351535836177475,
      "train_speed(iter/s)": 1.510225
    },
    {
      "epoch": 0.3806606400754038,
      "grad_norm": 2.995220184326172,
      "learning_rate": 9.85766740136982e-05,
      "loss": 0.48574090003967285,
      "memory(GiB)": 61.91,
      "step": 8885,
      "token_acc": 0.8986013986013986,
      "train_speed(iter/s)": 1.510197
    },
    {
      "epoch": 0.38087485540465277,
      "grad_norm": 2.216392755508423,
      "learning_rate": 9.857507927502697e-05,
      "loss": 0.16846795082092286,
      "memory(GiB)": 61.91,
      "step": 8890,
      "token_acc": 0.9611307420494699,
      "train_speed(iter/s)": 1.510181
    },
    {
      "epoch": 0.3810890707339017,
      "grad_norm": 1.1120972633361816,
      "learning_rate": 9.85734836563726e-05,
      "loss": 0.44349985122680663,
      "memory(GiB)": 61.91,
      "step": 8895,
      "token_acc": 0.9123711340206185,
      "train_speed(iter/s)": 1.51014
    },
    {
      "epoch": 0.38130328606315067,
      "grad_norm": 6.4700517654418945,
      "learning_rate": 9.857188715776401e-05,
      "loss": 0.38845529556274416,
      "memory(GiB)": 61.91,
      "step": 8900,
      "token_acc": 0.9163763066202091,
      "train_speed(iter/s)": 1.510101
    },
    {
      "epoch": 0.38151750139239965,
      "grad_norm": 3.369652032852173,
      "learning_rate": 9.857028977923011e-05,
      "loss": 0.5520412445068359,
      "memory(GiB)": 61.91,
      "step": 8905,
      "token_acc": 0.8857142857142857,
      "train_speed(iter/s)": 1.510167
    },
    {
      "epoch": 0.38173171672164863,
      "grad_norm": 0.8413757085800171,
      "learning_rate": 9.856869152079986e-05,
      "loss": 0.4356602668762207,
      "memory(GiB)": 61.91,
      "step": 8910,
      "token_acc": 0.926923076923077,
      "train_speed(iter/s)": 1.510154
    },
    {
      "epoch": 0.38194593205089755,
      "grad_norm": 2.648301839828491,
      "learning_rate": 9.85670923825022e-05,
      "loss": 0.20371561050415038,
      "memory(GiB)": 61.91,
      "step": 8915,
      "token_acc": 0.9539007092198581,
      "train_speed(iter/s)": 1.510164
    },
    {
      "epoch": 0.38216014738014653,
      "grad_norm": 3.766246795654297,
      "learning_rate": 9.856549236436609e-05,
      "loss": 0.6960416793823242,
      "memory(GiB)": 61.91,
      "step": 8920,
      "token_acc": 0.862876254180602,
      "train_speed(iter/s)": 1.510116
    },
    {
      "epoch": 0.3823743627093955,
      "grad_norm": 3.9631288051605225,
      "learning_rate": 9.856389146642054e-05,
      "loss": 0.16741652488708497,
      "memory(GiB)": 61.91,
      "step": 8925,
      "token_acc": 0.9552238805970149,
      "train_speed(iter/s)": 1.510097
    },
    {
      "epoch": 0.38258857803864443,
      "grad_norm": 4.577905654907227,
      "learning_rate": 9.856228968869454e-05,
      "loss": 0.10362929105758667,
      "memory(GiB)": 61.91,
      "step": 8930,
      "token_acc": 0.9779735682819384,
      "train_speed(iter/s)": 1.510074
    },
    {
      "epoch": 0.3828027933678934,
      "grad_norm": 2.8035566806793213,
      "learning_rate": 9.85606870312171e-05,
      "loss": 0.40097761154174805,
      "memory(GiB)": 61.91,
      "step": 8935,
      "token_acc": 0.9180327868852459,
      "train_speed(iter/s)": 1.510052
    },
    {
      "epoch": 0.3830170086971424,
      "grad_norm": 4.0206475257873535,
      "learning_rate": 9.855908349401727e-05,
      "loss": 0.3893759727478027,
      "memory(GiB)": 61.91,
      "step": 8940,
      "token_acc": 0.9096385542168675,
      "train_speed(iter/s)": 1.510041
    },
    {
      "epoch": 0.3832312240263913,
      "grad_norm": 2.1264829635620117,
      "learning_rate": 9.855747907712408e-05,
      "loss": 0.24885969161987304,
      "memory(GiB)": 61.91,
      "step": 8945,
      "token_acc": 0.9501915708812261,
      "train_speed(iter/s)": 1.510058
    },
    {
      "epoch": 0.3834454393556403,
      "grad_norm": 2.350576639175415,
      "learning_rate": 9.855587378056661e-05,
      "loss": 0.3490028142929077,
      "memory(GiB)": 61.91,
      "step": 8950,
      "token_acc": 0.9313186813186813,
      "train_speed(iter/s)": 1.510138
    },
    {
      "epoch": 0.3836596546848893,
      "grad_norm": 4.246707439422607,
      "learning_rate": 9.855426760437394e-05,
      "loss": 0.5204609394073486,
      "memory(GiB)": 61.91,
      "step": 8955,
      "token_acc": 0.9072847682119205,
      "train_speed(iter/s)": 1.510208
    },
    {
      "epoch": 0.3838738700141382,
      "grad_norm": 0.48214349150657654,
      "learning_rate": 9.855266054857518e-05,
      "loss": 0.2790213584899902,
      "memory(GiB)": 61.91,
      "step": 8960,
      "token_acc": 0.9509803921568627,
      "train_speed(iter/s)": 1.510267
    },
    {
      "epoch": 0.3840880853433872,
      "grad_norm": 2.4446237087249756,
      "learning_rate": 9.855105261319939e-05,
      "loss": 0.268202543258667,
      "memory(GiB)": 61.91,
      "step": 8965,
      "token_acc": 0.9413919413919414,
      "train_speed(iter/s)": 1.510358
    },
    {
      "epoch": 0.38430230067263615,
      "grad_norm": 2.3376877307891846,
      "learning_rate": 9.854944379827577e-05,
      "loss": 0.5844768524169922,
      "memory(GiB)": 61.91,
      "step": 8970,
      "token_acc": 0.8697183098591549,
      "train_speed(iter/s)": 1.510401
    },
    {
      "epoch": 0.3845165160018851,
      "grad_norm": 4.177484035491943,
      "learning_rate": 9.854783410383341e-05,
      "loss": 0.21230506896972656,
      "memory(GiB)": 61.91,
      "step": 8975,
      "token_acc": 0.940809968847352,
      "train_speed(iter/s)": 1.510427
    },
    {
      "epoch": 0.38473073133113406,
      "grad_norm": 5.195810794830322,
      "learning_rate": 9.85462235299015e-05,
      "loss": 0.3816333293914795,
      "memory(GiB)": 61.91,
      "step": 8980,
      "token_acc": 0.9132075471698113,
      "train_speed(iter/s)": 1.510401
    },
    {
      "epoch": 0.38494494666038304,
      "grad_norm": 1.755827784538269,
      "learning_rate": 9.854461207650922e-05,
      "loss": 0.3592185974121094,
      "memory(GiB)": 61.91,
      "step": 8985,
      "token_acc": 0.9310344827586207,
      "train_speed(iter/s)": 1.510397
    },
    {
      "epoch": 0.38515916198963196,
      "grad_norm": 7.18878173828125,
      "learning_rate": 9.854299974368575e-05,
      "loss": 0.38291101455688475,
      "memory(GiB)": 61.91,
      "step": 8990,
      "token_acc": 0.9224806201550387,
      "train_speed(iter/s)": 1.510556
    },
    {
      "epoch": 0.38537337731888094,
      "grad_norm": 2.348217010498047,
      "learning_rate": 9.85413865314603e-05,
      "loss": 0.3003303050994873,
      "memory(GiB)": 61.91,
      "step": 8995,
      "token_acc": 0.9209621993127147,
      "train_speed(iter/s)": 1.510581
    },
    {
      "epoch": 0.3855875926481299,
      "grad_norm": 7.68508243560791,
      "learning_rate": 9.85397724398621e-05,
      "loss": 0.28995671272277834,
      "memory(GiB)": 61.91,
      "step": 9000,
      "token_acc": 0.9372549019607843,
      "train_speed(iter/s)": 1.510707
    },
    {
      "epoch": 0.3855875926481299,
      "eval_loss": 2.493332862854004,
      "eval_runtime": 11.624,
      "eval_samples_per_second": 8.603,
      "eval_steps_per_second": 8.603,
      "eval_token_acc": 0.42686170212765956,
      "step": 9000
    },
    {
      "epoch": 0.38580180797737884,
      "grad_norm": 3.865699291229248,
      "learning_rate": 9.853815746892039e-05,
      "loss": 0.3241037607192993,
      "memory(GiB)": 61.91,
      "step": 9005,
      "token_acc": 0.564299424184261,
      "train_speed(iter/s)": 1.507536
    },
    {
      "epoch": 0.3860160233066278,
      "grad_norm": 2.1083109378814697,
      "learning_rate": 9.853654161866442e-05,
      "loss": 0.4097916126251221,
      "memory(GiB)": 61.91,
      "step": 9010,
      "token_acc": 0.9076923076923077,
      "train_speed(iter/s)": 1.507543
    },
    {
      "epoch": 0.3862302386358768,
      "grad_norm": 2.979717254638672,
      "learning_rate": 9.853492488912347e-05,
      "loss": 0.4312241554260254,
      "memory(GiB)": 61.91,
      "step": 9015,
      "token_acc": 0.917981072555205,
      "train_speed(iter/s)": 1.507539
    },
    {
      "epoch": 0.3864444539651257,
      "grad_norm": 5.858214855194092,
      "learning_rate": 9.853330728032682e-05,
      "loss": 0.7904645442962647,
      "memory(GiB)": 61.91,
      "step": 9020,
      "token_acc": 0.859504132231405,
      "train_speed(iter/s)": 1.507493
    },
    {
      "epoch": 0.3866586692943747,
      "grad_norm": 3.635982036590576,
      "learning_rate": 9.853168879230379e-05,
      "loss": 0.526326322555542,
      "memory(GiB)": 61.91,
      "step": 9025,
      "token_acc": 0.9076433121019108,
      "train_speed(iter/s)": 1.507534
    },
    {
      "epoch": 0.3868728846236237,
      "grad_norm": 3.7731411457061768,
      "learning_rate": 9.853006942508369e-05,
      "loss": 0.4724577903747559,
      "memory(GiB)": 61.91,
      "step": 9030,
      "token_acc": 0.9090909090909091,
      "train_speed(iter/s)": 1.507685
    },
    {
      "epoch": 0.3870870999528726,
      "grad_norm": 8.06865406036377,
      "learning_rate": 9.852844917869585e-05,
      "loss": 0.526760482788086,
      "memory(GiB)": 61.91,
      "step": 9035,
      "token_acc": 0.9038461538461539,
      "train_speed(iter/s)": 1.507691
    },
    {
      "epoch": 0.3873013152821216,
      "grad_norm": 0.09817177802324295,
      "learning_rate": 9.852682805316964e-05,
      "loss": 0.2205878973007202,
      "memory(GiB)": 61.91,
      "step": 9040,
      "token_acc": 0.9449152542372882,
      "train_speed(iter/s)": 1.507704
    },
    {
      "epoch": 0.38751553061137056,
      "grad_norm": 3.4237284660339355,
      "learning_rate": 9.852520604853442e-05,
      "loss": 0.42710075378417967,
      "memory(GiB)": 61.91,
      "step": 9045,
      "token_acc": 0.8875502008032129,
      "train_speed(iter/s)": 1.507786
    },
    {
      "epoch": 0.3877297459406195,
      "grad_norm": 1.3031506538391113,
      "learning_rate": 9.852358316481955e-05,
      "loss": 0.27853851318359374,
      "memory(GiB)": 61.91,
      "step": 9050,
      "token_acc": 0.9329268292682927,
      "train_speed(iter/s)": 1.507872
    },
    {
      "epoch": 0.38794396126986846,
      "grad_norm": 1.7132227420806885,
      "learning_rate": 9.852195940205448e-05,
      "loss": 0.3284109115600586,
      "memory(GiB)": 61.91,
      "step": 9055,
      "token_acc": 0.9212121212121213,
      "train_speed(iter/s)": 1.507969
    },
    {
      "epoch": 0.38815817659911744,
      "grad_norm": 0.02764258161187172,
      "learning_rate": 9.852033476026859e-05,
      "loss": 0.21910562515258789,
      "memory(GiB)": 61.91,
      "step": 9060,
      "token_acc": 0.9435736677115988,
      "train_speed(iter/s)": 1.507965
    },
    {
      "epoch": 0.38837239192836637,
      "grad_norm": 4.636297225952148,
      "learning_rate": 9.851870923949131e-05,
      "loss": 0.4800222396850586,
      "memory(GiB)": 61.91,
      "step": 9065,
      "token_acc": 0.900355871886121,
      "train_speed(iter/s)": 1.507979
    },
    {
      "epoch": 0.38858660725761535,
      "grad_norm": 3.297797918319702,
      "learning_rate": 9.85170828397521e-05,
      "loss": 0.45043220520019533,
      "memory(GiB)": 61.91,
      "step": 9070,
      "token_acc": 0.9172661870503597,
      "train_speed(iter/s)": 1.507983
    },
    {
      "epoch": 0.3888008225868643,
      "grad_norm": 8.735084533691406,
      "learning_rate": 9.851545556108042e-05,
      "loss": 0.2469538688659668,
      "memory(GiB)": 61.91,
      "step": 9075,
      "token_acc": 0.9285714285714286,
      "train_speed(iter/s)": 1.508073
    },
    {
      "epoch": 0.3890150379161133,
      "grad_norm": 6.224905014038086,
      "learning_rate": 9.851382740350576e-05,
      "loss": 0.4206997394561768,
      "memory(GiB)": 61.91,
      "step": 9080,
      "token_acc": 0.9101123595505618,
      "train_speed(iter/s)": 1.508185
    },
    {
      "epoch": 0.38922925324536223,
      "grad_norm": 5.104848384857178,
      "learning_rate": 9.851219836705761e-05,
      "loss": 0.36280670166015627,
      "memory(GiB)": 61.91,
      "step": 9085,
      "token_acc": 0.9251700680272109,
      "train_speed(iter/s)": 1.508234
    },
    {
      "epoch": 0.3894434685746112,
      "grad_norm": 1.6219736337661743,
      "learning_rate": 9.851056845176547e-05,
      "loss": 0.26813039779663084,
      "memory(GiB)": 61.91,
      "step": 9090,
      "token_acc": 0.9458483754512635,
      "train_speed(iter/s)": 1.508247
    },
    {
      "epoch": 0.3896576839038602,
      "grad_norm": 2.1730425357818604,
      "learning_rate": 9.850893765765887e-05,
      "loss": 0.2971574068069458,
      "memory(GiB)": 61.91,
      "step": 9095,
      "token_acc": 0.9315589353612167,
      "train_speed(iter/s)": 1.508345
    },
    {
      "epoch": 0.3898718992331091,
      "grad_norm": 2.4576165676116943,
      "learning_rate": 9.850730598476737e-05,
      "loss": 0.30891373157501223,
      "memory(GiB)": 61.91,
      "step": 9100,
      "token_acc": 0.9366666666666666,
      "train_speed(iter/s)": 1.508328
    },
    {
      "epoch": 0.3900861145623581,
      "grad_norm": 3.0185914039611816,
      "learning_rate": 9.850567343312051e-05,
      "loss": 0.3441664218902588,
      "memory(GiB)": 61.91,
      "step": 9105,
      "token_acc": 0.9049180327868852,
      "train_speed(iter/s)": 1.508309
    },
    {
      "epoch": 0.39030032989160707,
      "grad_norm": 2.554255247116089,
      "learning_rate": 9.850404000274789e-05,
      "loss": 0.7735501766204834,
      "memory(GiB)": 61.91,
      "step": 9110,
      "token_acc": 0.8586956521739131,
      "train_speed(iter/s)": 1.508368
    },
    {
      "epoch": 0.390514545220856,
      "grad_norm": 1.8763355016708374,
      "learning_rate": 9.850240569367908e-05,
      "loss": 0.5874289989471435,
      "memory(GiB)": 61.91,
      "step": 9115,
      "token_acc": 0.8695652173913043,
      "train_speed(iter/s)": 1.508441
    },
    {
      "epoch": 0.39072876055010497,
      "grad_norm": 3.8574509620666504,
      "learning_rate": 9.850077050594368e-05,
      "loss": 0.29838132858276367,
      "memory(GiB)": 61.91,
      "step": 9120,
      "token_acc": 0.9347079037800687,
      "train_speed(iter/s)": 1.50845
    },
    {
      "epoch": 0.39094297587935395,
      "grad_norm": 3.053551197052002,
      "learning_rate": 9.849913443957133e-05,
      "loss": 0.5314243793487549,
      "memory(GiB)": 61.91,
      "step": 9125,
      "token_acc": 0.9003831417624522,
      "train_speed(iter/s)": 1.508431
    },
    {
      "epoch": 0.3911571912086029,
      "grad_norm": 6.160475254058838,
      "learning_rate": 9.849749749459167e-05,
      "loss": 0.34102027416229247,
      "memory(GiB)": 61.91,
      "step": 9130,
      "token_acc": 0.9254658385093167,
      "train_speed(iter/s)": 1.508443
    },
    {
      "epoch": 0.39137140653785185,
      "grad_norm": 0.933570384979248,
      "learning_rate": 9.849585967103434e-05,
      "loss": 0.49098052978515627,
      "memory(GiB)": 61.91,
      "step": 9135,
      "token_acc": 0.8966565349544073,
      "train_speed(iter/s)": 1.508521
    },
    {
      "epoch": 0.39158562186710083,
      "grad_norm": 2.8948614597320557,
      "learning_rate": 9.849422096892902e-05,
      "loss": 0.6587590217590332,
      "memory(GiB)": 61.91,
      "step": 9140,
      "token_acc": 0.8675496688741722,
      "train_speed(iter/s)": 1.5085
    },
    {
      "epoch": 0.39179983719634975,
      "grad_norm": 3.9750287532806396,
      "learning_rate": 9.84925813883054e-05,
      "loss": 0.4761202812194824,
      "memory(GiB)": 61.91,
      "step": 9145,
      "token_acc": 0.9019607843137255,
      "train_speed(iter/s)": 1.508516
    },
    {
      "epoch": 0.39201405252559873,
      "grad_norm": 2.58135724067688,
      "learning_rate": 9.849094092919318e-05,
      "loss": 0.5301731109619141,
      "memory(GiB)": 61.91,
      "step": 9150,
      "token_acc": 0.908284023668639,
      "train_speed(iter/s)": 1.508668
    },
    {
      "epoch": 0.3922282678548477,
      "grad_norm": 2.325699806213379,
      "learning_rate": 9.848929959162207e-05,
      "loss": 0.32035117149353026,
      "memory(GiB)": 61.91,
      "step": 9155,
      "token_acc": 0.9219858156028369,
      "train_speed(iter/s)": 1.508714
    },
    {
      "epoch": 0.39244248318409664,
      "grad_norm": 5.315793991088867,
      "learning_rate": 9.848765737562183e-05,
      "loss": 0.3063088893890381,
      "memory(GiB)": 61.91,
      "step": 9160,
      "token_acc": 0.9054054054054054,
      "train_speed(iter/s)": 1.508721
    },
    {
      "epoch": 0.3926566985133456,
      "grad_norm": 0.09928171336650848,
      "learning_rate": 9.848601428122217e-05,
      "loss": 0.237510347366333,
      "memory(GiB)": 61.91,
      "step": 9165,
      "token_acc": 0.9538461538461539,
      "train_speed(iter/s)": 1.508745
    },
    {
      "epoch": 0.3928709138425946,
      "grad_norm": 6.997530460357666,
      "learning_rate": 9.848437030845288e-05,
      "loss": 0.5109744071960449,
      "memory(GiB)": 61.91,
      "step": 9170,
      "token_acc": 0.8945454545454545,
      "train_speed(iter/s)": 1.508893
    },
    {
      "epoch": 0.3930851291718435,
      "grad_norm": 2.8731443881988525,
      "learning_rate": 9.848272545734374e-05,
      "loss": 0.2373945951461792,
      "memory(GiB)": 61.91,
      "step": 9175,
      "token_acc": 0.9555555555555556,
      "train_speed(iter/s)": 1.508912
    },
    {
      "epoch": 0.3932993445010925,
      "grad_norm": 3.1404454708099365,
      "learning_rate": 9.848107972792455e-05,
      "loss": 0.19891676902770997,
      "memory(GiB)": 61.91,
      "step": 9180,
      "token_acc": 0.9576271186440678,
      "train_speed(iter/s)": 1.508946
    },
    {
      "epoch": 0.3935135598303415,
      "grad_norm": 2.1783807277679443,
      "learning_rate": 9.847943312022511e-05,
      "loss": 0.6232982158660889,
      "memory(GiB)": 61.91,
      "step": 9185,
      "token_acc": 0.8580441640378549,
      "train_speed(iter/s)": 1.508909
    },
    {
      "epoch": 0.3937277751595904,
      "grad_norm": 1.9073419570922852,
      "learning_rate": 9.847778563427529e-05,
      "loss": 0.5501774787902832,
      "memory(GiB)": 61.91,
      "step": 9190,
      "token_acc": 0.8926553672316384,
      "train_speed(iter/s)": 1.508892
    },
    {
      "epoch": 0.3939419904888394,
      "grad_norm": 5.263160705566406,
      "learning_rate": 9.84761372701049e-05,
      "loss": 0.35663886070251466,
      "memory(GiB)": 61.91,
      "step": 9195,
      "token_acc": 0.9253246753246753,
      "train_speed(iter/s)": 1.50899
    },
    {
      "epoch": 0.39415620581808836,
      "grad_norm": 4.348228454589844,
      "learning_rate": 9.847448802774379e-05,
      "loss": 0.23365044593811035,
      "memory(GiB)": 61.91,
      "step": 9200,
      "token_acc": 0.9366197183098591,
      "train_speed(iter/s)": 1.509034
    },
    {
      "epoch": 0.3943704211473373,
      "grad_norm": 3.4054782390594482,
      "learning_rate": 9.847283790722187e-05,
      "loss": 0.3324253082275391,
      "memory(GiB)": 61.91,
      "step": 9205,
      "token_acc": 0.9225352112676056,
      "train_speed(iter/s)": 1.509002
    },
    {
      "epoch": 0.39458463647658626,
      "grad_norm": 1.1170982122421265,
      "learning_rate": 9.847118690856903e-05,
      "loss": 0.58001708984375,
      "memory(GiB)": 61.91,
      "step": 9210,
      "token_acc": 0.8781163434903048,
      "train_speed(iter/s)": 1.509164
    },
    {
      "epoch": 0.39479885180583524,
      "grad_norm": 2.8606367111206055,
      "learning_rate": 9.846953503181515e-05,
      "loss": 0.4028620719909668,
      "memory(GiB)": 61.91,
      "step": 9215,
      "token_acc": 0.8934426229508197,
      "train_speed(iter/s)": 1.509209
    },
    {
      "epoch": 0.39501306713508416,
      "grad_norm": 3.958568811416626,
      "learning_rate": 9.846788227699017e-05,
      "loss": 0.3659388542175293,
      "memory(GiB)": 61.91,
      "step": 9220,
      "token_acc": 0.9181818181818182,
      "train_speed(iter/s)": 1.509214
    },
    {
      "epoch": 0.39522728246433314,
      "grad_norm": 2.0989201068878174,
      "learning_rate": 9.846622864412406e-05,
      "loss": 0.29769277572631836,
      "memory(GiB)": 61.91,
      "step": 9225,
      "token_acc": 0.9388379204892966,
      "train_speed(iter/s)": 1.509199
    },
    {
      "epoch": 0.3954414977935821,
      "grad_norm": 3.152843713760376,
      "learning_rate": 9.846457413324675e-05,
      "loss": 0.4384924411773682,
      "memory(GiB)": 61.91,
      "step": 9230,
      "token_acc": 0.9041533546325878,
      "train_speed(iter/s)": 1.509192
    },
    {
      "epoch": 0.39565571312283104,
      "grad_norm": 1.5631520748138428,
      "learning_rate": 9.84629187443882e-05,
      "loss": 0.24437155723571777,
      "memory(GiB)": 61.91,
      "step": 9235,
      "token_acc": 0.9423076923076923,
      "train_speed(iter/s)": 1.50921
    },
    {
      "epoch": 0.39586992845208,
      "grad_norm": 2.2578494548797607,
      "learning_rate": 9.846126247757843e-05,
      "loss": 0.2634784936904907,
      "memory(GiB)": 61.91,
      "step": 9240,
      "token_acc": 0.9632352941176471,
      "train_speed(iter/s)": 1.509293
    },
    {
      "epoch": 0.396084143781329,
      "grad_norm": 1.0716866254806519,
      "learning_rate": 9.845960533284742e-05,
      "loss": 0.3505596399307251,
      "memory(GiB)": 61.91,
      "step": 9245,
      "token_acc": 0.9212328767123288,
      "train_speed(iter/s)": 1.509311
    },
    {
      "epoch": 0.396298359110578,
      "grad_norm": 1.7266114950180054,
      "learning_rate": 9.84579473102252e-05,
      "loss": 0.11918718814849853,
      "memory(GiB)": 61.91,
      "step": 9250,
      "token_acc": 0.97265625,
      "train_speed(iter/s)": 1.509328
    },
    {
      "epoch": 0.3965125744398269,
      "grad_norm": 2.1381402015686035,
      "learning_rate": 9.845628840974182e-05,
      "loss": 0.3591198444366455,
      "memory(GiB)": 61.91,
      "step": 9255,
      "token_acc": 0.9217391304347826,
      "train_speed(iter/s)": 1.50933
    },
    {
      "epoch": 0.3967267897690759,
      "grad_norm": 4.002885341644287,
      "learning_rate": 9.84546286314273e-05,
      "loss": 0.317641019821167,
      "memory(GiB)": 61.91,
      "step": 9260,
      "token_acc": 0.9351032448377581,
      "train_speed(iter/s)": 1.509308
    },
    {
      "epoch": 0.39694100509832486,
      "grad_norm": 2.29093599319458,
      "learning_rate": 9.845296797531173e-05,
      "loss": 0.3493596076965332,
      "memory(GiB)": 61.91,
      "step": 9265,
      "token_acc": 0.9260450160771704,
      "train_speed(iter/s)": 1.50929
    },
    {
      "epoch": 0.3971552204275738,
      "grad_norm": 1.6279643774032593,
      "learning_rate": 9.845130644142522e-05,
      "loss": 0.3175642728805542,
      "memory(GiB)": 61.91,
      "step": 9270,
      "token_acc": 0.9300699300699301,
      "train_speed(iter/s)": 1.509261
    },
    {
      "epoch": 0.39736943575682276,
      "grad_norm": 4.411620616912842,
      "learning_rate": 9.844964402979781e-05,
      "loss": 0.4816420555114746,
      "memory(GiB)": 61.91,
      "step": 9275,
      "token_acc": 0.8907849829351536,
      "train_speed(iter/s)": 1.509321
    },
    {
      "epoch": 0.39758365108607174,
      "grad_norm": 3.202716588973999,
      "learning_rate": 9.844798074045967e-05,
      "loss": 0.38599624633789065,
      "memory(GiB)": 61.91,
      "step": 9280,
      "token_acc": 0.9194630872483222,
      "train_speed(iter/s)": 1.509251
    },
    {
      "epoch": 0.39779786641532067,
      "grad_norm": 4.817872047424316,
      "learning_rate": 9.84463165734409e-05,
      "loss": 0.35334599018096924,
      "memory(GiB)": 61.91,
      "step": 9285,
      "token_acc": 0.9313432835820895,
      "train_speed(iter/s)": 1.509218
    },
    {
      "epoch": 0.39801208174456965,
      "grad_norm": 2.0214006900787354,
      "learning_rate": 9.844465152877167e-05,
      "loss": 0.3602099895477295,
      "memory(GiB)": 61.91,
      "step": 9290,
      "token_acc": 0.9415584415584416,
      "train_speed(iter/s)": 1.509196
    },
    {
      "epoch": 0.3982262970738186,
      "grad_norm": 10.941797256469727,
      "learning_rate": 9.844298560648213e-05,
      "loss": 0.41784276962280276,
      "memory(GiB)": 61.91,
      "step": 9295,
      "token_acc": 0.8987341772151899,
      "train_speed(iter/s)": 1.509146
    },
    {
      "epoch": 0.39844051240306755,
      "grad_norm": 3.914381265640259,
      "learning_rate": 9.844131880660246e-05,
      "loss": 0.8123879432678223,
      "memory(GiB)": 61.91,
      "step": 9300,
      "token_acc": 0.8472222222222222,
      "train_speed(iter/s)": 1.509227
    },
    {
      "epoch": 0.3986547277323165,
      "grad_norm": 4.4207563400268555,
      "learning_rate": 9.843965112916285e-05,
      "loss": 0.43529157638549804,
      "memory(GiB)": 61.91,
      "step": 9305,
      "token_acc": 0.9003436426116839,
      "train_speed(iter/s)": 1.509331
    },
    {
      "epoch": 0.3988689430615655,
      "grad_norm": 3.0782039165496826,
      "learning_rate": 9.843798257419352e-05,
      "loss": 0.47614479064941406,
      "memory(GiB)": 61.91,
      "step": 9310,
      "token_acc": 0.8982456140350877,
      "train_speed(iter/s)": 1.509386
    },
    {
      "epoch": 0.39908315839081443,
      "grad_norm": 2.103883743286133,
      "learning_rate": 9.843631314172471e-05,
      "loss": 0.4043313503265381,
      "memory(GiB)": 61.91,
      "step": 9315,
      "token_acc": 0.9185185185185185,
      "train_speed(iter/s)": 1.50939
    },
    {
      "epoch": 0.3992973737200634,
      "grad_norm": 2.76021671295166,
      "learning_rate": 9.843464283178665e-05,
      "loss": 0.3106995105743408,
      "memory(GiB)": 61.91,
      "step": 9320,
      "token_acc": 0.9399141630901288,
      "train_speed(iter/s)": 1.509364
    },
    {
      "epoch": 0.3995115890493124,
      "grad_norm": 0.18753162026405334,
      "learning_rate": 9.843297164440959e-05,
      "loss": 0.3293175458908081,
      "memory(GiB)": 61.91,
      "step": 9325,
      "token_acc": 0.9203187250996016,
      "train_speed(iter/s)": 1.509443
    },
    {
      "epoch": 0.3997258043785613,
      "grad_norm": 3.9525043964385986,
      "learning_rate": 9.843129957962381e-05,
      "loss": 0.556052303314209,
      "memory(GiB)": 61.91,
      "step": 9330,
      "token_acc": 0.8711484593837535,
      "train_speed(iter/s)": 1.509362
    },
    {
      "epoch": 0.3999400197078103,
      "grad_norm": 2.609650135040283,
      "learning_rate": 9.842962663745963e-05,
      "loss": 0.5731803894042968,
      "memory(GiB)": 61.91,
      "step": 9335,
      "token_acc": 0.8828828828828829,
      "train_speed(iter/s)": 1.509343
    },
    {
      "epoch": 0.40015423503705927,
      "grad_norm": 2.8130507469177246,
      "learning_rate": 9.842795281794732e-05,
      "loss": 0.3710965633392334,
      "memory(GiB)": 61.91,
      "step": 9340,
      "token_acc": 0.9335548172757475,
      "train_speed(iter/s)": 1.509435
    },
    {
      "epoch": 0.4003684503663082,
      "grad_norm": 1.3778797388076782,
      "learning_rate": 9.84262781211172e-05,
      "loss": 0.22917454242706298,
      "memory(GiB)": 61.91,
      "step": 9345,
      "token_acc": 0.9442622950819672,
      "train_speed(iter/s)": 1.509437
    },
    {
      "epoch": 0.40058266569555717,
      "grad_norm": 2.0346546173095703,
      "learning_rate": 9.842460254699963e-05,
      "loss": 0.2748678207397461,
      "memory(GiB)": 61.91,
      "step": 9350,
      "token_acc": 0.9147286821705426,
      "train_speed(iter/s)": 1.50944
    },
    {
      "epoch": 0.40079688102480615,
      "grad_norm": 4.485888481140137,
      "learning_rate": 9.842292609562498e-05,
      "loss": 0.4910168170928955,
      "memory(GiB)": 61.91,
      "step": 9355,
      "token_acc": 0.875,
      "train_speed(iter/s)": 1.509518
    },
    {
      "epoch": 0.4010110963540551,
      "grad_norm": 0.9089673757553101,
      "learning_rate": 9.84212487670236e-05,
      "loss": 0.11922661066055298,
      "memory(GiB)": 61.91,
      "step": 9360,
      "token_acc": 0.9761904761904762,
      "train_speed(iter/s)": 1.509534
    },
    {
      "epoch": 0.40122531168330405,
      "grad_norm": 3.0014424324035645,
      "learning_rate": 9.841957056122584e-05,
      "loss": 0.5776897430419922,
      "memory(GiB)": 61.91,
      "step": 9365,
      "token_acc": 0.8885869565217391,
      "train_speed(iter/s)": 1.509524
    },
    {
      "epoch": 0.40143952701255303,
      "grad_norm": 2.6283209323883057,
      "learning_rate": 9.841789147826217e-05,
      "loss": 0.3444781541824341,
      "memory(GiB)": 61.91,
      "step": 9370,
      "token_acc": 0.9305993690851735,
      "train_speed(iter/s)": 1.509571
    },
    {
      "epoch": 0.40165374234180196,
      "grad_norm": 4.2410101890563965,
      "learning_rate": 9.841621151816296e-05,
      "loss": 0.33422231674194336,
      "memory(GiB)": 61.91,
      "step": 9375,
      "token_acc": 0.9216300940438872,
      "train_speed(iter/s)": 1.509637
    },
    {
      "epoch": 0.40186795767105093,
      "grad_norm": 4.932287693023682,
      "learning_rate": 9.841453068095867e-05,
      "loss": 0.6745366096496582,
      "memory(GiB)": 61.91,
      "step": 9380,
      "token_acc": 0.868421052631579,
      "train_speed(iter/s)": 1.509579
    },
    {
      "epoch": 0.4020821730002999,
      "grad_norm": 2.076151132583618,
      "learning_rate": 9.841284896667973e-05,
      "loss": 0.26653265953063965,
      "memory(GiB)": 61.91,
      "step": 9385,
      "token_acc": 0.9411764705882353,
      "train_speed(iter/s)": 1.509617
    },
    {
      "epoch": 0.40229638832954884,
      "grad_norm": 2.144948720932007,
      "learning_rate": 9.841116637535662e-05,
      "loss": 0.35812427997589114,
      "memory(GiB)": 61.91,
      "step": 9390,
      "token_acc": 0.9210526315789473,
      "train_speed(iter/s)": 1.509731
    },
    {
      "epoch": 0.4025106036587978,
      "grad_norm": 5.576577663421631,
      "learning_rate": 9.840948290701982e-05,
      "loss": 0.2969074010848999,
      "memory(GiB)": 61.91,
      "step": 9395,
      "token_acc": 0.934375,
      "train_speed(iter/s)": 1.509772
    },
    {
      "epoch": 0.4027248189880468,
      "grad_norm": 0.7447547316551208,
      "learning_rate": 9.840779856169982e-05,
      "loss": 0.30115158557891847,
      "memory(GiB)": 61.91,
      "step": 9400,
      "token_acc": 0.9485294117647058,
      "train_speed(iter/s)": 1.509731
    },
    {
      "epoch": 0.4029390343172957,
      "grad_norm": 1.771230936050415,
      "learning_rate": 9.840611333942715e-05,
      "loss": 0.373026442527771,
      "memory(GiB)": 61.91,
      "step": 9405,
      "token_acc": 0.9273927392739274,
      "train_speed(iter/s)": 1.509797
    },
    {
      "epoch": 0.4031532496465447,
      "grad_norm": 6.167954444885254,
      "learning_rate": 9.840442724023232e-05,
      "loss": 0.215767502784729,
      "memory(GiB)": 61.91,
      "step": 9410,
      "token_acc": 0.9488188976377953,
      "train_speed(iter/s)": 1.509812
    },
    {
      "epoch": 0.4033674649757937,
      "grad_norm": 2.287842273712158,
      "learning_rate": 9.840274026414589e-05,
      "loss": 0.4309383392333984,
      "memory(GiB)": 61.91,
      "step": 9415,
      "token_acc": 0.918918918918919,
      "train_speed(iter/s)": 1.509826
    },
    {
      "epoch": 0.40358168030504266,
      "grad_norm": 2.981257438659668,
      "learning_rate": 9.840105241119841e-05,
      "loss": 0.41526012420654296,
      "memory(GiB)": 61.91,
      "step": 9420,
      "token_acc": 0.9120521172638436,
      "train_speed(iter/s)": 1.509932
    },
    {
      "epoch": 0.4037958956342916,
      "grad_norm": 3.222212314605713,
      "learning_rate": 9.839936368142046e-05,
      "loss": 0.6014633655548096,
      "memory(GiB)": 61.91,
      "step": 9425,
      "token_acc": 0.902027027027027,
      "train_speed(iter/s)": 1.509914
    },
    {
      "epoch": 0.40401011096354056,
      "grad_norm": 5.132739067077637,
      "learning_rate": 9.839767407484264e-05,
      "loss": 0.4919823169708252,
      "memory(GiB)": 61.91,
      "step": 9430,
      "token_acc": 0.9077380952380952,
      "train_speed(iter/s)": 1.509985
    },
    {
      "epoch": 0.40422432629278954,
      "grad_norm": 3.8185617923736572,
      "learning_rate": 9.839598359149556e-05,
      "loss": 0.29718289375305174,
      "memory(GiB)": 61.91,
      "step": 9435,
      "token_acc": 0.9423728813559322,
      "train_speed(iter/s)": 1.509979
    },
    {
      "epoch": 0.40443854162203846,
      "grad_norm": 1.8861027956008911,
      "learning_rate": 9.839429223140981e-05,
      "loss": 0.3563275098800659,
      "memory(GiB)": 61.91,
      "step": 9440,
      "token_acc": 0.9113475177304965,
      "train_speed(iter/s)": 1.510085
    },
    {
      "epoch": 0.40465275695128744,
      "grad_norm": 3.9010159969329834,
      "learning_rate": 9.839259999461609e-05,
      "loss": 0.45616750717163085,
      "memory(GiB)": 61.91,
      "step": 9445,
      "token_acc": 0.9050131926121372,
      "train_speed(iter/s)": 1.510084
    },
    {
      "epoch": 0.4048669722805364,
      "grad_norm": 1.5324698686599731,
      "learning_rate": 9.839090688114501e-05,
      "loss": 0.5001577377319336,
      "memory(GiB)": 61.91,
      "step": 9450,
      "token_acc": 0.8903225806451613,
      "train_speed(iter/s)": 1.510085
    },
    {
      "epoch": 0.40508118760978534,
      "grad_norm": 2.967945098876953,
      "learning_rate": 9.838921289102726e-05,
      "loss": 0.6575433731079101,
      "memory(GiB)": 61.91,
      "step": 9455,
      "token_acc": 0.8686440677966102,
      "train_speed(iter/s)": 1.510098
    },
    {
      "epoch": 0.4052954029390343,
      "grad_norm": 3.6217236518859863,
      "learning_rate": 9.838751802429352e-05,
      "loss": 0.4155773639678955,
      "memory(GiB)": 61.91,
      "step": 9460,
      "token_acc": 0.9342560553633218,
      "train_speed(iter/s)": 1.510165
    },
    {
      "epoch": 0.4055096182682833,
      "grad_norm": 3.0473792552948,
      "learning_rate": 9.83858222809745e-05,
      "loss": 0.481168270111084,
      "memory(GiB)": 61.91,
      "step": 9465,
      "token_acc": 0.9148264984227129,
      "train_speed(iter/s)": 1.510219
    },
    {
      "epoch": 0.4057238335975322,
      "grad_norm": 5.155152320861816,
      "learning_rate": 9.838412566110094e-05,
      "loss": 0.41246652603149414,
      "memory(GiB)": 61.91,
      "step": 9470,
      "token_acc": 0.903114186851211,
      "train_speed(iter/s)": 1.51031
    },
    {
      "epoch": 0.4059380489267812,
      "grad_norm": 1.9429383277893066,
      "learning_rate": 9.838242816470353e-05,
      "loss": 0.2831919193267822,
      "memory(GiB)": 61.91,
      "step": 9475,
      "token_acc": 0.9315068493150684,
      "train_speed(iter/s)": 1.510322
    },
    {
      "epoch": 0.4061522642560302,
      "grad_norm": 2.4607765674591064,
      "learning_rate": 9.838072979181306e-05,
      "loss": 0.46988525390625,
      "memory(GiB)": 61.91,
      "step": 9480,
      "token_acc": 0.8880866425992779,
      "train_speed(iter/s)": 1.510449
    },
    {
      "epoch": 0.4063664795852791,
      "grad_norm": 2.2878575325012207,
      "learning_rate": 9.83790305424603e-05,
      "loss": 0.38763017654418946,
      "memory(GiB)": 61.91,
      "step": 9485,
      "token_acc": 0.8980263157894737,
      "train_speed(iter/s)": 1.510441
    },
    {
      "epoch": 0.4065806949145281,
      "grad_norm": 3.168149709701538,
      "learning_rate": 9.837733041667598e-05,
      "loss": 0.7441182136535645,
      "memory(GiB)": 61.91,
      "step": 9490,
      "token_acc": 0.847682119205298,
      "train_speed(iter/s)": 1.510458
    },
    {
      "epoch": 0.40679491024377706,
      "grad_norm": 1.9657580852508545,
      "learning_rate": 9.837562941449096e-05,
      "loss": 0.4221211910247803,
      "memory(GiB)": 61.91,
      "step": 9495,
      "token_acc": 0.9147540983606557,
      "train_speed(iter/s)": 1.510511
    },
    {
      "epoch": 0.407009125573026,
      "grad_norm": 2.6780476570129395,
      "learning_rate": 9.837392753593604e-05,
      "loss": 0.4598477840423584,
      "memory(GiB)": 61.91,
      "step": 9500,
      "token_acc": 0.9060402684563759,
      "train_speed(iter/s)": 1.510512
    },
    {
      "epoch": 0.407009125573026,
      "eval_loss": 2.56831431388855,
      "eval_runtime": 11.2006,
      "eval_samples_per_second": 8.928,
      "eval_steps_per_second": 8.928,
      "eval_token_acc": 0.45892351274787535,
      "step": 9500
    },
    {
      "epoch": 0.40722334090227497,
      "grad_norm": 4.5664801597595215,
      "learning_rate": 9.837222478104205e-05,
      "loss": 0.680894422531128,
      "memory(GiB)": 61.91,
      "step": 9505,
      "token_acc": 0.5866797257590598,
      "train_speed(iter/s)": 1.50767
    },
    {
      "epoch": 0.40743755623152395,
      "grad_norm": 1.9718036651611328,
      "learning_rate": 9.837052114983982e-05,
      "loss": 0.5184160232543945,
      "memory(GiB)": 61.91,
      "step": 9510,
      "token_acc": 0.8877005347593583,
      "train_speed(iter/s)": 1.507733
    },
    {
      "epoch": 0.40765177156077287,
      "grad_norm": 4.973840236663818,
      "learning_rate": 9.836881664236021e-05,
      "loss": 0.5727438449859619,
      "memory(GiB)": 61.91,
      "step": 9515,
      "token_acc": 0.8632218844984803,
      "train_speed(iter/s)": 1.507702
    },
    {
      "epoch": 0.40786598689002185,
      "grad_norm": 2.8805673122406006,
      "learning_rate": 9.836711125863413e-05,
      "loss": 0.46134214401245116,
      "memory(GiB)": 61.91,
      "step": 9520,
      "token_acc": 0.8969072164948454,
      "train_speed(iter/s)": 1.507709
    },
    {
      "epoch": 0.4080802022192708,
      "grad_norm": 3.229316234588623,
      "learning_rate": 9.836540499869244e-05,
      "loss": 0.4668818473815918,
      "memory(GiB)": 61.91,
      "step": 9525,
      "token_acc": 0.8920863309352518,
      "train_speed(iter/s)": 1.507699
    },
    {
      "epoch": 0.40829441754851975,
      "grad_norm": 4.1765031814575195,
      "learning_rate": 9.83636978625661e-05,
      "loss": 0.30263590812683105,
      "memory(GiB)": 61.91,
      "step": 9530,
      "token_acc": 0.9282868525896414,
      "train_speed(iter/s)": 1.507712
    },
    {
      "epoch": 0.40850863287776873,
      "grad_norm": 2.182018756866455,
      "learning_rate": 9.836198985028597e-05,
      "loss": 0.27615444660186766,
      "memory(GiB)": 61.91,
      "step": 9535,
      "token_acc": 0.9446254071661238,
      "train_speed(iter/s)": 1.507783
    },
    {
      "epoch": 0.4087228482070177,
      "grad_norm": 3.8643085956573486,
      "learning_rate": 9.836028096188306e-05,
      "loss": 0.3966536045074463,
      "memory(GiB)": 61.91,
      "step": 9540,
      "token_acc": 0.9173913043478261,
      "train_speed(iter/s)": 1.50783
    },
    {
      "epoch": 0.40893706353626663,
      "grad_norm": 3.702930212020874,
      "learning_rate": 9.835857119738827e-05,
      "loss": 0.41988568305969237,
      "memory(GiB)": 61.91,
      "step": 9545,
      "token_acc": 0.900398406374502,
      "train_speed(iter/s)": 1.507886
    },
    {
      "epoch": 0.4091512788655156,
      "grad_norm": 2.091282844543457,
      "learning_rate": 9.83568605568326e-05,
      "loss": 0.4098775863647461,
      "memory(GiB)": 61.91,
      "step": 9550,
      "token_acc": 0.9114754098360656,
      "train_speed(iter/s)": 1.50789
    },
    {
      "epoch": 0.4093654941947646,
      "grad_norm": 1.894609808921814,
      "learning_rate": 9.835514904024705e-05,
      "loss": 0.5212301254272461,
      "memory(GiB)": 61.91,
      "step": 9555,
      "token_acc": 0.8698224852071006,
      "train_speed(iter/s)": 1.507954
    },
    {
      "epoch": 0.4095797095240135,
      "grad_norm": 3.5703845024108887,
      "learning_rate": 9.83534366476626e-05,
      "loss": 0.23590166568756105,
      "memory(GiB)": 61.91,
      "step": 9560,
      "token_acc": 0.9539007092198581,
      "train_speed(iter/s)": 1.50794
    },
    {
      "epoch": 0.4097939248532625,
      "grad_norm": 1.3079437017440796,
      "learning_rate": 9.83517233791103e-05,
      "loss": 0.3714072465896606,
      "memory(GiB)": 61.91,
      "step": 9565,
      "token_acc": 0.9326923076923077,
      "train_speed(iter/s)": 1.508033
    },
    {
      "epoch": 0.41000814018251147,
      "grad_norm": 1.1767436265945435,
      "learning_rate": 9.835000923462117e-05,
      "loss": 0.28921120166778563,
      "memory(GiB)": 61.91,
      "step": 9570,
      "token_acc": 0.9409722222222222,
      "train_speed(iter/s)": 1.507982
    },
    {
      "epoch": 0.4102223555117604,
      "grad_norm": 2.228224515914917,
      "learning_rate": 9.834829421422627e-05,
      "loss": 0.5152900695800782,
      "memory(GiB)": 61.91,
      "step": 9575,
      "token_acc": 0.893687707641196,
      "train_speed(iter/s)": 1.507987
    },
    {
      "epoch": 0.4104365708410094,
      "grad_norm": 3.4651308059692383,
      "learning_rate": 9.834657831795666e-05,
      "loss": 0.44086122512817383,
      "memory(GiB)": 61.91,
      "step": 9580,
      "token_acc": 0.9076923076923077,
      "train_speed(iter/s)": 1.508041
    },
    {
      "epoch": 0.41065078617025835,
      "grad_norm": 2.4249050617218018,
      "learning_rate": 9.834486154584342e-05,
      "loss": 0.4613369941711426,
      "memory(GiB)": 61.91,
      "step": 9585,
      "token_acc": 0.9,
      "train_speed(iter/s)": 1.508089
    },
    {
      "epoch": 0.41086500149950733,
      "grad_norm": 6.373779296875,
      "learning_rate": 9.834314389791767e-05,
      "loss": 0.49302358627319337,
      "memory(GiB)": 61.91,
      "step": 9590,
      "token_acc": 0.918918918918919,
      "train_speed(iter/s)": 1.508116
    },
    {
      "epoch": 0.41107921682875626,
      "grad_norm": 0.9531047344207764,
      "learning_rate": 9.834142537421053e-05,
      "loss": 0.3093680143356323,
      "memory(GiB)": 61.91,
      "step": 9595,
      "token_acc": 0.952076677316294,
      "train_speed(iter/s)": 1.508204
    },
    {
      "epoch": 0.41129343215800523,
      "grad_norm": 2.042576313018799,
      "learning_rate": 9.833970597475311e-05,
      "loss": 0.45992116928100585,
      "memory(GiB)": 61.91,
      "step": 9600,
      "token_acc": 0.8996763754045307,
      "train_speed(iter/s)": 1.508206
    },
    {
      "epoch": 0.4115076474872542,
      "grad_norm": 3.035285472869873,
      "learning_rate": 9.833798569957657e-05,
      "loss": 0.341129469871521,
      "memory(GiB)": 61.91,
      "step": 9605,
      "token_acc": 0.931899641577061,
      "train_speed(iter/s)": 1.508203
    },
    {
      "epoch": 0.41172186281650314,
      "grad_norm": 0.32897499203681946,
      "learning_rate": 9.833626454871208e-05,
      "loss": 0.5371445655822754,
      "memory(GiB)": 61.91,
      "step": 9610,
      "token_acc": 0.8498659517426274,
      "train_speed(iter/s)": 1.508274
    },
    {
      "epoch": 0.4119360781457521,
      "grad_norm": 6.9121270179748535,
      "learning_rate": 9.833454252219082e-05,
      "loss": 0.545198917388916,
      "memory(GiB)": 61.91,
      "step": 9615,
      "token_acc": 0.8375451263537906,
      "train_speed(iter/s)": 1.508295
    },
    {
      "epoch": 0.4121502934750011,
      "grad_norm": 3.3451621532440186,
      "learning_rate": 9.833281962004397e-05,
      "loss": 0.5942502498626709,
      "memory(GiB)": 61.91,
      "step": 9620,
      "token_acc": 0.9026217228464419,
      "train_speed(iter/s)": 1.508361
    },
    {
      "epoch": 0.41236450880425,
      "grad_norm": 3.7237138748168945,
      "learning_rate": 9.833109584230275e-05,
      "loss": 0.5255822658538818,
      "memory(GiB)": 61.91,
      "step": 9625,
      "token_acc": 0.8896551724137931,
      "train_speed(iter/s)": 1.508381
    },
    {
      "epoch": 0.412578724133499,
      "grad_norm": 1.8957005739212036,
      "learning_rate": 9.832937118899842e-05,
      "loss": 0.2867961645126343,
      "memory(GiB)": 61.91,
      "step": 9630,
      "token_acc": 0.9314079422382672,
      "train_speed(iter/s)": 1.508603
    },
    {
      "epoch": 0.412792939462748,
      "grad_norm": 3.5014421939849854,
      "learning_rate": 9.832764566016216e-05,
      "loss": 0.6240625381469727,
      "memory(GiB)": 61.91,
      "step": 9635,
      "token_acc": 0.8766233766233766,
      "train_speed(iter/s)": 1.508592
    },
    {
      "epoch": 0.4130071547919969,
      "grad_norm": 2.6530356407165527,
      "learning_rate": 9.832591925582527e-05,
      "loss": 0.3201970100402832,
      "memory(GiB)": 61.91,
      "step": 9640,
      "token_acc": 0.9060150375939849,
      "train_speed(iter/s)": 1.508678
    },
    {
      "epoch": 0.4132213701212459,
      "grad_norm": 1.9383749961853027,
      "learning_rate": 9.832419197601903e-05,
      "loss": 0.4156783580780029,
      "memory(GiB)": 61.91,
      "step": 9645,
      "token_acc": 0.9073359073359073,
      "train_speed(iter/s)": 1.5087
    },
    {
      "epoch": 0.41343558545049486,
      "grad_norm": 3.4899020195007324,
      "learning_rate": 9.832246382077471e-05,
      "loss": 0.4324374198913574,
      "memory(GiB)": 61.91,
      "step": 9650,
      "token_acc": 0.925,
      "train_speed(iter/s)": 1.508708
    },
    {
      "epoch": 0.4136498007797438,
      "grad_norm": 1.7662739753723145,
      "learning_rate": 9.832073479012364e-05,
      "loss": 0.46340503692626955,
      "memory(GiB)": 61.91,
      "step": 9655,
      "token_acc": 0.904,
      "train_speed(iter/s)": 1.508802
    },
    {
      "epoch": 0.41386401610899276,
      "grad_norm": 2.75042462348938,
      "learning_rate": 9.83190048840971e-05,
      "loss": 0.40130152702331545,
      "memory(GiB)": 61.91,
      "step": 9660,
      "token_acc": 0.9182879377431906,
      "train_speed(iter/s)": 1.508799
    },
    {
      "epoch": 0.41407823143824174,
      "grad_norm": 2.522662401199341,
      "learning_rate": 9.83172741027265e-05,
      "loss": 0.31501569747924807,
      "memory(GiB)": 61.91,
      "step": 9665,
      "token_acc": 0.9230769230769231,
      "train_speed(iter/s)": 1.50879
    },
    {
      "epoch": 0.41429244676749066,
      "grad_norm": 3.5338311195373535,
      "learning_rate": 9.831554244604313e-05,
      "loss": 0.6635523796081543,
      "memory(GiB)": 61.91,
      "step": 9670,
      "token_acc": 0.8753894080996885,
      "train_speed(iter/s)": 1.508807
    },
    {
      "epoch": 0.41450666209673964,
      "grad_norm": 3.26469087600708,
      "learning_rate": 9.831380991407841e-05,
      "loss": 0.21499178409576417,
      "memory(GiB)": 61.91,
      "step": 9675,
      "token_acc": 0.9598214285714286,
      "train_speed(iter/s)": 1.508809
    },
    {
      "epoch": 0.4147208774259886,
      "grad_norm": 7.517244338989258,
      "learning_rate": 9.831207650686367e-05,
      "loss": 0.6489170074462891,
      "memory(GiB)": 61.91,
      "step": 9680,
      "token_acc": 0.8685015290519877,
      "train_speed(iter/s)": 1.508867
    },
    {
      "epoch": 0.41493509275523754,
      "grad_norm": 1.9291375875473022,
      "learning_rate": 9.831034222443037e-05,
      "loss": 0.30274648666381837,
      "memory(GiB)": 61.91,
      "step": 9685,
      "token_acc": 0.9473684210526315,
      "train_speed(iter/s)": 1.508854
    },
    {
      "epoch": 0.4151493080844865,
      "grad_norm": 1.9034607410430908,
      "learning_rate": 9.830860706680989e-05,
      "loss": 0.26431980133056643,
      "memory(GiB)": 61.91,
      "step": 9690,
      "token_acc": 0.9418960244648318,
      "train_speed(iter/s)": 1.50893
    },
    {
      "epoch": 0.4153635234137355,
      "grad_norm": 11.554343223571777,
      "learning_rate": 9.830687103403367e-05,
      "loss": 0.38609585762023924,
      "memory(GiB)": 61.91,
      "step": 9695,
      "token_acc": 0.9375,
      "train_speed(iter/s)": 1.508966
    },
    {
      "epoch": 0.4155777387429844,
      "grad_norm": 0.8724965453147888,
      "learning_rate": 9.830513412613318e-05,
      "loss": 0.3114032745361328,
      "memory(GiB)": 61.91,
      "step": 9700,
      "token_acc": 0.927797833935018,
      "train_speed(iter/s)": 1.508989
    },
    {
      "epoch": 0.4157919540722334,
      "grad_norm": 3.7835073471069336,
      "learning_rate": 9.830339634313985e-05,
      "loss": 0.4040060043334961,
      "memory(GiB)": 61.91,
      "step": 9705,
      "token_acc": 0.9123867069486404,
      "train_speed(iter/s)": 1.509057
    },
    {
      "epoch": 0.4160061694014824,
      "grad_norm": 3.159074306488037,
      "learning_rate": 9.830165768508519e-05,
      "loss": 0.2844813585281372,
      "memory(GiB)": 61.91,
      "step": 9710,
      "token_acc": 0.9359430604982206,
      "train_speed(iter/s)": 1.509037
    },
    {
      "epoch": 0.4162203847307313,
      "grad_norm": 1.0627632141113281,
      "learning_rate": 9.82999181520007e-05,
      "loss": 0.3560017108917236,
      "memory(GiB)": 61.91,
      "step": 9715,
      "token_acc": 0.918918918918919,
      "train_speed(iter/s)": 1.509033
    },
    {
      "epoch": 0.4164346000599803,
      "grad_norm": 3.1724600791931152,
      "learning_rate": 9.829817774391788e-05,
      "loss": 0.41548972129821776,
      "memory(GiB)": 61.91,
      "step": 9720,
      "token_acc": 0.9273743016759777,
      "train_speed(iter/s)": 1.509043
    },
    {
      "epoch": 0.41664881538922927,
      "grad_norm": 2.3089375495910645,
      "learning_rate": 9.829643646086826e-05,
      "loss": 0.2558934450149536,
      "memory(GiB)": 61.91,
      "step": 9725,
      "token_acc": 0.940625,
      "train_speed(iter/s)": 1.509074
    },
    {
      "epoch": 0.4168630307184782,
      "grad_norm": 3.5954220294952393,
      "learning_rate": 9.829469430288338e-05,
      "loss": 0.5200096130371094,
      "memory(GiB)": 61.91,
      "step": 9730,
      "token_acc": 0.8814814814814815,
      "train_speed(iter/s)": 1.509162
    },
    {
      "epoch": 0.41707724604772717,
      "grad_norm": 2.938887357711792,
      "learning_rate": 9.829295126999482e-05,
      "loss": 0.5172693729400635,
      "memory(GiB)": 61.91,
      "step": 9735,
      "token_acc": 0.8812949640287769,
      "train_speed(iter/s)": 1.509157
    },
    {
      "epoch": 0.41729146137697615,
      "grad_norm": 3.556504487991333,
      "learning_rate": 9.829120736223417e-05,
      "loss": 0.44468984603881834,
      "memory(GiB)": 61.91,
      "step": 9740,
      "token_acc": 0.8789808917197452,
      "train_speed(iter/s)": 1.50924
    },
    {
      "epoch": 0.41750567670622507,
      "grad_norm": 1.7452746629714966,
      "learning_rate": 9.828946257963296e-05,
      "loss": 0.2712139844894409,
      "memory(GiB)": 61.91,
      "step": 9745,
      "token_acc": 0.9426751592356688,
      "train_speed(iter/s)": 1.509223
    },
    {
      "epoch": 0.41771989203547405,
      "grad_norm": 3.7137451171875,
      "learning_rate": 9.828771692222284e-05,
      "loss": 0.2725858688354492,
      "memory(GiB)": 61.91,
      "step": 9750,
      "token_acc": 0.9384057971014492,
      "train_speed(iter/s)": 1.509202
    },
    {
      "epoch": 0.41793410736472303,
      "grad_norm": 1.2882426977157593,
      "learning_rate": 9.828597039003544e-05,
      "loss": 0.45036468505859373,
      "memory(GiB)": 61.91,
      "step": 9755,
      "token_acc": 0.9019607843137255,
      "train_speed(iter/s)": 1.509224
    },
    {
      "epoch": 0.418148322693972,
      "grad_norm": 6.886036396026611,
      "learning_rate": 9.82842229831024e-05,
      "loss": 0.903559398651123,
      "memory(GiB)": 61.91,
      "step": 9760,
      "token_acc": 0.825,
      "train_speed(iter/s)": 1.509253
    },
    {
      "epoch": 0.41836253802322093,
      "grad_norm": 8.46239185333252,
      "learning_rate": 9.828247470145535e-05,
      "loss": 0.7579894542694092,
      "memory(GiB)": 61.91,
      "step": 9765,
      "token_acc": 0.8267477203647416,
      "train_speed(iter/s)": 1.509204
    },
    {
      "epoch": 0.4185767533524699,
      "grad_norm": 1.8277407884597778,
      "learning_rate": 9.828072554512597e-05,
      "loss": 0.35467545986175536,
      "memory(GiB)": 61.91,
      "step": 9770,
      "token_acc": 0.9240506329113924,
      "train_speed(iter/s)": 1.509175
    },
    {
      "epoch": 0.4187909686817189,
      "grad_norm": 3.2110085487365723,
      "learning_rate": 9.827897551414598e-05,
      "loss": 0.36563384532928467,
      "memory(GiB)": 61.91,
      "step": 9775,
      "token_acc": 0.9133333333333333,
      "train_speed(iter/s)": 1.509261
    },
    {
      "epoch": 0.4190051840109678,
      "grad_norm": 1.0927865505218506,
      "learning_rate": 9.827722460854705e-05,
      "loss": 0.4125990867614746,
      "memory(GiB)": 61.91,
      "step": 9780,
      "token_acc": 0.8996539792387543,
      "train_speed(iter/s)": 1.509302
    },
    {
      "epoch": 0.4192193993402168,
      "grad_norm": 3.430699586868286,
      "learning_rate": 9.82754728283609e-05,
      "loss": 0.4949087142944336,
      "memory(GiB)": 61.91,
      "step": 9785,
      "token_acc": 0.9151515151515152,
      "train_speed(iter/s)": 1.509314
    },
    {
      "epoch": 0.41943361466946577,
      "grad_norm": 1.2635524272918701,
      "learning_rate": 9.827372017361929e-05,
      "loss": 0.24602158069610597,
      "memory(GiB)": 61.91,
      "step": 9790,
      "token_acc": 0.9202898550724637,
      "train_speed(iter/s)": 1.509288
    },
    {
      "epoch": 0.4196478299987147,
      "grad_norm": 2.2388784885406494,
      "learning_rate": 9.827196664435394e-05,
      "loss": 0.3816941738128662,
      "memory(GiB)": 61.91,
      "step": 9795,
      "token_acc": 0.9185667752442996,
      "train_speed(iter/s)": 1.509306
    },
    {
      "epoch": 0.4198620453279637,
      "grad_norm": 3.044820785522461,
      "learning_rate": 9.827021224059663e-05,
      "loss": 0.3346749544143677,
      "memory(GiB)": 61.91,
      "step": 9800,
      "token_acc": 0.9245283018867925,
      "train_speed(iter/s)": 1.509317
    },
    {
      "epoch": 0.42007626065721265,
      "grad_norm": 5.654035568237305,
      "learning_rate": 9.826845696237917e-05,
      "loss": 0.3811981678009033,
      "memory(GiB)": 61.91,
      "step": 9805,
      "token_acc": 0.9105431309904153,
      "train_speed(iter/s)": 1.509247
    },
    {
      "epoch": 0.4202904759864616,
      "grad_norm": 6.331050395965576,
      "learning_rate": 9.826670080973331e-05,
      "loss": 0.38805584907531737,
      "memory(GiB)": 61.91,
      "step": 9810,
      "token_acc": 0.9136690647482014,
      "train_speed(iter/s)": 1.509334
    },
    {
      "epoch": 0.42050469131571055,
      "grad_norm": 1.1610158681869507,
      "learning_rate": 9.826494378269088e-05,
      "loss": 0.526564073562622,
      "memory(GiB)": 61.91,
      "step": 9815,
      "token_acc": 0.8783783783783784,
      "train_speed(iter/s)": 1.509404
    },
    {
      "epoch": 0.42071890664495953,
      "grad_norm": 1.2386915683746338,
      "learning_rate": 9.826318588128373e-05,
      "loss": 0.17634134292602538,
      "memory(GiB)": 61.91,
      "step": 9820,
      "token_acc": 0.958904109589041,
      "train_speed(iter/s)": 1.509409
    },
    {
      "epoch": 0.42093312197420846,
      "grad_norm": 2.638221025466919,
      "learning_rate": 9.82614271055437e-05,
      "loss": 0.22216193675994872,
      "memory(GiB)": 61.91,
      "step": 9825,
      "token_acc": 0.9466192170818505,
      "train_speed(iter/s)": 1.509384
    },
    {
      "epoch": 0.42114733730345744,
      "grad_norm": 1.9915095567703247,
      "learning_rate": 9.825966745550262e-05,
      "loss": 0.3601616144180298,
      "memory(GiB)": 61.91,
      "step": 9830,
      "token_acc": 0.921875,
      "train_speed(iter/s)": 1.509378
    },
    {
      "epoch": 0.4213615526327064,
      "grad_norm": 5.364609241485596,
      "learning_rate": 9.825790693119241e-05,
      "loss": 0.5846957206726074,
      "memory(GiB)": 61.91,
      "step": 9835,
      "token_acc": 0.8781362007168458,
      "train_speed(iter/s)": 1.509456
    },
    {
      "epoch": 0.42157576796195534,
      "grad_norm": 2.3219292163848877,
      "learning_rate": 9.825614553264495e-05,
      "loss": 0.30610995292663573,
      "memory(GiB)": 61.91,
      "step": 9840,
      "token_acc": 0.946875,
      "train_speed(iter/s)": 1.509445
    },
    {
      "epoch": 0.4217899832912043,
      "grad_norm": 4.356470108032227,
      "learning_rate": 9.825438325989214e-05,
      "loss": 0.45871548652648925,
      "memory(GiB)": 61.91,
      "step": 9845,
      "token_acc": 0.9059233449477352,
      "train_speed(iter/s)": 1.509389
    },
    {
      "epoch": 0.4220041986204533,
      "grad_norm": 2.4539968967437744,
      "learning_rate": 9.825262011296591e-05,
      "loss": 0.4549094200134277,
      "memory(GiB)": 61.91,
      "step": 9850,
      "token_acc": 0.9375,
      "train_speed(iter/s)": 1.509459
    },
    {
      "epoch": 0.4222184139497022,
      "grad_norm": 4.017759799957275,
      "learning_rate": 9.825085609189821e-05,
      "loss": 0.3656139850616455,
      "memory(GiB)": 61.91,
      "step": 9855,
      "token_acc": 0.922509225092251,
      "train_speed(iter/s)": 1.509411
    },
    {
      "epoch": 0.4224326292789512,
      "grad_norm": 0.27963870763778687,
      "learning_rate": 9.824909119672098e-05,
      "loss": 0.2725200653076172,
      "memory(GiB)": 61.91,
      "step": 9860,
      "token_acc": 0.9418181818181818,
      "train_speed(iter/s)": 1.509408
    },
    {
      "epoch": 0.4226468446082002,
      "grad_norm": 5.129289150238037,
      "learning_rate": 9.82473254274662e-05,
      "loss": 0.3880021333694458,
      "memory(GiB)": 61.91,
      "step": 9865,
      "token_acc": 0.900709219858156,
      "train_speed(iter/s)": 1.509388
    },
    {
      "epoch": 0.4228610599374491,
      "grad_norm": 0.6168048977851868,
      "learning_rate": 9.824555878416586e-05,
      "loss": 0.3714810848236084,
      "memory(GiB)": 61.91,
      "step": 9870,
      "token_acc": 0.9016393442622951,
      "train_speed(iter/s)": 1.509439
    },
    {
      "epoch": 0.4230752752666981,
      "grad_norm": 1.9886531829833984,
      "learning_rate": 9.824379126685197e-05,
      "loss": 0.40896944999694823,
      "memory(GiB)": 61.91,
      "step": 9875,
      "token_acc": 0.9090909090909091,
      "train_speed(iter/s)": 1.509397
    },
    {
      "epoch": 0.42328949059594706,
      "grad_norm": 6.798762798309326,
      "learning_rate": 9.824202287555655e-05,
      "loss": 0.7304451942443848,
      "memory(GiB)": 61.91,
      "step": 9880,
      "token_acc": 0.8343558282208589,
      "train_speed(iter/s)": 1.509423
    },
    {
      "epoch": 0.423503705925196,
      "grad_norm": 2.0493037700653076,
      "learning_rate": 9.824025361031162e-05,
      "loss": 0.41022186279296874,
      "memory(GiB)": 61.91,
      "step": 9885,
      "token_acc": 0.9157088122605364,
      "train_speed(iter/s)": 1.509486
    },
    {
      "epoch": 0.42371792125444496,
      "grad_norm": 3.376983642578125,
      "learning_rate": 9.823848347114925e-05,
      "loss": 0.15344417095184326,
      "memory(GiB)": 61.91,
      "step": 9890,
      "token_acc": 0.9661538461538461,
      "train_speed(iter/s)": 1.509481
    },
    {
      "epoch": 0.42393213658369394,
      "grad_norm": 3.84713077545166,
      "learning_rate": 9.82367124581015e-05,
      "loss": 0.5537586212158203,
      "memory(GiB)": 61.91,
      "step": 9895,
      "token_acc": 0.890728476821192,
      "train_speed(iter/s)": 1.509483
    },
    {
      "epoch": 0.42414635191294286,
      "grad_norm": 3.265084743499756,
      "learning_rate": 9.823494057120046e-05,
      "loss": 0.4434359550476074,
      "memory(GiB)": 61.91,
      "step": 9900,
      "token_acc": 0.9,
      "train_speed(iter/s)": 1.509469
    },
    {
      "epoch": 0.42436056724219184,
      "grad_norm": 3.947221040725708,
      "learning_rate": 9.82331678104782e-05,
      "loss": 0.3803727388381958,
      "memory(GiB)": 61.91,
      "step": 9905,
      "token_acc": 0.9307958477508651,
      "train_speed(iter/s)": 1.509456
    },
    {
      "epoch": 0.4245747825714408,
      "grad_norm": 1.523737907409668,
      "learning_rate": 9.823139417596688e-05,
      "loss": 0.40721569061279295,
      "memory(GiB)": 61.91,
      "step": 9910,
      "token_acc": 0.90625,
      "train_speed(iter/s)": 1.509407
    },
    {
      "epoch": 0.42478899790068975,
      "grad_norm": 1.0422919988632202,
      "learning_rate": 9.822961966769861e-05,
      "loss": 0.567678689956665,
      "memory(GiB)": 61.91,
      "step": 9915,
      "token_acc": 0.8703703703703703,
      "train_speed(iter/s)": 1.509365
    },
    {
      "epoch": 0.4250032132299387,
      "grad_norm": 7.92480993270874,
      "learning_rate": 9.822784428570552e-05,
      "loss": 0.31767802238464354,
      "memory(GiB)": 61.91,
      "step": 9920,
      "token_acc": 0.9073359073359073,
      "train_speed(iter/s)": 1.509318
    },
    {
      "epoch": 0.4252174285591877,
      "grad_norm": 2.9975814819335938,
      "learning_rate": 9.822606803001981e-05,
      "loss": 0.4217508792877197,
      "memory(GiB)": 61.91,
      "step": 9925,
      "token_acc": 0.9044368600682594,
      "train_speed(iter/s)": 1.509257
    },
    {
      "epoch": 0.4254316438884367,
      "grad_norm": 0.7514002323150635,
      "learning_rate": 9.822429090067363e-05,
      "loss": 0.42324223518371584,
      "memory(GiB)": 61.91,
      "step": 9930,
      "token_acc": 0.9196141479099679,
      "train_speed(iter/s)": 1.509256
    },
    {
      "epoch": 0.4256458592176856,
      "grad_norm": 3.9050991535186768,
      "learning_rate": 9.822251289769917e-05,
      "loss": 0.4803775787353516,
      "memory(GiB)": 61.91,
      "step": 9935,
      "token_acc": 0.8928571428571429,
      "train_speed(iter/s)": 1.50942
    },
    {
      "epoch": 0.4258600745469346,
      "grad_norm": 1.1282000541687012,
      "learning_rate": 9.822073402112867e-05,
      "loss": 0.36203899383544924,
      "memory(GiB)": 61.91,
      "step": 9940,
      "token_acc": 0.9140625,
      "train_speed(iter/s)": 1.509399
    },
    {
      "epoch": 0.42607428987618357,
      "grad_norm": 5.544679641723633,
      "learning_rate": 9.821895427099434e-05,
      "loss": 0.5556458473205567,
      "memory(GiB)": 61.91,
      "step": 9945,
      "token_acc": 0.8977635782747604,
      "train_speed(iter/s)": 1.509476
    },
    {
      "epoch": 0.4262885052054325,
      "grad_norm": 1.1807975769042969,
      "learning_rate": 9.821717364732841e-05,
      "loss": 0.2382129430770874,
      "memory(GiB)": 61.91,
      "step": 9950,
      "token_acc": 0.9483282674772037,
      "train_speed(iter/s)": 1.509422
    },
    {
      "epoch": 0.42650272053468147,
      "grad_norm": 1.265651822090149,
      "learning_rate": 9.821539215016314e-05,
      "loss": 0.4865591049194336,
      "memory(GiB)": 61.91,
      "step": 9955,
      "token_acc": 0.9084745762711864,
      "train_speed(iter/s)": 1.50939
    },
    {
      "epoch": 0.42671693586393045,
      "grad_norm": 1.8016465902328491,
      "learning_rate": 9.821360977953083e-05,
      "loss": 0.5596308231353759,
      "memory(GiB)": 61.91,
      "step": 9960,
      "token_acc": 0.8794117647058823,
      "train_speed(iter/s)": 1.509387
    },
    {
      "epoch": 0.42693115119317937,
      "grad_norm": 3.535043239593506,
      "learning_rate": 9.821182653546374e-05,
      "loss": 0.5865505695343017,
      "memory(GiB)": 61.91,
      "step": 9965,
      "token_acc": 0.8861538461538462,
      "train_speed(iter/s)": 1.509323
    },
    {
      "epoch": 0.42714536652242835,
      "grad_norm": 2.6049630641937256,
      "learning_rate": 9.821004241799419e-05,
      "loss": 0.5108200550079346,
      "memory(GiB)": 61.91,
      "step": 9970,
      "token_acc": 0.8616352201257862,
      "train_speed(iter/s)": 1.509299
    },
    {
      "epoch": 0.42735958185167733,
      "grad_norm": 2.7770256996154785,
      "learning_rate": 9.82082574271545e-05,
      "loss": 0.5152698516845703,
      "memory(GiB)": 61.91,
      "step": 9975,
      "token_acc": 0.88671875,
      "train_speed(iter/s)": 1.509293
    },
    {
      "epoch": 0.42757379718092625,
      "grad_norm": 2.4061505794525146,
      "learning_rate": 9.8206471562977e-05,
      "loss": 0.47693510055541993,
      "memory(GiB)": 61.91,
      "step": 9980,
      "token_acc": 0.8921161825726142,
      "train_speed(iter/s)": 1.509336
    },
    {
      "epoch": 0.42778801251017523,
      "grad_norm": 1.4498419761657715,
      "learning_rate": 9.820468482549403e-05,
      "loss": 0.4340983390808105,
      "memory(GiB)": 61.91,
      "step": 9985,
      "token_acc": 0.8982035928143712,
      "train_speed(iter/s)": 1.50938
    },
    {
      "epoch": 0.4280022278394242,
      "grad_norm": 1.6837610006332397,
      "learning_rate": 9.8202897214738e-05,
      "loss": 0.452302885055542,
      "memory(GiB)": 61.91,
      "step": 9990,
      "token_acc": 0.8897338403041825,
      "train_speed(iter/s)": 1.509383
    },
    {
      "epoch": 0.42821644316867313,
      "grad_norm": 3.5070812702178955,
      "learning_rate": 9.820110873074127e-05,
      "loss": 0.6498747825622558,
      "memory(GiB)": 61.91,
      "step": 9995,
      "token_acc": 0.872791519434629,
      "train_speed(iter/s)": 1.509408
    },
    {
      "epoch": 0.4284306584979221,
      "grad_norm": 3.213179111480713,
      "learning_rate": 9.819931937353622e-05,
      "loss": 0.4940351963043213,
      "memory(GiB)": 61.91,
      "step": 10000,
      "token_acc": 0.891156462585034,
      "train_speed(iter/s)": 1.509432
    },
    {
      "epoch": 0.4284306584979221,
      "eval_loss": 2.435257911682129,
      "eval_runtime": 13.258,
      "eval_samples_per_second": 7.543,
      "eval_steps_per_second": 7.543,
      "eval_token_acc": 0.4369747899159664,
      "step": 10000
    },
    {
      "epoch": 0.4286448738271711,
      "grad_norm": 1.8666521310806274,
      "learning_rate": 9.81975291431553e-05,
      "loss": 0.5318268299102783,
      "memory(GiB)": 61.91,
      "step": 10005,
      "token_acc": 0.5501043841336117,
      "train_speed(iter/s)": 1.506265
    },
    {
      "epoch": 0.42885908915642,
      "grad_norm": 2.5225818157196045,
      "learning_rate": 9.819573803963092e-05,
      "loss": 0.17265326976776124,
      "memory(GiB)": 61.91,
      "step": 10010,
      "token_acc": 0.9634146341463414,
      "train_speed(iter/s)": 1.506268
    },
    {
      "epoch": 0.429073304485669,
      "grad_norm": 2.483388662338257,
      "learning_rate": 9.819394606299552e-05,
      "loss": 0.49025769233703614,
      "memory(GiB)": 61.91,
      "step": 10015,
      "token_acc": 0.8741258741258742,
      "train_speed(iter/s)": 1.506254
    },
    {
      "epoch": 0.429287519814918,
      "grad_norm": 3.1599504947662354,
      "learning_rate": 9.819215321328159e-05,
      "loss": 0.3379845380783081,
      "memory(GiB)": 61.91,
      "step": 10020,
      "token_acc": 0.9027777777777778,
      "train_speed(iter/s)": 1.506343
    },
    {
      "epoch": 0.4295017351441669,
      "grad_norm": 3.399993419647217,
      "learning_rate": 9.81903594905216e-05,
      "loss": 0.5720295429229736,
      "memory(GiB)": 61.91,
      "step": 10025,
      "token_acc": 0.8945578231292517,
      "train_speed(iter/s)": 1.506318
    },
    {
      "epoch": 0.4297159504734159,
      "grad_norm": 2.936277151107788,
      "learning_rate": 9.818856489474803e-05,
      "loss": 0.2937993049621582,
      "memory(GiB)": 61.91,
      "step": 10030,
      "token_acc": 0.9256965944272446,
      "train_speed(iter/s)": 1.506304
    },
    {
      "epoch": 0.42993016580266485,
      "grad_norm": 1.603687047958374,
      "learning_rate": 9.818676942599343e-05,
      "loss": 0.3212160587310791,
      "memory(GiB)": 61.91,
      "step": 10035,
      "token_acc": 0.9172185430463576,
      "train_speed(iter/s)": 1.506284
    },
    {
      "epoch": 0.4301443811319138,
      "grad_norm": 2.743325710296631,
      "learning_rate": 9.818497308429028e-05,
      "loss": 0.484254789352417,
      "memory(GiB)": 61.91,
      "step": 10040,
      "token_acc": 0.9014084507042254,
      "train_speed(iter/s)": 1.506264
    },
    {
      "epoch": 0.43035859646116276,
      "grad_norm": 4.657649993896484,
      "learning_rate": 9.818317586967114e-05,
      "loss": 0.3377114772796631,
      "memory(GiB)": 61.91,
      "step": 10045,
      "token_acc": 0.9421768707482994,
      "train_speed(iter/s)": 1.506268
    },
    {
      "epoch": 0.43057281179041174,
      "grad_norm": 3.3420567512512207,
      "learning_rate": 9.818137778216857e-05,
      "loss": 0.21889607906341552,
      "memory(GiB)": 61.91,
      "step": 10050,
      "token_acc": 0.9433198380566802,
      "train_speed(iter/s)": 1.506272
    },
    {
      "epoch": 0.43078702711966066,
      "grad_norm": 2.5307488441467285,
      "learning_rate": 9.817957882181514e-05,
      "loss": 0.2744532585144043,
      "memory(GiB)": 61.91,
      "step": 10055,
      "token_acc": 0.9485294117647058,
      "train_speed(iter/s)": 1.506305
    },
    {
      "epoch": 0.43100124244890964,
      "grad_norm": 2.3786802291870117,
      "learning_rate": 9.817777898864345e-05,
      "loss": 0.2986316442489624,
      "memory(GiB)": 61.91,
      "step": 10060,
      "token_acc": 0.9365671641791045,
      "train_speed(iter/s)": 1.506375
    },
    {
      "epoch": 0.4312154577781586,
      "grad_norm": 1.7379429340362549,
      "learning_rate": 9.81759782826861e-05,
      "loss": 0.28394713401794436,
      "memory(GiB)": 61.91,
      "step": 10065,
      "token_acc": 0.9477351916376306,
      "train_speed(iter/s)": 1.506409
    },
    {
      "epoch": 0.43142967310740754,
      "grad_norm": 0.3592197597026825,
      "learning_rate": 9.817417670397571e-05,
      "loss": 0.7175737380981445,
      "memory(GiB)": 61.91,
      "step": 10070,
      "token_acc": 0.8445945945945946,
      "train_speed(iter/s)": 1.506406
    },
    {
      "epoch": 0.4316438884366565,
      "grad_norm": 3.4017586708068848,
      "learning_rate": 9.817237425254492e-05,
      "loss": 0.46547822952270507,
      "memory(GiB)": 61.91,
      "step": 10075,
      "token_acc": 0.8960244648318043,
      "train_speed(iter/s)": 1.506355
    },
    {
      "epoch": 0.4318581037659055,
      "grad_norm": 2.834467649459839,
      "learning_rate": 9.817057092842639e-05,
      "loss": 0.5085031986236572,
      "memory(GiB)": 61.91,
      "step": 10080,
      "token_acc": 0.9130434782608695,
      "train_speed(iter/s)": 1.506347
    },
    {
      "epoch": 0.4320723190951544,
      "grad_norm": 2.967838764190674,
      "learning_rate": 9.816876673165276e-05,
      "loss": 0.2504267692565918,
      "memory(GiB)": 61.91,
      "step": 10085,
      "token_acc": 0.919831223628692,
      "train_speed(iter/s)": 1.506324
    },
    {
      "epoch": 0.4322865344244034,
      "grad_norm": 8.58832836151123,
      "learning_rate": 9.816696166225674e-05,
      "loss": 0.2683766603469849,
      "memory(GiB)": 61.91,
      "step": 10090,
      "token_acc": 0.936026936026936,
      "train_speed(iter/s)": 1.506374
    },
    {
      "epoch": 0.4325007497536524,
      "grad_norm": 2.149585723876953,
      "learning_rate": 9.816515572027103e-05,
      "loss": 0.46616153717041015,
      "memory(GiB)": 61.91,
      "step": 10095,
      "token_acc": 0.8862745098039215,
      "train_speed(iter/s)": 1.50639
    },
    {
      "epoch": 0.43271496508290136,
      "grad_norm": 5.421866416931152,
      "learning_rate": 9.816334890572834e-05,
      "loss": 0.5225001335144043,
      "memory(GiB)": 61.91,
      "step": 10100,
      "token_acc": 0.8789808917197452,
      "train_speed(iter/s)": 1.506529
    },
    {
      "epoch": 0.4329291804121503,
      "grad_norm": 8.108086585998535,
      "learning_rate": 9.81615412186614e-05,
      "loss": 0.42041769027709963,
      "memory(GiB)": 61.91,
      "step": 10105,
      "token_acc": 0.9218106995884774,
      "train_speed(iter/s)": 1.506498
    },
    {
      "epoch": 0.43314339574139926,
      "grad_norm": 4.096609592437744,
      "learning_rate": 9.815973265910296e-05,
      "loss": 0.45472373962402346,
      "memory(GiB)": 61.91,
      "step": 10110,
      "token_acc": 0.9116465863453815,
      "train_speed(iter/s)": 1.50648
    },
    {
      "epoch": 0.43335761107064824,
      "grad_norm": 4.647186279296875,
      "learning_rate": 9.815792322708579e-05,
      "loss": 0.26973814964294435,
      "memory(GiB)": 61.91,
      "step": 10115,
      "token_acc": 0.9267399267399268,
      "train_speed(iter/s)": 1.506465
    },
    {
      "epoch": 0.43357182639989716,
      "grad_norm": 2.0985701084136963,
      "learning_rate": 9.815611292264267e-05,
      "loss": 0.3024921894073486,
      "memory(GiB)": 61.91,
      "step": 10120,
      "token_acc": 0.9377049180327869,
      "train_speed(iter/s)": 1.506466
    },
    {
      "epoch": 0.43378604172914614,
      "grad_norm": 5.445104598999023,
      "learning_rate": 9.815430174580638e-05,
      "loss": 0.35630154609680176,
      "memory(GiB)": 61.91,
      "step": 10125,
      "token_acc": 0.92,
      "train_speed(iter/s)": 1.506544
    },
    {
      "epoch": 0.4340002570583951,
      "grad_norm": 4.421397686004639,
      "learning_rate": 9.815248969660975e-05,
      "loss": 0.702651834487915,
      "memory(GiB)": 61.91,
      "step": 10130,
      "token_acc": 0.8037383177570093,
      "train_speed(iter/s)": 1.506501
    },
    {
      "epoch": 0.43421447238764405,
      "grad_norm": 1.0670167207717896,
      "learning_rate": 9.81506767750856e-05,
      "loss": 0.3192596435546875,
      "memory(GiB)": 61.91,
      "step": 10135,
      "token_acc": 0.9322709163346613,
      "train_speed(iter/s)": 1.506503
    },
    {
      "epoch": 0.434428687716893,
      "grad_norm": 2.919353485107422,
      "learning_rate": 9.814886298126678e-05,
      "loss": 0.4952259063720703,
      "memory(GiB)": 61.91,
      "step": 10140,
      "token_acc": 0.9075342465753424,
      "train_speed(iter/s)": 1.506504
    },
    {
      "epoch": 0.434642903046142,
      "grad_norm": 2.230673313140869,
      "learning_rate": 9.814704831518612e-05,
      "loss": 0.34040088653564454,
      "memory(GiB)": 61.91,
      "step": 10145,
      "token_acc": 0.9273504273504274,
      "train_speed(iter/s)": 1.506488
    },
    {
      "epoch": 0.4348571183753909,
      "grad_norm": 2.02935791015625,
      "learning_rate": 9.814523277687651e-05,
      "loss": 0.2873332977294922,
      "memory(GiB)": 61.91,
      "step": 10150,
      "token_acc": 0.9400630914826499,
      "train_speed(iter/s)": 1.506489
    },
    {
      "epoch": 0.4350713337046399,
      "grad_norm": 0.7565959095954895,
      "learning_rate": 9.814341636637085e-05,
      "loss": 0.18743935823440552,
      "memory(GiB)": 61.91,
      "step": 10155,
      "token_acc": 0.9581881533101045,
      "train_speed(iter/s)": 1.5065
    },
    {
      "epoch": 0.4352855490338889,
      "grad_norm": 1.0379352569580078,
      "learning_rate": 9.814159908370206e-05,
      "loss": 0.37758305072784426,
      "memory(GiB)": 61.91,
      "step": 10160,
      "token_acc": 0.903448275862069,
      "train_speed(iter/s)": 1.506441
    },
    {
      "epoch": 0.4354997643631378,
      "grad_norm": 1.4163607358932495,
      "learning_rate": 9.813978092890302e-05,
      "loss": 0.30896997451782227,
      "memory(GiB)": 61.91,
      "step": 10165,
      "token_acc": 0.9354838709677419,
      "train_speed(iter/s)": 1.506399
    },
    {
      "epoch": 0.4357139796923868,
      "grad_norm": 1.7334789037704468,
      "learning_rate": 9.813796190200671e-05,
      "loss": 0.43746585845947267,
      "memory(GiB)": 61.91,
      "step": 10170,
      "token_acc": 0.9264214046822743,
      "train_speed(iter/s)": 1.506396
    },
    {
      "epoch": 0.43592819502163577,
      "grad_norm": 1.3903981447219849,
      "learning_rate": 9.813614200304604e-05,
      "loss": 0.5260143280029297,
      "memory(GiB)": 61.91,
      "step": 10175,
      "token_acc": 0.8943894389438944,
      "train_speed(iter/s)": 1.506368
    },
    {
      "epoch": 0.4361424103508847,
      "grad_norm": 4.0374650955200195,
      "learning_rate": 9.813432123205401e-05,
      "loss": 0.4306884765625,
      "memory(GiB)": 61.91,
      "step": 10180,
      "token_acc": 0.9070631970260223,
      "train_speed(iter/s)": 1.506386
    },
    {
      "epoch": 0.43635662568013367,
      "grad_norm": 3.235056161880493,
      "learning_rate": 9.813249958906362e-05,
      "loss": 0.5119011878967286,
      "memory(GiB)": 61.91,
      "step": 10185,
      "token_acc": 0.891640866873065,
      "train_speed(iter/s)": 1.506315
    },
    {
      "epoch": 0.43657084100938265,
      "grad_norm": 1.0276715755462646,
      "learning_rate": 9.813067707410781e-05,
      "loss": 0.3745177507400513,
      "memory(GiB)": 61.91,
      "step": 10190,
      "token_acc": 0.9041533546325878,
      "train_speed(iter/s)": 1.506349
    },
    {
      "epoch": 0.43678505633863157,
      "grad_norm": 2.0960819721221924,
      "learning_rate": 9.812885368721966e-05,
      "loss": 0.42377629280090334,
      "memory(GiB)": 61.91,
      "step": 10195,
      "token_acc": 0.9027355623100304,
      "train_speed(iter/s)": 1.506338
    },
    {
      "epoch": 0.43699927166788055,
      "grad_norm": 3.2238616943359375,
      "learning_rate": 9.812702942843218e-05,
      "loss": 0.8300793647766114,
      "memory(GiB)": 61.91,
      "step": 10200,
      "token_acc": 0.7937853107344632,
      "train_speed(iter/s)": 1.506286
    },
    {
      "epoch": 0.43721348699712953,
      "grad_norm": 2.4800775051116943,
      "learning_rate": 9.812520429777839e-05,
      "loss": 0.4394670009613037,
      "memory(GiB)": 61.91,
      "step": 10205,
      "token_acc": 0.9171597633136095,
      "train_speed(iter/s)": 1.506346
    },
    {
      "epoch": 0.43742770232637845,
      "grad_norm": 2.0256688594818115,
      "learning_rate": 9.81233782952914e-05,
      "loss": 0.3772881507873535,
      "memory(GiB)": 61.91,
      "step": 10210,
      "token_acc": 0.9142091152815014,
      "train_speed(iter/s)": 1.506329
    },
    {
      "epoch": 0.43764191765562743,
      "grad_norm": 8.301093101501465,
      "learning_rate": 9.812155142100425e-05,
      "loss": 0.3515757083892822,
      "memory(GiB)": 61.91,
      "step": 10215,
      "token_acc": 0.9230769230769231,
      "train_speed(iter/s)": 1.50633
    },
    {
      "epoch": 0.4378561329848764,
      "grad_norm": 2.299423933029175,
      "learning_rate": 9.811972367495008e-05,
      "loss": 0.3472987174987793,
      "memory(GiB)": 61.91,
      "step": 10220,
      "token_acc": 0.9146341463414634,
      "train_speed(iter/s)": 1.506379
    },
    {
      "epoch": 0.43807034831412534,
      "grad_norm": 0.8623754382133484,
      "learning_rate": 9.811789505716195e-05,
      "loss": 0.26234433650970457,
      "memory(GiB)": 61.91,
      "step": 10225,
      "token_acc": 0.9571984435797666,
      "train_speed(iter/s)": 1.506349
    },
    {
      "epoch": 0.4382845636433743,
      "grad_norm": 2.46502423286438,
      "learning_rate": 9.811606556767303e-05,
      "loss": 0.44746694564819334,
      "memory(GiB)": 61.91,
      "step": 10230,
      "token_acc": 0.9018567639257294,
      "train_speed(iter/s)": 1.506327
    },
    {
      "epoch": 0.4384987789726233,
      "grad_norm": 3.469413995742798,
      "learning_rate": 9.811423520651644e-05,
      "loss": 0.3888083457946777,
      "memory(GiB)": 61.91,
      "step": 10235,
      "token_acc": 0.9351535836177475,
      "train_speed(iter/s)": 1.506324
    },
    {
      "epoch": 0.4387129943018722,
      "grad_norm": 2.617112636566162,
      "learning_rate": 9.811240397372535e-05,
      "loss": 0.5537193298339844,
      "memory(GiB)": 61.91,
      "step": 10240,
      "token_acc": 0.8682432432432432,
      "train_speed(iter/s)": 1.506396
    },
    {
      "epoch": 0.4389272096311212,
      "grad_norm": 3.364072799682617,
      "learning_rate": 9.811057186933293e-05,
      "loss": 0.30262365341186526,
      "memory(GiB)": 61.91,
      "step": 10245,
      "token_acc": 0.9183673469387755,
      "train_speed(iter/s)": 1.506456
    },
    {
      "epoch": 0.4391414249603702,
      "grad_norm": 13.93198299407959,
      "learning_rate": 9.810873889337235e-05,
      "loss": 0.46721415519714354,
      "memory(GiB)": 61.91,
      "step": 10250,
      "token_acc": 0.8909774436090225,
      "train_speed(iter/s)": 1.506508
    },
    {
      "epoch": 0.4393556402896191,
      "grad_norm": 4.195378303527832,
      "learning_rate": 9.810690504587685e-05,
      "loss": 0.28487725257873536,
      "memory(GiB)": 61.91,
      "step": 10255,
      "token_acc": 0.9588607594936709,
      "train_speed(iter/s)": 1.506504
    },
    {
      "epoch": 0.4395698556188681,
      "grad_norm": 3.779521942138672,
      "learning_rate": 9.810507032687964e-05,
      "loss": 0.5166985034942627,
      "memory(GiB)": 61.91,
      "step": 10260,
      "token_acc": 0.9040590405904059,
      "train_speed(iter/s)": 1.506463
    },
    {
      "epoch": 0.43978407094811706,
      "grad_norm": 1.2961277961730957,
      "learning_rate": 9.810323473641395e-05,
      "loss": 0.10728344917297364,
      "memory(GiB)": 61.91,
      "step": 10265,
      "token_acc": 0.9899328859060402,
      "train_speed(iter/s)": 1.50643
    },
    {
      "epoch": 0.43999828627736604,
      "grad_norm": 2.037714958190918,
      "learning_rate": 9.810139827451305e-05,
      "loss": 0.2773106098175049,
      "memory(GiB)": 61.91,
      "step": 10270,
      "token_acc": 0.9368770764119602,
      "train_speed(iter/s)": 1.506424
    },
    {
      "epoch": 0.44021250160661496,
      "grad_norm": 2.567735433578491,
      "learning_rate": 9.809956094121017e-05,
      "loss": 0.3679696559906006,
      "memory(GiB)": 61.91,
      "step": 10275,
      "token_acc": 0.9228395061728395,
      "train_speed(iter/s)": 1.506503
    },
    {
      "epoch": 0.44042671693586394,
      "grad_norm": 3.379956007003784,
      "learning_rate": 9.809772273653866e-05,
      "loss": 0.4297483444213867,
      "memory(GiB)": 61.91,
      "step": 10280,
      "token_acc": 0.921875,
      "train_speed(iter/s)": 1.506455
    },
    {
      "epoch": 0.4406409322651129,
      "grad_norm": 2.2658281326293945,
      "learning_rate": 9.809588366053175e-05,
      "loss": 0.4789607524871826,
      "memory(GiB)": 61.91,
      "step": 10285,
      "token_acc": 0.9049295774647887,
      "train_speed(iter/s)": 1.50653
    },
    {
      "epoch": 0.44085514759436184,
      "grad_norm": 2.6683194637298584,
      "learning_rate": 9.80940437132228e-05,
      "loss": 0.410296106338501,
      "memory(GiB)": 61.91,
      "step": 10290,
      "token_acc": 0.9176829268292683,
      "train_speed(iter/s)": 1.506518
    },
    {
      "epoch": 0.4410693629236108,
      "grad_norm": 1.707667589187622,
      "learning_rate": 9.809220289464513e-05,
      "loss": 0.7021047115325928,
      "memory(GiB)": 61.91,
      "step": 10295,
      "token_acc": 0.856,
      "train_speed(iter/s)": 1.506463
    },
    {
      "epoch": 0.4412835782528598,
      "grad_norm": 0.33640891313552856,
      "learning_rate": 9.809036120483211e-05,
      "loss": 0.320736289024353,
      "memory(GiB)": 61.91,
      "step": 10300,
      "token_acc": 0.9084967320261438,
      "train_speed(iter/s)": 1.506529
    },
    {
      "epoch": 0.4414977935821087,
      "grad_norm": 6.469146251678467,
      "learning_rate": 9.808851864381706e-05,
      "loss": 0.4157205581665039,
      "memory(GiB)": 61.91,
      "step": 10305,
      "token_acc": 0.927007299270073,
      "train_speed(iter/s)": 1.506593
    },
    {
      "epoch": 0.4417120089113577,
      "grad_norm": 7.494106769561768,
      "learning_rate": 9.80866752116334e-05,
      "loss": 0.36469104290008547,
      "memory(GiB)": 61.91,
      "step": 10310,
      "token_acc": 0.8884758364312267,
      "train_speed(iter/s)": 1.506544
    },
    {
      "epoch": 0.4419262242406067,
      "grad_norm": 0.9967930912971497,
      "learning_rate": 9.80848309083145e-05,
      "loss": 0.435056734085083,
      "memory(GiB)": 61.91,
      "step": 10315,
      "token_acc": 0.9,
      "train_speed(iter/s)": 1.506517
    },
    {
      "epoch": 0.4421404395698556,
      "grad_norm": 3.689375162124634,
      "learning_rate": 9.808298573389379e-05,
      "loss": 0.3180785417556763,
      "memory(GiB)": 61.91,
      "step": 10320,
      "token_acc": 0.9298892988929889,
      "train_speed(iter/s)": 1.506519
    },
    {
      "epoch": 0.4423546548991046,
      "grad_norm": 6.299117088317871,
      "learning_rate": 9.808113968840468e-05,
      "loss": 0.5036754608154297,
      "memory(GiB)": 61.91,
      "step": 10325,
      "token_acc": 0.8952702702702703,
      "train_speed(iter/s)": 1.506592
    },
    {
      "epoch": 0.44256887022835356,
      "grad_norm": 5.919503211975098,
      "learning_rate": 9.807929277188061e-05,
      "loss": 0.2616488218307495,
      "memory(GiB)": 61.91,
      "step": 10330,
      "token_acc": 0.9264705882352942,
      "train_speed(iter/s)": 1.506611
    },
    {
      "epoch": 0.4427830855576025,
      "grad_norm": 3.2891223430633545,
      "learning_rate": 9.807744498435507e-05,
      "loss": 0.20905542373657227,
      "memory(GiB)": 61.91,
      "step": 10335,
      "token_acc": 0.9632352941176471,
      "train_speed(iter/s)": 1.506615
    },
    {
      "epoch": 0.44299730088685146,
      "grad_norm": 1.2426469326019287,
      "learning_rate": 9.80755963258615e-05,
      "loss": 0.5568090438842773,
      "memory(GiB)": 61.91,
      "step": 10340,
      "token_acc": 0.9,
      "train_speed(iter/s)": 1.506631
    },
    {
      "epoch": 0.44321151621610044,
      "grad_norm": 3.02644419670105,
      "learning_rate": 9.807374679643342e-05,
      "loss": 0.4243612289428711,
      "memory(GiB)": 61.91,
      "step": 10345,
      "token_acc": 0.9333333333333333,
      "train_speed(iter/s)": 1.506628
    },
    {
      "epoch": 0.44342573154534937,
      "grad_norm": 2.3068771362304688,
      "learning_rate": 9.80718963961043e-05,
      "loss": 0.3067525625228882,
      "memory(GiB)": 61.91,
      "step": 10350,
      "token_acc": 0.9266666666666666,
      "train_speed(iter/s)": 1.506639
    },
    {
      "epoch": 0.44363994687459835,
      "grad_norm": 3.1874725818634033,
      "learning_rate": 9.807004512490769e-05,
      "loss": 0.38964645862579345,
      "memory(GiB)": 61.91,
      "step": 10355,
      "token_acc": 0.9057971014492754,
      "train_speed(iter/s)": 1.506636
    },
    {
      "epoch": 0.4438541622038473,
      "grad_norm": 2.043302536010742,
      "learning_rate": 9.806819298287713e-05,
      "loss": 0.9457289695739746,
      "memory(GiB)": 61.91,
      "step": 10360,
      "token_acc": 0.7928176795580111,
      "train_speed(iter/s)": 1.506811
    },
    {
      "epoch": 0.44406837753309625,
      "grad_norm": 2.440476179122925,
      "learning_rate": 9.806633997004615e-05,
      "loss": 0.35591745376586914,
      "memory(GiB)": 61.91,
      "step": 10365,
      "token_acc": 0.9278996865203761,
      "train_speed(iter/s)": 1.506765
    },
    {
      "epoch": 0.4442825928623452,
      "grad_norm": 7.384896278381348,
      "learning_rate": 9.806448608644834e-05,
      "loss": 0.29206008911132814,
      "memory(GiB)": 61.91,
      "step": 10370,
      "token_acc": 0.9369369369369369,
      "train_speed(iter/s)": 1.506853
    },
    {
      "epoch": 0.4444968081915942,
      "grad_norm": 3.2284624576568604,
      "learning_rate": 9.806263133211728e-05,
      "loss": 0.10596487522125245,
      "memory(GiB)": 61.91,
      "step": 10375,
      "token_acc": 0.9857142857142858,
      "train_speed(iter/s)": 1.506813
    },
    {
      "epoch": 0.44471102352084313,
      "grad_norm": 2.0987548828125,
      "learning_rate": 9.806077570708654e-05,
      "loss": 0.28821663856506347,
      "memory(GiB)": 61.91,
      "step": 10380,
      "token_acc": 0.9471698113207547,
      "train_speed(iter/s)": 1.506818
    },
    {
      "epoch": 0.4449252388500921,
      "grad_norm": 5.4336137771606445,
      "learning_rate": 9.805891921138979e-05,
      "loss": 0.6694289207458496,
      "memory(GiB)": 61.91,
      "step": 10385,
      "token_acc": 0.8689024390243902,
      "train_speed(iter/s)": 1.50684
    },
    {
      "epoch": 0.4451394541793411,
      "grad_norm": 0.22378452122211456,
      "learning_rate": 9.805706184506062e-05,
      "loss": 0.6008909702301025,
      "memory(GiB)": 61.91,
      "step": 10390,
      "token_acc": 0.8923076923076924,
      "train_speed(iter/s)": 1.506794
    },
    {
      "epoch": 0.44535366950859,
      "grad_norm": 2.9686124324798584,
      "learning_rate": 9.805520360813272e-05,
      "loss": 0.4844522476196289,
      "memory(GiB)": 61.91,
      "step": 10395,
      "token_acc": 0.8896551724137931,
      "train_speed(iter/s)": 1.506818
    },
    {
      "epoch": 0.445567884837839,
      "grad_norm": 2.4190595149993896,
      "learning_rate": 9.80533445006397e-05,
      "loss": 0.16563622951507567,
      "memory(GiB)": 61.91,
      "step": 10400,
      "token_acc": 0.958041958041958,
      "train_speed(iter/s)": 1.506797
    },
    {
      "epoch": 0.44578210016708797,
      "grad_norm": 2.4079484939575195,
      "learning_rate": 9.805148452261528e-05,
      "loss": 0.5499263763427734,
      "memory(GiB)": 61.91,
      "step": 10405,
      "token_acc": 0.8937007874015748,
      "train_speed(iter/s)": 1.506776
    },
    {
      "epoch": 0.4459963154963369,
      "grad_norm": 2.3879342079162598,
      "learning_rate": 9.804962367409313e-05,
      "loss": 0.38434929847717286,
      "memory(GiB)": 61.91,
      "step": 10410,
      "token_acc": 0.9148264984227129,
      "train_speed(iter/s)": 1.506823
    },
    {
      "epoch": 0.44621053082558587,
      "grad_norm": 8.252806663513184,
      "learning_rate": 9.804776195510699e-05,
      "loss": 0.24905743598937988,
      "memory(GiB)": 61.91,
      "step": 10415,
      "token_acc": 0.9297124600638977,
      "train_speed(iter/s)": 1.506741
    },
    {
      "epoch": 0.44642474615483485,
      "grad_norm": 0.3555503785610199,
      "learning_rate": 9.804589936569055e-05,
      "loss": 0.4679290294647217,
      "memory(GiB)": 61.91,
      "step": 10420,
      "token_acc": 0.9037037037037037,
      "train_speed(iter/s)": 1.506768
    },
    {
      "epoch": 0.4466389614840838,
      "grad_norm": 2.41595721244812,
      "learning_rate": 9.804403590587758e-05,
      "loss": 0.25032830238342285,
      "memory(GiB)": 61.91,
      "step": 10425,
      "token_acc": 0.9464882943143813,
      "train_speed(iter/s)": 1.506727
    },
    {
      "epoch": 0.44685317681333275,
      "grad_norm": 2.582745313644409,
      "learning_rate": 9.804217157570184e-05,
      "loss": 0.3428165912628174,
      "memory(GiB)": 61.91,
      "step": 10430,
      "token_acc": 0.9154929577464789,
      "train_speed(iter/s)": 1.506694
    },
    {
      "epoch": 0.44706739214258173,
      "grad_norm": 6.5446014404296875,
      "learning_rate": 9.804030637519708e-05,
      "loss": 0.23604507446289064,
      "memory(GiB)": 61.91,
      "step": 10435,
      "token_acc": 0.9391534391534392,
      "train_speed(iter/s)": 1.506655
    },
    {
      "epoch": 0.4472816074718307,
      "grad_norm": 3.8948042392730713,
      "learning_rate": 9.803844030439711e-05,
      "loss": 0.4295806884765625,
      "memory(GiB)": 61.91,
      "step": 10440,
      "token_acc": 0.9022082018927445,
      "train_speed(iter/s)": 1.506786
    },
    {
      "epoch": 0.44749582280107963,
      "grad_norm": 1.1619501113891602,
      "learning_rate": 9.803657336333574e-05,
      "loss": 0.3608191251754761,
      "memory(GiB)": 61.91,
      "step": 10445,
      "token_acc": 0.917981072555205,
      "train_speed(iter/s)": 1.506719
    },
    {
      "epoch": 0.4477100381303286,
      "grad_norm": 1.391656517982483,
      "learning_rate": 9.803470555204676e-05,
      "loss": 0.4493855953216553,
      "memory(GiB)": 61.91,
      "step": 10450,
      "token_acc": 0.9014492753623189,
      "train_speed(iter/s)": 1.50671
    },
    {
      "epoch": 0.4479242534595776,
      "grad_norm": 3.7088119983673096,
      "learning_rate": 9.803283687056404e-05,
      "loss": 0.4485030651092529,
      "memory(GiB)": 61.91,
      "step": 10455,
      "token_acc": 0.9038461538461539,
      "train_speed(iter/s)": 1.506641
    },
    {
      "epoch": 0.4481384687888265,
      "grad_norm": 3.627711534500122,
      "learning_rate": 9.803096731892142e-05,
      "loss": 0.3340435028076172,
      "memory(GiB)": 61.91,
      "step": 10460,
      "token_acc": 0.921875,
      "train_speed(iter/s)": 1.506665
    },
    {
      "epoch": 0.4483526841180755,
      "grad_norm": 4.415846824645996,
      "learning_rate": 9.802909689715278e-05,
      "loss": 0.437451696395874,
      "memory(GiB)": 61.91,
      "step": 10465,
      "token_acc": 0.9206896551724137,
      "train_speed(iter/s)": 1.506807
    },
    {
      "epoch": 0.4485668994473245,
      "grad_norm": 2.820772886276245,
      "learning_rate": 9.802722560529199e-05,
      "loss": 0.45885496139526366,
      "memory(GiB)": 61.91,
      "step": 10470,
      "token_acc": 0.9128630705394191,
      "train_speed(iter/s)": 1.506773
    },
    {
      "epoch": 0.4487811147765734,
      "grad_norm": 2.9628384113311768,
      "learning_rate": 9.802535344337296e-05,
      "loss": 0.20114028453826904,
      "memory(GiB)": 61.91,
      "step": 10475,
      "token_acc": 0.9511278195488722,
      "train_speed(iter/s)": 1.506768
    },
    {
      "epoch": 0.4489953301058224,
      "grad_norm": 3.156007766723633,
      "learning_rate": 9.80234804114296e-05,
      "loss": 0.5338842391967773,
      "memory(GiB)": 61.91,
      "step": 10480,
      "token_acc": 0.8885017421602788,
      "train_speed(iter/s)": 1.506801
    },
    {
      "epoch": 0.44920954543507136,
      "grad_norm": 2.763643264770508,
      "learning_rate": 9.802160650949584e-05,
      "loss": 0.3767467260360718,
      "memory(GiB)": 61.91,
      "step": 10485,
      "token_acc": 0.9122257053291536,
      "train_speed(iter/s)": 1.506803
    },
    {
      "epoch": 0.4494237607643203,
      "grad_norm": 4.43600606918335,
      "learning_rate": 9.801973173760562e-05,
      "loss": 0.46334428787231446,
      "memory(GiB)": 61.91,
      "step": 10490,
      "token_acc": 0.8898809523809523,
      "train_speed(iter/s)": 1.50686
    },
    {
      "epoch": 0.44963797609356926,
      "grad_norm": 1.094356894493103,
      "learning_rate": 9.801785609579292e-05,
      "loss": 0.2921835660934448,
      "memory(GiB)": 61.91,
      "step": 10495,
      "token_acc": 0.9283387622149837,
      "train_speed(iter/s)": 1.506847
    },
    {
      "epoch": 0.44985219142281824,
      "grad_norm": 3.7235398292541504,
      "learning_rate": 9.801597958409172e-05,
      "loss": 0.31828458309173585,
      "memory(GiB)": 61.91,
      "step": 10500,
      "token_acc": 0.9274193548387096,
      "train_speed(iter/s)": 1.506816
    },
    {
      "epoch": 0.44985219142281824,
      "eval_loss": 2.4952213764190674,
      "eval_runtime": 12.456,
      "eval_samples_per_second": 8.028,
      "eval_steps_per_second": 8.028,
      "eval_token_acc": 0.4251412429378531,
      "step": 10500
    },
    {
      "epoch": 0.45006640675206716,
      "grad_norm": 4.398873805999756,
      "learning_rate": 9.8014102202536e-05,
      "loss": 0.26111912727355957,
      "memory(GiB)": 61.91,
      "step": 10505,
      "token_acc": 0.581441263573544,
      "train_speed(iter/s)": 1.504005
    },
    {
      "epoch": 0.45028062208131614,
      "grad_norm": 2.1144871711730957,
      "learning_rate": 9.801222395115976e-05,
      "loss": 0.3501842498779297,
      "memory(GiB)": 61.91,
      "step": 10510,
      "token_acc": 0.9151515151515152,
      "train_speed(iter/s)": 1.503997
    },
    {
      "epoch": 0.4504948374105651,
      "grad_norm": 2.0323758125305176,
      "learning_rate": 9.801034482999707e-05,
      "loss": 0.39953956604003904,
      "memory(GiB)": 61.91,
      "step": 10515,
      "token_acc": 0.889967637540453,
      "train_speed(iter/s)": 1.504068
    },
    {
      "epoch": 0.45070905273981404,
      "grad_norm": 1.715956449508667,
      "learning_rate": 9.800846483908195e-05,
      "loss": 0.3058905124664307,
      "memory(GiB)": 61.91,
      "step": 10520,
      "token_acc": 0.9385665529010239,
      "train_speed(iter/s)": 1.504062
    },
    {
      "epoch": 0.450923268069063,
      "grad_norm": 3.091902256011963,
      "learning_rate": 9.800658397844844e-05,
      "loss": 0.4938746452331543,
      "memory(GiB)": 61.91,
      "step": 10525,
      "token_acc": 0.8986486486486487,
      "train_speed(iter/s)": 1.504172
    },
    {
      "epoch": 0.451137483398312,
      "grad_norm": 3.273632287979126,
      "learning_rate": 9.800470224813064e-05,
      "loss": 0.5177756786346436,
      "memory(GiB)": 61.91,
      "step": 10530,
      "token_acc": 0.8958333333333334,
      "train_speed(iter/s)": 1.504315
    },
    {
      "epoch": 0.4513516987275609,
      "grad_norm": 0.5889707207679749,
      "learning_rate": 9.80028196481626e-05,
      "loss": 0.1466607093811035,
      "memory(GiB)": 61.91,
      "step": 10535,
      "token_acc": 0.959375,
      "train_speed(iter/s)": 1.504286
    },
    {
      "epoch": 0.4515659140568099,
      "grad_norm": 1.571751356124878,
      "learning_rate": 9.800093617857846e-05,
      "loss": 0.2921424627304077,
      "memory(GiB)": 61.91,
      "step": 10540,
      "token_acc": 0.9384057971014492,
      "train_speed(iter/s)": 1.504292
    },
    {
      "epoch": 0.4517801293860589,
      "grad_norm": 1.7647569179534912,
      "learning_rate": 9.799905183941236e-05,
      "loss": 0.3393446922302246,
      "memory(GiB)": 61.91,
      "step": 10545,
      "token_acc": 0.9399293286219081,
      "train_speed(iter/s)": 1.504337
    },
    {
      "epoch": 0.4519943447153078,
      "grad_norm": 4.799156188964844,
      "learning_rate": 9.799716663069838e-05,
      "loss": 0.4347689151763916,
      "memory(GiB)": 61.91,
      "step": 10550,
      "token_acc": 0.9017543859649123,
      "train_speed(iter/s)": 1.504405
    },
    {
      "epoch": 0.4522085600445568,
      "grad_norm": 2.6664297580718994,
      "learning_rate": 9.799528055247071e-05,
      "loss": 0.2719453811645508,
      "memory(GiB)": 61.91,
      "step": 10555,
      "token_acc": 0.9566563467492261,
      "train_speed(iter/s)": 1.504409
    },
    {
      "epoch": 0.45242277537380576,
      "grad_norm": 1.509096622467041,
      "learning_rate": 9.799339360476352e-05,
      "loss": 0.38424179553985593,
      "memory(GiB)": 61.91,
      "step": 10560,
      "token_acc": 0.9135338345864662,
      "train_speed(iter/s)": 1.50447
    },
    {
      "epoch": 0.4526369907030547,
      "grad_norm": 3.2496020793914795,
      "learning_rate": 9.799150578761098e-05,
      "loss": 0.3456047534942627,
      "memory(GiB)": 61.91,
      "step": 10565,
      "token_acc": 0.9243027888446215,
      "train_speed(iter/s)": 1.504448
    },
    {
      "epoch": 0.45285120603230367,
      "grad_norm": 1.9822664260864258,
      "learning_rate": 9.798961710104728e-05,
      "loss": 0.3626154661178589,
      "memory(GiB)": 61.91,
      "step": 10570,
      "token_acc": 0.9370629370629371,
      "train_speed(iter/s)": 1.504515
    },
    {
      "epoch": 0.45306542136155264,
      "grad_norm": 4.577199459075928,
      "learning_rate": 9.798772754510666e-05,
      "loss": 0.39915966987609863,
      "memory(GiB)": 61.91,
      "step": 10575,
      "token_acc": 0.9003322259136213,
      "train_speed(iter/s)": 1.504465
    },
    {
      "epoch": 0.45327963669080157,
      "grad_norm": 4.124240875244141,
      "learning_rate": 9.798583711982332e-05,
      "loss": 0.39151668548583984,
      "memory(GiB)": 61.91,
      "step": 10580,
      "token_acc": 0.9075342465753424,
      "train_speed(iter/s)": 1.50452
    },
    {
      "epoch": 0.45349385202005055,
      "grad_norm": 2.9387259483337402,
      "learning_rate": 9.798394582523154e-05,
      "loss": 0.4705965042114258,
      "memory(GiB)": 61.91,
      "step": 10585,
      "token_acc": 0.9235474006116208,
      "train_speed(iter/s)": 1.504472
    },
    {
      "epoch": 0.4537080673492995,
      "grad_norm": 1.9763673543930054,
      "learning_rate": 9.798205366136558e-05,
      "loss": 0.5479199409484863,
      "memory(GiB)": 61.91,
      "step": 10590,
      "token_acc": 0.8930817610062893,
      "train_speed(iter/s)": 1.504585
    },
    {
      "epoch": 0.45392228267854845,
      "grad_norm": 1.0732959508895874,
      "learning_rate": 9.79801606282597e-05,
      "loss": 0.423629903793335,
      "memory(GiB)": 61.91,
      "step": 10595,
      "token_acc": 0.9094076655052264,
      "train_speed(iter/s)": 1.50458
    },
    {
      "epoch": 0.45413649800779743,
      "grad_norm": 1.7126439809799194,
      "learning_rate": 9.797826672594819e-05,
      "loss": 0.22223351001739503,
      "memory(GiB)": 61.91,
      "step": 10600,
      "token_acc": 0.9504132231404959,
      "train_speed(iter/s)": 1.504603
    },
    {
      "epoch": 0.4543507133370464,
      "grad_norm": 2.4809999465942383,
      "learning_rate": 9.797637195446538e-05,
      "loss": 0.3199489116668701,
      "memory(GiB)": 61.91,
      "step": 10605,
      "token_acc": 0.9297752808988764,
      "train_speed(iter/s)": 1.504577
    },
    {
      "epoch": 0.4545649286662954,
      "grad_norm": 2.924457311630249,
      "learning_rate": 9.797447631384559e-05,
      "loss": 0.23085687160491944,
      "memory(GiB)": 61.91,
      "step": 10610,
      "token_acc": 0.9553264604810997,
      "train_speed(iter/s)": 1.504554
    },
    {
      "epoch": 0.4547791439955443,
      "grad_norm": 3.415520429611206,
      "learning_rate": 9.797257980412316e-05,
      "loss": 0.19014124870300292,
      "memory(GiB)": 61.91,
      "step": 10615,
      "token_acc": 0.9548872180451128,
      "train_speed(iter/s)": 1.504516
    },
    {
      "epoch": 0.4549933593247933,
      "grad_norm": 1.4875752925872803,
      "learning_rate": 9.797068242533243e-05,
      "loss": 0.4415329933166504,
      "memory(GiB)": 61.91,
      "step": 10620,
      "token_acc": 0.8992805755395683,
      "train_speed(iter/s)": 1.504438
    },
    {
      "epoch": 0.45520757465404227,
      "grad_norm": 5.121063232421875,
      "learning_rate": 9.79687841775078e-05,
      "loss": 0.4747471809387207,
      "memory(GiB)": 61.91,
      "step": 10625,
      "token_acc": 0.8873720136518771,
      "train_speed(iter/s)": 1.504483
    },
    {
      "epoch": 0.4554217899832912,
      "grad_norm": 2.759798288345337,
      "learning_rate": 9.796688506068364e-05,
      "loss": 0.4551729679107666,
      "memory(GiB)": 61.91,
      "step": 10630,
      "token_acc": 0.8989071038251366,
      "train_speed(iter/s)": 1.504527
    },
    {
      "epoch": 0.45563600531254017,
      "grad_norm": 1.0758121013641357,
      "learning_rate": 9.796498507489436e-05,
      "loss": 0.1609519124031067,
      "memory(GiB)": 61.91,
      "step": 10635,
      "token_acc": 0.9583333333333334,
      "train_speed(iter/s)": 1.504554
    },
    {
      "epoch": 0.45585022064178915,
      "grad_norm": 4.402721881866455,
      "learning_rate": 9.79630842201744e-05,
      "loss": 0.4950451374053955,
      "memory(GiB)": 61.91,
      "step": 10640,
      "token_acc": 0.8959731543624161,
      "train_speed(iter/s)": 1.504592
    },
    {
      "epoch": 0.4560644359710381,
      "grad_norm": 3.6649341583251953,
      "learning_rate": 9.796118249655814e-05,
      "loss": 0.3835118055343628,
      "memory(GiB)": 61.91,
      "step": 10645,
      "token_acc": 0.921311475409836,
      "train_speed(iter/s)": 1.504562
    },
    {
      "epoch": 0.45627865130028705,
      "grad_norm": 1.6279388666152954,
      "learning_rate": 9.795927990408009e-05,
      "loss": 0.5677229881286621,
      "memory(GiB)": 61.91,
      "step": 10650,
      "token_acc": 0.8914956011730205,
      "train_speed(iter/s)": 1.504517
    },
    {
      "epoch": 0.45649286662953603,
      "grad_norm": 1.250881552696228,
      "learning_rate": 9.79573764427747e-05,
      "loss": 0.3676487922668457,
      "memory(GiB)": 61.91,
      "step": 10655,
      "token_acc": 0.9397163120567376,
      "train_speed(iter/s)": 1.504513
    },
    {
      "epoch": 0.45670708195878496,
      "grad_norm": 4.570855140686035,
      "learning_rate": 9.795547211267643e-05,
      "loss": 0.19411447048187255,
      "memory(GiB)": 61.91,
      "step": 10660,
      "token_acc": 0.9595588235294118,
      "train_speed(iter/s)": 1.504504
    },
    {
      "epoch": 0.45692129728803393,
      "grad_norm": 1.0910184383392334,
      "learning_rate": 9.795356691381983e-05,
      "loss": 0.3593562364578247,
      "memory(GiB)": 61.91,
      "step": 10665,
      "token_acc": 0.9363057324840764,
      "train_speed(iter/s)": 1.504475
    },
    {
      "epoch": 0.4571355126172829,
      "grad_norm": 1.1544795036315918,
      "learning_rate": 9.795166084623934e-05,
      "loss": 0.1543000817298889,
      "memory(GiB)": 61.91,
      "step": 10670,
      "token_acc": 0.9704918032786886,
      "train_speed(iter/s)": 1.504476
    },
    {
      "epoch": 0.45734972794653184,
      "grad_norm": 2.202618360519409,
      "learning_rate": 9.794975390996956e-05,
      "loss": 0.4586010932922363,
      "memory(GiB)": 61.91,
      "step": 10675,
      "token_acc": 0.9119496855345912,
      "train_speed(iter/s)": 1.504516
    },
    {
      "epoch": 0.4575639432757808,
      "grad_norm": 4.257575511932373,
      "learning_rate": 9.7947846105045e-05,
      "loss": 0.5711541175842285,
      "memory(GiB)": 61.91,
      "step": 10680,
      "token_acc": 0.8825910931174089,
      "train_speed(iter/s)": 1.504524
    },
    {
      "epoch": 0.4577781586050298,
      "grad_norm": 1.591488003730774,
      "learning_rate": 9.794593743150022e-05,
      "loss": 0.33921175003051757,
      "memory(GiB)": 61.91,
      "step": 10685,
      "token_acc": 0.9230769230769231,
      "train_speed(iter/s)": 1.504562
    },
    {
      "epoch": 0.4579923739342787,
      "grad_norm": 3.952836751937866,
      "learning_rate": 9.794402788936983e-05,
      "loss": 0.5442875385284424,
      "memory(GiB)": 61.91,
      "step": 10690,
      "token_acc": 0.8875502008032129,
      "train_speed(iter/s)": 1.50455
    },
    {
      "epoch": 0.4582065892635277,
      "grad_norm": 4.114651679992676,
      "learning_rate": 9.794211747868838e-05,
      "loss": 0.9469118118286133,
      "memory(GiB)": 61.91,
      "step": 10695,
      "token_acc": 0.8166189111747851,
      "train_speed(iter/s)": 1.504526
    },
    {
      "epoch": 0.4584208045927767,
      "grad_norm": 9.232556343078613,
      "learning_rate": 9.79402061994905e-05,
      "loss": 0.5873137474060058,
      "memory(GiB)": 61.91,
      "step": 10700,
      "token_acc": 0.8844765342960289,
      "train_speed(iter/s)": 1.504506
    },
    {
      "epoch": 0.4586350199220256,
      "grad_norm": 3.37101149559021,
      "learning_rate": 9.793829405181081e-05,
      "loss": 0.2145254373550415,
      "memory(GiB)": 61.91,
      "step": 10705,
      "token_acc": 0.97,
      "train_speed(iter/s)": 1.50445
    },
    {
      "epoch": 0.4588492352512746,
      "grad_norm": 1.2563836574554443,
      "learning_rate": 9.793638103568397e-05,
      "loss": 0.493220853805542,
      "memory(GiB)": 61.91,
      "step": 10710,
      "token_acc": 0.909375,
      "train_speed(iter/s)": 1.504435
    },
    {
      "epoch": 0.45906345058052356,
      "grad_norm": 4.284435749053955,
      "learning_rate": 9.79344671511446e-05,
      "loss": 0.3350714683532715,
      "memory(GiB)": 61.91,
      "step": 10715,
      "token_acc": 0.9243421052631579,
      "train_speed(iter/s)": 1.504416
    },
    {
      "epoch": 0.4592776659097725,
      "grad_norm": 3.2404279708862305,
      "learning_rate": 9.79325523982274e-05,
      "loss": 0.19627162218093872,
      "memory(GiB)": 61.91,
      "step": 10720,
      "token_acc": 0.9551282051282052,
      "train_speed(iter/s)": 1.504378
    },
    {
      "epoch": 0.45949188123902146,
      "grad_norm": 4.492916584014893,
      "learning_rate": 9.793063677696706e-05,
      "loss": 0.3719411134719849,
      "memory(GiB)": 61.91,
      "step": 10725,
      "token_acc": 0.9157509157509157,
      "train_speed(iter/s)": 1.504372
    },
    {
      "epoch": 0.45970609656827044,
      "grad_norm": 3.3882462978363037,
      "learning_rate": 9.792872028739826e-05,
      "loss": 0.542146110534668,
      "memory(GiB)": 61.91,
      "step": 10730,
      "token_acc": 0.8885245901639345,
      "train_speed(iter/s)": 1.504299
    },
    {
      "epoch": 0.45992031189751936,
      "grad_norm": 5.002381324768066,
      "learning_rate": 9.792680292955571e-05,
      "loss": 0.2555576801300049,
      "memory(GiB)": 61.91,
      "step": 10735,
      "token_acc": 0.9464882943143813,
      "train_speed(iter/s)": 1.50424
    },
    {
      "epoch": 0.46013452722676834,
      "grad_norm": 5.066009998321533,
      "learning_rate": 9.792488470347421e-05,
      "loss": 0.4372603416442871,
      "memory(GiB)": 61.91,
      "step": 10740,
      "token_acc": 0.9215686274509803,
      "train_speed(iter/s)": 1.50423
    },
    {
      "epoch": 0.4603487425560173,
      "grad_norm": 3.823007345199585,
      "learning_rate": 9.792296560918844e-05,
      "loss": 0.43454594612121583,
      "memory(GiB)": 61.91,
      "step": 10745,
      "token_acc": 0.9097222222222222,
      "train_speed(iter/s)": 1.504244
    },
    {
      "epoch": 0.46056295788526624,
      "grad_norm": 4.247657775878906,
      "learning_rate": 9.792104564673319e-05,
      "loss": 0.4295774459838867,
      "memory(GiB)": 61.91,
      "step": 10750,
      "token_acc": 0.9125874125874126,
      "train_speed(iter/s)": 1.504248
    },
    {
      "epoch": 0.4607771732145152,
      "grad_norm": 4.388004779815674,
      "learning_rate": 9.791912481614324e-05,
      "loss": 0.1938075065612793,
      "memory(GiB)": 61.91,
      "step": 10755,
      "token_acc": 0.956,
      "train_speed(iter/s)": 1.504241
    },
    {
      "epoch": 0.4609913885437642,
      "grad_norm": 5.581959247589111,
      "learning_rate": 9.791720311745342e-05,
      "loss": 0.173551344871521,
      "memory(GiB)": 61.91,
      "step": 10760,
      "token_acc": 0.9644670050761421,
      "train_speed(iter/s)": 1.50431
    },
    {
      "epoch": 0.4612056038730131,
      "grad_norm": 7.675710678100586,
      "learning_rate": 9.791528055069849e-05,
      "loss": 0.47142734527587893,
      "memory(GiB)": 61.91,
      "step": 10765,
      "token_acc": 0.8860759493670886,
      "train_speed(iter/s)": 1.504317
    },
    {
      "epoch": 0.4614198192022621,
      "grad_norm": 1.1534159183502197,
      "learning_rate": 9.791335711591332e-05,
      "loss": 0.29250483512878417,
      "memory(GiB)": 61.91,
      "step": 10770,
      "token_acc": 0.9215017064846417,
      "train_speed(iter/s)": 1.504372
    },
    {
      "epoch": 0.4616340345315111,
      "grad_norm": 3.021414279937744,
      "learning_rate": 9.791143281313274e-05,
      "loss": 0.3430425405502319,
      "memory(GiB)": 61.91,
      "step": 10775,
      "token_acc": 0.9275862068965517,
      "train_speed(iter/s)": 1.504361
    },
    {
      "epoch": 0.46184824986076006,
      "grad_norm": 3.635462522506714,
      "learning_rate": 9.79095076423916e-05,
      "loss": 0.5166188240051269,
      "memory(GiB)": 61.91,
      "step": 10780,
      "token_acc": 0.8721311475409836,
      "train_speed(iter/s)": 1.504316
    },
    {
      "epoch": 0.462062465190009,
      "grad_norm": 0.1785021424293518,
      "learning_rate": 9.790758160372479e-05,
      "loss": 0.209753155708313,
      "memory(GiB)": 61.91,
      "step": 10785,
      "token_acc": 0.9485294117647058,
      "train_speed(iter/s)": 1.504315
    },
    {
      "epoch": 0.46227668051925797,
      "grad_norm": 3.907963752746582,
      "learning_rate": 9.79056546971672e-05,
      "loss": 0.31595139503479003,
      "memory(GiB)": 61.91,
      "step": 10790,
      "token_acc": 0.9233333333333333,
      "train_speed(iter/s)": 1.504304
    },
    {
      "epoch": 0.46249089584850694,
      "grad_norm": 1.8917311429977417,
      "learning_rate": 9.790372692275374e-05,
      "loss": 0.16410307884216307,
      "memory(GiB)": 61.91,
      "step": 10795,
      "token_acc": 0.9691119691119691,
      "train_speed(iter/s)": 1.504277
    },
    {
      "epoch": 0.46270511117775587,
      "grad_norm": 2.0877163410186768,
      "learning_rate": 9.790179828051931e-05,
      "loss": 0.17526519298553467,
      "memory(GiB)": 61.91,
      "step": 10800,
      "token_acc": 0.95578231292517,
      "train_speed(iter/s)": 1.504239
    },
    {
      "epoch": 0.46291932650700485,
      "grad_norm": 1.8776946067810059,
      "learning_rate": 9.789986877049888e-05,
      "loss": 0.4406127452850342,
      "memory(GiB)": 61.91,
      "step": 10805,
      "token_acc": 0.9100719424460432,
      "train_speed(iter/s)": 1.504283
    },
    {
      "epoch": 0.4631335418362538,
      "grad_norm": 2.41778564453125,
      "learning_rate": 9.78979383927274e-05,
      "loss": 0.19430677890777587,
      "memory(GiB)": 61.91,
      "step": 10810,
      "token_acc": 0.9678571428571429,
      "train_speed(iter/s)": 1.504279
    },
    {
      "epoch": 0.46334775716550275,
      "grad_norm": 8.704602241516113,
      "learning_rate": 9.789600714723983e-05,
      "loss": 0.5961216449737549,
      "memory(GiB)": 61.91,
      "step": 10815,
      "token_acc": 0.8925925925925926,
      "train_speed(iter/s)": 1.504245
    },
    {
      "epoch": 0.46356197249475173,
      "grad_norm": 2.2799153327941895,
      "learning_rate": 9.789407503407115e-05,
      "loss": 0.2476491689682007,
      "memory(GiB)": 61.91,
      "step": 10820,
      "token_acc": 0.941747572815534,
      "train_speed(iter/s)": 1.504233
    },
    {
      "epoch": 0.4637761878240007,
      "grad_norm": 1.5535821914672852,
      "learning_rate": 9.789214205325638e-05,
      "loss": 0.45483851432800293,
      "memory(GiB)": 61.91,
      "step": 10825,
      "token_acc": 0.9153094462540716,
      "train_speed(iter/s)": 1.504232
    },
    {
      "epoch": 0.46399040315324963,
      "grad_norm": 3.8337602615356445,
      "learning_rate": 9.789020820483055e-05,
      "loss": 0.2660163640975952,
      "memory(GiB)": 61.91,
      "step": 10830,
      "token_acc": 0.9381818181818182,
      "train_speed(iter/s)": 1.50422
    },
    {
      "epoch": 0.4642046184824986,
      "grad_norm": 1.8263661861419678,
      "learning_rate": 9.788827348882865e-05,
      "loss": 0.3584278106689453,
      "memory(GiB)": 61.91,
      "step": 10835,
      "token_acc": 0.9233716475095786,
      "train_speed(iter/s)": 1.504234
    },
    {
      "epoch": 0.4644188338117476,
      "grad_norm": 1.652527093887329,
      "learning_rate": 9.788633790528576e-05,
      "loss": 0.27062201499938965,
      "memory(GiB)": 61.91,
      "step": 10840,
      "token_acc": 0.9347079037800687,
      "train_speed(iter/s)": 1.504239
    },
    {
      "epoch": 0.4646330491409965,
      "grad_norm": 1.4574462175369263,
      "learning_rate": 9.788440145423695e-05,
      "loss": 0.2535589933395386,
      "memory(GiB)": 61.91,
      "step": 10845,
      "token_acc": 0.9528985507246377,
      "train_speed(iter/s)": 1.504259
    },
    {
      "epoch": 0.4648472644702455,
      "grad_norm": 4.577454566955566,
      "learning_rate": 9.788246413571727e-05,
      "loss": 0.7070561408996582,
      "memory(GiB)": 61.91,
      "step": 10850,
      "token_acc": 0.8576512455516014,
      "train_speed(iter/s)": 1.504308
    },
    {
      "epoch": 0.46506147979949447,
      "grad_norm": 2.851728916168213,
      "learning_rate": 9.788052594976184e-05,
      "loss": 0.4174467086791992,
      "memory(GiB)": 61.91,
      "step": 10855,
      "token_acc": 0.881619937694704,
      "train_speed(iter/s)": 1.504243
    },
    {
      "epoch": 0.4652756951287434,
      "grad_norm": 0.41548022627830505,
      "learning_rate": 9.787858689640577e-05,
      "loss": 0.30965867042541506,
      "memory(GiB)": 61.91,
      "step": 10860,
      "token_acc": 0.9430379746835443,
      "train_speed(iter/s)": 1.504231
    },
    {
      "epoch": 0.4654899104579924,
      "grad_norm": 2.009511947631836,
      "learning_rate": 9.787664697568418e-05,
      "loss": 0.37451269626617434,
      "memory(GiB)": 61.91,
      "step": 10865,
      "token_acc": 0.9108527131782945,
      "train_speed(iter/s)": 1.504223
    },
    {
      "epoch": 0.46570412578724135,
      "grad_norm": 2.6593475341796875,
      "learning_rate": 9.787470618763222e-05,
      "loss": 0.2738472938537598,
      "memory(GiB)": 61.91,
      "step": 10870,
      "token_acc": 0.9492537313432836,
      "train_speed(iter/s)": 1.504205
    },
    {
      "epoch": 0.4659183411164903,
      "grad_norm": 5.651359558105469,
      "learning_rate": 9.787276453228504e-05,
      "loss": 0.26958889961242677,
      "memory(GiB)": 61.91,
      "step": 10875,
      "token_acc": 0.9403508771929825,
      "train_speed(iter/s)": 1.504219
    },
    {
      "epoch": 0.46613255644573925,
      "grad_norm": 2.792630434036255,
      "learning_rate": 9.787082200967784e-05,
      "loss": 0.6035027027130127,
      "memory(GiB)": 61.91,
      "step": 10880,
      "token_acc": 0.8541033434650456,
      "train_speed(iter/s)": 1.504306
    },
    {
      "epoch": 0.46634677177498823,
      "grad_norm": 2.221820592880249,
      "learning_rate": 9.786887861984578e-05,
      "loss": 0.3846782684326172,
      "memory(GiB)": 61.91,
      "step": 10885,
      "token_acc": 0.93,
      "train_speed(iter/s)": 1.504268
    },
    {
      "epoch": 0.46656098710423716,
      "grad_norm": 7.356494903564453,
      "learning_rate": 9.786693436282408e-05,
      "loss": 0.31231353282928465,
      "memory(GiB)": 61.91,
      "step": 10890,
      "token_acc": 0.9288256227758007,
      "train_speed(iter/s)": 1.50425
    },
    {
      "epoch": 0.46677520243348614,
      "grad_norm": 0.09517529606819153,
      "learning_rate": 9.786498923864796e-05,
      "loss": 0.31556365489959715,
      "memory(GiB)": 61.91,
      "step": 10895,
      "token_acc": 0.9366666666666666,
      "train_speed(iter/s)": 1.504273
    },
    {
      "epoch": 0.4669894177627351,
      "grad_norm": 2.6622560024261475,
      "learning_rate": 9.786304324735267e-05,
      "loss": 0.27003846168518064,
      "memory(GiB)": 61.91,
      "step": 10900,
      "token_acc": 0.9391891891891891,
      "train_speed(iter/s)": 1.504238
    },
    {
      "epoch": 0.46720363309198404,
      "grad_norm": 3.372133731842041,
      "learning_rate": 9.786109638897344e-05,
      "loss": 0.8242011070251465,
      "memory(GiB)": 61.91,
      "step": 10905,
      "token_acc": 0.8409785932721713,
      "train_speed(iter/s)": 1.504254
    },
    {
      "epoch": 0.467417848421233,
      "grad_norm": 1.6255995035171509,
      "learning_rate": 9.785914866354556e-05,
      "loss": 0.5057673454284668,
      "memory(GiB)": 61.91,
      "step": 10910,
      "token_acc": 0.8931750741839762,
      "train_speed(iter/s)": 1.504227
    },
    {
      "epoch": 0.467632063750482,
      "grad_norm": 3.3229823112487793,
      "learning_rate": 9.78572000711043e-05,
      "loss": 0.17411328554153443,
      "memory(GiB)": 61.91,
      "step": 10915,
      "token_acc": 0.9572368421052632,
      "train_speed(iter/s)": 1.504286
    },
    {
      "epoch": 0.4678462790797309,
      "grad_norm": 0.8872343301773071,
      "learning_rate": 9.785525061168497e-05,
      "loss": 0.3975203514099121,
      "memory(GiB)": 61.91,
      "step": 10920,
      "token_acc": 0.9340659340659341,
      "train_speed(iter/s)": 1.504331
    },
    {
      "epoch": 0.4680604944089799,
      "grad_norm": 0.7639049887657166,
      "learning_rate": 9.785330028532288e-05,
      "loss": 0.13306140899658203,
      "memory(GiB)": 61.91,
      "step": 10925,
      "token_acc": 0.9651162790697675,
      "train_speed(iter/s)": 1.50431
    },
    {
      "epoch": 0.4682747097382289,
      "grad_norm": 1.3761647939682007,
      "learning_rate": 9.785134909205337e-05,
      "loss": 0.49283771514892577,
      "memory(GiB)": 61.91,
      "step": 10930,
      "token_acc": 0.8781163434903048,
      "train_speed(iter/s)": 1.504325
    },
    {
      "epoch": 0.4684889250674778,
      "grad_norm": 1.8667527437210083,
      "learning_rate": 9.784939703191179e-05,
      "loss": 0.3466392993927002,
      "memory(GiB)": 61.91,
      "step": 10935,
      "token_acc": 0.9331210191082803,
      "train_speed(iter/s)": 1.504403
    },
    {
      "epoch": 0.4687031403967268,
      "grad_norm": 2.496950149536133,
      "learning_rate": 9.784744410493348e-05,
      "loss": 0.3044441699981689,
      "memory(GiB)": 61.91,
      "step": 10940,
      "token_acc": 0.9216867469879518,
      "train_speed(iter/s)": 1.504469
    },
    {
      "epoch": 0.46891735572597576,
      "grad_norm": 3.2126963138580322,
      "learning_rate": 9.784549031115384e-05,
      "loss": 0.5388558387756348,
      "memory(GiB)": 61.91,
      "step": 10945,
      "token_acc": 0.8827586206896552,
      "train_speed(iter/s)": 1.504447
    },
    {
      "epoch": 0.46913157105522474,
      "grad_norm": 3.8872692584991455,
      "learning_rate": 9.784353565060826e-05,
      "loss": 0.6361990928649902,
      "memory(GiB)": 61.91,
      "step": 10950,
      "token_acc": 0.8758169934640523,
      "train_speed(iter/s)": 1.504507
    },
    {
      "epoch": 0.46934578638447366,
      "grad_norm": 4.456762313842773,
      "learning_rate": 9.784158012333216e-05,
      "loss": 0.624901294708252,
      "memory(GiB)": 61.91,
      "step": 10955,
      "token_acc": 0.8597014925373134,
      "train_speed(iter/s)": 1.504471
    },
    {
      "epoch": 0.46956000171372264,
      "grad_norm": 2.2355990409851074,
      "learning_rate": 9.783962372936095e-05,
      "loss": 0.36996748447418215,
      "memory(GiB)": 61.91,
      "step": 10960,
      "token_acc": 0.928125,
      "train_speed(iter/s)": 1.504468
    },
    {
      "epoch": 0.4697742170429716,
      "grad_norm": 7.941888809204102,
      "learning_rate": 9.783766646873008e-05,
      "loss": 0.48934016227722166,
      "memory(GiB)": 61.91,
      "step": 10965,
      "token_acc": 0.9237536656891495,
      "train_speed(iter/s)": 1.504517
    },
    {
      "epoch": 0.46998843237222054,
      "grad_norm": 4.916469097137451,
      "learning_rate": 9.7835708341475e-05,
      "loss": 0.3824016571044922,
      "memory(GiB)": 61.91,
      "step": 10970,
      "token_acc": 0.9178571428571428,
      "train_speed(iter/s)": 1.504543
    },
    {
      "epoch": 0.4702026477014695,
      "grad_norm": 6.496818542480469,
      "learning_rate": 9.78337493476312e-05,
      "loss": 0.46321806907653806,
      "memory(GiB)": 61.91,
      "step": 10975,
      "token_acc": 0.9233333333333333,
      "train_speed(iter/s)": 1.504554
    },
    {
      "epoch": 0.4704168630307185,
      "grad_norm": 6.6948347091674805,
      "learning_rate": 9.783178948723415e-05,
      "loss": 0.40388102531433107,
      "memory(GiB)": 61.91,
      "step": 10980,
      "token_acc": 0.8922558922558923,
      "train_speed(iter/s)": 1.504521
    },
    {
      "epoch": 0.4706310783599674,
      "grad_norm": 4.823043346405029,
      "learning_rate": 9.782982876031938e-05,
      "loss": 0.648367166519165,
      "memory(GiB)": 61.91,
      "step": 10985,
      "token_acc": 0.8562300319488818,
      "train_speed(iter/s)": 1.504522
    },
    {
      "epoch": 0.4708452936892164,
      "grad_norm": 3.0667011737823486,
      "learning_rate": 9.782786716692239e-05,
      "loss": 0.27856969833374023,
      "memory(GiB)": 61.91,
      "step": 10990,
      "token_acc": 0.940251572327044,
      "train_speed(iter/s)": 1.504516
    },
    {
      "epoch": 0.4710595090184654,
      "grad_norm": 5.844751834869385,
      "learning_rate": 9.782590470707871e-05,
      "loss": 0.7939065456390381,
      "memory(GiB)": 61.91,
      "step": 10995,
      "token_acc": 0.8211382113821138,
      "train_speed(iter/s)": 1.504481
    },
    {
      "epoch": 0.4712737243477143,
      "grad_norm": 1.5980963706970215,
      "learning_rate": 9.78239413808239e-05,
      "loss": 0.26999223232269287,
      "memory(GiB)": 61.91,
      "step": 11000,
      "token_acc": 0.9471830985915493,
      "train_speed(iter/s)": 1.504477
    },
    {
      "epoch": 0.4712737243477143,
      "eval_loss": 2.4674136638641357,
      "eval_runtime": 13.2051,
      "eval_samples_per_second": 7.573,
      "eval_steps_per_second": 7.573,
      "eval_token_acc": 0.45590062111801244,
      "step": 11000
    },
    {
      "epoch": 0.4714879396769633,
      "grad_norm": 3.831713914871216,
      "learning_rate": 9.782197718819352e-05,
      "loss": 0.8251922607421875,
      "memory(GiB)": 61.91,
      "step": 11005,
      "token_acc": 0.557347670250896,
      "train_speed(iter/s)": 1.50151
    },
    {
      "epoch": 0.47170215500621226,
      "grad_norm": 2.620090961456299,
      "learning_rate": 9.782001212922319e-05,
      "loss": 0.40419855117797854,
      "memory(GiB)": 61.91,
      "step": 11010,
      "token_acc": 0.91,
      "train_speed(iter/s)": 1.501491
    },
    {
      "epoch": 0.4719163703354612,
      "grad_norm": 4.481198310852051,
      "learning_rate": 9.781804620394847e-05,
      "loss": 0.6506732940673828,
      "memory(GiB)": 61.91,
      "step": 11015,
      "token_acc": 0.8674698795180723,
      "train_speed(iter/s)": 1.501554
    },
    {
      "epoch": 0.47213058566471017,
      "grad_norm": 3.915330648422241,
      "learning_rate": 9.781607941240498e-05,
      "loss": 0.5186079502105713,
      "memory(GiB)": 61.91,
      "step": 11020,
      "token_acc": 0.8885630498533724,
      "train_speed(iter/s)": 1.501534
    },
    {
      "epoch": 0.47234480099395915,
      "grad_norm": 2.1781411170959473,
      "learning_rate": 9.781411175462836e-05,
      "loss": 0.6258825778961181,
      "memory(GiB)": 61.91,
      "step": 11025,
      "token_acc": 0.8714285714285714,
      "train_speed(iter/s)": 1.501529
    },
    {
      "epoch": 0.47255901632320807,
      "grad_norm": 2.6776087284088135,
      "learning_rate": 9.781214323065426e-05,
      "loss": 0.33896970748901367,
      "memory(GiB)": 61.91,
      "step": 11030,
      "token_acc": 0.9390681003584229,
      "train_speed(iter/s)": 1.50157
    },
    {
      "epoch": 0.47277323165245705,
      "grad_norm": 3.3133506774902344,
      "learning_rate": 9.781017384051832e-05,
      "loss": 0.4567694664001465,
      "memory(GiB)": 61.91,
      "step": 11035,
      "token_acc": 0.9135338345864662,
      "train_speed(iter/s)": 1.501559
    },
    {
      "epoch": 0.47298744698170603,
      "grad_norm": 2.230670928955078,
      "learning_rate": 9.780820358425625e-05,
      "loss": 0.6396428108215332,
      "memory(GiB)": 61.91,
      "step": 11040,
      "token_acc": 0.8892857142857142,
      "train_speed(iter/s)": 1.501595
    },
    {
      "epoch": 0.47320166231095495,
      "grad_norm": 3.7043404579162598,
      "learning_rate": 9.780623246190371e-05,
      "loss": 0.41153564453125,
      "memory(GiB)": 61.91,
      "step": 11045,
      "token_acc": 0.9,
      "train_speed(iter/s)": 1.501578
    },
    {
      "epoch": 0.47341587764020393,
      "grad_norm": 5.23051118850708,
      "learning_rate": 9.780426047349642e-05,
      "loss": 0.6211215019226074,
      "memory(GiB)": 61.91,
      "step": 11050,
      "token_acc": 0.87,
      "train_speed(iter/s)": 1.501652
    },
    {
      "epoch": 0.4736300929694529,
      "grad_norm": 1.116700291633606,
      "learning_rate": 9.78022876190701e-05,
      "loss": 0.4593935489654541,
      "memory(GiB)": 61.91,
      "step": 11055,
      "token_acc": 0.9180327868852459,
      "train_speed(iter/s)": 1.501608
    },
    {
      "epoch": 0.47384430829870183,
      "grad_norm": 3.602081060409546,
      "learning_rate": 9.780031389866053e-05,
      "loss": 0.45543899536132815,
      "memory(GiB)": 61.91,
      "step": 11060,
      "token_acc": 0.9111111111111111,
      "train_speed(iter/s)": 1.501599
    },
    {
      "epoch": 0.4740585236279508,
      "grad_norm": 5.0756306648254395,
      "learning_rate": 9.77983393123034e-05,
      "loss": 0.6820398330688476,
      "memory(GiB)": 61.91,
      "step": 11065,
      "token_acc": 0.8614457831325302,
      "train_speed(iter/s)": 1.501597
    },
    {
      "epoch": 0.4742727389571998,
      "grad_norm": 2.0996296405792236,
      "learning_rate": 9.779636386003453e-05,
      "loss": 0.3295464992523193,
      "memory(GiB)": 61.91,
      "step": 11070,
      "token_acc": 0.9397163120567376,
      "train_speed(iter/s)": 1.501586
    },
    {
      "epoch": 0.4744869542864487,
      "grad_norm": 1.3629323244094849,
      "learning_rate": 9.77943875418897e-05,
      "loss": 0.28213043212890626,
      "memory(GiB)": 61.91,
      "step": 11075,
      "token_acc": 0.9311594202898551,
      "train_speed(iter/s)": 1.501556
    },
    {
      "epoch": 0.4747011696156977,
      "grad_norm": 1.9819992780685425,
      "learning_rate": 9.77924103579047e-05,
      "loss": 0.4748707294464111,
      "memory(GiB)": 61.91,
      "step": 11080,
      "token_acc": 0.9078498293515358,
      "train_speed(iter/s)": 1.501541
    },
    {
      "epoch": 0.4749153849449467,
      "grad_norm": 1.5666199922561646,
      "learning_rate": 9.779043230811534e-05,
      "loss": 0.3651329278945923,
      "memory(GiB)": 61.91,
      "step": 11085,
      "token_acc": 0.9078014184397163,
      "train_speed(iter/s)": 1.50165
    },
    {
      "epoch": 0.4751296002741956,
      "grad_norm": 2.9183390140533447,
      "learning_rate": 9.778845339255749e-05,
      "loss": 0.6057643413543701,
      "memory(GiB)": 61.91,
      "step": 11090,
      "token_acc": 0.8888888888888888,
      "train_speed(iter/s)": 1.501702
    },
    {
      "epoch": 0.4753438156034446,
      "grad_norm": 2.299323081970215,
      "learning_rate": 9.778647361126696e-05,
      "loss": 0.5313835144042969,
      "memory(GiB)": 61.91,
      "step": 11095,
      "token_acc": 0.8923611111111112,
      "train_speed(iter/s)": 1.501677
    },
    {
      "epoch": 0.47555803093269355,
      "grad_norm": 1.3721915483474731,
      "learning_rate": 9.778449296427962e-05,
      "loss": 0.2994457006454468,
      "memory(GiB)": 61.91,
      "step": 11100,
      "token_acc": 0.9385113268608414,
      "train_speed(iter/s)": 1.501658
    },
    {
      "epoch": 0.4757722462619425,
      "grad_norm": 4.524265766143799,
      "learning_rate": 9.778251145163139e-05,
      "loss": 0.6106863021850586,
      "memory(GiB)": 61.91,
      "step": 11105,
      "token_acc": 0.864406779661017,
      "train_speed(iter/s)": 1.501635
    },
    {
      "epoch": 0.47598646159119146,
      "grad_norm": 1.2149649858474731,
      "learning_rate": 9.778052907335814e-05,
      "loss": 0.5066669464111329,
      "memory(GiB)": 61.91,
      "step": 11110,
      "token_acc": 0.8871473354231975,
      "train_speed(iter/s)": 1.501617
    },
    {
      "epoch": 0.47620067692044044,
      "grad_norm": 2.8715381622314453,
      "learning_rate": 9.777854582949578e-05,
      "loss": 0.5982160568237305,
      "memory(GiB)": 61.91,
      "step": 11115,
      "token_acc": 0.8776119402985074,
      "train_speed(iter/s)": 1.501609
    },
    {
      "epoch": 0.4764148922496894,
      "grad_norm": 2.941422700881958,
      "learning_rate": 9.777656172008023e-05,
      "loss": 0.5240360260009765,
      "memory(GiB)": 61.91,
      "step": 11120,
      "token_acc": 0.902027027027027,
      "train_speed(iter/s)": 1.501573
    },
    {
      "epoch": 0.47662910757893834,
      "grad_norm": 2.3349595069885254,
      "learning_rate": 9.777457674514748e-05,
      "loss": 0.3661135911941528,
      "memory(GiB)": 61.91,
      "step": 11125,
      "token_acc": 0.9329073482428115,
      "train_speed(iter/s)": 1.501546
    },
    {
      "epoch": 0.4768433229081873,
      "grad_norm": 3.7229886054992676,
      "learning_rate": 9.777259090473341e-05,
      "loss": 0.6139730453491211,
      "memory(GiB)": 61.91,
      "step": 11130,
      "token_acc": 0.8793650793650793,
      "train_speed(iter/s)": 1.501619
    },
    {
      "epoch": 0.4770575382374363,
      "grad_norm": 3.4951014518737793,
      "learning_rate": 9.777060419887407e-05,
      "loss": 0.4089240074157715,
      "memory(GiB)": 61.91,
      "step": 11135,
      "token_acc": 0.9014598540145985,
      "train_speed(iter/s)": 1.501607
    },
    {
      "epoch": 0.4772717535666852,
      "grad_norm": 1.2809094190597534,
      "learning_rate": 9.776861662760541e-05,
      "loss": 0.36595497131347654,
      "memory(GiB)": 61.91,
      "step": 11140,
      "token_acc": 0.915057915057915,
      "train_speed(iter/s)": 1.50159
    },
    {
      "epoch": 0.4774859688959342,
      "grad_norm": 3.5160350799560547,
      "learning_rate": 9.776662819096347e-05,
      "loss": 0.39074931144714353,
      "memory(GiB)": 61.91,
      "step": 11145,
      "token_acc": 0.9097744360902256,
      "train_speed(iter/s)": 1.501536
    },
    {
      "epoch": 0.4777001842251832,
      "grad_norm": 4.839613437652588,
      "learning_rate": 9.776463888898423e-05,
      "loss": 0.37480626106262205,
      "memory(GiB)": 61.91,
      "step": 11150,
      "token_acc": 0.9305555555555556,
      "train_speed(iter/s)": 1.50155
    },
    {
      "epoch": 0.4779143995544321,
      "grad_norm": 2.159552574157715,
      "learning_rate": 9.776264872170376e-05,
      "loss": 0.6248004913330079,
      "memory(GiB)": 61.91,
      "step": 11155,
      "token_acc": 0.8778877887788779,
      "train_speed(iter/s)": 1.501585
    },
    {
      "epoch": 0.4781286148836811,
      "grad_norm": 1.5152941942214966,
      "learning_rate": 9.77606576891581e-05,
      "loss": 0.29906795024871824,
      "memory(GiB)": 61.91,
      "step": 11160,
      "token_acc": 0.9456521739130435,
      "train_speed(iter/s)": 1.501549
    },
    {
      "epoch": 0.47834283021293006,
      "grad_norm": 2.5016281604766846,
      "learning_rate": 9.775866579138332e-05,
      "loss": 0.716776704788208,
      "memory(GiB)": 61.91,
      "step": 11165,
      "token_acc": 0.8807692307692307,
      "train_speed(iter/s)": 1.501552
    },
    {
      "epoch": 0.478557045542179,
      "grad_norm": 1.8258247375488281,
      "learning_rate": 9.775667302841551e-05,
      "loss": 0.24568920135498046,
      "memory(GiB)": 61.91,
      "step": 11170,
      "token_acc": 0.9395973154362416,
      "train_speed(iter/s)": 1.501528
    },
    {
      "epoch": 0.47877126087142796,
      "grad_norm": 3.6775875091552734,
      "learning_rate": 9.775467940029077e-05,
      "loss": 0.27192375659942625,
      "memory(GiB)": 61.91,
      "step": 11175,
      "token_acc": 0.9356060606060606,
      "train_speed(iter/s)": 1.501478
    },
    {
      "epoch": 0.47898547620067694,
      "grad_norm": 3.0330405235290527,
      "learning_rate": 9.775268490704522e-05,
      "loss": 0.45546665191650393,
      "memory(GiB)": 61.91,
      "step": 11180,
      "token_acc": 0.9137931034482759,
      "train_speed(iter/s)": 1.501427
    },
    {
      "epoch": 0.47919969152992586,
      "grad_norm": 4.627752780914307,
      "learning_rate": 9.775068954871498e-05,
      "loss": 0.39276323318481443,
      "memory(GiB)": 61.91,
      "step": 11185,
      "token_acc": 0.9037656903765691,
      "train_speed(iter/s)": 1.501367
    },
    {
      "epoch": 0.47941390685917484,
      "grad_norm": 1.9896824359893799,
      "learning_rate": 9.774869332533622e-05,
      "loss": 0.42889938354492185,
      "memory(GiB)": 61.91,
      "step": 11190,
      "token_acc": 0.9129032258064517,
      "train_speed(iter/s)": 1.501352
    },
    {
      "epoch": 0.4796281221884238,
      "grad_norm": 2.8766486644744873,
      "learning_rate": 9.774669623694507e-05,
      "loss": 0.27031474113464354,
      "memory(GiB)": 61.91,
      "step": 11195,
      "token_acc": 0.9411764705882353,
      "train_speed(iter/s)": 1.501358
    },
    {
      "epoch": 0.47984233751767275,
      "grad_norm": 2.4889278411865234,
      "learning_rate": 9.774469828357773e-05,
      "loss": 0.58183274269104,
      "memory(GiB)": 61.91,
      "step": 11200,
      "token_acc": 0.8654434250764526,
      "train_speed(iter/s)": 1.501341
    },
    {
      "epoch": 0.4800565528469217,
      "grad_norm": 6.558652400970459,
      "learning_rate": 9.77426994652704e-05,
      "loss": 0.14588444232940673,
      "memory(GiB)": 61.91,
      "step": 11205,
      "token_acc": 0.9525691699604744,
      "train_speed(iter/s)": 1.501325
    },
    {
      "epoch": 0.4802707681761707,
      "grad_norm": 4.634832382202148,
      "learning_rate": 9.774069978205928e-05,
      "loss": 0.49342708587646483,
      "memory(GiB)": 61.91,
      "step": 11210,
      "token_acc": 0.8712121212121212,
      "train_speed(iter/s)": 1.501326
    },
    {
      "epoch": 0.4804849835054196,
      "grad_norm": 1.5361520051956177,
      "learning_rate": 9.77386992339806e-05,
      "loss": 0.21704471111297607,
      "memory(GiB)": 61.91,
      "step": 11215,
      "token_acc": 0.9458483754512635,
      "train_speed(iter/s)": 1.501332
    },
    {
      "epoch": 0.4806991988346686,
      "grad_norm": 3.0456817150115967,
      "learning_rate": 9.77366978210706e-05,
      "loss": 0.5614039421081543,
      "memory(GiB)": 61.91,
      "step": 11220,
      "token_acc": 0.900355871886121,
      "train_speed(iter/s)": 1.501316
    },
    {
      "epoch": 0.4809134141639176,
      "grad_norm": 1.2195398807525635,
      "learning_rate": 9.773469554336553e-05,
      "loss": 0.14305754899978637,
      "memory(GiB)": 61.91,
      "step": 11225,
      "token_acc": 0.9569230769230769,
      "train_speed(iter/s)": 1.501327
    },
    {
      "epoch": 0.4811276294931665,
      "grad_norm": 1.1317216157913208,
      "learning_rate": 9.773269240090169e-05,
      "loss": 0.40273032188415525,
      "memory(GiB)": 61.91,
      "step": 11230,
      "token_acc": 0.9119804400977995,
      "train_speed(iter/s)": 1.50132
    },
    {
      "epoch": 0.4813418448224155,
      "grad_norm": 2.9501614570617676,
      "learning_rate": 9.773068839371534e-05,
      "loss": 0.421356201171875,
      "memory(GiB)": 61.91,
      "step": 11235,
      "token_acc": 0.9007352941176471,
      "train_speed(iter/s)": 1.501316
    },
    {
      "epoch": 0.48155606015166447,
      "grad_norm": 3.7089927196502686,
      "learning_rate": 9.772868352184279e-05,
      "loss": 0.504508638381958,
      "memory(GiB)": 61.91,
      "step": 11240,
      "token_acc": 0.8653846153846154,
      "train_speed(iter/s)": 1.501308
    },
    {
      "epoch": 0.4817702754809134,
      "grad_norm": 2.667515993118286,
      "learning_rate": 9.772667778532036e-05,
      "loss": 0.3164717435836792,
      "memory(GiB)": 61.91,
      "step": 11245,
      "token_acc": 0.9281045751633987,
      "train_speed(iter/s)": 1.501317
    },
    {
      "epoch": 0.48198449081016237,
      "grad_norm": 5.4000935554504395,
      "learning_rate": 9.77246711841844e-05,
      "loss": 0.25612828731536863,
      "memory(GiB)": 61.91,
      "step": 11250,
      "token_acc": 0.9477611940298507,
      "train_speed(iter/s)": 1.501294
    },
    {
      "epoch": 0.48219870613941135,
      "grad_norm": 0.6427754163742065,
      "learning_rate": 9.772266371847125e-05,
      "loss": 0.26568450927734377,
      "memory(GiB)": 61.91,
      "step": 11255,
      "token_acc": 0.94140625,
      "train_speed(iter/s)": 1.501303
    },
    {
      "epoch": 0.48241292146866027,
      "grad_norm": 6.328140735626221,
      "learning_rate": 9.772065538821728e-05,
      "loss": 0.3022072553634644,
      "memory(GiB)": 61.91,
      "step": 11260,
      "token_acc": 0.9298892988929889,
      "train_speed(iter/s)": 1.501358
    },
    {
      "epoch": 0.48262713679790925,
      "grad_norm": 4.575869083404541,
      "learning_rate": 9.771864619345888e-05,
      "loss": 0.43770418167114256,
      "memory(GiB)": 61.91,
      "step": 11265,
      "token_acc": 0.8966789667896679,
      "train_speed(iter/s)": 1.501333
    },
    {
      "epoch": 0.48284135212715823,
      "grad_norm": 2.764084577560425,
      "learning_rate": 9.771663613423243e-05,
      "loss": 0.4116383075714111,
      "memory(GiB)": 61.91,
      "step": 11270,
      "token_acc": 0.9127725856697819,
      "train_speed(iter/s)": 1.501307
    },
    {
      "epoch": 0.48305556745640715,
      "grad_norm": 2.286790609359741,
      "learning_rate": 9.771462521057436e-05,
      "loss": 0.43422880172729494,
      "memory(GiB)": 61.91,
      "step": 11275,
      "token_acc": 0.8936170212765957,
      "train_speed(iter/s)": 1.501302
    },
    {
      "epoch": 0.48326978278565613,
      "grad_norm": 0.3930443525314331,
      "learning_rate": 9.771261342252109e-05,
      "loss": 0.23178510665893554,
      "memory(GiB)": 61.91,
      "step": 11280,
      "token_acc": 0.9405940594059405,
      "train_speed(iter/s)": 1.501268
    },
    {
      "epoch": 0.4834839981149051,
      "grad_norm": 1.7516249418258667,
      "learning_rate": 9.771060077010907e-05,
      "loss": 0.2492055892944336,
      "memory(GiB)": 61.91,
      "step": 11285,
      "token_acc": 0.9366197183098591,
      "train_speed(iter/s)": 1.501275
    },
    {
      "epoch": 0.4836982134441541,
      "grad_norm": 3.484316110610962,
      "learning_rate": 9.770858725337477e-05,
      "loss": 0.7568736553192139,
      "memory(GiB)": 61.91,
      "step": 11290,
      "token_acc": 0.8764705882352941,
      "train_speed(iter/s)": 1.501325
    },
    {
      "epoch": 0.483912428773403,
      "grad_norm": 5.073870658874512,
      "learning_rate": 9.770657287235465e-05,
      "loss": 0.4803306579589844,
      "memory(GiB)": 61.91,
      "step": 11295,
      "token_acc": 0.9171779141104295,
      "train_speed(iter/s)": 1.501281
    },
    {
      "epoch": 0.484126644102652,
      "grad_norm": 1.4493873119354248,
      "learning_rate": 9.770455762708521e-05,
      "loss": 0.44701132774353025,
      "memory(GiB)": 61.91,
      "step": 11300,
      "token_acc": 0.8714285714285714,
      "train_speed(iter/s)": 1.501259
    },
    {
      "epoch": 0.48434085943190097,
      "grad_norm": 3.717771053314209,
      "learning_rate": 9.770254151760297e-05,
      "loss": 0.432966947555542,
      "memory(GiB)": 61.91,
      "step": 11305,
      "token_acc": 0.8939929328621908,
      "train_speed(iter/s)": 1.501231
    },
    {
      "epoch": 0.4845550747611499,
      "grad_norm": 2.8678789138793945,
      "learning_rate": 9.770052454394443e-05,
      "loss": 0.29010250568389895,
      "memory(GiB)": 61.91,
      "step": 11310,
      "token_acc": 0.9372549019607843,
      "train_speed(iter/s)": 1.501303
    },
    {
      "epoch": 0.4847692900903989,
      "grad_norm": 1.9964799880981445,
      "learning_rate": 9.769850670614613e-05,
      "loss": 0.2826425075531006,
      "memory(GiB)": 61.91,
      "step": 11315,
      "token_acc": 0.944,
      "train_speed(iter/s)": 1.501295
    },
    {
      "epoch": 0.48498350541964785,
      "grad_norm": 2.8159830570220947,
      "learning_rate": 9.769648800424465e-05,
      "loss": 0.323545503616333,
      "memory(GiB)": 61.91,
      "step": 11320,
      "token_acc": 0.9315589353612167,
      "train_speed(iter/s)": 1.501331
    },
    {
      "epoch": 0.4851977207488968,
      "grad_norm": 2.7975292205810547,
      "learning_rate": 9.769446843827655e-05,
      "loss": 0.3327798366546631,
      "memory(GiB)": 61.91,
      "step": 11325,
      "token_acc": 0.9243986254295533,
      "train_speed(iter/s)": 1.501312
    },
    {
      "epoch": 0.48541193607814576,
      "grad_norm": 2.9015631675720215,
      "learning_rate": 9.769244800827841e-05,
      "loss": 0.5726801872253418,
      "memory(GiB)": 61.91,
      "step": 11330,
      "token_acc": 0.932475884244373,
      "train_speed(iter/s)": 1.501279
    },
    {
      "epoch": 0.48562615140739473,
      "grad_norm": 2.39996075630188,
      "learning_rate": 9.769042671428682e-05,
      "loss": 0.30933775901794436,
      "memory(GiB)": 61.91,
      "step": 11335,
      "token_acc": 0.9416058394160584,
      "train_speed(iter/s)": 1.501317
    },
    {
      "epoch": 0.48584036673664366,
      "grad_norm": 3.1042895317077637,
      "learning_rate": 9.768840455633842e-05,
      "loss": 0.5047928810119628,
      "memory(GiB)": 61.91,
      "step": 11340,
      "token_acc": 0.9047619047619048,
      "train_speed(iter/s)": 1.501366
    },
    {
      "epoch": 0.48605458206589264,
      "grad_norm": 2.3007922172546387,
      "learning_rate": 9.768638153446986e-05,
      "loss": 0.38799097537994387,
      "memory(GiB)": 61.91,
      "step": 11345,
      "token_acc": 0.9318181818181818,
      "train_speed(iter/s)": 1.501339
    },
    {
      "epoch": 0.4862687973951416,
      "grad_norm": 3.1974494457244873,
      "learning_rate": 9.768435764871775e-05,
      "loss": 0.2912858724594116,
      "memory(GiB)": 61.91,
      "step": 11350,
      "token_acc": 0.9405594405594405,
      "train_speed(iter/s)": 1.501339
    },
    {
      "epoch": 0.48648301272439054,
      "grad_norm": 3.434542179107666,
      "learning_rate": 9.768233289911877e-05,
      "loss": 0.32773020267486574,
      "memory(GiB)": 61.91,
      "step": 11355,
      "token_acc": 0.9340659340659341,
      "train_speed(iter/s)": 1.501331
    },
    {
      "epoch": 0.4866972280536395,
      "grad_norm": 2.8062796592712402,
      "learning_rate": 9.768030728570959e-05,
      "loss": 0.6167914867401123,
      "memory(GiB)": 61.91,
      "step": 11360,
      "token_acc": 0.8681318681318682,
      "train_speed(iter/s)": 1.501459
    },
    {
      "epoch": 0.4869114433828885,
      "grad_norm": 1.3174638748168945,
      "learning_rate": 9.767828080852693e-05,
      "loss": 0.36702895164489746,
      "memory(GiB)": 61.91,
      "step": 11365,
      "token_acc": 0.9261538461538461,
      "train_speed(iter/s)": 1.501541
    },
    {
      "epoch": 0.4871256587121374,
      "grad_norm": 4.275399208068848,
      "learning_rate": 9.767625346760748e-05,
      "loss": 0.846738052368164,
      "memory(GiB)": 61.91,
      "step": 11370,
      "token_acc": 0.8304498269896193,
      "train_speed(iter/s)": 1.501666
    },
    {
      "epoch": 0.4873398740413864,
      "grad_norm": 0.3814917504787445,
      "learning_rate": 9.767422526298798e-05,
      "loss": 0.3852062463760376,
      "memory(GiB)": 61.91,
      "step": 11375,
      "token_acc": 0.9281609195402298,
      "train_speed(iter/s)": 1.501633
    },
    {
      "epoch": 0.4875540893706354,
      "grad_norm": 0.4015127420425415,
      "learning_rate": 9.767219619470516e-05,
      "loss": 0.18698071241378783,
      "memory(GiB)": 61.91,
      "step": 11380,
      "token_acc": 0.9584905660377359,
      "train_speed(iter/s)": 1.50161
    },
    {
      "epoch": 0.4877683046998843,
      "grad_norm": 3.362959623336792,
      "learning_rate": 9.767016626279577e-05,
      "loss": 0.5646921157836914,
      "memory(GiB)": 61.91,
      "step": 11385,
      "token_acc": 0.8943396226415095,
      "train_speed(iter/s)": 1.501605
    },
    {
      "epoch": 0.4879825200291333,
      "grad_norm": 11.707127571105957,
      "learning_rate": 9.766813546729663e-05,
      "loss": 0.3187761068344116,
      "memory(GiB)": 61.91,
      "step": 11390,
      "token_acc": 0.9293286219081273,
      "train_speed(iter/s)": 1.501536
    },
    {
      "epoch": 0.48819673535838226,
      "grad_norm": 3.4010496139526367,
      "learning_rate": 9.766610380824448e-05,
      "loss": 0.6657217502593994,
      "memory(GiB)": 61.91,
      "step": 11395,
      "token_acc": 0.8870431893687708,
      "train_speed(iter/s)": 1.501525
    },
    {
      "epoch": 0.4884109506876312,
      "grad_norm": 3.1382431983947754,
      "learning_rate": 9.766407128567617e-05,
      "loss": 0.22278993129730223,
      "memory(GiB)": 61.91,
      "step": 11400,
      "token_acc": 0.9493670886075949,
      "train_speed(iter/s)": 1.501485
    },
    {
      "epoch": 0.48862516601688016,
      "grad_norm": 3.1030924320220947,
      "learning_rate": 9.766203789962846e-05,
      "loss": 0.44884448051452636,
      "memory(GiB)": 61.91,
      "step": 11405,
      "token_acc": 0.8888888888888888,
      "train_speed(iter/s)": 1.50145
    },
    {
      "epoch": 0.48883938134612914,
      "grad_norm": 1.2568011283874512,
      "learning_rate": 9.766000365013824e-05,
      "loss": 0.4228797912597656,
      "memory(GiB)": 61.91,
      "step": 11410,
      "token_acc": 0.9163636363636364,
      "train_speed(iter/s)": 1.501434
    },
    {
      "epoch": 0.48905359667537807,
      "grad_norm": 7.209405899047852,
      "learning_rate": 9.765796853724235e-05,
      "loss": 0.32353711128234863,
      "memory(GiB)": 61.91,
      "step": 11415,
      "token_acc": 0.9078947368421053,
      "train_speed(iter/s)": 1.501445
    },
    {
      "epoch": 0.48926781200462705,
      "grad_norm": 3.2190451622009277,
      "learning_rate": 9.765593256097764e-05,
      "loss": 0.4315779685974121,
      "memory(GiB)": 61.91,
      "step": 11420,
      "token_acc": 0.8854489164086687,
      "train_speed(iter/s)": 1.501429
    },
    {
      "epoch": 0.489482027333876,
      "grad_norm": 0.8573207855224609,
      "learning_rate": 9.765389572138103e-05,
      "loss": 0.2522472858428955,
      "memory(GiB)": 61.91,
      "step": 11425,
      "token_acc": 0.9315068493150684,
      "train_speed(iter/s)": 1.501472
    },
    {
      "epoch": 0.48969624266312495,
      "grad_norm": 3.9562830924987793,
      "learning_rate": 9.765185801848938e-05,
      "loss": 0.2380443572998047,
      "memory(GiB)": 61.91,
      "step": 11430,
      "token_acc": 0.9527272727272728,
      "train_speed(iter/s)": 1.501492
    },
    {
      "epoch": 0.4899104579923739,
      "grad_norm": 11.647363662719727,
      "learning_rate": 9.764981945233962e-05,
      "loss": 0.42764482498168943,
      "memory(GiB)": 61.91,
      "step": 11435,
      "token_acc": 0.9126506024096386,
      "train_speed(iter/s)": 1.501497
    },
    {
      "epoch": 0.4901246733216229,
      "grad_norm": 0.929187536239624,
      "learning_rate": 9.764778002296868e-05,
      "loss": 0.35303735733032227,
      "memory(GiB)": 61.91,
      "step": 11440,
      "token_acc": 0.9411764705882353,
      "train_speed(iter/s)": 1.50154
    },
    {
      "epoch": 0.49033888865087183,
      "grad_norm": 2.3841586112976074,
      "learning_rate": 9.764573973041352e-05,
      "loss": 0.5817358493804932,
      "memory(GiB)": 61.91,
      "step": 11445,
      "token_acc": 0.8960244648318043,
      "train_speed(iter/s)": 1.501547
    },
    {
      "epoch": 0.4905531039801208,
      "grad_norm": 0.39544421434402466,
      "learning_rate": 9.764369857471109e-05,
      "loss": 0.3716617822647095,
      "memory(GiB)": 61.91,
      "step": 11450,
      "token_acc": 0.9190140845070423,
      "train_speed(iter/s)": 1.501528
    },
    {
      "epoch": 0.4907673193093698,
      "grad_norm": 1.7395681142807007,
      "learning_rate": 9.764165655589835e-05,
      "loss": 0.5188132286071777,
      "memory(GiB)": 61.91,
      "step": 11455,
      "token_acc": 0.8783783783783784,
      "train_speed(iter/s)": 1.501608
    },
    {
      "epoch": 0.49098153463861877,
      "grad_norm": 6.2855224609375,
      "learning_rate": 9.763961367401231e-05,
      "loss": 0.3518547534942627,
      "memory(GiB)": 61.91,
      "step": 11460,
      "token_acc": 0.9132231404958677,
      "train_speed(iter/s)": 1.501549
    },
    {
      "epoch": 0.4911957499678677,
      "grad_norm": 2.784038782119751,
      "learning_rate": 9.763756992909e-05,
      "loss": 0.502281379699707,
      "memory(GiB)": 61.91,
      "step": 11465,
      "token_acc": 0.9093959731543624,
      "train_speed(iter/s)": 1.501597
    },
    {
      "epoch": 0.49140996529711667,
      "grad_norm": 2.0573761463165283,
      "learning_rate": 9.763552532116841e-05,
      "loss": 0.48516192436218264,
      "memory(GiB)": 61.91,
      "step": 11470,
      "token_acc": 0.8954248366013072,
      "train_speed(iter/s)": 1.501578
    },
    {
      "epoch": 0.49162418062636565,
      "grad_norm": 3.6975748538970947,
      "learning_rate": 9.76334798502846e-05,
      "loss": 0.8070209503173829,
      "memory(GiB)": 61.91,
      "step": 11475,
      "token_acc": 0.8418079096045198,
      "train_speed(iter/s)": 1.50163
    },
    {
      "epoch": 0.49183839595561457,
      "grad_norm": 4.245465278625488,
      "learning_rate": 9.763143351647561e-05,
      "loss": 0.38462653160095217,
      "memory(GiB)": 61.91,
      "step": 11480,
      "token_acc": 0.9143835616438356,
      "train_speed(iter/s)": 1.501593
    },
    {
      "epoch": 0.49205261128486355,
      "grad_norm": 4.021365165710449,
      "learning_rate": 9.762938631977852e-05,
      "loss": 0.5284987926483155,
      "memory(GiB)": 61.91,
      "step": 11485,
      "token_acc": 0.896969696969697,
      "train_speed(iter/s)": 1.501668
    },
    {
      "epoch": 0.49226682661411253,
      "grad_norm": 5.62999963760376,
      "learning_rate": 9.762733826023042e-05,
      "loss": 0.34734354019165037,
      "memory(GiB)": 61.91,
      "step": 11490,
      "token_acc": 0.9130434782608695,
      "train_speed(iter/s)": 1.501734
    },
    {
      "epoch": 0.49248104194336145,
      "grad_norm": 2.4938879013061523,
      "learning_rate": 9.76252893378684e-05,
      "loss": 0.4212313175201416,
      "memory(GiB)": 61.91,
      "step": 11495,
      "token_acc": 0.8877551020408163,
      "train_speed(iter/s)": 1.501776
    },
    {
      "epoch": 0.49269525727261043,
      "grad_norm": 4.279657363891602,
      "learning_rate": 9.76232395527296e-05,
      "loss": 0.40076308250427245,
      "memory(GiB)": 61.91,
      "step": 11500,
      "token_acc": 0.9041095890410958,
      "train_speed(iter/s)": 1.501887
    },
    {
      "epoch": 0.49269525727261043,
      "eval_loss": 2.562253713607788,
      "eval_runtime": 13.2976,
      "eval_samples_per_second": 7.52,
      "eval_steps_per_second": 7.52,
      "eval_token_acc": 0.45235069885641677,
      "step": 11500
    },
    {
      "epoch": 0.4929094726018594,
      "grad_norm": 2.085803985595703,
      "learning_rate": 9.762118890485115e-05,
      "loss": 0.331924295425415,
      "memory(GiB)": 61.91,
      "step": 11505,
      "token_acc": 0.5907441016333939,
      "train_speed(iter/s)": 1.499098
    },
    {
      "epoch": 0.49312368793110833,
      "grad_norm": 2.121908664703369,
      "learning_rate": 9.761913739427017e-05,
      "loss": 0.3426368713378906,
      "memory(GiB)": 61.91,
      "step": 11510,
      "token_acc": 0.9339622641509434,
      "train_speed(iter/s)": 1.499161
    },
    {
      "epoch": 0.4933379032603573,
      "grad_norm": 0.07577716559171677,
      "learning_rate": 9.761708502102384e-05,
      "loss": 0.4422903537750244,
      "memory(GiB)": 61.91,
      "step": 11515,
      "token_acc": 0.9140625,
      "train_speed(iter/s)": 1.499144
    },
    {
      "epoch": 0.4935521185896063,
      "grad_norm": 1.9089854955673218,
      "learning_rate": 9.761503178514938e-05,
      "loss": 0.27995753288269043,
      "memory(GiB)": 61.91,
      "step": 11520,
      "token_acc": 0.9343629343629344,
      "train_speed(iter/s)": 1.499045
    },
    {
      "epoch": 0.4937663339188552,
      "grad_norm": 3.9500057697296143,
      "learning_rate": 9.761297768668393e-05,
      "loss": 0.743000602722168,
      "memory(GiB)": 61.91,
      "step": 11525,
      "token_acc": 0.8801369863013698,
      "train_speed(iter/s)": 1.498967
    },
    {
      "epoch": 0.4939805492481042,
      "grad_norm": 2.4674270153045654,
      "learning_rate": 9.761092272566472e-05,
      "loss": 0.334085750579834,
      "memory(GiB)": 61.91,
      "step": 11530,
      "token_acc": 0.9261744966442953,
      "train_speed(iter/s)": 1.498951
    },
    {
      "epoch": 0.4941947645773532,
      "grad_norm": 2.625473976135254,
      "learning_rate": 9.7608866902129e-05,
      "loss": 0.37681214809417723,
      "memory(GiB)": 61.91,
      "step": 11535,
      "token_acc": 0.8838174273858921,
      "train_speed(iter/s)": 1.499009
    },
    {
      "epoch": 0.4944089799066021,
      "grad_norm": 3.0092153549194336,
      "learning_rate": 9.760681021611398e-05,
      "loss": 0.38585724830627444,
      "memory(GiB)": 61.91,
      "step": 11540,
      "token_acc": 0.9147540983606557,
      "train_speed(iter/s)": 1.499089
    },
    {
      "epoch": 0.4946231952358511,
      "grad_norm": 3.478627920150757,
      "learning_rate": 9.760475266765694e-05,
      "loss": 0.3850773811340332,
      "memory(GiB)": 61.91,
      "step": 11545,
      "token_acc": 0.9228070175438596,
      "train_speed(iter/s)": 1.499117
    },
    {
      "epoch": 0.49483741056510006,
      "grad_norm": 3.978088140487671,
      "learning_rate": 9.760269425679514e-05,
      "loss": 0.4026025295257568,
      "memory(GiB)": 61.91,
      "step": 11550,
      "token_acc": 0.9385964912280702,
      "train_speed(iter/s)": 1.499149
    },
    {
      "epoch": 0.495051625894349,
      "grad_norm": 3.5149834156036377,
      "learning_rate": 9.760063498356589e-05,
      "loss": 0.3726953983306885,
      "memory(GiB)": 61.91,
      "step": 11555,
      "token_acc": 0.9278350515463918,
      "train_speed(iter/s)": 1.499127
    },
    {
      "epoch": 0.49526584122359796,
      "grad_norm": 1.8539488315582275,
      "learning_rate": 9.759857484800647e-05,
      "loss": 0.2643078327178955,
      "memory(GiB)": 61.91,
      "step": 11560,
      "token_acc": 0.9348659003831418,
      "train_speed(iter/s)": 1.49909
    },
    {
      "epoch": 0.49548005655284694,
      "grad_norm": 2.2930963039398193,
      "learning_rate": 9.759651385015423e-05,
      "loss": 0.3690244913101196,
      "memory(GiB)": 61.91,
      "step": 11565,
      "token_acc": 0.9131832797427653,
      "train_speed(iter/s)": 1.499094
    },
    {
      "epoch": 0.49569427188209586,
      "grad_norm": 2.4579033851623535,
      "learning_rate": 9.759445199004649e-05,
      "loss": 0.4261507034301758,
      "memory(GiB)": 61.91,
      "step": 11570,
      "token_acc": 0.9288256227758007,
      "train_speed(iter/s)": 1.499087
    },
    {
      "epoch": 0.49590848721134484,
      "grad_norm": 3.7795209884643555,
      "learning_rate": 9.75923892677206e-05,
      "loss": 0.46725921630859374,
      "memory(GiB)": 61.91,
      "step": 11575,
      "token_acc": 0.9078014184397163,
      "train_speed(iter/s)": 1.499031
    },
    {
      "epoch": 0.4961227025405938,
      "grad_norm": 2.91925311088562,
      "learning_rate": 9.759032568321395e-05,
      "loss": 0.4893782138824463,
      "memory(GiB)": 61.91,
      "step": 11580,
      "token_acc": 0.9083333333333333,
      "train_speed(iter/s)": 1.499015
    },
    {
      "epoch": 0.49633691786984274,
      "grad_norm": 3.5743446350097656,
      "learning_rate": 9.758826123656388e-05,
      "loss": 0.4412864685058594,
      "memory(GiB)": 61.91,
      "step": 11585,
      "token_acc": 0.8974358974358975,
      "train_speed(iter/s)": 1.499026
    },
    {
      "epoch": 0.4965511331990917,
      "grad_norm": 1.1577966213226318,
      "learning_rate": 9.758619592780784e-05,
      "loss": 0.356041693687439,
      "memory(GiB)": 61.91,
      "step": 11590,
      "token_acc": 0.9359430604982206,
      "train_speed(iter/s)": 1.499017
    },
    {
      "epoch": 0.4967653485283407,
      "grad_norm": 2.1124770641326904,
      "learning_rate": 9.758412975698321e-05,
      "loss": 0.20717840194702147,
      "memory(GiB)": 61.91,
      "step": 11595,
      "token_acc": 0.9573643410852714,
      "train_speed(iter/s)": 1.498985
    },
    {
      "epoch": 0.4969795638575896,
      "grad_norm": 2.6313931941986084,
      "learning_rate": 9.758206272412743e-05,
      "loss": 0.5898406505584717,
      "memory(GiB)": 61.91,
      "step": 11600,
      "token_acc": 0.886435331230284,
      "train_speed(iter/s)": 1.498968
    },
    {
      "epoch": 0.4971937791868386,
      "grad_norm": 3.1397464275360107,
      "learning_rate": 9.757999482927795e-05,
      "loss": 0.332635760307312,
      "memory(GiB)": 61.91,
      "step": 11605,
      "token_acc": 0.9285714285714286,
      "train_speed(iter/s)": 1.498945
    },
    {
      "epoch": 0.4974079945160876,
      "grad_norm": 2.822706699371338,
      "learning_rate": 9.757792607247224e-05,
      "loss": 0.6359538078308106,
      "memory(GiB)": 61.91,
      "step": 11610,
      "token_acc": 0.8607594936708861,
      "train_speed(iter/s)": 1.498975
    },
    {
      "epoch": 0.4976222098453365,
      "grad_norm": 2.7931511402130127,
      "learning_rate": 9.757585645374777e-05,
      "loss": 0.5658703327178956,
      "memory(GiB)": 61.91,
      "step": 11615,
      "token_acc": 0.8888888888888888,
      "train_speed(iter/s)": 1.498971
    },
    {
      "epoch": 0.4978364251745855,
      "grad_norm": 4.5933685302734375,
      "learning_rate": 9.757378597314201e-05,
      "loss": 0.4616353988647461,
      "memory(GiB)": 61.91,
      "step": 11620,
      "token_acc": 0.8968253968253969,
      "train_speed(iter/s)": 1.499057
    },
    {
      "epoch": 0.49805064050383446,
      "grad_norm": 2.829345464706421,
      "learning_rate": 9.75717146306925e-05,
      "loss": 0.33214545249938965,
      "memory(GiB)": 61.91,
      "step": 11625,
      "token_acc": 0.9421221864951769,
      "train_speed(iter/s)": 1.499042
    },
    {
      "epoch": 0.49826485583308344,
      "grad_norm": 2.046233892440796,
      "learning_rate": 9.756964242643674e-05,
      "loss": 0.3090994358062744,
      "memory(GiB)": 61.91,
      "step": 11630,
      "token_acc": 0.9461279461279462,
      "train_speed(iter/s)": 1.499029
    },
    {
      "epoch": 0.49847907116233237,
      "grad_norm": 1.0769659280776978,
      "learning_rate": 9.75675693604123e-05,
      "loss": 0.33114018440246584,
      "memory(GiB)": 61.91,
      "step": 11635,
      "token_acc": 0.9256756756756757,
      "train_speed(iter/s)": 1.499096
    },
    {
      "epoch": 0.49869328649158134,
      "grad_norm": 1.7287824153900146,
      "learning_rate": 9.756549543265671e-05,
      "loss": 0.2884695291519165,
      "memory(GiB)": 61.91,
      "step": 11640,
      "token_acc": 0.9315068493150684,
      "train_speed(iter/s)": 1.499087
    },
    {
      "epoch": 0.4989075018208303,
      "grad_norm": 4.361929416656494,
      "learning_rate": 9.756342064320756e-05,
      "loss": 0.4384263038635254,
      "memory(GiB)": 61.91,
      "step": 11645,
      "token_acc": 0.9096989966555183,
      "train_speed(iter/s)": 1.499066
    },
    {
      "epoch": 0.49912171715007925,
      "grad_norm": 2.2501699924468994,
      "learning_rate": 9.756134499210243e-05,
      "loss": 0.4242057800292969,
      "memory(GiB)": 61.91,
      "step": 11650,
      "token_acc": 0.9003322259136213,
      "train_speed(iter/s)": 1.499035
    },
    {
      "epoch": 0.4993359324793282,
      "grad_norm": 2.3019497394561768,
      "learning_rate": 9.755926847937891e-05,
      "loss": 0.45203371047973634,
      "memory(GiB)": 61.91,
      "step": 11655,
      "token_acc": 0.8972809667673716,
      "train_speed(iter/s)": 1.498979
    },
    {
      "epoch": 0.4995501478085772,
      "grad_norm": 2.5359861850738525,
      "learning_rate": 9.755719110507462e-05,
      "loss": 0.24514362812042237,
      "memory(GiB)": 61.91,
      "step": 11660,
      "token_acc": 0.9391891891891891,
      "train_speed(iter/s)": 1.498881
    },
    {
      "epoch": 0.49976436313782613,
      "grad_norm": 5.153092384338379,
      "learning_rate": 9.75551128692272e-05,
      "loss": 0.3216991901397705,
      "memory(GiB)": 61.91,
      "step": 11665,
      "token_acc": 0.9285714285714286,
      "train_speed(iter/s)": 1.498972
    },
    {
      "epoch": 0.4999785784670751,
      "grad_norm": 2.5615012645721436,
      "learning_rate": 9.755303377187433e-05,
      "loss": 0.5082923412322998,
      "memory(GiB)": 61.91,
      "step": 11670,
      "token_acc": 0.8951612903225806,
      "train_speed(iter/s)": 1.499037
    },
    {
      "epoch": 0.5001927937963241,
      "grad_norm": 2.8399922847747803,
      "learning_rate": 9.755095381305362e-05,
      "loss": 0.35175347328186035,
      "memory(GiB)": 61.91,
      "step": 11675,
      "token_acc": 0.9104477611940298,
      "train_speed(iter/s)": 1.499077
    },
    {
      "epoch": 0.500407009125573,
      "grad_norm": 2.9368789196014404,
      "learning_rate": 9.754887299280277e-05,
      "loss": 0.3901956796646118,
      "memory(GiB)": 61.91,
      "step": 11680,
      "token_acc": 0.916083916083916,
      "train_speed(iter/s)": 1.499074
    },
    {
      "epoch": 0.5006212244548219,
      "grad_norm": 2.6722841262817383,
      "learning_rate": 9.754679131115949e-05,
      "loss": 0.634061050415039,
      "memory(GiB)": 61.91,
      "step": 11685,
      "token_acc": 0.8736462093862816,
      "train_speed(iter/s)": 1.499021
    },
    {
      "epoch": 0.500835439784071,
      "grad_norm": 1.4680615663528442,
      "learning_rate": 9.754470876816148e-05,
      "loss": 0.20721962451934814,
      "memory(GiB)": 61.91,
      "step": 11690,
      "token_acc": 0.9537815126050421,
      "train_speed(iter/s)": 1.499017
    },
    {
      "epoch": 0.5010496551133199,
      "grad_norm": 3.000307559967041,
      "learning_rate": 9.754262536384649e-05,
      "loss": 0.3040961980819702,
      "memory(GiB)": 61.91,
      "step": 11695,
      "token_acc": 0.9037800687285223,
      "train_speed(iter/s)": 1.498979
    },
    {
      "epoch": 0.5012638704425688,
      "grad_norm": 2.494349241256714,
      "learning_rate": 9.754054109825223e-05,
      "loss": 0.3126260995864868,
      "memory(GiB)": 61.91,
      "step": 11700,
      "token_acc": 0.9219858156028369,
      "train_speed(iter/s)": 1.498987
    },
    {
      "epoch": 0.5014780857718178,
      "grad_norm": 6.695204734802246,
      "learning_rate": 9.753845597141647e-05,
      "loss": 0.6201929092407227,
      "memory(GiB)": 61.91,
      "step": 11705,
      "token_acc": 0.8808777429467085,
      "train_speed(iter/s)": 1.498966
    },
    {
      "epoch": 0.5016923011010668,
      "grad_norm": 0.4185749292373657,
      "learning_rate": 9.753636998337698e-05,
      "loss": 0.6026837825775146,
      "memory(GiB)": 61.91,
      "step": 11710,
      "token_acc": 0.8813559322033898,
      "train_speed(iter/s)": 1.499016
    },
    {
      "epoch": 0.5019065164303158,
      "grad_norm": 3.727421522140503,
      "learning_rate": 9.753428313417155e-05,
      "loss": 0.3028208494186401,
      "memory(GiB)": 61.91,
      "step": 11715,
      "token_acc": 0.9275862068965517,
      "train_speed(iter/s)": 1.499003
    },
    {
      "epoch": 0.5021207317595647,
      "grad_norm": 10.740583419799805,
      "learning_rate": 9.7532195423838e-05,
      "loss": 0.5771458148956299,
      "memory(GiB)": 61.91,
      "step": 11720,
      "token_acc": 0.8884120171673819,
      "train_speed(iter/s)": 1.498976
    },
    {
      "epoch": 0.5023349470888137,
      "grad_norm": 4.886120319366455,
      "learning_rate": 9.753010685241415e-05,
      "loss": 0.35011651515960696,
      "memory(GiB)": 61.91,
      "step": 11725,
      "token_acc": 0.932806324110672,
      "train_speed(iter/s)": 1.498937
    },
    {
      "epoch": 0.5025491624180627,
      "grad_norm": 1.2414103746414185,
      "learning_rate": 9.752801741993781e-05,
      "loss": 0.2849865913391113,
      "memory(GiB)": 61.91,
      "step": 11730,
      "token_acc": 0.9316239316239316,
      "train_speed(iter/s)": 1.498926
    },
    {
      "epoch": 0.5027633777473116,
      "grad_norm": 2.718902826309204,
      "learning_rate": 9.752592712644686e-05,
      "loss": 0.6359911441802979,
      "memory(GiB)": 61.91,
      "step": 11735,
      "token_acc": 0.8580246913580247,
      "train_speed(iter/s)": 1.498921
    },
    {
      "epoch": 0.5029775930765605,
      "grad_norm": 2.390573501586914,
      "learning_rate": 9.752383597197916e-05,
      "loss": 0.20740032196044922,
      "memory(GiB)": 61.91,
      "step": 11740,
      "token_acc": 0.9519230769230769,
      "train_speed(iter/s)": 1.49891
    },
    {
      "epoch": 0.5031918084058096,
      "grad_norm": 3.059730291366577,
      "learning_rate": 9.752174395657259e-05,
      "loss": 0.24524540901184083,
      "memory(GiB)": 61.91,
      "step": 11745,
      "token_acc": 0.9340659340659341,
      "train_speed(iter/s)": 1.498905
    },
    {
      "epoch": 0.5034060237350585,
      "grad_norm": 3.401766061782837,
      "learning_rate": 9.751965108026505e-05,
      "loss": 0.2665886402130127,
      "memory(GiB)": 61.91,
      "step": 11750,
      "token_acc": 0.9568106312292359,
      "train_speed(iter/s)": 1.49889
    },
    {
      "epoch": 0.5036202390643074,
      "grad_norm": 2.4849658012390137,
      "learning_rate": 9.751755734309443e-05,
      "loss": 0.41339592933654784,
      "memory(GiB)": 61.91,
      "step": 11755,
      "token_acc": 0.9097222222222222,
      "train_speed(iter/s)": 1.498857
    },
    {
      "epoch": 0.5038344543935565,
      "grad_norm": 1.2633259296417236,
      "learning_rate": 9.751546274509871e-05,
      "loss": 0.4778024196624756,
      "memory(GiB)": 61.91,
      "step": 11760,
      "token_acc": 0.9098837209302325,
      "train_speed(iter/s)": 1.498837
    },
    {
      "epoch": 0.5040486697228054,
      "grad_norm": 3.3610551357269287,
      "learning_rate": 9.75133672863158e-05,
      "loss": 0.3482205390930176,
      "memory(GiB)": 61.91,
      "step": 11765,
      "token_acc": 0.9288135593220339,
      "train_speed(iter/s)": 1.498808
    },
    {
      "epoch": 0.5042628850520543,
      "grad_norm": 0.4551701247692108,
      "learning_rate": 9.751127096678366e-05,
      "loss": 0.2983554840087891,
      "memory(GiB)": 61.91,
      "step": 11770,
      "token_acc": 0.9433962264150944,
      "train_speed(iter/s)": 1.498853
    },
    {
      "epoch": 0.5044771003813033,
      "grad_norm": 0.49810534715652466,
      "learning_rate": 9.75091737865403e-05,
      "loss": 0.13609750270843507,
      "memory(GiB)": 61.91,
      "step": 11775,
      "token_acc": 0.9692307692307692,
      "train_speed(iter/s)": 1.49883
    },
    {
      "epoch": 0.5046913157105523,
      "grad_norm": 4.073742389678955,
      "learning_rate": 9.750707574562368e-05,
      "loss": 0.20907375812530518,
      "memory(GiB)": 61.91,
      "step": 11780,
      "token_acc": 0.9645669291338582,
      "train_speed(iter/s)": 1.498858
    },
    {
      "epoch": 0.5049055310398012,
      "grad_norm": 10.750560760498047,
      "learning_rate": 9.75049768440718e-05,
      "loss": 0.6448709011077881,
      "memory(GiB)": 61.91,
      "step": 11785,
      "token_acc": 0.8850931677018633,
      "train_speed(iter/s)": 1.498826
    },
    {
      "epoch": 0.5051197463690502,
      "grad_norm": 2.8313822746276855,
      "learning_rate": 9.750287708192272e-05,
      "loss": 0.3769326448440552,
      "memory(GiB)": 61.91,
      "step": 11790,
      "token_acc": 0.9298245614035088,
      "train_speed(iter/s)": 1.498811
    },
    {
      "epoch": 0.5053339616982991,
      "grad_norm": 4.731559753417969,
      "learning_rate": 9.750077645921445e-05,
      "loss": 0.27373127937316893,
      "memory(GiB)": 61.91,
      "step": 11795,
      "token_acc": 0.9430604982206405,
      "train_speed(iter/s)": 1.498774
    },
    {
      "epoch": 0.5055481770275481,
      "grad_norm": 2.781751871109009,
      "learning_rate": 9.749867497598508e-05,
      "loss": 0.29472975730895995,
      "memory(GiB)": 61.91,
      "step": 11800,
      "token_acc": 0.940983606557377,
      "train_speed(iter/s)": 1.498822
    },
    {
      "epoch": 0.5057623923567971,
      "grad_norm": 3.3122825622558594,
      "learning_rate": 9.749657263227263e-05,
      "loss": 0.41118197441101073,
      "memory(GiB)": 61.91,
      "step": 11805,
      "token_acc": 0.9044368600682594,
      "train_speed(iter/s)": 1.498797
    },
    {
      "epoch": 0.505976607686046,
      "grad_norm": 1.995957612991333,
      "learning_rate": 9.749446942811522e-05,
      "loss": 0.41576647758483887,
      "memory(GiB)": 61.91,
      "step": 11810,
      "token_acc": 0.9107142857142857,
      "train_speed(iter/s)": 1.498782
    },
    {
      "epoch": 0.5061908230152949,
      "grad_norm": 2.804713249206543,
      "learning_rate": 9.749236536355094e-05,
      "loss": 0.4786635398864746,
      "memory(GiB)": 61.91,
      "step": 11815,
      "token_acc": 0.9053254437869822,
      "train_speed(iter/s)": 1.498776
    },
    {
      "epoch": 0.506405038344544,
      "grad_norm": 2.4473214149475098,
      "learning_rate": 9.749026043861791e-05,
      "loss": 0.25251524448394774,
      "memory(GiB)": 61.91,
      "step": 11820,
      "token_acc": 0.9377289377289377,
      "train_speed(iter/s)": 1.498822
    },
    {
      "epoch": 0.5066192536737929,
      "grad_norm": 3.9618875980377197,
      "learning_rate": 9.748815465335426e-05,
      "loss": 0.5148707389831543,
      "memory(GiB)": 61.91,
      "step": 11825,
      "token_acc": 0.8827838827838828,
      "train_speed(iter/s)": 1.498786
    },
    {
      "epoch": 0.5068334690030418,
      "grad_norm": 4.451826095581055,
      "learning_rate": 9.748604800779814e-05,
      "loss": 0.423082160949707,
      "memory(GiB)": 61.91,
      "step": 11830,
      "token_acc": 0.9057971014492754,
      "train_speed(iter/s)": 1.498772
    },
    {
      "epoch": 0.5070476843322909,
      "grad_norm": 3.118638277053833,
      "learning_rate": 9.748394050198773e-05,
      "loss": 0.4295830249786377,
      "memory(GiB)": 61.91,
      "step": 11835,
      "token_acc": 0.9305135951661632,
      "train_speed(iter/s)": 1.498762
    },
    {
      "epoch": 0.5072618996615398,
      "grad_norm": 2.529816150665283,
      "learning_rate": 9.748183213596118e-05,
      "loss": 0.4864049434661865,
      "memory(GiB)": 61.91,
      "step": 11840,
      "token_acc": 0.8876404494382022,
      "train_speed(iter/s)": 1.498744
    },
    {
      "epoch": 0.5074761149907887,
      "grad_norm": 4.092941761016846,
      "learning_rate": 9.747972290975671e-05,
      "loss": 0.47177948951721194,
      "memory(GiB)": 61.91,
      "step": 11845,
      "token_acc": 0.9015151515151515,
      "train_speed(iter/s)": 1.498782
    },
    {
      "epoch": 0.5076903303200377,
      "grad_norm": 4.305933952331543,
      "learning_rate": 9.747761282341253e-05,
      "loss": 0.6760017395019531,
      "memory(GiB)": 61.91,
      "step": 11850,
      "token_acc": 0.8844884488448845,
      "train_speed(iter/s)": 1.498755
    },
    {
      "epoch": 0.5079045456492867,
      "grad_norm": 3.8334522247314453,
      "learning_rate": 9.747550187696684e-05,
      "loss": 0.42466087341308595,
      "memory(GiB)": 61.91,
      "step": 11855,
      "token_acc": 0.9169675090252708,
      "train_speed(iter/s)": 1.498828
    },
    {
      "epoch": 0.5081187609785356,
      "grad_norm": 4.99958610534668,
      "learning_rate": 9.747339007045789e-05,
      "loss": 0.6982944488525391,
      "memory(GiB)": 61.91,
      "step": 11860,
      "token_acc": 0.8770764119601329,
      "train_speed(iter/s)": 1.498823
    },
    {
      "epoch": 0.5083329763077846,
      "grad_norm": 3.4633126258850098,
      "learning_rate": 9.747127740392394e-05,
      "loss": 0.2717592716217041,
      "memory(GiB)": 61.91,
      "step": 11865,
      "token_acc": 0.9380165289256198,
      "train_speed(iter/s)": 1.49884
    },
    {
      "epoch": 0.5085471916370335,
      "grad_norm": 3.1933844089508057,
      "learning_rate": 9.746916387740329e-05,
      "loss": 0.2939890384674072,
      "memory(GiB)": 61.91,
      "step": 11870,
      "token_acc": 0.9272030651340997,
      "train_speed(iter/s)": 1.49884
    },
    {
      "epoch": 0.5087614069662825,
      "grad_norm": 0.9778139591217041,
      "learning_rate": 9.74670494909342e-05,
      "loss": 0.037975388765335086,
      "memory(GiB)": 61.91,
      "step": 11875,
      "token_acc": 0.9927007299270073,
      "train_speed(iter/s)": 1.498816
    },
    {
      "epoch": 0.5089756222955315,
      "grad_norm": 5.115503787994385,
      "learning_rate": 9.746493424455498e-05,
      "loss": 0.8407869338989258,
      "memory(GiB)": 61.91,
      "step": 11880,
      "token_acc": 0.8445945945945946,
      "train_speed(iter/s)": 1.498846
    },
    {
      "epoch": 0.5091898376247804,
      "grad_norm": 1.2167021036148071,
      "learning_rate": 9.746281813830394e-05,
      "loss": 0.6066072463989258,
      "memory(GiB)": 61.91,
      "step": 11885,
      "token_acc": 0.8660130718954249,
      "train_speed(iter/s)": 1.498887
    },
    {
      "epoch": 0.5094040529540294,
      "grad_norm": 3.746429681777954,
      "learning_rate": 9.746070117221944e-05,
      "loss": 0.35821003913879396,
      "memory(GiB)": 61.91,
      "step": 11890,
      "token_acc": 0.9169435215946844,
      "train_speed(iter/s)": 1.498859
    },
    {
      "epoch": 0.5096182682832784,
      "grad_norm": 1.8639062643051147,
      "learning_rate": 9.745858334633982e-05,
      "loss": 0.46844019889831545,
      "memory(GiB)": 61.91,
      "step": 11895,
      "token_acc": 0.8931750741839762,
      "train_speed(iter/s)": 1.498789
    },
    {
      "epoch": 0.5098324836125273,
      "grad_norm": 3.029054880142212,
      "learning_rate": 9.745646466070342e-05,
      "loss": 0.5110203266143799,
      "memory(GiB)": 61.91,
      "step": 11900,
      "token_acc": 0.8945578231292517,
      "train_speed(iter/s)": 1.498798
    },
    {
      "epoch": 0.5100466989417762,
      "grad_norm": 9.540836334228516,
      "learning_rate": 9.745434511534867e-05,
      "loss": 0.5523706436157226,
      "memory(GiB)": 61.91,
      "step": 11905,
      "token_acc": 0.8875502008032129,
      "train_speed(iter/s)": 1.498792
    },
    {
      "epoch": 0.5102609142710253,
      "grad_norm": 5.300279140472412,
      "learning_rate": 9.745222471031392e-05,
      "loss": 0.5052375793457031,
      "memory(GiB)": 61.91,
      "step": 11910,
      "token_acc": 0.9178885630498533,
      "train_speed(iter/s)": 1.498806
    },
    {
      "epoch": 0.5104751296002742,
      "grad_norm": 4.351354598999023,
      "learning_rate": 9.745010344563763e-05,
      "loss": 0.4628037452697754,
      "memory(GiB)": 61.91,
      "step": 11915,
      "token_acc": 0.9124087591240876,
      "train_speed(iter/s)": 1.498883
    },
    {
      "epoch": 0.5106893449295231,
      "grad_norm": 2.0403239727020264,
      "learning_rate": 9.744798132135819e-05,
      "loss": 0.27713894844055176,
      "memory(GiB)": 61.91,
      "step": 11920,
      "token_acc": 0.9356060606060606,
      "train_speed(iter/s)": 1.498851
    },
    {
      "epoch": 0.5109035602587721,
      "grad_norm": 2.803433418273926,
      "learning_rate": 9.744585833751405e-05,
      "loss": 0.30646069049835206,
      "memory(GiB)": 61.91,
      "step": 11925,
      "token_acc": 0.9371069182389937,
      "train_speed(iter/s)": 1.498859
    },
    {
      "epoch": 0.5111177755880211,
      "grad_norm": 4.330046653747559,
      "learning_rate": 9.74437344941437e-05,
      "loss": 0.4329432487487793,
      "memory(GiB)": 61.91,
      "step": 11930,
      "token_acc": 0.921146953405018,
      "train_speed(iter/s)": 1.498829
    },
    {
      "epoch": 0.51133199091727,
      "grad_norm": 1.8169386386871338,
      "learning_rate": 9.744160979128559e-05,
      "loss": 0.5005404472351074,
      "memory(GiB)": 61.91,
      "step": 11935,
      "token_acc": 0.8905109489051095,
      "train_speed(iter/s)": 1.498846
    },
    {
      "epoch": 0.511546206246519,
      "grad_norm": 1.9133203029632568,
      "learning_rate": 9.743948422897819e-05,
      "loss": 0.2761404514312744,
      "memory(GiB)": 61.91,
      "step": 11940,
      "token_acc": 0.946236559139785,
      "train_speed(iter/s)": 1.498817
    },
    {
      "epoch": 0.511760421575768,
      "grad_norm": 2.189591407775879,
      "learning_rate": 9.743735780726005e-05,
      "loss": 0.3386735200881958,
      "memory(GiB)": 61.91,
      "step": 11945,
      "token_acc": 0.9347826086956522,
      "train_speed(iter/s)": 1.498792
    },
    {
      "epoch": 0.5119746369050169,
      "grad_norm": 1.662418007850647,
      "learning_rate": 9.743523052616968e-05,
      "loss": 0.3594545841217041,
      "memory(GiB)": 61.91,
      "step": 11950,
      "token_acc": 0.9148936170212766,
      "train_speed(iter/s)": 1.498796
    },
    {
      "epoch": 0.5121888522342659,
      "grad_norm": 3.829617977142334,
      "learning_rate": 9.743310238574561e-05,
      "loss": 0.5298149585723877,
      "memory(GiB)": 61.91,
      "step": 11955,
      "token_acc": 0.8937728937728938,
      "train_speed(iter/s)": 1.498776
    },
    {
      "epoch": 0.5124030675635148,
      "grad_norm": 6.214954376220703,
      "learning_rate": 9.743097338602638e-05,
      "loss": 0.5200906753540039,
      "memory(GiB)": 61.91,
      "step": 11960,
      "token_acc": 0.8881578947368421,
      "train_speed(iter/s)": 1.498708
    },
    {
      "epoch": 0.5126172828927638,
      "grad_norm": 1.762589454650879,
      "learning_rate": 9.742884352705057e-05,
      "loss": 0.3737818241119385,
      "memory(GiB)": 61.91,
      "step": 11965,
      "token_acc": 0.9217081850533808,
      "train_speed(iter/s)": 1.498672
    },
    {
      "epoch": 0.5128314982220128,
      "grad_norm": 0.8091220855712891,
      "learning_rate": 9.742671280885678e-05,
      "loss": 0.43362841606140134,
      "memory(GiB)": 61.91,
      "step": 11970,
      "token_acc": 0.910828025477707,
      "train_speed(iter/s)": 1.498712
    },
    {
      "epoch": 0.5130457135512617,
      "grad_norm": 2.2912375926971436,
      "learning_rate": 9.74245812314836e-05,
      "loss": 0.4212669372558594,
      "memory(GiB)": 61.91,
      "step": 11975,
      "token_acc": 0.9216867469879518,
      "train_speed(iter/s)": 1.498781
    },
    {
      "epoch": 0.5132599288805106,
      "grad_norm": 1.0757673978805542,
      "learning_rate": 9.742244879496964e-05,
      "loss": 0.1435302734375,
      "memory(GiB)": 61.91,
      "step": 11980,
      "token_acc": 0.9659090909090909,
      "train_speed(iter/s)": 1.498776
    },
    {
      "epoch": 0.5134741442097597,
      "grad_norm": 9.667943954467773,
      "learning_rate": 9.742031549935353e-05,
      "loss": 0.4683395862579346,
      "memory(GiB)": 61.91,
      "step": 11985,
      "token_acc": 0.9106628242074928,
      "train_speed(iter/s)": 1.498747
    },
    {
      "epoch": 0.5136883595390086,
      "grad_norm": 3.732602596282959,
      "learning_rate": 9.741818134467393e-05,
      "loss": 0.5413120269775391,
      "memory(GiB)": 61.91,
      "step": 11990,
      "token_acc": 0.8902077151335311,
      "train_speed(iter/s)": 1.49872
    },
    {
      "epoch": 0.5139025748682575,
      "grad_norm": 2.0410916805267334,
      "learning_rate": 9.741604633096947e-05,
      "loss": 0.6873550891876221,
      "memory(GiB)": 61.91,
      "step": 11995,
      "token_acc": 0.8812949640287769,
      "train_speed(iter/s)": 1.498753
    },
    {
      "epoch": 0.5141167901975066,
      "grad_norm": 2.344332218170166,
      "learning_rate": 9.741391045827888e-05,
      "loss": 0.36939547061920164,
      "memory(GiB)": 61.91,
      "step": 12000,
      "token_acc": 0.9276018099547512,
      "train_speed(iter/s)": 1.498751
    },
    {
      "epoch": 0.5141167901975066,
      "eval_loss": 2.4543375968933105,
      "eval_runtime": 13.9499,
      "eval_samples_per_second": 7.169,
      "eval_steps_per_second": 7.169,
      "eval_token_acc": 0.42052565707133915,
      "step": 12000
    },
    {
      "epoch": 0.5143310055267555,
      "grad_norm": 1.9370639324188232,
      "learning_rate": 9.741177372664081e-05,
      "loss": 0.3360904216766357,
      "memory(GiB)": 61.91,
      "step": 12005,
      "token_acc": 0.5457979225684608,
      "train_speed(iter/s)": 1.495924
    },
    {
      "epoch": 0.5145452208560044,
      "grad_norm": 2.9757943153381348,
      "learning_rate": 9.7409636136094e-05,
      "loss": 0.28811743259429934,
      "memory(GiB)": 61.91,
      "step": 12010,
      "token_acc": 0.9603174603174603,
      "train_speed(iter/s)": 1.495909
    },
    {
      "epoch": 0.5147594361852534,
      "grad_norm": 1.9000308513641357,
      "learning_rate": 9.740749768667715e-05,
      "loss": 0.5960486888885498,
      "memory(GiB)": 61.91,
      "step": 12015,
      "token_acc": 0.8709677419354839,
      "train_speed(iter/s)": 1.495988
    },
    {
      "epoch": 0.5149736515145024,
      "grad_norm": 2.5099427700042725,
      "learning_rate": 9.740535837842899e-05,
      "loss": 0.2592325687408447,
      "memory(GiB)": 61.91,
      "step": 12020,
      "token_acc": 0.9473684210526315,
      "train_speed(iter/s)": 1.495997
    },
    {
      "epoch": 0.5151878668437513,
      "grad_norm": 3.237865686416626,
      "learning_rate": 9.74032182113883e-05,
      "loss": 0.6058212280273437,
      "memory(GiB)": 61.91,
      "step": 12025,
      "token_acc": 0.8850174216027874,
      "train_speed(iter/s)": 1.496128
    },
    {
      "epoch": 0.5154020821730003,
      "grad_norm": 8.451794624328613,
      "learning_rate": 9.740107718559385e-05,
      "loss": 0.43600993156433104,
      "memory(GiB)": 61.91,
      "step": 12030,
      "token_acc": 0.9115853658536586,
      "train_speed(iter/s)": 1.496095
    },
    {
      "epoch": 0.5156162975022492,
      "grad_norm": 2.6820943355560303,
      "learning_rate": 9.739893530108442e-05,
      "loss": 0.288727855682373,
      "memory(GiB)": 61.91,
      "step": 12035,
      "token_acc": 0.9216417910447762,
      "train_speed(iter/s)": 1.496045
    },
    {
      "epoch": 0.5158305128314982,
      "grad_norm": 5.928441047668457,
      "learning_rate": 9.739679255789881e-05,
      "loss": 0.4487174987792969,
      "memory(GiB)": 61.91,
      "step": 12040,
      "token_acc": 0.9157088122605364,
      "train_speed(iter/s)": 1.496046
    },
    {
      "epoch": 0.5160447281607472,
      "grad_norm": 2.544163703918457,
      "learning_rate": 9.739464895607584e-05,
      "loss": 0.39589767456054686,
      "memory(GiB)": 61.91,
      "step": 12045,
      "token_acc": 0.9217391304347826,
      "train_speed(iter/s)": 1.496013
    },
    {
      "epoch": 0.5162589434899961,
      "grad_norm": 2.323228597640991,
      "learning_rate": 9.739250449565436e-05,
      "loss": 0.39283027648925783,
      "memory(GiB)": 61.91,
      "step": 12050,
      "token_acc": 0.9131736526946108,
      "train_speed(iter/s)": 1.495984
    },
    {
      "epoch": 0.5164731588192452,
      "grad_norm": 3.9587008953094482,
      "learning_rate": 9.739035917667319e-05,
      "loss": 0.6828359603881836,
      "memory(GiB)": 61.91,
      "step": 12055,
      "token_acc": 0.8597785977859779,
      "train_speed(iter/s)": 1.496
    },
    {
      "epoch": 0.5166873741484941,
      "grad_norm": 3.4365808963775635,
      "learning_rate": 9.738821299917121e-05,
      "loss": 0.22077653408050538,
      "memory(GiB)": 61.91,
      "step": 12060,
      "token_acc": 0.9611307420494699,
      "train_speed(iter/s)": 1.495975
    },
    {
      "epoch": 0.516901589477743,
      "grad_norm": 4.879485607147217,
      "learning_rate": 9.738606596318728e-05,
      "loss": 0.4388290882110596,
      "memory(GiB)": 61.91,
      "step": 12065,
      "token_acc": 0.9026548672566371,
      "train_speed(iter/s)": 1.49596
    },
    {
      "epoch": 0.517115804806992,
      "grad_norm": 1.3596863746643066,
      "learning_rate": 9.738391806876034e-05,
      "loss": 0.2892922401428223,
      "memory(GiB)": 61.91,
      "step": 12070,
      "token_acc": 0.9473684210526315,
      "train_speed(iter/s)": 1.495927
    },
    {
      "epoch": 0.517330020136241,
      "grad_norm": 5.179567337036133,
      "learning_rate": 9.738176931592926e-05,
      "loss": 0.49228343963623045,
      "memory(GiB)": 61.91,
      "step": 12075,
      "token_acc": 0.9022801302931596,
      "train_speed(iter/s)": 1.495881
    },
    {
      "epoch": 0.5175442354654899,
      "grad_norm": 2.2047479152679443,
      "learning_rate": 9.7379619704733e-05,
      "loss": 0.31847071647644043,
      "memory(GiB)": 61.91,
      "step": 12080,
      "token_acc": 0.9094076655052264,
      "train_speed(iter/s)": 1.49586
    },
    {
      "epoch": 0.5177584507947389,
      "grad_norm": 2.0995304584503174,
      "learning_rate": 9.737746923521046e-05,
      "loss": 0.4737997055053711,
      "memory(GiB)": 61.91,
      "step": 12085,
      "token_acc": 0.9020979020979021,
      "train_speed(iter/s)": 1.495846
    },
    {
      "epoch": 0.5179726661239878,
      "grad_norm": 0.3790076971054077,
      "learning_rate": 9.737531790740062e-05,
      "loss": 0.3286629915237427,
      "memory(GiB)": 61.91,
      "step": 12090,
      "token_acc": 0.9201388888888888,
      "train_speed(iter/s)": 1.495857
    },
    {
      "epoch": 0.5181868814532368,
      "grad_norm": 3.472923517227173,
      "learning_rate": 9.737316572134247e-05,
      "loss": 0.39309158325195315,
      "memory(GiB)": 61.91,
      "step": 12095,
      "token_acc": 0.9150326797385621,
      "train_speed(iter/s)": 1.495916
    },
    {
      "epoch": 0.5184010967824858,
      "grad_norm": 4.3440632820129395,
      "learning_rate": 9.737101267707498e-05,
      "loss": 0.8626234054565429,
      "memory(GiB)": 61.91,
      "step": 12100,
      "token_acc": 0.8207885304659498,
      "train_speed(iter/s)": 1.495996
    },
    {
      "epoch": 0.5186153121117347,
      "grad_norm": 4.244625091552734,
      "learning_rate": 9.736885877463716e-05,
      "loss": 0.5035964965820312,
      "memory(GiB)": 61.91,
      "step": 12105,
      "token_acc": 0.8949416342412452,
      "train_speed(iter/s)": 1.496061
    },
    {
      "epoch": 0.5188295274409837,
      "grad_norm": 1.8647189140319824,
      "learning_rate": 9.736670401406802e-05,
      "loss": 0.6073509216308594,
      "memory(GiB)": 61.91,
      "step": 12110,
      "token_acc": 0.8701298701298701,
      "train_speed(iter/s)": 1.496032
    },
    {
      "epoch": 0.5190437427702327,
      "grad_norm": 3.7943227291107178,
      "learning_rate": 9.736454839540661e-05,
      "loss": 0.2654410362243652,
      "memory(GiB)": 61.91,
      "step": 12115,
      "token_acc": 0.9361702127659575,
      "train_speed(iter/s)": 1.496025
    },
    {
      "epoch": 0.5192579580994816,
      "grad_norm": 1.8608444929122925,
      "learning_rate": 9.736239191869197e-05,
      "loss": 0.32226593494415284,
      "memory(GiB)": 61.91,
      "step": 12120,
      "token_acc": 0.9475806451612904,
      "train_speed(iter/s)": 1.496034
    },
    {
      "epoch": 0.5194721734287305,
      "grad_norm": 5.080722332000732,
      "learning_rate": 9.736023458396318e-05,
      "loss": 0.32826478481292726,
      "memory(GiB)": 61.91,
      "step": 12125,
      "token_acc": 0.9152542372881356,
      "train_speed(iter/s)": 1.495986
    },
    {
      "epoch": 0.5196863887579796,
      "grad_norm": 3.2507479190826416,
      "learning_rate": 9.735807639125928e-05,
      "loss": 0.5881553649902344,
      "memory(GiB)": 61.91,
      "step": 12130,
      "token_acc": 0.8613569321533924,
      "train_speed(iter/s)": 1.496024
    },
    {
      "epoch": 0.5199006040872285,
      "grad_norm": 3.570373058319092,
      "learning_rate": 9.735591734061945e-05,
      "loss": 0.46005725860595703,
      "memory(GiB)": 61.91,
      "step": 12135,
      "token_acc": 0.8853754940711462,
      "train_speed(iter/s)": 1.496036
    },
    {
      "epoch": 0.5201148194164774,
      "grad_norm": 0.4238989055156708,
      "learning_rate": 9.735375743208273e-05,
      "loss": 0.4264807224273682,
      "memory(GiB)": 61.91,
      "step": 12140,
      "token_acc": 0.9127272727272727,
      "train_speed(iter/s)": 1.495991
    },
    {
      "epoch": 0.5203290347457264,
      "grad_norm": 2.519395351409912,
      "learning_rate": 9.735159666568826e-05,
      "loss": 0.6516101360321045,
      "memory(GiB)": 61.91,
      "step": 12145,
      "token_acc": 0.8357771260997068,
      "train_speed(iter/s)": 1.495971
    },
    {
      "epoch": 0.5205432500749754,
      "grad_norm": 2.3026540279388428,
      "learning_rate": 9.734943504147521e-05,
      "loss": 0.35778758525848386,
      "memory(GiB)": 61.91,
      "step": 12150,
      "token_acc": 0.92,
      "train_speed(iter/s)": 1.495935
    },
    {
      "epoch": 0.5207574654042243,
      "grad_norm": 2.2468626499176025,
      "learning_rate": 9.734727255948273e-05,
      "loss": 0.6154538154602051,
      "memory(GiB)": 61.91,
      "step": 12155,
      "token_acc": 0.8801261829652997,
      "train_speed(iter/s)": 1.495909
    },
    {
      "epoch": 0.5209716807334733,
      "grad_norm": 0.7530818581581116,
      "learning_rate": 9.734510921974998e-05,
      "loss": 0.2256394624710083,
      "memory(GiB)": 61.91,
      "step": 12160,
      "token_acc": 0.9470404984423676,
      "train_speed(iter/s)": 1.495933
    },
    {
      "epoch": 0.5211858960627223,
      "grad_norm": 1.4180082082748413,
      "learning_rate": 9.734294502231618e-05,
      "loss": 0.5919866561889648,
      "memory(GiB)": 61.91,
      "step": 12165,
      "token_acc": 0.8586956521739131,
      "train_speed(iter/s)": 1.495898
    },
    {
      "epoch": 0.5214001113919712,
      "grad_norm": 3.487553834915161,
      "learning_rate": 9.73407799672205e-05,
      "loss": 0.6225837707519531,
      "memory(GiB)": 61.91,
      "step": 12170,
      "token_acc": 0.875,
      "train_speed(iter/s)": 1.495895
    },
    {
      "epoch": 0.5216143267212202,
      "grad_norm": 0.8870673775672913,
      "learning_rate": 9.73386140545022e-05,
      "loss": 0.3407327890396118,
      "memory(GiB)": 61.91,
      "step": 12175,
      "token_acc": 0.9238410596026491,
      "train_speed(iter/s)": 1.495825
    },
    {
      "epoch": 0.5218285420504691,
      "grad_norm": 4.447450160980225,
      "learning_rate": 9.73364472842005e-05,
      "loss": 0.3827086925506592,
      "memory(GiB)": 61.91,
      "step": 12180,
      "token_acc": 0.9299610894941635,
      "train_speed(iter/s)": 1.495776
    },
    {
      "epoch": 0.5220427573797181,
      "grad_norm": 4.267645835876465,
      "learning_rate": 9.733427965635465e-05,
      "loss": 0.4170802593231201,
      "memory(GiB)": 61.91,
      "step": 12185,
      "token_acc": 0.9125874125874126,
      "train_speed(iter/s)": 1.495773
    },
    {
      "epoch": 0.5222569727089671,
      "grad_norm": 4.827301025390625,
      "learning_rate": 9.73321111710039e-05,
      "loss": 0.34223456382751466,
      "memory(GiB)": 61.91,
      "step": 12190,
      "token_acc": 0.9213483146067416,
      "train_speed(iter/s)": 1.49575
    },
    {
      "epoch": 0.522471188038216,
      "grad_norm": 1.1807361841201782,
      "learning_rate": 9.732994182818757e-05,
      "loss": 0.2292494535446167,
      "memory(GiB)": 61.91,
      "step": 12195,
      "token_acc": 0.9366666666666666,
      "train_speed(iter/s)": 1.495711
    },
    {
      "epoch": 0.5226854033674649,
      "grad_norm": 2.6098792552948,
      "learning_rate": 9.732777162794496e-05,
      "loss": 0.2562653303146362,
      "memory(GiB)": 61.91,
      "step": 12200,
      "token_acc": 0.929368029739777,
      "train_speed(iter/s)": 1.495709
    },
    {
      "epoch": 0.522899618696714,
      "grad_norm": 3.451625347137451,
      "learning_rate": 9.732560057031534e-05,
      "loss": 0.4077170372009277,
      "memory(GiB)": 61.91,
      "step": 12205,
      "token_acc": 0.9116719242902208,
      "train_speed(iter/s)": 1.495699
    },
    {
      "epoch": 0.5231138340259629,
      "grad_norm": 2.348679542541504,
      "learning_rate": 9.732342865533809e-05,
      "loss": 0.45265998840332033,
      "memory(GiB)": 61.91,
      "step": 12210,
      "token_acc": 0.8951310861423221,
      "train_speed(iter/s)": 1.495664
    },
    {
      "epoch": 0.5233280493552118,
      "grad_norm": 3.244274139404297,
      "learning_rate": 9.732125588305252e-05,
      "loss": 0.31479339599609374,
      "memory(GiB)": 61.91,
      "step": 12215,
      "token_acc": 0.939297124600639,
      "train_speed(iter/s)": 1.495652
    },
    {
      "epoch": 0.5235422646844609,
      "grad_norm": 1.6108759641647339,
      "learning_rate": 9.731908225349803e-05,
      "loss": 0.3947009801864624,
      "memory(GiB)": 61.91,
      "step": 12220,
      "token_acc": 0.9196428571428571,
      "train_speed(iter/s)": 1.495639
    },
    {
      "epoch": 0.5237564800137098,
      "grad_norm": 3.6354432106018066,
      "learning_rate": 9.731690776671396e-05,
      "loss": 0.32954959869384765,
      "memory(GiB)": 61.91,
      "step": 12225,
      "token_acc": 0.9504950495049505,
      "train_speed(iter/s)": 1.495631
    },
    {
      "epoch": 0.5239706953429587,
      "grad_norm": 2.776472568511963,
      "learning_rate": 9.731473242273974e-05,
      "loss": 0.33017525672912595,
      "memory(GiB)": 61.91,
      "step": 12230,
      "token_acc": 0.927536231884058,
      "train_speed(iter/s)": 1.495638
    },
    {
      "epoch": 0.5241849106722077,
      "grad_norm": 2.9493374824523926,
      "learning_rate": 9.731255622161474e-05,
      "loss": 0.42521133422851565,
      "memory(GiB)": 61.91,
      "step": 12235,
      "token_acc": 0.9134948096885813,
      "train_speed(iter/s)": 1.495686
    },
    {
      "epoch": 0.5243991260014567,
      "grad_norm": 4.754340648651123,
      "learning_rate": 9.731037916337839e-05,
      "loss": 0.46363325119018556,
      "memory(GiB)": 61.91,
      "step": 12240,
      "token_acc": 0.8809523809523809,
      "train_speed(iter/s)": 1.495724
    },
    {
      "epoch": 0.5246133413307056,
      "grad_norm": 2.474245548248291,
      "learning_rate": 9.730820124807017e-05,
      "loss": 0.47938175201416017,
      "memory(GiB)": 61.91,
      "step": 12245,
      "token_acc": 0.8982035928143712,
      "train_speed(iter/s)": 1.495766
    },
    {
      "epoch": 0.5248275566599546,
      "grad_norm": 3.9538309574127197,
      "learning_rate": 9.730602247572948e-05,
      "loss": 0.35663666725158694,
      "memory(GiB)": 61.91,
      "step": 12250,
      "token_acc": 0.924,
      "train_speed(iter/s)": 1.495747
    },
    {
      "epoch": 0.5250417719892035,
      "grad_norm": 3.9435153007507324,
      "learning_rate": 9.730384284639584e-05,
      "loss": 0.3821770668029785,
      "memory(GiB)": 61.91,
      "step": 12255,
      "token_acc": 0.9161073825503355,
      "train_speed(iter/s)": 1.495759
    },
    {
      "epoch": 0.5252559873184525,
      "grad_norm": 2.4234161376953125,
      "learning_rate": 9.730166236010869e-05,
      "loss": 0.5741121768951416,
      "memory(GiB)": 61.91,
      "step": 12260,
      "token_acc": 0.875,
      "train_speed(iter/s)": 1.495743
    },
    {
      "epoch": 0.5254702026477015,
      "grad_norm": 4.430825233459473,
      "learning_rate": 9.729948101690757e-05,
      "loss": 0.2634239435195923,
      "memory(GiB)": 61.91,
      "step": 12265,
      "token_acc": 0.9234234234234234,
      "train_speed(iter/s)": 1.495716
    },
    {
      "epoch": 0.5256844179769504,
      "grad_norm": 3.680152654647827,
      "learning_rate": 9.729729881683197e-05,
      "loss": 0.3991286277770996,
      "memory(GiB)": 61.91,
      "step": 12270,
      "token_acc": 0.9236363636363636,
      "train_speed(iter/s)": 1.495707
    },
    {
      "epoch": 0.5258986333061993,
      "grad_norm": 2.181058406829834,
      "learning_rate": 9.729511575992145e-05,
      "loss": 0.38998115062713623,
      "memory(GiB)": 61.91,
      "step": 12275,
      "token_acc": 0.9127906976744186,
      "train_speed(iter/s)": 1.495735
    },
    {
      "epoch": 0.5261128486354484,
      "grad_norm": 2.465670347213745,
      "learning_rate": 9.729293184621552e-05,
      "loss": 0.2688431262969971,
      "memory(GiB)": 61.91,
      "step": 12280,
      "token_acc": 0.9318885448916409,
      "train_speed(iter/s)": 1.495745
    },
    {
      "epoch": 0.5263270639646973,
      "grad_norm": 3.1682870388031006,
      "learning_rate": 9.729074707575377e-05,
      "loss": 0.5518004894256592,
      "memory(GiB)": 61.91,
      "step": 12285,
      "token_acc": 0.8896551724137931,
      "train_speed(iter/s)": 1.495721
    },
    {
      "epoch": 0.5265412792939462,
      "grad_norm": 3.041635513305664,
      "learning_rate": 9.728856144857579e-05,
      "loss": 0.26360354423522947,
      "memory(GiB)": 61.91,
      "step": 12290,
      "token_acc": 0.9484536082474226,
      "train_speed(iter/s)": 1.495708
    },
    {
      "epoch": 0.5267554946231953,
      "grad_norm": 3.7464704513549805,
      "learning_rate": 9.728637496472115e-05,
      "loss": 0.27412374019622804,
      "memory(GiB)": 61.91,
      "step": 12295,
      "token_acc": 0.9219330855018587,
      "train_speed(iter/s)": 1.495727
    },
    {
      "epoch": 0.5269697099524442,
      "grad_norm": 3.225273370742798,
      "learning_rate": 9.728418762422947e-05,
      "loss": 0.4324338912963867,
      "memory(GiB)": 61.91,
      "step": 12300,
      "token_acc": 0.9115384615384615,
      "train_speed(iter/s)": 1.495755
    },
    {
      "epoch": 0.5271839252816931,
      "grad_norm": 0.9132187962532043,
      "learning_rate": 9.728199942714036e-05,
      "loss": 0.4057960033416748,
      "memory(GiB)": 61.91,
      "step": 12305,
      "token_acc": 0.9140625,
      "train_speed(iter/s)": 1.495727
    },
    {
      "epoch": 0.5273981406109421,
      "grad_norm": 1.8627687692642212,
      "learning_rate": 9.727981037349349e-05,
      "loss": 0.21397392749786376,
      "memory(GiB)": 61.91,
      "step": 12310,
      "token_acc": 0.9508196721311475,
      "train_speed(iter/s)": 1.495713
    },
    {
      "epoch": 0.5276123559401911,
      "grad_norm": 0.3842521607875824,
      "learning_rate": 9.727762046332851e-05,
      "loss": 0.38910727500915526,
      "memory(GiB)": 61.91,
      "step": 12315,
      "token_acc": 0.9098039215686274,
      "train_speed(iter/s)": 1.495724
    },
    {
      "epoch": 0.52782657126944,
      "grad_norm": 1.9252909421920776,
      "learning_rate": 9.727542969668507e-05,
      "loss": 0.6561356067657471,
      "memory(GiB)": 61.91,
      "step": 12320,
      "token_acc": 0.8634686346863468,
      "train_speed(iter/s)": 1.495761
    },
    {
      "epoch": 0.528040786598689,
      "grad_norm": 8.956718444824219,
      "learning_rate": 9.72732380736029e-05,
      "loss": 0.5487292289733887,
      "memory(GiB)": 61.91,
      "step": 12325,
      "token_acc": 0.8854166666666666,
      "train_speed(iter/s)": 1.495717
    },
    {
      "epoch": 0.528255001927938,
      "grad_norm": 3.1522910594940186,
      "learning_rate": 9.727104559412163e-05,
      "loss": 0.29309003353118895,
      "memory(GiB)": 61.91,
      "step": 12330,
      "token_acc": 0.9362416107382551,
      "train_speed(iter/s)": 1.495704
    },
    {
      "epoch": 0.5284692172571869,
      "grad_norm": 4.158008575439453,
      "learning_rate": 9.726885225828106e-05,
      "loss": 0.37363224029541015,
      "memory(GiB)": 61.91,
      "step": 12335,
      "token_acc": 0.9132075471698113,
      "train_speed(iter/s)": 1.495696
    },
    {
      "epoch": 0.5286834325864359,
      "grad_norm": 3.4331467151641846,
      "learning_rate": 9.726665806612087e-05,
      "loss": 0.4514486789703369,
      "memory(GiB)": 61.91,
      "step": 12340,
      "token_acc": 0.908256880733945,
      "train_speed(iter/s)": 1.495707
    },
    {
      "epoch": 0.5288976479156848,
      "grad_norm": 3.966679096221924,
      "learning_rate": 9.726446301768085e-05,
      "loss": 0.6376059532165528,
      "memory(GiB)": 61.91,
      "step": 12345,
      "token_acc": 0.8571428571428571,
      "train_speed(iter/s)": 1.495664
    },
    {
      "epoch": 0.5291118632449338,
      "grad_norm": 5.115257263183594,
      "learning_rate": 9.726226711300074e-05,
      "loss": 0.7503841400146485,
      "memory(GiB)": 61.91,
      "step": 12350,
      "token_acc": 0.8333333333333334,
      "train_speed(iter/s)": 1.495618
    },
    {
      "epoch": 0.5293260785741828,
      "grad_norm": 6.8202691078186035,
      "learning_rate": 9.726007035212033e-05,
      "loss": 0.39874188899993895,
      "memory(GiB)": 61.91,
      "step": 12355,
      "token_acc": 0.8722222222222222,
      "train_speed(iter/s)": 1.49558
    },
    {
      "epoch": 0.5295402939034317,
      "grad_norm": 3.2582814693450928,
      "learning_rate": 9.725787273507939e-05,
      "loss": 0.6947667598724365,
      "memory(GiB)": 61.91,
      "step": 12360,
      "token_acc": 0.8783783783783784,
      "train_speed(iter/s)": 1.495561
    },
    {
      "epoch": 0.5297545092326806,
      "grad_norm": 6.8030476570129395,
      "learning_rate": 9.725567426191777e-05,
      "loss": 0.6498387813568115,
      "memory(GiB)": 61.91,
      "step": 12365,
      "token_acc": 0.8745519713261649,
      "train_speed(iter/s)": 1.495666
    },
    {
      "epoch": 0.5299687245619297,
      "grad_norm": 3.68721866607666,
      "learning_rate": 9.725347493267529e-05,
      "loss": 0.6059948444366455,
      "memory(GiB)": 61.91,
      "step": 12370,
      "token_acc": 0.875,
      "train_speed(iter/s)": 1.495671
    },
    {
      "epoch": 0.5301829398911786,
      "grad_norm": 1.7922813892364502,
      "learning_rate": 9.725127474739176e-05,
      "loss": 0.49415082931518556,
      "memory(GiB)": 61.91,
      "step": 12375,
      "token_acc": 0.9198473282442748,
      "train_speed(iter/s)": 1.49569
    },
    {
      "epoch": 0.5303971552204275,
      "grad_norm": 4.136538982391357,
      "learning_rate": 9.724907370610707e-05,
      "loss": 0.23403167724609375,
      "memory(GiB)": 61.91,
      "step": 12380,
      "token_acc": 0.9446640316205533,
      "train_speed(iter/s)": 1.49568
    },
    {
      "epoch": 0.5306113705496766,
      "grad_norm": 2.1796278953552246,
      "learning_rate": 9.724687180886109e-05,
      "loss": 0.2896800756454468,
      "memory(GiB)": 61.91,
      "step": 12385,
      "token_acc": 0.9404388714733543,
      "train_speed(iter/s)": 1.495676
    },
    {
      "epoch": 0.5308255858789255,
      "grad_norm": 4.327676296234131,
      "learning_rate": 9.724466905569372e-05,
      "loss": 0.4006159782409668,
      "memory(GiB)": 61.91,
      "step": 12390,
      "token_acc": 0.9128787878787878,
      "train_speed(iter/s)": 1.495654
    },
    {
      "epoch": 0.5310398012081745,
      "grad_norm": 0.6979964971542358,
      "learning_rate": 9.724246544664484e-05,
      "loss": 0.34466359615325926,
      "memory(GiB)": 61.91,
      "step": 12395,
      "token_acc": 0.9228070175438596,
      "train_speed(iter/s)": 1.495618
    },
    {
      "epoch": 0.5312540165374234,
      "grad_norm": 1.3455475568771362,
      "learning_rate": 9.724026098175438e-05,
      "loss": 0.36588573455810547,
      "memory(GiB)": 61.91,
      "step": 12400,
      "token_acc": 0.9330985915492958,
      "train_speed(iter/s)": 1.495638
    },
    {
      "epoch": 0.5314682318666724,
      "grad_norm": 2.444693088531494,
      "learning_rate": 9.723805566106227e-05,
      "loss": 0.3243107795715332,
      "memory(GiB)": 61.91,
      "step": 12405,
      "token_acc": 0.9322033898305084,
      "train_speed(iter/s)": 1.495602
    },
    {
      "epoch": 0.5316824471959214,
      "grad_norm": 0.9538853764533997,
      "learning_rate": 9.723584948460848e-05,
      "loss": 0.5258162021636963,
      "memory(GiB)": 61.91,
      "step": 12410,
      "token_acc": 0.8720538720538721,
      "train_speed(iter/s)": 1.495549
    },
    {
      "epoch": 0.5318966625251703,
      "grad_norm": 5.543931007385254,
      "learning_rate": 9.723364245243296e-05,
      "loss": 0.31894803047180176,
      "memory(GiB)": 61.91,
      "step": 12415,
      "token_acc": 0.9205298013245033,
      "train_speed(iter/s)": 1.495541
    },
    {
      "epoch": 0.5321108778544192,
      "grad_norm": 4.133533477783203,
      "learning_rate": 9.723143456457571e-05,
      "loss": 0.48996787071228026,
      "memory(GiB)": 61.91,
      "step": 12420,
      "token_acc": 0.8871595330739299,
      "train_speed(iter/s)": 1.49562
    },
    {
      "epoch": 0.5323250931836683,
      "grad_norm": 2.500091314315796,
      "learning_rate": 9.72292258210767e-05,
      "loss": 0.39491751194000246,
      "memory(GiB)": 61.91,
      "step": 12425,
      "token_acc": 0.911660777385159,
      "train_speed(iter/s)": 1.495651
    },
    {
      "epoch": 0.5325393085129172,
      "grad_norm": 5.879429817199707,
      "learning_rate": 9.722701622197596e-05,
      "loss": 0.4640162467956543,
      "memory(GiB)": 61.91,
      "step": 12430,
      "token_acc": 0.903448275862069,
      "train_speed(iter/s)": 1.495611
    },
    {
      "epoch": 0.5327535238421661,
      "grad_norm": 1.2026617527008057,
      "learning_rate": 9.722480576731354e-05,
      "loss": 0.27720816135406495,
      "memory(GiB)": 61.91,
      "step": 12435,
      "token_acc": 0.9254901960784314,
      "train_speed(iter/s)": 1.495592
    },
    {
      "epoch": 0.5329677391714152,
      "grad_norm": 2.7020487785339355,
      "learning_rate": 9.722259445712945e-05,
      "loss": 0.5515942096710205,
      "memory(GiB)": 61.91,
      "step": 12440,
      "token_acc": 0.8784722222222222,
      "train_speed(iter/s)": 1.495574
    },
    {
      "epoch": 0.5331819545006641,
      "grad_norm": 1.2416417598724365,
      "learning_rate": 9.722038229146375e-05,
      "loss": 0.3095396518707275,
      "memory(GiB)": 61.91,
      "step": 12445,
      "token_acc": 0.9171779141104295,
      "train_speed(iter/s)": 1.495539
    },
    {
      "epoch": 0.533396169829913,
      "grad_norm": 7.995690822601318,
      "learning_rate": 9.721816927035654e-05,
      "loss": 0.2334822177886963,
      "memory(GiB)": 61.91,
      "step": 12450,
      "token_acc": 0.9311594202898551,
      "train_speed(iter/s)": 1.495495
    },
    {
      "epoch": 0.533610385159162,
      "grad_norm": 6.231065273284912,
      "learning_rate": 9.721595539384791e-05,
      "loss": 0.389294695854187,
      "memory(GiB)": 61.91,
      "step": 12455,
      "token_acc": 0.9264069264069265,
      "train_speed(iter/s)": 1.495506
    },
    {
      "epoch": 0.533824600488411,
      "grad_norm": 4.365808963775635,
      "learning_rate": 9.721374066197795e-05,
      "loss": 0.41240901947021485,
      "memory(GiB)": 61.91,
      "step": 12460,
      "token_acc": 0.9116465863453815,
      "train_speed(iter/s)": 1.495474
    },
    {
      "epoch": 0.5340388158176599,
      "grad_norm": 3.7024595737457275,
      "learning_rate": 9.721152507478677e-05,
      "loss": 0.3579502820968628,
      "memory(GiB)": 61.91,
      "step": 12465,
      "token_acc": 0.9102990033222591,
      "train_speed(iter/s)": 1.495521
    },
    {
      "epoch": 0.5342530311469089,
      "grad_norm": 3.141005039215088,
      "learning_rate": 9.720930863231454e-05,
      "loss": 0.2831853151321411,
      "memory(GiB)": 61.91,
      "step": 12470,
      "token_acc": 0.9323843416370107,
      "train_speed(iter/s)": 1.495489
    },
    {
      "epoch": 0.5344672464761578,
      "grad_norm": 1.8041349649429321,
      "learning_rate": 9.72070913346014e-05,
      "loss": 0.22698280811309815,
      "memory(GiB)": 61.91,
      "step": 12475,
      "token_acc": 0.9498207885304659,
      "train_speed(iter/s)": 1.495459
    },
    {
      "epoch": 0.5346814618054068,
      "grad_norm": 2.028538942337036,
      "learning_rate": 9.720487318168752e-05,
      "loss": 0.33606393337249757,
      "memory(GiB)": 61.91,
      "step": 12480,
      "token_acc": 0.9285714285714286,
      "train_speed(iter/s)": 1.495473
    },
    {
      "epoch": 0.5348956771346558,
      "grad_norm": 2.1764578819274902,
      "learning_rate": 9.720265417361306e-05,
      "loss": 0.34403166770935056,
      "memory(GiB)": 61.91,
      "step": 12485,
      "token_acc": 0.9384615384615385,
      "train_speed(iter/s)": 1.495454
    },
    {
      "epoch": 0.5351098924639047,
      "grad_norm": 3.033322811126709,
      "learning_rate": 9.720043431041825e-05,
      "loss": 0.23395085334777832,
      "memory(GiB)": 61.91,
      "step": 12490,
      "token_acc": 0.9481481481481482,
      "train_speed(iter/s)": 1.495443
    },
    {
      "epoch": 0.5353241077931536,
      "grad_norm": 6.454158782958984,
      "learning_rate": 9.719821359214331e-05,
      "loss": 0.4052289962768555,
      "memory(GiB)": 61.91,
      "step": 12495,
      "token_acc": 0.9042904290429042,
      "train_speed(iter/s)": 1.495516
    },
    {
      "epoch": 0.5355383231224027,
      "grad_norm": 4.980947494506836,
      "learning_rate": 9.719599201882845e-05,
      "loss": 0.37141802310943606,
      "memory(GiB)": 61.91,
      "step": 12500,
      "token_acc": 0.9373040752351097,
      "train_speed(iter/s)": 1.495561
    },
    {
      "epoch": 0.5355383231224027,
      "eval_loss": 2.5545318126678467,
      "eval_runtime": 13.376,
      "eval_samples_per_second": 7.476,
      "eval_steps_per_second": 7.476,
      "eval_token_acc": 0.4326923076923077,
      "step": 12500
    },
    {
      "epoch": 0.5357525384516516,
      "grad_norm": 5.014606475830078,
      "learning_rate": 9.71937695905139e-05,
      "loss": 0.3360579490661621,
      "memory(GiB)": 61.91,
      "step": 12505,
      "token_acc": 0.574826560951437,
      "train_speed(iter/s)": 1.492992
    },
    {
      "epoch": 0.5359667537809005,
      "grad_norm": 0.9198101758956909,
      "learning_rate": 9.719154630723996e-05,
      "loss": 0.3297051668167114,
      "memory(GiB)": 61.91,
      "step": 12510,
      "token_acc": 0.9255663430420712,
      "train_speed(iter/s)": 1.492989
    },
    {
      "epoch": 0.5361809691101496,
      "grad_norm": 3.3914058208465576,
      "learning_rate": 9.718932216904689e-05,
      "loss": 0.45501484870910647,
      "memory(GiB)": 61.91,
      "step": 12515,
      "token_acc": 0.8980392156862745,
      "train_speed(iter/s)": 1.492966
    },
    {
      "epoch": 0.5363951844393985,
      "grad_norm": 2.0653979778289795,
      "learning_rate": 9.718709717597498e-05,
      "loss": 0.24959852695465087,
      "memory(GiB)": 61.91,
      "step": 12520,
      "token_acc": 0.9484848484848485,
      "train_speed(iter/s)": 1.492923
    },
    {
      "epoch": 0.5366093997686474,
      "grad_norm": 2.810060739517212,
      "learning_rate": 9.718487132806453e-05,
      "loss": 0.40211195945739747,
      "memory(GiB)": 61.91,
      "step": 12525,
      "token_acc": 0.9040590405904059,
      "train_speed(iter/s)": 1.492898
    },
    {
      "epoch": 0.5368236150978964,
      "grad_norm": 1.7296003103256226,
      "learning_rate": 9.71826446253559e-05,
      "loss": 0.23976035118103028,
      "memory(GiB)": 61.91,
      "step": 12530,
      "token_acc": 0.948220064724919,
      "train_speed(iter/s)": 1.492908
    },
    {
      "epoch": 0.5370378304271454,
      "grad_norm": 2.3204824924468994,
      "learning_rate": 9.718041706788937e-05,
      "loss": 0.24142942428588868,
      "memory(GiB)": 61.91,
      "step": 12535,
      "token_acc": 0.9484848484848485,
      "train_speed(iter/s)": 1.492908
    },
    {
      "epoch": 0.5372520457563943,
      "grad_norm": 3.7545416355133057,
      "learning_rate": 9.717818865570534e-05,
      "loss": 0.5297311782836914,
      "memory(GiB)": 61.91,
      "step": 12540,
      "token_acc": 0.8838526912181303,
      "train_speed(iter/s)": 1.492905
    },
    {
      "epoch": 0.5374662610856433,
      "grad_norm": 4.391420841217041,
      "learning_rate": 9.717595938884416e-05,
      "loss": 0.3285609483718872,
      "memory(GiB)": 61.91,
      "step": 12545,
      "token_acc": 0.9322033898305084,
      "train_speed(iter/s)": 1.492872
    },
    {
      "epoch": 0.5376804764148922,
      "grad_norm": 3.716578960418701,
      "learning_rate": 9.717372926734623e-05,
      "loss": 0.5211369037628174,
      "memory(GiB)": 61.91,
      "step": 12550,
      "token_acc": 0.9261744966442953,
      "train_speed(iter/s)": 1.492868
    },
    {
      "epoch": 0.5378946917441412,
      "grad_norm": 4.392141819000244,
      "learning_rate": 9.717149829125194e-05,
      "loss": 0.36246490478515625,
      "memory(GiB)": 61.91,
      "step": 12555,
      "token_acc": 0.926829268292683,
      "train_speed(iter/s)": 1.492906
    },
    {
      "epoch": 0.5381089070733902,
      "grad_norm": 4.260949611663818,
      "learning_rate": 9.71692664606017e-05,
      "loss": 0.5526125431060791,
      "memory(GiB)": 61.91,
      "step": 12560,
      "token_acc": 0.8706293706293706,
      "train_speed(iter/s)": 1.492874
    },
    {
      "epoch": 0.5383231224026391,
      "grad_norm": 4.2641401290893555,
      "learning_rate": 9.716703377543595e-05,
      "loss": 0.4137476921081543,
      "memory(GiB)": 61.91,
      "step": 12565,
      "token_acc": 0.9235668789808917,
      "train_speed(iter/s)": 1.492859
    },
    {
      "epoch": 0.538537337731888,
      "grad_norm": 2.118736982345581,
      "learning_rate": 9.716480023579516e-05,
      "loss": 0.2704385995864868,
      "memory(GiB)": 61.91,
      "step": 12570,
      "token_acc": 0.9365671641791045,
      "train_speed(iter/s)": 1.492833
    },
    {
      "epoch": 0.5387515530611371,
      "grad_norm": 1.0443006753921509,
      "learning_rate": 9.716256584171974e-05,
      "loss": 0.4249587535858154,
      "memory(GiB)": 61.91,
      "step": 12575,
      "token_acc": 0.9161490683229814,
      "train_speed(iter/s)": 1.492765
    },
    {
      "epoch": 0.538965768390386,
      "grad_norm": 2.501037836074829,
      "learning_rate": 9.71603305932502e-05,
      "loss": 0.36573574542999265,
      "memory(GiB)": 61.91,
      "step": 12580,
      "token_acc": 0.9147540983606557,
      "train_speed(iter/s)": 1.492763
    },
    {
      "epoch": 0.5391799837196349,
      "grad_norm": 1.176613450050354,
      "learning_rate": 9.715809449042706e-05,
      "loss": 0.3413656949996948,
      "memory(GiB)": 61.91,
      "step": 12585,
      "token_acc": 0.940677966101695,
      "train_speed(iter/s)": 1.492729
    },
    {
      "epoch": 0.539394199048884,
      "grad_norm": 7.239649295806885,
      "learning_rate": 9.715585753329077e-05,
      "loss": 0.23984005451202392,
      "memory(GiB)": 61.91,
      "step": 12590,
      "token_acc": 0.9473684210526315,
      "train_speed(iter/s)": 1.492784
    },
    {
      "epoch": 0.5396084143781329,
      "grad_norm": 4.600289821624756,
      "learning_rate": 9.715361972188191e-05,
      "loss": 0.48151121139526365,
      "memory(GiB)": 61.91,
      "step": 12595,
      "token_acc": 0.9216417910447762,
      "train_speed(iter/s)": 1.492754
    },
    {
      "epoch": 0.5398226297073818,
      "grad_norm": 2.9765398502349854,
      "learning_rate": 9.715138105624097e-05,
      "loss": 0.6090617179870605,
      "memory(GiB)": 61.91,
      "step": 12600,
      "token_acc": 0.8484848484848485,
      "train_speed(iter/s)": 1.492788
    },
    {
      "epoch": 0.5400368450366309,
      "grad_norm": 3.532555103302002,
      "learning_rate": 9.714914153640854e-05,
      "loss": 0.34031665325164795,
      "memory(GiB)": 61.91,
      "step": 12605,
      "token_acc": 0.9271523178807947,
      "train_speed(iter/s)": 1.492791
    },
    {
      "epoch": 0.5402510603658798,
      "grad_norm": 3.727386713027954,
      "learning_rate": 9.714690116242518e-05,
      "loss": 0.2430474042892456,
      "memory(GiB)": 61.91,
      "step": 12610,
      "token_acc": 0.9556313993174061,
      "train_speed(iter/s)": 1.49277
    },
    {
      "epoch": 0.5404652756951287,
      "grad_norm": 6.978740692138672,
      "learning_rate": 9.714465993433148e-05,
      "loss": 0.22541074752807616,
      "memory(GiB)": 61.91,
      "step": 12615,
      "token_acc": 0.9520295202952029,
      "train_speed(iter/s)": 1.492801
    },
    {
      "epoch": 0.5406794910243777,
      "grad_norm": 3.062215805053711,
      "learning_rate": 9.714241785216804e-05,
      "loss": 0.393666410446167,
      "memory(GiB)": 61.91,
      "step": 12620,
      "token_acc": 0.9193548387096774,
      "train_speed(iter/s)": 1.492795
    },
    {
      "epoch": 0.5408937063536267,
      "grad_norm": 4.969911575317383,
      "learning_rate": 9.714017491597548e-05,
      "loss": 0.7478813648223877,
      "memory(GiB)": 61.91,
      "step": 12625,
      "token_acc": 0.8246268656716418,
      "train_speed(iter/s)": 1.49275
    },
    {
      "epoch": 0.5411079216828756,
      "grad_norm": 3.6489908695220947,
      "learning_rate": 9.713793112579443e-05,
      "loss": 0.6580411911010742,
      "memory(GiB)": 61.91,
      "step": 12630,
      "token_acc": 0.8640483383685801,
      "train_speed(iter/s)": 1.49279
    },
    {
      "epoch": 0.5413221370121246,
      "grad_norm": 2.248872756958008,
      "learning_rate": 9.713568648166555e-05,
      "loss": 0.3579464673995972,
      "memory(GiB)": 61.91,
      "step": 12635,
      "token_acc": 0.9316770186335404,
      "train_speed(iter/s)": 1.492753
    },
    {
      "epoch": 0.5415363523413735,
      "grad_norm": 3.737145185470581,
      "learning_rate": 9.713344098362948e-05,
      "loss": 0.36696710586547854,
      "memory(GiB)": 61.91,
      "step": 12640,
      "token_acc": 0.8993055555555556,
      "train_speed(iter/s)": 1.492721
    },
    {
      "epoch": 0.5417505676706225,
      "grad_norm": 3.96877121925354,
      "learning_rate": 9.71311946317269e-05,
      "loss": 0.3942409038543701,
      "memory(GiB)": 61.91,
      "step": 12645,
      "token_acc": 0.908284023668639,
      "train_speed(iter/s)": 1.492676
    },
    {
      "epoch": 0.5419647829998715,
      "grad_norm": 1.2148613929748535,
      "learning_rate": 9.712894742599854e-05,
      "loss": 0.5852044105529786,
      "memory(GiB)": 61.91,
      "step": 12650,
      "token_acc": 0.8528428093645485,
      "train_speed(iter/s)": 1.492667
    },
    {
      "epoch": 0.5421789983291204,
      "grad_norm": 2.895491600036621,
      "learning_rate": 9.712669936648507e-05,
      "loss": 0.2311777353286743,
      "memory(GiB)": 61.91,
      "step": 12655,
      "token_acc": 0.9449152542372882,
      "train_speed(iter/s)": 1.492634
    },
    {
      "epoch": 0.5423932136583693,
      "grad_norm": 1.3666521310806274,
      "learning_rate": 9.712445045322725e-05,
      "loss": 0.4424308776855469,
      "memory(GiB)": 61.91,
      "step": 12660,
      "token_acc": 0.8952095808383234,
      "train_speed(iter/s)": 1.492617
    },
    {
      "epoch": 0.5426074289876184,
      "grad_norm": 3.0233395099639893,
      "learning_rate": 9.712220068626578e-05,
      "loss": 0.35888473987579345,
      "memory(GiB)": 61.91,
      "step": 12665,
      "token_acc": 0.9359430604982206,
      "train_speed(iter/s)": 1.492611
    },
    {
      "epoch": 0.5428216443168673,
      "grad_norm": 3.0853729248046875,
      "learning_rate": 9.711995006564145e-05,
      "loss": 0.1995012044906616,
      "memory(GiB)": 61.91,
      "step": 12670,
      "token_acc": 0.9501915708812261,
      "train_speed(iter/s)": 1.492634
    },
    {
      "epoch": 0.5430358596461162,
      "grad_norm": 3.6685714721679688,
      "learning_rate": 9.711769859139503e-05,
      "loss": 0.5455767631530761,
      "memory(GiB)": 61.91,
      "step": 12675,
      "token_acc": 0.8806451612903226,
      "train_speed(iter/s)": 1.492617
    },
    {
      "epoch": 0.5432500749753653,
      "grad_norm": 9.612741470336914,
      "learning_rate": 9.71154462635673e-05,
      "loss": 0.6148692607879639,
      "memory(GiB)": 61.91,
      "step": 12680,
      "token_acc": 0.8540540540540541,
      "train_speed(iter/s)": 1.492634
    },
    {
      "epoch": 0.5434642903046142,
      "grad_norm": 5.480513572692871,
      "learning_rate": 9.711319308219906e-05,
      "loss": 0.32258057594299316,
      "memory(GiB)": 61.91,
      "step": 12685,
      "token_acc": 0.9198473282442748,
      "train_speed(iter/s)": 1.492643
    },
    {
      "epoch": 0.5436785056338631,
      "grad_norm": 4.095878601074219,
      "learning_rate": 9.711093904733113e-05,
      "loss": 0.6041972160339355,
      "memory(GiB)": 61.91,
      "step": 12690,
      "token_acc": 0.865546218487395,
      "train_speed(iter/s)": 1.492614
    },
    {
      "epoch": 0.5438927209631121,
      "grad_norm": 2.476207733154297,
      "learning_rate": 9.710868415900433e-05,
      "loss": 0.6227049827575684,
      "memory(GiB)": 61.91,
      "step": 12695,
      "token_acc": 0.8812260536398467,
      "train_speed(iter/s)": 1.492618
    },
    {
      "epoch": 0.5441069362923611,
      "grad_norm": 3.75608491897583,
      "learning_rate": 9.710642841725954e-05,
      "loss": 0.7794917106628418,
      "memory(GiB)": 61.91,
      "step": 12700,
      "token_acc": 0.8370607028753994,
      "train_speed(iter/s)": 1.492669
    },
    {
      "epoch": 0.54432115162161,
      "grad_norm": 3.654162645339966,
      "learning_rate": 9.710417182213762e-05,
      "loss": 0.374002742767334,
      "memory(GiB)": 61.91,
      "step": 12705,
      "token_acc": 0.9035714285714286,
      "train_speed(iter/s)": 1.49262
    },
    {
      "epoch": 0.544535366950859,
      "grad_norm": 10.794281959533691,
      "learning_rate": 9.710191437367942e-05,
      "loss": 0.6310531616210937,
      "memory(GiB)": 61.91,
      "step": 12710,
      "token_acc": 0.8560311284046692,
      "train_speed(iter/s)": 1.49266
    },
    {
      "epoch": 0.544749582280108,
      "grad_norm": 3.381904125213623,
      "learning_rate": 9.709965607192589e-05,
      "loss": 0.3287661552429199,
      "memory(GiB)": 61.91,
      "step": 12715,
      "token_acc": 0.9281045751633987,
      "train_speed(iter/s)": 1.492624
    },
    {
      "epoch": 0.5449637976093569,
      "grad_norm": 0.10352974385023117,
      "learning_rate": 9.709739691691787e-05,
      "loss": 0.17052966356277466,
      "memory(GiB)": 61.91,
      "step": 12720,
      "token_acc": 0.9685534591194969,
      "train_speed(iter/s)": 1.492572
    },
    {
      "epoch": 0.5451780129386059,
      "grad_norm": 2.4556593894958496,
      "learning_rate": 9.709513690869634e-05,
      "loss": 0.40941171646118163,
      "memory(GiB)": 61.91,
      "step": 12725,
      "token_acc": 0.8740157480314961,
      "train_speed(iter/s)": 1.492557
    },
    {
      "epoch": 0.5453922282678548,
      "grad_norm": 4.790131568908691,
      "learning_rate": 9.709287604730222e-05,
      "loss": 0.33583390712738037,
      "memory(GiB)": 61.91,
      "step": 12730,
      "token_acc": 0.9404388714733543,
      "train_speed(iter/s)": 1.492548
    },
    {
      "epoch": 0.5456064435971039,
      "grad_norm": 6.209418296813965,
      "learning_rate": 9.709061433277647e-05,
      "loss": 0.343867564201355,
      "memory(GiB)": 61.91,
      "step": 12735,
      "token_acc": 0.9198606271777003,
      "train_speed(iter/s)": 1.492542
    },
    {
      "epoch": 0.5458206589263528,
      "grad_norm": 2.5852513313293457,
      "learning_rate": 9.708835176516008e-05,
      "loss": 0.30210299491882325,
      "memory(GiB)": 61.91,
      "step": 12740,
      "token_acc": 0.9354838709677419,
      "train_speed(iter/s)": 1.492584
    },
    {
      "epoch": 0.5460348742556017,
      "grad_norm": 2.640119791030884,
      "learning_rate": 9.708608834449402e-05,
      "loss": 0.6011237144470215,
      "memory(GiB)": 61.91,
      "step": 12745,
      "token_acc": 0.8694158075601375,
      "train_speed(iter/s)": 1.492647
    },
    {
      "epoch": 0.5462490895848507,
      "grad_norm": 2.866649866104126,
      "learning_rate": 9.708382407081929e-05,
      "loss": 0.20138068199157716,
      "memory(GiB)": 61.91,
      "step": 12750,
      "token_acc": 0.946360153256705,
      "train_speed(iter/s)": 1.492616
    },
    {
      "epoch": 0.5464633049140997,
      "grad_norm": 0.03273199871182442,
      "learning_rate": 9.708155894417693e-05,
      "loss": 0.28084986209869384,
      "memory(GiB)": 61.91,
      "step": 12755,
      "token_acc": 0.9294605809128631,
      "train_speed(iter/s)": 1.492628
    },
    {
      "epoch": 0.5466775202433486,
      "grad_norm": 3.17718243598938,
      "learning_rate": 9.707929296460796e-05,
      "loss": 0.21805624961853026,
      "memory(GiB)": 61.91,
      "step": 12760,
      "token_acc": 0.9472049689440993,
      "train_speed(iter/s)": 1.492619
    },
    {
      "epoch": 0.5468917355725976,
      "grad_norm": 3.171391248703003,
      "learning_rate": 9.707702613215344e-05,
      "loss": 0.654906940460205,
      "memory(GiB)": 61.91,
      "step": 12765,
      "token_acc": 0.8745762711864407,
      "train_speed(iter/s)": 1.492623
    },
    {
      "epoch": 0.5471059509018465,
      "grad_norm": 5.684665679931641,
      "learning_rate": 9.707475844685443e-05,
      "loss": 0.7477387905120849,
      "memory(GiB)": 61.91,
      "step": 12770,
      "token_acc": 0.8587896253602305,
      "train_speed(iter/s)": 1.492625
    },
    {
      "epoch": 0.5473201662310955,
      "grad_norm": 2.6138458251953125,
      "learning_rate": 9.7072489908752e-05,
      "loss": 0.4770840644836426,
      "memory(GiB)": 61.91,
      "step": 12775,
      "token_acc": 0.9057971014492754,
      "train_speed(iter/s)": 1.492594
    },
    {
      "epoch": 0.5475343815603445,
      "grad_norm": 1.2035634517669678,
      "learning_rate": 9.707022051788725e-05,
      "loss": 0.2779963254928589,
      "memory(GiB)": 61.91,
      "step": 12780,
      "token_acc": 0.936026936026936,
      "train_speed(iter/s)": 1.492563
    },
    {
      "epoch": 0.5477485968895934,
      "grad_norm": 12.346540451049805,
      "learning_rate": 9.706795027430133e-05,
      "loss": 0.7571014404296875,
      "memory(GiB)": 61.91,
      "step": 12785,
      "token_acc": 0.8469750889679716,
      "train_speed(iter/s)": 1.492616
    },
    {
      "epoch": 0.5479628122188424,
      "grad_norm": 3.6869888305664062,
      "learning_rate": 9.706567917803532e-05,
      "loss": 0.5568064689636231,
      "memory(GiB)": 61.91,
      "step": 12790,
      "token_acc": 0.8888888888888888,
      "train_speed(iter/s)": 1.492609
    },
    {
      "epoch": 0.5481770275480914,
      "grad_norm": 0.44182372093200684,
      "learning_rate": 9.706340722913037e-05,
      "loss": 0.42725200653076173,
      "memory(GiB)": 61.91,
      "step": 12795,
      "token_acc": 0.9166666666666666,
      "train_speed(iter/s)": 1.492605
    },
    {
      "epoch": 0.5483912428773403,
      "grad_norm": 4.720300197601318,
      "learning_rate": 9.706113442762768e-05,
      "loss": 0.5793606281280518,
      "memory(GiB)": 61.91,
      "step": 12800,
      "token_acc": 0.8729096989966555,
      "train_speed(iter/s)": 1.492688
    },
    {
      "epoch": 0.5486054582065892,
      "grad_norm": 4.7276763916015625,
      "learning_rate": 9.705886077356837e-05,
      "loss": 0.24990835189819335,
      "memory(GiB)": 61.91,
      "step": 12805,
      "token_acc": 0.9471830985915493,
      "train_speed(iter/s)": 1.492721
    },
    {
      "epoch": 0.5488196735358383,
      "grad_norm": 0.07675153017044067,
      "learning_rate": 9.705658626699365e-05,
      "loss": 0.324847412109375,
      "memory(GiB)": 61.91,
      "step": 12810,
      "token_acc": 0.948339483394834,
      "train_speed(iter/s)": 1.492726
    },
    {
      "epoch": 0.5490338888650872,
      "grad_norm": 2.919053316116333,
      "learning_rate": 9.705431090794472e-05,
      "loss": 0.3659971714019775,
      "memory(GiB)": 61.91,
      "step": 12815,
      "token_acc": 0.9181818181818182,
      "train_speed(iter/s)": 1.492733
    },
    {
      "epoch": 0.5492481041943361,
      "grad_norm": 5.662714004516602,
      "learning_rate": 9.705203469646282e-05,
      "loss": 0.32527804374694824,
      "memory(GiB)": 61.91,
      "step": 12820,
      "token_acc": 0.9325396825396826,
      "train_speed(iter/s)": 1.492741
    },
    {
      "epoch": 0.5494623195235852,
      "grad_norm": 0.3888707160949707,
      "learning_rate": 9.704975763258919e-05,
      "loss": 0.4678382396697998,
      "memory(GiB)": 61.91,
      "step": 12825,
      "token_acc": 0.8771929824561403,
      "train_speed(iter/s)": 1.492749
    },
    {
      "epoch": 0.5496765348528341,
      "grad_norm": 3.3857319355010986,
      "learning_rate": 9.704747971636504e-05,
      "loss": 0.2564095973968506,
      "memory(GiB)": 61.91,
      "step": 12830,
      "token_acc": 0.9417808219178082,
      "train_speed(iter/s)": 1.492748
    },
    {
      "epoch": 0.549890750182083,
      "grad_norm": 3.3380730152130127,
      "learning_rate": 9.704520094783167e-05,
      "loss": 0.4442139625549316,
      "memory(GiB)": 61.91,
      "step": 12835,
      "token_acc": 0.9042553191489362,
      "train_speed(iter/s)": 1.492721
    },
    {
      "epoch": 0.550104965511332,
      "grad_norm": 1.563835859298706,
      "learning_rate": 9.704292132703034e-05,
      "loss": 0.24052104949951172,
      "memory(GiB)": 61.91,
      "step": 12840,
      "token_acc": 0.9536423841059603,
      "train_speed(iter/s)": 1.492692
    },
    {
      "epoch": 0.550319180840581,
      "grad_norm": 3.4636781215667725,
      "learning_rate": 9.704064085400237e-05,
      "loss": 0.4224545001983643,
      "memory(GiB)": 61.91,
      "step": 12845,
      "token_acc": 0.8927335640138409,
      "train_speed(iter/s)": 1.492716
    },
    {
      "epoch": 0.5505333961698299,
      "grad_norm": 0.023982644081115723,
      "learning_rate": 9.703835952878908e-05,
      "loss": 0.2800628185272217,
      "memory(GiB)": 61.91,
      "step": 12850,
      "token_acc": 0.9294871794871795,
      "train_speed(iter/s)": 1.492777
    },
    {
      "epoch": 0.5507476114990789,
      "grad_norm": 3.5176045894622803,
      "learning_rate": 9.703607735143176e-05,
      "loss": 0.4371194839477539,
      "memory(GiB)": 61.91,
      "step": 12855,
      "token_acc": 0.9283582089552239,
      "train_speed(iter/s)": 1.492761
    },
    {
      "epoch": 0.5509618268283278,
      "grad_norm": 2.217677354812622,
      "learning_rate": 9.703379432197178e-05,
      "loss": 0.2891937017440796,
      "memory(GiB)": 61.91,
      "step": 12860,
      "token_acc": 0.9377162629757786,
      "train_speed(iter/s)": 1.492776
    },
    {
      "epoch": 0.5511760421575768,
      "grad_norm": 2.3405256271362305,
      "learning_rate": 9.70315104404505e-05,
      "loss": 0.5220946788787841,
      "memory(GiB)": 61.91,
      "step": 12865,
      "token_acc": 0.8955696202531646,
      "train_speed(iter/s)": 1.49271
    },
    {
      "epoch": 0.5513902574868258,
      "grad_norm": 3.2533698081970215,
      "learning_rate": 9.70292257069093e-05,
      "loss": 0.2991813659667969,
      "memory(GiB)": 61.91,
      "step": 12870,
      "token_acc": 0.927536231884058,
      "train_speed(iter/s)": 1.492698
    },
    {
      "epoch": 0.5516044728160747,
      "grad_norm": 6.588254451751709,
      "learning_rate": 9.702694012138953e-05,
      "loss": 0.3256206035614014,
      "memory(GiB)": 61.91,
      "step": 12875,
      "token_acc": 0.928030303030303,
      "train_speed(iter/s)": 1.492679
    },
    {
      "epoch": 0.5518186881453236,
      "grad_norm": 4.7658586502075195,
      "learning_rate": 9.702465368393264e-05,
      "loss": 0.37789602279663087,
      "memory(GiB)": 61.91,
      "step": 12880,
      "token_acc": 0.9139072847682119,
      "train_speed(iter/s)": 1.492641
    },
    {
      "epoch": 0.5520329034745727,
      "grad_norm": 1.9054632186889648,
      "learning_rate": 9.702236639458003e-05,
      "loss": 0.4326024055480957,
      "memory(GiB)": 61.91,
      "step": 12885,
      "token_acc": 0.8997134670487106,
      "train_speed(iter/s)": 1.492597
    },
    {
      "epoch": 0.5522471188038216,
      "grad_norm": 3.326127767562866,
      "learning_rate": 9.702007825337316e-05,
      "loss": 0.4937246322631836,
      "memory(GiB)": 61.91,
      "step": 12890,
      "token_acc": 0.9015748031496063,
      "train_speed(iter/s)": 1.492574
    },
    {
      "epoch": 0.5524613341330705,
      "grad_norm": 3.0150022506713867,
      "learning_rate": 9.701778926035344e-05,
      "loss": 0.3144610643386841,
      "memory(GiB)": 61.91,
      "step": 12895,
      "token_acc": 0.936,
      "train_speed(iter/s)": 1.492581
    },
    {
      "epoch": 0.5526755494623196,
      "grad_norm": 4.2696990966796875,
      "learning_rate": 9.701549941556238e-05,
      "loss": 0.18773559331893921,
      "memory(GiB)": 61.91,
      "step": 12900,
      "token_acc": 0.9533333333333334,
      "train_speed(iter/s)": 1.49256
    },
    {
      "epoch": 0.5528897647915685,
      "grad_norm": 2.6443424224853516,
      "learning_rate": 9.701320871904143e-05,
      "loss": 0.5935259819030761,
      "memory(GiB)": 61.91,
      "step": 12905,
      "token_acc": 0.8741935483870967,
      "train_speed(iter/s)": 1.492556
    },
    {
      "epoch": 0.5531039801208174,
      "grad_norm": 3.420987844467163,
      "learning_rate": 9.70109171708321e-05,
      "loss": 0.3367485046386719,
      "memory(GiB)": 61.91,
      "step": 12910,
      "token_acc": 0.912751677852349,
      "train_speed(iter/s)": 1.492555
    },
    {
      "epoch": 0.5533181954500664,
      "grad_norm": 1.883061170578003,
      "learning_rate": 9.700862477097592e-05,
      "loss": 0.3612550735473633,
      "memory(GiB)": 61.91,
      "step": 12915,
      "token_acc": 0.9175257731958762,
      "train_speed(iter/s)": 1.492561
    },
    {
      "epoch": 0.5535324107793154,
      "grad_norm": 3.909189224243164,
      "learning_rate": 9.700633151951441e-05,
      "loss": 0.44535222053527834,
      "memory(GiB)": 61.91,
      "step": 12920,
      "token_acc": 0.9078947368421053,
      "train_speed(iter/s)": 1.492551
    },
    {
      "epoch": 0.5537466261085643,
      "grad_norm": 5.765448570251465,
      "learning_rate": 9.700403741648909e-05,
      "loss": 0.5226988315582275,
      "memory(GiB)": 61.91,
      "step": 12925,
      "token_acc": 0.88671875,
      "train_speed(iter/s)": 1.492544
    },
    {
      "epoch": 0.5539608414378133,
      "grad_norm": 2.9847395420074463,
      "learning_rate": 9.700174246194155e-05,
      "loss": 0.2232513666152954,
      "memory(GiB)": 61.91,
      "step": 12930,
      "token_acc": 0.9440559440559441,
      "train_speed(iter/s)": 1.492532
    },
    {
      "epoch": 0.5541750567670622,
      "grad_norm": 3.396556854248047,
      "learning_rate": 9.699944665591336e-05,
      "loss": 0.4742887496948242,
      "memory(GiB)": 61.91,
      "step": 12935,
      "token_acc": 0.9074733096085409,
      "train_speed(iter/s)": 1.49253
    },
    {
      "epoch": 0.5543892720963112,
      "grad_norm": 0.6087324023246765,
      "learning_rate": 9.699714999844608e-05,
      "loss": 0.3564779758453369,
      "memory(GiB)": 61.91,
      "step": 12940,
      "token_acc": 0.9556313993174061,
      "train_speed(iter/s)": 1.492588
    },
    {
      "epoch": 0.5546034874255602,
      "grad_norm": 5.657891273498535,
      "learning_rate": 9.699485248958137e-05,
      "loss": 0.4252163887023926,
      "memory(GiB)": 61.91,
      "step": 12945,
      "token_acc": 0.9106529209621993,
      "train_speed(iter/s)": 1.492738
    },
    {
      "epoch": 0.5548177027548091,
      "grad_norm": 5.706553936004639,
      "learning_rate": 9.69925541293608e-05,
      "loss": 0.6801621437072753,
      "memory(GiB)": 61.91,
      "step": 12950,
      "token_acc": 0.8591549295774648,
      "train_speed(iter/s)": 1.492751
    },
    {
      "epoch": 0.555031918084058,
      "grad_norm": 5.870884418487549,
      "learning_rate": 9.699025491782606e-05,
      "loss": 0.5833921432495117,
      "memory(GiB)": 61.91,
      "step": 12955,
      "token_acc": 0.8740157480314961,
      "train_speed(iter/s)": 1.4928
    },
    {
      "epoch": 0.5552461334133071,
      "grad_norm": 1.3007453680038452,
      "learning_rate": 9.698795485501873e-05,
      "loss": 0.6328574180603027,
      "memory(GiB)": 61.91,
      "step": 12960,
      "token_acc": 0.8735177865612648,
      "train_speed(iter/s)": 1.492925
    },
    {
      "epoch": 0.555460348742556,
      "grad_norm": 3.717494010925293,
      "learning_rate": 9.698565394098054e-05,
      "loss": 0.21348028182983397,
      "memory(GiB)": 61.91,
      "step": 12965,
      "token_acc": 0.96,
      "train_speed(iter/s)": 1.493021
    },
    {
      "epoch": 0.5556745640718049,
      "grad_norm": 3.496403694152832,
      "learning_rate": 9.698335217575316e-05,
      "loss": 0.38600845336914064,
      "memory(GiB)": 61.91,
      "step": 12970,
      "token_acc": 0.9335443037974683,
      "train_speed(iter/s)": 1.492953
    },
    {
      "epoch": 0.555888779401054,
      "grad_norm": 1.6071022748947144,
      "learning_rate": 9.698104955937827e-05,
      "loss": 0.3222589254379272,
      "memory(GiB)": 61.91,
      "step": 12975,
      "token_acc": 0.926056338028169,
      "train_speed(iter/s)": 1.492967
    },
    {
      "epoch": 0.5561029947303029,
      "grad_norm": 1.717017650604248,
      "learning_rate": 9.697874609189759e-05,
      "loss": 0.509594202041626,
      "memory(GiB)": 61.91,
      "step": 12980,
      "token_acc": 0.8975265017667845,
      "train_speed(iter/s)": 1.493024
    },
    {
      "epoch": 0.5563172100595518,
      "grad_norm": 3.724766254425049,
      "learning_rate": 9.697644177335287e-05,
      "loss": 0.2775221586227417,
      "memory(GiB)": 61.91,
      "step": 12985,
      "token_acc": 0.9238410596026491,
      "train_speed(iter/s)": 1.493075
    },
    {
      "epoch": 0.5565314253888008,
      "grad_norm": 0.3296225965023041,
      "learning_rate": 9.697413660378584e-05,
      "loss": 0.23901448249816895,
      "memory(GiB)": 61.91,
      "step": 12990,
      "token_acc": 0.9503311258278145,
      "train_speed(iter/s)": 1.493091
    },
    {
      "epoch": 0.5567456407180498,
      "grad_norm": 2.913480281829834,
      "learning_rate": 9.697183058323826e-05,
      "loss": 0.2073270559310913,
      "memory(GiB)": 61.91,
      "step": 12995,
      "token_acc": 0.9477351916376306,
      "train_speed(iter/s)": 1.493101
    },
    {
      "epoch": 0.5569598560472987,
      "grad_norm": 0.422588974237442,
      "learning_rate": 9.69695237117519e-05,
      "loss": 0.38780086040496825,
      "memory(GiB)": 61.91,
      "step": 13000,
      "token_acc": 0.9230769230769231,
      "train_speed(iter/s)": 1.493093
    },
    {
      "epoch": 0.5569598560472987,
      "eval_loss": 2.645993709564209,
      "eval_runtime": 13.6838,
      "eval_samples_per_second": 7.308,
      "eval_steps_per_second": 7.308,
      "eval_token_acc": 0.43041237113402064,
      "step": 13000
    },
    {
      "epoch": 0.5571740713765477,
      "grad_norm": 2.112321615219116,
      "learning_rate": 9.696721598936856e-05,
      "loss": 0.36470842361450195,
      "memory(GiB)": 61.91,
      "step": 13005,
      "token_acc": 0.5755064456721916,
      "train_speed(iter/s)": 1.490601
    },
    {
      "epoch": 0.5573882867057967,
      "grad_norm": 2.0305707454681396,
      "learning_rate": 9.696490741613002e-05,
      "loss": 0.5130202770233154,
      "memory(GiB)": 61.91,
      "step": 13010,
      "token_acc": 0.8996655518394648,
      "train_speed(iter/s)": 1.490583
    },
    {
      "epoch": 0.5576025020350456,
      "grad_norm": 3.497251272201538,
      "learning_rate": 9.696259799207816e-05,
      "loss": 0.18693649768829346,
      "memory(GiB)": 61.91,
      "step": 13015,
      "token_acc": 0.9575163398692811,
      "train_speed(iter/s)": 1.49058
    },
    {
      "epoch": 0.5578167173642946,
      "grad_norm": 0.5946825742721558,
      "learning_rate": 9.696028771725476e-05,
      "loss": 0.3408238649368286,
      "memory(GiB)": 61.91,
      "step": 13020,
      "token_acc": 0.9259259259259259,
      "train_speed(iter/s)": 1.490544
    },
    {
      "epoch": 0.5580309326935435,
      "grad_norm": 4.600757122039795,
      "learning_rate": 9.695797659170171e-05,
      "loss": 0.4094806671142578,
      "memory(GiB)": 61.91,
      "step": 13025,
      "token_acc": 0.9159420289855073,
      "train_speed(iter/s)": 1.490529
    },
    {
      "epoch": 0.5582451480227925,
      "grad_norm": 7.566234588623047,
      "learning_rate": 9.695566461546086e-05,
      "loss": 0.6307057857513427,
      "memory(GiB)": 61.91,
      "step": 13030,
      "token_acc": 0.8659420289855072,
      "train_speed(iter/s)": 1.490547
    },
    {
      "epoch": 0.5584593633520415,
      "grad_norm": 6.146847248077393,
      "learning_rate": 9.695335178857409e-05,
      "loss": 0.48227667808532715,
      "memory(GiB)": 61.91,
      "step": 13035,
      "token_acc": 0.9044368600682594,
      "train_speed(iter/s)": 1.490503
    },
    {
      "epoch": 0.5586735786812904,
      "grad_norm": 4.2266669273376465,
      "learning_rate": 9.695103811108333e-05,
      "loss": 0.33376007080078124,
      "memory(GiB)": 61.91,
      "step": 13040,
      "token_acc": 0.9372384937238494,
      "train_speed(iter/s)": 1.490477
    },
    {
      "epoch": 0.5588877940105393,
      "grad_norm": 1.8757895231246948,
      "learning_rate": 9.694872358303044e-05,
      "loss": 0.31785335540771487,
      "memory(GiB)": 61.91,
      "step": 13045,
      "token_acc": 0.9510204081632653,
      "train_speed(iter/s)": 1.490488
    },
    {
      "epoch": 0.5591020093397884,
      "grad_norm": 2.5348691940307617,
      "learning_rate": 9.69464082044574e-05,
      "loss": 0.5548069477081299,
      "memory(GiB)": 61.91,
      "step": 13050,
      "token_acc": 0.8990228013029316,
      "train_speed(iter/s)": 1.490465
    },
    {
      "epoch": 0.5593162246690373,
      "grad_norm": 2.513394832611084,
      "learning_rate": 9.694409197540613e-05,
      "loss": 0.44098672866821287,
      "memory(GiB)": 61.91,
      "step": 13055,
      "token_acc": 0.9022801302931596,
      "train_speed(iter/s)": 1.490457
    },
    {
      "epoch": 0.5595304399982862,
      "grad_norm": 3.208719253540039,
      "learning_rate": 9.69417748959186e-05,
      "loss": 0.4759847640991211,
      "memory(GiB)": 61.91,
      "step": 13060,
      "token_acc": 0.9222972972972973,
      "train_speed(iter/s)": 1.490452
    },
    {
      "epoch": 0.5597446553275353,
      "grad_norm": 2.622288942337036,
      "learning_rate": 9.693945696603678e-05,
      "loss": 0.569830846786499,
      "memory(GiB)": 61.91,
      "step": 13065,
      "token_acc": 0.8819188191881919,
      "train_speed(iter/s)": 1.490462
    },
    {
      "epoch": 0.5599588706567842,
      "grad_norm": 5.744207859039307,
      "learning_rate": 9.693713818580265e-05,
      "loss": 0.5023719310760498,
      "memory(GiB)": 61.91,
      "step": 13070,
      "token_acc": 0.8924050632911392,
      "train_speed(iter/s)": 1.490446
    },
    {
      "epoch": 0.5601730859860332,
      "grad_norm": 1.7545088529586792,
      "learning_rate": 9.693481855525826e-05,
      "loss": 0.3205952405929565,
      "memory(GiB)": 61.91,
      "step": 13075,
      "token_acc": 0.9246031746031746,
      "train_speed(iter/s)": 1.490411
    },
    {
      "epoch": 0.5603873013152821,
      "grad_norm": 7.620838165283203,
      "learning_rate": 9.693249807444559e-05,
      "loss": 0.6212154865264893,
      "memory(GiB)": 61.91,
      "step": 13080,
      "token_acc": 0.8780487804878049,
      "train_speed(iter/s)": 1.49037
    },
    {
      "epoch": 0.5606015166445311,
      "grad_norm": 9.34473705291748,
      "learning_rate": 9.693017674340669e-05,
      "loss": 0.3625880241394043,
      "memory(GiB)": 61.91,
      "step": 13085,
      "token_acc": 0.9176470588235294,
      "train_speed(iter/s)": 1.490352
    },
    {
      "epoch": 0.5608157319737801,
      "grad_norm": 0.3704056143760681,
      "learning_rate": 9.69278545621836e-05,
      "loss": 0.28856773376464845,
      "memory(GiB)": 61.91,
      "step": 13090,
      "token_acc": 0.9509433962264151,
      "train_speed(iter/s)": 1.490514
    },
    {
      "epoch": 0.561029947303029,
      "grad_norm": 3.4762837886810303,
      "learning_rate": 9.692553153081842e-05,
      "loss": 0.28941960334777833,
      "memory(GiB)": 61.91,
      "step": 13095,
      "token_acc": 0.9363957597173145,
      "train_speed(iter/s)": 1.490494
    },
    {
      "epoch": 0.5612441626322779,
      "grad_norm": 2.495220422744751,
      "learning_rate": 9.692320764935322e-05,
      "loss": 0.5314304828643799,
      "memory(GiB)": 61.91,
      "step": 13100,
      "token_acc": 0.8868613138686131,
      "train_speed(iter/s)": 1.490471
    },
    {
      "epoch": 0.561458377961527,
      "grad_norm": 5.02890157699585,
      "learning_rate": 9.692088291783009e-05,
      "loss": 0.49011731147766113,
      "memory(GiB)": 61.91,
      "step": 13105,
      "token_acc": 0.8865248226950354,
      "train_speed(iter/s)": 1.490523
    },
    {
      "epoch": 0.5616725932907759,
      "grad_norm": 3.415149211883545,
      "learning_rate": 9.691855733629115e-05,
      "loss": 0.3201854944229126,
      "memory(GiB)": 61.91,
      "step": 13110,
      "token_acc": 0.9230769230769231,
      "train_speed(iter/s)": 1.490481
    },
    {
      "epoch": 0.5618868086200248,
      "grad_norm": 0.9847811460494995,
      "learning_rate": 9.691623090477852e-05,
      "loss": 0.21547043323516846,
      "memory(GiB)": 61.91,
      "step": 13115,
      "token_acc": 0.9444444444444444,
      "train_speed(iter/s)": 1.490513
    },
    {
      "epoch": 0.5621010239492739,
      "grad_norm": 5.6877851486206055,
      "learning_rate": 9.691390362333437e-05,
      "loss": 0.758168363571167,
      "memory(GiB)": 61.91,
      "step": 13120,
      "token_acc": 0.8380681818181818,
      "train_speed(iter/s)": 1.490537
    },
    {
      "epoch": 0.5623152392785228,
      "grad_norm": 4.985800743103027,
      "learning_rate": 9.691157549200085e-05,
      "loss": 0.3220491886138916,
      "memory(GiB)": 61.91,
      "step": 13125,
      "token_acc": 0.9358974358974359,
      "train_speed(iter/s)": 1.490552
    },
    {
      "epoch": 0.5625294546077717,
      "grad_norm": 5.033344745635986,
      "learning_rate": 9.690924651082014e-05,
      "loss": 0.5973250389099121,
      "memory(GiB)": 61.91,
      "step": 13130,
      "token_acc": 0.8607142857142858,
      "train_speed(iter/s)": 1.490495
    },
    {
      "epoch": 0.5627436699370207,
      "grad_norm": 4.5838093757629395,
      "learning_rate": 9.69069166798344e-05,
      "loss": 0.4568964958190918,
      "memory(GiB)": 61.91,
      "step": 13135,
      "token_acc": 0.8962264150943396,
      "train_speed(iter/s)": 1.490498
    },
    {
      "epoch": 0.5629578852662697,
      "grad_norm": 2.2657856941223145,
      "learning_rate": 9.690458599908588e-05,
      "loss": 0.6534167289733886,
      "memory(GiB)": 61.91,
      "step": 13140,
      "token_acc": 0.8657142857142858,
      "train_speed(iter/s)": 1.49047
    },
    {
      "epoch": 0.5631721005955186,
      "grad_norm": 4.3585381507873535,
      "learning_rate": 9.690225446861678e-05,
      "loss": 0.3150540113449097,
      "memory(GiB)": 61.91,
      "step": 13145,
      "token_acc": 0.9407407407407408,
      "train_speed(iter/s)": 1.490463
    },
    {
      "epoch": 0.5633863159247676,
      "grad_norm": 3.0564651489257812,
      "learning_rate": 9.689992208846934e-05,
      "loss": 0.42705330848693845,
      "memory(GiB)": 61.91,
      "step": 13150,
      "token_acc": 0.910958904109589,
      "train_speed(iter/s)": 1.490447
    },
    {
      "epoch": 0.5636005312540165,
      "grad_norm": 0.7883842587471008,
      "learning_rate": 9.689758885868582e-05,
      "loss": 0.44359073638916013,
      "memory(GiB)": 61.91,
      "step": 13155,
      "token_acc": 0.8807017543859649,
      "train_speed(iter/s)": 1.490457
    },
    {
      "epoch": 0.5638147465832655,
      "grad_norm": 4.302028179168701,
      "learning_rate": 9.689525477930848e-05,
      "loss": 0.24403347969055175,
      "memory(GiB)": 61.91,
      "step": 13160,
      "token_acc": 0.9506578947368421,
      "train_speed(iter/s)": 1.490454
    },
    {
      "epoch": 0.5640289619125145,
      "grad_norm": 2.2359607219696045,
      "learning_rate": 9.68929198503796e-05,
      "loss": 0.3351123332977295,
      "memory(GiB)": 61.91,
      "step": 13165,
      "token_acc": 0.9291338582677166,
      "train_speed(iter/s)": 1.490452
    },
    {
      "epoch": 0.5642431772417634,
      "grad_norm": 2.803471565246582,
      "learning_rate": 9.689058407194152e-05,
      "loss": 0.5444179058074952,
      "memory(GiB)": 61.91,
      "step": 13170,
      "token_acc": 0.8915254237288136,
      "train_speed(iter/s)": 1.490434
    },
    {
      "epoch": 0.5644573925710124,
      "grad_norm": 5.04897403717041,
      "learning_rate": 9.688824744403648e-05,
      "loss": 0.42846102714538575,
      "memory(GiB)": 61.91,
      "step": 13175,
      "token_acc": 0.9134615384615384,
      "train_speed(iter/s)": 1.49047
    },
    {
      "epoch": 0.5646716079002614,
      "grad_norm": 1.9409801959991455,
      "learning_rate": 9.688590996670688e-05,
      "loss": 0.40284295082092286,
      "memory(GiB)": 61.91,
      "step": 13180,
      "token_acc": 0.9024390243902439,
      "train_speed(iter/s)": 1.490467
    },
    {
      "epoch": 0.5648858232295103,
      "grad_norm": 2.3601760864257812,
      "learning_rate": 9.688357163999504e-05,
      "loss": 0.34731032848358157,
      "memory(GiB)": 61.91,
      "step": 13185,
      "token_acc": 0.9027777777777778,
      "train_speed(iter/s)": 1.490546
    },
    {
      "epoch": 0.5651000385587592,
      "grad_norm": 0.8404945135116577,
      "learning_rate": 9.68812324639433e-05,
      "loss": 0.17675092220306396,
      "memory(GiB)": 61.91,
      "step": 13190,
      "token_acc": 0.9693486590038314,
      "train_speed(iter/s)": 1.490555
    },
    {
      "epoch": 0.5653142538880083,
      "grad_norm": 3.971151113510132,
      "learning_rate": 9.687889243859407e-05,
      "loss": 0.42297706604003904,
      "memory(GiB)": 61.91,
      "step": 13195,
      "token_acc": 0.9124087591240876,
      "train_speed(iter/s)": 1.490528
    },
    {
      "epoch": 0.5655284692172572,
      "grad_norm": 2.9290502071380615,
      "learning_rate": 9.687655156398972e-05,
      "loss": 0.38873751163482667,
      "memory(GiB)": 61.91,
      "step": 13200,
      "token_acc": 0.9117647058823529,
      "train_speed(iter/s)": 1.490505
    },
    {
      "epoch": 0.5657426845465061,
      "grad_norm": 2.739459276199341,
      "learning_rate": 9.687420984017268e-05,
      "loss": 0.4084742069244385,
      "memory(GiB)": 61.91,
      "step": 13205,
      "token_acc": 0.9076433121019108,
      "train_speed(iter/s)": 1.490491
    },
    {
      "epoch": 0.5659568998757551,
      "grad_norm": 3.737039089202881,
      "learning_rate": 9.687186726718533e-05,
      "loss": 0.38274483680725097,
      "memory(GiB)": 61.91,
      "step": 13210,
      "token_acc": 0.9078947368421053,
      "train_speed(iter/s)": 1.490518
    },
    {
      "epoch": 0.5661711152050041,
      "grad_norm": 2.3709254264831543,
      "learning_rate": 9.686952384507017e-05,
      "loss": 0.5517672538757324,
      "memory(GiB)": 61.91,
      "step": 13215,
      "token_acc": 0.8918918918918919,
      "train_speed(iter/s)": 1.490499
    },
    {
      "epoch": 0.566385330534253,
      "grad_norm": 3.0234968662261963,
      "learning_rate": 9.686717957386959e-05,
      "loss": 0.43480143547058103,
      "memory(GiB)": 61.91,
      "step": 13220,
      "token_acc": 0.9094076655052264,
      "train_speed(iter/s)": 1.490523
    },
    {
      "epoch": 0.566599545863502,
      "grad_norm": 4.56168794631958,
      "learning_rate": 9.686483445362611e-05,
      "loss": 0.34618487358093264,
      "memory(GiB)": 61.91,
      "step": 13225,
      "token_acc": 0.9120879120879121,
      "train_speed(iter/s)": 1.490489
    },
    {
      "epoch": 0.566813761192751,
      "grad_norm": 1.5643035173416138,
      "learning_rate": 9.686248848438217e-05,
      "loss": 0.24843056201934816,
      "memory(GiB)": 61.91,
      "step": 13230,
      "token_acc": 0.9361022364217252,
      "train_speed(iter/s)": 1.490494
    },
    {
      "epoch": 0.5670279765219999,
      "grad_norm": 5.172840118408203,
      "learning_rate": 9.68601416661803e-05,
      "loss": 0.6226789474487304,
      "memory(GiB)": 61.91,
      "step": 13235,
      "token_acc": 0.8734693877551021,
      "train_speed(iter/s)": 1.490466
    },
    {
      "epoch": 0.5672421918512489,
      "grad_norm": 1.5658818483352661,
      "learning_rate": 9.6857793999063e-05,
      "loss": 0.4624669075012207,
      "memory(GiB)": 61.91,
      "step": 13240,
      "token_acc": 0.8993506493506493,
      "train_speed(iter/s)": 1.490443
    },
    {
      "epoch": 0.5674564071804978,
      "grad_norm": 2.891721248626709,
      "learning_rate": 9.685544548307281e-05,
      "loss": 0.594964075088501,
      "memory(GiB)": 61.91,
      "step": 13245,
      "token_acc": 0.8926174496644296,
      "train_speed(iter/s)": 1.490411
    },
    {
      "epoch": 0.5676706225097468,
      "grad_norm": 1.5209288597106934,
      "learning_rate": 9.685309611825226e-05,
      "loss": 0.40756726264953613,
      "memory(GiB)": 61.91,
      "step": 13250,
      "token_acc": 0.9118329466357309,
      "train_speed(iter/s)": 1.490417
    },
    {
      "epoch": 0.5678848378389958,
      "grad_norm": 7.023831367492676,
      "learning_rate": 9.685074590464394e-05,
      "loss": 0.11184229850769042,
      "memory(GiB)": 61.91,
      "step": 13255,
      "token_acc": 0.9787234042553191,
      "train_speed(iter/s)": 1.490381
    },
    {
      "epoch": 0.5680990531682447,
      "grad_norm": 7.077420234680176,
      "learning_rate": 9.68483948422904e-05,
      "loss": 0.14034852981567383,
      "memory(GiB)": 61.91,
      "step": 13260,
      "token_acc": 0.961864406779661,
      "train_speed(iter/s)": 1.490368
    },
    {
      "epoch": 0.5683132684974936,
      "grad_norm": 3.3042736053466797,
      "learning_rate": 9.684604293123425e-05,
      "loss": 0.4560530185699463,
      "memory(GiB)": 61.91,
      "step": 13265,
      "token_acc": 0.9012738853503185,
      "train_speed(iter/s)": 1.490337
    },
    {
      "epoch": 0.5685274838267427,
      "grad_norm": 3.953301191329956,
      "learning_rate": 9.684369017151806e-05,
      "loss": 0.38683319091796875,
      "memory(GiB)": 61.91,
      "step": 13270,
      "token_acc": 0.9250936329588015,
      "train_speed(iter/s)": 1.490381
    },
    {
      "epoch": 0.5687416991559916,
      "grad_norm": 2.0727710723876953,
      "learning_rate": 9.68413365631845e-05,
      "loss": 0.45212907791137696,
      "memory(GiB)": 61.91,
      "step": 13275,
      "token_acc": 0.8957654723127035,
      "train_speed(iter/s)": 1.490361
    },
    {
      "epoch": 0.5689559144852405,
      "grad_norm": 2.6606338024139404,
      "learning_rate": 9.68389821062762e-05,
      "loss": 0.39273929595947266,
      "memory(GiB)": 61.91,
      "step": 13280,
      "token_acc": 0.9224137931034483,
      "train_speed(iter/s)": 1.490352
    },
    {
      "epoch": 0.5691701298144896,
      "grad_norm": 2.7290172576904297,
      "learning_rate": 9.683662680083578e-05,
      "loss": 0.38120744228363035,
      "memory(GiB)": 61.91,
      "step": 13285,
      "token_acc": 0.9302325581395349,
      "train_speed(iter/s)": 1.490364
    },
    {
      "epoch": 0.5693843451437385,
      "grad_norm": 3.3262312412261963,
      "learning_rate": 9.683427064690593e-05,
      "loss": 0.3335121631622314,
      "memory(GiB)": 61.91,
      "step": 13290,
      "token_acc": 0.9192982456140351,
      "train_speed(iter/s)": 1.490364
    },
    {
      "epoch": 0.5695985604729874,
      "grad_norm": 4.114030838012695,
      "learning_rate": 9.683191364452934e-05,
      "loss": 0.6350560188293457,
      "memory(GiB)": 61.91,
      "step": 13295,
      "token_acc": 0.8798701298701299,
      "train_speed(iter/s)": 1.490379
    },
    {
      "epoch": 0.5698127758022364,
      "grad_norm": 1.5411256551742554,
      "learning_rate": 9.68295557937487e-05,
      "loss": 0.6142405986785888,
      "memory(GiB)": 61.91,
      "step": 13300,
      "token_acc": 0.8785046728971962,
      "train_speed(iter/s)": 1.490315
    },
    {
      "epoch": 0.5700269911314854,
      "grad_norm": 6.786955833435059,
      "learning_rate": 9.682719709460672e-05,
      "loss": 0.5116767883300781,
      "memory(GiB)": 61.91,
      "step": 13305,
      "token_acc": 0.8920863309352518,
      "train_speed(iter/s)": 1.490439
    },
    {
      "epoch": 0.5702412064607343,
      "grad_norm": 2.348670482635498,
      "learning_rate": 9.682483754714615e-05,
      "loss": 0.6818351745605469,
      "memory(GiB)": 61.91,
      "step": 13310,
      "token_acc": 0.8688524590163934,
      "train_speed(iter/s)": 1.490489
    },
    {
      "epoch": 0.5704554217899833,
      "grad_norm": 1.6320552825927734,
      "learning_rate": 9.682247715140974e-05,
      "loss": 0.39583237171173097,
      "memory(GiB)": 61.91,
      "step": 13315,
      "token_acc": 0.9388379204892966,
      "train_speed(iter/s)": 1.490498
    },
    {
      "epoch": 0.5706696371192322,
      "grad_norm": 3.3893632888793945,
      "learning_rate": 9.68201159074402e-05,
      "loss": 0.6101117134094238,
      "memory(GiB)": 61.91,
      "step": 13320,
      "token_acc": 0.884375,
      "train_speed(iter/s)": 1.490461
    },
    {
      "epoch": 0.5708838524484812,
      "grad_norm": 3.37837553024292,
      "learning_rate": 9.681775381528034e-05,
      "loss": 0.4471477508544922,
      "memory(GiB)": 61.91,
      "step": 13325,
      "token_acc": 0.8970588235294118,
      "train_speed(iter/s)": 1.490502
    },
    {
      "epoch": 0.5710980677777302,
      "grad_norm": 1.4890791177749634,
      "learning_rate": 9.681539087497296e-05,
      "loss": 0.5617738723754883,
      "memory(GiB)": 61.91,
      "step": 13330,
      "token_acc": 0.8712871287128713,
      "train_speed(iter/s)": 1.490552
    },
    {
      "epoch": 0.5713122831069791,
      "grad_norm": 1.7019623517990112,
      "learning_rate": 9.681302708656086e-05,
      "loss": 0.4303577423095703,
      "memory(GiB)": 61.91,
      "step": 13335,
      "token_acc": 0.8990228013029316,
      "train_speed(iter/s)": 1.490566
    },
    {
      "epoch": 0.571526498436228,
      "grad_norm": 2.995971441268921,
      "learning_rate": 9.681066245008687e-05,
      "loss": 0.43776531219482423,
      "memory(GiB)": 61.91,
      "step": 13340,
      "token_acc": 0.903010033444816,
      "train_speed(iter/s)": 1.490553
    },
    {
      "epoch": 0.5717407137654771,
      "grad_norm": 2.650177001953125,
      "learning_rate": 9.68082969655938e-05,
      "loss": 0.3034083366394043,
      "memory(GiB)": 61.91,
      "step": 13345,
      "token_acc": 0.9460431654676259,
      "train_speed(iter/s)": 1.490562
    },
    {
      "epoch": 0.571954929094726,
      "grad_norm": 5.425454139709473,
      "learning_rate": 9.680593063312454e-05,
      "loss": 0.5938477039337158,
      "memory(GiB)": 61.91,
      "step": 13350,
      "token_acc": 0.8868613138686131,
      "train_speed(iter/s)": 1.490533
    },
    {
      "epoch": 0.5721691444239749,
      "grad_norm": 3.6616811752319336,
      "learning_rate": 9.680356345272193e-05,
      "loss": 0.23226375579833985,
      "memory(GiB)": 61.91,
      "step": 13355,
      "token_acc": 0.9456869009584664,
      "train_speed(iter/s)": 1.490593
    },
    {
      "epoch": 0.572383359753224,
      "grad_norm": 1.9663934707641602,
      "learning_rate": 9.680119542442885e-05,
      "loss": 0.3447110652923584,
      "memory(GiB)": 61.91,
      "step": 13360,
      "token_acc": 0.9205479452054794,
      "train_speed(iter/s)": 1.490623
    },
    {
      "epoch": 0.5725975750824729,
      "grad_norm": 2.0027260780334473,
      "learning_rate": 9.679882654828822e-05,
      "loss": 0.3962819576263428,
      "memory(GiB)": 61.91,
      "step": 13365,
      "token_acc": 0.9087591240875912,
      "train_speed(iter/s)": 1.490642
    },
    {
      "epoch": 0.5728117904117218,
      "grad_norm": 0.6651832461357117,
      "learning_rate": 9.679645682434295e-05,
      "loss": 0.32296640872955323,
      "memory(GiB)": 61.91,
      "step": 13370,
      "token_acc": 0.9246031746031746,
      "train_speed(iter/s)": 1.490639
    },
    {
      "epoch": 0.5730260057409708,
      "grad_norm": 7.477115631103516,
      "learning_rate": 9.679408625263596e-05,
      "loss": 0.1644531011581421,
      "memory(GiB)": 61.91,
      "step": 13375,
      "token_acc": 0.9591836734693877,
      "train_speed(iter/s)": 1.490664
    },
    {
      "epoch": 0.5732402210702198,
      "grad_norm": 2.821225881576538,
      "learning_rate": 9.679171483321022e-05,
      "loss": 0.6215180873870849,
      "memory(GiB)": 61.91,
      "step": 13380,
      "token_acc": 0.8739495798319328,
      "train_speed(iter/s)": 1.490723
    },
    {
      "epoch": 0.5734544363994687,
      "grad_norm": 0.33988627791404724,
      "learning_rate": 9.678934256610864e-05,
      "loss": 0.2508926630020142,
      "memory(GiB)": 61.91,
      "step": 13385,
      "token_acc": 0.9381818181818182,
      "train_speed(iter/s)": 1.490744
    },
    {
      "epoch": 0.5736686517287177,
      "grad_norm": 0.10258810222148895,
      "learning_rate": 9.678696945137424e-05,
      "loss": 0.29040524959564207,
      "memory(GiB)": 61.91,
      "step": 13390,
      "token_acc": 0.9303135888501742,
      "train_speed(iter/s)": 1.490754
    },
    {
      "epoch": 0.5738828670579667,
      "grad_norm": 4.647797584533691,
      "learning_rate": 9.678459548905001e-05,
      "loss": 0.38529324531555176,
      "memory(GiB)": 61.91,
      "step": 13395,
      "token_acc": 0.9309309309309309,
      "train_speed(iter/s)": 1.490731
    },
    {
      "epoch": 0.5740970823872156,
      "grad_norm": 4.82197380065918,
      "learning_rate": 9.678222067917893e-05,
      "loss": 0.3822281837463379,
      "memory(GiB)": 61.91,
      "step": 13400,
      "token_acc": 0.9071428571428571,
      "train_speed(iter/s)": 1.49071
    },
    {
      "epoch": 0.5743112977164646,
      "grad_norm": 2.553710699081421,
      "learning_rate": 9.677984502180405e-05,
      "loss": 0.41651020050048826,
      "memory(GiB)": 61.91,
      "step": 13405,
      "token_acc": 0.8896103896103896,
      "train_speed(iter/s)": 1.49068
    },
    {
      "epoch": 0.5745255130457135,
      "grad_norm": 10.510475158691406,
      "learning_rate": 9.677746851696838e-05,
      "loss": 0.1603337049484253,
      "memory(GiB)": 61.91,
      "step": 13410,
      "token_acc": 0.9703947368421053,
      "train_speed(iter/s)": 1.490658
    },
    {
      "epoch": 0.5747397283749626,
      "grad_norm": 1.790899634361267,
      "learning_rate": 9.6775091164715e-05,
      "loss": 0.37792010307312013,
      "memory(GiB)": 61.91,
      "step": 13415,
      "token_acc": 0.9276315789473685,
      "train_speed(iter/s)": 1.490657
    },
    {
      "epoch": 0.5749539437042115,
      "grad_norm": 4.038863658905029,
      "learning_rate": 9.677271296508697e-05,
      "loss": 0.548935842514038,
      "memory(GiB)": 61.91,
      "step": 13420,
      "token_acc": 0.8785942492012779,
      "train_speed(iter/s)": 1.490652
    },
    {
      "epoch": 0.5751681590334604,
      "grad_norm": 1.4322264194488525,
      "learning_rate": 9.677033391812736e-05,
      "loss": 0.21003298759460448,
      "memory(GiB)": 61.91,
      "step": 13425,
      "token_acc": 0.9482071713147411,
      "train_speed(iter/s)": 1.490657
    },
    {
      "epoch": 0.5753823743627094,
      "grad_norm": 7.586784839630127,
      "learning_rate": 9.676795402387927e-05,
      "loss": 0.38659253120422366,
      "memory(GiB)": 61.91,
      "step": 13430,
      "token_acc": 0.9195804195804196,
      "train_speed(iter/s)": 1.490645
    },
    {
      "epoch": 0.5755965896919584,
      "grad_norm": 1.9697051048278809,
      "learning_rate": 9.676557328238582e-05,
      "loss": 0.2939443826675415,
      "memory(GiB)": 61.91,
      "step": 13435,
      "token_acc": 0.9377289377289377,
      "train_speed(iter/s)": 1.490708
    },
    {
      "epoch": 0.5758108050212073,
      "grad_norm": 2.1904191970825195,
      "learning_rate": 9.676319169369016e-05,
      "loss": 0.3012415409088135,
      "memory(GiB)": 61.91,
      "step": 13440,
      "token_acc": 0.9193548387096774,
      "train_speed(iter/s)": 1.490659
    },
    {
      "epoch": 0.5760250203504563,
      "grad_norm": 2.9046692848205566,
      "learning_rate": 9.67608092578354e-05,
      "loss": 0.4096056938171387,
      "memory(GiB)": 61.91,
      "step": 13445,
      "token_acc": 0.9225806451612903,
      "train_speed(iter/s)": 1.490638
    },
    {
      "epoch": 0.5762392356797053,
      "grad_norm": 4.578183174133301,
      "learning_rate": 9.675842597486471e-05,
      "loss": 0.45118465423583987,
      "memory(GiB)": 61.91,
      "step": 13450,
      "token_acc": 0.8934169278996865,
      "train_speed(iter/s)": 1.490643
    },
    {
      "epoch": 0.5764534510089542,
      "grad_norm": 3.1019625663757324,
      "learning_rate": 9.675604184482129e-05,
      "loss": 0.46416077613830564,
      "memory(GiB)": 61.91,
      "step": 13455,
      "token_acc": 0.9061224489795918,
      "train_speed(iter/s)": 1.490714
    },
    {
      "epoch": 0.5766676663382032,
      "grad_norm": 2.354992628097534,
      "learning_rate": 9.67536568677483e-05,
      "loss": 0.33783793449401855,
      "memory(GiB)": 61.91,
      "step": 13460,
      "token_acc": 0.9266666666666666,
      "train_speed(iter/s)": 1.490717
    },
    {
      "epoch": 0.5768818816674521,
      "grad_norm": 0.8575239777565002,
      "learning_rate": 9.675127104368895e-05,
      "loss": 0.34040853977203367,
      "memory(GiB)": 61.91,
      "step": 13465,
      "token_acc": 0.9221183800623053,
      "train_speed(iter/s)": 1.490734
    },
    {
      "epoch": 0.5770960969967011,
      "grad_norm": 3.928168773651123,
      "learning_rate": 9.674888437268648e-05,
      "loss": 0.60721435546875,
      "memory(GiB)": 61.91,
      "step": 13470,
      "token_acc": 0.86328125,
      "train_speed(iter/s)": 1.490727
    },
    {
      "epoch": 0.5773103123259501,
      "grad_norm": 1.5958478450775146,
      "learning_rate": 9.674649685478412e-05,
      "loss": 0.16885098218917846,
      "memory(GiB)": 61.91,
      "step": 13475,
      "token_acc": 0.9639344262295082,
      "train_speed(iter/s)": 1.49071
    },
    {
      "epoch": 0.577524527655199,
      "grad_norm": 6.546055316925049,
      "learning_rate": 9.67441084900251e-05,
      "loss": 0.45613937377929686,
      "memory(GiB)": 61.91,
      "step": 13480,
      "token_acc": 0.9090909090909091,
      "train_speed(iter/s)": 1.490693
    },
    {
      "epoch": 0.5777387429844479,
      "grad_norm": 1.8657541275024414,
      "learning_rate": 9.674171927845272e-05,
      "loss": 0.19820718765258788,
      "memory(GiB)": 61.91,
      "step": 13485,
      "token_acc": 0.9471830985915493,
      "train_speed(iter/s)": 1.490686
    },
    {
      "epoch": 0.577952958313697,
      "grad_norm": 4.075368881225586,
      "learning_rate": 9.673932922011024e-05,
      "loss": 0.43367853164672854,
      "memory(GiB)": 61.91,
      "step": 13490,
      "token_acc": 0.9244604316546763,
      "train_speed(iter/s)": 1.490626
    },
    {
      "epoch": 0.5781671736429459,
      "grad_norm": 3.092252254486084,
      "learning_rate": 9.673693831504096e-05,
      "loss": 0.31474554538726807,
      "memory(GiB)": 61.91,
      "step": 13495,
      "token_acc": 0.928082191780822,
      "train_speed(iter/s)": 1.490664
    },
    {
      "epoch": 0.5783813889721948,
      "grad_norm": 4.00586462020874,
      "learning_rate": 9.673454656328823e-05,
      "loss": 0.6068418502807618,
      "memory(GiB)": 61.91,
      "step": 13500,
      "token_acc": 0.8876811594202898,
      "train_speed(iter/s)": 1.490689
    },
    {
      "epoch": 0.5783813889721948,
      "eval_loss": 2.6489007472991943,
      "eval_runtime": 12.8789,
      "eval_samples_per_second": 7.765,
      "eval_steps_per_second": 7.765,
      "eval_token_acc": 0.4077025232403719,
      "step": 13500
    },
    {
      "epoch": 0.5785956043014439,
      "grad_norm": 2.8116018772125244,
      "learning_rate": 9.673215396489531e-05,
      "loss": 0.3607691764831543,
      "memory(GiB)": 61.91,
      "step": 13505,
      "token_acc": 0.5429122468659595,
      "train_speed(iter/s)": 1.488369
    },
    {
      "epoch": 0.5788098196306928,
      "grad_norm": 2.408745288848877,
      "learning_rate": 9.67297605199056e-05,
      "loss": 0.2182774543762207,
      "memory(GiB)": 61.91,
      "step": 13510,
      "token_acc": 0.9288256227758007,
      "train_speed(iter/s)": 1.488356
    },
    {
      "epoch": 0.5790240349599417,
      "grad_norm": 12.628022193908691,
      "learning_rate": 9.672736622836245e-05,
      "loss": 0.6455174922943115,
      "memory(GiB)": 61.91,
      "step": 13515,
      "token_acc": 0.8611111111111112,
      "train_speed(iter/s)": 1.488354
    },
    {
      "epoch": 0.5792382502891907,
      "grad_norm": 2.722378969192505,
      "learning_rate": 9.672497109030922e-05,
      "loss": 0.41347346305847166,
      "memory(GiB)": 61.91,
      "step": 13520,
      "token_acc": 0.9169435215946844,
      "train_speed(iter/s)": 1.488377
    },
    {
      "epoch": 0.5794524656184397,
      "grad_norm": 5.904735088348389,
      "learning_rate": 9.67225751057893e-05,
      "loss": 0.7364228248596192,
      "memory(GiB)": 61.91,
      "step": 13525,
      "token_acc": 0.8362068965517241,
      "train_speed(iter/s)": 1.488537
    },
    {
      "epoch": 0.5796666809476886,
      "grad_norm": 3.233441114425659,
      "learning_rate": 9.672017827484611e-05,
      "loss": 0.26290345191955566,
      "memory(GiB)": 61.91,
      "step": 13530,
      "token_acc": 0.9494949494949495,
      "train_speed(iter/s)": 1.488563
    },
    {
      "epoch": 0.5798808962769376,
      "grad_norm": 3.0749428272247314,
      "learning_rate": 9.671778059752305e-05,
      "loss": 0.5654623985290528,
      "memory(GiB)": 61.91,
      "step": 13535,
      "token_acc": 0.8865979381443299,
      "train_speed(iter/s)": 1.488556
    },
    {
      "epoch": 0.5800951116061865,
      "grad_norm": 6.65649938583374,
      "learning_rate": 9.67153820738636e-05,
      "loss": 0.3867976188659668,
      "memory(GiB)": 61.91,
      "step": 13540,
      "token_acc": 0.9236111111111112,
      "train_speed(iter/s)": 1.488502
    },
    {
      "epoch": 0.5803093269354355,
      "grad_norm": 2.6117939949035645,
      "learning_rate": 9.671298270391114e-05,
      "loss": 0.2474213123321533,
      "memory(GiB)": 61.91,
      "step": 13545,
      "token_acc": 0.9242424242424242,
      "train_speed(iter/s)": 1.488475
    },
    {
      "epoch": 0.5805235422646845,
      "grad_norm": 2.9311411380767822,
      "learning_rate": 9.671058248770922e-05,
      "loss": 0.40988454818725584,
      "memory(GiB)": 61.91,
      "step": 13550,
      "token_acc": 0.926829268292683,
      "train_speed(iter/s)": 1.488438
    },
    {
      "epoch": 0.5807377575939334,
      "grad_norm": 1.5507254600524902,
      "learning_rate": 9.670818142530125e-05,
      "loss": 0.4317680835723877,
      "memory(GiB)": 61.91,
      "step": 13555,
      "token_acc": 0.9056603773584906,
      "train_speed(iter/s)": 1.488409
    },
    {
      "epoch": 0.5809519729231823,
      "grad_norm": 2.513195514678955,
      "learning_rate": 9.670577951673076e-05,
      "loss": 0.3436610460281372,
      "memory(GiB)": 61.91,
      "step": 13560,
      "token_acc": 0.9221556886227545,
      "train_speed(iter/s)": 1.488392
    },
    {
      "epoch": 0.5811661882524314,
      "grad_norm": 0.5031458139419556,
      "learning_rate": 9.670337676204127e-05,
      "loss": 0.377254581451416,
      "memory(GiB)": 61.91,
      "step": 13565,
      "token_acc": 0.8969072164948454,
      "train_speed(iter/s)": 1.488371
    },
    {
      "epoch": 0.5813804035816803,
      "grad_norm": 4.493702411651611,
      "learning_rate": 9.670097316127631e-05,
      "loss": 0.44896087646484373,
      "memory(GiB)": 61.91,
      "step": 13570,
      "token_acc": 0.8990228013029316,
      "train_speed(iter/s)": 1.4884
    },
    {
      "epoch": 0.5815946189109292,
      "grad_norm": 3.885554075241089,
      "learning_rate": 9.66985687144794e-05,
      "loss": 0.6597471237182617,
      "memory(GiB)": 61.91,
      "step": 13575,
      "token_acc": 0.8736059479553904,
      "train_speed(iter/s)": 1.488394
    },
    {
      "epoch": 0.5818088342401783,
      "grad_norm": 4.559040546417236,
      "learning_rate": 9.66961634216941e-05,
      "loss": 0.2627657413482666,
      "memory(GiB)": 61.91,
      "step": 13580,
      "token_acc": 0.914396887159533,
      "train_speed(iter/s)": 1.488431
    },
    {
      "epoch": 0.5820230495694272,
      "grad_norm": 4.202556133270264,
      "learning_rate": 9.669375728296402e-05,
      "loss": 0.22635350227355958,
      "memory(GiB)": 61.91,
      "step": 13585,
      "token_acc": 0.9597069597069597,
      "train_speed(iter/s)": 1.488372
    },
    {
      "epoch": 0.5822372648986761,
      "grad_norm": 7.757063865661621,
      "learning_rate": 9.66913502983327e-05,
      "loss": 0.4031222343444824,
      "memory(GiB)": 61.91,
      "step": 13590,
      "token_acc": 0.9018987341772152,
      "train_speed(iter/s)": 1.488372
    },
    {
      "epoch": 0.5824514802279251,
      "grad_norm": 3.6609575748443604,
      "learning_rate": 9.668894246784378e-05,
      "loss": 0.48310256004333496,
      "memory(GiB)": 61.91,
      "step": 13595,
      "token_acc": 0.9035369774919614,
      "train_speed(iter/s)": 1.488424
    },
    {
      "epoch": 0.5826656955571741,
      "grad_norm": 2.3712892532348633,
      "learning_rate": 9.668653379154086e-05,
      "loss": 0.45130243301391604,
      "memory(GiB)": 61.91,
      "step": 13600,
      "token_acc": 0.9235880398671097,
      "train_speed(iter/s)": 1.488461
    },
    {
      "epoch": 0.582879910886423,
      "grad_norm": 3.0951056480407715,
      "learning_rate": 9.66841242694676e-05,
      "loss": 0.3148458242416382,
      "memory(GiB)": 61.91,
      "step": 13605,
      "token_acc": 0.922509225092251,
      "train_speed(iter/s)": 1.488453
    },
    {
      "epoch": 0.583094126215672,
      "grad_norm": 1.5078330039978027,
      "learning_rate": 9.668171390166763e-05,
      "loss": 0.345990514755249,
      "memory(GiB)": 61.91,
      "step": 13610,
      "token_acc": 0.9397163120567376,
      "train_speed(iter/s)": 1.488456
    },
    {
      "epoch": 0.583308341544921,
      "grad_norm": 5.079171657562256,
      "learning_rate": 9.667930268818462e-05,
      "loss": 0.49607076644897463,
      "memory(GiB)": 61.91,
      "step": 13615,
      "token_acc": 0.8976897689768977,
      "train_speed(iter/s)": 1.488472
    },
    {
      "epoch": 0.5835225568741699,
      "grad_norm": 1.0359894037246704,
      "learning_rate": 9.667689062906226e-05,
      "loss": 0.26001021862030027,
      "memory(GiB)": 61.91,
      "step": 13620,
      "token_acc": 0.940983606557377,
      "train_speed(iter/s)": 1.488482
    },
    {
      "epoch": 0.5837367722034189,
      "grad_norm": 2.1008126735687256,
      "learning_rate": 9.667447772434423e-05,
      "loss": 0.32034189701080323,
      "memory(GiB)": 61.91,
      "step": 13625,
      "token_acc": 0.9288025889967637,
      "train_speed(iter/s)": 1.488544
    },
    {
      "epoch": 0.5839509875326678,
      "grad_norm": 4.930720329284668,
      "learning_rate": 9.667206397407426e-05,
      "loss": 0.7969061851501464,
      "memory(GiB)": 61.91,
      "step": 13630,
      "token_acc": 0.881578947368421,
      "train_speed(iter/s)": 1.488572
    },
    {
      "epoch": 0.5841652028619168,
      "grad_norm": 7.479313850402832,
      "learning_rate": 9.666964937829606e-05,
      "loss": 0.6103077411651612,
      "memory(GiB)": 61.91,
      "step": 13635,
      "token_acc": 0.871875,
      "train_speed(iter/s)": 1.488543
    },
    {
      "epoch": 0.5843794181911658,
      "grad_norm": 2.0037899017333984,
      "learning_rate": 9.666723393705339e-05,
      "loss": 0.4689946174621582,
      "memory(GiB)": 61.91,
      "step": 13640,
      "token_acc": 0.8952380952380953,
      "train_speed(iter/s)": 1.488543
    },
    {
      "epoch": 0.5845936335204147,
      "grad_norm": 3.2685415744781494,
      "learning_rate": 9.666481765038999e-05,
      "loss": 0.2537943124771118,
      "memory(GiB)": 61.91,
      "step": 13645,
      "token_acc": 0.9365079365079365,
      "train_speed(iter/s)": 1.488518
    },
    {
      "epoch": 0.5848078488496636,
      "grad_norm": 4.9026198387146,
      "learning_rate": 9.666240051834965e-05,
      "loss": 0.44504776000976565,
      "memory(GiB)": 61.91,
      "step": 13650,
      "token_acc": 0.9383561643835616,
      "train_speed(iter/s)": 1.488479
    },
    {
      "epoch": 0.5850220641789127,
      "grad_norm": 0.6264171004295349,
      "learning_rate": 9.665998254097616e-05,
      "loss": 0.14431467056274414,
      "memory(GiB)": 61.91,
      "step": 13655,
      "token_acc": 0.9683794466403162,
      "train_speed(iter/s)": 1.488427
    },
    {
      "epoch": 0.5852362795081616,
      "grad_norm": 1.251159429550171,
      "learning_rate": 9.66575637183133e-05,
      "loss": 0.5726042747497558,
      "memory(GiB)": 61.91,
      "step": 13660,
      "token_acc": 0.8604651162790697,
      "train_speed(iter/s)": 1.488482
    },
    {
      "epoch": 0.5854504948374105,
      "grad_norm": 4.787815570831299,
      "learning_rate": 9.665514405040491e-05,
      "loss": 0.979379940032959,
      "memory(GiB)": 61.91,
      "step": 13665,
      "token_acc": 0.8230088495575221,
      "train_speed(iter/s)": 1.488456
    },
    {
      "epoch": 0.5856647101666596,
      "grad_norm": 4.100827693939209,
      "learning_rate": 9.665272353729482e-05,
      "loss": 0.3607770919799805,
      "memory(GiB)": 61.91,
      "step": 13670,
      "token_acc": 0.917910447761194,
      "train_speed(iter/s)": 1.488445
    },
    {
      "epoch": 0.5858789254959085,
      "grad_norm": 2.614910840988159,
      "learning_rate": 9.665030217902688e-05,
      "loss": 0.27694082260131836,
      "memory(GiB)": 61.91,
      "step": 13675,
      "token_acc": 0.9475409836065574,
      "train_speed(iter/s)": 1.488455
    },
    {
      "epoch": 0.5860931408251574,
      "grad_norm": 3.2868263721466064,
      "learning_rate": 9.664787997564496e-05,
      "loss": 0.896211814880371,
      "memory(GiB)": 61.91,
      "step": 13680,
      "token_acc": 0.8256227758007118,
      "train_speed(iter/s)": 1.488507
    },
    {
      "epoch": 0.5863073561544064,
      "grad_norm": 2.4300742149353027,
      "learning_rate": 9.664545692719293e-05,
      "loss": 0.44839677810668943,
      "memory(GiB)": 61.91,
      "step": 13685,
      "token_acc": 0.893687707641196,
      "train_speed(iter/s)": 1.488472
    },
    {
      "epoch": 0.5865215714836554,
      "grad_norm": 4.986358165740967,
      "learning_rate": 9.66430330337147e-05,
      "loss": 0.5378251075744629,
      "memory(GiB)": 61.91,
      "step": 13690,
      "token_acc": 0.8866279069767442,
      "train_speed(iter/s)": 1.488472
    },
    {
      "epoch": 0.5867357868129043,
      "grad_norm": 2.3901846408843994,
      "learning_rate": 9.664060829525416e-05,
      "loss": 0.3968550682067871,
      "memory(GiB)": 61.91,
      "step": 13695,
      "token_acc": 0.9351535836177475,
      "train_speed(iter/s)": 1.488592
    },
    {
      "epoch": 0.5869500021421533,
      "grad_norm": 0.040224913507699966,
      "learning_rate": 9.663818271185525e-05,
      "loss": 0.2545372724533081,
      "memory(GiB)": 61.91,
      "step": 13700,
      "token_acc": 0.9292604501607717,
      "train_speed(iter/s)": 1.488565
    },
    {
      "epoch": 0.5871642174714022,
      "grad_norm": 3.493652105331421,
      "learning_rate": 9.663575628356191e-05,
      "loss": 0.4006034851074219,
      "memory(GiB)": 61.91,
      "step": 13705,
      "token_acc": 0.9129129129129129,
      "train_speed(iter/s)": 1.48855
    },
    {
      "epoch": 0.5873784328006512,
      "grad_norm": 2.3909530639648438,
      "learning_rate": 9.663332901041809e-05,
      "loss": 0.6866885662078858,
      "memory(GiB)": 61.91,
      "step": 13710,
      "token_acc": 0.8754716981132076,
      "train_speed(iter/s)": 1.488566
    },
    {
      "epoch": 0.5875926481299002,
      "grad_norm": 2.0919344425201416,
      "learning_rate": 9.663090089246778e-05,
      "loss": 0.45888748168945315,
      "memory(GiB)": 61.91,
      "step": 13715,
      "token_acc": 0.8990536277602523,
      "train_speed(iter/s)": 1.488542
    },
    {
      "epoch": 0.5878068634591491,
      "grad_norm": 3.4094502925872803,
      "learning_rate": 9.662847192975496e-05,
      "loss": 0.4969906806945801,
      "memory(GiB)": 61.91,
      "step": 13720,
      "token_acc": 0.8973684210526316,
      "train_speed(iter/s)": 1.488543
    },
    {
      "epoch": 0.588021078788398,
      "grad_norm": 6.400973320007324,
      "learning_rate": 9.662604212232362e-05,
      "loss": 0.45326967239379884,
      "memory(GiB)": 61.91,
      "step": 13725,
      "token_acc": 0.8994082840236687,
      "train_speed(iter/s)": 1.488572
    },
    {
      "epoch": 0.5882352941176471,
      "grad_norm": 4.781771183013916,
      "learning_rate": 9.662361147021779e-05,
      "loss": 0.75138840675354,
      "memory(GiB)": 61.91,
      "step": 13730,
      "token_acc": 0.847457627118644,
      "train_speed(iter/s)": 1.488546
    },
    {
      "epoch": 0.588449509446896,
      "grad_norm": 14.103879928588867,
      "learning_rate": 9.662117997348151e-05,
      "loss": 0.7839416027069092,
      "memory(GiB)": 61.91,
      "step": 13735,
      "token_acc": 0.8212290502793296,
      "train_speed(iter/s)": 1.48856
    },
    {
      "epoch": 0.588663724776145,
      "grad_norm": 3.6092867851257324,
      "learning_rate": 9.661874763215881e-05,
      "loss": 0.5428380012512207,
      "memory(GiB)": 61.91,
      "step": 13740,
      "token_acc": 0.8870967741935484,
      "train_speed(iter/s)": 1.488622
    },
    {
      "epoch": 0.588877940105394,
      "grad_norm": 2.630082607269287,
      "learning_rate": 9.661631444629378e-05,
      "loss": 0.3032931566238403,
      "memory(GiB)": 61.91,
      "step": 13745,
      "token_acc": 0.9219858156028369,
      "train_speed(iter/s)": 1.4886
    },
    {
      "epoch": 0.5890921554346429,
      "grad_norm": 2.1401615142822266,
      "learning_rate": 9.661388041593047e-05,
      "loss": 0.3926527500152588,
      "memory(GiB)": 61.91,
      "step": 13750,
      "token_acc": 0.9209726443768997,
      "train_speed(iter/s)": 1.488586
    },
    {
      "epoch": 0.5893063707638919,
      "grad_norm": 3.194918155670166,
      "learning_rate": 9.661144554111298e-05,
      "loss": 0.16474244594573975,
      "memory(GiB)": 61.91,
      "step": 13755,
      "token_acc": 0.9715447154471545,
      "train_speed(iter/s)": 1.488613
    },
    {
      "epoch": 0.5895205860931408,
      "grad_norm": 3.371760845184326,
      "learning_rate": 9.660900982188545e-05,
      "loss": 0.41986966133117676,
      "memory(GiB)": 61.91,
      "step": 13760,
      "token_acc": 0.9155405405405406,
      "train_speed(iter/s)": 1.488625
    },
    {
      "epoch": 0.5897348014223898,
      "grad_norm": 3.066784620285034,
      "learning_rate": 9.660657325829198e-05,
      "loss": 0.32955756187438967,
      "memory(GiB)": 61.91,
      "step": 13765,
      "token_acc": 0.9266862170087976,
      "train_speed(iter/s)": 1.488626
    },
    {
      "epoch": 0.5899490167516388,
      "grad_norm": 2.9243412017822266,
      "learning_rate": 9.660413585037671e-05,
      "loss": 0.3419323205947876,
      "memory(GiB)": 61.91,
      "step": 13770,
      "token_acc": 0.9295302013422819,
      "train_speed(iter/s)": 1.488601
    },
    {
      "epoch": 0.5901632320808877,
      "grad_norm": 6.241645812988281,
      "learning_rate": 9.66016975981838e-05,
      "loss": 0.5576666355133056,
      "memory(GiB)": 61.91,
      "step": 13775,
      "token_acc": 0.8862275449101796,
      "train_speed(iter/s)": 1.488587
    },
    {
      "epoch": 0.5903774474101366,
      "grad_norm": 1.6669409275054932,
      "learning_rate": 9.659925850175742e-05,
      "loss": 0.6932161808013916,
      "memory(GiB)": 61.91,
      "step": 13780,
      "token_acc": 0.8566978193146417,
      "train_speed(iter/s)": 1.488556
    },
    {
      "epoch": 0.5905916627393857,
      "grad_norm": 3.320474147796631,
      "learning_rate": 9.659681856114177e-05,
      "loss": 0.42017450332641604,
      "memory(GiB)": 61.91,
      "step": 13785,
      "token_acc": 0.9019607843137255,
      "train_speed(iter/s)": 1.488571
    },
    {
      "epoch": 0.5908058780686346,
      "grad_norm": 5.830926895141602,
      "learning_rate": 9.659437777638102e-05,
      "loss": 0.5472935676574707,
      "memory(GiB)": 61.91,
      "step": 13790,
      "token_acc": 0.8712121212121212,
      "train_speed(iter/s)": 1.488574
    },
    {
      "epoch": 0.5910200933978835,
      "grad_norm": 4.40803337097168,
      "learning_rate": 9.659193614751942e-05,
      "loss": 0.2612058877944946,
      "memory(GiB)": 61.91,
      "step": 13795,
      "token_acc": 0.9278996865203761,
      "train_speed(iter/s)": 1.488609
    },
    {
      "epoch": 0.5912343087271326,
      "grad_norm": 2.810000419616699,
      "learning_rate": 9.658949367460119e-05,
      "loss": 0.3767163038253784,
      "memory(GiB)": 61.91,
      "step": 13800,
      "token_acc": 0.9259259259259259,
      "train_speed(iter/s)": 1.488609
    },
    {
      "epoch": 0.5914485240563815,
      "grad_norm": 2.667909860610962,
      "learning_rate": 9.658705035767059e-05,
      "loss": 0.28503003120422366,
      "memory(GiB)": 61.91,
      "step": 13805,
      "token_acc": 0.9347181008902077,
      "train_speed(iter/s)": 1.4886
    },
    {
      "epoch": 0.5916627393856304,
      "grad_norm": 0.7143001556396484,
      "learning_rate": 9.658460619677185e-05,
      "loss": 0.6494495868682861,
      "memory(GiB)": 61.91,
      "step": 13810,
      "token_acc": 0.8774703557312253,
      "train_speed(iter/s)": 1.488629
    },
    {
      "epoch": 0.5918769547148794,
      "grad_norm": 2.17639422416687,
      "learning_rate": 9.658216119194929e-05,
      "loss": 0.431962251663208,
      "memory(GiB)": 61.91,
      "step": 13815,
      "token_acc": 0.9233226837060703,
      "train_speed(iter/s)": 1.488611
    },
    {
      "epoch": 0.5920911700441284,
      "grad_norm": 0.15772181749343872,
      "learning_rate": 9.657971534324717e-05,
      "loss": 0.16030507087707518,
      "memory(GiB)": 61.91,
      "step": 13820,
      "token_acc": 0.9536679536679536,
      "train_speed(iter/s)": 1.48862
    },
    {
      "epoch": 0.5923053853733773,
      "grad_norm": 4.220511436462402,
      "learning_rate": 9.657726865070981e-05,
      "loss": 0.3489703893661499,
      "memory(GiB)": 61.91,
      "step": 13825,
      "token_acc": 0.9175257731958762,
      "train_speed(iter/s)": 1.488625
    },
    {
      "epoch": 0.5925196007026263,
      "grad_norm": 1.6556353569030762,
      "learning_rate": 9.657482111438154e-05,
      "loss": 0.6313056468963623,
      "memory(GiB)": 61.91,
      "step": 13830,
      "token_acc": 0.8656716417910447,
      "train_speed(iter/s)": 1.48871
    },
    {
      "epoch": 0.5927338160318752,
      "grad_norm": 4.931127548217773,
      "learning_rate": 9.657237273430669e-05,
      "loss": 0.5550161838531494,
      "memory(GiB)": 61.91,
      "step": 13835,
      "token_acc": 0.89272030651341,
      "train_speed(iter/s)": 1.4887
    },
    {
      "epoch": 0.5929480313611242,
      "grad_norm": 7.529865741729736,
      "learning_rate": 9.656992351052961e-05,
      "loss": 0.2418933629989624,
      "memory(GiB)": 61.91,
      "step": 13840,
      "token_acc": 0.9428571428571428,
      "train_speed(iter/s)": 1.488695
    },
    {
      "epoch": 0.5931622466903732,
      "grad_norm": 4.04878044128418,
      "learning_rate": 9.656747344309469e-05,
      "loss": 0.4411433696746826,
      "memory(GiB)": 61.91,
      "step": 13845,
      "token_acc": 0.9014598540145985,
      "train_speed(iter/s)": 1.488732
    },
    {
      "epoch": 0.5933764620196221,
      "grad_norm": 3.462559461593628,
      "learning_rate": 9.656502253204632e-05,
      "loss": 0.3393659830093384,
      "memory(GiB)": 61.91,
      "step": 13850,
      "token_acc": 0.9235668789808917,
      "train_speed(iter/s)": 1.488719
    },
    {
      "epoch": 0.593590677348871,
      "grad_norm": 5.656381130218506,
      "learning_rate": 9.656257077742886e-05,
      "loss": 0.2009063720703125,
      "memory(GiB)": 61.91,
      "step": 13855,
      "token_acc": 0.96,
      "train_speed(iter/s)": 1.488718
    },
    {
      "epoch": 0.5938048926781201,
      "grad_norm": 3.214001178741455,
      "learning_rate": 9.656011817928676e-05,
      "loss": 0.5668754577636719,
      "memory(GiB)": 61.91,
      "step": 13860,
      "token_acc": 0.8745387453874539,
      "train_speed(iter/s)": 1.488701
    },
    {
      "epoch": 0.594019108007369,
      "grad_norm": 1.4025168418884277,
      "learning_rate": 9.655766473766444e-05,
      "loss": 0.4490914821624756,
      "memory(GiB)": 61.91,
      "step": 13865,
      "token_acc": 0.9239543726235742,
      "train_speed(iter/s)": 1.488668
    },
    {
      "epoch": 0.5942333233366179,
      "grad_norm": 0.8365256786346436,
      "learning_rate": 9.655521045260636e-05,
      "loss": 0.15911716222763062,
      "memory(GiB)": 61.91,
      "step": 13870,
      "token_acc": 0.9606299212598425,
      "train_speed(iter/s)": 1.48868
    },
    {
      "epoch": 0.594447538665867,
      "grad_norm": 2.1679015159606934,
      "learning_rate": 9.655275532415696e-05,
      "loss": 0.36083278656005857,
      "memory(GiB)": 61.91,
      "step": 13875,
      "token_acc": 0.9215686274509803,
      "train_speed(iter/s)": 1.488626
    },
    {
      "epoch": 0.5946617539951159,
      "grad_norm": 2.6328043937683105,
      "learning_rate": 9.655029935236073e-05,
      "loss": 0.45126943588256835,
      "memory(GiB)": 61.91,
      "step": 13880,
      "token_acc": 0.887719298245614,
      "train_speed(iter/s)": 1.488686
    },
    {
      "epoch": 0.5948759693243648,
      "grad_norm": 2.491976022720337,
      "learning_rate": 9.654784253726216e-05,
      "loss": 0.4230278491973877,
      "memory(GiB)": 61.91,
      "step": 13885,
      "token_acc": 0.9130434782608695,
      "train_speed(iter/s)": 1.488664
    },
    {
      "epoch": 0.5950901846536139,
      "grad_norm": 2.9671273231506348,
      "learning_rate": 9.654538487890577e-05,
      "loss": 0.21676340103149414,
      "memory(GiB)": 61.91,
      "step": 13890,
      "token_acc": 0.9430604982206405,
      "train_speed(iter/s)": 1.488729
    },
    {
      "epoch": 0.5953043999828628,
      "grad_norm": 1.7437989711761475,
      "learning_rate": 9.654292637733605e-05,
      "loss": 0.42176222801208496,
      "memory(GiB)": 61.91,
      "step": 13895,
      "token_acc": 0.9252336448598131,
      "train_speed(iter/s)": 1.488729
    },
    {
      "epoch": 0.5955186153121117,
      "grad_norm": 3.9670486450195312,
      "learning_rate": 9.654046703259755e-05,
      "loss": 0.38765735626220704,
      "memory(GiB)": 61.91,
      "step": 13900,
      "token_acc": 0.9117647058823529,
      "train_speed(iter/s)": 1.488714
    },
    {
      "epoch": 0.5957328306413607,
      "grad_norm": 2.512817859649658,
      "learning_rate": 9.653800684473485e-05,
      "loss": 0.21742568016052247,
      "memory(GiB)": 61.91,
      "step": 13905,
      "token_acc": 0.9415384615384615,
      "train_speed(iter/s)": 1.488694
    },
    {
      "epoch": 0.5959470459706097,
      "grad_norm": 1.3592387437820435,
      "learning_rate": 9.653554581379249e-05,
      "loss": 0.2425626277923584,
      "memory(GiB)": 61.91,
      "step": 13910,
      "token_acc": 0.9466666666666667,
      "train_speed(iter/s)": 1.488721
    },
    {
      "epoch": 0.5961612612998586,
      "grad_norm": 1.081842064857483,
      "learning_rate": 9.653308393981508e-05,
      "loss": 0.24586520195007325,
      "memory(GiB)": 61.91,
      "step": 13915,
      "token_acc": 0.9407665505226481,
      "train_speed(iter/s)": 1.488724
    },
    {
      "epoch": 0.5963754766291076,
      "grad_norm": 3.7341103553771973,
      "learning_rate": 9.65306212228472e-05,
      "loss": 0.4090461254119873,
      "memory(GiB)": 61.91,
      "step": 13920,
      "token_acc": 0.9191919191919192,
      "train_speed(iter/s)": 1.488743
    },
    {
      "epoch": 0.5965896919583565,
      "grad_norm": 3.1156599521636963,
      "learning_rate": 9.652815766293344e-05,
      "loss": 0.37679443359375,
      "memory(GiB)": 61.91,
      "step": 13925,
      "token_acc": 0.9113475177304965,
      "train_speed(iter/s)": 1.488745
    },
    {
      "epoch": 0.5968039072876055,
      "grad_norm": 3.778721570968628,
      "learning_rate": 9.652569326011849e-05,
      "loss": 0.10195324420928956,
      "memory(GiB)": 61.91,
      "step": 13930,
      "token_acc": 0.9765886287625418,
      "train_speed(iter/s)": 1.488727
    },
    {
      "epoch": 0.5970181226168545,
      "grad_norm": 4.843070983886719,
      "learning_rate": 9.652322801444695e-05,
      "loss": 0.4238940715789795,
      "memory(GiB)": 61.91,
      "step": 13935,
      "token_acc": 0.9163987138263665,
      "train_speed(iter/s)": 1.488703
    },
    {
      "epoch": 0.5972323379461034,
      "grad_norm": 2.630650758743286,
      "learning_rate": 9.652076192596349e-05,
      "loss": 0.2551581382751465,
      "memory(GiB)": 61.91,
      "step": 13940,
      "token_acc": 0.9450980392156862,
      "train_speed(iter/s)": 1.488762
    },
    {
      "epoch": 0.5974465532753523,
      "grad_norm": 2.2302188873291016,
      "learning_rate": 9.65182949947128e-05,
      "loss": 0.2442610502243042,
      "memory(GiB)": 61.91,
      "step": 13945,
      "token_acc": 0.9478827361563518,
      "train_speed(iter/s)": 1.488783
    },
    {
      "epoch": 0.5976607686046014,
      "grad_norm": 1.7835274934768677,
      "learning_rate": 9.651582722073953e-05,
      "loss": 0.5668976306915283,
      "memory(GiB)": 61.91,
      "step": 13950,
      "token_acc": 0.8870431893687708,
      "train_speed(iter/s)": 1.488818
    },
    {
      "epoch": 0.5978749839338503,
      "grad_norm": 3.6029205322265625,
      "learning_rate": 9.651335860408843e-05,
      "loss": 0.7078385829925538,
      "memory(GiB)": 61.91,
      "step": 13955,
      "token_acc": 0.8634361233480177,
      "train_speed(iter/s)": 1.488798
    },
    {
      "epoch": 0.5980891992630992,
      "grad_norm": 0.19108808040618896,
      "learning_rate": 9.651088914480421e-05,
      "loss": 0.3037719249725342,
      "memory(GiB)": 61.91,
      "step": 13960,
      "token_acc": 0.9190283400809717,
      "train_speed(iter/s)": 1.488847
    },
    {
      "epoch": 0.5983034145923483,
      "grad_norm": 3.7818682193756104,
      "learning_rate": 9.650841884293159e-05,
      "loss": 0.8432294845581054,
      "memory(GiB)": 61.91,
      "step": 13965,
      "token_acc": 0.8464730290456431,
      "train_speed(iter/s)": 1.488844
    },
    {
      "epoch": 0.5985176299215972,
      "grad_norm": 3.6480066776275635,
      "learning_rate": 9.650594769851535e-05,
      "loss": 0.4612950325012207,
      "memory(GiB)": 61.91,
      "step": 13970,
      "token_acc": 0.899390243902439,
      "train_speed(iter/s)": 1.48883
    },
    {
      "epoch": 0.5987318452508461,
      "grad_norm": 3.233715295791626,
      "learning_rate": 9.650347571160023e-05,
      "loss": 0.32309958934783933,
      "memory(GiB)": 61.91,
      "step": 13975,
      "token_acc": 0.9366197183098591,
      "train_speed(iter/s)": 1.488848
    },
    {
      "epoch": 0.5989460605800951,
      "grad_norm": 4.039986610412598,
      "learning_rate": 9.650100288223102e-05,
      "loss": 0.35417191982269286,
      "memory(GiB)": 61.91,
      "step": 13980,
      "token_acc": 0.9345454545454546,
      "train_speed(iter/s)": 1.488952
    },
    {
      "epoch": 0.5991602759093441,
      "grad_norm": 3.758554458618164,
      "learning_rate": 9.649852921045254e-05,
      "loss": 0.5582855701446533,
      "memory(GiB)": 61.91,
      "step": 13985,
      "token_acc": 0.8544776119402985,
      "train_speed(iter/s)": 1.488923
    },
    {
      "epoch": 0.599374491238593,
      "grad_norm": 3.331873655319214,
      "learning_rate": 9.649605469630958e-05,
      "loss": 0.30801575183868407,
      "memory(GiB)": 61.91,
      "step": 13990,
      "token_acc": 0.9354838709677419,
      "train_speed(iter/s)": 1.488905
    },
    {
      "epoch": 0.599588706567842,
      "grad_norm": 3.3926875591278076,
      "learning_rate": 9.649357933984697e-05,
      "loss": 0.46751880645751953,
      "memory(GiB)": 61.91,
      "step": 13995,
      "token_acc": 0.8991596638655462,
      "train_speed(iter/s)": 1.488872
    },
    {
      "epoch": 0.599802921897091,
      "grad_norm": 0.8655768036842346,
      "learning_rate": 9.649110314110954e-05,
      "loss": 0.5064396858215332,
      "memory(GiB)": 61.91,
      "step": 14000,
      "token_acc": 0.8895705521472392,
      "train_speed(iter/s)": 1.488844
    },
    {
      "epoch": 0.599802921897091,
      "eval_loss": 2.4434611797332764,
      "eval_runtime": 13.2916,
      "eval_samples_per_second": 7.524,
      "eval_steps_per_second": 7.524,
      "eval_token_acc": 0.43828016643550627,
      "step": 14000
    },
    {
      "epoch": 0.6000171372263399,
      "grad_norm": 0.8183765411376953,
      "learning_rate": 9.648862610014218e-05,
      "loss": 0.16789748668670654,
      "memory(GiB)": 61.91,
      "step": 14005,
      "token_acc": 0.5773930753564155,
      "train_speed(iter/s)": 1.486612
    },
    {
      "epoch": 0.6002313525555889,
      "grad_norm": 3.8673360347747803,
      "learning_rate": 9.648614821698975e-05,
      "loss": 0.3370398998260498,
      "memory(GiB)": 61.91,
      "step": 14010,
      "token_acc": 0.9347079037800687,
      "train_speed(iter/s)": 1.486603
    },
    {
      "epoch": 0.6004455678848378,
      "grad_norm": 3.3346216678619385,
      "learning_rate": 9.648366949169712e-05,
      "loss": 0.1755645751953125,
      "memory(GiB)": 61.91,
      "step": 14015,
      "token_acc": 0.967948717948718,
      "train_speed(iter/s)": 1.486612
    },
    {
      "epoch": 0.6006597832140868,
      "grad_norm": 2.916618585586548,
      "learning_rate": 9.648118992430923e-05,
      "loss": 0.5253336906433106,
      "memory(GiB)": 61.91,
      "step": 14020,
      "token_acc": 0.8871951219512195,
      "train_speed(iter/s)": 1.486686
    },
    {
      "epoch": 0.6008739985433358,
      "grad_norm": 4.609787940979004,
      "learning_rate": 9.647870951487098e-05,
      "loss": 0.4266552448272705,
      "memory(GiB)": 61.91,
      "step": 14025,
      "token_acc": 0.9285714285714286,
      "train_speed(iter/s)": 1.486623
    },
    {
      "epoch": 0.6010882138725847,
      "grad_norm": 3.3727235794067383,
      "learning_rate": 9.64762282634273e-05,
      "loss": 0.5904091358184814,
      "memory(GiB)": 61.91,
      "step": 14030,
      "token_acc": 0.8480565371024735,
      "train_speed(iter/s)": 1.48667
    },
    {
      "epoch": 0.6013024292018336,
      "grad_norm": 0.057956937700510025,
      "learning_rate": 9.647374617002314e-05,
      "loss": 0.3255255699157715,
      "memory(GiB)": 61.91,
      "step": 14035,
      "token_acc": 0.9243986254295533,
      "train_speed(iter/s)": 1.486682
    },
    {
      "epoch": 0.6015166445310827,
      "grad_norm": 2.872129201889038,
      "learning_rate": 9.647126323470349e-05,
      "loss": 0.295322847366333,
      "memory(GiB)": 61.91,
      "step": 14040,
      "token_acc": 0.9467084639498433,
      "train_speed(iter/s)": 1.486679
    },
    {
      "epoch": 0.6017308598603316,
      "grad_norm": 4.119054317474365,
      "learning_rate": 9.646877945751332e-05,
      "loss": 0.45143980979919435,
      "memory(GiB)": 61.91,
      "step": 14045,
      "token_acc": 0.9151943462897526,
      "train_speed(iter/s)": 1.486689
    },
    {
      "epoch": 0.6019450751895805,
      "grad_norm": 0.5347427725791931,
      "learning_rate": 9.646629483849758e-05,
      "loss": 0.26142168045043945,
      "memory(GiB)": 61.91,
      "step": 14050,
      "token_acc": 0.9627118644067797,
      "train_speed(iter/s)": 1.486677
    },
    {
      "epoch": 0.6021592905188295,
      "grad_norm": 4.1233110427856445,
      "learning_rate": 9.646380937770135e-05,
      "loss": 0.5276237487792969,
      "memory(GiB)": 61.91,
      "step": 14055,
      "token_acc": 0.8878205128205128,
      "train_speed(iter/s)": 1.48669
    },
    {
      "epoch": 0.6023735058480785,
      "grad_norm": 5.289035320281982,
      "learning_rate": 9.646132307516961e-05,
      "loss": 0.7230296611785889,
      "memory(GiB)": 61.91,
      "step": 14060,
      "token_acc": 0.8405797101449275,
      "train_speed(iter/s)": 1.486677
    },
    {
      "epoch": 0.6025877211773274,
      "grad_norm": 2.596764087677002,
      "learning_rate": 9.645883593094745e-05,
      "loss": 0.5383239269256592,
      "memory(GiB)": 61.91,
      "step": 14065,
      "token_acc": 0.9049180327868852,
      "train_speed(iter/s)": 1.486723
    },
    {
      "epoch": 0.6028019365065764,
      "grad_norm": 3.7913663387298584,
      "learning_rate": 9.645634794507987e-05,
      "loss": 0.6229513168334961,
      "memory(GiB)": 61.91,
      "step": 14070,
      "token_acc": 0.8754448398576512,
      "train_speed(iter/s)": 1.486744
    },
    {
      "epoch": 0.6030161518358254,
      "grad_norm": 3.7340970039367676,
      "learning_rate": 9.645385911761196e-05,
      "loss": 0.46764936447143557,
      "memory(GiB)": 61.91,
      "step": 14075,
      "token_acc": 0.8840579710144928,
      "train_speed(iter/s)": 1.486701
    },
    {
      "epoch": 0.6032303671650744,
      "grad_norm": 0.1802360713481903,
      "learning_rate": 9.645136944858883e-05,
      "loss": 0.40853233337402345,
      "memory(GiB)": 61.91,
      "step": 14080,
      "token_acc": 0.9075907590759076,
      "train_speed(iter/s)": 1.486682
    },
    {
      "epoch": 0.6034445824943233,
      "grad_norm": 4.657423973083496,
      "learning_rate": 9.644887893805557e-05,
      "loss": 0.4033369541168213,
      "memory(GiB)": 61.91,
      "step": 14085,
      "token_acc": 0.9055944055944056,
      "train_speed(iter/s)": 1.486677
    },
    {
      "epoch": 0.6036587978235722,
      "grad_norm": 2.252159357070923,
      "learning_rate": 9.644638758605729e-05,
      "loss": 0.4970703125,
      "memory(GiB)": 61.91,
      "step": 14090,
      "token_acc": 0.9182156133828996,
      "train_speed(iter/s)": 1.486684
    },
    {
      "epoch": 0.6038730131528213,
      "grad_norm": 4.696386337280273,
      "learning_rate": 9.644389539263911e-05,
      "loss": 0.6287853240966796,
      "memory(GiB)": 61.91,
      "step": 14095,
      "token_acc": 0.8723404255319149,
      "train_speed(iter/s)": 1.486729
    },
    {
      "epoch": 0.6040872284820702,
      "grad_norm": 2.03652286529541,
      "learning_rate": 9.644140235784623e-05,
      "loss": 0.22837362289428711,
      "memory(GiB)": 61.91,
      "step": 14100,
      "token_acc": 0.9455040871934605,
      "train_speed(iter/s)": 1.486752
    },
    {
      "epoch": 0.6043014438113191,
      "grad_norm": 6.765116214752197,
      "learning_rate": 9.643890848172377e-05,
      "loss": 0.3953569412231445,
      "memory(GiB)": 61.91,
      "step": 14105,
      "token_acc": 0.9295774647887324,
      "train_speed(iter/s)": 1.486748
    },
    {
      "epoch": 0.6045156591405682,
      "grad_norm": 1.937926173210144,
      "learning_rate": 9.643641376431691e-05,
      "loss": 0.3807487964630127,
      "memory(GiB)": 61.91,
      "step": 14110,
      "token_acc": 0.9306122448979591,
      "train_speed(iter/s)": 1.486756
    },
    {
      "epoch": 0.6047298744698171,
      "grad_norm": 1.630527138710022,
      "learning_rate": 9.643391820567084e-05,
      "loss": 0.4083390712738037,
      "memory(GiB)": 61.91,
      "step": 14115,
      "token_acc": 0.9158249158249159,
      "train_speed(iter/s)": 1.486755
    },
    {
      "epoch": 0.604944089799066,
      "grad_norm": 2.2819087505340576,
      "learning_rate": 9.643142180583081e-05,
      "loss": 0.34829862117767335,
      "memory(GiB)": 61.91,
      "step": 14120,
      "token_acc": 0.9361702127659575,
      "train_speed(iter/s)": 1.486754
    },
    {
      "epoch": 0.605158305128315,
      "grad_norm": 3.1325066089630127,
      "learning_rate": 9.642892456484201e-05,
      "loss": 0.3364971876144409,
      "memory(GiB)": 61.91,
      "step": 14125,
      "token_acc": 0.9219858156028369,
      "train_speed(iter/s)": 1.486735
    },
    {
      "epoch": 0.605372520457564,
      "grad_norm": 4.1054253578186035,
      "learning_rate": 9.642642648274968e-05,
      "loss": 0.3065436363220215,
      "memory(GiB)": 61.91,
      "step": 14130,
      "token_acc": 0.9422382671480144,
      "train_speed(iter/s)": 1.486692
    },
    {
      "epoch": 0.6055867357868129,
      "grad_norm": 2.3581690788269043,
      "learning_rate": 9.64239275595991e-05,
      "loss": 0.6818489551544189,
      "memory(GiB)": 61.91,
      "step": 14135,
      "token_acc": 0.8579710144927536,
      "train_speed(iter/s)": 1.486674
    },
    {
      "epoch": 0.6058009511160619,
      "grad_norm": 11.97305679321289,
      "learning_rate": 9.642142779543551e-05,
      "loss": 0.39144129753112794,
      "memory(GiB)": 61.91,
      "step": 14140,
      "token_acc": 0.9047619047619048,
      "train_speed(iter/s)": 1.4867
    },
    {
      "epoch": 0.6060151664453108,
      "grad_norm": 0.8987568020820618,
      "learning_rate": 9.641892719030421e-05,
      "loss": 0.32344956398010255,
      "memory(GiB)": 61.91,
      "step": 14145,
      "token_acc": 0.9351145038167938,
      "train_speed(iter/s)": 1.486692
    },
    {
      "epoch": 0.6062293817745598,
      "grad_norm": 1.0360469818115234,
      "learning_rate": 9.64164257442505e-05,
      "loss": 0.28715991973876953,
      "memory(GiB)": 61.91,
      "step": 14150,
      "token_acc": 0.932806324110672,
      "train_speed(iter/s)": 1.486663
    },
    {
      "epoch": 0.6064435971038088,
      "grad_norm": 5.0235395431518555,
      "learning_rate": 9.64139234573197e-05,
      "loss": 0.6477124214172363,
      "memory(GiB)": 61.91,
      "step": 14155,
      "token_acc": 0.8859060402684564,
      "train_speed(iter/s)": 1.486621
    },
    {
      "epoch": 0.6066578124330577,
      "grad_norm": 4.468339920043945,
      "learning_rate": 9.641142032955714e-05,
      "loss": 0.305224084854126,
      "memory(GiB)": 61.91,
      "step": 14160,
      "token_acc": 0.9139344262295082,
      "train_speed(iter/s)": 1.486605
    },
    {
      "epoch": 0.6068720277623066,
      "grad_norm": 2.692639112472534,
      "learning_rate": 9.640891636100815e-05,
      "loss": 0.4382962703704834,
      "memory(GiB)": 61.91,
      "step": 14165,
      "token_acc": 0.9163763066202091,
      "train_speed(iter/s)": 1.486567
    },
    {
      "epoch": 0.6070862430915557,
      "grad_norm": 3.5822701454162598,
      "learning_rate": 9.640641155171812e-05,
      "loss": 0.43465137481689453,
      "memory(GiB)": 61.91,
      "step": 14170,
      "token_acc": 0.9079365079365079,
      "train_speed(iter/s)": 1.486594
    },
    {
      "epoch": 0.6073004584208046,
      "grad_norm": 3.488126754760742,
      "learning_rate": 9.64039059017324e-05,
      "loss": 0.6095567226409913,
      "memory(GiB)": 61.91,
      "step": 14175,
      "token_acc": 0.8944281524926686,
      "train_speed(iter/s)": 1.486585
    },
    {
      "epoch": 0.6075146737500535,
      "grad_norm": 2.7439005374908447,
      "learning_rate": 9.64013994110964e-05,
      "loss": 0.5629470348358154,
      "memory(GiB)": 61.91,
      "step": 14180,
      "token_acc": 0.8823529411764706,
      "train_speed(iter/s)": 1.486633
    },
    {
      "epoch": 0.6077288890793026,
      "grad_norm": 1.6845779418945312,
      "learning_rate": 9.639889207985552e-05,
      "loss": 0.34294734001159666,
      "memory(GiB)": 61.91,
      "step": 14185,
      "token_acc": 0.9251700680272109,
      "train_speed(iter/s)": 1.486606
    },
    {
      "epoch": 0.6079431044085515,
      "grad_norm": 1.2361080646514893,
      "learning_rate": 9.639638390805518e-05,
      "loss": 0.2475717306137085,
      "memory(GiB)": 61.91,
      "step": 14190,
      "token_acc": 0.9496124031007752,
      "train_speed(iter/s)": 1.486612
    },
    {
      "epoch": 0.6081573197378004,
      "grad_norm": 4.1260666847229,
      "learning_rate": 9.639387489574083e-05,
      "loss": 0.15836730003356933,
      "memory(GiB)": 61.91,
      "step": 14195,
      "token_acc": 0.9695945945945946,
      "train_speed(iter/s)": 1.486568
    },
    {
      "epoch": 0.6083715350670494,
      "grad_norm": 2.052952289581299,
      "learning_rate": 9.639136504295792e-05,
      "loss": 0.2942540407180786,
      "memory(GiB)": 61.91,
      "step": 14200,
      "token_acc": 0.9366666666666666,
      "train_speed(iter/s)": 1.486562
    },
    {
      "epoch": 0.6085857503962984,
      "grad_norm": 2.4480578899383545,
      "learning_rate": 9.638885434975189e-05,
      "loss": 0.38722302913665774,
      "memory(GiB)": 61.91,
      "step": 14205,
      "token_acc": 0.9209621993127147,
      "train_speed(iter/s)": 1.486537
    },
    {
      "epoch": 0.6087999657255473,
      "grad_norm": 1.4277976751327515,
      "learning_rate": 9.638634281616827e-05,
      "loss": 0.21782875061035156,
      "memory(GiB)": 61.91,
      "step": 14210,
      "token_acc": 0.955719557195572,
      "train_speed(iter/s)": 1.486521
    },
    {
      "epoch": 0.6090141810547963,
      "grad_norm": 5.976009845733643,
      "learning_rate": 9.638383044225252e-05,
      "loss": 0.3191081523895264,
      "memory(GiB)": 61.91,
      "step": 14215,
      "token_acc": 0.9362549800796812,
      "train_speed(iter/s)": 1.486528
    },
    {
      "epoch": 0.6092283963840452,
      "grad_norm": 4.49836540222168,
      "learning_rate": 9.638131722805018e-05,
      "loss": 0.38584327697753906,
      "memory(GiB)": 61.91,
      "step": 14220,
      "token_acc": 0.9121621621621622,
      "train_speed(iter/s)": 1.486586
    },
    {
      "epoch": 0.6094426117132942,
      "grad_norm": 2.2129650115966797,
      "learning_rate": 9.637880317360677e-05,
      "loss": 0.3592863082885742,
      "memory(GiB)": 61.91,
      "step": 14225,
      "token_acc": 0.9220338983050848,
      "train_speed(iter/s)": 1.486594
    },
    {
      "epoch": 0.6096568270425432,
      "grad_norm": 2.3062875270843506,
      "learning_rate": 9.637628827896784e-05,
      "loss": 0.20665173530578612,
      "memory(GiB)": 61.91,
      "step": 14230,
      "token_acc": 0.9651567944250871,
      "train_speed(iter/s)": 1.486581
    },
    {
      "epoch": 0.6098710423717921,
      "grad_norm": 2.9346299171447754,
      "learning_rate": 9.637377254417892e-05,
      "loss": 0.3606394290924072,
      "memory(GiB)": 61.91,
      "step": 14235,
      "token_acc": 0.9292929292929293,
      "train_speed(iter/s)": 1.486582
    },
    {
      "epoch": 0.610085257701041,
      "grad_norm": 1.4274080991744995,
      "learning_rate": 9.637125596928562e-05,
      "loss": 0.25708489418029784,
      "memory(GiB)": 61.91,
      "step": 14240,
      "token_acc": 0.9431438127090301,
      "train_speed(iter/s)": 1.486575
    },
    {
      "epoch": 0.6102994730302901,
      "grad_norm": 3.2180304527282715,
      "learning_rate": 9.636873855433353e-05,
      "loss": 0.4530495643615723,
      "memory(GiB)": 61.91,
      "step": 14245,
      "token_acc": 0.9069767441860465,
      "train_speed(iter/s)": 1.486594
    },
    {
      "epoch": 0.610513688359539,
      "grad_norm": 1.0057686567306519,
      "learning_rate": 9.636622029936823e-05,
      "loss": 0.11905807256698608,
      "memory(GiB)": 61.91,
      "step": 14250,
      "token_acc": 0.975,
      "train_speed(iter/s)": 1.486589
    },
    {
      "epoch": 0.6107279036887879,
      "grad_norm": 3.292430877685547,
      "learning_rate": 9.636370120443536e-05,
      "loss": 0.23512375354766846,
      "memory(GiB)": 61.91,
      "step": 14255,
      "token_acc": 0.9440298507462687,
      "train_speed(iter/s)": 1.486577
    },
    {
      "epoch": 0.610942119018037,
      "grad_norm": 4.931755542755127,
      "learning_rate": 9.636118126958056e-05,
      "loss": 0.43858795166015624,
      "memory(GiB)": 61.91,
      "step": 14260,
      "token_acc": 0.9072164948453608,
      "train_speed(iter/s)": 1.486556
    },
    {
      "epoch": 0.6111563343472859,
      "grad_norm": 4.004387855529785,
      "learning_rate": 9.635866049484945e-05,
      "loss": 0.30942411422729493,
      "memory(GiB)": 61.91,
      "step": 14265,
      "token_acc": 0.9395017793594306,
      "train_speed(iter/s)": 1.486596
    },
    {
      "epoch": 0.6113705496765348,
      "grad_norm": 2.4785938262939453,
      "learning_rate": 9.635613888028773e-05,
      "loss": 0.23449358940124512,
      "memory(GiB)": 61.91,
      "step": 14270,
      "token_acc": 0.9438943894389439,
      "train_speed(iter/s)": 1.486588
    },
    {
      "epoch": 0.6115847650057838,
      "grad_norm": 2.479883909225464,
      "learning_rate": 9.635361642594107e-05,
      "loss": 0.593048095703125,
      "memory(GiB)": 61.91,
      "step": 14275,
      "token_acc": 0.8847352024922118,
      "train_speed(iter/s)": 1.486619
    },
    {
      "epoch": 0.6117989803350328,
      "grad_norm": 3.8209149837493896,
      "learning_rate": 9.635109313185515e-05,
      "loss": 0.38460378646850585,
      "memory(GiB)": 61.91,
      "step": 14280,
      "token_acc": 0.8931034482758621,
      "train_speed(iter/s)": 1.486644
    },
    {
      "epoch": 0.6120131956642817,
      "grad_norm": 3.7049787044525146,
      "learning_rate": 9.634856899807571e-05,
      "loss": 0.28540711402893065,
      "memory(GiB)": 61.91,
      "step": 14285,
      "token_acc": 0.9368770764119602,
      "train_speed(iter/s)": 1.486637
    },
    {
      "epoch": 0.6122274109935307,
      "grad_norm": 3.6475064754486084,
      "learning_rate": 9.634604402464846e-05,
      "loss": 0.31600198745727537,
      "memory(GiB)": 61.91,
      "step": 14290,
      "token_acc": 0.918918918918919,
      "train_speed(iter/s)": 1.486612
    },
    {
      "epoch": 0.6124416263227797,
      "grad_norm": 2.1444215774536133,
      "learning_rate": 9.634351821161916e-05,
      "loss": 0.28791892528533936,
      "memory(GiB)": 61.91,
      "step": 14295,
      "token_acc": 0.95703125,
      "train_speed(iter/s)": 1.486614
    },
    {
      "epoch": 0.6126558416520286,
      "grad_norm": 1.262500286102295,
      "learning_rate": 9.634099155903353e-05,
      "loss": 0.3598459243774414,
      "memory(GiB)": 61.91,
      "step": 14300,
      "token_acc": 0.9325153374233128,
      "train_speed(iter/s)": 1.486624
    },
    {
      "epoch": 0.6128700569812776,
      "grad_norm": 2.7544631958007812,
      "learning_rate": 9.633846406693738e-05,
      "loss": 0.5233990669250488,
      "memory(GiB)": 61.91,
      "step": 14305,
      "token_acc": 0.8878205128205128,
      "train_speed(iter/s)": 1.486609
    },
    {
      "epoch": 0.6130842723105265,
      "grad_norm": 5.591941833496094,
      "learning_rate": 9.633593573537649e-05,
      "loss": 0.44601001739501955,
      "memory(GiB)": 61.91,
      "step": 14310,
      "token_acc": 0.9011406844106464,
      "train_speed(iter/s)": 1.486609
    },
    {
      "epoch": 0.6132984876397755,
      "grad_norm": 5.0450944900512695,
      "learning_rate": 9.633340656439664e-05,
      "loss": 0.5231477737426757,
      "memory(GiB)": 61.91,
      "step": 14315,
      "token_acc": 0.8877551020408163,
      "train_speed(iter/s)": 1.486611
    },
    {
      "epoch": 0.6135127029690245,
      "grad_norm": 1.7608586549758911,
      "learning_rate": 9.633087655404369e-05,
      "loss": 0.3960092067718506,
      "memory(GiB)": 61.91,
      "step": 14320,
      "token_acc": 0.904,
      "train_speed(iter/s)": 1.486662
    },
    {
      "epoch": 0.6137269182982734,
      "grad_norm": 0.6324070692062378,
      "learning_rate": 9.632834570436343e-05,
      "loss": 0.4520329475402832,
      "memory(GiB)": 61.91,
      "step": 14325,
      "token_acc": 0.9230769230769231,
      "train_speed(iter/s)": 1.486677
    },
    {
      "epoch": 0.6139411336275223,
      "grad_norm": 0.7124397158622742,
      "learning_rate": 9.632581401540174e-05,
      "loss": 0.3519623279571533,
      "memory(GiB)": 61.91,
      "step": 14330,
      "token_acc": 0.9214501510574018,
      "train_speed(iter/s)": 1.486651
    },
    {
      "epoch": 0.6141553489567714,
      "grad_norm": 2.2128617763519287,
      "learning_rate": 9.632328148720447e-05,
      "loss": 0.17168896198272704,
      "memory(GiB)": 61.91,
      "step": 14335,
      "token_acc": 0.9711191335740073,
      "train_speed(iter/s)": 1.486632
    },
    {
      "epoch": 0.6143695642860203,
      "grad_norm": 4.875009059906006,
      "learning_rate": 9.632074811981749e-05,
      "loss": 0.48229174613952636,
      "memory(GiB)": 61.91,
      "step": 14340,
      "token_acc": 0.8990228013029316,
      "train_speed(iter/s)": 1.486679
    },
    {
      "epoch": 0.6145837796152692,
      "grad_norm": 3.771174192428589,
      "learning_rate": 9.631821391328671e-05,
      "loss": 0.7388247966766357,
      "memory(GiB)": 61.91,
      "step": 14345,
      "token_acc": 0.8643533123028391,
      "train_speed(iter/s)": 1.486727
    },
    {
      "epoch": 0.6147979949445183,
      "grad_norm": 1.122465968132019,
      "learning_rate": 9.631567886765804e-05,
      "loss": 0.23930554389953612,
      "memory(GiB)": 61.91,
      "step": 14350,
      "token_acc": 0.9616724738675958,
      "train_speed(iter/s)": 1.48672
    },
    {
      "epoch": 0.6150122102737672,
      "grad_norm": 1.132616400718689,
      "learning_rate": 9.63131429829774e-05,
      "loss": 0.07855649590492249,
      "memory(GiB)": 61.91,
      "step": 14355,
      "token_acc": 0.982078853046595,
      "train_speed(iter/s)": 1.486735
    },
    {
      "epoch": 0.6152264256030161,
      "grad_norm": 5.2229413986206055,
      "learning_rate": 9.631060625929073e-05,
      "loss": 0.36440362930297854,
      "memory(GiB)": 61.91,
      "step": 14360,
      "token_acc": 0.9276729559748428,
      "train_speed(iter/s)": 1.486731
    },
    {
      "epoch": 0.6154406409322651,
      "grad_norm": 2.2336020469665527,
      "learning_rate": 9.630806869664397e-05,
      "loss": 0.24940683841705322,
      "memory(GiB)": 61.91,
      "step": 14365,
      "token_acc": 0.9401408450704225,
      "train_speed(iter/s)": 1.486718
    },
    {
      "epoch": 0.6156548562615141,
      "grad_norm": 3.5841469764709473,
      "learning_rate": 9.630553029508312e-05,
      "loss": 0.41121740341186525,
      "memory(GiB)": 61.91,
      "step": 14370,
      "token_acc": 0.9025270758122743,
      "train_speed(iter/s)": 1.486678
    },
    {
      "epoch": 0.615869071590763,
      "grad_norm": 8.739190101623535,
      "learning_rate": 9.630299105465414e-05,
      "loss": 0.3900779724121094,
      "memory(GiB)": 61.91,
      "step": 14375,
      "token_acc": 0.9148148148148149,
      "train_speed(iter/s)": 1.486691
    },
    {
      "epoch": 0.616083286920012,
      "grad_norm": 3.017531633377075,
      "learning_rate": 9.630045097540305e-05,
      "loss": 0.44404001235961915,
      "memory(GiB)": 61.91,
      "step": 14380,
      "token_acc": 0.8982558139534884,
      "train_speed(iter/s)": 1.486689
    },
    {
      "epoch": 0.6162975022492609,
      "grad_norm": 3.1917130947113037,
      "learning_rate": 9.629791005737587e-05,
      "loss": 0.6213650703430176,
      "memory(GiB)": 61.91,
      "step": 14385,
      "token_acc": 0.8403614457831325,
      "train_speed(iter/s)": 1.48672
    },
    {
      "epoch": 0.6165117175785099,
      "grad_norm": 2.2005603313446045,
      "learning_rate": 9.62953683006186e-05,
      "loss": 0.3143636465072632,
      "memory(GiB)": 61.91,
      "step": 14390,
      "token_acc": 0.9382352941176471,
      "train_speed(iter/s)": 1.486724
    },
    {
      "epoch": 0.6167259329077589,
      "grad_norm": 2.340540647506714,
      "learning_rate": 9.62928257051773e-05,
      "loss": 0.3297745227813721,
      "memory(GiB)": 61.91,
      "step": 14395,
      "token_acc": 0.9263157894736842,
      "train_speed(iter/s)": 1.486685
    },
    {
      "epoch": 0.6169401482370078,
      "grad_norm": 3.1718060970306396,
      "learning_rate": 9.629028227109806e-05,
      "loss": 0.3801619052886963,
      "memory(GiB)": 61.91,
      "step": 14400,
      "token_acc": 0.916,
      "train_speed(iter/s)": 1.48668
    },
    {
      "epoch": 0.6171543635662567,
      "grad_norm": 2.3237273693084717,
      "learning_rate": 9.628773799842692e-05,
      "loss": 0.49047136306762695,
      "memory(GiB)": 61.91,
      "step": 14405,
      "token_acc": 0.8790035587188612,
      "train_speed(iter/s)": 1.486671
    },
    {
      "epoch": 0.6173685788955058,
      "grad_norm": 0.4901587665081024,
      "learning_rate": 9.628519288720998e-05,
      "loss": 0.4465914249420166,
      "memory(GiB)": 61.91,
      "step": 14410,
      "token_acc": 0.8985074626865671,
      "train_speed(iter/s)": 1.486674
    },
    {
      "epoch": 0.6175827942247547,
      "grad_norm": 3.085916757583618,
      "learning_rate": 9.628264693749336e-05,
      "loss": 0.5802166938781739,
      "memory(GiB)": 61.91,
      "step": 14415,
      "token_acc": 0.9061488673139159,
      "train_speed(iter/s)": 1.486726
    },
    {
      "epoch": 0.6177970095540037,
      "grad_norm": 2.8544583320617676,
      "learning_rate": 9.628010014932315e-05,
      "loss": 0.39330766201019285,
      "memory(GiB)": 61.91,
      "step": 14420,
      "token_acc": 0.9169435215946844,
      "train_speed(iter/s)": 1.486693
    },
    {
      "epoch": 0.6180112248832527,
      "grad_norm": 4.287430763244629,
      "learning_rate": 9.627755252274555e-05,
      "loss": 0.4472951412200928,
      "memory(GiB)": 61.91,
      "step": 14425,
      "token_acc": 0.9016393442622951,
      "train_speed(iter/s)": 1.486717
    },
    {
      "epoch": 0.6182254402125016,
      "grad_norm": 1.947024941444397,
      "learning_rate": 9.627500405780664e-05,
      "loss": 0.2328768253326416,
      "memory(GiB)": 61.91,
      "step": 14430,
      "token_acc": 0.9540636042402827,
      "train_speed(iter/s)": 1.486686
    },
    {
      "epoch": 0.6184396555417506,
      "grad_norm": 0.5923617482185364,
      "learning_rate": 9.627245475455265e-05,
      "loss": 0.3618467807769775,
      "memory(GiB)": 61.91,
      "step": 14435,
      "token_acc": 0.937888198757764,
      "train_speed(iter/s)": 1.486647
    },
    {
      "epoch": 0.6186538708709995,
      "grad_norm": 3.12911057472229,
      "learning_rate": 9.626990461302972e-05,
      "loss": 0.3333358526229858,
      "memory(GiB)": 61.91,
      "step": 14440,
      "token_acc": 0.917910447761194,
      "train_speed(iter/s)": 1.486688
    },
    {
      "epoch": 0.6188680862002485,
      "grad_norm": 3.0926883220672607,
      "learning_rate": 9.626735363328405e-05,
      "loss": 0.3877788782119751,
      "memory(GiB)": 61.91,
      "step": 14445,
      "token_acc": 0.9198606271777003,
      "train_speed(iter/s)": 1.486669
    },
    {
      "epoch": 0.6190823015294975,
      "grad_norm": 3.95113205909729,
      "learning_rate": 9.626480181536188e-05,
      "loss": 0.7216397285461426,
      "memory(GiB)": 61.91,
      "step": 14450,
      "token_acc": 0.8459016393442623,
      "train_speed(iter/s)": 1.486633
    },
    {
      "epoch": 0.6192965168587464,
      "grad_norm": 3.7041571140289307,
      "learning_rate": 9.626224915930943e-05,
      "loss": 0.40782723426818845,
      "memory(GiB)": 61.91,
      "step": 14455,
      "token_acc": 0.9222222222222223,
      "train_speed(iter/s)": 1.486633
    },
    {
      "epoch": 0.6195107321879953,
      "grad_norm": 4.347240447998047,
      "learning_rate": 9.625969566517294e-05,
      "loss": 0.6652137756347656,
      "memory(GiB)": 61.91,
      "step": 14460,
      "token_acc": 0.8470948012232415,
      "train_speed(iter/s)": 1.486632
    },
    {
      "epoch": 0.6197249475172444,
      "grad_norm": 0.31364306807518005,
      "learning_rate": 9.625714133299866e-05,
      "loss": 0.2773986101150513,
      "memory(GiB)": 61.91,
      "step": 14465,
      "token_acc": 0.9315960912052117,
      "train_speed(iter/s)": 1.486612
    },
    {
      "epoch": 0.6199391628464933,
      "grad_norm": 3.6125991344451904,
      "learning_rate": 9.625458616283289e-05,
      "loss": 0.4420825481414795,
      "memory(GiB)": 61.91,
      "step": 14470,
      "token_acc": 0.9021406727828746,
      "train_speed(iter/s)": 1.486602
    },
    {
      "epoch": 0.6201533781757422,
      "grad_norm": 2.0265719890594482,
      "learning_rate": 9.625203015472189e-05,
      "loss": 0.2913269758224487,
      "memory(GiB)": 61.91,
      "step": 14475,
      "token_acc": 0.9283276450511946,
      "train_speed(iter/s)": 1.486615
    },
    {
      "epoch": 0.6203675935049913,
      "grad_norm": 3.5978167057037354,
      "learning_rate": 9.624947330871197e-05,
      "loss": 0.30154991149902344,
      "memory(GiB)": 61.91,
      "step": 14480,
      "token_acc": 0.933993399339934,
      "train_speed(iter/s)": 1.486638
    },
    {
      "epoch": 0.6205818088342402,
      "grad_norm": 1.7711743116378784,
      "learning_rate": 9.624691562484945e-05,
      "loss": 0.3784898519515991,
      "memory(GiB)": 61.91,
      "step": 14485,
      "token_acc": 0.9087837837837838,
      "train_speed(iter/s)": 1.48663
    },
    {
      "epoch": 0.6207960241634891,
      "grad_norm": 2.496685743331909,
      "learning_rate": 9.624435710318067e-05,
      "loss": 0.5250838279724122,
      "memory(GiB)": 61.91,
      "step": 14490,
      "token_acc": 0.8888888888888888,
      "train_speed(iter/s)": 1.486556
    },
    {
      "epoch": 0.6210102394927381,
      "grad_norm": 3.0175371170043945,
      "learning_rate": 9.6241797743752e-05,
      "loss": 0.2517117738723755,
      "memory(GiB)": 61.91,
      "step": 14495,
      "token_acc": 0.941747572815534,
      "train_speed(iter/s)": 1.486562
    },
    {
      "epoch": 0.6212244548219871,
      "grad_norm": 6.15025520324707,
      "learning_rate": 9.623923754660977e-05,
      "loss": 0.4684727191925049,
      "memory(GiB)": 61.91,
      "step": 14500,
      "token_acc": 0.9084249084249084,
      "train_speed(iter/s)": 1.486589
    },
    {
      "epoch": 0.6212244548219871,
      "eval_loss": 2.817950963973999,
      "eval_runtime": 13.2356,
      "eval_samples_per_second": 7.555,
      "eval_steps_per_second": 7.555,
      "eval_token_acc": 0.43636363636363634,
      "step": 14500
    },
    {
      "epoch": 0.621438670151236,
      "grad_norm": 1.7428393363952637,
      "learning_rate": 9.623667651180039e-05,
      "loss": 0.2028125286102295,
      "memory(GiB)": 61.91,
      "step": 14505,
      "token_acc": 0.56071076011846,
      "train_speed(iter/s)": 1.484445
    },
    {
      "epoch": 0.621652885480485,
      "grad_norm": 2.4227089881896973,
      "learning_rate": 9.623411463937022e-05,
      "loss": 0.49710450172424314,
      "memory(GiB)": 61.91,
      "step": 14510,
      "token_acc": 0.8702290076335878,
      "train_speed(iter/s)": 1.484427
    },
    {
      "epoch": 0.621867100809734,
      "grad_norm": 4.13482666015625,
      "learning_rate": 9.62315519293657e-05,
      "loss": 0.4304450511932373,
      "memory(GiB)": 61.91,
      "step": 14515,
      "token_acc": 0.9044117647058824,
      "train_speed(iter/s)": 1.48441
    },
    {
      "epoch": 0.6220813161389829,
      "grad_norm": 4.8451690673828125,
      "learning_rate": 9.622898838183325e-05,
      "loss": 0.6394207000732421,
      "memory(GiB)": 61.91,
      "step": 14520,
      "token_acc": 0.8637992831541219,
      "train_speed(iter/s)": 1.484391
    },
    {
      "epoch": 0.6222955314682319,
      "grad_norm": 3.1908092498779297,
      "learning_rate": 9.622642399681931e-05,
      "loss": 0.5209192752838134,
      "memory(GiB)": 61.91,
      "step": 14525,
      "token_acc": 0.9125,
      "train_speed(iter/s)": 1.484406
    },
    {
      "epoch": 0.6225097467974808,
      "grad_norm": 3.3763744831085205,
      "learning_rate": 9.622385877437034e-05,
      "loss": 0.6407839298248291,
      "memory(GiB)": 61.91,
      "step": 14530,
      "token_acc": 0.8440366972477065,
      "train_speed(iter/s)": 1.484462
    },
    {
      "epoch": 0.6227239621267298,
      "grad_norm": 2.7645857334136963,
      "learning_rate": 9.622129271453281e-05,
      "loss": 0.2966806173324585,
      "memory(GiB)": 61.91,
      "step": 14535,
      "token_acc": 0.9411764705882353,
      "train_speed(iter/s)": 1.484465
    },
    {
      "epoch": 0.6229381774559788,
      "grad_norm": 2.8770060539245605,
      "learning_rate": 9.62187258173532e-05,
      "loss": 0.3563460111618042,
      "memory(GiB)": 61.91,
      "step": 14540,
      "token_acc": 0.9243421052631579,
      "train_speed(iter/s)": 1.484475
    },
    {
      "epoch": 0.6231523927852277,
      "grad_norm": 3.1781489849090576,
      "learning_rate": 9.621615808287801e-05,
      "loss": 0.3735190868377686,
      "memory(GiB)": 61.91,
      "step": 14545,
      "token_acc": 0.9373134328358209,
      "train_speed(iter/s)": 1.484441
    },
    {
      "epoch": 0.6233666081144766,
      "grad_norm": 4.3358941078186035,
      "learning_rate": 9.621358951115377e-05,
      "loss": 0.44463281631469725,
      "memory(GiB)": 61.91,
      "step": 14550,
      "token_acc": 0.8976109215017065,
      "train_speed(iter/s)": 1.484447
    },
    {
      "epoch": 0.6235808234437257,
      "grad_norm": 3.709871768951416,
      "learning_rate": 9.6211020102227e-05,
      "loss": 0.39681448936462405,
      "memory(GiB)": 61.91,
      "step": 14555,
      "token_acc": 0.9157509157509157,
      "train_speed(iter/s)": 1.484445
    },
    {
      "epoch": 0.6237950387729746,
      "grad_norm": 5.341330051422119,
      "learning_rate": 9.620844985614425e-05,
      "loss": 0.21898908615112306,
      "memory(GiB)": 61.91,
      "step": 14560,
      "token_acc": 0.9565217391304348,
      "train_speed(iter/s)": 1.484434
    },
    {
      "epoch": 0.6240092541022235,
      "grad_norm": 1.4658693075180054,
      "learning_rate": 9.620587877295209e-05,
      "loss": 0.3221198797225952,
      "memory(GiB)": 61.91,
      "step": 14565,
      "token_acc": 0.9352750809061489,
      "train_speed(iter/s)": 1.484449
    },
    {
      "epoch": 0.6242234694314726,
      "grad_norm": 3.5065741539001465,
      "learning_rate": 9.620330685269707e-05,
      "loss": 0.3495811939239502,
      "memory(GiB)": 61.91,
      "step": 14570,
      "token_acc": 0.9242902208201893,
      "train_speed(iter/s)": 1.484444
    },
    {
      "epoch": 0.6244376847607215,
      "grad_norm": 1.926450252532959,
      "learning_rate": 9.620073409542583e-05,
      "loss": 0.5926002025604248,
      "memory(GiB)": 61.91,
      "step": 14575,
      "token_acc": 0.8776223776223776,
      "train_speed(iter/s)": 1.48449
    },
    {
      "epoch": 0.6246519000899704,
      "grad_norm": 5.145088195800781,
      "learning_rate": 9.619816050118494e-05,
      "loss": 0.3203765392303467,
      "memory(GiB)": 61.91,
      "step": 14580,
      "token_acc": 0.9250936329588015,
      "train_speed(iter/s)": 1.484482
    },
    {
      "epoch": 0.6248661154192194,
      "grad_norm": 4.8615546226501465,
      "learning_rate": 9.619558607002103e-05,
      "loss": 0.44176111221313474,
      "memory(GiB)": 61.91,
      "step": 14585,
      "token_acc": 0.9151943462897526,
      "train_speed(iter/s)": 1.484508
    },
    {
      "epoch": 0.6250803307484684,
      "grad_norm": 1.7054017782211304,
      "learning_rate": 9.619301080198075e-05,
      "loss": 0.4668544292449951,
      "memory(GiB)": 61.91,
      "step": 14590,
      "token_acc": 0.9102990033222591,
      "train_speed(iter/s)": 1.484512
    },
    {
      "epoch": 0.6252945460777173,
      "grad_norm": 4.048427104949951,
      "learning_rate": 9.619043469711074e-05,
      "loss": 0.46843528747558594,
      "memory(GiB)": 61.91,
      "step": 14595,
      "token_acc": 0.8854748603351955,
      "train_speed(iter/s)": 1.484495
    },
    {
      "epoch": 0.6255087614069663,
      "grad_norm": 5.763453006744385,
      "learning_rate": 9.618785775545769e-05,
      "loss": 0.2939110517501831,
      "memory(GiB)": 61.91,
      "step": 14600,
      "token_acc": 0.9333333333333333,
      "train_speed(iter/s)": 1.484479
    },
    {
      "epoch": 0.6257229767362152,
      "grad_norm": 1.7419207096099854,
      "learning_rate": 9.618527997706825e-05,
      "loss": 0.6177469730377197,
      "memory(GiB)": 61.91,
      "step": 14605,
      "token_acc": 0.8725490196078431,
      "train_speed(iter/s)": 1.484472
    },
    {
      "epoch": 0.6259371920654642,
      "grad_norm": 2.4443984031677246,
      "learning_rate": 9.618270136198915e-05,
      "loss": 0.497251558303833,
      "memory(GiB)": 61.91,
      "step": 14610,
      "token_acc": 0.9166666666666666,
      "train_speed(iter/s)": 1.484526
    },
    {
      "epoch": 0.6261514073947132,
      "grad_norm": 3.1425395011901855,
      "learning_rate": 9.61801219102671e-05,
      "loss": 0.6767574310302734,
      "memory(GiB)": 61.91,
      "step": 14615,
      "token_acc": 0.8618181818181818,
      "train_speed(iter/s)": 1.484577
    },
    {
      "epoch": 0.6263656227239621,
      "grad_norm": 2.114856719970703,
      "learning_rate": 9.617754162194881e-05,
      "loss": 0.3845386028289795,
      "memory(GiB)": 61.91,
      "step": 14620,
      "token_acc": 0.909967845659164,
      "train_speed(iter/s)": 1.484583
    },
    {
      "epoch": 0.626579838053211,
      "grad_norm": 3.8917486667633057,
      "learning_rate": 9.617496049708103e-05,
      "loss": 0.42268962860107423,
      "memory(GiB)": 61.91,
      "step": 14625,
      "token_acc": 0.9096573208722741,
      "train_speed(iter/s)": 1.484616
    },
    {
      "epoch": 0.6267940533824601,
      "grad_norm": 1.5894486904144287,
      "learning_rate": 9.617237853571054e-05,
      "loss": 0.2914065599441528,
      "memory(GiB)": 61.91,
      "step": 14630,
      "token_acc": 0.9250720461095101,
      "train_speed(iter/s)": 1.484606
    },
    {
      "epoch": 0.627008268711709,
      "grad_norm": 3.577294111251831,
      "learning_rate": 9.61697957378841e-05,
      "loss": 0.4904576301574707,
      "memory(GiB)": 61.91,
      "step": 14635,
      "token_acc": 0.9060150375939849,
      "train_speed(iter/s)": 1.484579
    },
    {
      "epoch": 0.6272224840409579,
      "grad_norm": 7.394708633422852,
      "learning_rate": 9.616721210364849e-05,
      "loss": 0.30845818519592283,
      "memory(GiB)": 61.91,
      "step": 14640,
      "token_acc": 0.9313432835820895,
      "train_speed(iter/s)": 1.48459
    },
    {
      "epoch": 0.627436699370207,
      "grad_norm": 4.052779674530029,
      "learning_rate": 9.616462763305052e-05,
      "loss": 0.21387763023376466,
      "memory(GiB)": 61.91,
      "step": 14645,
      "token_acc": 0.9568627450980393,
      "train_speed(iter/s)": 1.484597
    },
    {
      "epoch": 0.6276509146994559,
      "grad_norm": 3.3255093097686768,
      "learning_rate": 9.616204232613701e-05,
      "loss": 0.39247024059295654,
      "memory(GiB)": 61.91,
      "step": 14650,
      "token_acc": 0.9185667752442996,
      "train_speed(iter/s)": 1.48463
    },
    {
      "epoch": 0.6278651300287048,
      "grad_norm": 4.059135913848877,
      "learning_rate": 9.615945618295483e-05,
      "loss": 0.3055412292480469,
      "memory(GiB)": 61.91,
      "step": 14655,
      "token_acc": 0.924901185770751,
      "train_speed(iter/s)": 1.484631
    },
    {
      "epoch": 0.6280793453579538,
      "grad_norm": 1.5347957611083984,
      "learning_rate": 9.615686920355077e-05,
      "loss": 0.44037256240844724,
      "memory(GiB)": 61.91,
      "step": 14660,
      "token_acc": 0.9022556390977443,
      "train_speed(iter/s)": 1.484637
    },
    {
      "epoch": 0.6282935606872028,
      "grad_norm": 3.0786752700805664,
      "learning_rate": 9.615428138797174e-05,
      "loss": 0.45560755729675295,
      "memory(GiB)": 61.91,
      "step": 14665,
      "token_acc": 0.8987341772151899,
      "train_speed(iter/s)": 1.484633
    },
    {
      "epoch": 0.6285077760164517,
      "grad_norm": 3.1524155139923096,
      "learning_rate": 9.61516927362646e-05,
      "loss": 0.5191938877105713,
      "memory(GiB)": 61.91,
      "step": 14670,
      "token_acc": 0.8823529411764706,
      "train_speed(iter/s)": 1.484598
    },
    {
      "epoch": 0.6287219913457007,
      "grad_norm": 3.246070623397827,
      "learning_rate": 9.614910324847626e-05,
      "loss": 0.3735840320587158,
      "memory(GiB)": 61.91,
      "step": 14675,
      "token_acc": 0.9296296296296296,
      "train_speed(iter/s)": 1.484598
    },
    {
      "epoch": 0.6289362066749496,
      "grad_norm": 2.6072261333465576,
      "learning_rate": 9.614651292465361e-05,
      "loss": 0.4132176399230957,
      "memory(GiB)": 61.91,
      "step": 14680,
      "token_acc": 0.9218241042345277,
      "train_speed(iter/s)": 1.484627
    },
    {
      "epoch": 0.6291504220041986,
      "grad_norm": 2.251004219055176,
      "learning_rate": 9.614392176484359e-05,
      "loss": 0.24217648506164552,
      "memory(GiB)": 61.91,
      "step": 14685,
      "token_acc": 0.959409594095941,
      "train_speed(iter/s)": 1.484617
    },
    {
      "epoch": 0.6293646373334476,
      "grad_norm": 2.780733823776245,
      "learning_rate": 9.614132976909316e-05,
      "loss": 0.4391185283660889,
      "memory(GiB)": 61.91,
      "step": 14690,
      "token_acc": 0.9012345679012346,
      "train_speed(iter/s)": 1.484605
    },
    {
      "epoch": 0.6295788526626965,
      "grad_norm": 1.6242775917053223,
      "learning_rate": 9.613873693744924e-05,
      "loss": 0.2058866500854492,
      "memory(GiB)": 61.91,
      "step": 14695,
      "token_acc": 0.946360153256705,
      "train_speed(iter/s)": 1.484666
    },
    {
      "epoch": 0.6297930679919455,
      "grad_norm": 3.2150087356567383,
      "learning_rate": 9.613614326995882e-05,
      "loss": 0.4322181224822998,
      "memory(GiB)": 61.91,
      "step": 14700,
      "token_acc": 0.9153846153846154,
      "train_speed(iter/s)": 1.484675
    },
    {
      "epoch": 0.6300072833211945,
      "grad_norm": 4.356142044067383,
      "learning_rate": 9.613354876666889e-05,
      "loss": 0.46286654472351074,
      "memory(GiB)": 61.91,
      "step": 14705,
      "token_acc": 0.8817891373801917,
      "train_speed(iter/s)": 1.484677
    },
    {
      "epoch": 0.6302214986504434,
      "grad_norm": 2.106816053390503,
      "learning_rate": 9.613095342762646e-05,
      "loss": 0.5676737308502198,
      "memory(GiB)": 61.91,
      "step": 14710,
      "token_acc": 0.9024390243902439,
      "train_speed(iter/s)": 1.484753
    },
    {
      "epoch": 0.6304357139796923,
      "grad_norm": 2.594012498855591,
      "learning_rate": 9.612835725287852e-05,
      "loss": 0.29802157878875735,
      "memory(GiB)": 61.91,
      "step": 14715,
      "token_acc": 0.9331103678929766,
      "train_speed(iter/s)": 1.484813
    },
    {
      "epoch": 0.6306499293089414,
      "grad_norm": 3.064887762069702,
      "learning_rate": 9.61257602424721e-05,
      "loss": 0.3664767503738403,
      "memory(GiB)": 61.91,
      "step": 14720,
      "token_acc": 0.9363957597173145,
      "train_speed(iter/s)": 1.484791
    },
    {
      "epoch": 0.6308641446381903,
      "grad_norm": 1.2812520265579224,
      "learning_rate": 9.612316239645429e-05,
      "loss": 0.37951207160949707,
      "memory(GiB)": 61.91,
      "step": 14725,
      "token_acc": 0.9365079365079365,
      "train_speed(iter/s)": 1.484832
    },
    {
      "epoch": 0.6310783599674392,
      "grad_norm": 4.980966091156006,
      "learning_rate": 9.612056371487213e-05,
      "loss": 0.4036360740661621,
      "memory(GiB)": 61.91,
      "step": 14730,
      "token_acc": 0.9225806451612903,
      "train_speed(iter/s)": 1.484811
    },
    {
      "epoch": 0.6312925752966883,
      "grad_norm": 1.5435926914215088,
      "learning_rate": 9.611796419777266e-05,
      "loss": 0.21831693649291992,
      "memory(GiB)": 61.91,
      "step": 14735,
      "token_acc": 0.959866220735786,
      "train_speed(iter/s)": 1.484858
    },
    {
      "epoch": 0.6315067906259372,
      "grad_norm": 2.822359323501587,
      "learning_rate": 9.611536384520303e-05,
      "loss": 0.27899553775787356,
      "memory(GiB)": 61.91,
      "step": 14740,
      "token_acc": 0.9371428571428572,
      "train_speed(iter/s)": 1.484841
    },
    {
      "epoch": 0.6317210059551861,
      "grad_norm": 2.7643606662750244,
      "learning_rate": 9.611276265721032e-05,
      "loss": 0.3614768981933594,
      "memory(GiB)": 61.91,
      "step": 14745,
      "token_acc": 0.9169329073482428,
      "train_speed(iter/s)": 1.484814
    },
    {
      "epoch": 0.6319352212844351,
      "grad_norm": 2.053511142730713,
      "learning_rate": 9.611016063384168e-05,
      "loss": 0.26288599967956544,
      "memory(GiB)": 61.91,
      "step": 14750,
      "token_acc": 0.9607843137254902,
      "train_speed(iter/s)": 1.484787
    },
    {
      "epoch": 0.6321494366136841,
      "grad_norm": 3.419545888900757,
      "learning_rate": 9.61075577751442e-05,
      "loss": 0.47572989463806153,
      "memory(GiB)": 61.91,
      "step": 14755,
      "token_acc": 0.9072847682119205,
      "train_speed(iter/s)": 1.484816
    },
    {
      "epoch": 0.6323636519429331,
      "grad_norm": 4.687938213348389,
      "learning_rate": 9.610495408116507e-05,
      "loss": 0.7010627746582031,
      "memory(GiB)": 61.91,
      "step": 14760,
      "token_acc": 0.8464163822525598,
      "train_speed(iter/s)": 1.484818
    },
    {
      "epoch": 0.632577867272182,
      "grad_norm": 3.0458271503448486,
      "learning_rate": 9.610234955195143e-05,
      "loss": 0.4775047302246094,
      "memory(GiB)": 61.91,
      "step": 14765,
      "token_acc": 0.9011406844106464,
      "train_speed(iter/s)": 1.484805
    },
    {
      "epoch": 0.6327920826014309,
      "grad_norm": 7.711501598358154,
      "learning_rate": 9.60997441875505e-05,
      "loss": 0.45972452163696287,
      "memory(GiB)": 61.91,
      "step": 14770,
      "token_acc": 0.8920863309352518,
      "train_speed(iter/s)": 1.48484
    },
    {
      "epoch": 0.63300629793068,
      "grad_norm": 3.723446846008301,
      "learning_rate": 9.609713798800943e-05,
      "loss": 0.5391488552093506,
      "memory(GiB)": 61.91,
      "step": 14775,
      "token_acc": 0.8893280632411067,
      "train_speed(iter/s)": 1.484843
    },
    {
      "epoch": 0.6332205132599289,
      "grad_norm": 3.70721435546875,
      "learning_rate": 9.609453095337548e-05,
      "loss": 0.432661247253418,
      "memory(GiB)": 61.91,
      "step": 14780,
      "token_acc": 0.8915254237288136,
      "train_speed(iter/s)": 1.484936
    },
    {
      "epoch": 0.6334347285891778,
      "grad_norm": 4.185970306396484,
      "learning_rate": 9.609192308369588e-05,
      "loss": 0.3017240047454834,
      "memory(GiB)": 61.91,
      "step": 14785,
      "token_acc": 0.9434628975265018,
      "train_speed(iter/s)": 1.48497
    },
    {
      "epoch": 0.6336489439184269,
      "grad_norm": 0.8727532625198364,
      "learning_rate": 9.608931437901782e-05,
      "loss": 0.14391974210739136,
      "memory(GiB)": 61.91,
      "step": 14790,
      "token_acc": 0.9595959595959596,
      "train_speed(iter/s)": 1.484965
    },
    {
      "epoch": 0.6338631592476758,
      "grad_norm": 3.9483530521392822,
      "learning_rate": 9.608670483938862e-05,
      "loss": 0.3390128374099731,
      "memory(GiB)": 61.91,
      "step": 14795,
      "token_acc": 0.9233576642335767,
      "train_speed(iter/s)": 1.484956
    },
    {
      "epoch": 0.6340773745769247,
      "grad_norm": 3.3456575870513916,
      "learning_rate": 9.608409446485553e-05,
      "loss": 0.28879656791687014,
      "memory(GiB)": 61.91,
      "step": 14800,
      "token_acc": 0.9415807560137457,
      "train_speed(iter/s)": 1.484965
    },
    {
      "epoch": 0.6342915899061737,
      "grad_norm": 0.9742447733879089,
      "learning_rate": 9.608148325546583e-05,
      "loss": 0.3231043338775635,
      "memory(GiB)": 61.91,
      "step": 14805,
      "token_acc": 0.9340277777777778,
      "train_speed(iter/s)": 1.484984
    },
    {
      "epoch": 0.6345058052354227,
      "grad_norm": 3.489210844039917,
      "learning_rate": 9.607887121126684e-05,
      "loss": 0.42917451858520506,
      "memory(GiB)": 61.91,
      "step": 14810,
      "token_acc": 0.9163987138263665,
      "train_speed(iter/s)": 1.484966
    },
    {
      "epoch": 0.6347200205646716,
      "grad_norm": 3.688579559326172,
      "learning_rate": 9.607625833230586e-05,
      "loss": 0.6383449077606201,
      "memory(GiB)": 61.91,
      "step": 14815,
      "token_acc": 0.8740157480314961,
      "train_speed(iter/s)": 1.484956
    },
    {
      "epoch": 0.6349342358939206,
      "grad_norm": 2.410067081451416,
      "learning_rate": 9.607364461863024e-05,
      "loss": 0.40448474884033203,
      "memory(GiB)": 61.91,
      "step": 14820,
      "token_acc": 0.9100719424460432,
      "train_speed(iter/s)": 1.484968
    },
    {
      "epoch": 0.6351484512231695,
      "grad_norm": 3.793860673904419,
      "learning_rate": 9.607103007028733e-05,
      "loss": 0.44420762062072755,
      "memory(GiB)": 61.91,
      "step": 14825,
      "token_acc": 0.9104477611940298,
      "train_speed(iter/s)": 1.484969
    },
    {
      "epoch": 0.6353626665524185,
      "grad_norm": 3.4886090755462646,
      "learning_rate": 9.606841468732451e-05,
      "loss": 0.35037384033203123,
      "memory(GiB)": 61.91,
      "step": 14830,
      "token_acc": 0.9285714285714286,
      "train_speed(iter/s)": 1.484993
    },
    {
      "epoch": 0.6355768818816675,
      "grad_norm": 2.152660608291626,
      "learning_rate": 9.606579846978912e-05,
      "loss": 0.7115180969238282,
      "memory(GiB)": 61.91,
      "step": 14835,
      "token_acc": 0.8560311284046692,
      "train_speed(iter/s)": 1.48502
    },
    {
      "epoch": 0.6357910972109164,
      "grad_norm": 2.227879524230957,
      "learning_rate": 9.606318141772858e-05,
      "loss": 0.27489328384399414,
      "memory(GiB)": 61.91,
      "step": 14840,
      "token_acc": 0.9446366782006921,
      "train_speed(iter/s)": 1.485045
    },
    {
      "epoch": 0.6360053125401653,
      "grad_norm": 3.693131923675537,
      "learning_rate": 9.606056353119031e-05,
      "loss": 0.4243523120880127,
      "memory(GiB)": 61.91,
      "step": 14845,
      "token_acc": 0.8869257950530035,
      "train_speed(iter/s)": 1.485022
    },
    {
      "epoch": 0.6362195278694144,
      "grad_norm": 0.7422344088554382,
      "learning_rate": 9.60579448102217e-05,
      "loss": 0.27050397396087644,
      "memory(GiB)": 61.91,
      "step": 14850,
      "token_acc": 0.95,
      "train_speed(iter/s)": 1.485018
    },
    {
      "epoch": 0.6364337431986633,
      "grad_norm": 5.085533618927002,
      "learning_rate": 9.605532525487024e-05,
      "loss": 0.583841609954834,
      "memory(GiB)": 61.91,
      "step": 14855,
      "token_acc": 0.8931297709923665,
      "train_speed(iter/s)": 1.484989
    },
    {
      "epoch": 0.6366479585279122,
      "grad_norm": 3.134425401687622,
      "learning_rate": 9.605270486518335e-05,
      "loss": 0.34767398834228513,
      "memory(GiB)": 61.91,
      "step": 14860,
      "token_acc": 0.9130434782608695,
      "train_speed(iter/s)": 1.48497
    },
    {
      "epoch": 0.6368621738571613,
      "grad_norm": 3.1537108421325684,
      "learning_rate": 9.60500836412085e-05,
      "loss": 0.613176965713501,
      "memory(GiB)": 61.91,
      "step": 14865,
      "token_acc": 0.8738170347003155,
      "train_speed(iter/s)": 1.484987
    },
    {
      "epoch": 0.6370763891864102,
      "grad_norm": 1.8521831035614014,
      "learning_rate": 9.604746158299319e-05,
      "loss": 0.41345062255859377,
      "memory(GiB)": 61.91,
      "step": 14870,
      "token_acc": 0.9105058365758755,
      "train_speed(iter/s)": 1.484993
    },
    {
      "epoch": 0.6372906045156591,
      "grad_norm": 2.67592191696167,
      "learning_rate": 9.604483869058492e-05,
      "loss": 0.7560207366943359,
      "memory(GiB)": 61.91,
      "step": 14875,
      "token_acc": 0.8396946564885496,
      "train_speed(iter/s)": 1.484971
    },
    {
      "epoch": 0.6375048198449081,
      "grad_norm": 5.289083957672119,
      "learning_rate": 9.604221496403121e-05,
      "loss": 0.5849059104919434,
      "memory(GiB)": 61.91,
      "step": 14880,
      "token_acc": 0.8776223776223776,
      "train_speed(iter/s)": 1.48496
    },
    {
      "epoch": 0.6377190351741571,
      "grad_norm": 15.396535873413086,
      "learning_rate": 9.603959040337958e-05,
      "loss": 0.3866638422012329,
      "memory(GiB)": 61.91,
      "step": 14885,
      "token_acc": 0.9191919191919192,
      "train_speed(iter/s)": 1.484964
    },
    {
      "epoch": 0.637933250503406,
      "grad_norm": 2.2538225650787354,
      "learning_rate": 9.603696500867758e-05,
      "loss": 0.40776629447937013,
      "memory(GiB)": 61.91,
      "step": 14890,
      "token_acc": 0.9118541033434651,
      "train_speed(iter/s)": 1.485054
    },
    {
      "epoch": 0.638147465832655,
      "grad_norm": 6.382772445678711,
      "learning_rate": 9.603433877997278e-05,
      "loss": 0.8178947448730469,
      "memory(GiB)": 61.91,
      "step": 14895,
      "token_acc": 0.8308823529411765,
      "train_speed(iter/s)": 1.48516
    },
    {
      "epoch": 0.638361681161904,
      "grad_norm": 4.55464506149292,
      "learning_rate": 9.603171171731273e-05,
      "loss": 0.3245693206787109,
      "memory(GiB)": 61.91,
      "step": 14900,
      "token_acc": 0.9377593360995851,
      "train_speed(iter/s)": 1.485191
    },
    {
      "epoch": 0.6385758964911529,
      "grad_norm": 1.177608609199524,
      "learning_rate": 9.602908382074508e-05,
      "loss": 0.2794328212738037,
      "memory(GiB)": 61.91,
      "step": 14905,
      "token_acc": 0.9415384615384615,
      "train_speed(iter/s)": 1.485192
    },
    {
      "epoch": 0.6387901118204019,
      "grad_norm": 1.1164549589157104,
      "learning_rate": 9.602645509031735e-05,
      "loss": 0.340386962890625,
      "memory(GiB)": 61.91,
      "step": 14910,
      "token_acc": 0.9263157894736842,
      "train_speed(iter/s)": 1.485159
    },
    {
      "epoch": 0.6390043271496508,
      "grad_norm": 2.795476198196411,
      "learning_rate": 9.602382552607724e-05,
      "loss": 0.6486668109893798,
      "memory(GiB)": 61.91,
      "step": 14915,
      "token_acc": 0.8861538461538462,
      "train_speed(iter/s)": 1.485124
    },
    {
      "epoch": 0.6392185424788998,
      "grad_norm": 2.877755641937256,
      "learning_rate": 9.602119512807234e-05,
      "loss": 0.14693330526351928,
      "memory(GiB)": 61.91,
      "step": 14920,
      "token_acc": 0.9644128113879004,
      "train_speed(iter/s)": 1.485114
    },
    {
      "epoch": 0.6394327578081488,
      "grad_norm": 6.204319953918457,
      "learning_rate": 9.601856389635034e-05,
      "loss": 0.4558413982391357,
      "memory(GiB)": 61.91,
      "step": 14925,
      "token_acc": 0.8874172185430463,
      "train_speed(iter/s)": 1.485099
    },
    {
      "epoch": 0.6396469731373977,
      "grad_norm": 1.7430015802383423,
      "learning_rate": 9.601593183095887e-05,
      "loss": 0.2009504795074463,
      "memory(GiB)": 61.91,
      "step": 14930,
      "token_acc": 0.9605263157894737,
      "train_speed(iter/s)": 1.485077
    },
    {
      "epoch": 0.6398611884666466,
      "grad_norm": 3.99906849861145,
      "learning_rate": 9.601329893194563e-05,
      "loss": 0.550875473022461,
      "memory(GiB)": 61.91,
      "step": 14935,
      "token_acc": 0.8865030674846626,
      "train_speed(iter/s)": 1.485051
    },
    {
      "epoch": 0.6400754037958957,
      "grad_norm": 4.578465938568115,
      "learning_rate": 9.601066519935832e-05,
      "loss": 0.5483016014099121,
      "memory(GiB)": 61.91,
      "step": 14940,
      "token_acc": 0.8839285714285714,
      "train_speed(iter/s)": 1.485071
    },
    {
      "epoch": 0.6402896191251446,
      "grad_norm": 1.4683079719543457,
      "learning_rate": 9.600803063324465e-05,
      "loss": 0.48709959983825685,
      "memory(GiB)": 61.91,
      "step": 14945,
      "token_acc": 0.9007633587786259,
      "train_speed(iter/s)": 1.485054
    },
    {
      "epoch": 0.6405038344543935,
      "grad_norm": 4.422609329223633,
      "learning_rate": 9.600539523365234e-05,
      "loss": 0.16610996723175048,
      "memory(GiB)": 61.91,
      "step": 14950,
      "token_acc": 0.9619377162629758,
      "train_speed(iter/s)": 1.48502
    },
    {
      "epoch": 0.6407180497836426,
      "grad_norm": 7.860347270965576,
      "learning_rate": 9.600275900062915e-05,
      "loss": 0.6171211242675781,
      "memory(GiB)": 61.91,
      "step": 14955,
      "token_acc": 0.875,
      "train_speed(iter/s)": 1.485039
    },
    {
      "epoch": 0.6409322651128915,
      "grad_norm": 6.96934175491333,
      "learning_rate": 9.600012193422281e-05,
      "loss": 0.3641418695449829,
      "memory(GiB)": 61.91,
      "step": 14960,
      "token_acc": 0.9270833333333334,
      "train_speed(iter/s)": 1.484992
    },
    {
      "epoch": 0.6411464804421404,
      "grad_norm": 3.244460105895996,
      "learning_rate": 9.599748403448113e-05,
      "loss": 0.20010690689086913,
      "memory(GiB)": 61.91,
      "step": 14965,
      "token_acc": 0.9555555555555556,
      "train_speed(iter/s)": 1.484966
    },
    {
      "epoch": 0.6413606957713894,
      "grad_norm": 2.1829843521118164,
      "learning_rate": 9.599484530145186e-05,
      "loss": 0.2176499843597412,
      "memory(GiB)": 61.91,
      "step": 14970,
      "token_acc": 0.9508771929824561,
      "train_speed(iter/s)": 1.484953
    },
    {
      "epoch": 0.6415749111006384,
      "grad_norm": 3.357576608657837,
      "learning_rate": 9.599220573518282e-05,
      "loss": 0.5286779880523682,
      "memory(GiB)": 61.91,
      "step": 14975,
      "token_acc": 0.8876811594202898,
      "train_speed(iter/s)": 1.484953
    },
    {
      "epoch": 0.6417891264298873,
      "grad_norm": 3.9801621437072754,
      "learning_rate": 9.598956533572183e-05,
      "loss": 0.4387080192565918,
      "memory(GiB)": 61.91,
      "step": 14980,
      "token_acc": 0.8990536277602523,
      "train_speed(iter/s)": 1.484996
    },
    {
      "epoch": 0.6420033417591363,
      "grad_norm": 0.1717825084924698,
      "learning_rate": 9.598692410311674e-05,
      "loss": 0.2945881366729736,
      "memory(GiB)": 61.91,
      "step": 14985,
      "token_acc": 0.9409448818897638,
      "train_speed(iter/s)": 1.485007
    },
    {
      "epoch": 0.6422175570883852,
      "grad_norm": 3.919212818145752,
      "learning_rate": 9.598428203741536e-05,
      "loss": 0.40082559585571287,
      "memory(GiB)": 61.91,
      "step": 14990,
      "token_acc": 0.906896551724138,
      "train_speed(iter/s)": 1.484984
    },
    {
      "epoch": 0.6424317724176342,
      "grad_norm": 3.669501304626465,
      "learning_rate": 9.598163913866558e-05,
      "loss": 0.3335289716720581,
      "memory(GiB)": 61.91,
      "step": 14995,
      "token_acc": 0.9215017064846417,
      "train_speed(iter/s)": 1.484991
    },
    {
      "epoch": 0.6426459877468832,
      "grad_norm": 6.054754257202148,
      "learning_rate": 9.597899540691527e-05,
      "loss": 0.4841428279876709,
      "memory(GiB)": 61.91,
      "step": 15000,
      "token_acc": 0.9172413793103448,
      "train_speed(iter/s)": 1.484968
    },
    {
      "epoch": 0.6426459877468832,
      "eval_loss": 2.749873399734497,
      "eval_runtime": 13.3422,
      "eval_samples_per_second": 7.495,
      "eval_steps_per_second": 7.495,
      "eval_token_acc": 0.41746411483253587,
      "step": 15000
    },
    {
      "epoch": 0.6428602030761321,
      "grad_norm": 2.8434858322143555,
      "learning_rate": 9.597635084221234e-05,
      "loss": 0.2857626676559448,
      "memory(GiB)": 61.91,
      "step": 15005,
      "token_acc": 0.5464285714285714,
      "train_speed(iter/s)": 1.482867
    },
    {
      "epoch": 0.643074418405381,
      "grad_norm": 2.8151803016662598,
      "learning_rate": 9.597370544460467e-05,
      "loss": 0.34791200160980223,
      "memory(GiB)": 61.91,
      "step": 15010,
      "token_acc": 0.9225589225589226,
      "train_speed(iter/s)": 1.482838
    },
    {
      "epoch": 0.6432886337346301,
      "grad_norm": 0.15423570573329926,
      "learning_rate": 9.59710592141402e-05,
      "loss": 0.31936054229736327,
      "memory(GiB)": 61.91,
      "step": 15015,
      "token_acc": 0.9477351916376306,
      "train_speed(iter/s)": 1.482917
    },
    {
      "epoch": 0.643502849063879,
      "grad_norm": 0.060921043157577515,
      "learning_rate": 9.596841215086689e-05,
      "loss": 0.20055902004241943,
      "memory(GiB)": 61.91,
      "step": 15020,
      "token_acc": 0.9440298507462687,
      "train_speed(iter/s)": 1.483014
    },
    {
      "epoch": 0.6437170643931279,
      "grad_norm": 3.9596028327941895,
      "learning_rate": 9.596576425483264e-05,
      "loss": 0.16176793575286866,
      "memory(GiB)": 61.91,
      "step": 15025,
      "token_acc": 0.956989247311828,
      "train_speed(iter/s)": 1.482998
    },
    {
      "epoch": 0.643931279722377,
      "grad_norm": 2.315037727355957,
      "learning_rate": 9.596311552608547e-05,
      "loss": 0.23392224311828613,
      "memory(GiB)": 61.91,
      "step": 15030,
      "token_acc": 0.9463276836158192,
      "train_speed(iter/s)": 1.482967
    },
    {
      "epoch": 0.6441454950516259,
      "grad_norm": 3.0920605659484863,
      "learning_rate": 9.596046596467334e-05,
      "loss": 0.5604113101959228,
      "memory(GiB)": 61.91,
      "step": 15035,
      "token_acc": 0.9069767441860465,
      "train_speed(iter/s)": 1.483007
    },
    {
      "epoch": 0.6443597103808748,
      "grad_norm": 6.976906776428223,
      "learning_rate": 9.595781557064427e-05,
      "loss": 0.7252992630004883,
      "memory(GiB)": 61.91,
      "step": 15040,
      "token_acc": 0.8481012658227848,
      "train_speed(iter/s)": 1.483053
    },
    {
      "epoch": 0.6445739257101238,
      "grad_norm": 1.8767651319503784,
      "learning_rate": 9.595516434404624e-05,
      "loss": 0.5165930271148682,
      "memory(GiB)": 61.91,
      "step": 15045,
      "token_acc": 0.9074074074074074,
      "train_speed(iter/s)": 1.483051
    },
    {
      "epoch": 0.6447881410393728,
      "grad_norm": 2.6300089359283447,
      "learning_rate": 9.59525122849273e-05,
      "loss": 0.27689833641052247,
      "memory(GiB)": 61.91,
      "step": 15050,
      "token_acc": 0.9372937293729373,
      "train_speed(iter/s)": 1.483025
    },
    {
      "epoch": 0.6450023563686217,
      "grad_norm": 4.597753047943115,
      "learning_rate": 9.594985939333549e-05,
      "loss": 0.43529610633850097,
      "memory(GiB)": 61.91,
      "step": 15055,
      "token_acc": 0.9143835616438356,
      "train_speed(iter/s)": 1.483041
    },
    {
      "epoch": 0.6452165716978707,
      "grad_norm": 3.9214320182800293,
      "learning_rate": 9.594720566931889e-05,
      "loss": 0.26026239395141604,
      "memory(GiB)": 61.91,
      "step": 15060,
      "token_acc": 0.9464285714285714,
      "train_speed(iter/s)": 1.483059
    },
    {
      "epoch": 0.6454307870271196,
      "grad_norm": 2.1826767921447754,
      "learning_rate": 9.594455111292555e-05,
      "loss": 0.6001876354217529,
      "memory(GiB)": 61.91,
      "step": 15065,
      "token_acc": 0.8807692307692307,
      "train_speed(iter/s)": 1.483057
    },
    {
      "epoch": 0.6456450023563686,
      "grad_norm": 3.546027421951294,
      "learning_rate": 9.594189572420356e-05,
      "loss": 0.3328744888305664,
      "memory(GiB)": 61.91,
      "step": 15070,
      "token_acc": 0.9187675070028011,
      "train_speed(iter/s)": 1.483029
    },
    {
      "epoch": 0.6458592176856176,
      "grad_norm": 1.4402191638946533,
      "learning_rate": 9.593923950320104e-05,
      "loss": 0.29089984893798826,
      "memory(GiB)": 61.91,
      "step": 15075,
      "token_acc": 0.9230769230769231,
      "train_speed(iter/s)": 1.482994
    },
    {
      "epoch": 0.6460734330148665,
      "grad_norm": 3.9519665241241455,
      "learning_rate": 9.593658244996609e-05,
      "loss": 0.41818943023681643,
      "memory(GiB)": 61.91,
      "step": 15080,
      "token_acc": 0.91,
      "train_speed(iter/s)": 1.482994
    },
    {
      "epoch": 0.6462876483441155,
      "grad_norm": 3.293963670730591,
      "learning_rate": 9.593392456454686e-05,
      "loss": 0.40402679443359374,
      "memory(GiB)": 61.91,
      "step": 15085,
      "token_acc": 0.9010238907849829,
      "train_speed(iter/s)": 1.483031
    },
    {
      "epoch": 0.6465018636733645,
      "grad_norm": 3.9125983715057373,
      "learning_rate": 9.59312658469915e-05,
      "loss": 0.3362214803695679,
      "memory(GiB)": 61.91,
      "step": 15090,
      "token_acc": 0.9320987654320988,
      "train_speed(iter/s)": 1.483021
    },
    {
      "epoch": 0.6467160790026134,
      "grad_norm": 3.4699180126190186,
      "learning_rate": 9.592860629734819e-05,
      "loss": 0.4789536952972412,
      "memory(GiB)": 61.91,
      "step": 15095,
      "token_acc": 0.8932038834951457,
      "train_speed(iter/s)": 1.483017
    },
    {
      "epoch": 0.6469302943318624,
      "grad_norm": 2.525895357131958,
      "learning_rate": 9.592594591566508e-05,
      "loss": 0.25381109714508054,
      "memory(GiB)": 61.91,
      "step": 15100,
      "token_acc": 0.9448051948051948,
      "train_speed(iter/s)": 1.483022
    },
    {
      "epoch": 0.6471445096611114,
      "grad_norm": 3.056114435195923,
      "learning_rate": 9.592328470199037e-05,
      "loss": 0.37546095848083494,
      "memory(GiB)": 61.91,
      "step": 15105,
      "token_acc": 0.9166666666666666,
      "train_speed(iter/s)": 1.483012
    },
    {
      "epoch": 0.6473587249903603,
      "grad_norm": 5.900458335876465,
      "learning_rate": 9.592062265637227e-05,
      "loss": 0.2662632465362549,
      "memory(GiB)": 61.91,
      "step": 15110,
      "token_acc": 0.937037037037037,
      "train_speed(iter/s)": 1.483026
    },
    {
      "epoch": 0.6475729403196093,
      "grad_norm": 4.118362903594971,
      "learning_rate": 9.591795977885903e-05,
      "loss": 0.5514111042022705,
      "memory(GiB)": 61.91,
      "step": 15115,
      "token_acc": 0.9030303030303031,
      "train_speed(iter/s)": 1.483039
    },
    {
      "epoch": 0.6477871556488582,
      "grad_norm": 16.66381072998047,
      "learning_rate": 9.591529606949887e-05,
      "loss": 0.466886568069458,
      "memory(GiB)": 61.91,
      "step": 15120,
      "token_acc": 0.9007352941176471,
      "train_speed(iter/s)": 1.483077
    },
    {
      "epoch": 0.6480013709781072,
      "grad_norm": 2.8863210678100586,
      "learning_rate": 9.591263152834005e-05,
      "loss": 0.17088807821273805,
      "memory(GiB)": 61.91,
      "step": 15125,
      "token_acc": 0.9691780821917808,
      "train_speed(iter/s)": 1.483105
    },
    {
      "epoch": 0.6482155863073562,
      "grad_norm": 3.754732370376587,
      "learning_rate": 9.590996615543084e-05,
      "loss": 0.22885172367095946,
      "memory(GiB)": 61.91,
      "step": 15130,
      "token_acc": 0.948936170212766,
      "train_speed(iter/s)": 1.483116
    },
    {
      "epoch": 0.6484298016366051,
      "grad_norm": 2.608783006668091,
      "learning_rate": 9.590729995081953e-05,
      "loss": 0.4702596664428711,
      "memory(GiB)": 61.91,
      "step": 15135,
      "token_acc": 0.8888888888888888,
      "train_speed(iter/s)": 1.483104
    },
    {
      "epoch": 0.648644016965854,
      "grad_norm": 0.23440741002559662,
      "learning_rate": 9.590463291455442e-05,
      "loss": 0.17348248958587648,
      "memory(GiB)": 61.91,
      "step": 15140,
      "token_acc": 0.9514925373134329,
      "train_speed(iter/s)": 1.483083
    },
    {
      "epoch": 0.6488582322951031,
      "grad_norm": 3.4966940879821777,
      "learning_rate": 9.59019650466838e-05,
      "loss": 0.5444223403930664,
      "memory(GiB)": 61.91,
      "step": 15145,
      "token_acc": 0.8938775510204081,
      "train_speed(iter/s)": 1.483141
    },
    {
      "epoch": 0.649072447624352,
      "grad_norm": 2.6982882022857666,
      "learning_rate": 9.589929634725605e-05,
      "loss": 0.14031593799591063,
      "memory(GiB)": 61.91,
      "step": 15150,
      "token_acc": 0.9767441860465116,
      "train_speed(iter/s)": 1.48314
    },
    {
      "epoch": 0.6492866629536009,
      "grad_norm": 3.0679030418395996,
      "learning_rate": 9.589662681631948e-05,
      "loss": 0.4532435417175293,
      "memory(GiB)": 61.91,
      "step": 15155,
      "token_acc": 0.8924731182795699,
      "train_speed(iter/s)": 1.48309
    },
    {
      "epoch": 0.64950087828285,
      "grad_norm": 2.7940385341644287,
      "learning_rate": 9.589395645392245e-05,
      "loss": 0.43416681289672854,
      "memory(GiB)": 61.91,
      "step": 15160,
      "token_acc": 0.9217081850533808,
      "train_speed(iter/s)": 1.483092
    },
    {
      "epoch": 0.6497150936120989,
      "grad_norm": 3.3787941932678223,
      "learning_rate": 9.589128526011336e-05,
      "loss": 0.45481395721435547,
      "memory(GiB)": 61.91,
      "step": 15165,
      "token_acc": 0.9016949152542373,
      "train_speed(iter/s)": 1.483065
    },
    {
      "epoch": 0.6499293089413478,
      "grad_norm": 0.8866674304008484,
      "learning_rate": 9.588861323494058e-05,
      "loss": 0.490221643447876,
      "memory(GiB)": 61.91,
      "step": 15170,
      "token_acc": 0.8989169675090253,
      "train_speed(iter/s)": 1.483115
    },
    {
      "epoch": 0.6501435242705969,
      "grad_norm": 0.25974056124687195,
      "learning_rate": 9.588594037845254e-05,
      "loss": 0.3499161958694458,
      "memory(GiB)": 61.91,
      "step": 15175,
      "token_acc": 0.9150943396226415,
      "train_speed(iter/s)": 1.483158
    },
    {
      "epoch": 0.6503577395998458,
      "grad_norm": 2.4710803031921387,
      "learning_rate": 9.588326669069763e-05,
      "loss": 0.45882339477539064,
      "memory(GiB)": 61.91,
      "step": 15180,
      "token_acc": 0.8865248226950354,
      "train_speed(iter/s)": 1.483164
    },
    {
      "epoch": 0.6505719549290947,
      "grad_norm": 3.4145281314849854,
      "learning_rate": 9.588059217172432e-05,
      "loss": 0.5231476783752441,
      "memory(GiB)": 61.91,
      "step": 15185,
      "token_acc": 0.8838028169014085,
      "train_speed(iter/s)": 1.483138
    },
    {
      "epoch": 0.6507861702583437,
      "grad_norm": 4.653240203857422,
      "learning_rate": 9.587791682158102e-05,
      "loss": 0.4043719291687012,
      "memory(GiB)": 61.91,
      "step": 15190,
      "token_acc": 0.9182389937106918,
      "train_speed(iter/s)": 1.483145
    },
    {
      "epoch": 0.6510003855875927,
      "grad_norm": 2.2239253520965576,
      "learning_rate": 9.587524064031624e-05,
      "loss": 0.34597456455230713,
      "memory(GiB)": 61.91,
      "step": 15195,
      "token_acc": 0.9194630872483222,
      "train_speed(iter/s)": 1.48314
    },
    {
      "epoch": 0.6512146009168416,
      "grad_norm": 3.719764471054077,
      "learning_rate": 9.587256362797842e-05,
      "loss": 0.36766824722290037,
      "memory(GiB)": 61.91,
      "step": 15200,
      "token_acc": 0.9188311688311688,
      "train_speed(iter/s)": 1.483129
    },
    {
      "epoch": 0.6514288162460906,
      "grad_norm": 4.495085716247559,
      "learning_rate": 9.586988578461609e-05,
      "loss": 0.20655531883239747,
      "memory(GiB)": 61.91,
      "step": 15205,
      "token_acc": 0.9507042253521126,
      "train_speed(iter/s)": 1.483158
    },
    {
      "epoch": 0.6516430315753395,
      "grad_norm": 3.1698853969573975,
      "learning_rate": 9.586720711027775e-05,
      "loss": 0.3032225131988525,
      "memory(GiB)": 61.91,
      "step": 15210,
      "token_acc": 0.9425287356321839,
      "train_speed(iter/s)": 1.48319
    },
    {
      "epoch": 0.6518572469045885,
      "grad_norm": 3.6391234397888184,
      "learning_rate": 9.586452760501193e-05,
      "loss": 0.38789565563201905,
      "memory(GiB)": 61.91,
      "step": 15215,
      "token_acc": 0.917910447761194,
      "train_speed(iter/s)": 1.483198
    },
    {
      "epoch": 0.6520714622338375,
      "grad_norm": 2.5931687355041504,
      "learning_rate": 9.586184726886715e-05,
      "loss": 0.4439659118652344,
      "memory(GiB)": 61.91,
      "step": 15220,
      "token_acc": 0.9028776978417267,
      "train_speed(iter/s)": 1.483183
    },
    {
      "epoch": 0.6522856775630864,
      "grad_norm": 1.1138383150100708,
      "learning_rate": 9.5859166101892e-05,
      "loss": 0.3578639030456543,
      "memory(GiB)": 61.91,
      "step": 15225,
      "token_acc": 0.9113475177304965,
      "train_speed(iter/s)": 1.48323
    },
    {
      "epoch": 0.6524998928923353,
      "grad_norm": 2.637204170227051,
      "learning_rate": 9.585648410413503e-05,
      "loss": 0.46647982597351073,
      "memory(GiB)": 61.91,
      "step": 15230,
      "token_acc": 0.9118773946360154,
      "train_speed(iter/s)": 1.48322
    },
    {
      "epoch": 0.6527141082215844,
      "grad_norm": 2.3995208740234375,
      "learning_rate": 9.585380127564484e-05,
      "loss": 0.33827064037322996,
      "memory(GiB)": 61.91,
      "step": 15235,
      "token_acc": 0.9313725490196079,
      "train_speed(iter/s)": 1.483256
    },
    {
      "epoch": 0.6529283235508333,
      "grad_norm": 2.1860058307647705,
      "learning_rate": 9.585111761647002e-05,
      "loss": 0.48485026359558103,
      "memory(GiB)": 61.91,
      "step": 15240,
      "token_acc": 0.8929889298892989,
      "train_speed(iter/s)": 1.483326
    },
    {
      "epoch": 0.6531425388800822,
      "grad_norm": 3.6835358142852783,
      "learning_rate": 9.58484331266592e-05,
      "loss": 0.3816518783569336,
      "memory(GiB)": 61.91,
      "step": 15245,
      "token_acc": 0.9246575342465754,
      "train_speed(iter/s)": 1.483351
    },
    {
      "epoch": 0.6533567542093313,
      "grad_norm": 2.0366384983062744,
      "learning_rate": 9.5845747806261e-05,
      "loss": 0.2655291795730591,
      "memory(GiB)": 61.91,
      "step": 15250,
      "token_acc": 0.9375,
      "train_speed(iter/s)": 1.483368
    },
    {
      "epoch": 0.6535709695385802,
      "grad_norm": 1.876519799232483,
      "learning_rate": 9.584306165532406e-05,
      "loss": 0.2224421262741089,
      "memory(GiB)": 61.91,
      "step": 15255,
      "token_acc": 0.967741935483871,
      "train_speed(iter/s)": 1.483368
    },
    {
      "epoch": 0.6537851848678291,
      "grad_norm": 1.018646240234375,
      "learning_rate": 9.584037467389708e-05,
      "loss": 0.280442214012146,
      "memory(GiB)": 61.91,
      "step": 15260,
      "token_acc": 0.9375,
      "train_speed(iter/s)": 1.483359
    },
    {
      "epoch": 0.6539994001970781,
      "grad_norm": 6.785383701324463,
      "learning_rate": 9.583768686202869e-05,
      "loss": 0.36781132221221924,
      "memory(GiB)": 61.91,
      "step": 15265,
      "token_acc": 0.9385665529010239,
      "train_speed(iter/s)": 1.483324
    },
    {
      "epoch": 0.6542136155263271,
      "grad_norm": 3.6130948066711426,
      "learning_rate": 9.583499821976762e-05,
      "loss": 0.3427476644515991,
      "memory(GiB)": 61.91,
      "step": 15270,
      "token_acc": 0.9354838709677419,
      "train_speed(iter/s)": 1.483297
    },
    {
      "epoch": 0.654427830855576,
      "grad_norm": 2.830362319946289,
      "learning_rate": 9.583230874716253e-05,
      "loss": 0.3999899625778198,
      "memory(GiB)": 61.91,
      "step": 15275,
      "token_acc": 0.9155672823218998,
      "train_speed(iter/s)": 1.48324
    },
    {
      "epoch": 0.654642046184825,
      "grad_norm": 2.13804292678833,
      "learning_rate": 9.582961844426221e-05,
      "loss": 0.2818603992462158,
      "memory(GiB)": 61.91,
      "step": 15280,
      "token_acc": 0.939873417721519,
      "train_speed(iter/s)": 1.483217
    },
    {
      "epoch": 0.654856261514074,
      "grad_norm": 2.1057684421539307,
      "learning_rate": 9.582692731111535e-05,
      "loss": 0.3193145036697388,
      "memory(GiB)": 61.91,
      "step": 15285,
      "token_acc": 0.9423076923076923,
      "train_speed(iter/s)": 1.483244
    },
    {
      "epoch": 0.6550704768433229,
      "grad_norm": 0.7677075862884521,
      "learning_rate": 9.58242353477707e-05,
      "loss": 0.1641088008880615,
      "memory(GiB)": 61.91,
      "step": 15290,
      "token_acc": 0.970873786407767,
      "train_speed(iter/s)": 1.483247
    },
    {
      "epoch": 0.6552846921725719,
      "grad_norm": 4.6232805252075195,
      "learning_rate": 9.582154255427705e-05,
      "loss": 0.4167636871337891,
      "memory(GiB)": 61.91,
      "step": 15295,
      "token_acc": 0.9115384615384615,
      "train_speed(iter/s)": 1.483293
    },
    {
      "epoch": 0.6554989075018208,
      "grad_norm": 5.0430216789245605,
      "learning_rate": 9.581884893068315e-05,
      "loss": 0.4082638263702393,
      "memory(GiB)": 61.91,
      "step": 15300,
      "token_acc": 0.9196787148594378,
      "train_speed(iter/s)": 1.483346
    },
    {
      "epoch": 0.6557131228310698,
      "grad_norm": 3.114863872528076,
      "learning_rate": 9.581615447703784e-05,
      "loss": 0.65341157913208,
      "memory(GiB)": 61.91,
      "step": 15305,
      "token_acc": 0.8547717842323651,
      "train_speed(iter/s)": 1.483361
    },
    {
      "epoch": 0.6559273381603188,
      "grad_norm": 4.7054901123046875,
      "learning_rate": 9.581345919338994e-05,
      "loss": 0.37988481521606443,
      "memory(GiB)": 61.91,
      "step": 15310,
      "token_acc": 0.9306569343065694,
      "train_speed(iter/s)": 1.483405
    },
    {
      "epoch": 0.6561415534895677,
      "grad_norm": 3.034242630004883,
      "learning_rate": 9.58107630797882e-05,
      "loss": 0.40912837982177735,
      "memory(GiB)": 61.91,
      "step": 15315,
      "token_acc": 0.9163879598662207,
      "train_speed(iter/s)": 1.483372
    },
    {
      "epoch": 0.6563557688188166,
      "grad_norm": 3.6366467475891113,
      "learning_rate": 9.580806613628155e-05,
      "loss": 0.3159144163131714,
      "memory(GiB)": 61.91,
      "step": 15320,
      "token_acc": 0.9326241134751773,
      "train_speed(iter/s)": 1.483337
    },
    {
      "epoch": 0.6565699841480657,
      "grad_norm": 3.738665819168091,
      "learning_rate": 9.580536836291878e-05,
      "loss": 0.5010700702667237,
      "memory(GiB)": 61.91,
      "step": 15325,
      "token_acc": 0.9064748201438849,
      "train_speed(iter/s)": 1.483356
    },
    {
      "epoch": 0.6567841994773146,
      "grad_norm": 2.003697156906128,
      "learning_rate": 9.58026697597488e-05,
      "loss": 0.22606127262115477,
      "memory(GiB)": 61.91,
      "step": 15330,
      "token_acc": 0.947565543071161,
      "train_speed(iter/s)": 1.483356
    },
    {
      "epoch": 0.6569984148065635,
      "grad_norm": 0.3879861831665039,
      "learning_rate": 9.579997032682052e-05,
      "loss": 0.16379634141921998,
      "memory(GiB)": 61.91,
      "step": 15335,
      "token_acc": 0.951048951048951,
      "train_speed(iter/s)": 1.483404
    },
    {
      "epoch": 0.6572126301358125,
      "grad_norm": 0.619060218334198,
      "learning_rate": 9.579727006418279e-05,
      "loss": 0.3288090467453003,
      "memory(GiB)": 61.91,
      "step": 15340,
      "token_acc": 0.9351535836177475,
      "train_speed(iter/s)": 1.483384
    },
    {
      "epoch": 0.6574268454650615,
      "grad_norm": 3.7311556339263916,
      "learning_rate": 9.579456897188455e-05,
      "loss": 0.17155165672302247,
      "memory(GiB)": 61.91,
      "step": 15345,
      "token_acc": 0.953405017921147,
      "train_speed(iter/s)": 1.483363
    },
    {
      "epoch": 0.6576410607943104,
      "grad_norm": 4.817153453826904,
      "learning_rate": 9.579186704997474e-05,
      "loss": 0.594321870803833,
      "memory(GiB)": 61.91,
      "step": 15350,
      "token_acc": 0.8669064748201439,
      "train_speed(iter/s)": 1.483403
    },
    {
      "epoch": 0.6578552761235594,
      "grad_norm": 7.772558689117432,
      "learning_rate": 9.57891642985023e-05,
      "loss": 0.8487940788269043,
      "memory(GiB)": 61.91,
      "step": 15355,
      "token_acc": 0.8181818181818182,
      "train_speed(iter/s)": 1.483391
    },
    {
      "epoch": 0.6580694914528084,
      "grad_norm": 1.4625623226165771,
      "learning_rate": 9.57864607175162e-05,
      "loss": 0.16375558376312255,
      "memory(GiB)": 61.91,
      "step": 15360,
      "token_acc": 0.9414225941422594,
      "train_speed(iter/s)": 1.483372
    },
    {
      "epoch": 0.6582837067820573,
      "grad_norm": 4.342894554138184,
      "learning_rate": 9.57837563070654e-05,
      "loss": 0.40346150398254393,
      "memory(GiB)": 61.91,
      "step": 15365,
      "token_acc": 0.9024390243902439,
      "train_speed(iter/s)": 1.483353
    },
    {
      "epoch": 0.6584979221113063,
      "grad_norm": 2.8687925338745117,
      "learning_rate": 9.578105106719893e-05,
      "loss": 0.3236011743545532,
      "memory(GiB)": 61.91,
      "step": 15370,
      "token_acc": 0.9227799227799228,
      "train_speed(iter/s)": 1.483372
    },
    {
      "epoch": 0.6587121374405552,
      "grad_norm": 0.18687939643859863,
      "learning_rate": 9.577834499796575e-05,
      "loss": 0.4040717124938965,
      "memory(GiB)": 61.91,
      "step": 15375,
      "token_acc": 0.900990099009901,
      "train_speed(iter/s)": 1.483436
    },
    {
      "epoch": 0.6589263527698042,
      "grad_norm": 2.195784091949463,
      "learning_rate": 9.577563809941492e-05,
      "loss": 0.270742392539978,
      "memory(GiB)": 61.91,
      "step": 15380,
      "token_acc": 0.9407894736842105,
      "train_speed(iter/s)": 1.483457
    },
    {
      "epoch": 0.6591405680990532,
      "grad_norm": 3.193660259246826,
      "learning_rate": 9.577293037159544e-05,
      "loss": 0.2888221740722656,
      "memory(GiB)": 61.91,
      "step": 15385,
      "token_acc": 0.9351535836177475,
      "train_speed(iter/s)": 1.483466
    },
    {
      "epoch": 0.6593547834283021,
      "grad_norm": 5.543472766876221,
      "learning_rate": 9.577022181455641e-05,
      "loss": 0.4467325687408447,
      "memory(GiB)": 61.91,
      "step": 15390,
      "token_acc": 0.8974358974358975,
      "train_speed(iter/s)": 1.483446
    },
    {
      "epoch": 0.659568998757551,
      "grad_norm": 8.139946937561035,
      "learning_rate": 9.57675124283469e-05,
      "loss": 0.7194681644439698,
      "memory(GiB)": 61.91,
      "step": 15395,
      "token_acc": 0.8896797153024911,
      "train_speed(iter/s)": 1.483464
    },
    {
      "epoch": 0.6597832140868001,
      "grad_norm": 0.5711617469787598,
      "learning_rate": 9.576480221301593e-05,
      "loss": 0.4167047023773193,
      "memory(GiB)": 61.91,
      "step": 15400,
      "token_acc": 0.9,
      "train_speed(iter/s)": 1.483442
    },
    {
      "epoch": 0.659997429416049,
      "grad_norm": 2.100922107696533,
      "learning_rate": 9.576209116861265e-05,
      "loss": 0.3912088871002197,
      "memory(GiB)": 61.91,
      "step": 15405,
      "token_acc": 0.9134860050890585,
      "train_speed(iter/s)": 1.48343
    },
    {
      "epoch": 0.6602116447452979,
      "grad_norm": 4.575545310974121,
      "learning_rate": 9.575937929518616e-05,
      "loss": 0.5527102470397949,
      "memory(GiB)": 61.91,
      "step": 15410,
      "token_acc": 0.8780487804878049,
      "train_speed(iter/s)": 1.483484
    },
    {
      "epoch": 0.660425860074547,
      "grad_norm": 1.8660027980804443,
      "learning_rate": 9.575666659278559e-05,
      "loss": 0.26024441719055175,
      "memory(GiB)": 61.91,
      "step": 15415,
      "token_acc": 0.9355828220858896,
      "train_speed(iter/s)": 1.483501
    },
    {
      "epoch": 0.6606400754037959,
      "grad_norm": 1.2600493431091309,
      "learning_rate": 9.575395306146008e-05,
      "loss": 0.4911402702331543,
      "memory(GiB)": 61.91,
      "step": 15420,
      "token_acc": 0.9021739130434783,
      "train_speed(iter/s)": 1.483536
    },
    {
      "epoch": 0.6608542907330448,
      "grad_norm": 1.9247502088546753,
      "learning_rate": 9.575123870125879e-05,
      "loss": 0.43680343627929685,
      "memory(GiB)": 61.91,
      "step": 15425,
      "token_acc": 0.9230769230769231,
      "train_speed(iter/s)": 1.48351
    },
    {
      "epoch": 0.6610685060622938,
      "grad_norm": 5.929807186126709,
      "learning_rate": 9.574852351223089e-05,
      "loss": 0.37536671161651614,
      "memory(GiB)": 61.91,
      "step": 15430,
      "token_acc": 0.9217391304347826,
      "train_speed(iter/s)": 1.483495
    },
    {
      "epoch": 0.6612827213915428,
      "grad_norm": 4.932224750518799,
      "learning_rate": 9.574580749442557e-05,
      "loss": 0.5385919094085694,
      "memory(GiB)": 61.91,
      "step": 15435,
      "token_acc": 0.8827586206896552,
      "train_speed(iter/s)": 1.483493
    },
    {
      "epoch": 0.6614969367207918,
      "grad_norm": 1.289957880973816,
      "learning_rate": 9.574309064789205e-05,
      "loss": 0.2823874711990356,
      "memory(GiB)": 61.91,
      "step": 15440,
      "token_acc": 0.933993399339934,
      "train_speed(iter/s)": 1.483465
    },
    {
      "epoch": 0.6617111520500407,
      "grad_norm": 4.166236400604248,
      "learning_rate": 9.57403729726795e-05,
      "loss": 0.7183233737945557,
      "memory(GiB)": 61.91,
      "step": 15445,
      "token_acc": 0.8628048780487805,
      "train_speed(iter/s)": 1.483461
    },
    {
      "epoch": 0.6619253673792896,
      "grad_norm": 8.245028495788574,
      "learning_rate": 9.573765446883722e-05,
      "loss": 0.3341393232345581,
      "memory(GiB)": 61.91,
      "step": 15450,
      "token_acc": 0.9436619718309859,
      "train_speed(iter/s)": 1.483448
    },
    {
      "epoch": 0.6621395827085387,
      "grad_norm": 7.2736592292785645,
      "learning_rate": 9.57349351364144e-05,
      "loss": 0.4201539993286133,
      "memory(GiB)": 61.91,
      "step": 15455,
      "token_acc": 0.9105058365758755,
      "train_speed(iter/s)": 1.483423
    },
    {
      "epoch": 0.6623537980377876,
      "grad_norm": 8.347678184509277,
      "learning_rate": 9.573221497546035e-05,
      "loss": 0.942021369934082,
      "memory(GiB)": 61.91,
      "step": 15460,
      "token_acc": 0.8120567375886525,
      "train_speed(iter/s)": 1.483439
    },
    {
      "epoch": 0.6625680133670365,
      "grad_norm": 3.0991435050964355,
      "learning_rate": 9.57294939860243e-05,
      "loss": 0.6733010768890381,
      "memory(GiB)": 61.91,
      "step": 15465,
      "token_acc": 0.8754578754578755,
      "train_speed(iter/s)": 1.483439
    },
    {
      "epoch": 0.6627822286962856,
      "grad_norm": 0.7671016454696655,
      "learning_rate": 9.572677216815559e-05,
      "loss": 0.09834669828414917,
      "memory(GiB)": 61.91,
      "step": 15470,
      "token_acc": 0.9760956175298805,
      "train_speed(iter/s)": 1.48341
    },
    {
      "epoch": 0.6629964440255345,
      "grad_norm": 5.753828525543213,
      "learning_rate": 9.572404952190349e-05,
      "loss": 0.3595176935195923,
      "memory(GiB)": 61.91,
      "step": 15475,
      "token_acc": 0.9350180505415162,
      "train_speed(iter/s)": 1.483419
    },
    {
      "epoch": 0.6632106593547834,
      "grad_norm": 2.6901352405548096,
      "learning_rate": 9.572132604731735e-05,
      "loss": 0.3294682025909424,
      "memory(GiB)": 61.91,
      "step": 15480,
      "token_acc": 0.930921052631579,
      "train_speed(iter/s)": 1.483405
    },
    {
      "epoch": 0.6634248746840324,
      "grad_norm": 5.839317798614502,
      "learning_rate": 9.571860174444649e-05,
      "loss": 0.3485441207885742,
      "memory(GiB)": 61.91,
      "step": 15485,
      "token_acc": 0.9141914191419142,
      "train_speed(iter/s)": 1.483384
    },
    {
      "epoch": 0.6636390900132814,
      "grad_norm": 2.522357940673828,
      "learning_rate": 9.571587661334028e-05,
      "loss": 0.5577456951141357,
      "memory(GiB)": 61.91,
      "step": 15490,
      "token_acc": 0.8931034482758621,
      "train_speed(iter/s)": 1.483432
    },
    {
      "epoch": 0.6638533053425303,
      "grad_norm": 3.733240842819214,
      "learning_rate": 9.571315065404808e-05,
      "loss": 0.6636384963989258,
      "memory(GiB)": 61.91,
      "step": 15495,
      "token_acc": 0.8461538461538461,
      "train_speed(iter/s)": 1.483413
    },
    {
      "epoch": 0.6640675206717793,
      "grad_norm": 3.231855630874634,
      "learning_rate": 9.571042386661928e-05,
      "loss": 0.20257167816162108,
      "memory(GiB)": 61.91,
      "step": 15500,
      "token_acc": 0.9604863221884499,
      "train_speed(iter/s)": 1.483391
    },
    {
      "epoch": 0.6640675206717793,
      "eval_loss": 2.5579657554626465,
      "eval_runtime": 14.015,
      "eval_samples_per_second": 7.135,
      "eval_steps_per_second": 7.135,
      "eval_token_acc": 0.44881889763779526,
      "step": 15500
    },
    {
      "epoch": 0.6642817360010282,
      "grad_norm": 8.471296310424805,
      "learning_rate": 9.570769625110325e-05,
      "loss": 0.4405327796936035,
      "memory(GiB)": 61.91,
      "step": 15505,
      "token_acc": 0.5754189944134078,
      "train_speed(iter/s)": 1.481298
    },
    {
      "epoch": 0.6644959513302772,
      "grad_norm": 13.33039379119873,
      "learning_rate": 9.570496780754945e-05,
      "loss": 0.3610804557800293,
      "memory(GiB)": 61.91,
      "step": 15510,
      "token_acc": 0.94,
      "train_speed(iter/s)": 1.481362
    },
    {
      "epoch": 0.6647101666595262,
      "grad_norm": 5.2048258781433105,
      "learning_rate": 9.570223853600727e-05,
      "loss": 0.5659201622009278,
      "memory(GiB)": 61.91,
      "step": 15515,
      "token_acc": 0.8847352024922118,
      "train_speed(iter/s)": 1.481424
    },
    {
      "epoch": 0.6649243819887751,
      "grad_norm": 3.679561138153076,
      "learning_rate": 9.569950843652618e-05,
      "loss": 0.26436195373535154,
      "memory(GiB)": 61.91,
      "step": 15520,
      "token_acc": 0.9405594405594405,
      "train_speed(iter/s)": 1.481426
    },
    {
      "epoch": 0.665138597318024,
      "grad_norm": 3.6464450359344482,
      "learning_rate": 9.56967775091556e-05,
      "loss": 0.40215415954589845,
      "memory(GiB)": 61.91,
      "step": 15525,
      "token_acc": 0.9186440677966101,
      "train_speed(iter/s)": 1.481502
    },
    {
      "epoch": 0.6653528126472731,
      "grad_norm": 3.2875547409057617,
      "learning_rate": 9.569404575394505e-05,
      "loss": 0.5548294067382813,
      "memory(GiB)": 61.91,
      "step": 15530,
      "token_acc": 0.8855218855218855,
      "train_speed(iter/s)": 1.481491
    },
    {
      "epoch": 0.665567027976522,
      "grad_norm": 3.2569162845611572,
      "learning_rate": 9.569131317094399e-05,
      "loss": 0.39796648025512693,
      "memory(GiB)": 61.91,
      "step": 15535,
      "token_acc": 0.9038461538461539,
      "train_speed(iter/s)": 1.481493
    },
    {
      "epoch": 0.6657812433057709,
      "grad_norm": 3.5562973022460938,
      "learning_rate": 9.568857976020193e-05,
      "loss": 0.3296400547027588,
      "memory(GiB)": 61.91,
      "step": 15540,
      "token_acc": 0.9247311827956989,
      "train_speed(iter/s)": 1.481481
    },
    {
      "epoch": 0.66599545863502,
      "grad_norm": 3.6275205612182617,
      "learning_rate": 9.568584552176838e-05,
      "loss": 0.6006229400634766,
      "memory(GiB)": 61.91,
      "step": 15545,
      "token_acc": 0.8844984802431611,
      "train_speed(iter/s)": 1.481479
    },
    {
      "epoch": 0.6662096739642689,
      "grad_norm": 6.46284294128418,
      "learning_rate": 9.568311045569289e-05,
      "loss": 0.6438868045806885,
      "memory(GiB)": 61.91,
      "step": 15550,
      "token_acc": 0.851063829787234,
      "train_speed(iter/s)": 1.481532
    },
    {
      "epoch": 0.6664238892935178,
      "grad_norm": 3.8647687435150146,
      "learning_rate": 9.568037456202501e-05,
      "loss": 0.37517514228820803,
      "memory(GiB)": 61.91,
      "step": 15555,
      "token_acc": 0.9175257731958762,
      "train_speed(iter/s)": 1.481555
    },
    {
      "epoch": 0.6666381046227668,
      "grad_norm": 2.901510238647461,
      "learning_rate": 9.567763784081428e-05,
      "loss": 0.640408706665039,
      "memory(GiB)": 61.91,
      "step": 15560,
      "token_acc": 0.8725490196078431,
      "train_speed(iter/s)": 1.481572
    },
    {
      "epoch": 0.6668523199520158,
      "grad_norm": 6.680017948150635,
      "learning_rate": 9.567490029211029e-05,
      "loss": 0.6082592010498047,
      "memory(GiB)": 61.91,
      "step": 15565,
      "token_acc": 0.8674242424242424,
      "train_speed(iter/s)": 1.481583
    },
    {
      "epoch": 0.6670665352812647,
      "grad_norm": 2.9801955223083496,
      "learning_rate": 9.567216191596264e-05,
      "loss": 0.466887092590332,
      "memory(GiB)": 61.91,
      "step": 15570,
      "token_acc": 0.9,
      "train_speed(iter/s)": 1.481579
    },
    {
      "epoch": 0.6672807506105137,
      "grad_norm": 2.7941744327545166,
      "learning_rate": 9.566942271242093e-05,
      "loss": 0.3779301166534424,
      "memory(GiB)": 61.91,
      "step": 15575,
      "token_acc": 0.9298780487804879,
      "train_speed(iter/s)": 1.481561
    },
    {
      "epoch": 0.6674949659397627,
      "grad_norm": 1.513960838317871,
      "learning_rate": 9.566668268153479e-05,
      "loss": 0.5241959095001221,
      "memory(GiB)": 61.91,
      "step": 15580,
      "token_acc": 0.896551724137931,
      "train_speed(iter/s)": 1.481552
    },
    {
      "epoch": 0.6677091812690116,
      "grad_norm": 2.5155041217803955,
      "learning_rate": 9.566394182335385e-05,
      "loss": 0.34528796672821044,
      "memory(GiB)": 61.91,
      "step": 15585,
      "token_acc": 0.9151943462897526,
      "train_speed(iter/s)": 1.481538
    },
    {
      "epoch": 0.6679233965982606,
      "grad_norm": 3.066272258758545,
      "learning_rate": 9.566120013792776e-05,
      "loss": 0.5831729888916015,
      "memory(GiB)": 61.91,
      "step": 15590,
      "token_acc": 0.8703703703703703,
      "train_speed(iter/s)": 1.481537
    },
    {
      "epoch": 0.6681376119275095,
      "grad_norm": 3.409740447998047,
      "learning_rate": 9.56584576253062e-05,
      "loss": 0.4680851936340332,
      "memory(GiB)": 61.91,
      "step": 15595,
      "token_acc": 0.8912280701754386,
      "train_speed(iter/s)": 1.481529
    },
    {
      "epoch": 0.6683518272567585,
      "grad_norm": 2.5377256870269775,
      "learning_rate": 9.565571428553887e-05,
      "loss": 0.15661001205444336,
      "memory(GiB)": 61.91,
      "step": 15600,
      "token_acc": 0.9527272727272728,
      "train_speed(iter/s)": 1.481546
    },
    {
      "epoch": 0.6685660425860075,
      "grad_norm": 4.939282417297363,
      "learning_rate": 9.565297011867543e-05,
      "loss": 0.4762606620788574,
      "memory(GiB)": 61.91,
      "step": 15605,
      "token_acc": 0.8786764705882353,
      "train_speed(iter/s)": 1.481511
    },
    {
      "epoch": 0.6687802579152564,
      "grad_norm": 2.9337871074676514,
      "learning_rate": 9.565022512476561e-05,
      "loss": 0.6552966117858887,
      "memory(GiB)": 61.91,
      "step": 15610,
      "token_acc": 0.8328445747800587,
      "train_speed(iter/s)": 1.481473
    },
    {
      "epoch": 0.6689944732445053,
      "grad_norm": 3.017373561859131,
      "learning_rate": 9.564747930385915e-05,
      "loss": 0.22021045684814453,
      "memory(GiB)": 61.91,
      "step": 15615,
      "token_acc": 0.9531772575250836,
      "train_speed(iter/s)": 1.481437
    },
    {
      "epoch": 0.6692086885737544,
      "grad_norm": 3.758607864379883,
      "learning_rate": 9.564473265600576e-05,
      "loss": 0.3468992471694946,
      "memory(GiB)": 61.91,
      "step": 15620,
      "token_acc": 0.9153225806451613,
      "train_speed(iter/s)": 1.481435
    },
    {
      "epoch": 0.6694229039030033,
      "grad_norm": 2.091606378555298,
      "learning_rate": 9.564198518125523e-05,
      "loss": 0.6225194454193115,
      "memory(GiB)": 61.91,
      "step": 15625,
      "token_acc": 0.8648648648648649,
      "train_speed(iter/s)": 1.481457
    },
    {
      "epoch": 0.6696371192322522,
      "grad_norm": 4.352039337158203,
      "learning_rate": 9.563923687965733e-05,
      "loss": 0.4844411849975586,
      "memory(GiB)": 61.91,
      "step": 15630,
      "token_acc": 0.8852459016393442,
      "train_speed(iter/s)": 1.481438
    },
    {
      "epoch": 0.6698513345615013,
      "grad_norm": 2.9185569286346436,
      "learning_rate": 9.563648775126184e-05,
      "loss": 0.4459090232849121,
      "memory(GiB)": 61.91,
      "step": 15635,
      "token_acc": 0.9022082018927445,
      "train_speed(iter/s)": 1.48143
    },
    {
      "epoch": 0.6700655498907502,
      "grad_norm": 4.6144561767578125,
      "learning_rate": 9.563373779611855e-05,
      "loss": 0.5153146743774414,
      "memory(GiB)": 61.91,
      "step": 15640,
      "token_acc": 0.864951768488746,
      "train_speed(iter/s)": 1.481441
    },
    {
      "epoch": 0.6702797652199991,
      "grad_norm": 4.122740268707275,
      "learning_rate": 9.563098701427731e-05,
      "loss": 0.5546058654785156,
      "memory(GiB)": 61.91,
      "step": 15645,
      "token_acc": 0.8880866425992779,
      "train_speed(iter/s)": 1.481436
    },
    {
      "epoch": 0.6704939805492481,
      "grad_norm": 5.20991849899292,
      "learning_rate": 9.562823540578791e-05,
      "loss": 0.27165191173553466,
      "memory(GiB)": 61.91,
      "step": 15650,
      "token_acc": 0.9455252918287937,
      "train_speed(iter/s)": 1.481448
    },
    {
      "epoch": 0.6707081958784971,
      "grad_norm": 1.9670287370681763,
      "learning_rate": 9.562548297070025e-05,
      "loss": 0.15592151880264282,
      "memory(GiB)": 61.91,
      "step": 15655,
      "token_acc": 0.9550173010380623,
      "train_speed(iter/s)": 1.481457
    },
    {
      "epoch": 0.670922411207746,
      "grad_norm": 2.7613086700439453,
      "learning_rate": 9.562272970906416e-05,
      "loss": 0.3607675075531006,
      "memory(GiB)": 61.91,
      "step": 15660,
      "token_acc": 0.8951048951048951,
      "train_speed(iter/s)": 1.48145
    },
    {
      "epoch": 0.671136626536995,
      "grad_norm": 0.09351155906915665,
      "learning_rate": 9.561997562092951e-05,
      "loss": 0.4224907398223877,
      "memory(GiB)": 61.91,
      "step": 15665,
      "token_acc": 0.8880866425992779,
      "train_speed(iter/s)": 1.481428
    },
    {
      "epoch": 0.6713508418662439,
      "grad_norm": 2.3093526363372803,
      "learning_rate": 9.561722070634623e-05,
      "loss": 0.5870115756988525,
      "memory(GiB)": 61.91,
      "step": 15670,
      "token_acc": 0.8881789137380192,
      "train_speed(iter/s)": 1.481411
    },
    {
      "epoch": 0.6715650571954929,
      "grad_norm": 5.0500946044921875,
      "learning_rate": 9.561446496536418e-05,
      "loss": 0.4020216464996338,
      "memory(GiB)": 61.91,
      "step": 15675,
      "token_acc": 0.9328358208955224,
      "train_speed(iter/s)": 1.481419
    },
    {
      "epoch": 0.6717792725247419,
      "grad_norm": 2.606489658355713,
      "learning_rate": 9.561170839803331e-05,
      "loss": 0.5015843868255615,
      "memory(GiB)": 61.91,
      "step": 15680,
      "token_acc": 0.9128787878787878,
      "train_speed(iter/s)": 1.481395
    },
    {
      "epoch": 0.6719934878539908,
      "grad_norm": 2.5600788593292236,
      "learning_rate": 9.560895100440357e-05,
      "loss": 0.3483614206314087,
      "memory(GiB)": 61.91,
      "step": 15685,
      "token_acc": 0.9139784946236559,
      "train_speed(iter/s)": 1.481362
    },
    {
      "epoch": 0.6722077031832397,
      "grad_norm": 3.682037830352783,
      "learning_rate": 9.56061927845249e-05,
      "loss": 0.4748417854309082,
      "memory(GiB)": 61.91,
      "step": 15690,
      "token_acc": 0.8913043478260869,
      "train_speed(iter/s)": 1.481374
    },
    {
      "epoch": 0.6724219185124888,
      "grad_norm": 2.9429361820220947,
      "learning_rate": 9.560343373844724e-05,
      "loss": 0.3984123468399048,
      "memory(GiB)": 61.91,
      "step": 15695,
      "token_acc": 0.9228070175438596,
      "train_speed(iter/s)": 1.481405
    },
    {
      "epoch": 0.6726361338417377,
      "grad_norm": 3.6299030780792236,
      "learning_rate": 9.560067386622063e-05,
      "loss": 0.5585944652557373,
      "memory(GiB)": 61.91,
      "step": 15700,
      "token_acc": 0.8677966101694915,
      "train_speed(iter/s)": 1.481389
    },
    {
      "epoch": 0.6728503491709866,
      "grad_norm": 3.9927449226379395,
      "learning_rate": 9.559791316789502e-05,
      "loss": 0.43685212135314944,
      "memory(GiB)": 61.91,
      "step": 15705,
      "token_acc": 0.8709677419354839,
      "train_speed(iter/s)": 1.481376
    },
    {
      "epoch": 0.6730645645002357,
      "grad_norm": 4.929154396057129,
      "learning_rate": 9.559515164352044e-05,
      "loss": 0.32324469089508057,
      "memory(GiB)": 61.91,
      "step": 15710,
      "token_acc": 0.9153846153846154,
      "train_speed(iter/s)": 1.481388
    },
    {
      "epoch": 0.6732787798294846,
      "grad_norm": 3.427712917327881,
      "learning_rate": 9.559238929314692e-05,
      "loss": 0.4585599899291992,
      "memory(GiB)": 61.91,
      "step": 15715,
      "token_acc": 0.9124087591240876,
      "train_speed(iter/s)": 1.481432
    },
    {
      "epoch": 0.6734929951587335,
      "grad_norm": 1.3544883728027344,
      "learning_rate": 9.558962611682447e-05,
      "loss": 0.4540881156921387,
      "memory(GiB)": 61.91,
      "step": 15720,
      "token_acc": 0.9093851132686084,
      "train_speed(iter/s)": 1.481445
    },
    {
      "epoch": 0.6737072104879825,
      "grad_norm": 3.855447292327881,
      "learning_rate": 9.558686211460322e-05,
      "loss": 0.32382969856262206,
      "memory(GiB)": 61.91,
      "step": 15725,
      "token_acc": 0.9223880597014925,
      "train_speed(iter/s)": 1.481454
    },
    {
      "epoch": 0.6739214258172315,
      "grad_norm": 4.459170341491699,
      "learning_rate": 9.558409728653317e-05,
      "loss": 0.37713112831115725,
      "memory(GiB)": 61.91,
      "step": 15730,
      "token_acc": 0.9287671232876712,
      "train_speed(iter/s)": 1.481454
    },
    {
      "epoch": 0.6741356411464804,
      "grad_norm": 0.29431939125061035,
      "learning_rate": 9.558133163266444e-05,
      "loss": 0.30568838119506836,
      "memory(GiB)": 61.91,
      "step": 15735,
      "token_acc": 0.9384615384615385,
      "train_speed(iter/s)": 1.481455
    },
    {
      "epoch": 0.6743498564757294,
      "grad_norm": 4.275304794311523,
      "learning_rate": 9.557856515304713e-05,
      "loss": 0.2838555335998535,
      "memory(GiB)": 61.91,
      "step": 15740,
      "token_acc": 0.9435483870967742,
      "train_speed(iter/s)": 1.481451
    },
    {
      "epoch": 0.6745640718049783,
      "grad_norm": 2.8395397663116455,
      "learning_rate": 9.557579784773137e-05,
      "loss": 0.41010432243347167,
      "memory(GiB)": 61.91,
      "step": 15745,
      "token_acc": 0.9144981412639405,
      "train_speed(iter/s)": 1.481437
    },
    {
      "epoch": 0.6747782871342273,
      "grad_norm": 1.2613489627838135,
      "learning_rate": 9.557302971676727e-05,
      "loss": 0.35261919498443606,
      "memory(GiB)": 61.91,
      "step": 15750,
      "token_acc": 0.940251572327044,
      "train_speed(iter/s)": 1.481464
    },
    {
      "epoch": 0.6749925024634763,
      "grad_norm": 1.8311147689819336,
      "learning_rate": 9.557026076020498e-05,
      "loss": 0.33149721622467043,
      "memory(GiB)": 61.91,
      "step": 15755,
      "token_acc": 0.9498327759197325,
      "train_speed(iter/s)": 1.481462
    },
    {
      "epoch": 0.6752067177927252,
      "grad_norm": 2.444195032119751,
      "learning_rate": 9.556749097809468e-05,
      "loss": 0.41254091262817383,
      "memory(GiB)": 61.91,
      "step": 15760,
      "token_acc": 0.9124579124579124,
      "train_speed(iter/s)": 1.481457
    },
    {
      "epoch": 0.6754209331219742,
      "grad_norm": 3.186567783355713,
      "learning_rate": 9.556472037048651e-05,
      "loss": 0.45941996574401855,
      "memory(GiB)": 61.91,
      "step": 15765,
      "token_acc": 0.9087136929460581,
      "train_speed(iter/s)": 1.481485
    },
    {
      "epoch": 0.6756351484512232,
      "grad_norm": 2.2602972984313965,
      "learning_rate": 9.556194893743071e-05,
      "loss": 0.6207956790924072,
      "memory(GiB)": 61.91,
      "step": 15770,
      "token_acc": 0.8769716088328076,
      "train_speed(iter/s)": 1.481515
    },
    {
      "epoch": 0.6758493637804721,
      "grad_norm": 2.0642268657684326,
      "learning_rate": 9.555917667897746e-05,
      "loss": 0.33627517223358155,
      "memory(GiB)": 61.91,
      "step": 15775,
      "token_acc": 0.918918918918919,
      "train_speed(iter/s)": 1.481507
    },
    {
      "epoch": 0.6760635791097211,
      "grad_norm": 2.4361753463745117,
      "learning_rate": 9.555640359517699e-05,
      "loss": 0.5159164905548096,
      "memory(GiB)": 61.91,
      "step": 15780,
      "token_acc": 0.9093959731543624,
      "train_speed(iter/s)": 1.48149
    },
    {
      "epoch": 0.6762777944389701,
      "grad_norm": 5.294432163238525,
      "learning_rate": 9.555362968607952e-05,
      "loss": 0.5102428436279297,
      "memory(GiB)": 61.91,
      "step": 15785,
      "token_acc": 0.8949152542372881,
      "train_speed(iter/s)": 1.481493
    },
    {
      "epoch": 0.676492009768219,
      "grad_norm": 3.033535957336426,
      "learning_rate": 9.555085495173532e-05,
      "loss": 0.29211575984954835,
      "memory(GiB)": 61.91,
      "step": 15790,
      "token_acc": 0.9434523809523809,
      "train_speed(iter/s)": 1.48147
    },
    {
      "epoch": 0.676706225097468,
      "grad_norm": 3.078522205352783,
      "learning_rate": 9.554807939219467e-05,
      "loss": 0.3547328472137451,
      "memory(GiB)": 61.91,
      "step": 15795,
      "token_acc": 0.9016393442622951,
      "train_speed(iter/s)": 1.481464
    },
    {
      "epoch": 0.676920440426717,
      "grad_norm": 2.648268938064575,
      "learning_rate": 9.554530300750782e-05,
      "loss": 0.11839771270751953,
      "memory(GiB)": 61.91,
      "step": 15800,
      "token_acc": 0.967032967032967,
      "train_speed(iter/s)": 1.481452
    },
    {
      "epoch": 0.6771346557559659,
      "grad_norm": 6.663754463195801,
      "learning_rate": 9.554252579772509e-05,
      "loss": 0.45918951034545896,
      "memory(GiB)": 61.91,
      "step": 15805,
      "token_acc": 0.8836363636363637,
      "train_speed(iter/s)": 1.481452
    },
    {
      "epoch": 0.6773488710852149,
      "grad_norm": 3.0217902660369873,
      "learning_rate": 9.553974776289678e-05,
      "loss": 0.3430671691894531,
      "memory(GiB)": 61.91,
      "step": 15810,
      "token_acc": 0.9180327868852459,
      "train_speed(iter/s)": 1.481446
    },
    {
      "epoch": 0.6775630864144638,
      "grad_norm": 5.535459518432617,
      "learning_rate": 9.55369689030732e-05,
      "loss": 0.7204854965209961,
      "memory(GiB)": 61.91,
      "step": 15815,
      "token_acc": 0.863013698630137,
      "train_speed(iter/s)": 1.48147
    },
    {
      "epoch": 0.6777773017437128,
      "grad_norm": 3.619563579559326,
      "learning_rate": 9.553418921830473e-05,
      "loss": 0.45639710426330565,
      "memory(GiB)": 61.91,
      "step": 15820,
      "token_acc": 0.9242424242424242,
      "train_speed(iter/s)": 1.481506
    },
    {
      "epoch": 0.6779915170729618,
      "grad_norm": 6.696113109588623,
      "learning_rate": 9.55314087086417e-05,
      "loss": 0.2822275161743164,
      "memory(GiB)": 61.91,
      "step": 15825,
      "token_acc": 0.9381443298969072,
      "train_speed(iter/s)": 1.481457
    },
    {
      "epoch": 0.6782057324022107,
      "grad_norm": 1.9170283079147339,
      "learning_rate": 9.552862737413449e-05,
      "loss": 0.5009267807006836,
      "memory(GiB)": 61.91,
      "step": 15830,
      "token_acc": 0.8884462151394422,
      "train_speed(iter/s)": 1.481445
    },
    {
      "epoch": 0.6784199477314596,
      "grad_norm": 2.6807470321655273,
      "learning_rate": 9.55258452148335e-05,
      "loss": 0.40252199172973635,
      "memory(GiB)": 61.91,
      "step": 15835,
      "token_acc": 0.907051282051282,
      "train_speed(iter/s)": 1.481543
    },
    {
      "epoch": 0.6786341630607087,
      "grad_norm": 4.873498916625977,
      "learning_rate": 9.552306223078911e-05,
      "loss": 0.6006161212921143,
      "memory(GiB)": 61.91,
      "step": 15840,
      "token_acc": 0.8623188405797102,
      "train_speed(iter/s)": 1.481628
    },
    {
      "epoch": 0.6788483783899576,
      "grad_norm": 4.266808032989502,
      "learning_rate": 9.552027842205174e-05,
      "loss": 0.30486416816711426,
      "memory(GiB)": 61.91,
      "step": 15845,
      "token_acc": 0.9424920127795527,
      "train_speed(iter/s)": 1.481624
    },
    {
      "epoch": 0.6790625937192065,
      "grad_norm": 4.427332401275635,
      "learning_rate": 9.55174937886718e-05,
      "loss": 0.49683256149291993,
      "memory(GiB)": 61.91,
      "step": 15850,
      "token_acc": 0.8916083916083916,
      "train_speed(iter/s)": 1.481636
    },
    {
      "epoch": 0.6792768090484556,
      "grad_norm": 3.953134536743164,
      "learning_rate": 9.551470833069979e-05,
      "loss": 0.7852727890014648,
      "memory(GiB)": 61.91,
      "step": 15855,
      "token_acc": 0.8470254957507082,
      "train_speed(iter/s)": 1.48166
    },
    {
      "epoch": 0.6794910243777045,
      "grad_norm": 1.0975964069366455,
      "learning_rate": 9.551192204818615e-05,
      "loss": 0.4172943592071533,
      "memory(GiB)": 61.91,
      "step": 15860,
      "token_acc": 0.903010033444816,
      "train_speed(iter/s)": 1.481651
    },
    {
      "epoch": 0.6797052397069534,
      "grad_norm": 6.03659200668335,
      "learning_rate": 9.550913494118133e-05,
      "loss": 0.5827147483825683,
      "memory(GiB)": 61.91,
      "step": 15865,
      "token_acc": 0.8765822784810127,
      "train_speed(iter/s)": 1.481686
    },
    {
      "epoch": 0.6799194550362024,
      "grad_norm": 4.107854843139648,
      "learning_rate": 9.550634700973585e-05,
      "loss": 0.31268310546875,
      "memory(GiB)": 61.91,
      "step": 15870,
      "token_acc": 0.9380165289256198,
      "train_speed(iter/s)": 1.481669
    },
    {
      "epoch": 0.6801336703654514,
      "grad_norm": 1.4781098365783691,
      "learning_rate": 9.55035582539002e-05,
      "loss": 0.5103428840637207,
      "memory(GiB)": 61.91,
      "step": 15875,
      "token_acc": 0.9084745762711864,
      "train_speed(iter/s)": 1.481693
    },
    {
      "epoch": 0.6803478856947003,
      "grad_norm": 2.5276315212249756,
      "learning_rate": 9.550076867372491e-05,
      "loss": 0.36758670806884763,
      "memory(GiB)": 61.91,
      "step": 15880,
      "token_acc": 0.9078014184397163,
      "train_speed(iter/s)": 1.481675
    },
    {
      "epoch": 0.6805621010239493,
      "grad_norm": 3.6798593997955322,
      "learning_rate": 9.549797826926052e-05,
      "loss": 0.4272181034088135,
      "memory(GiB)": 61.91,
      "step": 15885,
      "token_acc": 0.9087591240875912,
      "train_speed(iter/s)": 1.481664
    },
    {
      "epoch": 0.6807763163531982,
      "grad_norm": 4.274956703186035,
      "learning_rate": 9.549518704055755e-05,
      "loss": 0.3734795331954956,
      "memory(GiB)": 61.91,
      "step": 15890,
      "token_acc": 0.9244604316546763,
      "train_speed(iter/s)": 1.48164
    },
    {
      "epoch": 0.6809905316824472,
      "grad_norm": 2.4862425327301025,
      "learning_rate": 9.549239498766661e-05,
      "loss": 0.6130151748657227,
      "memory(GiB)": 61.91,
      "step": 15895,
      "token_acc": 0.8767605633802817,
      "train_speed(iter/s)": 1.481655
    },
    {
      "epoch": 0.6812047470116962,
      "grad_norm": 7.011573314666748,
      "learning_rate": 9.548960211063824e-05,
      "loss": 0.628237533569336,
      "memory(GiB)": 61.91,
      "step": 15900,
      "token_acc": 0.8673469387755102,
      "train_speed(iter/s)": 1.481734
    },
    {
      "epoch": 0.6814189623409451,
      "grad_norm": 3.3327603340148926,
      "learning_rate": 9.548680840952308e-05,
      "loss": 0.42882094383239744,
      "memory(GiB)": 61.91,
      "step": 15905,
      "token_acc": 0.9144542772861357,
      "train_speed(iter/s)": 1.48178
    },
    {
      "epoch": 0.681633177670194,
      "grad_norm": 2.8352174758911133,
      "learning_rate": 9.548401388437169e-05,
      "loss": 0.3357755422592163,
      "memory(GiB)": 61.91,
      "step": 15910,
      "token_acc": 0.9096573208722741,
      "train_speed(iter/s)": 1.481738
    },
    {
      "epoch": 0.6818473929994431,
      "grad_norm": 3.148167848587036,
      "learning_rate": 9.548121853523475e-05,
      "loss": 0.6671308040618896,
      "memory(GiB)": 61.91,
      "step": 15915,
      "token_acc": 0.861198738170347,
      "train_speed(iter/s)": 1.481733
    },
    {
      "epoch": 0.682061608328692,
      "grad_norm": 2.371392250061035,
      "learning_rate": 9.547842236216285e-05,
      "loss": 0.314603853225708,
      "memory(GiB)": 61.91,
      "step": 15920,
      "token_acc": 0.9382352941176471,
      "train_speed(iter/s)": 1.481753
    },
    {
      "epoch": 0.6822758236579409,
      "grad_norm": 3.5529072284698486,
      "learning_rate": 9.547562536520667e-05,
      "loss": 0.33336875438690183,
      "memory(GiB)": 61.91,
      "step": 15925,
      "token_acc": 0.9255663430420712,
      "train_speed(iter/s)": 1.481854
    },
    {
      "epoch": 0.68249003898719,
      "grad_norm": 4.414220809936523,
      "learning_rate": 9.547282754441687e-05,
      "loss": 0.31989617347717286,
      "memory(GiB)": 61.91,
      "step": 15930,
      "token_acc": 0.9197080291970803,
      "train_speed(iter/s)": 1.481833
    },
    {
      "epoch": 0.6827042543164389,
      "grad_norm": 4.114873886108398,
      "learning_rate": 9.547002889984415e-05,
      "loss": 0.45402207374572756,
      "memory(GiB)": 61.91,
      "step": 15935,
      "token_acc": 0.9138461538461539,
      "train_speed(iter/s)": 1.481856
    },
    {
      "epoch": 0.6829184696456878,
      "grad_norm": 3.723588228225708,
      "learning_rate": 9.546722943153921e-05,
      "loss": 0.4394641876220703,
      "memory(GiB)": 61.91,
      "step": 15940,
      "token_acc": 0.9017341040462428,
      "train_speed(iter/s)": 1.481856
    },
    {
      "epoch": 0.6831326849749368,
      "grad_norm": 6.376893997192383,
      "learning_rate": 9.546442913955276e-05,
      "loss": 0.4547878742218018,
      "memory(GiB)": 61.91,
      "step": 15945,
      "token_acc": 0.8857938718662952,
      "train_speed(iter/s)": 1.481843
    },
    {
      "epoch": 0.6833469003041858,
      "grad_norm": 0.23020677268505096,
      "learning_rate": 9.54616280239355e-05,
      "loss": 0.4190036773681641,
      "memory(GiB)": 61.91,
      "step": 15950,
      "token_acc": 0.921311475409836,
      "train_speed(iter/s)": 1.481846
    },
    {
      "epoch": 0.6835611156334347,
      "grad_norm": 8.47883129119873,
      "learning_rate": 9.545882608473823e-05,
      "loss": 0.7333100318908692,
      "memory(GiB)": 61.91,
      "step": 15955,
      "token_acc": 0.8354838709677419,
      "train_speed(iter/s)": 1.481872
    },
    {
      "epoch": 0.6837753309626837,
      "grad_norm": 3.2420997619628906,
      "learning_rate": 9.545602332201167e-05,
      "loss": 0.20959248542785644,
      "memory(GiB)": 61.91,
      "step": 15960,
      "token_acc": 0.9527027027027027,
      "train_speed(iter/s)": 1.481873
    },
    {
      "epoch": 0.6839895462919326,
      "grad_norm": 0.3728238642215729,
      "learning_rate": 9.545321973580661e-05,
      "loss": 0.2719521999359131,
      "memory(GiB)": 61.91,
      "step": 15965,
      "token_acc": 0.9330543933054394,
      "train_speed(iter/s)": 1.481864
    },
    {
      "epoch": 0.6842037616211816,
      "grad_norm": 3.0417933464050293,
      "learning_rate": 9.545041532617382e-05,
      "loss": 0.3236682415008545,
      "memory(GiB)": 61.91,
      "step": 15970,
      "token_acc": 0.930921052631579,
      "train_speed(iter/s)": 1.481886
    },
    {
      "epoch": 0.6844179769504306,
      "grad_norm": 5.005701541900635,
      "learning_rate": 9.544761009316414e-05,
      "loss": 0.36336545944213866,
      "memory(GiB)": 61.91,
      "step": 15975,
      "token_acc": 0.9261744966442953,
      "train_speed(iter/s)": 1.481896
    },
    {
      "epoch": 0.6846321922796795,
      "grad_norm": 4.143919944763184,
      "learning_rate": 9.544480403682836e-05,
      "loss": 0.45569324493408203,
      "memory(GiB)": 61.91,
      "step": 15980,
      "token_acc": 0.9228187919463087,
      "train_speed(iter/s)": 1.481912
    },
    {
      "epoch": 0.6848464076089285,
      "grad_norm": 3.5759494304656982,
      "learning_rate": 9.544199715721734e-05,
      "loss": 0.5146461009979248,
      "memory(GiB)": 61.91,
      "step": 15985,
      "token_acc": 0.8896797153024911,
      "train_speed(iter/s)": 1.481919
    },
    {
      "epoch": 0.6850606229381775,
      "grad_norm": 5.151166915893555,
      "learning_rate": 9.543918945438189e-05,
      "loss": 0.3692609786987305,
      "memory(GiB)": 61.91,
      "step": 15990,
      "token_acc": 0.9238754325259516,
      "train_speed(iter/s)": 1.481915
    },
    {
      "epoch": 0.6852748382674264,
      "grad_norm": 5.309976100921631,
      "learning_rate": 9.543638092837291e-05,
      "loss": 0.4565682888031006,
      "memory(GiB)": 61.91,
      "step": 15995,
      "token_acc": 0.9106529209621993,
      "train_speed(iter/s)": 1.481911
    },
    {
      "epoch": 0.6854890535966753,
      "grad_norm": 3.289983034133911,
      "learning_rate": 9.543357157924126e-05,
      "loss": 0.4279374122619629,
      "memory(GiB)": 61.91,
      "step": 16000,
      "token_acc": 0.9028776978417267,
      "train_speed(iter/s)": 1.481954
    },
    {
      "epoch": 0.6854890535966753,
      "eval_loss": 2.579702854156494,
      "eval_runtime": 13.1879,
      "eval_samples_per_second": 7.583,
      "eval_steps_per_second": 7.583,
      "eval_token_acc": 0.42398884239888424,
      "step": 16000
    },
    {
      "epoch": 0.6857032689259244,
      "grad_norm": 3.1717193126678467,
      "learning_rate": 9.543076140703786e-05,
      "loss": 0.825126838684082,
      "memory(GiB)": 61.91,
      "step": 16005,
      "token_acc": 0.5506268081002893,
      "train_speed(iter/s)": 1.480038
    },
    {
      "epoch": 0.6859174842551733,
      "grad_norm": 4.573133945465088,
      "learning_rate": 9.542795041181359e-05,
      "loss": 0.7674770355224609,
      "memory(GiB)": 61.91,
      "step": 16010,
      "token_acc": 0.84375,
      "train_speed(iter/s)": 1.480045
    },
    {
      "epoch": 0.6861316995844222,
      "grad_norm": 1.206395149230957,
      "learning_rate": 9.542513859361937e-05,
      "loss": 0.4191195011138916,
      "memory(GiB)": 61.91,
      "step": 16015,
      "token_acc": 0.9134948096885813,
      "train_speed(iter/s)": 1.480073
    },
    {
      "epoch": 0.6863459149136713,
      "grad_norm": 2.8553404808044434,
      "learning_rate": 9.542232595250615e-05,
      "loss": 0.7442595481872558,
      "memory(GiB)": 61.91,
      "step": 16020,
      "token_acc": 0.8589743589743589,
      "train_speed(iter/s)": 1.480106
    },
    {
      "epoch": 0.6865601302429202,
      "grad_norm": 3.0150253772735596,
      "learning_rate": 9.54195124885249e-05,
      "loss": 0.43084964752197263,
      "memory(GiB)": 61.91,
      "step": 16025,
      "token_acc": 0.8934169278996865,
      "train_speed(iter/s)": 1.480106
    },
    {
      "epoch": 0.6867743455721691,
      "grad_norm": 3.5962295532226562,
      "learning_rate": 9.541669820172656e-05,
      "loss": 0.6882177352905273,
      "memory(GiB)": 61.91,
      "step": 16030,
      "token_acc": 0.8525073746312685,
      "train_speed(iter/s)": 1.480149
    },
    {
      "epoch": 0.6869885609014181,
      "grad_norm": 2.33845591545105,
      "learning_rate": 9.541388309216214e-05,
      "loss": 0.21027984619140624,
      "memory(GiB)": 61.91,
      "step": 16035,
      "token_acc": 0.9411764705882353,
      "train_speed(iter/s)": 1.480148
    },
    {
      "epoch": 0.6872027762306671,
      "grad_norm": 4.793637752532959,
      "learning_rate": 9.541106715988263e-05,
      "loss": 0.306810998916626,
      "memory(GiB)": 61.91,
      "step": 16040,
      "token_acc": 0.9375,
      "train_speed(iter/s)": 1.480146
    },
    {
      "epoch": 0.687416991559916,
      "grad_norm": 3.801490068435669,
      "learning_rate": 9.540825040493903e-05,
      "loss": 0.40580925941467283,
      "memory(GiB)": 61.91,
      "step": 16045,
      "token_acc": 0.9375,
      "train_speed(iter/s)": 1.480139
    },
    {
      "epoch": 0.687631206889165,
      "grad_norm": 2.4022035598754883,
      "learning_rate": 9.540543282738239e-05,
      "loss": 0.5293187141418457,
      "memory(GiB)": 61.91,
      "step": 16050,
      "token_acc": 0.8689138576779026,
      "train_speed(iter/s)": 1.48013
    },
    {
      "epoch": 0.6878454222184139,
      "grad_norm": 3.042287588119507,
      "learning_rate": 9.540261442726373e-05,
      "loss": 0.3027838706970215,
      "memory(GiB)": 61.91,
      "step": 16055,
      "token_acc": 0.9355932203389831,
      "train_speed(iter/s)": 1.480148
    },
    {
      "epoch": 0.6880596375476629,
      "grad_norm": 3.454556941986084,
      "learning_rate": 9.539979520463413e-05,
      "loss": 0.3649451732635498,
      "memory(GiB)": 61.91,
      "step": 16060,
      "token_acc": 0.9230769230769231,
      "train_speed(iter/s)": 1.480167
    },
    {
      "epoch": 0.6882738528769119,
      "grad_norm": 2.7650389671325684,
      "learning_rate": 9.539697515954465e-05,
      "loss": 0.5789755821228028,
      "memory(GiB)": 61.91,
      "step": 16065,
      "token_acc": 0.8840579710144928,
      "train_speed(iter/s)": 1.480172
    },
    {
      "epoch": 0.6884880682061608,
      "grad_norm": 2.523130178451538,
      "learning_rate": 9.539415429204636e-05,
      "loss": 0.3914970397949219,
      "memory(GiB)": 61.91,
      "step": 16070,
      "token_acc": 0.9302325581395349,
      "train_speed(iter/s)": 1.480171
    },
    {
      "epoch": 0.6887022835354097,
      "grad_norm": 3.65509295463562,
      "learning_rate": 9.53913326021904e-05,
      "loss": 0.4312613010406494,
      "memory(GiB)": 61.91,
      "step": 16075,
      "token_acc": 0.9056603773584906,
      "train_speed(iter/s)": 1.48016
    },
    {
      "epoch": 0.6889164988646588,
      "grad_norm": 1.8948485851287842,
      "learning_rate": 9.538851009002785e-05,
      "loss": 0.18220894336700438,
      "memory(GiB)": 61.91,
      "step": 16080,
      "token_acc": 0.959866220735786,
      "train_speed(iter/s)": 1.480159
    },
    {
      "epoch": 0.6891307141939077,
      "grad_norm": 4.382693290710449,
      "learning_rate": 9.538568675560988e-05,
      "loss": 0.4242574691772461,
      "memory(GiB)": 61.91,
      "step": 16085,
      "token_acc": 0.9003215434083601,
      "train_speed(iter/s)": 1.480146
    },
    {
      "epoch": 0.6893449295231566,
      "grad_norm": 3.77968430519104,
      "learning_rate": 9.538286259898762e-05,
      "loss": 0.4293569564819336,
      "memory(GiB)": 61.91,
      "step": 16090,
      "token_acc": 0.9050632911392406,
      "train_speed(iter/s)": 1.480162
    },
    {
      "epoch": 0.6895591448524057,
      "grad_norm": 1.1404070854187012,
      "learning_rate": 9.538003762021221e-05,
      "loss": 0.4667935848236084,
      "memory(GiB)": 61.91,
      "step": 16095,
      "token_acc": 0.8936170212765957,
      "train_speed(iter/s)": 1.480204
    },
    {
      "epoch": 0.6897733601816546,
      "grad_norm": 6.5467705726623535,
      "learning_rate": 9.537721181933488e-05,
      "loss": 0.6287301540374756,
      "memory(GiB)": 61.91,
      "step": 16100,
      "token_acc": 0.8615819209039548,
      "train_speed(iter/s)": 1.480184
    },
    {
      "epoch": 0.6899875755109035,
      "grad_norm": 4.944956302642822,
      "learning_rate": 9.537438519640675e-05,
      "loss": 0.570768165588379,
      "memory(GiB)": 61.91,
      "step": 16105,
      "token_acc": 0.89171974522293,
      "train_speed(iter/s)": 1.480183
    },
    {
      "epoch": 0.6902017908401525,
      "grad_norm": 4.639111042022705,
      "learning_rate": 9.53715577514791e-05,
      "loss": 0.4648996353149414,
      "memory(GiB)": 61.91,
      "step": 16110,
      "token_acc": 0.9097472924187726,
      "train_speed(iter/s)": 1.480183
    },
    {
      "epoch": 0.6904160061694015,
      "grad_norm": 2.360802412033081,
      "learning_rate": 9.536872948460312e-05,
      "loss": 0.19060324430465697,
      "memory(GiB)": 61.91,
      "step": 16115,
      "token_acc": 0.9592592592592593,
      "train_speed(iter/s)": 1.480178
    },
    {
      "epoch": 0.6906302214986505,
      "grad_norm": 2.613246440887451,
      "learning_rate": 9.536590039583004e-05,
      "loss": 0.21077706813812255,
      "memory(GiB)": 61.91,
      "step": 16120,
      "token_acc": 0.9320987654320988,
      "train_speed(iter/s)": 1.480155
    },
    {
      "epoch": 0.6908444368278994,
      "grad_norm": 0.06263306736946106,
      "learning_rate": 9.536307048521112e-05,
      "loss": 0.374418306350708,
      "memory(GiB)": 61.91,
      "step": 16125,
      "token_acc": 0.9077490774907749,
      "train_speed(iter/s)": 1.480126
    },
    {
      "epoch": 0.6910586521571483,
      "grad_norm": 3.0156185626983643,
      "learning_rate": 9.53602397527976e-05,
      "loss": 0.3358055830001831,
      "memory(GiB)": 61.91,
      "step": 16130,
      "token_acc": 0.9296296296296296,
      "train_speed(iter/s)": 1.480119
    },
    {
      "epoch": 0.6912728674863974,
      "grad_norm": 3.4878363609313965,
      "learning_rate": 9.535740819864081e-05,
      "loss": 0.48032584190368655,
      "memory(GiB)": 61.91,
      "step": 16135,
      "token_acc": 0.9090909090909091,
      "train_speed(iter/s)": 1.480113
    },
    {
      "epoch": 0.6914870828156463,
      "grad_norm": 2.8022868633270264,
      "learning_rate": 9.535457582279203e-05,
      "loss": 0.34444143772125246,
      "memory(GiB)": 61.91,
      "step": 16140,
      "token_acc": 0.9333333333333333,
      "train_speed(iter/s)": 1.480103
    },
    {
      "epoch": 0.6917012981448952,
      "grad_norm": 4.650376796722412,
      "learning_rate": 9.535174262530254e-05,
      "loss": 0.12239797115325927,
      "memory(GiB)": 61.91,
      "step": 16145,
      "token_acc": 0.9793103448275862,
      "train_speed(iter/s)": 1.480104
    },
    {
      "epoch": 0.6919155134741443,
      "grad_norm": 2.8736023902893066,
      "learning_rate": 9.53489086062237e-05,
      "loss": 0.5388351917266846,
      "memory(GiB)": 61.91,
      "step": 16150,
      "token_acc": 0.8877551020408163,
      "train_speed(iter/s)": 1.480079
    },
    {
      "epoch": 0.6921297288033932,
      "grad_norm": 5.612738609313965,
      "learning_rate": 9.534607376560684e-05,
      "loss": 0.6932330131530762,
      "memory(GiB)": 61.91,
      "step": 16155,
      "token_acc": 0.8870431893687708,
      "train_speed(iter/s)": 1.480064
    },
    {
      "epoch": 0.6923439441326421,
      "grad_norm": 0.0807308629155159,
      "learning_rate": 9.534323810350332e-05,
      "loss": 0.5938024997711182,
      "memory(GiB)": 61.91,
      "step": 16160,
      "token_acc": 0.8717948717948718,
      "train_speed(iter/s)": 1.480016
    },
    {
      "epoch": 0.6925581594618911,
      "grad_norm": 2.4327831268310547,
      "learning_rate": 9.534040161996449e-05,
      "loss": 0.7377054214477539,
      "memory(GiB)": 61.91,
      "step": 16165,
      "token_acc": 0.8617021276595744,
      "train_speed(iter/s)": 1.480058
    },
    {
      "epoch": 0.6927723747911401,
      "grad_norm": 3.0079426765441895,
      "learning_rate": 9.533756431504177e-05,
      "loss": 0.3451094150543213,
      "memory(GiB)": 61.91,
      "step": 16170,
      "token_acc": 0.9174917491749175,
      "train_speed(iter/s)": 1.480055
    },
    {
      "epoch": 0.692986590120389,
      "grad_norm": 2.066725730895996,
      "learning_rate": 9.533472618878653e-05,
      "loss": 0.33328244686126707,
      "memory(GiB)": 61.91,
      "step": 16175,
      "token_acc": 0.9225589225589226,
      "train_speed(iter/s)": 1.480065
    },
    {
      "epoch": 0.693200805449638,
      "grad_norm": 4.514894962310791,
      "learning_rate": 9.53318872412502e-05,
      "loss": 0.7159274101257325,
      "memory(GiB)": 61.91,
      "step": 16180,
      "token_acc": 0.8679867986798679,
      "train_speed(iter/s)": 1.480069
    },
    {
      "epoch": 0.693415020778887,
      "grad_norm": 2.2582883834838867,
      "learning_rate": 9.532904747248422e-05,
      "loss": 0.49430098533630373,
      "memory(GiB)": 61.91,
      "step": 16185,
      "token_acc": 0.9066265060240963,
      "train_speed(iter/s)": 1.480123
    },
    {
      "epoch": 0.6936292361081359,
      "grad_norm": 2.403585195541382,
      "learning_rate": 9.532620688254e-05,
      "loss": 0.5540934085845948,
      "memory(GiB)": 61.91,
      "step": 16190,
      "token_acc": 0.8716981132075472,
      "train_speed(iter/s)": 1.48012
    },
    {
      "epoch": 0.6938434514373849,
      "grad_norm": 3.2883353233337402,
      "learning_rate": 9.532336547146904e-05,
      "loss": 0.41477031707763673,
      "memory(GiB)": 61.91,
      "step": 16195,
      "token_acc": 0.9018987341772152,
      "train_speed(iter/s)": 1.480115
    },
    {
      "epoch": 0.6940576667666338,
      "grad_norm": 1.7837417125701904,
      "learning_rate": 9.532052323932279e-05,
      "loss": 0.4742863655090332,
      "memory(GiB)": 61.91,
      "step": 16200,
      "token_acc": 0.8966666666666666,
      "train_speed(iter/s)": 1.480122
    },
    {
      "epoch": 0.6942718820958828,
      "grad_norm": 4.919589042663574,
      "learning_rate": 9.531768018615276e-05,
      "loss": 0.7809865951538086,
      "memory(GiB)": 61.91,
      "step": 16205,
      "token_acc": 0.8470588235294118,
      "train_speed(iter/s)": 1.480165
    },
    {
      "epoch": 0.6944860974251318,
      "grad_norm": 5.131477355957031,
      "learning_rate": 9.531483631201044e-05,
      "loss": 0.5495792388916015,
      "memory(GiB)": 61.91,
      "step": 16210,
      "token_acc": 0.8850574712643678,
      "train_speed(iter/s)": 1.480169
    },
    {
      "epoch": 0.6947003127543807,
      "grad_norm": 2.3777599334716797,
      "learning_rate": 9.531199161694732e-05,
      "loss": 0.5106991767883301,
      "memory(GiB)": 61.91,
      "step": 16215,
      "token_acc": 0.9169435215946844,
      "train_speed(iter/s)": 1.480166
    },
    {
      "epoch": 0.6949145280836296,
      "grad_norm": 2.0256621837615967,
      "learning_rate": 9.5309146101015e-05,
      "loss": 0.35914623737335205,
      "memory(GiB)": 61.91,
      "step": 16220,
      "token_acc": 0.9294117647058824,
      "train_speed(iter/s)": 1.480163
    },
    {
      "epoch": 0.6951287434128787,
      "grad_norm": 4.8575119972229,
      "learning_rate": 9.530629976426499e-05,
      "loss": 0.3849184989929199,
      "memory(GiB)": 61.91,
      "step": 16225,
      "token_acc": 0.8985507246376812,
      "train_speed(iter/s)": 1.480143
    },
    {
      "epoch": 0.6953429587421276,
      "grad_norm": 3.6568636894226074,
      "learning_rate": 9.530345260674885e-05,
      "loss": 0.2740474700927734,
      "memory(GiB)": 61.91,
      "step": 16230,
      "token_acc": 0.9277566539923955,
      "train_speed(iter/s)": 1.480174
    },
    {
      "epoch": 0.6955571740713765,
      "grad_norm": 3.297774076461792,
      "learning_rate": 9.530060462851818e-05,
      "loss": 0.42949376106262205,
      "memory(GiB)": 61.91,
      "step": 16235,
      "token_acc": 0.9066666666666666,
      "train_speed(iter/s)": 1.480218
    },
    {
      "epoch": 0.6957713894006256,
      "grad_norm": 3.8572871685028076,
      "learning_rate": 9.529775582962455e-05,
      "loss": 0.49840555191040037,
      "memory(GiB)": 61.91,
      "step": 16240,
      "token_acc": 0.8924731182795699,
      "train_speed(iter/s)": 1.480222
    },
    {
      "epoch": 0.6959856047298745,
      "grad_norm": 5.665950298309326,
      "learning_rate": 9.529490621011958e-05,
      "loss": 0.3551926136016846,
      "memory(GiB)": 61.91,
      "step": 16245,
      "token_acc": 0.9247648902821317,
      "train_speed(iter/s)": 1.480278
    },
    {
      "epoch": 0.6961998200591234,
      "grad_norm": 3.3979365825653076,
      "learning_rate": 9.529205577005491e-05,
      "loss": 0.38051939010620117,
      "memory(GiB)": 61.91,
      "step": 16250,
      "token_acc": 0.9300291545189504,
      "train_speed(iter/s)": 1.480286
    },
    {
      "epoch": 0.6964140353883724,
      "grad_norm": 5.01914644241333,
      "learning_rate": 9.528920450948215e-05,
      "loss": 0.3453675270080566,
      "memory(GiB)": 61.91,
      "step": 16255,
      "token_acc": 0.9250936329588015,
      "train_speed(iter/s)": 1.480292
    },
    {
      "epoch": 0.6966282507176214,
      "grad_norm": 4.103448390960693,
      "learning_rate": 9.528635242845297e-05,
      "loss": 0.5251649856567383,
      "memory(GiB)": 61.91,
      "step": 16260,
      "token_acc": 0.9224137931034483,
      "train_speed(iter/s)": 1.480308
    },
    {
      "epoch": 0.6968424660468703,
      "grad_norm": 4.562344074249268,
      "learning_rate": 9.528349952701902e-05,
      "loss": 0.36369097232818604,
      "memory(GiB)": 61.91,
      "step": 16265,
      "token_acc": 0.8979591836734694,
      "train_speed(iter/s)": 1.480313
    },
    {
      "epoch": 0.6970566813761193,
      "grad_norm": 1.0909693241119385,
      "learning_rate": 9.528064580523201e-05,
      "loss": 0.2936516761779785,
      "memory(GiB)": 61.91,
      "step": 16270,
      "token_acc": 0.9159891598915989,
      "train_speed(iter/s)": 1.480324
    },
    {
      "epoch": 0.6972708967053682,
      "grad_norm": 2.369767904281616,
      "learning_rate": 9.527779126314362e-05,
      "loss": 0.4679872035980225,
      "memory(GiB)": 61.91,
      "step": 16275,
      "token_acc": 0.8916083916083916,
      "train_speed(iter/s)": 1.480373
    },
    {
      "epoch": 0.6974851120346172,
      "grad_norm": 0.500034749507904,
      "learning_rate": 9.527493590080557e-05,
      "loss": 0.40371031761169435,
      "memory(GiB)": 61.91,
      "step": 16280,
      "token_acc": 0.9184397163120568,
      "train_speed(iter/s)": 1.480396
    },
    {
      "epoch": 0.6976993273638662,
      "grad_norm": 3.466543436050415,
      "learning_rate": 9.527207971826959e-05,
      "loss": 0.5843483448028565,
      "memory(GiB)": 61.91,
      "step": 16285,
      "token_acc": 0.8758169934640523,
      "train_speed(iter/s)": 1.480388
    },
    {
      "epoch": 0.6979135426931151,
      "grad_norm": 2.788017988204956,
      "learning_rate": 9.52692227155874e-05,
      "loss": 0.24493088722229003,
      "memory(GiB)": 61.91,
      "step": 16290,
      "token_acc": 0.9264214046822743,
      "train_speed(iter/s)": 1.480373
    },
    {
      "epoch": 0.698127758022364,
      "grad_norm": 2.5382473468780518,
      "learning_rate": 9.526636489281078e-05,
      "loss": 0.2528695106506348,
      "memory(GiB)": 61.91,
      "step": 16295,
      "token_acc": 0.9525316455696202,
      "train_speed(iter/s)": 1.480398
    },
    {
      "epoch": 0.6983419733516131,
      "grad_norm": 3.3628792762756348,
      "learning_rate": 9.526350624999153e-05,
      "loss": 0.16815507411956787,
      "memory(GiB)": 61.91,
      "step": 16300,
      "token_acc": 0.9601593625498008,
      "train_speed(iter/s)": 1.48039
    },
    {
      "epoch": 0.698556188680862,
      "grad_norm": 3.9932966232299805,
      "learning_rate": 9.526064678718137e-05,
      "loss": 0.4950117111206055,
      "memory(GiB)": 61.91,
      "step": 16305,
      "token_acc": 0.9011857707509882,
      "train_speed(iter/s)": 1.480451
    },
    {
      "epoch": 0.6987704040101109,
      "grad_norm": 2.40407133102417,
      "learning_rate": 9.525778650443214e-05,
      "loss": 0.2374722719192505,
      "memory(GiB)": 61.91,
      "step": 16310,
      "token_acc": 0.9387755102040817,
      "train_speed(iter/s)": 1.480454
    },
    {
      "epoch": 0.69898461933936,
      "grad_norm": 3.667633533477783,
      "learning_rate": 9.525492540179563e-05,
      "loss": 0.3298379182815552,
      "memory(GiB)": 61.91,
      "step": 16315,
      "token_acc": 0.9271523178807947,
      "train_speed(iter/s)": 1.480446
    },
    {
      "epoch": 0.6991988346686089,
      "grad_norm": 2.8265085220336914,
      "learning_rate": 9.525206347932373e-05,
      "loss": 0.3808382272720337,
      "memory(GiB)": 61.91,
      "step": 16320,
      "token_acc": 0.9299610894941635,
      "train_speed(iter/s)": 1.480486
    },
    {
      "epoch": 0.6994130499978578,
      "grad_norm": 2.5881175994873047,
      "learning_rate": 9.524920073706824e-05,
      "loss": 0.30810182094573973,
      "memory(GiB)": 61.91,
      "step": 16325,
      "token_acc": 0.9230769230769231,
      "train_speed(iter/s)": 1.480478
    },
    {
      "epoch": 0.6996272653271068,
      "grad_norm": 2.9233310222625732,
      "learning_rate": 9.524633717508103e-05,
      "loss": 0.34280738830566404,
      "memory(GiB)": 61.91,
      "step": 16330,
      "token_acc": 0.928082191780822,
      "train_speed(iter/s)": 1.480452
    },
    {
      "epoch": 0.6998414806563558,
      "grad_norm": 3.6014957427978516,
      "learning_rate": 9.524347279341397e-05,
      "loss": 0.341717004776001,
      "memory(GiB)": 61.91,
      "step": 16335,
      "token_acc": 0.9265734265734266,
      "train_speed(iter/s)": 1.480441
    },
    {
      "epoch": 0.7000556959856047,
      "grad_norm": 2.3197576999664307,
      "learning_rate": 9.524060759211897e-05,
      "loss": 0.5460198879241943,
      "memory(GiB)": 61.91,
      "step": 16340,
      "token_acc": 0.8948863636363636,
      "train_speed(iter/s)": 1.480435
    },
    {
      "epoch": 0.7002699113148537,
      "grad_norm": 0.16807520389556885,
      "learning_rate": 9.523774157124791e-05,
      "loss": 0.14502352476119995,
      "memory(GiB)": 61.91,
      "step": 16345,
      "token_acc": 0.9723320158102767,
      "train_speed(iter/s)": 1.480433
    },
    {
      "epoch": 0.7004841266441026,
      "grad_norm": 4.0745344161987305,
      "learning_rate": 9.523487473085274e-05,
      "loss": 0.4727954387664795,
      "memory(GiB)": 61.91,
      "step": 16350,
      "token_acc": 0.8877887788778878,
      "train_speed(iter/s)": 1.480428
    },
    {
      "epoch": 0.7006983419733516,
      "grad_norm": 1.7719545364379883,
      "learning_rate": 9.523200707098537e-05,
      "loss": 0.5752057075500489,
      "memory(GiB)": 61.91,
      "step": 16355,
      "token_acc": 0.9146919431279621,
      "train_speed(iter/s)": 1.480431
    },
    {
      "epoch": 0.7009125573026006,
      "grad_norm": 3.190648078918457,
      "learning_rate": 9.522913859169778e-05,
      "loss": 0.3660828351974487,
      "memory(GiB)": 61.91,
      "step": 16360,
      "token_acc": 0.9236111111111112,
      "train_speed(iter/s)": 1.480421
    },
    {
      "epoch": 0.7011267726318495,
      "grad_norm": 5.664255142211914,
      "learning_rate": 9.52262692930419e-05,
      "loss": 0.8895369529724121,
      "memory(GiB)": 61.91,
      "step": 16365,
      "token_acc": 0.8461538461538461,
      "train_speed(iter/s)": 1.48046
    },
    {
      "epoch": 0.7013409879610984,
      "grad_norm": 7.215083599090576,
      "learning_rate": 9.522339917506973e-05,
      "loss": 0.5255794048309326,
      "memory(GiB)": 61.91,
      "step": 16370,
      "token_acc": 0.8823529411764706,
      "train_speed(iter/s)": 1.480474
    },
    {
      "epoch": 0.7015552032903475,
      "grad_norm": 0.08328226208686829,
      "learning_rate": 9.522052823783325e-05,
      "loss": 0.15123497247695922,
      "memory(GiB)": 61.91,
      "step": 16375,
      "token_acc": 0.967391304347826,
      "train_speed(iter/s)": 1.480493
    },
    {
      "epoch": 0.7017694186195964,
      "grad_norm": 9.059599876403809,
      "learning_rate": 9.521765648138449e-05,
      "loss": 0.20889406204223632,
      "memory(GiB)": 61.91,
      "step": 16380,
      "token_acc": 0.9548872180451128,
      "train_speed(iter/s)": 1.480499
    },
    {
      "epoch": 0.7019836339488453,
      "grad_norm": 7.689831733703613,
      "learning_rate": 9.521478390577546e-05,
      "loss": 0.35178546905517577,
      "memory(GiB)": 61.91,
      "step": 16385,
      "token_acc": 0.9390681003584229,
      "train_speed(iter/s)": 1.480502
    },
    {
      "epoch": 0.7021978492780944,
      "grad_norm": 1.194166660308838,
      "learning_rate": 9.521191051105823e-05,
      "loss": 0.5222110748291016,
      "memory(GiB)": 61.91,
      "step": 16390,
      "token_acc": 0.906896551724138,
      "train_speed(iter/s)": 1.480555
    },
    {
      "epoch": 0.7024120646073433,
      "grad_norm": 1.6429449319839478,
      "learning_rate": 9.520903629728479e-05,
      "loss": 0.3597019910812378,
      "memory(GiB)": 61.91,
      "step": 16395,
      "token_acc": 0.935251798561151,
      "train_speed(iter/s)": 1.480572
    },
    {
      "epoch": 0.7026262799365922,
      "grad_norm": 5.310493469238281,
      "learning_rate": 9.520616126450726e-05,
      "loss": 0.4792961120605469,
      "memory(GiB)": 61.91,
      "step": 16400,
      "token_acc": 0.8855218855218855,
      "train_speed(iter/s)": 1.480537
    },
    {
      "epoch": 0.7028404952658412,
      "grad_norm": 3.854611396789551,
      "learning_rate": 9.520328541277772e-05,
      "loss": 0.5979731559753418,
      "memory(GiB)": 61.91,
      "step": 16405,
      "token_acc": 0.8671328671328671,
      "train_speed(iter/s)": 1.480512
    },
    {
      "epoch": 0.7030547105950902,
      "grad_norm": 3.0502285957336426,
      "learning_rate": 9.520040874214827e-05,
      "loss": 0.36093270778656006,
      "memory(GiB)": 61.91,
      "step": 16410,
      "token_acc": 0.9177215189873418,
      "train_speed(iter/s)": 1.480489
    },
    {
      "epoch": 0.7032689259243391,
      "grad_norm": 0.6400442719459534,
      "learning_rate": 9.519753125267101e-05,
      "loss": 0.4716456413269043,
      "memory(GiB)": 61.91,
      "step": 16415,
      "token_acc": 0.9037037037037037,
      "train_speed(iter/s)": 1.480469
    },
    {
      "epoch": 0.7034831412535881,
      "grad_norm": 5.470909595489502,
      "learning_rate": 9.519465294439805e-05,
      "loss": 0.40007600784301756,
      "memory(GiB)": 61.91,
      "step": 16420,
      "token_acc": 0.9074733096085409,
      "train_speed(iter/s)": 1.480515
    },
    {
      "epoch": 0.703697356582837,
      "grad_norm": 0.6272264122962952,
      "learning_rate": 9.519177381738158e-05,
      "loss": 0.2540931224822998,
      "memory(GiB)": 61.91,
      "step": 16425,
      "token_acc": 0.9498069498069498,
      "train_speed(iter/s)": 1.480565
    },
    {
      "epoch": 0.703911571912086,
      "grad_norm": 4.417055606842041,
      "learning_rate": 9.518889387167373e-05,
      "loss": 0.5250715732574462,
      "memory(GiB)": 61.91,
      "step": 16430,
      "token_acc": 0.8885630498533724,
      "train_speed(iter/s)": 1.480601
    },
    {
      "epoch": 0.704125787241335,
      "grad_norm": 3.5807437896728516,
      "learning_rate": 9.518601310732667e-05,
      "loss": 0.5242449283599854,
      "memory(GiB)": 61.91,
      "step": 16435,
      "token_acc": 0.8974358974358975,
      "train_speed(iter/s)": 1.4806
    },
    {
      "epoch": 0.7043400025705839,
      "grad_norm": 3.099679946899414,
      "learning_rate": 9.518313152439259e-05,
      "loss": 0.5968850612640381,
      "memory(GiB)": 61.91,
      "step": 16440,
      "token_acc": 0.8975155279503105,
      "train_speed(iter/s)": 1.480601
    },
    {
      "epoch": 0.7045542178998329,
      "grad_norm": 3.103273391723633,
      "learning_rate": 9.51802491229237e-05,
      "loss": 0.5999731540679931,
      "memory(GiB)": 61.91,
      "step": 16445,
      "token_acc": 0.88,
      "train_speed(iter/s)": 1.480608
    },
    {
      "epoch": 0.7047684332290819,
      "grad_norm": 5.614880561828613,
      "learning_rate": 9.517736590297223e-05,
      "loss": 0.9482495307922363,
      "memory(GiB)": 61.91,
      "step": 16450,
      "token_acc": 0.8229508196721311,
      "train_speed(iter/s)": 1.480592
    },
    {
      "epoch": 0.7049826485583308,
      "grad_norm": 3.2638866901397705,
      "learning_rate": 9.517448186459038e-05,
      "loss": 0.527281665802002,
      "memory(GiB)": 61.91,
      "step": 16455,
      "token_acc": 0.8931750741839762,
      "train_speed(iter/s)": 1.480598
    },
    {
      "epoch": 0.7051968638875799,
      "grad_norm": 2.292140483856201,
      "learning_rate": 9.517159700783042e-05,
      "loss": 0.16148282289505006,
      "memory(GiB)": 61.91,
      "step": 16460,
      "token_acc": 0.95,
      "train_speed(iter/s)": 1.480604
    },
    {
      "epoch": 0.7054110792168288,
      "grad_norm": 3.986051321029663,
      "learning_rate": 9.516871133274461e-05,
      "loss": 0.40984277725219725,
      "memory(GiB)": 61.91,
      "step": 16465,
      "token_acc": 0.9126984126984127,
      "train_speed(iter/s)": 1.480605
    },
    {
      "epoch": 0.7056252945460777,
      "grad_norm": 2.7484424114227295,
      "learning_rate": 9.51658248393852e-05,
      "loss": 0.31502413749694824,
      "memory(GiB)": 61.91,
      "step": 16470,
      "token_acc": 0.9390581717451524,
      "train_speed(iter/s)": 1.48056
    },
    {
      "epoch": 0.7058395098753267,
      "grad_norm": 2.631208658218384,
      "learning_rate": 9.516293752780454e-05,
      "loss": 0.43389172554016114,
      "memory(GiB)": 61.91,
      "step": 16475,
      "token_acc": 0.9127725856697819,
      "train_speed(iter/s)": 1.480567
    },
    {
      "epoch": 0.7060537252045757,
      "grad_norm": 2.1906211376190186,
      "learning_rate": 9.516004939805488e-05,
      "loss": 0.2535202980041504,
      "memory(GiB)": 61.91,
      "step": 16480,
      "token_acc": 0.9490909090909091,
      "train_speed(iter/s)": 1.48056
    },
    {
      "epoch": 0.7062679405338246,
      "grad_norm": 4.081280708312988,
      "learning_rate": 9.515716045018856e-05,
      "loss": 0.3797840356826782,
      "memory(GiB)": 61.91,
      "step": 16485,
      "token_acc": 0.935251798561151,
      "train_speed(iter/s)": 1.480565
    },
    {
      "epoch": 0.7064821558630736,
      "grad_norm": 3.1640737056732178,
      "learning_rate": 9.515427068425793e-05,
      "loss": 0.42271575927734373,
      "memory(GiB)": 61.91,
      "step": 16490,
      "token_acc": 0.9047619047619048,
      "train_speed(iter/s)": 1.480539
    },
    {
      "epoch": 0.7066963711923225,
      "grad_norm": 0.6654239892959595,
      "learning_rate": 9.515138010031532e-05,
      "loss": 0.45027952194213866,
      "memory(GiB)": 61.91,
      "step": 16495,
      "token_acc": 0.9311475409836065,
      "train_speed(iter/s)": 1.480552
    },
    {
      "epoch": 0.7069105865215715,
      "grad_norm": 9.167838096618652,
      "learning_rate": 9.51484886984131e-05,
      "loss": 0.653744125366211,
      "memory(GiB)": 61.91,
      "step": 16500,
      "token_acc": 0.8724137931034482,
      "train_speed(iter/s)": 1.480549
    },
    {
      "epoch": 0.7069105865215715,
      "eval_loss": 2.425776720046997,
      "eval_runtime": 12.9344,
      "eval_samples_per_second": 7.731,
      "eval_steps_per_second": 7.731,
      "eval_token_acc": 0.4424778761061947,
      "step": 16500
    },
    {
      "epoch": 0.7071248018508205,
      "grad_norm": 3.6010444164276123,
      "learning_rate": 9.514559647860366e-05,
      "loss": 0.446878719329834,
      "memory(GiB)": 61.91,
      "step": 16505,
      "token_acc": 0.5674217907227616,
      "train_speed(iter/s)": 1.478733
    },
    {
      "epoch": 0.7073390171800694,
      "grad_norm": 5.683206558227539,
      "learning_rate": 9.514270344093939e-05,
      "loss": 0.6978508472442627,
      "memory(GiB)": 61.91,
      "step": 16510,
      "token_acc": 0.8552188552188552,
      "train_speed(iter/s)": 1.478718
    },
    {
      "epoch": 0.7075532325093183,
      "grad_norm": 4.054269313812256,
      "learning_rate": 9.513980958547269e-05,
      "loss": 0.21841344833374024,
      "memory(GiB)": 61.91,
      "step": 16515,
      "token_acc": 0.9345454545454546,
      "train_speed(iter/s)": 1.478686
    },
    {
      "epoch": 0.7077674478385674,
      "grad_norm": 4.232163906097412,
      "learning_rate": 9.5136914912256e-05,
      "loss": 0.3219402313232422,
      "memory(GiB)": 61.91,
      "step": 16520,
      "token_acc": 0.9377162629757786,
      "train_speed(iter/s)": 1.478651
    },
    {
      "epoch": 0.7079816631678163,
      "grad_norm": 3.3038744926452637,
      "learning_rate": 9.513401942134177e-05,
      "loss": 0.3281768798828125,
      "memory(GiB)": 61.91,
      "step": 16525,
      "token_acc": 0.940983606557377,
      "train_speed(iter/s)": 1.478626
    },
    {
      "epoch": 0.7081958784970652,
      "grad_norm": 2.9385945796966553,
      "learning_rate": 9.513112311278243e-05,
      "loss": 0.2951833248138428,
      "memory(GiB)": 61.91,
      "step": 16530,
      "token_acc": 0.9338842975206612,
      "train_speed(iter/s)": 1.478628
    },
    {
      "epoch": 0.7084100938263143,
      "grad_norm": 3.38702654838562,
      "learning_rate": 9.512822598663045e-05,
      "loss": 0.3069169521331787,
      "memory(GiB)": 61.91,
      "step": 16535,
      "token_acc": 0.954225352112676,
      "train_speed(iter/s)": 1.478644
    },
    {
      "epoch": 0.7086243091555632,
      "grad_norm": 2.326622724533081,
      "learning_rate": 9.512532804293832e-05,
      "loss": 0.25887150764465333,
      "memory(GiB)": 61.91,
      "step": 16540,
      "token_acc": 0.9379310344827586,
      "train_speed(iter/s)": 1.478623
    },
    {
      "epoch": 0.7088385244848121,
      "grad_norm": 1.7776824235916138,
      "learning_rate": 9.512242928175857e-05,
      "loss": 0.16993857622146608,
      "memory(GiB)": 61.91,
      "step": 16545,
      "token_acc": 0.96,
      "train_speed(iter/s)": 1.478612
    },
    {
      "epoch": 0.7090527398140611,
      "grad_norm": 3.5754122734069824,
      "learning_rate": 9.511952970314365e-05,
      "loss": 0.42432847023010256,
      "memory(GiB)": 61.91,
      "step": 16550,
      "token_acc": 0.908256880733945,
      "train_speed(iter/s)": 1.478659
    },
    {
      "epoch": 0.7092669551433101,
      "grad_norm": 3.1265692710876465,
      "learning_rate": 9.511662930714614e-05,
      "loss": 0.27005255222320557,
      "memory(GiB)": 61.91,
      "step": 16555,
      "token_acc": 0.9363957597173145,
      "train_speed(iter/s)": 1.478639
    },
    {
      "epoch": 0.709481170472559,
      "grad_norm": 3.778080463409424,
      "learning_rate": 9.511372809381856e-05,
      "loss": 0.1452672600746155,
      "memory(GiB)": 61.91,
      "step": 16560,
      "token_acc": 0.9702602230483272,
      "train_speed(iter/s)": 1.47862
    },
    {
      "epoch": 0.709695385801808,
      "grad_norm": 1.500020146369934,
      "learning_rate": 9.511082606321348e-05,
      "loss": 0.30020599365234374,
      "memory(GiB)": 61.91,
      "step": 16565,
      "token_acc": 0.9287833827893175,
      "train_speed(iter/s)": 1.478592
    },
    {
      "epoch": 0.7099096011310569,
      "grad_norm": 0.5511215329170227,
      "learning_rate": 9.510792321538348e-05,
      "loss": 0.36534240245819094,
      "memory(GiB)": 61.91,
      "step": 16570,
      "token_acc": 0.9161676646706587,
      "train_speed(iter/s)": 1.478603
    },
    {
      "epoch": 0.7101238164603059,
      "grad_norm": 4.993802547454834,
      "learning_rate": 9.510501955038112e-05,
      "loss": 0.23202104568481446,
      "memory(GiB)": 61.91,
      "step": 16575,
      "token_acc": 0.9425675675675675,
      "train_speed(iter/s)": 1.47861
    },
    {
      "epoch": 0.7103380317895549,
      "grad_norm": 3.4167864322662354,
      "learning_rate": 9.510211506825904e-05,
      "loss": 0.4467190742492676,
      "memory(GiB)": 61.91,
      "step": 16580,
      "token_acc": 0.9022556390977443,
      "train_speed(iter/s)": 1.478612
    },
    {
      "epoch": 0.7105522471188038,
      "grad_norm": 1.6731311082839966,
      "learning_rate": 9.509920976906981e-05,
      "loss": 0.3860288143157959,
      "memory(GiB)": 61.91,
      "step": 16585,
      "token_acc": 0.9329268292682927,
      "train_speed(iter/s)": 1.478615
    },
    {
      "epoch": 0.7107664624480527,
      "grad_norm": 2.592042922973633,
      "learning_rate": 9.50963036528661e-05,
      "loss": 0.3284921169281006,
      "memory(GiB)": 61.91,
      "step": 16590,
      "token_acc": 0.9281045751633987,
      "train_speed(iter/s)": 1.478615
    },
    {
      "epoch": 0.7109806777773018,
      "grad_norm": 1.1994259357452393,
      "learning_rate": 9.509339671970054e-05,
      "loss": 0.38009142875671387,
      "memory(GiB)": 61.91,
      "step": 16595,
      "token_acc": 0.9297658862876255,
      "train_speed(iter/s)": 1.478617
    },
    {
      "epoch": 0.7111948931065507,
      "grad_norm": 5.69264554977417,
      "learning_rate": 9.50904889696258e-05,
      "loss": 0.7819517135620118,
      "memory(GiB)": 61.91,
      "step": 16600,
      "token_acc": 0.832089552238806,
      "train_speed(iter/s)": 1.478687
    },
    {
      "epoch": 0.7114091084357996,
      "grad_norm": 8.653632164001465,
      "learning_rate": 9.508758040269457e-05,
      "loss": 0.4432826995849609,
      "memory(GiB)": 61.91,
      "step": 16605,
      "token_acc": 0.9053497942386831,
      "train_speed(iter/s)": 1.478672
    },
    {
      "epoch": 0.7116233237650487,
      "grad_norm": 1.7594597339630127,
      "learning_rate": 9.50846710189595e-05,
      "loss": 0.6085412979125977,
      "memory(GiB)": 61.91,
      "step": 16610,
      "token_acc": 0.8801498127340824,
      "train_speed(iter/s)": 1.478704
    },
    {
      "epoch": 0.7118375390942976,
      "grad_norm": 3.428231716156006,
      "learning_rate": 9.508176081847333e-05,
      "loss": 0.749599552154541,
      "memory(GiB)": 61.91,
      "step": 16615,
      "token_acc": 0.8657718120805369,
      "train_speed(iter/s)": 1.478714
    },
    {
      "epoch": 0.7120517544235465,
      "grad_norm": 1.9439531564712524,
      "learning_rate": 9.507884980128879e-05,
      "loss": 0.6030141353607178,
      "memory(GiB)": 61.91,
      "step": 16620,
      "token_acc": 0.8740740740740741,
      "train_speed(iter/s)": 1.4787
    },
    {
      "epoch": 0.7122659697527955,
      "grad_norm": 5.608951568603516,
      "learning_rate": 9.507593796745858e-05,
      "loss": 0.3460185766220093,
      "memory(GiB)": 61.91,
      "step": 16625,
      "token_acc": 0.9407665505226481,
      "train_speed(iter/s)": 1.478767
    },
    {
      "epoch": 0.7124801850820445,
      "grad_norm": 5.1683669090271,
      "learning_rate": 9.507302531703549e-05,
      "loss": 0.2166452646255493,
      "memory(GiB)": 61.91,
      "step": 16630,
      "token_acc": 0.948,
      "train_speed(iter/s)": 1.478769
    },
    {
      "epoch": 0.7126944004112934,
      "grad_norm": 3.6581408977508545,
      "learning_rate": 9.507011185007224e-05,
      "loss": 0.3365183353424072,
      "memory(GiB)": 61.91,
      "step": 16635,
      "token_acc": 0.9166666666666666,
      "train_speed(iter/s)": 1.478777
    },
    {
      "epoch": 0.7129086157405424,
      "grad_norm": 3.9710147380828857,
      "learning_rate": 9.506719756662163e-05,
      "loss": 0.21444578170776368,
      "memory(GiB)": 61.91,
      "step": 16640,
      "token_acc": 0.9552845528455285,
      "train_speed(iter/s)": 1.478771
    },
    {
      "epoch": 0.7131228310697914,
      "grad_norm": 2.7805449962615967,
      "learning_rate": 9.50642824667365e-05,
      "loss": 0.414628791809082,
      "memory(GiB)": 61.91,
      "step": 16645,
      "token_acc": 0.8993055555555556,
      "train_speed(iter/s)": 1.478781
    },
    {
      "epoch": 0.7133370463990403,
      "grad_norm": 2.2715916633605957,
      "learning_rate": 9.506136655046957e-05,
      "loss": 0.2948322772979736,
      "memory(GiB)": 61.91,
      "step": 16650,
      "token_acc": 0.9335443037974683,
      "train_speed(iter/s)": 1.478764
    },
    {
      "epoch": 0.7135512617282893,
      "grad_norm": 2.723388433456421,
      "learning_rate": 9.505844981787374e-05,
      "loss": 0.4392858028411865,
      "memory(GiB)": 61.91,
      "step": 16655,
      "token_acc": 0.9002849002849003,
      "train_speed(iter/s)": 1.47874
    },
    {
      "epoch": 0.7137654770575382,
      "grad_norm": 4.174272060394287,
      "learning_rate": 9.505553226900181e-05,
      "loss": 0.17654931545257568,
      "memory(GiB)": 61.91,
      "step": 16660,
      "token_acc": 0.9671532846715328,
      "train_speed(iter/s)": 1.47873
    },
    {
      "epoch": 0.7139796923867872,
      "grad_norm": 3.990247964859009,
      "learning_rate": 9.505261390390667e-05,
      "loss": 0.29314160346984863,
      "memory(GiB)": 61.91,
      "step": 16665,
      "token_acc": 0.9523809523809523,
      "train_speed(iter/s)": 1.478731
    },
    {
      "epoch": 0.7141939077160362,
      "grad_norm": 2.4353983402252197,
      "learning_rate": 9.504969472264114e-05,
      "loss": 0.7174554824829101,
      "memory(GiB)": 61.91,
      "step": 16670,
      "token_acc": 0.8859060402684564,
      "train_speed(iter/s)": 1.478708
    },
    {
      "epoch": 0.7144081230452851,
      "grad_norm": 4.9088945388793945,
      "learning_rate": 9.504677472525816e-05,
      "loss": 0.317915153503418,
      "memory(GiB)": 61.91,
      "step": 16675,
      "token_acc": 0.9362416107382551,
      "train_speed(iter/s)": 1.47867
    },
    {
      "epoch": 0.714622338374534,
      "grad_norm": 2.1576263904571533,
      "learning_rate": 9.504385391181058e-05,
      "loss": 0.39096879959106445,
      "memory(GiB)": 61.91,
      "step": 16680,
      "token_acc": 0.924901185770751,
      "train_speed(iter/s)": 1.478648
    },
    {
      "epoch": 0.7148365537037831,
      "grad_norm": 2.4548680782318115,
      "learning_rate": 9.504093228235132e-05,
      "loss": 0.28214068412780763,
      "memory(GiB)": 61.91,
      "step": 16685,
      "token_acc": 0.9365558912386707,
      "train_speed(iter/s)": 1.478654
    },
    {
      "epoch": 0.715050769033032,
      "grad_norm": 2.538191556930542,
      "learning_rate": 9.503800983693334e-05,
      "loss": 0.30012688636779783,
      "memory(GiB)": 61.91,
      "step": 16690,
      "token_acc": 0.9496402877697842,
      "train_speed(iter/s)": 1.478646
    },
    {
      "epoch": 0.7152649843622809,
      "grad_norm": 2.425138473510742,
      "learning_rate": 9.503508657560956e-05,
      "loss": 0.37040019035339355,
      "memory(GiB)": 61.91,
      "step": 16695,
      "token_acc": 0.9272151898734177,
      "train_speed(iter/s)": 1.478683
    },
    {
      "epoch": 0.71547919969153,
      "grad_norm": 3.737959623336792,
      "learning_rate": 9.503216249843294e-05,
      "loss": 0.4499513626098633,
      "memory(GiB)": 61.91,
      "step": 16700,
      "token_acc": 0.9208211143695014,
      "train_speed(iter/s)": 1.478671
    },
    {
      "epoch": 0.7156934150207789,
      "grad_norm": 4.051141262054443,
      "learning_rate": 9.502923760545644e-05,
      "loss": 0.4181673049926758,
      "memory(GiB)": 61.91,
      "step": 16705,
      "token_acc": 0.9132075471698113,
      "train_speed(iter/s)": 1.478664
    },
    {
      "epoch": 0.7159076303500278,
      "grad_norm": 4.779979228973389,
      "learning_rate": 9.502631189673307e-05,
      "loss": 0.5061701774597168,
      "memory(GiB)": 61.91,
      "step": 16710,
      "token_acc": 0.8884758364312267,
      "train_speed(iter/s)": 1.478694
    },
    {
      "epoch": 0.7161218456792768,
      "grad_norm": 2.3193085193634033,
      "learning_rate": 9.502338537231583e-05,
      "loss": 0.4542228698730469,
      "memory(GiB)": 61.91,
      "step": 16715,
      "token_acc": 0.9061488673139159,
      "train_speed(iter/s)": 1.47872
    },
    {
      "epoch": 0.7163360610085258,
      "grad_norm": 3.8117752075195312,
      "learning_rate": 9.502045803225772e-05,
      "loss": 0.4845607280731201,
      "memory(GiB)": 61.91,
      "step": 16720,
      "token_acc": 0.8855218855218855,
      "train_speed(iter/s)": 1.478763
    },
    {
      "epoch": 0.7165502763377747,
      "grad_norm": 0.16169549524784088,
      "learning_rate": 9.501752987661177e-05,
      "loss": 0.16406153440475463,
      "memory(GiB)": 61.91,
      "step": 16725,
      "token_acc": 0.9571865443425076,
      "train_speed(iter/s)": 1.478768
    },
    {
      "epoch": 0.7167644916670237,
      "grad_norm": 2.302211284637451,
      "learning_rate": 9.501460090543105e-05,
      "loss": 0.25293536186218263,
      "memory(GiB)": 61.91,
      "step": 16730,
      "token_acc": 0.9543973941368078,
      "train_speed(iter/s)": 1.478779
    },
    {
      "epoch": 0.7169787069962726,
      "grad_norm": 4.780746936798096,
      "learning_rate": 9.50116711187686e-05,
      "loss": 0.5391230583190918,
      "memory(GiB)": 61.91,
      "step": 16735,
      "token_acc": 0.9,
      "train_speed(iter/s)": 1.478808
    },
    {
      "epoch": 0.7171929223255216,
      "grad_norm": 5.386836528778076,
      "learning_rate": 9.500874051667751e-05,
      "loss": 0.3859040021896362,
      "memory(GiB)": 61.91,
      "step": 16740,
      "token_acc": 0.9193548387096774,
      "train_speed(iter/s)": 1.478851
    },
    {
      "epoch": 0.7174071376547706,
      "grad_norm": 2.6586215496063232,
      "learning_rate": 9.500580909921086e-05,
      "loss": 0.36942481994628906,
      "memory(GiB)": 61.91,
      "step": 16745,
      "token_acc": 0.9064748201438849,
      "train_speed(iter/s)": 1.478904
    },
    {
      "epoch": 0.7176213529840195,
      "grad_norm": 5.946472644805908,
      "learning_rate": 9.500287686642177e-05,
      "loss": 0.6627528190612793,
      "memory(GiB)": 61.91,
      "step": 16750,
      "token_acc": 0.8607594936708861,
      "train_speed(iter/s)": 1.478867
    },
    {
      "epoch": 0.7178355683132684,
      "grad_norm": 3.149681568145752,
      "learning_rate": 9.499994381836334e-05,
      "loss": 0.46861581802368163,
      "memory(GiB)": 61.91,
      "step": 16755,
      "token_acc": 0.8996865203761756,
      "train_speed(iter/s)": 1.478878
    },
    {
      "epoch": 0.7180497836425175,
      "grad_norm": 2.037706136703491,
      "learning_rate": 9.499700995508871e-05,
      "loss": 0.2680126428604126,
      "memory(GiB)": 61.91,
      "step": 16760,
      "token_acc": 0.9362416107382551,
      "train_speed(iter/s)": 1.478882
    },
    {
      "epoch": 0.7182639989717664,
      "grad_norm": 0.904888391494751,
      "learning_rate": 9.499407527665103e-05,
      "loss": 0.3646254301071167,
      "memory(GiB)": 61.91,
      "step": 16765,
      "token_acc": 0.9292035398230089,
      "train_speed(iter/s)": 1.478893
    },
    {
      "epoch": 0.7184782143010153,
      "grad_norm": 3.8573648929595947,
      "learning_rate": 9.499113978310348e-05,
      "loss": 0.3028018712997437,
      "memory(GiB)": 61.91,
      "step": 16770,
      "token_acc": 0.9333333333333333,
      "train_speed(iter/s)": 1.478898
    },
    {
      "epoch": 0.7186924296302644,
      "grad_norm": 3.1975979804992676,
      "learning_rate": 9.498820347449923e-05,
      "loss": 0.42732553482055663,
      "memory(GiB)": 61.91,
      "step": 16775,
      "token_acc": 0.9015151515151515,
      "train_speed(iter/s)": 1.478893
    },
    {
      "epoch": 0.7189066449595133,
      "grad_norm": 3.8299107551574707,
      "learning_rate": 9.498526635089147e-05,
      "loss": 0.36214327812194824,
      "memory(GiB)": 61.91,
      "step": 16780,
      "token_acc": 0.9395017793594306,
      "train_speed(iter/s)": 1.47887
    },
    {
      "epoch": 0.7191208602887622,
      "grad_norm": 3.5709424018859863,
      "learning_rate": 9.498232841233341e-05,
      "loss": 0.5615796089172364,
      "memory(GiB)": 61.91,
      "step": 16785,
      "token_acc": 0.8941176470588236,
      "train_speed(iter/s)": 1.478874
    },
    {
      "epoch": 0.7193350756180112,
      "grad_norm": 3.4626235961914062,
      "learning_rate": 9.497938965887827e-05,
      "loss": 0.34398274421691893,
      "memory(GiB)": 61.91,
      "step": 16790,
      "token_acc": 0.9115384615384615,
      "train_speed(iter/s)": 1.478861
    },
    {
      "epoch": 0.7195492909472602,
      "grad_norm": 2.0272302627563477,
      "learning_rate": 9.497645009057929e-05,
      "loss": 0.35986919403076173,
      "memory(GiB)": 61.91,
      "step": 16795,
      "token_acc": 0.9259259259259259,
      "train_speed(iter/s)": 1.478874
    },
    {
      "epoch": 0.7197635062765092,
      "grad_norm": 7.792052268981934,
      "learning_rate": 9.497350970748973e-05,
      "loss": 0.30637288093566895,
      "memory(GiB)": 61.91,
      "step": 16800,
      "token_acc": 0.9333333333333333,
      "train_speed(iter/s)": 1.478892
    },
    {
      "epoch": 0.7199777216057581,
      "grad_norm": 3.2225024700164795,
      "learning_rate": 9.497056850966286e-05,
      "loss": 0.2817051887512207,
      "memory(GiB)": 61.91,
      "step": 16805,
      "token_acc": 0.9392712550607287,
      "train_speed(iter/s)": 1.47891
    },
    {
      "epoch": 0.720191936935007,
      "grad_norm": 3.4371817111968994,
      "learning_rate": 9.496762649715194e-05,
      "loss": 0.8064935684204102,
      "memory(GiB)": 61.91,
      "step": 16810,
      "token_acc": 0.8372093023255814,
      "train_speed(iter/s)": 1.478961
    },
    {
      "epoch": 0.7204061522642561,
      "grad_norm": 3.0468761920928955,
      "learning_rate": 9.496468367001027e-05,
      "loss": 0.6901190280914307,
      "memory(GiB)": 61.91,
      "step": 16815,
      "token_acc": 0.8844765342960289,
      "train_speed(iter/s)": 1.478975
    },
    {
      "epoch": 0.720620367593505,
      "grad_norm": 0.46146515011787415,
      "learning_rate": 9.496174002829121e-05,
      "loss": 0.47258877754211426,
      "memory(GiB)": 61.91,
      "step": 16820,
      "token_acc": 0.9049295774647887,
      "train_speed(iter/s)": 1.478937
    },
    {
      "epoch": 0.7208345829227539,
      "grad_norm": 3.2101874351501465,
      "learning_rate": 9.495879557204803e-05,
      "loss": 0.42347307205200196,
      "memory(GiB)": 61.91,
      "step": 16825,
      "token_acc": 0.901060070671378,
      "train_speed(iter/s)": 1.478926
    },
    {
      "epoch": 0.721048798252003,
      "grad_norm": 1.7745095491409302,
      "learning_rate": 9.49558503013341e-05,
      "loss": 0.3780593156814575,
      "memory(GiB)": 61.91,
      "step": 16830,
      "token_acc": 0.9260700389105059,
      "train_speed(iter/s)": 1.478943
    },
    {
      "epoch": 0.7212630135812519,
      "grad_norm": 2.729671001434326,
      "learning_rate": 9.495290421620278e-05,
      "loss": 0.47467756271362305,
      "memory(GiB)": 61.91,
      "step": 16835,
      "token_acc": 0.8837209302325582,
      "train_speed(iter/s)": 1.478995
    },
    {
      "epoch": 0.7214772289105008,
      "grad_norm": 2.454490900039673,
      "learning_rate": 9.494995731670742e-05,
      "loss": 0.39114794731140134,
      "memory(GiB)": 61.91,
      "step": 16840,
      "token_acc": 0.9107142857142857,
      "train_speed(iter/s)": 1.478976
    },
    {
      "epoch": 0.7216914442397498,
      "grad_norm": 2.73335862159729,
      "learning_rate": 9.494700960290141e-05,
      "loss": 0.26662445068359375,
      "memory(GiB)": 61.91,
      "step": 16845,
      "token_acc": 0.9341085271317829,
      "train_speed(iter/s)": 1.478957
    },
    {
      "epoch": 0.7219056595689988,
      "grad_norm": 2.4433934688568115,
      "learning_rate": 9.494406107483817e-05,
      "loss": 0.2215137481689453,
      "memory(GiB)": 61.91,
      "step": 16850,
      "token_acc": 0.9515418502202643,
      "train_speed(iter/s)": 1.478965
    },
    {
      "epoch": 0.7221198748982477,
      "grad_norm": 1.8655914068222046,
      "learning_rate": 9.49411117325711e-05,
      "loss": 0.21569766998291015,
      "memory(GiB)": 61.91,
      "step": 16855,
      "token_acc": 0.9423076923076923,
      "train_speed(iter/s)": 1.478973
    },
    {
      "epoch": 0.7223340902274967,
      "grad_norm": 2.6329591274261475,
      "learning_rate": 9.493816157615363e-05,
      "loss": 0.4536569118499756,
      "memory(GiB)": 61.91,
      "step": 16860,
      "token_acc": 0.9193548387096774,
      "train_speed(iter/s)": 1.47897
    },
    {
      "epoch": 0.7225483055567457,
      "grad_norm": 5.293385982513428,
      "learning_rate": 9.493521060563921e-05,
      "loss": 0.42713289260864257,
      "memory(GiB)": 61.91,
      "step": 16865,
      "token_acc": 0.9153846153846154,
      "train_speed(iter/s)": 1.478972
    },
    {
      "epoch": 0.7227625208859946,
      "grad_norm": 0.4555695056915283,
      "learning_rate": 9.49322588210813e-05,
      "loss": 0.2052109956741333,
      "memory(GiB)": 61.91,
      "step": 16870,
      "token_acc": 0.9609120521172638,
      "train_speed(iter/s)": 1.478968
    },
    {
      "epoch": 0.7229767362152436,
      "grad_norm": 0.8822590112686157,
      "learning_rate": 9.492930622253336e-05,
      "loss": 0.25387885570526125,
      "memory(GiB)": 61.91,
      "step": 16875,
      "token_acc": 0.937984496124031,
      "train_speed(iter/s)": 1.478981
    },
    {
      "epoch": 0.7231909515444925,
      "grad_norm": 9.263008117675781,
      "learning_rate": 9.49263528100489e-05,
      "loss": 0.4524045467376709,
      "memory(GiB)": 61.91,
      "step": 16880,
      "token_acc": 0.925531914893617,
      "train_speed(iter/s)": 1.478965
    },
    {
      "epoch": 0.7234051668737415,
      "grad_norm": 11.093587875366211,
      "learning_rate": 9.492339858368141e-05,
      "loss": 0.42981886863708496,
      "memory(GiB)": 61.91,
      "step": 16885,
      "token_acc": 0.9015748031496063,
      "train_speed(iter/s)": 1.479
    },
    {
      "epoch": 0.7236193822029905,
      "grad_norm": 2.848594903945923,
      "learning_rate": 9.492044354348442e-05,
      "loss": 0.44877915382385253,
      "memory(GiB)": 61.91,
      "step": 16890,
      "token_acc": 0.903448275862069,
      "train_speed(iter/s)": 1.479015
    },
    {
      "epoch": 0.7238335975322394,
      "grad_norm": 1.795229434967041,
      "learning_rate": 9.491748768951145e-05,
      "loss": 0.30874109268188477,
      "memory(GiB)": 61.91,
      "step": 16895,
      "token_acc": 0.9213483146067416,
      "train_speed(iter/s)": 1.479037
    },
    {
      "epoch": 0.7240478128614883,
      "grad_norm": 7.745279788970947,
      "learning_rate": 9.491453102181606e-05,
      "loss": 0.2635792255401611,
      "memory(GiB)": 61.91,
      "step": 16900,
      "token_acc": 0.9482758620689655,
      "train_speed(iter/s)": 1.479049
    },
    {
      "epoch": 0.7242620281907374,
      "grad_norm": 0.2829608619213104,
      "learning_rate": 9.49115735404518e-05,
      "loss": 0.33588447570800783,
      "memory(GiB)": 61.91,
      "step": 16905,
      "token_acc": 0.9411764705882353,
      "train_speed(iter/s)": 1.47904
    },
    {
      "epoch": 0.7244762435199863,
      "grad_norm": 1.8242017030715942,
      "learning_rate": 9.490861524547225e-05,
      "loss": 0.32953524589538574,
      "memory(GiB)": 61.91,
      "step": 16910,
      "token_acc": 0.9156626506024096,
      "train_speed(iter/s)": 1.479025
    },
    {
      "epoch": 0.7246904588492352,
      "grad_norm": 3.5310580730438232,
      "learning_rate": 9.490565613693102e-05,
      "loss": 0.6338255882263184,
      "memory(GiB)": 61.91,
      "step": 16915,
      "token_acc": 0.8633093525179856,
      "train_speed(iter/s)": 1.479043
    },
    {
      "epoch": 0.7249046741784843,
      "grad_norm": 2.4312288761138916,
      "learning_rate": 9.49026962148817e-05,
      "loss": 0.35823655128479004,
      "memory(GiB)": 61.91,
      "step": 16920,
      "token_acc": 0.9297124600638977,
      "train_speed(iter/s)": 1.479036
    },
    {
      "epoch": 0.7251188895077332,
      "grad_norm": 2.9038209915161133,
      "learning_rate": 9.489973547937792e-05,
      "loss": 0.2355365753173828,
      "memory(GiB)": 61.91,
      "step": 16925,
      "token_acc": 0.927007299270073,
      "train_speed(iter/s)": 1.479038
    },
    {
      "epoch": 0.7253331048369821,
      "grad_norm": 0.14195992052555084,
      "learning_rate": 9.48967739304733e-05,
      "loss": 0.21048190593719482,
      "memory(GiB)": 61.91,
      "step": 16930,
      "token_acc": 0.9701492537313433,
      "train_speed(iter/s)": 1.479053
    },
    {
      "epoch": 0.7255473201662311,
      "grad_norm": 1.6530735492706299,
      "learning_rate": 9.489381156822152e-05,
      "loss": 0.347200345993042,
      "memory(GiB)": 61.91,
      "step": 16935,
      "token_acc": 0.9404761904761905,
      "train_speed(iter/s)": 1.479076
    },
    {
      "epoch": 0.7257615354954801,
      "grad_norm": 2.095832109451294,
      "learning_rate": 9.489084839267621e-05,
      "loss": 0.3959364414215088,
      "memory(GiB)": 61.91,
      "step": 16940,
      "token_acc": 0.927710843373494,
      "train_speed(iter/s)": 1.479154
    },
    {
      "epoch": 0.725975750824729,
      "grad_norm": 5.884769916534424,
      "learning_rate": 9.488788440389109e-05,
      "loss": 0.38692560195922854,
      "memory(GiB)": 61.91,
      "step": 16945,
      "token_acc": 0.9260450160771704,
      "train_speed(iter/s)": 1.479135
    },
    {
      "epoch": 0.726189966153978,
      "grad_norm": 3.9021294116973877,
      "learning_rate": 9.488491960191984e-05,
      "loss": 0.629886245727539,
      "memory(GiB)": 61.91,
      "step": 16950,
      "token_acc": 0.8539682539682539,
      "train_speed(iter/s)": 1.479129
    },
    {
      "epoch": 0.7264041814832269,
      "grad_norm": 4.22376823425293,
      "learning_rate": 9.488195398681614e-05,
      "loss": 0.17271900177001953,
      "memory(GiB)": 61.91,
      "step": 16955,
      "token_acc": 0.9619377162629758,
      "train_speed(iter/s)": 1.479144
    },
    {
      "epoch": 0.7266183968124759,
      "grad_norm": 1.718185305595398,
      "learning_rate": 9.487898755863376e-05,
      "loss": 0.2986595153808594,
      "memory(GiB)": 61.91,
      "step": 16960,
      "token_acc": 0.9,
      "train_speed(iter/s)": 1.479119
    },
    {
      "epoch": 0.7268326121417249,
      "grad_norm": 3.350248098373413,
      "learning_rate": 9.487602031742642e-05,
      "loss": 0.4539472579956055,
      "memory(GiB)": 61.91,
      "step": 16965,
      "token_acc": 0.8896321070234113,
      "train_speed(iter/s)": 1.479133
    },
    {
      "epoch": 0.7270468274709738,
      "grad_norm": 3.041759490966797,
      "learning_rate": 9.487305226324786e-05,
      "loss": 0.3453991889953613,
      "memory(GiB)": 61.91,
      "step": 16970,
      "token_acc": 0.9272727272727272,
      "train_speed(iter/s)": 1.479122
    },
    {
      "epoch": 0.7272610428002227,
      "grad_norm": 5.081351280212402,
      "learning_rate": 9.487008339615187e-05,
      "loss": 0.3193485736846924,
      "memory(GiB)": 61.91,
      "step": 16975,
      "token_acc": 0.9264705882352942,
      "train_speed(iter/s)": 1.479114
    },
    {
      "epoch": 0.7274752581294718,
      "grad_norm": 1.6957095861434937,
      "learning_rate": 9.486711371619224e-05,
      "loss": 0.3843179702758789,
      "memory(GiB)": 61.91,
      "step": 16980,
      "token_acc": 0.9261538461538461,
      "train_speed(iter/s)": 1.479143
    },
    {
      "epoch": 0.7276894734587207,
      "grad_norm": 4.409252166748047,
      "learning_rate": 9.486414322342274e-05,
      "loss": 0.6688547134399414,
      "memory(GiB)": 61.91,
      "step": 16985,
      "token_acc": 0.8718861209964412,
      "train_speed(iter/s)": 1.479172
    },
    {
      "epoch": 0.7279036887879696,
      "grad_norm": 3.892345428466797,
      "learning_rate": 9.486117191789721e-05,
      "loss": 0.27278711795806887,
      "memory(GiB)": 61.91,
      "step": 16990,
      "token_acc": 0.9428571428571428,
      "train_speed(iter/s)": 1.47923
    },
    {
      "epoch": 0.7281179041172187,
      "grad_norm": 0.8310908079147339,
      "learning_rate": 9.485819979966946e-05,
      "loss": 0.3929093599319458,
      "memory(GiB)": 61.91,
      "step": 16995,
      "token_acc": 0.9236363636363636,
      "train_speed(iter/s)": 1.479224
    },
    {
      "epoch": 0.7283321194464676,
      "grad_norm": 11.09154987335205,
      "learning_rate": 9.485522686879336e-05,
      "loss": 0.47129507064819337,
      "memory(GiB)": 61.91,
      "step": 17000,
      "token_acc": 0.8885350318471338,
      "train_speed(iter/s)": 1.479269
    },
    {
      "epoch": 0.7283321194464676,
      "eval_loss": 2.3239338397979736,
      "eval_runtime": 13.1954,
      "eval_samples_per_second": 7.578,
      "eval_steps_per_second": 7.578,
      "eval_token_acc": 0.44224924012158057,
      "step": 17000
    },
    {
      "epoch": 0.7285463347757165,
      "grad_norm": 2.3646836280822754,
      "learning_rate": 9.485225312532274e-05,
      "loss": 0.5024572372436523,
      "memory(GiB)": 61.91,
      "step": 17005,
      "token_acc": 0.5814931650893796,
      "train_speed(iter/s)": 1.477465
    },
    {
      "epoch": 0.7287605501049655,
      "grad_norm": 1.2927544116973877,
      "learning_rate": 9.484927856931146e-05,
      "loss": 0.45227856636047364,
      "memory(GiB)": 61.91,
      "step": 17010,
      "token_acc": 0.9,
      "train_speed(iter/s)": 1.477473
    },
    {
      "epoch": 0.7289747654342145,
      "grad_norm": 1.175212025642395,
      "learning_rate": 9.484630320081343e-05,
      "loss": 0.33919315338134765,
      "memory(GiB)": 61.91,
      "step": 17015,
      "token_acc": 0.9388489208633094,
      "train_speed(iter/s)": 1.477481
    },
    {
      "epoch": 0.7291889807634634,
      "grad_norm": 3.0363781452178955,
      "learning_rate": 9.484332701988257e-05,
      "loss": 0.1452466607093811,
      "memory(GiB)": 61.91,
      "step": 17020,
      "token_acc": 0.9737827715355806,
      "train_speed(iter/s)": 1.477534
    },
    {
      "epoch": 0.7294031960927124,
      "grad_norm": 4.164963722229004,
      "learning_rate": 9.484035002657276e-05,
      "loss": 0.377247953414917,
      "memory(GiB)": 61.91,
      "step": 17025,
      "token_acc": 0.9265734265734266,
      "train_speed(iter/s)": 1.477526
    },
    {
      "epoch": 0.7296174114219613,
      "grad_norm": 4.539981842041016,
      "learning_rate": 9.483737222093794e-05,
      "loss": 0.5046974658966065,
      "memory(GiB)": 61.91,
      "step": 17030,
      "token_acc": 0.9022556390977443,
      "train_speed(iter/s)": 1.477546
    },
    {
      "epoch": 0.7298316267512103,
      "grad_norm": 3.188782215118408,
      "learning_rate": 9.483439360303208e-05,
      "loss": 0.36030192375183107,
      "memory(GiB)": 61.91,
      "step": 17035,
      "token_acc": 0.9279279279279279,
      "train_speed(iter/s)": 1.477558
    },
    {
      "epoch": 0.7300458420804593,
      "grad_norm": 7.767899513244629,
      "learning_rate": 9.48314141729091e-05,
      "loss": 0.41483268737792967,
      "memory(GiB)": 61.91,
      "step": 17040,
      "token_acc": 0.9015151515151515,
      "train_speed(iter/s)": 1.477547
    },
    {
      "epoch": 0.7302600574097082,
      "grad_norm": 8.000993728637695,
      "learning_rate": 9.482843393062302e-05,
      "loss": 0.4156181335449219,
      "memory(GiB)": 61.91,
      "step": 17045,
      "token_acc": 0.9111111111111111,
      "train_speed(iter/s)": 1.47754
    },
    {
      "epoch": 0.7304742727389572,
      "grad_norm": 1.8839514255523682,
      "learning_rate": 9.482545287622779e-05,
      "loss": 0.3313511610031128,
      "memory(GiB)": 61.91,
      "step": 17050,
      "token_acc": 0.9552238805970149,
      "train_speed(iter/s)": 1.477578
    },
    {
      "epoch": 0.7306884880682062,
      "grad_norm": 0.5159255862236023,
      "learning_rate": 9.482247100977744e-05,
      "loss": 0.47060284614562986,
      "memory(GiB)": 61.91,
      "step": 17055,
      "token_acc": 0.9041095890410958,
      "train_speed(iter/s)": 1.477569
    },
    {
      "epoch": 0.7309027033974551,
      "grad_norm": 5.750687122344971,
      "learning_rate": 9.481948833132597e-05,
      "loss": 0.6924715995788574,
      "memory(GiB)": 61.91,
      "step": 17060,
      "token_acc": 0.8651685393258427,
      "train_speed(iter/s)": 1.477565
    },
    {
      "epoch": 0.731116918726704,
      "grad_norm": 6.304527759552002,
      "learning_rate": 9.481650484092744e-05,
      "loss": 0.45029525756835936,
      "memory(GiB)": 61.91,
      "step": 17065,
      "token_acc": 0.900709219858156,
      "train_speed(iter/s)": 1.477574
    },
    {
      "epoch": 0.7313311340559531,
      "grad_norm": 1.9238650798797607,
      "learning_rate": 9.481352053863585e-05,
      "loss": 0.5572210788726807,
      "memory(GiB)": 61.91,
      "step": 17070,
      "token_acc": 0.9109311740890689,
      "train_speed(iter/s)": 1.477601
    },
    {
      "epoch": 0.731545349385202,
      "grad_norm": 3.1551709175109863,
      "learning_rate": 9.481053542450533e-05,
      "loss": 0.30603413581848143,
      "memory(GiB)": 61.91,
      "step": 17075,
      "token_acc": 0.932475884244373,
      "train_speed(iter/s)": 1.477648
    },
    {
      "epoch": 0.7317595647144509,
      "grad_norm": 3.1677050590515137,
      "learning_rate": 9.480754949858992e-05,
      "loss": 0.3045662879943848,
      "memory(GiB)": 61.91,
      "step": 17080,
      "token_acc": 0.9402985074626866,
      "train_speed(iter/s)": 1.477653
    },
    {
      "epoch": 0.7319737800437,
      "grad_norm": 0.8074802756309509,
      "learning_rate": 9.480456276094372e-05,
      "loss": 0.40825982093811036,
      "memory(GiB)": 61.91,
      "step": 17085,
      "token_acc": 0.9127272727272727,
      "train_speed(iter/s)": 1.477654
    },
    {
      "epoch": 0.7321879953729489,
      "grad_norm": 2.906280517578125,
      "learning_rate": 9.480157521162084e-05,
      "loss": 0.4046309471130371,
      "memory(GiB)": 61.91,
      "step": 17090,
      "token_acc": 0.9254237288135593,
      "train_speed(iter/s)": 1.477643
    },
    {
      "epoch": 0.7324022107021978,
      "grad_norm": 0.04284346103668213,
      "learning_rate": 9.479858685067538e-05,
      "loss": 0.3298440456390381,
      "memory(GiB)": 61.91,
      "step": 17095,
      "token_acc": 0.9117647058823529,
      "train_speed(iter/s)": 1.477654
    },
    {
      "epoch": 0.7326164260314468,
      "grad_norm": 4.901258945465088,
      "learning_rate": 9.479559767816151e-05,
      "loss": 0.49830193519592286,
      "memory(GiB)": 61.91,
      "step": 17100,
      "token_acc": 0.8892857142857142,
      "train_speed(iter/s)": 1.477638
    },
    {
      "epoch": 0.7328306413606958,
      "grad_norm": 1.7963131666183472,
      "learning_rate": 9.479260769413335e-05,
      "loss": 0.13559969663619995,
      "memory(GiB)": 61.91,
      "step": 17105,
      "token_acc": 0.9712230215827338,
      "train_speed(iter/s)": 1.477681
    },
    {
      "epoch": 0.7330448566899447,
      "grad_norm": 2.9472110271453857,
      "learning_rate": 9.47896168986451e-05,
      "loss": 0.24849390983581543,
      "memory(GiB)": 61.91,
      "step": 17110,
      "token_acc": 0.9527027027027027,
      "train_speed(iter/s)": 1.477656
    },
    {
      "epoch": 0.7332590720191937,
      "grad_norm": 4.483307361602783,
      "learning_rate": 9.478662529175091e-05,
      "loss": 0.29392037391662595,
      "memory(GiB)": 61.91,
      "step": 17115,
      "token_acc": 0.9297124600638977,
      "train_speed(iter/s)": 1.477657
    },
    {
      "epoch": 0.7334732873484426,
      "grad_norm": 0.30746111273765564,
      "learning_rate": 9.4783632873505e-05,
      "loss": 0.4034391403198242,
      "memory(GiB)": 61.91,
      "step": 17120,
      "token_acc": 0.9172932330827067,
      "train_speed(iter/s)": 1.477677
    },
    {
      "epoch": 0.7336875026776916,
      "grad_norm": 4.617684841156006,
      "learning_rate": 9.478063964396156e-05,
      "loss": 0.5957664489746094,
      "memory(GiB)": 61.91,
      "step": 17125,
      "token_acc": 0.8836477987421384,
      "train_speed(iter/s)": 1.4777
    },
    {
      "epoch": 0.7339017180069406,
      "grad_norm": 2.0648787021636963,
      "learning_rate": 9.477764560317483e-05,
      "loss": 0.31573073863983153,
      "memory(GiB)": 61.91,
      "step": 17130,
      "token_acc": 0.9378698224852071,
      "train_speed(iter/s)": 1.4777
    },
    {
      "epoch": 0.7341159333361895,
      "grad_norm": 6.537891387939453,
      "learning_rate": 9.477465075119905e-05,
      "loss": 0.21034841537475585,
      "memory(GiB)": 61.91,
      "step": 17135,
      "token_acc": 0.9613899613899614,
      "train_speed(iter/s)": 1.477713
    },
    {
      "epoch": 0.7343301486654386,
      "grad_norm": 1.7473180294036865,
      "learning_rate": 9.477165508808847e-05,
      "loss": 0.34116837978363035,
      "memory(GiB)": 61.91,
      "step": 17140,
      "token_acc": 0.93125,
      "train_speed(iter/s)": 1.477703
    },
    {
      "epoch": 0.7345443639946875,
      "grad_norm": 2.908355951309204,
      "learning_rate": 9.476865861389735e-05,
      "loss": 0.5733506202697753,
      "memory(GiB)": 61.91,
      "step": 17145,
      "token_acc": 0.8905109489051095,
      "train_speed(iter/s)": 1.477678
    },
    {
      "epoch": 0.7347585793239364,
      "grad_norm": 4.829767227172852,
      "learning_rate": 9.476566132867999e-05,
      "loss": 0.5183637619018555,
      "memory(GiB)": 61.91,
      "step": 17150,
      "token_acc": 0.8870292887029289,
      "train_speed(iter/s)": 1.477682
    },
    {
      "epoch": 0.7349727946531854,
      "grad_norm": 2.7687861919403076,
      "learning_rate": 9.476266323249068e-05,
      "loss": 0.2762128829956055,
      "memory(GiB)": 61.91,
      "step": 17155,
      "token_acc": 0.9433333333333334,
      "train_speed(iter/s)": 1.477667
    },
    {
      "epoch": 0.7351870099824344,
      "grad_norm": 2.258364200592041,
      "learning_rate": 9.475966432538372e-05,
      "loss": 0.3654314517974854,
      "memory(GiB)": 61.91,
      "step": 17160,
      "token_acc": 0.9314079422382672,
      "train_speed(iter/s)": 1.477643
    },
    {
      "epoch": 0.7354012253116833,
      "grad_norm": 2.8369171619415283,
      "learning_rate": 9.475666460741348e-05,
      "loss": 0.30525870323181153,
      "memory(GiB)": 61.91,
      "step": 17165,
      "token_acc": 0.9392712550607287,
      "train_speed(iter/s)": 1.477625
    },
    {
      "epoch": 0.7356154406409323,
      "grad_norm": 2.965449333190918,
      "learning_rate": 9.475366407863427e-05,
      "loss": 0.2810215473175049,
      "memory(GiB)": 61.91,
      "step": 17170,
      "token_acc": 0.9411764705882353,
      "train_speed(iter/s)": 1.477645
    },
    {
      "epoch": 0.7358296559701812,
      "grad_norm": 3.6696553230285645,
      "learning_rate": 9.475066273910043e-05,
      "loss": 0.29972167015075685,
      "memory(GiB)": 61.91,
      "step": 17175,
      "token_acc": 0.9248366013071896,
      "train_speed(iter/s)": 1.47764
    },
    {
      "epoch": 0.7360438712994302,
      "grad_norm": 5.074547290802002,
      "learning_rate": 9.474766058886637e-05,
      "loss": 0.42393884658813474,
      "memory(GiB)": 61.91,
      "step": 17180,
      "token_acc": 0.9149659863945578,
      "train_speed(iter/s)": 1.477629
    },
    {
      "epoch": 0.7362580866286792,
      "grad_norm": 2.2468879222869873,
      "learning_rate": 9.474465762798646e-05,
      "loss": 0.2680697441101074,
      "memory(GiB)": 61.91,
      "step": 17185,
      "token_acc": 0.9457364341085271,
      "train_speed(iter/s)": 1.47764
    },
    {
      "epoch": 0.7364723019579281,
      "grad_norm": 2.8894429206848145,
      "learning_rate": 9.474165385651511e-05,
      "loss": 0.5299309730529785,
      "memory(GiB)": 61.91,
      "step": 17190,
      "token_acc": 0.892128279883382,
      "train_speed(iter/s)": 1.47764
    },
    {
      "epoch": 0.736686517287177,
      "grad_norm": 4.193004131317139,
      "learning_rate": 9.473864927450673e-05,
      "loss": 0.5200443267822266,
      "memory(GiB)": 61.91,
      "step": 17195,
      "token_acc": 0.8835341365461847,
      "train_speed(iter/s)": 1.477641
    },
    {
      "epoch": 0.7369007326164261,
      "grad_norm": 2.5429577827453613,
      "learning_rate": 9.473564388201575e-05,
      "loss": 0.4157592296600342,
      "memory(GiB)": 61.91,
      "step": 17200,
      "token_acc": 0.9074074074074074,
      "train_speed(iter/s)": 1.477696
    },
    {
      "epoch": 0.737114947945675,
      "grad_norm": 3.172999858856201,
      "learning_rate": 9.473263767909659e-05,
      "loss": 0.2731677770614624,
      "memory(GiB)": 61.91,
      "step": 17205,
      "token_acc": 0.9369085173501577,
      "train_speed(iter/s)": 1.477738
    },
    {
      "epoch": 0.7373291632749239,
      "grad_norm": 6.126654148101807,
      "learning_rate": 9.472963066580375e-05,
      "loss": 0.3269988536834717,
      "memory(GiB)": 61.91,
      "step": 17210,
      "token_acc": 0.9283018867924528,
      "train_speed(iter/s)": 1.477741
    },
    {
      "epoch": 0.737543378604173,
      "grad_norm": 2.791569471359253,
      "learning_rate": 9.472662284219171e-05,
      "loss": 0.2903048276901245,
      "memory(GiB)": 61.91,
      "step": 17215,
      "token_acc": 0.9409722222222222,
      "train_speed(iter/s)": 1.477745
    },
    {
      "epoch": 0.7377575939334219,
      "grad_norm": 1.3037389516830444,
      "learning_rate": 9.472361420831493e-05,
      "loss": 0.2257984161376953,
      "memory(GiB)": 61.91,
      "step": 17220,
      "token_acc": 0.9563758389261745,
      "train_speed(iter/s)": 1.477745
    },
    {
      "epoch": 0.7379718092626708,
      "grad_norm": 0.4125943183898926,
      "learning_rate": 9.472060476422791e-05,
      "loss": 0.19991921186447142,
      "memory(GiB)": 61.91,
      "step": 17225,
      "token_acc": 0.9644012944983819,
      "train_speed(iter/s)": 1.477748
    },
    {
      "epoch": 0.7381860245919198,
      "grad_norm": 0.6402518153190613,
      "learning_rate": 9.471759450998521e-05,
      "loss": 0.33398435115814207,
      "memory(GiB)": 61.91,
      "step": 17230,
      "token_acc": 0.9380530973451328,
      "train_speed(iter/s)": 1.47776
    },
    {
      "epoch": 0.7384002399211688,
      "grad_norm": 9.231948852539062,
      "learning_rate": 9.471458344564132e-05,
      "loss": 0.33410935401916503,
      "memory(GiB)": 61.91,
      "step": 17235,
      "token_acc": 0.9300699300699301,
      "train_speed(iter/s)": 1.477759
    },
    {
      "epoch": 0.7386144552504177,
      "grad_norm": 3.824552059173584,
      "learning_rate": 9.47115715712508e-05,
      "loss": 0.4316185474395752,
      "memory(GiB)": 61.91,
      "step": 17240,
      "token_acc": 0.9033457249070632,
      "train_speed(iter/s)": 1.477731
    },
    {
      "epoch": 0.7388286705796667,
      "grad_norm": 3.7314553260803223,
      "learning_rate": 9.470855888686822e-05,
      "loss": 0.6067300796508789,
      "memory(GiB)": 61.91,
      "step": 17245,
      "token_acc": 0.8674698795180723,
      "train_speed(iter/s)": 1.477725
    },
    {
      "epoch": 0.7390428859089156,
      "grad_norm": 2.727473020553589,
      "learning_rate": 9.470554539254816e-05,
      "loss": 0.46352238655090333,
      "memory(GiB)": 61.91,
      "step": 17250,
      "token_acc": 0.9113475177304965,
      "train_speed(iter/s)": 1.477719
    },
    {
      "epoch": 0.7392571012381646,
      "grad_norm": 4.518321990966797,
      "learning_rate": 9.470253108834522e-05,
      "loss": 0.4388858795166016,
      "memory(GiB)": 61.91,
      "step": 17255,
      "token_acc": 0.9116809116809117,
      "train_speed(iter/s)": 1.477723
    },
    {
      "epoch": 0.7394713165674136,
      "grad_norm": 3.36692214012146,
      "learning_rate": 9.469951597431398e-05,
      "loss": 0.49880733489990237,
      "memory(GiB)": 61.91,
      "step": 17260,
      "token_acc": 0.8968481375358166,
      "train_speed(iter/s)": 1.477772
    },
    {
      "epoch": 0.7396855318966625,
      "grad_norm": 2.9298083782196045,
      "learning_rate": 9.469650005050907e-05,
      "loss": 0.424791145324707,
      "memory(GiB)": 61.91,
      "step": 17265,
      "token_acc": 0.9006622516556292,
      "train_speed(iter/s)": 1.477743
    },
    {
      "epoch": 0.7398997472259115,
      "grad_norm": 3.5731608867645264,
      "learning_rate": 9.469348331698516e-05,
      "loss": 0.34513149261474607,
      "memory(GiB)": 61.91,
      "step": 17270,
      "token_acc": 0.9485294117647058,
      "train_speed(iter/s)": 1.477726
    },
    {
      "epoch": 0.7401139625551605,
      "grad_norm": 2.967603921890259,
      "learning_rate": 9.469046577379685e-05,
      "loss": 0.5188796520233154,
      "memory(GiB)": 61.91,
      "step": 17275,
      "token_acc": 0.8888888888888888,
      "train_speed(iter/s)": 1.477722
    },
    {
      "epoch": 0.7403281778844094,
      "grad_norm": 1.688162922859192,
      "learning_rate": 9.468744742099885e-05,
      "loss": 0.2880302906036377,
      "memory(GiB)": 61.91,
      "step": 17280,
      "token_acc": 0.9357429718875502,
      "train_speed(iter/s)": 1.477723
    },
    {
      "epoch": 0.7405423932136583,
      "grad_norm": 3.26340913772583,
      "learning_rate": 9.468442825864578e-05,
      "loss": 0.18981293439865113,
      "memory(GiB)": 61.91,
      "step": 17285,
      "token_acc": 0.9606557377049181,
      "train_speed(iter/s)": 1.477727
    },
    {
      "epoch": 0.7407566085429074,
      "grad_norm": 2.622612237930298,
      "learning_rate": 9.468140828679242e-05,
      "loss": 0.3792809724807739,
      "memory(GiB)": 61.91,
      "step": 17290,
      "token_acc": 0.9366666666666666,
      "train_speed(iter/s)": 1.477732
    },
    {
      "epoch": 0.7409708238721563,
      "grad_norm": 1.1876327991485596,
      "learning_rate": 9.467838750549341e-05,
      "loss": 0.2549848794937134,
      "memory(GiB)": 61.91,
      "step": 17295,
      "token_acc": 0.9288135593220339,
      "train_speed(iter/s)": 1.477717
    },
    {
      "epoch": 0.7411850392014052,
      "grad_norm": 5.4677629470825195,
      "learning_rate": 9.46753659148035e-05,
      "loss": 0.4644014358520508,
      "memory(GiB)": 61.91,
      "step": 17300,
      "token_acc": 0.8981818181818182,
      "train_speed(iter/s)": 1.477764
    },
    {
      "epoch": 0.7413992545306543,
      "grad_norm": 2.130826473236084,
      "learning_rate": 9.467234351477743e-05,
      "loss": 0.08875709772109985,
      "memory(GiB)": 61.91,
      "step": 17305,
      "token_acc": 0.9795221843003413,
      "train_speed(iter/s)": 1.477781
    },
    {
      "epoch": 0.7416134698599032,
      "grad_norm": 2.095438241958618,
      "learning_rate": 9.466932030546996e-05,
      "loss": 0.308350133895874,
      "memory(GiB)": 61.91,
      "step": 17310,
      "token_acc": 0.9256505576208178,
      "train_speed(iter/s)": 1.477783
    },
    {
      "epoch": 0.7418276851891521,
      "grad_norm": 2.5861356258392334,
      "learning_rate": 9.466629628693584e-05,
      "loss": 0.2735862731933594,
      "memory(GiB)": 61.91,
      "step": 17315,
      "token_acc": 0.9385964912280702,
      "train_speed(iter/s)": 1.477791
    },
    {
      "epoch": 0.7420419005184011,
      "grad_norm": 2.66814923286438,
      "learning_rate": 9.466327145922986e-05,
      "loss": 0.2877746820449829,
      "memory(GiB)": 61.91,
      "step": 17320,
      "token_acc": 0.9411764705882353,
      "train_speed(iter/s)": 1.477789
    },
    {
      "epoch": 0.74225611584765,
      "grad_norm": 4.614184379577637,
      "learning_rate": 9.466024582240683e-05,
      "loss": 0.48297271728515623,
      "memory(GiB)": 61.91,
      "step": 17325,
      "token_acc": 0.9049180327868852,
      "train_speed(iter/s)": 1.477844
    },
    {
      "epoch": 0.742470331176899,
      "grad_norm": 4.332878112792969,
      "learning_rate": 9.465721937652155e-05,
      "loss": 0.32562201023101806,
      "memory(GiB)": 61.91,
      "step": 17330,
      "token_acc": 0.9365671641791045,
      "train_speed(iter/s)": 1.47783
    },
    {
      "epoch": 0.742684546506148,
      "grad_norm": 2.2279374599456787,
      "learning_rate": 9.465419212162883e-05,
      "loss": 0.5097407817840576,
      "memory(GiB)": 61.91,
      "step": 17335,
      "token_acc": 0.903010033444816,
      "train_speed(iter/s)": 1.477817
    },
    {
      "epoch": 0.7428987618353969,
      "grad_norm": 2.414546489715576,
      "learning_rate": 9.465116405778357e-05,
      "loss": 0.3425808668136597,
      "memory(GiB)": 61.91,
      "step": 17340,
      "token_acc": 0.9293478260869565,
      "train_speed(iter/s)": 1.4778
    },
    {
      "epoch": 0.7431129771646459,
      "grad_norm": 1.8277654647827148,
      "learning_rate": 9.464813518504055e-05,
      "loss": 0.6318798065185547,
      "memory(GiB)": 61.91,
      "step": 17345,
      "token_acc": 0.8637873754152824,
      "train_speed(iter/s)": 1.477839
    },
    {
      "epoch": 0.7433271924938949,
      "grad_norm": 6.9997382164001465,
      "learning_rate": 9.464510550345469e-05,
      "loss": 0.321658992767334,
      "memory(GiB)": 61.91,
      "step": 17350,
      "token_acc": 0.9461538461538461,
      "train_speed(iter/s)": 1.477807
    },
    {
      "epoch": 0.7435414078231438,
      "grad_norm": 3.0880422592163086,
      "learning_rate": 9.464207501308086e-05,
      "loss": 0.4595590114593506,
      "memory(GiB)": 61.91,
      "step": 17355,
      "token_acc": 0.9072847682119205,
      "train_speed(iter/s)": 1.47782
    },
    {
      "epoch": 0.7437556231523927,
      "grad_norm": 2.7987210750579834,
      "learning_rate": 9.463904371397397e-05,
      "loss": 0.4362345218658447,
      "memory(GiB)": 61.91,
      "step": 17360,
      "token_acc": 0.9132075471698113,
      "train_speed(iter/s)": 1.477821
    },
    {
      "epoch": 0.7439698384816418,
      "grad_norm": 0.3616732358932495,
      "learning_rate": 9.463601160618892e-05,
      "loss": 0.5091505527496338,
      "memory(GiB)": 61.91,
      "step": 17365,
      "token_acc": 0.9071428571428571,
      "train_speed(iter/s)": 1.477829
    },
    {
      "epoch": 0.7441840538108907,
      "grad_norm": 5.983371257781982,
      "learning_rate": 9.463297868978066e-05,
      "loss": 0.32327704429626464,
      "memory(GiB)": 61.91,
      "step": 17370,
      "token_acc": 0.9368421052631579,
      "train_speed(iter/s)": 1.47789
    },
    {
      "epoch": 0.7443982691401396,
      "grad_norm": 4.627436637878418,
      "learning_rate": 9.462994496480411e-05,
      "loss": 0.45624513626098634,
      "memory(GiB)": 61.91,
      "step": 17375,
      "token_acc": 0.8945454545454545,
      "train_speed(iter/s)": 1.477887
    },
    {
      "epoch": 0.7446124844693887,
      "grad_norm": 5.4143290519714355,
      "learning_rate": 9.462691043131424e-05,
      "loss": 0.3950221300125122,
      "memory(GiB)": 61.91,
      "step": 17380,
      "token_acc": 0.9054545454545454,
      "train_speed(iter/s)": 1.477893
    },
    {
      "epoch": 0.7448266997986376,
      "grad_norm": 5.77822208404541,
      "learning_rate": 9.462387508936605e-05,
      "loss": 0.46863589286804197,
      "memory(GiB)": 61.91,
      "step": 17385,
      "token_acc": 0.9083665338645418,
      "train_speed(iter/s)": 1.477892
    },
    {
      "epoch": 0.7450409151278865,
      "grad_norm": 2.396498441696167,
      "learning_rate": 9.462083893901448e-05,
      "loss": 0.3713083028793335,
      "memory(GiB)": 61.91,
      "step": 17390,
      "token_acc": 0.9195804195804196,
      "train_speed(iter/s)": 1.477904
    },
    {
      "epoch": 0.7452551304571355,
      "grad_norm": 2.9574763774871826,
      "learning_rate": 9.461780198031456e-05,
      "loss": 0.2941826105117798,
      "memory(GiB)": 61.91,
      "step": 17395,
      "token_acc": 0.9315960912052117,
      "train_speed(iter/s)": 1.47791
    },
    {
      "epoch": 0.7454693457863845,
      "grad_norm": 2.1571266651153564,
      "learning_rate": 9.46147642133213e-05,
      "loss": 0.5120114326477051,
      "memory(GiB)": 61.91,
      "step": 17400,
      "token_acc": 0.9042145593869731,
      "train_speed(iter/s)": 1.477908
    },
    {
      "epoch": 0.7456835611156334,
      "grad_norm": 2.74545955657959,
      "learning_rate": 9.461172563808973e-05,
      "loss": 0.2208326578140259,
      "memory(GiB)": 61.91,
      "step": 17405,
      "token_acc": 0.9469026548672567,
      "train_speed(iter/s)": 1.4779
    },
    {
      "epoch": 0.7458977764448824,
      "grad_norm": 11.954442024230957,
      "learning_rate": 9.46086862546749e-05,
      "loss": 0.41226611137390134,
      "memory(GiB)": 61.91,
      "step": 17410,
      "token_acc": 0.9049180327868852,
      "train_speed(iter/s)": 1.477952
    },
    {
      "epoch": 0.7461119917741313,
      "grad_norm": 5.097442626953125,
      "learning_rate": 9.460564606313189e-05,
      "loss": 0.49616084098815916,
      "memory(GiB)": 61.91,
      "step": 17415,
      "token_acc": 0.9124579124579124,
      "train_speed(iter/s)": 1.478018
    },
    {
      "epoch": 0.7463262071033803,
      "grad_norm": 2.71186900138855,
      "learning_rate": 9.460260506351573e-05,
      "loss": 0.35230896472930906,
      "memory(GiB)": 61.91,
      "step": 17420,
      "token_acc": 0.9142857142857143,
      "train_speed(iter/s)": 1.477986
    },
    {
      "epoch": 0.7465404224326293,
      "grad_norm": 2.9569613933563232,
      "learning_rate": 9.459956325588155e-05,
      "loss": 0.5140594005584717,
      "memory(GiB)": 61.91,
      "step": 17425,
      "token_acc": 0.8745519713261649,
      "train_speed(iter/s)": 1.478005
    },
    {
      "epoch": 0.7467546377618782,
      "grad_norm": 2.5948476791381836,
      "learning_rate": 9.459652064028445e-05,
      "loss": 0.3534525156021118,
      "memory(GiB)": 61.91,
      "step": 17430,
      "token_acc": 0.9253731343283582,
      "train_speed(iter/s)": 1.478023
    },
    {
      "epoch": 0.7469688530911271,
      "grad_norm": 8.797500610351562,
      "learning_rate": 9.459347721677954e-05,
      "loss": 0.28751847743988035,
      "memory(GiB)": 61.91,
      "step": 17435,
      "token_acc": 0.9322033898305084,
      "train_speed(iter/s)": 1.478007
    },
    {
      "epoch": 0.7471830684203762,
      "grad_norm": 1.7213914394378662,
      "learning_rate": 9.459043298542196e-05,
      "loss": 0.301419734954834,
      "memory(GiB)": 61.91,
      "step": 17440,
      "token_acc": 0.9405594405594405,
      "train_speed(iter/s)": 1.478015
    },
    {
      "epoch": 0.7473972837496251,
      "grad_norm": 3.540888547897339,
      "learning_rate": 9.458738794626687e-05,
      "loss": 0.4858253479003906,
      "memory(GiB)": 61.91,
      "step": 17445,
      "token_acc": 0.9163346613545816,
      "train_speed(iter/s)": 1.478072
    },
    {
      "epoch": 0.747611499078874,
      "grad_norm": 4.56614875793457,
      "learning_rate": 9.45843420993694e-05,
      "loss": 0.4814272880554199,
      "memory(GiB)": 61.91,
      "step": 17450,
      "token_acc": 0.9021739130434783,
      "train_speed(iter/s)": 1.478059
    },
    {
      "epoch": 0.7478257144081231,
      "grad_norm": 4.591188907623291,
      "learning_rate": 9.458129544478476e-05,
      "loss": 0.31876330375671386,
      "memory(GiB)": 61.91,
      "step": 17455,
      "token_acc": 0.9050632911392406,
      "train_speed(iter/s)": 1.478065
    },
    {
      "epoch": 0.748039929737372,
      "grad_norm": 0.9824604392051697,
      "learning_rate": 9.457824798256813e-05,
      "loss": 0.44881691932678225,
      "memory(GiB)": 61.91,
      "step": 17460,
      "token_acc": 0.9188191881918819,
      "train_speed(iter/s)": 1.478015
    },
    {
      "epoch": 0.7482541450666209,
      "grad_norm": 5.891805648803711,
      "learning_rate": 9.457519971277471e-05,
      "loss": 0.5973117828369141,
      "memory(GiB)": 61.91,
      "step": 17465,
      "token_acc": 0.8685015290519877,
      "train_speed(iter/s)": 1.478084
    },
    {
      "epoch": 0.74846836039587,
      "grad_norm": 1.2742502689361572,
      "learning_rate": 9.457215063545974e-05,
      "loss": 0.3084941148757935,
      "memory(GiB)": 61.91,
      "step": 17470,
      "token_acc": 0.9429530201342282,
      "train_speed(iter/s)": 1.478122
    },
    {
      "epoch": 0.7486825757251189,
      "grad_norm": 0.14228518307209015,
      "learning_rate": 9.456910075067847e-05,
      "loss": 0.5034667015075683,
      "memory(GiB)": 61.91,
      "step": 17475,
      "token_acc": 0.8797250859106529,
      "train_speed(iter/s)": 1.478172
    },
    {
      "epoch": 0.7488967910543679,
      "grad_norm": 3.5319247245788574,
      "learning_rate": 9.45660500584861e-05,
      "loss": 0.3700082540512085,
      "memory(GiB)": 61.91,
      "step": 17480,
      "token_acc": 0.926056338028169,
      "train_speed(iter/s)": 1.478166
    },
    {
      "epoch": 0.7491110063836168,
      "grad_norm": 4.446175575256348,
      "learning_rate": 9.456299855893794e-05,
      "loss": 0.5079458236694336,
      "memory(GiB)": 61.91,
      "step": 17485,
      "token_acc": 0.8812260536398467,
      "train_speed(iter/s)": 1.47813
    },
    {
      "epoch": 0.7493252217128658,
      "grad_norm": 8.405726432800293,
      "learning_rate": 9.455994625208926e-05,
      "loss": 0.3055213451385498,
      "memory(GiB)": 61.91,
      "step": 17490,
      "token_acc": 0.9128919860627178,
      "train_speed(iter/s)": 1.4782
    },
    {
      "epoch": 0.7495394370421148,
      "grad_norm": 0.6327483654022217,
      "learning_rate": 9.455689313799535e-05,
      "loss": 0.4532972812652588,
      "memory(GiB)": 61.91,
      "step": 17495,
      "token_acc": 0.8877887788778878,
      "train_speed(iter/s)": 1.47822
    },
    {
      "epoch": 0.7497536523713637,
      "grad_norm": 1.654052734375,
      "learning_rate": 9.455383921671153e-05,
      "loss": 0.34325644969940183,
      "memory(GiB)": 61.91,
      "step": 17500,
      "token_acc": 0.928125,
      "train_speed(iter/s)": 1.478212
    },
    {
      "epoch": 0.7497536523713637,
      "eval_loss": 2.3542885780334473,
      "eval_runtime": 13.4713,
      "eval_samples_per_second": 7.423,
      "eval_steps_per_second": 7.423,
      "eval_token_acc": 0.48419540229885055,
      "step": 17500
    },
    {
      "epoch": 0.7499678677006126,
      "grad_norm": 2.0985755920410156,
      "learning_rate": 9.45507844882931e-05,
      "loss": 0.47764906883239744,
      "memory(GiB)": 61.91,
      "step": 17505,
      "token_acc": 0.5901981230448383,
      "train_speed(iter/s)": 1.47643
    },
    {
      "epoch": 0.7501820830298617,
      "grad_norm": 1.7728626728057861,
      "learning_rate": 9.454772895279543e-05,
      "loss": 0.32654538154602053,
      "memory(GiB)": 61.91,
      "step": 17510,
      "token_acc": 0.9256198347107438,
      "train_speed(iter/s)": 1.47641
    },
    {
      "epoch": 0.7503962983591106,
      "grad_norm": 3.0053038597106934,
      "learning_rate": 9.454467261027386e-05,
      "loss": 0.3941663265228271,
      "memory(GiB)": 61.91,
      "step": 17515,
      "token_acc": 0.9215017064846417,
      "train_speed(iter/s)": 1.476423
    },
    {
      "epoch": 0.7506105136883595,
      "grad_norm": 1.0535264015197754,
      "learning_rate": 9.454161546078375e-05,
      "loss": 0.4197384834289551,
      "memory(GiB)": 61.91,
      "step": 17520,
      "token_acc": 0.8901515151515151,
      "train_speed(iter/s)": 1.476423
    },
    {
      "epoch": 0.7508247290176085,
      "grad_norm": 0.21003127098083496,
      "learning_rate": 9.453855750438049e-05,
      "loss": 0.3816428899765015,
      "memory(GiB)": 61.91,
      "step": 17525,
      "token_acc": 0.9088145896656535,
      "train_speed(iter/s)": 1.47643
    },
    {
      "epoch": 0.7510389443468575,
      "grad_norm": 2.819819450378418,
      "learning_rate": 9.45354987411195e-05,
      "loss": 0.34066023826599123,
      "memory(GiB)": 61.91,
      "step": 17530,
      "token_acc": 0.9328621908127208,
      "train_speed(iter/s)": 1.476438
    },
    {
      "epoch": 0.7512531596761064,
      "grad_norm": 0.44067782163619995,
      "learning_rate": 9.453243917105617e-05,
      "loss": 0.29637837409973145,
      "memory(GiB)": 61.91,
      "step": 17535,
      "token_acc": 0.9138888888888889,
      "train_speed(iter/s)": 1.476429
    },
    {
      "epoch": 0.7514673750053554,
      "grad_norm": 3.7418322563171387,
      "learning_rate": 9.452937879424592e-05,
      "loss": 0.37384185791015623,
      "memory(GiB)": 61.91,
      "step": 17540,
      "token_acc": 0.9179331306990881,
      "train_speed(iter/s)": 1.476452
    },
    {
      "epoch": 0.7516815903346044,
      "grad_norm": 4.822911262512207,
      "learning_rate": 9.452631761074419e-05,
      "loss": 0.6348400592803956,
      "memory(GiB)": 61.91,
      "step": 17545,
      "token_acc": 0.8852459016393442,
      "train_speed(iter/s)": 1.476439
    },
    {
      "epoch": 0.7518958056638533,
      "grad_norm": 4.522646427154541,
      "learning_rate": 9.452325562060647e-05,
      "loss": 0.34326183795928955,
      "memory(GiB)": 61.91,
      "step": 17550,
      "token_acc": 0.9402985074626866,
      "train_speed(iter/s)": 1.476422
    },
    {
      "epoch": 0.7521100209931023,
      "grad_norm": 3.580265998840332,
      "learning_rate": 9.45201928238882e-05,
      "loss": 0.24520506858825683,
      "memory(GiB)": 61.91,
      "step": 17555,
      "token_acc": 0.9490445859872612,
      "train_speed(iter/s)": 1.476406
    },
    {
      "epoch": 0.7523242363223512,
      "grad_norm": 2.7262051105499268,
      "learning_rate": 9.451712922064488e-05,
      "loss": 0.4785344123840332,
      "memory(GiB)": 61.91,
      "step": 17560,
      "token_acc": 0.8896321070234113,
      "train_speed(iter/s)": 1.476406
    },
    {
      "epoch": 0.7525384516516002,
      "grad_norm": 2.6038026809692383,
      "learning_rate": 9.4514064810932e-05,
      "loss": 0.34695513248443605,
      "memory(GiB)": 61.91,
      "step": 17565,
      "token_acc": 0.9228070175438596,
      "train_speed(iter/s)": 1.476376
    },
    {
      "epoch": 0.7527526669808492,
      "grad_norm": 1.3370826244354248,
      "learning_rate": 9.451099959480507e-05,
      "loss": 0.34910407066345217,
      "memory(GiB)": 61.91,
      "step": 17570,
      "token_acc": 0.9289940828402367,
      "train_speed(iter/s)": 1.476369
    },
    {
      "epoch": 0.7529668823100981,
      "grad_norm": 0.3969125747680664,
      "learning_rate": 9.450793357231962e-05,
      "loss": 0.4009547233581543,
      "memory(GiB)": 61.91,
      "step": 17575,
      "token_acc": 0.9220338983050848,
      "train_speed(iter/s)": 1.476336
    },
    {
      "epoch": 0.753181097639347,
      "grad_norm": 3.830777645111084,
      "learning_rate": 9.450486674353122e-05,
      "loss": 0.47237286567687986,
      "memory(GiB)": 61.91,
      "step": 17580,
      "token_acc": 0.8983050847457628,
      "train_speed(iter/s)": 1.47633
    },
    {
      "epoch": 0.7533953129685961,
      "grad_norm": 4.370207786560059,
      "learning_rate": 9.450179910849541e-05,
      "loss": 0.6460176467895508,
      "memory(GiB)": 61.91,
      "step": 17585,
      "token_acc": 0.8319559228650137,
      "train_speed(iter/s)": 1.476311
    },
    {
      "epoch": 0.753609528297845,
      "grad_norm": 0.672476053237915,
      "learning_rate": 9.449873066726775e-05,
      "loss": 0.38372995853424074,
      "memory(GiB)": 61.91,
      "step": 17590,
      "token_acc": 0.9233449477351916,
      "train_speed(iter/s)": 1.476321
    },
    {
      "epoch": 0.7538237436270939,
      "grad_norm": 1.7714412212371826,
      "learning_rate": 9.449566141990384e-05,
      "loss": 0.34878993034362793,
      "memory(GiB)": 61.91,
      "step": 17595,
      "token_acc": 0.9320388349514563,
      "train_speed(iter/s)": 1.476329
    },
    {
      "epoch": 0.754037958956343,
      "grad_norm": 0.06497224420309067,
      "learning_rate": 9.449259136645929e-05,
      "loss": 0.48102560043334963,
      "memory(GiB)": 61.91,
      "step": 17600,
      "token_acc": 0.9095238095238095,
      "train_speed(iter/s)": 1.476334
    },
    {
      "epoch": 0.7542521742855919,
      "grad_norm": 1.3018341064453125,
      "learning_rate": 9.448952050698972e-05,
      "loss": 0.4425107479095459,
      "memory(GiB)": 61.91,
      "step": 17605,
      "token_acc": 0.8921933085501859,
      "train_speed(iter/s)": 1.476388
    },
    {
      "epoch": 0.7544663896148408,
      "grad_norm": 2.3196256160736084,
      "learning_rate": 9.448644884155075e-05,
      "loss": 0.3804525375366211,
      "memory(GiB)": 61.91,
      "step": 17610,
      "token_acc": 0.9025157232704403,
      "train_speed(iter/s)": 1.476406
    },
    {
      "epoch": 0.7546806049440898,
      "grad_norm": 2.625708818435669,
      "learning_rate": 9.448337637019801e-05,
      "loss": 0.46379523277282714,
      "memory(GiB)": 61.91,
      "step": 17615,
      "token_acc": 0.9105431309904153,
      "train_speed(iter/s)": 1.476407
    },
    {
      "epoch": 0.7548948202733388,
      "grad_norm": 3.342862129211426,
      "learning_rate": 9.44803030929872e-05,
      "loss": 0.4454464912414551,
      "memory(GiB)": 61.91,
      "step": 17620,
      "token_acc": 0.9171974522292994,
      "train_speed(iter/s)": 1.476391
    },
    {
      "epoch": 0.7551090356025877,
      "grad_norm": 3.2727174758911133,
      "learning_rate": 9.447722900997396e-05,
      "loss": 0.6218725204467773,
      "memory(GiB)": 61.91,
      "step": 17625,
      "token_acc": 0.8918918918918919,
      "train_speed(iter/s)": 1.476412
    },
    {
      "epoch": 0.7553232509318367,
      "grad_norm": 0.04385213553905487,
      "learning_rate": 9.447415412121399e-05,
      "loss": 0.410170841217041,
      "memory(GiB)": 61.91,
      "step": 17630,
      "token_acc": 0.9121338912133892,
      "train_speed(iter/s)": 1.476416
    },
    {
      "epoch": 0.7555374662610856,
      "grad_norm": 2.546023368835449,
      "learning_rate": 9.4471078426763e-05,
      "loss": 0.5976030826568604,
      "memory(GiB)": 61.91,
      "step": 17635,
      "token_acc": 0.8987341772151899,
      "train_speed(iter/s)": 1.476431
    },
    {
      "epoch": 0.7557516815903346,
      "grad_norm": 4.837190628051758,
      "learning_rate": 9.44680019266767e-05,
      "loss": 0.5206684112548828,
      "memory(GiB)": 61.91,
      "step": 17640,
      "token_acc": 0.9060150375939849,
      "train_speed(iter/s)": 1.476434
    },
    {
      "epoch": 0.7559658969195836,
      "grad_norm": 1.5311986207962036,
      "learning_rate": 9.446492462101087e-05,
      "loss": 0.11898102760314941,
      "memory(GiB)": 61.91,
      "step": 17645,
      "token_acc": 0.9700996677740864,
      "train_speed(iter/s)": 1.47645
    },
    {
      "epoch": 0.7561801122488325,
      "grad_norm": 3.4006803035736084,
      "learning_rate": 9.446184650982117e-05,
      "loss": 0.4393166542053223,
      "memory(GiB)": 61.91,
      "step": 17650,
      "token_acc": 0.9055944055944056,
      "train_speed(iter/s)": 1.476472
    },
    {
      "epoch": 0.7563943275780814,
      "grad_norm": 4.03226375579834,
      "learning_rate": 9.445876759316344e-05,
      "loss": 0.3960193872451782,
      "memory(GiB)": 61.91,
      "step": 17655,
      "token_acc": 0.9094076655052264,
      "train_speed(iter/s)": 1.476468
    },
    {
      "epoch": 0.7566085429073305,
      "grad_norm": 0.12888787686824799,
      "learning_rate": 9.445568787109342e-05,
      "loss": 0.307785177230835,
      "memory(GiB)": 61.91,
      "step": 17660,
      "token_acc": 0.9253731343283582,
      "train_speed(iter/s)": 1.47646
    },
    {
      "epoch": 0.7568227582365794,
      "grad_norm": 3.0396568775177,
      "learning_rate": 9.445260734366692e-05,
      "loss": 0.2591418743133545,
      "memory(GiB)": 61.91,
      "step": 17665,
      "token_acc": 0.9407894736842105,
      "train_speed(iter/s)": 1.476502
    },
    {
      "epoch": 0.7570369735658283,
      "grad_norm": 1.6026294231414795,
      "learning_rate": 9.444952601093972e-05,
      "loss": 0.5990015029907226,
      "memory(GiB)": 61.91,
      "step": 17670,
      "token_acc": 0.8826979472140762,
      "train_speed(iter/s)": 1.476479
    },
    {
      "epoch": 0.7572511888950774,
      "grad_norm": 2.518064022064209,
      "learning_rate": 9.444644387296767e-05,
      "loss": 0.3972053050994873,
      "memory(GiB)": 61.91,
      "step": 17675,
      "token_acc": 0.9124087591240876,
      "train_speed(iter/s)": 1.476459
    },
    {
      "epoch": 0.7574654042243263,
      "grad_norm": 4.108645915985107,
      "learning_rate": 9.444336092980661e-05,
      "loss": 0.6597655773162842,
      "memory(GiB)": 61.91,
      "step": 17680,
      "token_acc": 0.8661087866108786,
      "train_speed(iter/s)": 1.47645
    },
    {
      "epoch": 0.7576796195535752,
      "grad_norm": 3.1483347415924072,
      "learning_rate": 9.444027718151235e-05,
      "loss": 0.2701606035232544,
      "memory(GiB)": 61.91,
      "step": 17685,
      "token_acc": 0.940625,
      "train_speed(iter/s)": 1.476443
    },
    {
      "epoch": 0.7578938348828242,
      "grad_norm": 0.27617496252059937,
      "learning_rate": 9.443719262814079e-05,
      "loss": 0.1592450737953186,
      "memory(GiB)": 61.91,
      "step": 17690,
      "token_acc": 0.9585062240663901,
      "train_speed(iter/s)": 1.476457
    },
    {
      "epoch": 0.7581080502120732,
      "grad_norm": 0.34637513756752014,
      "learning_rate": 9.44341072697478e-05,
      "loss": 0.272267746925354,
      "memory(GiB)": 61.91,
      "step": 17695,
      "token_acc": 0.9442231075697212,
      "train_speed(iter/s)": 1.476463
    },
    {
      "epoch": 0.7583222655413221,
      "grad_norm": 2.8971304893493652,
      "learning_rate": 9.443102110638928e-05,
      "loss": 0.36293227672576905,
      "memory(GiB)": 61.91,
      "step": 17700,
      "token_acc": 0.9301675977653632,
      "train_speed(iter/s)": 1.476482
    },
    {
      "epoch": 0.7585364808705711,
      "grad_norm": 2.9195828437805176,
      "learning_rate": 9.442793413812113e-05,
      "loss": 0.4400651931762695,
      "memory(GiB)": 61.91,
      "step": 17705,
      "token_acc": 0.9008620689655172,
      "train_speed(iter/s)": 1.476486
    },
    {
      "epoch": 0.75875069619982,
      "grad_norm": 4.574628829956055,
      "learning_rate": 9.442484636499927e-05,
      "loss": 0.3307775020599365,
      "memory(GiB)": 61.91,
      "step": 17710,
      "token_acc": 0.9166666666666666,
      "train_speed(iter/s)": 1.476475
    },
    {
      "epoch": 0.758964911529069,
      "grad_norm": 2.2554097175598145,
      "learning_rate": 9.442175778707965e-05,
      "loss": 0.5268548011779786,
      "memory(GiB)": 61.91,
      "step": 17715,
      "token_acc": 0.9069767441860465,
      "train_speed(iter/s)": 1.476467
    },
    {
      "epoch": 0.759179126858318,
      "grad_norm": 3.4524965286254883,
      "learning_rate": 9.441866840441822e-05,
      "loss": 0.474748420715332,
      "memory(GiB)": 61.91,
      "step": 17720,
      "token_acc": 0.8953068592057761,
      "train_speed(iter/s)": 1.476488
    },
    {
      "epoch": 0.7593933421875669,
      "grad_norm": 1.743773102760315,
      "learning_rate": 9.441557821707094e-05,
      "loss": 0.43621106147766114,
      "memory(GiB)": 61.91,
      "step": 17725,
      "token_acc": 0.9175627240143369,
      "train_speed(iter/s)": 1.476485
    },
    {
      "epoch": 0.7596075575168159,
      "grad_norm": 3.4695370197296143,
      "learning_rate": 9.44124872250938e-05,
      "loss": 0.3078224420547485,
      "memory(GiB)": 61.91,
      "step": 17730,
      "token_acc": 0.9478260869565217,
      "train_speed(iter/s)": 1.476498
    },
    {
      "epoch": 0.7598217728460649,
      "grad_norm": 4.111319065093994,
      "learning_rate": 9.440939542854278e-05,
      "loss": 0.3372620105743408,
      "memory(GiB)": 61.91,
      "step": 17735,
      "token_acc": 0.9355828220858896,
      "train_speed(iter/s)": 1.476504
    },
    {
      "epoch": 0.7600359881753138,
      "grad_norm": 4.328671932220459,
      "learning_rate": 9.440630282747392e-05,
      "loss": 1.0008514404296875,
      "memory(GiB)": 61.91,
      "step": 17740,
      "token_acc": 0.8181818181818182,
      "train_speed(iter/s)": 1.476523
    },
    {
      "epoch": 0.7602502035045627,
      "grad_norm": 1.3275572061538696,
      "learning_rate": 9.44032094219432e-05,
      "loss": 0.0550759494304657,
      "memory(GiB)": 61.91,
      "step": 17745,
      "token_acc": 0.991701244813278,
      "train_speed(iter/s)": 1.476524
    },
    {
      "epoch": 0.7604644188338118,
      "grad_norm": 2.9855692386627197,
      "learning_rate": 9.440011521200671e-05,
      "loss": 0.4399075508117676,
      "memory(GiB)": 61.91,
      "step": 17750,
      "token_acc": 0.9041095890410958,
      "train_speed(iter/s)": 1.476524
    },
    {
      "epoch": 0.7606786341630607,
      "grad_norm": 5.056507587432861,
      "learning_rate": 9.439702019772047e-05,
      "loss": 0.4407635688781738,
      "memory(GiB)": 61.91,
      "step": 17755,
      "token_acc": 0.9201388888888888,
      "train_speed(iter/s)": 1.476514
    },
    {
      "epoch": 0.7608928494923096,
      "grad_norm": 2.100281000137329,
      "learning_rate": 9.439392437914058e-05,
      "loss": 0.35784847736358644,
      "memory(GiB)": 61.91,
      "step": 17760,
      "token_acc": 0.9120234604105572,
      "train_speed(iter/s)": 1.476484
    },
    {
      "epoch": 0.7611070648215587,
      "grad_norm": 1.3742643594741821,
      "learning_rate": 9.439082775632309e-05,
      "loss": 0.3371132850646973,
      "memory(GiB)": 61.91,
      "step": 17765,
      "token_acc": 0.9312714776632303,
      "train_speed(iter/s)": 1.476488
    },
    {
      "epoch": 0.7613212801508076,
      "grad_norm": 2.6546413898468018,
      "learning_rate": 9.43877303293241e-05,
      "loss": 0.2862443685531616,
      "memory(GiB)": 61.91,
      "step": 17770,
      "token_acc": 0.9390681003584229,
      "train_speed(iter/s)": 1.476483
    },
    {
      "epoch": 0.7615354954800565,
      "grad_norm": 3.882566213607788,
      "learning_rate": 9.438463209819976e-05,
      "loss": 0.36263742446899416,
      "memory(GiB)": 61.91,
      "step": 17775,
      "token_acc": 0.926605504587156,
      "train_speed(iter/s)": 1.476467
    },
    {
      "epoch": 0.7617497108093055,
      "grad_norm": 4.397487163543701,
      "learning_rate": 9.438153306300616e-05,
      "loss": 0.41292428970336914,
      "memory(GiB)": 61.91,
      "step": 17780,
      "token_acc": 0.9185185185185185,
      "train_speed(iter/s)": 1.476467
    },
    {
      "epoch": 0.7619639261385545,
      "grad_norm": 3.875135660171509,
      "learning_rate": 9.437843322379947e-05,
      "loss": 0.799160099029541,
      "memory(GiB)": 61.91,
      "step": 17785,
      "token_acc": 0.8216783216783217,
      "train_speed(iter/s)": 1.476496
    },
    {
      "epoch": 0.7621781414678034,
      "grad_norm": 0.5637069940567017,
      "learning_rate": 9.437533258063582e-05,
      "loss": 0.2674410820007324,
      "memory(GiB)": 61.91,
      "step": 17790,
      "token_acc": 0.953405017921147,
      "train_speed(iter/s)": 1.476539
    },
    {
      "epoch": 0.7623923567970524,
      "grad_norm": 0.590112030506134,
      "learning_rate": 9.437223113357141e-05,
      "loss": 0.3939110279083252,
      "memory(GiB)": 61.91,
      "step": 17795,
      "token_acc": 0.9375,
      "train_speed(iter/s)": 1.476521
    },
    {
      "epoch": 0.7626065721263013,
      "grad_norm": 3.66007399559021,
      "learning_rate": 9.436912888266239e-05,
      "loss": 0.5299183368682862,
      "memory(GiB)": 61.91,
      "step": 17800,
      "token_acc": 0.884375,
      "train_speed(iter/s)": 1.476517
    },
    {
      "epoch": 0.7628207874555503,
      "grad_norm": 2.091958522796631,
      "learning_rate": 9.436602582796498e-05,
      "loss": 0.4302510738372803,
      "memory(GiB)": 61.91,
      "step": 17805,
      "token_acc": 0.9022801302931596,
      "train_speed(iter/s)": 1.47653
    },
    {
      "epoch": 0.7630350027847993,
      "grad_norm": 1.0386624336242676,
      "learning_rate": 9.43629219695354e-05,
      "loss": 0.3885274171829224,
      "memory(GiB)": 61.91,
      "step": 17810,
      "token_acc": 0.9055374592833876,
      "train_speed(iter/s)": 1.476527
    },
    {
      "epoch": 0.7632492181140482,
      "grad_norm": 2.8409454822540283,
      "learning_rate": 9.435981730742986e-05,
      "loss": 0.1685233235359192,
      "memory(GiB)": 61.91,
      "step": 17815,
      "token_acc": 0.9634146341463414,
      "train_speed(iter/s)": 1.47654
    },
    {
      "epoch": 0.7634634334432973,
      "grad_norm": 2.203361988067627,
      "learning_rate": 9.435671184170463e-05,
      "loss": 0.2962444543838501,
      "memory(GiB)": 61.91,
      "step": 17820,
      "token_acc": 0.9409722222222222,
      "train_speed(iter/s)": 1.476543
    },
    {
      "epoch": 0.7636776487725462,
      "grad_norm": 4.074455261230469,
      "learning_rate": 9.435360557241595e-05,
      "loss": 0.17392344474792482,
      "memory(GiB)": 61.91,
      "step": 17825,
      "token_acc": 0.95703125,
      "train_speed(iter/s)": 1.47654
    },
    {
      "epoch": 0.7638918641017951,
      "grad_norm": 3.75576114654541,
      "learning_rate": 9.43504984996201e-05,
      "loss": 0.5283247947692871,
      "memory(GiB)": 61.91,
      "step": 17830,
      "token_acc": 0.895397489539749,
      "train_speed(iter/s)": 1.476561
    },
    {
      "epoch": 0.7641060794310441,
      "grad_norm": 3.7666265964508057,
      "learning_rate": 9.434739062337337e-05,
      "loss": 0.31411659717559814,
      "memory(GiB)": 61.91,
      "step": 17835,
      "token_acc": 0.911864406779661,
      "train_speed(iter/s)": 1.476551
    },
    {
      "epoch": 0.7643202947602931,
      "grad_norm": 0.5788799524307251,
      "learning_rate": 9.434428194373205e-05,
      "loss": 0.44597601890563965,
      "memory(GiB)": 61.91,
      "step": 17840,
      "token_acc": 0.9081272084805654,
      "train_speed(iter/s)": 1.476555
    },
    {
      "epoch": 0.764534510089542,
      "grad_norm": 1.794717788696289,
      "learning_rate": 9.434117246075246e-05,
      "loss": 0.35425355434417727,
      "memory(GiB)": 61.91,
      "step": 17845,
      "token_acc": 0.9296875,
      "train_speed(iter/s)": 1.476581
    },
    {
      "epoch": 0.764748725418791,
      "grad_norm": 4.7251152992248535,
      "learning_rate": 9.433806217449094e-05,
      "loss": 0.620120906829834,
      "memory(GiB)": 61.91,
      "step": 17850,
      "token_acc": 0.8736842105263158,
      "train_speed(iter/s)": 1.476618
    },
    {
      "epoch": 0.7649629407480399,
      "grad_norm": 1.712943434715271,
      "learning_rate": 9.433495108500384e-05,
      "loss": 0.45328407287597655,
      "memory(GiB)": 61.91,
      "step": 17855,
      "token_acc": 0.9295774647887324,
      "train_speed(iter/s)": 1.476625
    },
    {
      "epoch": 0.7651771560772889,
      "grad_norm": 3.2541568279266357,
      "learning_rate": 9.43318391923475e-05,
      "loss": 0.515521240234375,
      "memory(GiB)": 61.91,
      "step": 17860,
      "token_acc": 0.8906752411575563,
      "train_speed(iter/s)": 1.476607
    },
    {
      "epoch": 0.7653913714065379,
      "grad_norm": 3.237934112548828,
      "learning_rate": 9.432872649657832e-05,
      "loss": 0.3444105625152588,
      "memory(GiB)": 61.91,
      "step": 17865,
      "token_acc": 0.9416058394160584,
      "train_speed(iter/s)": 1.476603
    },
    {
      "epoch": 0.7656055867357868,
      "grad_norm": 3.921712636947632,
      "learning_rate": 9.432561299775267e-05,
      "loss": 0.42067670822143555,
      "memory(GiB)": 61.91,
      "step": 17870,
      "token_acc": 0.9161073825503355,
      "train_speed(iter/s)": 1.476664
    },
    {
      "epoch": 0.7658198020650357,
      "grad_norm": 5.253240585327148,
      "learning_rate": 9.432249869592696e-05,
      "loss": 0.355410099029541,
      "memory(GiB)": 61.91,
      "step": 17875,
      "token_acc": 0.9051724137931034,
      "train_speed(iter/s)": 1.476667
    },
    {
      "epoch": 0.7660340173942848,
      "grad_norm": 8.360040664672852,
      "learning_rate": 9.431938359115759e-05,
      "loss": 0.259171199798584,
      "memory(GiB)": 61.91,
      "step": 17880,
      "token_acc": 0.9481481481481482,
      "train_speed(iter/s)": 1.476668
    },
    {
      "epoch": 0.7662482327235337,
      "grad_norm": 1.3716843128204346,
      "learning_rate": 9.431626768350104e-05,
      "loss": 0.2558110237121582,
      "memory(GiB)": 61.91,
      "step": 17885,
      "token_acc": 0.9401993355481728,
      "train_speed(iter/s)": 1.476674
    },
    {
      "epoch": 0.7664624480527826,
      "grad_norm": 0.07192708551883698,
      "learning_rate": 9.43131509730137e-05,
      "loss": 0.1768442153930664,
      "memory(GiB)": 61.91,
      "step": 17890,
      "token_acc": 0.9563318777292577,
      "train_speed(iter/s)": 1.476683
    },
    {
      "epoch": 0.7666766633820317,
      "grad_norm": 0.4258044362068176,
      "learning_rate": 9.43100334597521e-05,
      "loss": 0.3609853982925415,
      "memory(GiB)": 61.91,
      "step": 17895,
      "token_acc": 0.9318181818181818,
      "train_speed(iter/s)": 1.476682
    },
    {
      "epoch": 0.7668908787112806,
      "grad_norm": 2.807299852371216,
      "learning_rate": 9.430691514377264e-05,
      "loss": 0.3459017753601074,
      "memory(GiB)": 61.91,
      "step": 17900,
      "token_acc": 0.9337979094076655,
      "train_speed(iter/s)": 1.476675
    },
    {
      "epoch": 0.7671050940405295,
      "grad_norm": 4.105527400970459,
      "learning_rate": 9.430379602513186e-05,
      "loss": 0.6321208000183105,
      "memory(GiB)": 61.91,
      "step": 17905,
      "token_acc": 0.8769716088328076,
      "train_speed(iter/s)": 1.476664
    },
    {
      "epoch": 0.7673193093697785,
      "grad_norm": 1.592163324356079,
      "learning_rate": 9.430067610388626e-05,
      "loss": 0.4225130558013916,
      "memory(GiB)": 61.91,
      "step": 17910,
      "token_acc": 0.9188311688311688,
      "train_speed(iter/s)": 1.476668
    },
    {
      "epoch": 0.7675335246990275,
      "grad_norm": 3.1511833667755127,
      "learning_rate": 9.429755538009235e-05,
      "loss": 0.3337214469909668,
      "memory(GiB)": 61.91,
      "step": 17915,
      "token_acc": 0.9137380191693291,
      "train_speed(iter/s)": 1.476655
    },
    {
      "epoch": 0.7677477400282764,
      "grad_norm": 0.574252188205719,
      "learning_rate": 9.429443385380667e-05,
      "loss": 0.45998053550720214,
      "memory(GiB)": 61.91,
      "step": 17920,
      "token_acc": 0.9,
      "train_speed(iter/s)": 1.476634
    },
    {
      "epoch": 0.7679619553575254,
      "grad_norm": 2.0766303539276123,
      "learning_rate": 9.429131152508577e-05,
      "loss": 0.37004790306091306,
      "memory(GiB)": 61.91,
      "step": 17925,
      "token_acc": 0.9295302013422819,
      "train_speed(iter/s)": 1.476644
    },
    {
      "epoch": 0.7681761706867744,
      "grad_norm": 1.2767369747161865,
      "learning_rate": 9.42881883939862e-05,
      "loss": 0.22735412120819093,
      "memory(GiB)": 61.91,
      "step": 17930,
      "token_acc": 0.9529411764705882,
      "train_speed(iter/s)": 1.476746
    },
    {
      "epoch": 0.7683903860160233,
      "grad_norm": 8.654136657714844,
      "learning_rate": 9.428506446056458e-05,
      "loss": 0.5335653305053711,
      "memory(GiB)": 61.91,
      "step": 17935,
      "token_acc": 0.89937106918239,
      "train_speed(iter/s)": 1.476725
    },
    {
      "epoch": 0.7686046013452723,
      "grad_norm": 1.8025439977645874,
      "learning_rate": 9.428193972487746e-05,
      "loss": 0.4268326759338379,
      "memory(GiB)": 61.91,
      "step": 17940,
      "token_acc": 0.9110512129380054,
      "train_speed(iter/s)": 1.476782
    },
    {
      "epoch": 0.7688188166745212,
      "grad_norm": 2.801381826400757,
      "learning_rate": 9.427881418698147e-05,
      "loss": 0.40581378936767576,
      "memory(GiB)": 61.91,
      "step": 17945,
      "token_acc": 0.9192982456140351,
      "train_speed(iter/s)": 1.476839
    },
    {
      "epoch": 0.7690330320037702,
      "grad_norm": 5.900826930999756,
      "learning_rate": 9.427568784693321e-05,
      "loss": 0.5754095077514648,
      "memory(GiB)": 61.91,
      "step": 17950,
      "token_acc": 0.8736462093862816,
      "train_speed(iter/s)": 1.476827
    },
    {
      "epoch": 0.7692472473330192,
      "grad_norm": 3.050471544265747,
      "learning_rate": 9.427256070478934e-05,
      "loss": 0.34565713405609133,
      "memory(GiB)": 61.91,
      "step": 17955,
      "token_acc": 0.9188191881918819,
      "train_speed(iter/s)": 1.476818
    },
    {
      "epoch": 0.7694614626622681,
      "grad_norm": 3.461519479751587,
      "learning_rate": 9.426943276060649e-05,
      "loss": 0.5484074592590332,
      "memory(GiB)": 61.91,
      "step": 17960,
      "token_acc": 0.8780487804878049,
      "train_speed(iter/s)": 1.476835
    },
    {
      "epoch": 0.769675677991517,
      "grad_norm": 3.97141170501709,
      "learning_rate": 9.426630401444136e-05,
      "loss": 0.6407596588134765,
      "memory(GiB)": 61.91,
      "step": 17965,
      "token_acc": 0.8689024390243902,
      "train_speed(iter/s)": 1.47687
    },
    {
      "epoch": 0.7698898933207661,
      "grad_norm": 2.143667221069336,
      "learning_rate": 9.426317446635059e-05,
      "loss": 0.44272284507751464,
      "memory(GiB)": 61.91,
      "step": 17970,
      "token_acc": 0.9161490683229814,
      "train_speed(iter/s)": 1.476869
    },
    {
      "epoch": 0.770104108650015,
      "grad_norm": 2.1256141662597656,
      "learning_rate": 9.426004411639089e-05,
      "loss": 0.4420326709747314,
      "memory(GiB)": 61.91,
      "step": 17975,
      "token_acc": 0.9146341463414634,
      "train_speed(iter/s)": 1.476912
    },
    {
      "epoch": 0.7703183239792639,
      "grad_norm": 3.1965503692626953,
      "learning_rate": 9.425691296461898e-05,
      "loss": 0.25966382026672363,
      "memory(GiB)": 61.91,
      "step": 17980,
      "token_acc": 0.9510703363914373,
      "train_speed(iter/s)": 1.476894
    },
    {
      "epoch": 0.770532539308513,
      "grad_norm": 2.943720579147339,
      "learning_rate": 9.425378101109158e-05,
      "loss": 0.2289384126663208,
      "memory(GiB)": 61.91,
      "step": 17985,
      "token_acc": 0.9337979094076655,
      "train_speed(iter/s)": 1.476894
    },
    {
      "epoch": 0.7707467546377619,
      "grad_norm": 8.741105079650879,
      "learning_rate": 9.425064825586541e-05,
      "loss": 0.6280754566192627,
      "memory(GiB)": 61.91,
      "step": 17990,
      "token_acc": 0.8888888888888888,
      "train_speed(iter/s)": 1.47693
    },
    {
      "epoch": 0.7709609699670108,
      "grad_norm": 2.2523515224456787,
      "learning_rate": 9.424751469899724e-05,
      "loss": 0.454746150970459,
      "memory(GiB)": 61.91,
      "step": 17995,
      "token_acc": 0.8970099667774086,
      "train_speed(iter/s)": 1.476924
    },
    {
      "epoch": 0.7711751852962598,
      "grad_norm": 1.521958351135254,
      "learning_rate": 9.424438034054385e-05,
      "loss": 0.1399255633354187,
      "memory(GiB)": 61.91,
      "step": 18000,
      "token_acc": 0.952076677316294,
      "train_speed(iter/s)": 1.476926
    },
    {
      "epoch": 0.7711751852962598,
      "eval_loss": 2.5564470291137695,
      "eval_runtime": 13.0166,
      "eval_samples_per_second": 7.683,
      "eval_steps_per_second": 7.683,
      "eval_token_acc": 0.4300653594771242,
      "step": 18000
    },
    {
      "epoch": 0.7713894006255088,
      "grad_norm": 4.690343379974365,
      "learning_rate": 9.424124518056199e-05,
      "loss": 0.29893133640289304,
      "memory(GiB)": 61.91,
      "step": 18005,
      "token_acc": 0.5512437810945273,
      "train_speed(iter/s)": 1.475231
    },
    {
      "epoch": 0.7716036159547577,
      "grad_norm": 0.6310479044914246,
      "learning_rate": 9.423810921910848e-05,
      "loss": 0.39267845153808595,
      "memory(GiB)": 61.91,
      "step": 18010,
      "token_acc": 0.9301470588235294,
      "train_speed(iter/s)": 1.475237
    },
    {
      "epoch": 0.7718178312840067,
      "grad_norm": 2.586376428604126,
      "learning_rate": 9.42349724562401e-05,
      "loss": 0.19487950801849366,
      "memory(GiB)": 61.91,
      "step": 18015,
      "token_acc": 0.9678456591639871,
      "train_speed(iter/s)": 1.475221
    },
    {
      "epoch": 0.7720320466132556,
      "grad_norm": 3.1441826820373535,
      "learning_rate": 9.423183489201373e-05,
      "loss": 0.5759323120117188,
      "memory(GiB)": 61.91,
      "step": 18020,
      "token_acc": 0.8798701298701299,
      "train_speed(iter/s)": 1.475229
    },
    {
      "epoch": 0.7722462619425046,
      "grad_norm": 4.201291084289551,
      "learning_rate": 9.422869652648617e-05,
      "loss": 0.3275307178497314,
      "memory(GiB)": 61.91,
      "step": 18025,
      "token_acc": 0.9098712446351931,
      "train_speed(iter/s)": 1.475211
    },
    {
      "epoch": 0.7724604772717536,
      "grad_norm": 3.617377519607544,
      "learning_rate": 9.422555735971426e-05,
      "loss": 0.3146941661834717,
      "memory(GiB)": 61.91,
      "step": 18030,
      "token_acc": 0.9391025641025641,
      "train_speed(iter/s)": 1.475226
    },
    {
      "epoch": 0.7726746926010025,
      "grad_norm": 5.3858723640441895,
      "learning_rate": 9.422241739175491e-05,
      "loss": 0.6596278190612793,
      "memory(GiB)": 61.91,
      "step": 18035,
      "token_acc": 0.8571428571428571,
      "train_speed(iter/s)": 1.475217
    },
    {
      "epoch": 0.7728889079302514,
      "grad_norm": 2.7037596702575684,
      "learning_rate": 9.421927662266499e-05,
      "loss": 0.3119417667388916,
      "memory(GiB)": 61.91,
      "step": 18040,
      "token_acc": 0.9368421052631579,
      "train_speed(iter/s)": 1.475225
    },
    {
      "epoch": 0.7731031232595005,
      "grad_norm": 4.783984184265137,
      "learning_rate": 9.421613505250138e-05,
      "loss": 0.46303248405456543,
      "memory(GiB)": 61.91,
      "step": 18045,
      "token_acc": 0.9219219219219219,
      "train_speed(iter/s)": 1.475224
    },
    {
      "epoch": 0.7733173385887494,
      "grad_norm": 2.9250478744506836,
      "learning_rate": 9.421299268132103e-05,
      "loss": 0.3121185302734375,
      "memory(GiB)": 61.91,
      "step": 18050,
      "token_acc": 0.9304635761589404,
      "train_speed(iter/s)": 1.475228
    },
    {
      "epoch": 0.7735315539179983,
      "grad_norm": 3.2610762119293213,
      "learning_rate": 9.420984950918082e-05,
      "loss": 0.3206181049346924,
      "memory(GiB)": 61.91,
      "step": 18055,
      "token_acc": 0.9299610894941635,
      "train_speed(iter/s)": 1.475233
    },
    {
      "epoch": 0.7737457692472474,
      "grad_norm": 2.605062246322632,
      "learning_rate": 9.42067055361377e-05,
      "loss": 0.3707383155822754,
      "memory(GiB)": 61.91,
      "step": 18060,
      "token_acc": 0.9082278481012658,
      "train_speed(iter/s)": 1.475223
    },
    {
      "epoch": 0.7739599845764963,
      "grad_norm": 2.9702630043029785,
      "learning_rate": 9.420356076224865e-05,
      "loss": 0.1993948459625244,
      "memory(GiB)": 61.91,
      "step": 18065,
      "token_acc": 0.953125,
      "train_speed(iter/s)": 1.475221
    },
    {
      "epoch": 0.7741741999057452,
      "grad_norm": 2.4142966270446777,
      "learning_rate": 9.420041518757066e-05,
      "loss": 0.31743559837341306,
      "memory(GiB)": 61.91,
      "step": 18070,
      "token_acc": 0.9394904458598726,
      "train_speed(iter/s)": 1.47521
    },
    {
      "epoch": 0.7743884152349942,
      "grad_norm": 1.5340408086776733,
      "learning_rate": 9.419726881216066e-05,
      "loss": 0.519460916519165,
      "memory(GiB)": 61.91,
      "step": 18075,
      "token_acc": 0.8823529411764706,
      "train_speed(iter/s)": 1.475284
    },
    {
      "epoch": 0.7746026305642432,
      "grad_norm": 2.030808687210083,
      "learning_rate": 9.419412163607567e-05,
      "loss": 0.3509959697723389,
      "memory(GiB)": 61.91,
      "step": 18080,
      "token_acc": 0.9365671641791045,
      "train_speed(iter/s)": 1.475331
    },
    {
      "epoch": 0.7748168458934921,
      "grad_norm": 2.6986589431762695,
      "learning_rate": 9.419097365937272e-05,
      "loss": 0.3808340072631836,
      "memory(GiB)": 61.91,
      "step": 18085,
      "token_acc": 0.9155844155844156,
      "train_speed(iter/s)": 1.475328
    },
    {
      "epoch": 0.7750310612227411,
      "grad_norm": 1.1533554792404175,
      "learning_rate": 9.418782488210882e-05,
      "loss": 0.46178278923034666,
      "memory(GiB)": 61.91,
      "step": 18090,
      "token_acc": 0.8977635782747604,
      "train_speed(iter/s)": 1.475323
    },
    {
      "epoch": 0.77524527655199,
      "grad_norm": 2.110898017883301,
      "learning_rate": 9.418467530434103e-05,
      "loss": 0.5668289184570312,
      "memory(GiB)": 61.91,
      "step": 18095,
      "token_acc": 0.884,
      "train_speed(iter/s)": 1.475312
    },
    {
      "epoch": 0.775459491881239,
      "grad_norm": 2.4103446006774902,
      "learning_rate": 9.41815249261264e-05,
      "loss": 0.23775846958160402,
      "memory(GiB)": 61.91,
      "step": 18100,
      "token_acc": 0.937984496124031,
      "train_speed(iter/s)": 1.475323
    },
    {
      "epoch": 0.775673707210488,
      "grad_norm": 5.103067398071289,
      "learning_rate": 9.417837374752199e-05,
      "loss": 0.33349971771240233,
      "memory(GiB)": 61.91,
      "step": 18105,
      "token_acc": 0.931740614334471,
      "train_speed(iter/s)": 1.475368
    },
    {
      "epoch": 0.7758879225397369,
      "grad_norm": 2.5990865230560303,
      "learning_rate": 9.417522176858491e-05,
      "loss": 0.33001110553741453,
      "memory(GiB)": 61.91,
      "step": 18110,
      "token_acc": 0.9272727272727272,
      "train_speed(iter/s)": 1.475371
    },
    {
      "epoch": 0.7761021378689859,
      "grad_norm": 2.1576690673828125,
      "learning_rate": 9.417206898937223e-05,
      "loss": 0.32697248458862305,
      "memory(GiB)": 61.91,
      "step": 18115,
      "token_acc": 0.9452554744525548,
      "train_speed(iter/s)": 1.475361
    },
    {
      "epoch": 0.7763163531982349,
      "grad_norm": 4.651826858520508,
      "learning_rate": 9.41689154099411e-05,
      "loss": 0.4662612438201904,
      "memory(GiB)": 61.91,
      "step": 18120,
      "token_acc": 0.9039039039039038,
      "train_speed(iter/s)": 1.475362
    },
    {
      "epoch": 0.7765305685274838,
      "grad_norm": 2.8461434841156006,
      "learning_rate": 9.416576103034862e-05,
      "loss": 0.27122697830200193,
      "memory(GiB)": 61.91,
      "step": 18125,
      "token_acc": 0.9347181008902077,
      "train_speed(iter/s)": 1.475349
    },
    {
      "epoch": 0.7767447838567327,
      "grad_norm": 4.126341342926025,
      "learning_rate": 9.416260585065195e-05,
      "loss": 0.47978878021240234,
      "memory(GiB)": 61.91,
      "step": 18130,
      "token_acc": 0.9093851132686084,
      "train_speed(iter/s)": 1.475332
    },
    {
      "epoch": 0.7769589991859818,
      "grad_norm": 1.502657175064087,
      "learning_rate": 9.415944987090826e-05,
      "loss": 0.21162753105163573,
      "memory(GiB)": 61.91,
      "step": 18135,
      "token_acc": 0.9571428571428572,
      "train_speed(iter/s)": 1.47532
    },
    {
      "epoch": 0.7771732145152307,
      "grad_norm": 1.6383600234985352,
      "learning_rate": 9.415629309117471e-05,
      "loss": 0.2996227502822876,
      "memory(GiB)": 61.91,
      "step": 18140,
      "token_acc": 0.9404761904761905,
      "train_speed(iter/s)": 1.475308
    },
    {
      "epoch": 0.7773874298444796,
      "grad_norm": 0.4740476608276367,
      "learning_rate": 9.415313551150847e-05,
      "loss": 0.50497407913208,
      "memory(GiB)": 61.91,
      "step": 18145,
      "token_acc": 0.8855218855218855,
      "train_speed(iter/s)": 1.475293
    },
    {
      "epoch": 0.7776016451737287,
      "grad_norm": 3.0299289226531982,
      "learning_rate": 9.414997713196678e-05,
      "loss": 0.2419410228729248,
      "memory(GiB)": 61.91,
      "step": 18150,
      "token_acc": 0.9397163120567376,
      "train_speed(iter/s)": 1.475322
    },
    {
      "epoch": 0.7778158605029776,
      "grad_norm": 3.042367935180664,
      "learning_rate": 9.414681795260683e-05,
      "loss": 0.6752778053283691,
      "memory(GiB)": 61.91,
      "step": 18155,
      "token_acc": 0.8156028368794326,
      "train_speed(iter/s)": 1.475381
    },
    {
      "epoch": 0.7780300758322266,
      "grad_norm": 4.10979700088501,
      "learning_rate": 9.414365797348586e-05,
      "loss": 0.4149197578430176,
      "memory(GiB)": 61.91,
      "step": 18160,
      "token_acc": 0.9019607843137255,
      "train_speed(iter/s)": 1.475389
    },
    {
      "epoch": 0.7782442911614755,
      "grad_norm": 0.4377210736274719,
      "learning_rate": 9.414049719466111e-05,
      "loss": 0.10137203931808472,
      "memory(GiB)": 61.91,
      "step": 18165,
      "token_acc": 0.9664179104477612,
      "train_speed(iter/s)": 1.475378
    },
    {
      "epoch": 0.7784585064907245,
      "grad_norm": 0.824683666229248,
      "learning_rate": 9.413733561618985e-05,
      "loss": 0.4958193778991699,
      "memory(GiB)": 61.91,
      "step": 18170,
      "token_acc": 0.8949416342412452,
      "train_speed(iter/s)": 1.475405
    },
    {
      "epoch": 0.7786727218199735,
      "grad_norm": 4.913130760192871,
      "learning_rate": 9.413417323812936e-05,
      "loss": 0.42053661346435545,
      "memory(GiB)": 61.91,
      "step": 18175,
      "token_acc": 0.8982456140350877,
      "train_speed(iter/s)": 1.475388
    },
    {
      "epoch": 0.7788869371492224,
      "grad_norm": 3.716764211654663,
      "learning_rate": 9.41310100605369e-05,
      "loss": 0.7530553817749024,
      "memory(GiB)": 61.91,
      "step": 18180,
      "token_acc": 0.8539682539682539,
      "train_speed(iter/s)": 1.475356
    },
    {
      "epoch": 0.7791011524784713,
      "grad_norm": 2.9686596393585205,
      "learning_rate": 9.412784608346983e-05,
      "loss": 0.4850471973419189,
      "memory(GiB)": 61.91,
      "step": 18185,
      "token_acc": 0.8956521739130435,
      "train_speed(iter/s)": 1.475351
    },
    {
      "epoch": 0.7793153678077204,
      "grad_norm": 1.6737639904022217,
      "learning_rate": 9.41246813069854e-05,
      "loss": 0.34420387744903563,
      "memory(GiB)": 61.91,
      "step": 18190,
      "token_acc": 0.9222614840989399,
      "train_speed(iter/s)": 1.475358
    },
    {
      "epoch": 0.7795295831369693,
      "grad_norm": 5.964578151702881,
      "learning_rate": 9.412151573114098e-05,
      "loss": 0.5602612972259522,
      "memory(GiB)": 61.91,
      "step": 18195,
      "token_acc": 0.8795620437956204,
      "train_speed(iter/s)": 1.475395
    },
    {
      "epoch": 0.7797437984662182,
      "grad_norm": 2.513779640197754,
      "learning_rate": 9.411834935599393e-05,
      "loss": 0.4416038513183594,
      "memory(GiB)": 61.91,
      "step": 18200,
      "token_acc": 0.8984962406015038,
      "train_speed(iter/s)": 1.475367
    },
    {
      "epoch": 0.7799580137954673,
      "grad_norm": 3.5727601051330566,
      "learning_rate": 9.411518218160158e-05,
      "loss": 0.3451981544494629,
      "memory(GiB)": 61.91,
      "step": 18205,
      "token_acc": 0.9217687074829932,
      "train_speed(iter/s)": 1.475384
    },
    {
      "epoch": 0.7801722291247162,
      "grad_norm": 1.8249051570892334,
      "learning_rate": 9.411201420802134e-05,
      "loss": 0.2401799201965332,
      "memory(GiB)": 61.91,
      "step": 18210,
      "token_acc": 0.9431818181818182,
      "train_speed(iter/s)": 1.475361
    },
    {
      "epoch": 0.7803864444539651,
      "grad_norm": 5.3668928146362305,
      "learning_rate": 9.410884543531056e-05,
      "loss": 0.2728896617889404,
      "memory(GiB)": 61.91,
      "step": 18215,
      "token_acc": 0.9318181818181818,
      "train_speed(iter/s)": 1.475325
    },
    {
      "epoch": 0.7806006597832141,
      "grad_norm": 7.242773532867432,
      "learning_rate": 9.410567586352668e-05,
      "loss": 0.31612999439239503,
      "memory(GiB)": 61.91,
      "step": 18220,
      "token_acc": 0.9278350515463918,
      "train_speed(iter/s)": 1.475304
    },
    {
      "epoch": 0.7808148751124631,
      "grad_norm": 2.543660879135132,
      "learning_rate": 9.41025054927271e-05,
      "loss": 0.3086737871170044,
      "memory(GiB)": 61.91,
      "step": 18225,
      "token_acc": 0.9383116883116883,
      "train_speed(iter/s)": 1.475294
    },
    {
      "epoch": 0.781029090441712,
      "grad_norm": 4.4405412673950195,
      "learning_rate": 9.409933432296927e-05,
      "loss": 0.43038363456726075,
      "memory(GiB)": 61.91,
      "step": 18230,
      "token_acc": 0.9047619047619048,
      "train_speed(iter/s)": 1.475282
    },
    {
      "epoch": 0.781243305770961,
      "grad_norm": 3.361912488937378,
      "learning_rate": 9.409616235431062e-05,
      "loss": 0.4404590606689453,
      "memory(GiB)": 61.91,
      "step": 18235,
      "token_acc": 0.9014925373134328,
      "train_speed(iter/s)": 1.475258
    },
    {
      "epoch": 0.7814575211002099,
      "grad_norm": 4.304111957550049,
      "learning_rate": 9.409298958680864e-05,
      "loss": 0.3563318967819214,
      "memory(GiB)": 61.91,
      "step": 18240,
      "token_acc": 0.9195402298850575,
      "train_speed(iter/s)": 1.475291
    },
    {
      "epoch": 0.7816717364294589,
      "grad_norm": 4.392543792724609,
      "learning_rate": 9.408981602052078e-05,
      "loss": 0.3089850425720215,
      "memory(GiB)": 61.91,
      "step": 18245,
      "token_acc": 0.9207547169811321,
      "train_speed(iter/s)": 1.475292
    },
    {
      "epoch": 0.7818859517587079,
      "grad_norm": 4.504976749420166,
      "learning_rate": 9.408664165550453e-05,
      "loss": 0.8227139472961426,
      "memory(GiB)": 61.91,
      "step": 18250,
      "token_acc": 0.8242811501597445,
      "train_speed(iter/s)": 1.47527
    },
    {
      "epoch": 0.7821001670879568,
      "grad_norm": 1.4801713228225708,
      "learning_rate": 9.408346649181742e-05,
      "loss": 0.22419450283050538,
      "memory(GiB)": 61.91,
      "step": 18255,
      "token_acc": 0.9505813953488372,
      "train_speed(iter/s)": 1.475291
    },
    {
      "epoch": 0.7823143824172057,
      "grad_norm": 0.36407697200775146,
      "learning_rate": 9.408029052951698e-05,
      "loss": 0.3018055438995361,
      "memory(GiB)": 61.91,
      "step": 18260,
      "token_acc": 0.9322033898305084,
      "train_speed(iter/s)": 1.475283
    },
    {
      "epoch": 0.7825285977464548,
      "grad_norm": 3.7339563369750977,
      "learning_rate": 9.407711376866071e-05,
      "loss": 0.43625102043151853,
      "memory(GiB)": 61.91,
      "step": 18265,
      "token_acc": 0.8920863309352518,
      "train_speed(iter/s)": 1.475316
    },
    {
      "epoch": 0.7827428130757037,
      "grad_norm": 4.981937885284424,
      "learning_rate": 9.407393620930618e-05,
      "loss": 0.3895270586013794,
      "memory(GiB)": 61.91,
      "step": 18270,
      "token_acc": 0.9290780141843972,
      "train_speed(iter/s)": 1.475324
    },
    {
      "epoch": 0.7829570284049526,
      "grad_norm": 3.34212064743042,
      "learning_rate": 9.407075785151094e-05,
      "loss": 0.40848913192749026,
      "memory(GiB)": 61.91,
      "step": 18275,
      "token_acc": 0.914396887159533,
      "train_speed(iter/s)": 1.475311
    },
    {
      "epoch": 0.7831712437342017,
      "grad_norm": 2.970597267150879,
      "learning_rate": 9.406757869533259e-05,
      "loss": 0.1914145827293396,
      "memory(GiB)": 61.91,
      "step": 18280,
      "token_acc": 0.9577922077922078,
      "train_speed(iter/s)": 1.475295
    },
    {
      "epoch": 0.7833854590634506,
      "grad_norm": 3.3834140300750732,
      "learning_rate": 9.406439874082871e-05,
      "loss": 0.397034740447998,
      "memory(GiB)": 61.91,
      "step": 18285,
      "token_acc": 0.916083916083916,
      "train_speed(iter/s)": 1.475302
    },
    {
      "epoch": 0.7835996743926995,
      "grad_norm": 6.06129789352417,
      "learning_rate": 9.406121798805692e-05,
      "loss": 0.5157209396362304,
      "memory(GiB)": 61.91,
      "step": 18290,
      "token_acc": 0.9111842105263158,
      "train_speed(iter/s)": 1.475324
    },
    {
      "epoch": 0.7838138897219485,
      "grad_norm": 2.664497137069702,
      "learning_rate": 9.405803643707482e-05,
      "loss": 0.6046819686889648,
      "memory(GiB)": 61.91,
      "step": 18295,
      "token_acc": 0.8846153846153846,
      "train_speed(iter/s)": 1.475297
    },
    {
      "epoch": 0.7840281050511975,
      "grad_norm": 3.0954744815826416,
      "learning_rate": 9.405485408794005e-05,
      "loss": 0.5451520919799805,
      "memory(GiB)": 61.91,
      "step": 18300,
      "token_acc": 0.8868613138686131,
      "train_speed(iter/s)": 1.475294
    },
    {
      "epoch": 0.7842423203804464,
      "grad_norm": 5.036472320556641,
      "learning_rate": 9.40516709407103e-05,
      "loss": 0.34125123023986814,
      "memory(GiB)": 61.91,
      "step": 18305,
      "token_acc": 0.9333333333333333,
      "train_speed(iter/s)": 1.475283
    },
    {
      "epoch": 0.7844565357096954,
      "grad_norm": 2.4226138591766357,
      "learning_rate": 9.40484869954432e-05,
      "loss": 0.4034876823425293,
      "memory(GiB)": 61.91,
      "step": 18310,
      "token_acc": 0.9034749034749034,
      "train_speed(iter/s)": 1.47527
    },
    {
      "epoch": 0.7846707510389443,
      "grad_norm": 2.0947017669677734,
      "learning_rate": 9.404530225219643e-05,
      "loss": 0.4193308353424072,
      "memory(GiB)": 61.91,
      "step": 18315,
      "token_acc": 0.9247648902821317,
      "train_speed(iter/s)": 1.475249
    },
    {
      "epoch": 0.7848849663681933,
      "grad_norm": 1.9820621013641357,
      "learning_rate": 9.404211671102769e-05,
      "loss": 0.5283358097076416,
      "memory(GiB)": 61.91,
      "step": 18320,
      "token_acc": 0.8888888888888888,
      "train_speed(iter/s)": 1.475254
    },
    {
      "epoch": 0.7850991816974423,
      "grad_norm": 0.6188111305236816,
      "learning_rate": 9.403893037199469e-05,
      "loss": 0.3248807668685913,
      "memory(GiB)": 61.91,
      "step": 18325,
      "token_acc": 0.9366666666666666,
      "train_speed(iter/s)": 1.475253
    },
    {
      "epoch": 0.7853133970266912,
      "grad_norm": 4.409011363983154,
      "learning_rate": 9.403574323515516e-05,
      "loss": 0.5854901790618896,
      "memory(GiB)": 61.91,
      "step": 18330,
      "token_acc": 0.8731343283582089,
      "train_speed(iter/s)": 1.475236
    },
    {
      "epoch": 0.7855276123559402,
      "grad_norm": 3.93644380569458,
      "learning_rate": 9.403255530056682e-05,
      "loss": 0.3459939956665039,
      "memory(GiB)": 61.91,
      "step": 18335,
      "token_acc": 0.9174041297935103,
      "train_speed(iter/s)": 1.475268
    },
    {
      "epoch": 0.7857418276851892,
      "grad_norm": 3.0632126331329346,
      "learning_rate": 9.402936656828745e-05,
      "loss": 0.3423941612243652,
      "memory(GiB)": 61.91,
      "step": 18340,
      "token_acc": 0.9387755102040817,
      "train_speed(iter/s)": 1.475297
    },
    {
      "epoch": 0.7859560430144381,
      "grad_norm": 3.6476686000823975,
      "learning_rate": 9.40261770383748e-05,
      "loss": 0.9022815704345704,
      "memory(GiB)": 61.91,
      "step": 18345,
      "token_acc": 0.8338278931750742,
      "train_speed(iter/s)": 1.475282
    },
    {
      "epoch": 0.786170258343687,
      "grad_norm": 3.154538631439209,
      "learning_rate": 9.402298671088665e-05,
      "loss": 0.33768658638000487,
      "memory(GiB)": 61.91,
      "step": 18350,
      "token_acc": 0.9087591240875912,
      "train_speed(iter/s)": 1.475291
    },
    {
      "epoch": 0.7863844736729361,
      "grad_norm": 2.4833741188049316,
      "learning_rate": 9.401979558588081e-05,
      "loss": 0.38443498611450194,
      "memory(GiB)": 61.91,
      "step": 18355,
      "token_acc": 0.9148148148148149,
      "train_speed(iter/s)": 1.47538
    },
    {
      "epoch": 0.786598689002185,
      "grad_norm": 4.310610771179199,
      "learning_rate": 9.401660366341506e-05,
      "loss": 0.5771257400512695,
      "memory(GiB)": 61.91,
      "step": 18360,
      "token_acc": 0.8734693877551021,
      "train_speed(iter/s)": 1.475424
    },
    {
      "epoch": 0.7868129043314339,
      "grad_norm": 1.4788991212844849,
      "learning_rate": 9.401341094354725e-05,
      "loss": 0.6203030586242676,
      "memory(GiB)": 61.91,
      "step": 18365,
      "token_acc": 0.8907849829351536,
      "train_speed(iter/s)": 1.475396
    },
    {
      "epoch": 0.787027119660683,
      "grad_norm": 2.8922224044799805,
      "learning_rate": 9.401021742633523e-05,
      "loss": 0.2692288398742676,
      "memory(GiB)": 61.91,
      "step": 18370,
      "token_acc": 0.9323076923076923,
      "train_speed(iter/s)": 1.475371
    },
    {
      "epoch": 0.7872413349899319,
      "grad_norm": 4.602039813995361,
      "learning_rate": 9.400702311183681e-05,
      "loss": 0.6428001880645752,
      "memory(GiB)": 61.91,
      "step": 18375,
      "token_acc": 0.8546099290780141,
      "train_speed(iter/s)": 1.475401
    },
    {
      "epoch": 0.7874555503191808,
      "grad_norm": 4.733827590942383,
      "learning_rate": 9.40038280001099e-05,
      "loss": 0.5406495094299316,
      "memory(GiB)": 61.91,
      "step": 18380,
      "token_acc": 0.8670886075949367,
      "train_speed(iter/s)": 1.475398
    },
    {
      "epoch": 0.7876697656484298,
      "grad_norm": 4.539280414581299,
      "learning_rate": 9.400063209121235e-05,
      "loss": 0.45218782424926757,
      "memory(GiB)": 61.91,
      "step": 18385,
      "token_acc": 0.8920863309352518,
      "train_speed(iter/s)": 1.47538
    },
    {
      "epoch": 0.7878839809776788,
      "grad_norm": 2.3652846813201904,
      "learning_rate": 9.39974353852021e-05,
      "loss": 0.4602104663848877,
      "memory(GiB)": 61.91,
      "step": 18390,
      "token_acc": 0.8935361216730038,
      "train_speed(iter/s)": 1.475342
    },
    {
      "epoch": 0.7880981963069277,
      "grad_norm": 6.795609951019287,
      "learning_rate": 9.399423788213701e-05,
      "loss": 0.5180245399475097,
      "memory(GiB)": 61.91,
      "step": 18395,
      "token_acc": 0.8947368421052632,
      "train_speed(iter/s)": 1.475422
    },
    {
      "epoch": 0.7883124116361767,
      "grad_norm": 5.803899765014648,
      "learning_rate": 9.399103958207505e-05,
      "loss": 0.46486449241638184,
      "memory(GiB)": 61.91,
      "step": 18400,
      "token_acc": 0.8985507246376812,
      "train_speed(iter/s)": 1.47542
    },
    {
      "epoch": 0.7885266269654256,
      "grad_norm": 4.889878273010254,
      "learning_rate": 9.398784048507414e-05,
      "loss": 0.37122206687927245,
      "memory(GiB)": 61.91,
      "step": 18405,
      "token_acc": 0.9214285714285714,
      "train_speed(iter/s)": 1.475422
    },
    {
      "epoch": 0.7887408422946746,
      "grad_norm": 1.5110496282577515,
      "learning_rate": 9.398464059119222e-05,
      "loss": 0.2590285062789917,
      "memory(GiB)": 61.91,
      "step": 18410,
      "token_acc": 0.9514563106796117,
      "train_speed(iter/s)": 1.475409
    },
    {
      "epoch": 0.7889550576239236,
      "grad_norm": 4.9905686378479,
      "learning_rate": 9.398143990048727e-05,
      "loss": 0.5189781188964844,
      "memory(GiB)": 61.91,
      "step": 18415,
      "token_acc": 0.8992805755395683,
      "train_speed(iter/s)": 1.475402
    },
    {
      "epoch": 0.7891692729531725,
      "grad_norm": 4.14054536819458,
      "learning_rate": 9.397823841301729e-05,
      "loss": 0.39918835163116456,
      "memory(GiB)": 61.91,
      "step": 18420,
      "token_acc": 0.907051282051282,
      "train_speed(iter/s)": 1.475394
    },
    {
      "epoch": 0.7893834882824214,
      "grad_norm": 6.6264729499816895,
      "learning_rate": 9.397503612884028e-05,
      "loss": 0.3877793550491333,
      "memory(GiB)": 61.91,
      "step": 18425,
      "token_acc": 0.9214285714285714,
      "train_speed(iter/s)": 1.475395
    },
    {
      "epoch": 0.7895977036116705,
      "grad_norm": 2.2090871334075928,
      "learning_rate": 9.397183304801422e-05,
      "loss": 0.4285701274871826,
      "memory(GiB)": 61.91,
      "step": 18430,
      "token_acc": 0.9217687074829932,
      "train_speed(iter/s)": 1.4754
    },
    {
      "epoch": 0.7898119189409194,
      "grad_norm": 2.3123679161071777,
      "learning_rate": 9.396862917059716e-05,
      "loss": 0.3271916627883911,
      "memory(GiB)": 61.91,
      "step": 18435,
      "token_acc": 0.9361702127659575,
      "train_speed(iter/s)": 1.475406
    },
    {
      "epoch": 0.7900261342701683,
      "grad_norm": 7.65413761138916,
      "learning_rate": 9.396542449664714e-05,
      "loss": 0.6744177341461182,
      "memory(GiB)": 61.91,
      "step": 18440,
      "token_acc": 0.8557046979865772,
      "train_speed(iter/s)": 1.475398
    },
    {
      "epoch": 0.7902403495994174,
      "grad_norm": 1.2584947347640991,
      "learning_rate": 9.396221902622221e-05,
      "loss": 0.2628985643386841,
      "memory(GiB)": 61.91,
      "step": 18445,
      "token_acc": 0.9465408805031447,
      "train_speed(iter/s)": 1.475409
    },
    {
      "epoch": 0.7904545649286663,
      "grad_norm": 5.150904178619385,
      "learning_rate": 9.395901275938047e-05,
      "loss": 0.5920158863067627,
      "memory(GiB)": 61.91,
      "step": 18450,
      "token_acc": 0.8981818181818182,
      "train_speed(iter/s)": 1.475444
    },
    {
      "epoch": 0.7906687802579152,
      "grad_norm": 3.6417105197906494,
      "learning_rate": 9.395580569617993e-05,
      "loss": 0.39792284965515134,
      "memory(GiB)": 61.91,
      "step": 18455,
      "token_acc": 0.9255663430420712,
      "train_speed(iter/s)": 1.475458
    },
    {
      "epoch": 0.7908829955871642,
      "grad_norm": 1.864035725593567,
      "learning_rate": 9.395259783667876e-05,
      "loss": 0.14321712255477906,
      "memory(GiB)": 61.91,
      "step": 18460,
      "token_acc": 0.9614243323442137,
      "train_speed(iter/s)": 1.475463
    },
    {
      "epoch": 0.7910972109164132,
      "grad_norm": 4.1704182624816895,
      "learning_rate": 9.394938918093506e-05,
      "loss": 0.29643776416778567,
      "memory(GiB)": 61.91,
      "step": 18465,
      "token_acc": 0.9434628975265018,
      "train_speed(iter/s)": 1.475467
    },
    {
      "epoch": 0.7913114262456621,
      "grad_norm": 2.4637370109558105,
      "learning_rate": 9.394617972900692e-05,
      "loss": 0.6764262676239013,
      "memory(GiB)": 61.91,
      "step": 18470,
      "token_acc": 0.8434504792332268,
      "train_speed(iter/s)": 1.47548
    },
    {
      "epoch": 0.7915256415749111,
      "grad_norm": 1.5648157596588135,
      "learning_rate": 9.394296948095251e-05,
      "loss": 0.4197638988494873,
      "memory(GiB)": 61.91,
      "step": 18475,
      "token_acc": 0.8707482993197279,
      "train_speed(iter/s)": 1.475551
    },
    {
      "epoch": 0.79173985690416,
      "grad_norm": 9.901230812072754,
      "learning_rate": 9.393975843683e-05,
      "loss": 0.37912323474884035,
      "memory(GiB)": 61.91,
      "step": 18480,
      "token_acc": 0.9190751445086706,
      "train_speed(iter/s)": 1.475591
    },
    {
      "epoch": 0.791954072233409,
      "grad_norm": 2.578077793121338,
      "learning_rate": 9.393654659669755e-05,
      "loss": 0.37273871898651123,
      "memory(GiB)": 61.91,
      "step": 18485,
      "token_acc": 0.9113924050632911,
      "train_speed(iter/s)": 1.475597
    },
    {
      "epoch": 0.792168287562658,
      "grad_norm": 7.595118999481201,
      "learning_rate": 9.393333396061335e-05,
      "loss": 0.5484381675720215,
      "memory(GiB)": 61.91,
      "step": 18490,
      "token_acc": 0.9003215434083601,
      "train_speed(iter/s)": 1.475622
    },
    {
      "epoch": 0.7923825028919069,
      "grad_norm": 3.5842859745025635,
      "learning_rate": 9.393012052863556e-05,
      "loss": 0.297391939163208,
      "memory(GiB)": 61.91,
      "step": 18495,
      "token_acc": 0.9501661129568106,
      "train_speed(iter/s)": 1.475642
    },
    {
      "epoch": 0.792596718221156,
      "grad_norm": 5.659254550933838,
      "learning_rate": 9.392690630082246e-05,
      "loss": 0.5155001640319824,
      "memory(GiB)": 61.91,
      "step": 18500,
      "token_acc": 0.9183006535947712,
      "train_speed(iter/s)": 1.475648
    },
    {
      "epoch": 0.792596718221156,
      "eval_loss": 2.574023723602295,
      "eval_runtime": 13.5331,
      "eval_samples_per_second": 7.389,
      "eval_steps_per_second": 7.389,
      "eval_token_acc": 0.422475106685633,
      "step": 18500
    },
    {
      "epoch": 0.7928109335504049,
      "grad_norm": 3.272918224334717,
      "learning_rate": 9.392369127723224e-05,
      "loss": 0.5598132610321045,
      "memory(GiB)": 61.91,
      "step": 18505,
      "token_acc": 0.5686080947680158,
      "train_speed(iter/s)": 1.473928
    },
    {
      "epoch": 0.7930251488796538,
      "grad_norm": 4.966953277587891,
      "learning_rate": 9.392047545792312e-05,
      "loss": 0.2361004114151001,
      "memory(GiB)": 61.91,
      "step": 18510,
      "token_acc": 0.9370860927152318,
      "train_speed(iter/s)": 1.473906
    },
    {
      "epoch": 0.7932393642089028,
      "grad_norm": 5.0572052001953125,
      "learning_rate": 9.391725884295342e-05,
      "loss": 0.40151634216308596,
      "memory(GiB)": 61.91,
      "step": 18515,
      "token_acc": 0.8850931677018633,
      "train_speed(iter/s)": 1.473904
    },
    {
      "epoch": 0.7934535795381518,
      "grad_norm": 1.6856962442398071,
      "learning_rate": 9.391404143238137e-05,
      "loss": 0.24655508995056152,
      "memory(GiB)": 61.91,
      "step": 18520,
      "token_acc": 0.9344827586206896,
      "train_speed(iter/s)": 1.473907
    },
    {
      "epoch": 0.7936677948674007,
      "grad_norm": 2.0310492515563965,
      "learning_rate": 9.391082322626526e-05,
      "loss": 0.2624941349029541,
      "memory(GiB)": 61.91,
      "step": 18525,
      "token_acc": 0.9496644295302014,
      "train_speed(iter/s)": 1.473907
    },
    {
      "epoch": 0.7938820101966497,
      "grad_norm": 2.181705951690674,
      "learning_rate": 9.39076042246634e-05,
      "loss": 0.16793471574783325,
      "memory(GiB)": 61.91,
      "step": 18530,
      "token_acc": 0.9633699633699634,
      "train_speed(iter/s)": 1.473916
    },
    {
      "epoch": 0.7940962255258986,
      "grad_norm": 2.3664073944091797,
      "learning_rate": 9.39043844276341e-05,
      "loss": 0.46283588409423826,
      "memory(GiB)": 61.91,
      "step": 18535,
      "token_acc": 0.9027777777777778,
      "train_speed(iter/s)": 1.47393
    },
    {
      "epoch": 0.7943104408551476,
      "grad_norm": 1.4814714193344116,
      "learning_rate": 9.390116383523568e-05,
      "loss": 0.39252486228942873,
      "memory(GiB)": 61.91,
      "step": 18540,
      "token_acc": 0.9050847457627119,
      "train_speed(iter/s)": 1.473983
    },
    {
      "epoch": 0.7945246561843966,
      "grad_norm": 4.718359470367432,
      "learning_rate": 9.38979424475265e-05,
      "loss": 0.3776960849761963,
      "memory(GiB)": 61.91,
      "step": 18545,
      "token_acc": 0.927797833935018,
      "train_speed(iter/s)": 1.473983
    },
    {
      "epoch": 0.7947388715136455,
      "grad_norm": 2.585422992706299,
      "learning_rate": 9.389472026456492e-05,
      "loss": 0.30879027843475343,
      "memory(GiB)": 61.91,
      "step": 18550,
      "token_acc": 0.9347079037800687,
      "train_speed(iter/s)": 1.473958
    },
    {
      "epoch": 0.7949530868428945,
      "grad_norm": 1.2046576738357544,
      "learning_rate": 9.38914972864093e-05,
      "loss": 0.13352725505828858,
      "memory(GiB)": 61.91,
      "step": 18555,
      "token_acc": 0.9659090909090909,
      "train_speed(iter/s)": 1.473957
    },
    {
      "epoch": 0.7951673021721435,
      "grad_norm": 0.11178230494260788,
      "learning_rate": 9.388827351311804e-05,
      "loss": 0.43127026557922366,
      "memory(GiB)": 61.91,
      "step": 18560,
      "token_acc": 0.9201388888888888,
      "train_speed(iter/s)": 1.473965
    },
    {
      "epoch": 0.7953815175013924,
      "grad_norm": 2.999084234237671,
      "learning_rate": 9.388504894474953e-05,
      "loss": 0.6221551418304443,
      "memory(GiB)": 61.91,
      "step": 18565,
      "token_acc": 0.8856088560885609,
      "train_speed(iter/s)": 1.474028
    },
    {
      "epoch": 0.7955957328306413,
      "grad_norm": 3.237025022506714,
      "learning_rate": 9.38818235813622e-05,
      "loss": 0.33475098609924314,
      "memory(GiB)": 61.91,
      "step": 18570,
      "token_acc": 0.9384615384615385,
      "train_speed(iter/s)": 1.474101
    },
    {
      "epoch": 0.7958099481598904,
      "grad_norm": 5.419332027435303,
      "learning_rate": 9.387859742301445e-05,
      "loss": 0.22651875019073486,
      "memory(GiB)": 61.91,
      "step": 18575,
      "token_acc": 0.951048951048951,
      "train_speed(iter/s)": 1.474114
    },
    {
      "epoch": 0.7960241634891393,
      "grad_norm": 4.656375885009766,
      "learning_rate": 9.387537046976476e-05,
      "loss": 0.41849446296691895,
      "memory(GiB)": 61.91,
      "step": 18580,
      "token_acc": 0.9049295774647887,
      "train_speed(iter/s)": 1.474121
    },
    {
      "epoch": 0.7962383788183882,
      "grad_norm": 3.3053672313690186,
      "learning_rate": 9.387214272167157e-05,
      "loss": 0.4264240741729736,
      "memory(GiB)": 61.91,
      "step": 18585,
      "token_acc": 0.914396887159533,
      "train_speed(iter/s)": 1.47413
    },
    {
      "epoch": 0.7964525941476372,
      "grad_norm": 1.3435789346694946,
      "learning_rate": 9.386891417879335e-05,
      "loss": 0.40169439315795896,
      "memory(GiB)": 61.91,
      "step": 18590,
      "token_acc": 0.9210526315789473,
      "train_speed(iter/s)": 1.474117
    },
    {
      "epoch": 0.7966668094768862,
      "grad_norm": 6.600622177124023,
      "learning_rate": 9.386568484118862e-05,
      "loss": 0.26682462692260744,
      "memory(GiB)": 61.91,
      "step": 18595,
      "token_acc": 0.9537815126050421,
      "train_speed(iter/s)": 1.47411
    },
    {
      "epoch": 0.7968810248061351,
      "grad_norm": 1.584809422492981,
      "learning_rate": 9.386245470891584e-05,
      "loss": 0.43613252639770506,
      "memory(GiB)": 61.91,
      "step": 18600,
      "token_acc": 0.9032258064516129,
      "train_speed(iter/s)": 1.474131
    },
    {
      "epoch": 0.7970952401353841,
      "grad_norm": 3.7048964500427246,
      "learning_rate": 9.385922378203356e-05,
      "loss": 0.18313544988632202,
      "memory(GiB)": 61.91,
      "step": 18605,
      "token_acc": 0.975609756097561,
      "train_speed(iter/s)": 1.474136
    },
    {
      "epoch": 0.797309455464633,
      "grad_norm": 0.7785220742225647,
      "learning_rate": 9.38559920606003e-05,
      "loss": 0.3190826654434204,
      "memory(GiB)": 61.91,
      "step": 18610,
      "token_acc": 0.9342560553633218,
      "train_speed(iter/s)": 1.474172
    },
    {
      "epoch": 0.797523670793882,
      "grad_norm": 3.739743709564209,
      "learning_rate": 9.38527595446746e-05,
      "loss": 0.4396231651306152,
      "memory(GiB)": 61.91,
      "step": 18615,
      "token_acc": 0.906896551724138,
      "train_speed(iter/s)": 1.474165
    },
    {
      "epoch": 0.797737886123131,
      "grad_norm": 4.534667491912842,
      "learning_rate": 9.384952623431502e-05,
      "loss": 0.8241065979003906,
      "memory(GiB)": 61.91,
      "step": 18620,
      "token_acc": 0.8192419825072886,
      "train_speed(iter/s)": 1.474125
    },
    {
      "epoch": 0.7979521014523799,
      "grad_norm": 1.1816273927688599,
      "learning_rate": 9.384629212958014e-05,
      "loss": 0.1785948395729065,
      "memory(GiB)": 61.91,
      "step": 18625,
      "token_acc": 0.9695817490494296,
      "train_speed(iter/s)": 1.474125
    },
    {
      "epoch": 0.7981663167816289,
      "grad_norm": 1.8985686302185059,
      "learning_rate": 9.384305723052855e-05,
      "loss": 0.31483049392700196,
      "memory(GiB)": 61.91,
      "step": 18630,
      "token_acc": 0.9430379746835443,
      "train_speed(iter/s)": 1.474124
    },
    {
      "epoch": 0.7983805321108779,
      "grad_norm": 2.2994425296783447,
      "learning_rate": 9.383982153721884e-05,
      "loss": 0.39060699939727783,
      "memory(GiB)": 61.91,
      "step": 18635,
      "token_acc": 0.9181494661921709,
      "train_speed(iter/s)": 1.474118
    },
    {
      "epoch": 0.7985947474401268,
      "grad_norm": 4.656024932861328,
      "learning_rate": 9.383658504970965e-05,
      "loss": 0.4783134460449219,
      "memory(GiB)": 61.91,
      "step": 18640,
      "token_acc": 0.8991935483870968,
      "train_speed(iter/s)": 1.474094
    },
    {
      "epoch": 0.7988089627693757,
      "grad_norm": 2.3416354656219482,
      "learning_rate": 9.383334776805958e-05,
      "loss": 0.6098880290985107,
      "memory(GiB)": 61.91,
      "step": 18645,
      "token_acc": 0.8666666666666667,
      "train_speed(iter/s)": 1.474059
    },
    {
      "epoch": 0.7990231780986248,
      "grad_norm": 5.026739597320557,
      "learning_rate": 9.383010969232731e-05,
      "loss": 0.4009675979614258,
      "memory(GiB)": 61.91,
      "step": 18650,
      "token_acc": 0.9180887372013652,
      "train_speed(iter/s)": 1.474037
    },
    {
      "epoch": 0.7992373934278737,
      "grad_norm": 3.422908306121826,
      "learning_rate": 9.382687082257149e-05,
      "loss": 0.6899025917053223,
      "memory(GiB)": 61.91,
      "step": 18655,
      "token_acc": 0.8584070796460177,
      "train_speed(iter/s)": 1.474065
    },
    {
      "epoch": 0.7994516087571226,
      "grad_norm": 3.3283779621124268,
      "learning_rate": 9.38236311588508e-05,
      "loss": 0.21002719402313233,
      "memory(GiB)": 61.91,
      "step": 18660,
      "token_acc": 0.9609929078014184,
      "train_speed(iter/s)": 1.474047
    },
    {
      "epoch": 0.7996658240863717,
      "grad_norm": 2.304401159286499,
      "learning_rate": 9.38203907012239e-05,
      "loss": 0.41063852310180665,
      "memory(GiB)": 61.91,
      "step": 18665,
      "token_acc": 0.9194139194139194,
      "train_speed(iter/s)": 1.474063
    },
    {
      "epoch": 0.7998800394156206,
      "grad_norm": 3.561155080795288,
      "learning_rate": 9.381714944974953e-05,
      "loss": 0.4834311008453369,
      "memory(GiB)": 61.91,
      "step": 18670,
      "token_acc": 0.8849557522123894,
      "train_speed(iter/s)": 1.474087
    },
    {
      "epoch": 0.8000942547448695,
      "grad_norm": 2.300720691680908,
      "learning_rate": 9.38139074044864e-05,
      "loss": 0.32204110622406007,
      "memory(GiB)": 61.91,
      "step": 18675,
      "token_acc": 0.9175257731958762,
      "train_speed(iter/s)": 1.474054
    },
    {
      "epoch": 0.8003084700741185,
      "grad_norm": 3.604433298110962,
      "learning_rate": 9.381066456549321e-05,
      "loss": 0.31633501052856444,
      "memory(GiB)": 61.91,
      "step": 18680,
      "token_acc": 0.940625,
      "train_speed(iter/s)": 1.474066
    },
    {
      "epoch": 0.8005226854033675,
      "grad_norm": 0.2422514110803604,
      "learning_rate": 9.380742093282876e-05,
      "loss": 0.2056957006454468,
      "memory(GiB)": 61.91,
      "step": 18685,
      "token_acc": 0.9602446483180428,
      "train_speed(iter/s)": 1.47407
    },
    {
      "epoch": 0.8007369007326164,
      "grad_norm": 1.373374104499817,
      "learning_rate": 9.380417650655178e-05,
      "loss": 0.11875449419021607,
      "memory(GiB)": 61.91,
      "step": 18690,
      "token_acc": 0.9797101449275363,
      "train_speed(iter/s)": 1.474069
    },
    {
      "epoch": 0.8009511160618654,
      "grad_norm": 2.9152965545654297,
      "learning_rate": 9.380093128672104e-05,
      "loss": 0.6401498317718506,
      "memory(GiB)": 61.91,
      "step": 18695,
      "token_acc": 0.8754863813229572,
      "train_speed(iter/s)": 1.474065
    },
    {
      "epoch": 0.8011653313911143,
      "grad_norm": 4.159124851226807,
      "learning_rate": 9.379768527339534e-05,
      "loss": 0.36798532009124757,
      "memory(GiB)": 61.91,
      "step": 18700,
      "token_acc": 0.9141914191419142,
      "train_speed(iter/s)": 1.47407
    },
    {
      "epoch": 0.8013795467203633,
      "grad_norm": 3.8517603874206543,
      "learning_rate": 9.379443846663349e-05,
      "loss": 0.6658937931060791,
      "memory(GiB)": 61.91,
      "step": 18705,
      "token_acc": 0.8620689655172413,
      "train_speed(iter/s)": 1.474051
    },
    {
      "epoch": 0.8015937620496123,
      "grad_norm": 3.101155996322632,
      "learning_rate": 9.379119086649432e-05,
      "loss": 0.3228920936584473,
      "memory(GiB)": 61.91,
      "step": 18710,
      "token_acc": 0.9295774647887324,
      "train_speed(iter/s)": 1.474068
    },
    {
      "epoch": 0.8018079773788612,
      "grad_norm": 3.422792911529541,
      "learning_rate": 9.378794247303664e-05,
      "loss": 0.41062288284301757,
      "memory(GiB)": 61.91,
      "step": 18715,
      "token_acc": 0.9166666666666666,
      "train_speed(iter/s)": 1.474086
    },
    {
      "epoch": 0.8020221927081101,
      "grad_norm": 4.622722625732422,
      "learning_rate": 9.378469328631929e-05,
      "loss": 0.5445349216461182,
      "memory(GiB)": 61.91,
      "step": 18720,
      "token_acc": 0.8713235294117647,
      "train_speed(iter/s)": 1.474092
    },
    {
      "epoch": 0.8022364080373592,
      "grad_norm": 3.0639758110046387,
      "learning_rate": 9.378144330640118e-05,
      "loss": 0.26751368045806884,
      "memory(GiB)": 61.91,
      "step": 18725,
      "token_acc": 0.9475524475524476,
      "train_speed(iter/s)": 1.474142
    },
    {
      "epoch": 0.8024506233666081,
      "grad_norm": 3.4552083015441895,
      "learning_rate": 9.377819253334113e-05,
      "loss": 0.21582088470458985,
      "memory(GiB)": 61.91,
      "step": 18730,
      "token_acc": 0.952,
      "train_speed(iter/s)": 1.474151
    },
    {
      "epoch": 0.802664838695857,
      "grad_norm": 3.4900455474853516,
      "learning_rate": 9.377494096719805e-05,
      "loss": 0.7300946235656738,
      "memory(GiB)": 61.91,
      "step": 18735,
      "token_acc": 0.8607142857142858,
      "train_speed(iter/s)": 1.474155
    },
    {
      "epoch": 0.8028790540251061,
      "grad_norm": 2.1262834072113037,
      "learning_rate": 9.377168860803085e-05,
      "loss": 0.19719691276550294,
      "memory(GiB)": 61.91,
      "step": 18740,
      "token_acc": 0.9605263157894737,
      "train_speed(iter/s)": 1.474143
    },
    {
      "epoch": 0.803093269354355,
      "grad_norm": 2.8604021072387695,
      "learning_rate": 9.376843545589846e-05,
      "loss": 0.40342154502868655,
      "memory(GiB)": 61.91,
      "step": 18745,
      "token_acc": 0.9060150375939849,
      "train_speed(iter/s)": 1.474157
    },
    {
      "epoch": 0.8033074846836039,
      "grad_norm": 2.741079807281494,
      "learning_rate": 9.37651815108598e-05,
      "loss": 0.5112120628356933,
      "memory(GiB)": 61.91,
      "step": 18750,
      "token_acc": 0.8922558922558923,
      "train_speed(iter/s)": 1.474146
    },
    {
      "epoch": 0.803521700012853,
      "grad_norm": 5.040750503540039,
      "learning_rate": 9.376192677297383e-05,
      "loss": 0.4081984043121338,
      "memory(GiB)": 61.91,
      "step": 18755,
      "token_acc": 0.9243986254295533,
      "train_speed(iter/s)": 1.474145
    },
    {
      "epoch": 0.8037359153421019,
      "grad_norm": 0.6238551735877991,
      "learning_rate": 9.37586712422995e-05,
      "loss": 0.6019916534423828,
      "memory(GiB)": 61.91,
      "step": 18760,
      "token_acc": 0.8850574712643678,
      "train_speed(iter/s)": 1.474112
    },
    {
      "epoch": 0.8039501306713508,
      "grad_norm": 3.3715832233428955,
      "learning_rate": 9.375541491889579e-05,
      "loss": 0.46813116073608396,
      "memory(GiB)": 61.91,
      "step": 18765,
      "token_acc": 0.9069767441860465,
      "train_speed(iter/s)": 1.47412
    },
    {
      "epoch": 0.8041643460005998,
      "grad_norm": 2.386761426925659,
      "learning_rate": 9.375215780282169e-05,
      "loss": 0.3985734939575195,
      "memory(GiB)": 61.91,
      "step": 18770,
      "token_acc": 0.9344262295081968,
      "train_speed(iter/s)": 1.474107
    },
    {
      "epoch": 0.8043785613298488,
      "grad_norm": 4.078367710113525,
      "learning_rate": 9.374889989413622e-05,
      "loss": 0.5971104145050049,
      "memory(GiB)": 61.91,
      "step": 18775,
      "token_acc": 0.8945147679324894,
      "train_speed(iter/s)": 1.47411
    },
    {
      "epoch": 0.8045927766590977,
      "grad_norm": 5.44532585144043,
      "learning_rate": 9.374564119289837e-05,
      "loss": 0.7557895660400391,
      "memory(GiB)": 61.91,
      "step": 18780,
      "token_acc": 0.8349514563106796,
      "train_speed(iter/s)": 1.474161
    },
    {
      "epoch": 0.8048069919883467,
      "grad_norm": 7.29603385925293,
      "learning_rate": 9.37423816991672e-05,
      "loss": 0.4730524063110352,
      "memory(GiB)": 61.91,
      "step": 18785,
      "token_acc": 0.8933333333333333,
      "train_speed(iter/s)": 1.474192
    },
    {
      "epoch": 0.8050212073175956,
      "grad_norm": 2.860114097595215,
      "learning_rate": 9.373912141300177e-05,
      "loss": 0.2779209136962891,
      "memory(GiB)": 61.91,
      "step": 18790,
      "token_acc": 0.9311594202898551,
      "train_speed(iter/s)": 1.474195
    },
    {
      "epoch": 0.8052354226468446,
      "grad_norm": 3.792863130569458,
      "learning_rate": 9.37358603344611e-05,
      "loss": 0.3281688928604126,
      "memory(GiB)": 61.91,
      "step": 18795,
      "token_acc": 0.9326241134751773,
      "train_speed(iter/s)": 1.474209
    },
    {
      "epoch": 0.8054496379760936,
      "grad_norm": 4.797098636627197,
      "learning_rate": 9.37325984636043e-05,
      "loss": 0.5995500087738037,
      "memory(GiB)": 61.91,
      "step": 18800,
      "token_acc": 0.8639455782312925,
      "train_speed(iter/s)": 1.474182
    },
    {
      "epoch": 0.8056638533053425,
      "grad_norm": 3.3216679096221924,
      "learning_rate": 9.372933580049047e-05,
      "loss": 0.3559230327606201,
      "memory(GiB)": 61.91,
      "step": 18805,
      "token_acc": 0.9288025889967637,
      "train_speed(iter/s)": 1.474177
    },
    {
      "epoch": 0.8058780686345914,
      "grad_norm": 2.3485395908355713,
      "learning_rate": 9.372607234517868e-05,
      "loss": 0.6152901172637939,
      "memory(GiB)": 61.91,
      "step": 18810,
      "token_acc": 0.8925925925925926,
      "train_speed(iter/s)": 1.474189
    },
    {
      "epoch": 0.8060922839638405,
      "grad_norm": 3.7759811878204346,
      "learning_rate": 9.372280809772808e-05,
      "loss": 0.28699588775634766,
      "memory(GiB)": 61.91,
      "step": 18815,
      "token_acc": 0.9347826086956522,
      "train_speed(iter/s)": 1.4742
    },
    {
      "epoch": 0.8063064992930894,
      "grad_norm": 1.3878213167190552,
      "learning_rate": 9.371954305819779e-05,
      "loss": 0.4122321128845215,
      "memory(GiB)": 61.91,
      "step": 18820,
      "token_acc": 0.9225806451612903,
      "train_speed(iter/s)": 1.474176
    },
    {
      "epoch": 0.8065207146223383,
      "grad_norm": 2.0881776809692383,
      "learning_rate": 9.371627722664698e-05,
      "loss": 0.3179079532623291,
      "memory(GiB)": 61.91,
      "step": 18825,
      "token_acc": 0.9217687074829932,
      "train_speed(iter/s)": 1.474157
    },
    {
      "epoch": 0.8067349299515874,
      "grad_norm": 4.9934983253479,
      "learning_rate": 9.371301060313477e-05,
      "loss": 0.41310868263244627,
      "memory(GiB)": 61.91,
      "step": 18830,
      "token_acc": 0.9010989010989011,
      "train_speed(iter/s)": 1.474153
    },
    {
      "epoch": 0.8069491452808363,
      "grad_norm": 4.637001037597656,
      "learning_rate": 9.370974318772038e-05,
      "loss": 0.2987504243850708,
      "memory(GiB)": 61.91,
      "step": 18835,
      "token_acc": 0.9183673469387755,
      "train_speed(iter/s)": 1.474152
    },
    {
      "epoch": 0.8071633606100853,
      "grad_norm": 2.6170268058776855,
      "learning_rate": 9.370647498046302e-05,
      "loss": 0.3300474166870117,
      "memory(GiB)": 61.91,
      "step": 18840,
      "token_acc": 0.9456521739130435,
      "train_speed(iter/s)": 1.474156
    },
    {
      "epoch": 0.8073775759393342,
      "grad_norm": 6.155663013458252,
      "learning_rate": 9.370320598142183e-05,
      "loss": 0.3968080520629883,
      "memory(GiB)": 61.91,
      "step": 18845,
      "token_acc": 0.922509225092251,
      "train_speed(iter/s)": 1.474171
    },
    {
      "epoch": 0.8075917912685832,
      "grad_norm": 4.704369068145752,
      "learning_rate": 9.369993619065608e-05,
      "loss": 0.35061140060424806,
      "memory(GiB)": 61.91,
      "step": 18850,
      "token_acc": 0.9166666666666666,
      "train_speed(iter/s)": 1.474152
    },
    {
      "epoch": 0.8078060065978322,
      "grad_norm": 9.355813026428223,
      "learning_rate": 9.369666560822498e-05,
      "loss": 0.3230825662612915,
      "memory(GiB)": 61.91,
      "step": 18855,
      "token_acc": 0.9255813953488372,
      "train_speed(iter/s)": 1.474149
    },
    {
      "epoch": 0.8080202219270811,
      "grad_norm": 3.7218616008758545,
      "learning_rate": 9.36933942341878e-05,
      "loss": 0.4278896331787109,
      "memory(GiB)": 61.91,
      "step": 18860,
      "token_acc": 0.8953488372093024,
      "train_speed(iter/s)": 1.474133
    },
    {
      "epoch": 0.80823443725633,
      "grad_norm": 0.6616474390029907,
      "learning_rate": 9.369012206860381e-05,
      "loss": 0.44423184394836424,
      "memory(GiB)": 61.91,
      "step": 18865,
      "token_acc": 0.9090909090909091,
      "train_speed(iter/s)": 1.474161
    },
    {
      "epoch": 0.8084486525855791,
      "grad_norm": 6.573335647583008,
      "learning_rate": 9.368684911153225e-05,
      "loss": 0.5402679920196534,
      "memory(GiB)": 61.91,
      "step": 18870,
      "token_acc": 0.9063670411985019,
      "train_speed(iter/s)": 1.474167
    },
    {
      "epoch": 0.808662867914828,
      "grad_norm": 2.6111624240875244,
      "learning_rate": 9.368357536303245e-05,
      "loss": 0.34785354137420654,
      "memory(GiB)": 61.91,
      "step": 18875,
      "token_acc": 0.9345794392523364,
      "train_speed(iter/s)": 1.474187
    },
    {
      "epoch": 0.8088770832440769,
      "grad_norm": 6.986985683441162,
      "learning_rate": 9.36803008231637e-05,
      "loss": 0.4593794822692871,
      "memory(GiB)": 61.91,
      "step": 18880,
      "token_acc": 0.8876404494382022,
      "train_speed(iter/s)": 1.4742
    },
    {
      "epoch": 0.809091298573326,
      "grad_norm": 7.402266502380371,
      "learning_rate": 9.367702549198533e-05,
      "loss": 0.4630213737487793,
      "memory(GiB)": 61.91,
      "step": 18885,
      "token_acc": 0.9076305220883534,
      "train_speed(iter/s)": 1.474228
    },
    {
      "epoch": 0.8093055139025749,
      "grad_norm": 2.8385252952575684,
      "learning_rate": 9.367374936955666e-05,
      "loss": 0.45731048583984374,
      "memory(GiB)": 61.91,
      "step": 18890,
      "token_acc": 0.8898305084745762,
      "train_speed(iter/s)": 1.474263
    },
    {
      "epoch": 0.8095197292318238,
      "grad_norm": 2.6554296016693115,
      "learning_rate": 9.367047245593705e-05,
      "loss": 0.48888463973999025,
      "memory(GiB)": 61.91,
      "step": 18895,
      "token_acc": 0.9097472924187726,
      "train_speed(iter/s)": 1.474282
    },
    {
      "epoch": 0.8097339445610728,
      "grad_norm": 1.9531031847000122,
      "learning_rate": 9.366719475118588e-05,
      "loss": 0.24012346267700196,
      "memory(GiB)": 61.91,
      "step": 18900,
      "token_acc": 0.9517684887459807,
      "train_speed(iter/s)": 1.474291
    },
    {
      "epoch": 0.8099481598903218,
      "grad_norm": 2.2696683406829834,
      "learning_rate": 9.36639162553625e-05,
      "loss": 0.25869848728179934,
      "memory(GiB)": 61.91,
      "step": 18905,
      "token_acc": 0.9444444444444444,
      "train_speed(iter/s)": 1.47431
    },
    {
      "epoch": 0.8101623752195707,
      "grad_norm": 5.082864761352539,
      "learning_rate": 9.366063696852634e-05,
      "loss": 0.4358375549316406,
      "memory(GiB)": 61.91,
      "step": 18910,
      "token_acc": 0.9146757679180887,
      "train_speed(iter/s)": 1.474363
    },
    {
      "epoch": 0.8103765905488197,
      "grad_norm": 3.258709669113159,
      "learning_rate": 9.365735689073676e-05,
      "loss": 0.32673428058624265,
      "memory(GiB)": 61.91,
      "step": 18915,
      "token_acc": 0.9119496855345912,
      "train_speed(iter/s)": 1.474364
    },
    {
      "epoch": 0.8105908058780686,
      "grad_norm": 0.0666128545999527,
      "learning_rate": 9.365407602205322e-05,
      "loss": 0.28112177848815917,
      "memory(GiB)": 61.91,
      "step": 18920,
      "token_acc": 0.9540229885057471,
      "train_speed(iter/s)": 1.474372
    },
    {
      "epoch": 0.8108050212073176,
      "grad_norm": 4.607535362243652,
      "learning_rate": 9.365079436253513e-05,
      "loss": 0.5724672317504883,
      "memory(GiB)": 61.91,
      "step": 18925,
      "token_acc": 0.8805460750853242,
      "train_speed(iter/s)": 1.474422
    },
    {
      "epoch": 0.8110192365365666,
      "grad_norm": 2.0325076580047607,
      "learning_rate": 9.364751191224197e-05,
      "loss": 0.32991025447845457,
      "memory(GiB)": 61.91,
      "step": 18930,
      "token_acc": 0.9238410596026491,
      "train_speed(iter/s)": 1.474439
    },
    {
      "epoch": 0.8112334518658155,
      "grad_norm": 2.2790427207946777,
      "learning_rate": 9.364422867123317e-05,
      "loss": 0.619900894165039,
      "memory(GiB)": 61.91,
      "step": 18935,
      "token_acc": 0.8678571428571429,
      "train_speed(iter/s)": 1.474434
    },
    {
      "epoch": 0.8114476671950644,
      "grad_norm": 4.718181133270264,
      "learning_rate": 9.364094463956823e-05,
      "loss": 0.596822452545166,
      "memory(GiB)": 61.91,
      "step": 18940,
      "token_acc": 0.8787878787878788,
      "train_speed(iter/s)": 1.474423
    },
    {
      "epoch": 0.8116618825243135,
      "grad_norm": 2.8911564350128174,
      "learning_rate": 9.363765981730664e-05,
      "loss": 0.2434302806854248,
      "memory(GiB)": 61.91,
      "step": 18945,
      "token_acc": 0.9388489208633094,
      "train_speed(iter/s)": 1.474417
    },
    {
      "epoch": 0.8118760978535624,
      "grad_norm": 1.4176558256149292,
      "learning_rate": 9.363437420450791e-05,
      "loss": 0.49009385108947756,
      "memory(GiB)": 61.91,
      "step": 18950,
      "token_acc": 0.9003436426116839,
      "train_speed(iter/s)": 1.474416
    },
    {
      "epoch": 0.8120903131828113,
      "grad_norm": 2.526258707046509,
      "learning_rate": 9.363108780123155e-05,
      "loss": 0.32928004264831545,
      "memory(GiB)": 61.91,
      "step": 18955,
      "token_acc": 0.9230769230769231,
      "train_speed(iter/s)": 1.4744
    },
    {
      "epoch": 0.8123045285120604,
      "grad_norm": 2.693472385406494,
      "learning_rate": 9.362780060753712e-05,
      "loss": 0.5690230846405029,
      "memory(GiB)": 61.91,
      "step": 18960,
      "token_acc": 0.8689024390243902,
      "train_speed(iter/s)": 1.474391
    },
    {
      "epoch": 0.8125187438413093,
      "grad_norm": 3.4599695205688477,
      "learning_rate": 9.362451262348414e-05,
      "loss": 0.4181980133056641,
      "memory(GiB)": 61.91,
      "step": 18965,
      "token_acc": 0.926605504587156,
      "train_speed(iter/s)": 1.474441
    },
    {
      "epoch": 0.8127329591705582,
      "grad_norm": 3.047734022140503,
      "learning_rate": 9.362122384913221e-05,
      "loss": 0.24616765975952148,
      "memory(GiB)": 61.91,
      "step": 18970,
      "token_acc": 0.9354838709677419,
      "train_speed(iter/s)": 1.474412
    },
    {
      "epoch": 0.8129471744998072,
      "grad_norm": 0.4647904932498932,
      "learning_rate": 9.361793428454087e-05,
      "loss": 0.5162190437316895,
      "memory(GiB)": 61.91,
      "step": 18975,
      "token_acc": 0.897196261682243,
      "train_speed(iter/s)": 1.474433
    },
    {
      "epoch": 0.8131613898290562,
      "grad_norm": 3.0282905101776123,
      "learning_rate": 9.361464392976975e-05,
      "loss": 0.3116239070892334,
      "memory(GiB)": 61.91,
      "step": 18980,
      "token_acc": 0.9278350515463918,
      "train_speed(iter/s)": 1.474429
    },
    {
      "epoch": 0.8133756051583051,
      "grad_norm": 3.4018967151641846,
      "learning_rate": 9.361135278487843e-05,
      "loss": 0.42847495079040526,
      "memory(GiB)": 61.91,
      "step": 18985,
      "token_acc": 0.8995983935742972,
      "train_speed(iter/s)": 1.474427
    },
    {
      "epoch": 0.8135898204875541,
      "grad_norm": 3.2361583709716797,
      "learning_rate": 9.360806084992655e-05,
      "loss": 0.4822692394256592,
      "memory(GiB)": 61.91,
      "step": 18990,
      "token_acc": 0.9008264462809917,
      "train_speed(iter/s)": 1.474418
    },
    {
      "epoch": 0.813804035816803,
      "grad_norm": 1.6058682203292847,
      "learning_rate": 9.360476812497374e-05,
      "loss": 0.2878437519073486,
      "memory(GiB)": 61.91,
      "step": 18995,
      "token_acc": 0.930921052631579,
      "train_speed(iter/s)": 1.474393
    },
    {
      "epoch": 0.814018251146052,
      "grad_norm": 3.3386144638061523,
      "learning_rate": 9.360147461007964e-05,
      "loss": 0.8450477600097657,
      "memory(GiB)": 61.91,
      "step": 19000,
      "token_acc": 0.8571428571428571,
      "train_speed(iter/s)": 1.474394
    },
    {
      "epoch": 0.814018251146052,
      "eval_loss": 2.439305067062378,
      "eval_runtime": 13.8739,
      "eval_samples_per_second": 7.208,
      "eval_steps_per_second": 7.208,
      "eval_token_acc": 0.44487179487179485,
      "step": 19000
    },
    {
      "epoch": 0.814232466475301,
      "grad_norm": 2.59073543548584,
      "learning_rate": 9.359818030530394e-05,
      "loss": 0.30266761779785156,
      "memory(GiB)": 61.91,
      "step": 19005,
      "token_acc": 0.5733082706766918,
      "train_speed(iter/s)": 1.472712
    },
    {
      "epoch": 0.8144466818045499,
      "grad_norm": 1.5947685241699219,
      "learning_rate": 9.359488521070629e-05,
      "loss": 0.228110933303833,
      "memory(GiB)": 61.91,
      "step": 19010,
      "token_acc": 0.9251968503937008,
      "train_speed(iter/s)": 1.472685
    },
    {
      "epoch": 0.8146608971337989,
      "grad_norm": 3.439403533935547,
      "learning_rate": 9.359158932634642e-05,
      "loss": 0.5216547012329101,
      "memory(GiB)": 61.91,
      "step": 19015,
      "token_acc": 0.8835616438356164,
      "train_speed(iter/s)": 1.472686
    },
    {
      "epoch": 0.8148751124630479,
      "grad_norm": 3.48807954788208,
      "learning_rate": 9.3588292652284e-05,
      "loss": 0.4797548294067383,
      "memory(GiB)": 61.91,
      "step": 19020,
      "token_acc": 0.9040697674418605,
      "train_speed(iter/s)": 1.472681
    },
    {
      "epoch": 0.8150893277922968,
      "grad_norm": 3.1717610359191895,
      "learning_rate": 9.358499518857877e-05,
      "loss": 0.6077849388122558,
      "memory(GiB)": 61.91,
      "step": 19025,
      "token_acc": 0.8694029850746269,
      "train_speed(iter/s)": 1.472674
    },
    {
      "epoch": 0.8153035431215457,
      "grad_norm": 4.88322114944458,
      "learning_rate": 9.358169693529048e-05,
      "loss": 0.24203591346740722,
      "memory(GiB)": 61.91,
      "step": 19030,
      "token_acc": 0.9245283018867925,
      "train_speed(iter/s)": 1.472678
    },
    {
      "epoch": 0.8155177584507948,
      "grad_norm": 2.191582679748535,
      "learning_rate": 9.357839789247886e-05,
      "loss": 0.1745816469192505,
      "memory(GiB)": 61.91,
      "step": 19035,
      "token_acc": 0.9630996309963099,
      "train_speed(iter/s)": 1.472665
    },
    {
      "epoch": 0.8157319737800437,
      "grad_norm": 2.9046220779418945,
      "learning_rate": 9.357509806020369e-05,
      "loss": 0.3799008369445801,
      "memory(GiB)": 61.91,
      "step": 19040,
      "token_acc": 0.9392857142857143,
      "train_speed(iter/s)": 1.472707
    },
    {
      "epoch": 0.8159461891092926,
      "grad_norm": 6.391145706176758,
      "learning_rate": 9.357179743852471e-05,
      "loss": 0.7935803413391114,
      "memory(GiB)": 61.91,
      "step": 19045,
      "token_acc": 0.8317152103559871,
      "train_speed(iter/s)": 1.472717
    },
    {
      "epoch": 0.8161604044385417,
      "grad_norm": 4.065824031829834,
      "learning_rate": 9.356849602750177e-05,
      "loss": 0.30049724578857423,
      "memory(GiB)": 61.91,
      "step": 19050,
      "token_acc": 0.9250814332247557,
      "train_speed(iter/s)": 1.472706
    },
    {
      "epoch": 0.8163746197677906,
      "grad_norm": 3.638380527496338,
      "learning_rate": 9.356519382719467e-05,
      "loss": 0.5196584701538086,
      "memory(GiB)": 61.91,
      "step": 19055,
      "token_acc": 0.891156462585034,
      "train_speed(iter/s)": 1.472689
    },
    {
      "epoch": 0.8165888350970395,
      "grad_norm": 3.2578444480895996,
      "learning_rate": 9.356189083766318e-05,
      "loss": 0.3574237823486328,
      "memory(GiB)": 61.91,
      "step": 19060,
      "token_acc": 0.9325842696629213,
      "train_speed(iter/s)": 1.472684
    },
    {
      "epoch": 0.8168030504262885,
      "grad_norm": 3.715829610824585,
      "learning_rate": 9.35585870589672e-05,
      "loss": 0.40453262329101564,
      "memory(GiB)": 61.91,
      "step": 19065,
      "token_acc": 0.9047619047619048,
      "train_speed(iter/s)": 1.472686
    },
    {
      "epoch": 0.8170172657555375,
      "grad_norm": 3.0946171283721924,
      "learning_rate": 9.355528249116653e-05,
      "loss": 0.31367878913879393,
      "memory(GiB)": 61.91,
      "step": 19070,
      "token_acc": 0.9446064139941691,
      "train_speed(iter/s)": 1.472675
    },
    {
      "epoch": 0.8172314810847864,
      "grad_norm": 2.619549512863159,
      "learning_rate": 9.355197713432109e-05,
      "loss": 0.5052403450012207,
      "memory(GiB)": 61.91,
      "step": 19075,
      "token_acc": 0.8996763754045307,
      "train_speed(iter/s)": 1.472651
    },
    {
      "epoch": 0.8174456964140354,
      "grad_norm": 3.74698805809021,
      "learning_rate": 9.354867098849071e-05,
      "loss": 0.8028478622436523,
      "memory(GiB)": 61.91,
      "step": 19080,
      "token_acc": 0.8210116731517509,
      "train_speed(iter/s)": 1.472647
    },
    {
      "epoch": 0.8176599117432843,
      "grad_norm": 3.5552828311920166,
      "learning_rate": 9.35453640537353e-05,
      "loss": 0.4255534172058105,
      "memory(GiB)": 61.91,
      "step": 19085,
      "token_acc": 0.911864406779661,
      "train_speed(iter/s)": 1.47264
    },
    {
      "epoch": 0.8178741270725333,
      "grad_norm": 3.9059505462646484,
      "learning_rate": 9.354205633011479e-05,
      "loss": 0.3600472927093506,
      "memory(GiB)": 61.91,
      "step": 19090,
      "token_acc": 0.9203539823008849,
      "train_speed(iter/s)": 1.47262
    },
    {
      "epoch": 0.8180883424017823,
      "grad_norm": 1.1627929210662842,
      "learning_rate": 9.353874781768908e-05,
      "loss": 0.29270546436309813,
      "memory(GiB)": 61.91,
      "step": 19095,
      "token_acc": 0.9201520912547528,
      "train_speed(iter/s)": 1.47264
    },
    {
      "epoch": 0.8183025577310312,
      "grad_norm": 2.7965238094329834,
      "learning_rate": 9.353543851651809e-05,
      "loss": 0.3217471122741699,
      "memory(GiB)": 61.91,
      "step": 19100,
      "token_acc": 0.9276315789473685,
      "train_speed(iter/s)": 1.472652
    },
    {
      "epoch": 0.8185167730602801,
      "grad_norm": 2.8606653213500977,
      "learning_rate": 9.353212842666181e-05,
      "loss": 0.38212993144989016,
      "memory(GiB)": 61.91,
      "step": 19105,
      "token_acc": 0.9081272084805654,
      "train_speed(iter/s)": 1.472687
    },
    {
      "epoch": 0.8187309883895292,
      "grad_norm": 1.8077986240386963,
      "learning_rate": 9.352881754818019e-05,
      "loss": 0.37478744983673096,
      "memory(GiB)": 61.91,
      "step": 19110,
      "token_acc": 0.9081272084805654,
      "train_speed(iter/s)": 1.472686
    },
    {
      "epoch": 0.8189452037187781,
      "grad_norm": 2.803656578063965,
      "learning_rate": 9.352550588113319e-05,
      "loss": 0.37788023948669436,
      "memory(GiB)": 61.91,
      "step": 19115,
      "token_acc": 0.9047619047619048,
      "train_speed(iter/s)": 1.472717
    },
    {
      "epoch": 0.819159419048027,
      "grad_norm": 2.832307815551758,
      "learning_rate": 9.352219342558083e-05,
      "loss": 0.2159646987915039,
      "memory(GiB)": 61.91,
      "step": 19120,
      "token_acc": 0.958041958041958,
      "train_speed(iter/s)": 1.472726
    },
    {
      "epoch": 0.8193736343772761,
      "grad_norm": 2.089731216430664,
      "learning_rate": 9.351888018158312e-05,
      "loss": 0.42191877365112307,
      "memory(GiB)": 61.91,
      "step": 19125,
      "token_acc": 0.9150326797385621,
      "train_speed(iter/s)": 1.472721
    },
    {
      "epoch": 0.819587849706525,
      "grad_norm": 5.491288661956787,
      "learning_rate": 9.351556614920005e-05,
      "loss": 0.47777667045593264,
      "memory(GiB)": 61.91,
      "step": 19130,
      "token_acc": 0.8958333333333334,
      "train_speed(iter/s)": 1.472756
    },
    {
      "epoch": 0.8198020650357739,
      "grad_norm": 8.668190002441406,
      "learning_rate": 9.351225132849169e-05,
      "loss": 0.6943512916564941,
      "memory(GiB)": 61.91,
      "step": 19135,
      "token_acc": 0.8413284132841329,
      "train_speed(iter/s)": 1.47274
    },
    {
      "epoch": 0.8200162803650229,
      "grad_norm": 4.6993727684021,
      "learning_rate": 9.350893571951808e-05,
      "loss": 0.3699460506439209,
      "memory(GiB)": 61.91,
      "step": 19140,
      "token_acc": 0.9337979094076655,
      "train_speed(iter/s)": 1.472722
    },
    {
      "epoch": 0.8202304956942719,
      "grad_norm": 2.303630828857422,
      "learning_rate": 9.350561932233928e-05,
      "loss": 0.4959548473358154,
      "memory(GiB)": 61.91,
      "step": 19145,
      "token_acc": 0.8981132075471698,
      "train_speed(iter/s)": 1.472699
    },
    {
      "epoch": 0.8204447110235208,
      "grad_norm": 2.99418306350708,
      "learning_rate": 9.350230213701537e-05,
      "loss": 0.303556489944458,
      "memory(GiB)": 61.91,
      "step": 19150,
      "token_acc": 0.9436619718309859,
      "train_speed(iter/s)": 1.472742
    },
    {
      "epoch": 0.8206589263527698,
      "grad_norm": 2.9417405128479004,
      "learning_rate": 9.349898416360646e-05,
      "loss": 0.46001410484313965,
      "memory(GiB)": 61.91,
      "step": 19155,
      "token_acc": 0.8798701298701299,
      "train_speed(iter/s)": 1.47272
    },
    {
      "epoch": 0.8208731416820187,
      "grad_norm": 3.5693695545196533,
      "learning_rate": 9.349566540217265e-05,
      "loss": 0.440250825881958,
      "memory(GiB)": 61.91,
      "step": 19160,
      "token_acc": 0.8905109489051095,
      "train_speed(iter/s)": 1.472715
    },
    {
      "epoch": 0.8210873570112677,
      "grad_norm": 2.6258506774902344,
      "learning_rate": 9.349234585277404e-05,
      "loss": 0.19887547492980956,
      "memory(GiB)": 61.91,
      "step": 19165,
      "token_acc": 0.9433198380566802,
      "train_speed(iter/s)": 1.472703
    },
    {
      "epoch": 0.8213015723405167,
      "grad_norm": 3.6009066104888916,
      "learning_rate": 9.348902551547081e-05,
      "loss": 0.5374238014221191,
      "memory(GiB)": 61.91,
      "step": 19170,
      "token_acc": 0.8809523809523809,
      "train_speed(iter/s)": 1.472711
    },
    {
      "epoch": 0.8215157876697656,
      "grad_norm": 5.308638095855713,
      "learning_rate": 9.348570439032306e-05,
      "loss": 0.5686711311340332,
      "memory(GiB)": 61.91,
      "step": 19175,
      "token_acc": 0.88,
      "train_speed(iter/s)": 1.472714
    },
    {
      "epoch": 0.8217300029990147,
      "grad_norm": 3.057790517807007,
      "learning_rate": 9.348238247739101e-05,
      "loss": 0.30715460777282716,
      "memory(GiB)": 61.91,
      "step": 19180,
      "token_acc": 0.9405594405594405,
      "train_speed(iter/s)": 1.472754
    },
    {
      "epoch": 0.8219442183282636,
      "grad_norm": 4.371999263763428,
      "learning_rate": 9.34790597767348e-05,
      "loss": 0.35199265480041503,
      "memory(GiB)": 61.91,
      "step": 19185,
      "token_acc": 0.9135135135135135,
      "train_speed(iter/s)": 1.472758
    },
    {
      "epoch": 0.8221584336575125,
      "grad_norm": 3.6531121730804443,
      "learning_rate": 9.347573628841462e-05,
      "loss": 0.1371090292930603,
      "memory(GiB)": 61.91,
      "step": 19190,
      "token_acc": 0.9726443768996961,
      "train_speed(iter/s)": 1.472753
    },
    {
      "epoch": 0.8223726489867615,
      "grad_norm": 7.031786918640137,
      "learning_rate": 9.347241201249071e-05,
      "loss": 0.5809253692626953,
      "memory(GiB)": 61.91,
      "step": 19195,
      "token_acc": 0.8833922261484098,
      "train_speed(iter/s)": 1.472739
    },
    {
      "epoch": 0.8225868643160105,
      "grad_norm": 2.096583604812622,
      "learning_rate": 9.346908694902327e-05,
      "loss": 0.14714035987854004,
      "memory(GiB)": 61.91,
      "step": 19200,
      "token_acc": 0.9649805447470817,
      "train_speed(iter/s)": 1.472734
    },
    {
      "epoch": 0.8228010796452594,
      "grad_norm": 0.17493672668933868,
      "learning_rate": 9.346576109807255e-05,
      "loss": 0.28557643890380857,
      "memory(GiB)": 61.91,
      "step": 19205,
      "token_acc": 0.9528619528619529,
      "train_speed(iter/s)": 1.472728
    },
    {
      "epoch": 0.8230152949745084,
      "grad_norm": 4.258440017700195,
      "learning_rate": 9.346243445969877e-05,
      "loss": 0.23144361972808838,
      "memory(GiB)": 61.91,
      "step": 19210,
      "token_acc": 0.9555555555555556,
      "train_speed(iter/s)": 1.472726
    },
    {
      "epoch": 0.8232295103037574,
      "grad_norm": 4.072005271911621,
      "learning_rate": 9.345910703396225e-05,
      "loss": 0.5084473133087158,
      "memory(GiB)": 61.91,
      "step": 19215,
      "token_acc": 0.8943396226415095,
      "train_speed(iter/s)": 1.47271
    },
    {
      "epoch": 0.8234437256330063,
      "grad_norm": 4.0961174964904785,
      "learning_rate": 9.345577882092322e-05,
      "loss": 0.6102946281433106,
      "memory(GiB)": 61.91,
      "step": 19220,
      "token_acc": 0.8831168831168831,
      "train_speed(iter/s)": 1.472685
    },
    {
      "epoch": 0.8236579409622553,
      "grad_norm": 4.212896823883057,
      "learning_rate": 9.345244982064201e-05,
      "loss": 0.5795434474945068,
      "memory(GiB)": 61.91,
      "step": 19225,
      "token_acc": 0.889344262295082,
      "train_speed(iter/s)": 1.472677
    },
    {
      "epoch": 0.8238721562915042,
      "grad_norm": 5.359926700592041,
      "learning_rate": 9.344912003317888e-05,
      "loss": 0.5850218772888184,
      "memory(GiB)": 61.91,
      "step": 19230,
      "token_acc": 0.8989169675090253,
      "train_speed(iter/s)": 1.47269
    },
    {
      "epoch": 0.8240863716207532,
      "grad_norm": 4.482243537902832,
      "learning_rate": 9.344578945859421e-05,
      "loss": 0.43910512924194334,
      "memory(GiB)": 61.91,
      "step": 19235,
      "token_acc": 0.9090909090909091,
      "train_speed(iter/s)": 1.472691
    },
    {
      "epoch": 0.8243005869500022,
      "grad_norm": 2.1947062015533447,
      "learning_rate": 9.344245809694829e-05,
      "loss": 0.3532389163970947,
      "memory(GiB)": 61.91,
      "step": 19240,
      "token_acc": 0.9348659003831418,
      "train_speed(iter/s)": 1.472735
    },
    {
      "epoch": 0.8245148022792511,
      "grad_norm": 4.864712715148926,
      "learning_rate": 9.34391259483015e-05,
      "loss": 0.3359057903289795,
      "memory(GiB)": 61.91,
      "step": 19245,
      "token_acc": 0.926605504587156,
      "train_speed(iter/s)": 1.472728
    },
    {
      "epoch": 0.8247290176085,
      "grad_norm": 6.054345607757568,
      "learning_rate": 9.343579301271419e-05,
      "loss": 0.49776368141174315,
      "memory(GiB)": 61.91,
      "step": 19250,
      "token_acc": 0.8949152542372881,
      "train_speed(iter/s)": 1.472731
    },
    {
      "epoch": 0.8249432329377491,
      "grad_norm": 1.5577641725540161,
      "learning_rate": 9.343245929024674e-05,
      "loss": 0.19263956546783448,
      "memory(GiB)": 61.91,
      "step": 19255,
      "token_acc": 0.9566666666666667,
      "train_speed(iter/s)": 1.472715
    },
    {
      "epoch": 0.825157448266998,
      "grad_norm": 2.759538412094116,
      "learning_rate": 9.342912478095955e-05,
      "loss": 0.13361979722976686,
      "memory(GiB)": 61.91,
      "step": 19260,
      "token_acc": 0.9702602230483272,
      "train_speed(iter/s)": 1.472754
    },
    {
      "epoch": 0.8253716635962469,
      "grad_norm": 2.1765236854553223,
      "learning_rate": 9.342578948491303e-05,
      "loss": 0.4039007663726807,
      "memory(GiB)": 61.91,
      "step": 19265,
      "token_acc": 0.9325153374233128,
      "train_speed(iter/s)": 1.472756
    },
    {
      "epoch": 0.825585878925496,
      "grad_norm": 4.276610851287842,
      "learning_rate": 9.342245340216759e-05,
      "loss": 0.31638140678405763,
      "memory(GiB)": 61.91,
      "step": 19270,
      "token_acc": 0.9377162629757786,
      "train_speed(iter/s)": 1.472799
    },
    {
      "epoch": 0.8258000942547449,
      "grad_norm": 4.581518173217773,
      "learning_rate": 9.341911653278367e-05,
      "loss": 0.3911776304244995,
      "memory(GiB)": 61.91,
      "step": 19275,
      "token_acc": 0.9079497907949791,
      "train_speed(iter/s)": 1.472825
    },
    {
      "epoch": 0.8260143095839938,
      "grad_norm": 3.986985206604004,
      "learning_rate": 9.341577887682173e-05,
      "loss": 0.5428249835968018,
      "memory(GiB)": 61.91,
      "step": 19280,
      "token_acc": 0.8988095238095238,
      "train_speed(iter/s)": 1.472826
    },
    {
      "epoch": 0.8262285249132428,
      "grad_norm": 2.997633934020996,
      "learning_rate": 9.341244043434224e-05,
      "loss": 0.45124268531799316,
      "memory(GiB)": 61.91,
      "step": 19285,
      "token_acc": 0.9128919860627178,
      "train_speed(iter/s)": 1.472818
    },
    {
      "epoch": 0.8264427402424918,
      "grad_norm": 0.1601894050836563,
      "learning_rate": 9.340910120540564e-05,
      "loss": 0.37769279479980467,
      "memory(GiB)": 61.91,
      "step": 19290,
      "token_acc": 0.9174603174603174,
      "train_speed(iter/s)": 1.472794
    },
    {
      "epoch": 0.8266569555717407,
      "grad_norm": 5.740532398223877,
      "learning_rate": 9.340576119007249e-05,
      "loss": 0.3863893985748291,
      "memory(GiB)": 61.91,
      "step": 19295,
      "token_acc": 0.9318181818181818,
      "train_speed(iter/s)": 1.472788
    },
    {
      "epoch": 0.8268711709009897,
      "grad_norm": 4.799330711364746,
      "learning_rate": 9.340242038840322e-05,
      "loss": 0.3972153186798096,
      "memory(GiB)": 61.91,
      "step": 19300,
      "token_acc": 0.9137380191693291,
      "train_speed(iter/s)": 1.472789
    },
    {
      "epoch": 0.8270853862302386,
      "grad_norm": 1.4455618858337402,
      "learning_rate": 9.33990788004584e-05,
      "loss": 0.2682557344436646,
      "memory(GiB)": 61.91,
      "step": 19305,
      "token_acc": 0.9436619718309859,
      "train_speed(iter/s)": 1.472782
    },
    {
      "epoch": 0.8272996015594876,
      "grad_norm": 2.0476417541503906,
      "learning_rate": 9.339573642629857e-05,
      "loss": 0.3413562536239624,
      "memory(GiB)": 61.91,
      "step": 19310,
      "token_acc": 0.9201388888888888,
      "train_speed(iter/s)": 1.472786
    },
    {
      "epoch": 0.8275138168887366,
      "grad_norm": 2.2752909660339355,
      "learning_rate": 9.339239326598426e-05,
      "loss": 0.30293362140655516,
      "memory(GiB)": 61.91,
      "step": 19315,
      "token_acc": 0.9228571428571428,
      "train_speed(iter/s)": 1.472801
    },
    {
      "epoch": 0.8277280322179855,
      "grad_norm": 2.9143218994140625,
      "learning_rate": 9.338904931957603e-05,
      "loss": 0.680009412765503,
      "memory(GiB)": 61.91,
      "step": 19320,
      "token_acc": 0.8653846153846154,
      "train_speed(iter/s)": 1.472779
    },
    {
      "epoch": 0.8279422475472344,
      "grad_norm": 5.008427143096924,
      "learning_rate": 9.338570458713447e-05,
      "loss": 0.411362361907959,
      "memory(GiB)": 61.91,
      "step": 19325,
      "token_acc": 0.9027237354085603,
      "train_speed(iter/s)": 1.472865
    },
    {
      "epoch": 0.8281564628764835,
      "grad_norm": 3.0995407104492188,
      "learning_rate": 9.338235906872019e-05,
      "loss": 0.5149702072143555,
      "memory(GiB)": 61.91,
      "step": 19330,
      "token_acc": 0.9003436426116839,
      "train_speed(iter/s)": 1.472868
    },
    {
      "epoch": 0.8283706782057324,
      "grad_norm": 2.428689479827881,
      "learning_rate": 9.337901276439376e-05,
      "loss": 0.6144418239593505,
      "memory(GiB)": 61.91,
      "step": 19335,
      "token_acc": 0.8650137741046832,
      "train_speed(iter/s)": 1.472861
    },
    {
      "epoch": 0.8285848935349813,
      "grad_norm": 2.458258628845215,
      "learning_rate": 9.337566567421583e-05,
      "loss": 0.19618405103683473,
      "memory(GiB)": 61.91,
      "step": 19340,
      "token_acc": 0.9653846153846154,
      "train_speed(iter/s)": 1.472866
    },
    {
      "epoch": 0.8287991088642304,
      "grad_norm": 2.3355448246002197,
      "learning_rate": 9.337231779824703e-05,
      "loss": 0.29977974891662595,
      "memory(GiB)": 61.91,
      "step": 19345,
      "token_acc": 0.9271523178807947,
      "train_speed(iter/s)": 1.47286
    },
    {
      "epoch": 0.8290133241934793,
      "grad_norm": 0.9014405012130737,
      "learning_rate": 9.3368969136548e-05,
      "loss": 0.0906871497631073,
      "memory(GiB)": 61.91,
      "step": 19350,
      "token_acc": 0.976271186440678,
      "train_speed(iter/s)": 1.472865
    },
    {
      "epoch": 0.8292275395227282,
      "grad_norm": 2.082282066345215,
      "learning_rate": 9.33656196891794e-05,
      "loss": 0.2911111831665039,
      "memory(GiB)": 61.91,
      "step": 19355,
      "token_acc": 0.9328859060402684,
      "train_speed(iter/s)": 1.472862
    },
    {
      "epoch": 0.8294417548519772,
      "grad_norm": 4.015933513641357,
      "learning_rate": 9.336226945620194e-05,
      "loss": 0.3188253164291382,
      "memory(GiB)": 61.91,
      "step": 19360,
      "token_acc": 0.9441176470588235,
      "train_speed(iter/s)": 1.472877
    },
    {
      "epoch": 0.8296559701812262,
      "grad_norm": 3.6134047508239746,
      "learning_rate": 9.335891843767629e-05,
      "loss": 0.23585994243621827,
      "memory(GiB)": 61.91,
      "step": 19365,
      "token_acc": 0.9395017793594306,
      "train_speed(iter/s)": 1.472877
    },
    {
      "epoch": 0.8298701855104751,
      "grad_norm": 5.540928840637207,
      "learning_rate": 9.335556663366314e-05,
      "loss": 0.5639671325683594,
      "memory(GiB)": 61.91,
      "step": 19370,
      "token_acc": 0.8988326848249028,
      "train_speed(iter/s)": 1.472879
    },
    {
      "epoch": 0.8300844008397241,
      "grad_norm": 3.872849225997925,
      "learning_rate": 9.335221404422325e-05,
      "loss": 0.3930069923400879,
      "memory(GiB)": 61.91,
      "step": 19375,
      "token_acc": 0.9267515923566879,
      "train_speed(iter/s)": 1.472899
    },
    {
      "epoch": 0.830298616168973,
      "grad_norm": 4.165943622589111,
      "learning_rate": 9.334886066941733e-05,
      "loss": 0.4462653636932373,
      "memory(GiB)": 61.91,
      "step": 19380,
      "token_acc": 0.8979591836734694,
      "train_speed(iter/s)": 1.472925
    },
    {
      "epoch": 0.830512831498222,
      "grad_norm": 4.067141532897949,
      "learning_rate": 9.334550650930613e-05,
      "loss": 0.33069891929626466,
      "memory(GiB)": 61.91,
      "step": 19385,
      "token_acc": 0.9340659340659341,
      "train_speed(iter/s)": 1.472906
    },
    {
      "epoch": 0.830727046827471,
      "grad_norm": 2.40267276763916,
      "learning_rate": 9.334215156395042e-05,
      "loss": 0.3941451072692871,
      "memory(GiB)": 61.91,
      "step": 19390,
      "token_acc": 0.9195804195804196,
      "train_speed(iter/s)": 1.472921
    },
    {
      "epoch": 0.8309412621567199,
      "grad_norm": 5.130852699279785,
      "learning_rate": 9.333879583341098e-05,
      "loss": 0.4472458839416504,
      "memory(GiB)": 61.91,
      "step": 19395,
      "token_acc": 0.8939393939393939,
      "train_speed(iter/s)": 1.472921
    },
    {
      "epoch": 0.8311554774859689,
      "grad_norm": 3.2712209224700928,
      "learning_rate": 9.33354393177486e-05,
      "loss": 0.17288806438446044,
      "memory(GiB)": 61.91,
      "step": 19400,
      "token_acc": 0.96484375,
      "train_speed(iter/s)": 1.472953
    },
    {
      "epoch": 0.8313696928152179,
      "grad_norm": 2.483206033706665,
      "learning_rate": 9.333208201702407e-05,
      "loss": 0.28351900577545164,
      "memory(GiB)": 61.91,
      "step": 19405,
      "token_acc": 0.9361022364217252,
      "train_speed(iter/s)": 1.472925
    },
    {
      "epoch": 0.8315839081444668,
      "grad_norm": 3.9488375186920166,
      "learning_rate": 9.332872393129823e-05,
      "loss": 0.44515290260314944,
      "memory(GiB)": 61.91,
      "step": 19410,
      "token_acc": 0.9157509157509157,
      "train_speed(iter/s)": 1.472903
    },
    {
      "epoch": 0.8317981234737157,
      "grad_norm": 1.6634522676467896,
      "learning_rate": 9.332536506063192e-05,
      "loss": 0.2669835090637207,
      "memory(GiB)": 61.91,
      "step": 19415,
      "token_acc": 0.9285714285714286,
      "train_speed(iter/s)": 1.4729
    },
    {
      "epoch": 0.8320123388029648,
      "grad_norm": 1.3530875444412231,
      "learning_rate": 9.332200540508598e-05,
      "loss": 0.3492603063583374,
      "memory(GiB)": 61.91,
      "step": 19420,
      "token_acc": 0.929368029739777,
      "train_speed(iter/s)": 1.472884
    },
    {
      "epoch": 0.8322265541322137,
      "grad_norm": 3.6625425815582275,
      "learning_rate": 9.331864496472125e-05,
      "loss": 0.5048963069915772,
      "memory(GiB)": 61.91,
      "step": 19425,
      "token_acc": 0.9015384615384615,
      "train_speed(iter/s)": 1.472923
    },
    {
      "epoch": 0.8324407694614626,
      "grad_norm": 1.1776357889175415,
      "learning_rate": 9.331528373959865e-05,
      "loss": 0.5741371631622314,
      "memory(GiB)": 61.91,
      "step": 19430,
      "token_acc": 0.8916083916083916,
      "train_speed(iter/s)": 1.472911
    },
    {
      "epoch": 0.8326549847907116,
      "grad_norm": 9.338237762451172,
      "learning_rate": 9.331192172977905e-05,
      "loss": 0.46270976066589353,
      "memory(GiB)": 61.91,
      "step": 19435,
      "token_acc": 0.9018987341772152,
      "train_speed(iter/s)": 1.472906
    },
    {
      "epoch": 0.8328692001199606,
      "grad_norm": 9.46874713897705,
      "learning_rate": 9.330855893532335e-05,
      "loss": 0.3568193197250366,
      "memory(GiB)": 61.91,
      "step": 19440,
      "token_acc": 0.9440298507462687,
      "train_speed(iter/s)": 1.472907
    },
    {
      "epoch": 0.8330834154492095,
      "grad_norm": 5.1518754959106445,
      "learning_rate": 9.330519535629249e-05,
      "loss": 0.6339482307434082,
      "memory(GiB)": 61.91,
      "step": 19445,
      "token_acc": 0.8775510204081632,
      "train_speed(iter/s)": 1.472983
    },
    {
      "epoch": 0.8332976307784585,
      "grad_norm": 0.6205894947052002,
      "learning_rate": 9.330183099274739e-05,
      "loss": 0.457975435256958,
      "memory(GiB)": 61.91,
      "step": 19450,
      "token_acc": 0.8893280632411067,
      "train_speed(iter/s)": 1.472969
    },
    {
      "epoch": 0.8335118461077075,
      "grad_norm": 5.514767646789551,
      "learning_rate": 9.329846584474899e-05,
      "loss": 0.338388729095459,
      "memory(GiB)": 61.91,
      "step": 19455,
      "token_acc": 0.9343283582089552,
      "train_speed(iter/s)": 1.472984
    },
    {
      "epoch": 0.8337260614369564,
      "grad_norm": 3.650951623916626,
      "learning_rate": 9.329509991235829e-05,
      "loss": 0.5828299522399902,
      "memory(GiB)": 61.91,
      "step": 19460,
      "token_acc": 0.896875,
      "train_speed(iter/s)": 1.472977
    },
    {
      "epoch": 0.8339402767662054,
      "grad_norm": 1.7858247756958008,
      "learning_rate": 9.329173319563622e-05,
      "loss": 0.4154338359832764,
      "memory(GiB)": 61.91,
      "step": 19465,
      "token_acc": 0.9256756756756757,
      "train_speed(iter/s)": 1.472967
    },
    {
      "epoch": 0.8341544920954543,
      "grad_norm": 4.056972980499268,
      "learning_rate": 9.328836569464379e-05,
      "loss": 0.3688324451446533,
      "memory(GiB)": 61.91,
      "step": 19470,
      "token_acc": 0.905511811023622,
      "train_speed(iter/s)": 1.472972
    },
    {
      "epoch": 0.8343687074247033,
      "grad_norm": 2.705793619155884,
      "learning_rate": 9.328499740944201e-05,
      "loss": 0.2579374313354492,
      "memory(GiB)": 61.91,
      "step": 19475,
      "token_acc": 0.9343065693430657,
      "train_speed(iter/s)": 1.473001
    },
    {
      "epoch": 0.8345829227539523,
      "grad_norm": 3.4004242420196533,
      "learning_rate": 9.328162834009192e-05,
      "loss": 0.3307967185974121,
      "memory(GiB)": 61.91,
      "step": 19480,
      "token_acc": 0.9174311926605505,
      "train_speed(iter/s)": 1.473028
    },
    {
      "epoch": 0.8347971380832012,
      "grad_norm": 4.374651908874512,
      "learning_rate": 9.32782584866545e-05,
      "loss": 0.37250757217407227,
      "memory(GiB)": 61.91,
      "step": 19485,
      "token_acc": 0.91015625,
      "train_speed(iter/s)": 1.473106
    },
    {
      "epoch": 0.8350113534124501,
      "grad_norm": 3.9501664638519287,
      "learning_rate": 9.327488784919084e-05,
      "loss": 0.4289849281311035,
      "memory(GiB)": 61.91,
      "step": 19490,
      "token_acc": 0.9217687074829932,
      "train_speed(iter/s)": 1.473096
    },
    {
      "epoch": 0.8352255687416992,
      "grad_norm": 1.8994230031967163,
      "learning_rate": 9.3271516427762e-05,
      "loss": 0.4600456714630127,
      "memory(GiB)": 61.91,
      "step": 19495,
      "token_acc": 0.891640866873065,
      "train_speed(iter/s)": 1.473129
    },
    {
      "epoch": 0.8354397840709481,
      "grad_norm": 2.688825845718384,
      "learning_rate": 9.326814422242905e-05,
      "loss": 0.4552611351013184,
      "memory(GiB)": 61.91,
      "step": 19500,
      "token_acc": 0.9070631970260223,
      "train_speed(iter/s)": 1.473118
    },
    {
      "epoch": 0.8354397840709481,
      "eval_loss": 2.5957086086273193,
      "eval_runtime": 13.5208,
      "eval_samples_per_second": 7.396,
      "eval_steps_per_second": 7.396,
      "eval_token_acc": 0.4501347708894879,
      "step": 19500
    },
    {
      "epoch": 0.835653999400197,
      "grad_norm": 1.680031180381775,
      "learning_rate": 9.326477123325306e-05,
      "loss": 0.41425323486328125,
      "memory(GiB)": 61.91,
      "step": 19505,
      "token_acc": 0.5855072463768116,
      "train_speed(iter/s)": 1.471535
    },
    {
      "epoch": 0.8358682147294461,
      "grad_norm": 3.567096710205078,
      "learning_rate": 9.326139746029516e-05,
      "loss": 0.3464086055755615,
      "memory(GiB)": 61.91,
      "step": 19510,
      "token_acc": 0.9296875,
      "train_speed(iter/s)": 1.47155
    },
    {
      "epoch": 0.836082430058695,
      "grad_norm": 2.3329124450683594,
      "learning_rate": 9.325802290361647e-05,
      "loss": 0.5270912647247314,
      "memory(GiB)": 61.91,
      "step": 19515,
      "token_acc": 0.9105058365758755,
      "train_speed(iter/s)": 1.471558
    },
    {
      "epoch": 0.836296645387944,
      "grad_norm": 6.764080047607422,
      "learning_rate": 9.32546475632781e-05,
      "loss": 0.3815983772277832,
      "memory(GiB)": 61.91,
      "step": 19520,
      "token_acc": 0.9272030651340997,
      "train_speed(iter/s)": 1.471561
    },
    {
      "epoch": 0.8365108607171929,
      "grad_norm": 5.95261287689209,
      "learning_rate": 9.325127143934122e-05,
      "loss": 0.39394464492797854,
      "memory(GiB)": 61.91,
      "step": 19525,
      "token_acc": 0.9080459770114943,
      "train_speed(iter/s)": 1.471566
    },
    {
      "epoch": 0.8367250760464419,
      "grad_norm": 2.433192729949951,
      "learning_rate": 9.324789453186699e-05,
      "loss": 0.4622025012969971,
      "memory(GiB)": 61.91,
      "step": 19530,
      "token_acc": 0.902027027027027,
      "train_speed(iter/s)": 1.471546
    },
    {
      "epoch": 0.8369392913756909,
      "grad_norm": 2.9949519634246826,
      "learning_rate": 9.32445168409166e-05,
      "loss": 0.28785841464996337,
      "memory(GiB)": 61.91,
      "step": 19535,
      "token_acc": 0.9496402877697842,
      "train_speed(iter/s)": 1.471558
    },
    {
      "epoch": 0.8371535067049398,
      "grad_norm": 5.3140645027160645,
      "learning_rate": 9.324113836655119e-05,
      "loss": 0.5126853942871094,
      "memory(GiB)": 61.91,
      "step": 19540,
      "token_acc": 0.8786764705882353,
      "train_speed(iter/s)": 1.47154
    },
    {
      "epoch": 0.8373677220341887,
      "grad_norm": 11.70101547241211,
      "learning_rate": 9.323775910883202e-05,
      "loss": 0.2675257921218872,
      "memory(GiB)": 61.91,
      "step": 19545,
      "token_acc": 0.9453376205787781,
      "train_speed(iter/s)": 1.471541
    },
    {
      "epoch": 0.8375819373634378,
      "grad_norm": 3.498056411743164,
      "learning_rate": 9.323437906782026e-05,
      "loss": 0.4317812919616699,
      "memory(GiB)": 61.91,
      "step": 19550,
      "token_acc": 0.9246575342465754,
      "train_speed(iter/s)": 1.471532
    },
    {
      "epoch": 0.8377961526926867,
      "grad_norm": 3.1353650093078613,
      "learning_rate": 9.323099824357717e-05,
      "loss": 0.3121234893798828,
      "memory(GiB)": 61.91,
      "step": 19555,
      "token_acc": 0.9239130434782609,
      "train_speed(iter/s)": 1.471519
    },
    {
      "epoch": 0.8380103680219356,
      "grad_norm": 3.3862123489379883,
      "learning_rate": 9.3227616636164e-05,
      "loss": 0.4029379844665527,
      "memory(GiB)": 61.91,
      "step": 19560,
      "token_acc": 0.9057971014492754,
      "train_speed(iter/s)": 1.47151
    },
    {
      "epoch": 0.8382245833511847,
      "grad_norm": 2.7181103229522705,
      "learning_rate": 9.322423424564201e-05,
      "loss": 0.48924813270568845,
      "memory(GiB)": 61.91,
      "step": 19565,
      "token_acc": 0.8885245901639345,
      "train_speed(iter/s)": 1.471503
    },
    {
      "epoch": 0.8384387986804336,
      "grad_norm": 0.13268689811229706,
      "learning_rate": 9.322085107207245e-05,
      "loss": 0.2576186418533325,
      "memory(GiB)": 61.91,
      "step": 19570,
      "token_acc": 0.9185667752442996,
      "train_speed(iter/s)": 1.471496
    },
    {
      "epoch": 0.8386530140096825,
      "grad_norm": 5.9556660652160645,
      "learning_rate": 9.321746711551665e-05,
      "loss": 0.6194622993469239,
      "memory(GiB)": 61.91,
      "step": 19575,
      "token_acc": 0.8754448398576512,
      "train_speed(iter/s)": 1.471489
    },
    {
      "epoch": 0.8388672293389315,
      "grad_norm": 8.855518341064453,
      "learning_rate": 9.321408237603589e-05,
      "loss": 0.4577075481414795,
      "memory(GiB)": 61.91,
      "step": 19580,
      "token_acc": 0.911042944785276,
      "train_speed(iter/s)": 1.471481
    },
    {
      "epoch": 0.8390814446681805,
      "grad_norm": 2.042194128036499,
      "learning_rate": 9.321069685369147e-05,
      "loss": 0.18877631425857544,
      "memory(GiB)": 61.91,
      "step": 19585,
      "token_acc": 0.9694915254237289,
      "train_speed(iter/s)": 1.471477
    },
    {
      "epoch": 0.8392956599974294,
      "grad_norm": 6.207080841064453,
      "learning_rate": 9.320731054854474e-05,
      "loss": 0.7610092163085938,
      "memory(GiB)": 61.91,
      "step": 19590,
      "token_acc": 0.853035143769968,
      "train_speed(iter/s)": 1.471472
    },
    {
      "epoch": 0.8395098753266784,
      "grad_norm": 0.06736212968826294,
      "learning_rate": 9.320392346065707e-05,
      "loss": 0.2847642421722412,
      "memory(GiB)": 61.91,
      "step": 19595,
      "token_acc": 0.9190140845070423,
      "train_speed(iter/s)": 1.471528
    },
    {
      "epoch": 0.8397240906559273,
      "grad_norm": 5.991504192352295,
      "learning_rate": 9.320053559008979e-05,
      "loss": 0.45770835876464844,
      "memory(GiB)": 61.91,
      "step": 19600,
      "token_acc": 0.9314516129032258,
      "train_speed(iter/s)": 1.471512
    },
    {
      "epoch": 0.8399383059851763,
      "grad_norm": 3.5598912239074707,
      "learning_rate": 9.319714693690429e-05,
      "loss": 0.3171184301376343,
      "memory(GiB)": 61.91,
      "step": 19605,
      "token_acc": 0.9269102990033222,
      "train_speed(iter/s)": 1.471512
    },
    {
      "epoch": 0.8401525213144253,
      "grad_norm": 3.8613409996032715,
      "learning_rate": 9.319375750116194e-05,
      "loss": 0.4055172920227051,
      "memory(GiB)": 61.91,
      "step": 19610,
      "token_acc": 0.9154929577464789,
      "train_speed(iter/s)": 1.471512
    },
    {
      "epoch": 0.8403667366436742,
      "grad_norm": 4.739055156707764,
      "learning_rate": 9.319036728292415e-05,
      "loss": 0.4142427444458008,
      "memory(GiB)": 61.91,
      "step": 19615,
      "token_acc": 0.9003831417624522,
      "train_speed(iter/s)": 1.471515
    },
    {
      "epoch": 0.8405809519729232,
      "grad_norm": 1.6333402395248413,
      "learning_rate": 9.318697628225235e-05,
      "loss": 0.27523250579833985,
      "memory(GiB)": 61.91,
      "step": 19620,
      "token_acc": 0.9375,
      "train_speed(iter/s)": 1.471554
    },
    {
      "epoch": 0.8407951673021722,
      "grad_norm": 2.2876830101013184,
      "learning_rate": 9.318358449920795e-05,
      "loss": 0.18862769603729249,
      "memory(GiB)": 61.91,
      "step": 19625,
      "token_acc": 0.9711191335740073,
      "train_speed(iter/s)": 1.471566
    },
    {
      "epoch": 0.8410093826314211,
      "grad_norm": 2.8671374320983887,
      "learning_rate": 9.318019193385242e-05,
      "loss": 0.3607171535491943,
      "memory(GiB)": 61.91,
      "step": 19630,
      "token_acc": 0.9383116883116883,
      "train_speed(iter/s)": 1.471588
    },
    {
      "epoch": 0.84122359796067,
      "grad_norm": 2.1109578609466553,
      "learning_rate": 9.317679858624721e-05,
      "loss": 0.5994267463684082,
      "memory(GiB)": 61.91,
      "step": 19635,
      "token_acc": 0.888135593220339,
      "train_speed(iter/s)": 1.471592
    },
    {
      "epoch": 0.8414378132899191,
      "grad_norm": 4.771324634552002,
      "learning_rate": 9.317340445645377e-05,
      "loss": 0.5655547142028808,
      "memory(GiB)": 61.91,
      "step": 19640,
      "token_acc": 0.8641975308641975,
      "train_speed(iter/s)": 1.471648
    },
    {
      "epoch": 0.841652028619168,
      "grad_norm": 2.5655357837677,
      "learning_rate": 9.317000954453364e-05,
      "loss": 0.6138123035430908,
      "memory(GiB)": 61.91,
      "step": 19645,
      "token_acc": 0.8900709219858156,
      "train_speed(iter/s)": 1.471676
    },
    {
      "epoch": 0.8418662439484169,
      "grad_norm": 3.39235258102417,
      "learning_rate": 9.316661385054825e-05,
      "loss": 0.4506237983703613,
      "memory(GiB)": 61.91,
      "step": 19650,
      "token_acc": 0.9052287581699346,
      "train_speed(iter/s)": 1.471705
    },
    {
      "epoch": 0.842080459277666,
      "grad_norm": 2.2666776180267334,
      "learning_rate": 9.316321737455919e-05,
      "loss": 0.3023213863372803,
      "memory(GiB)": 61.91,
      "step": 19655,
      "token_acc": 0.9365079365079365,
      "train_speed(iter/s)": 1.471743
    },
    {
      "epoch": 0.8422946746069149,
      "grad_norm": 3.395669460296631,
      "learning_rate": 9.315982011662794e-05,
      "loss": 0.3260129451751709,
      "memory(GiB)": 61.91,
      "step": 19660,
      "token_acc": 0.9345454545454546,
      "train_speed(iter/s)": 1.471759
    },
    {
      "epoch": 0.8425088899361638,
      "grad_norm": 5.267627239227295,
      "learning_rate": 9.315642207681607e-05,
      "loss": 0.6995327472686768,
      "memory(GiB)": 61.91,
      "step": 19665,
      "token_acc": 0.8512658227848101,
      "train_speed(iter/s)": 1.47177
    },
    {
      "epoch": 0.8427231052654128,
      "grad_norm": 3.3722968101501465,
      "learning_rate": 9.315302325518514e-05,
      "loss": 0.36089329719543456,
      "memory(GiB)": 61.91,
      "step": 19670,
      "token_acc": 0.9202898550724637,
      "train_speed(iter/s)": 1.471749
    },
    {
      "epoch": 0.8429373205946618,
      "grad_norm": 8.115644454956055,
      "learning_rate": 9.31496236517967e-05,
      "loss": 0.6061041831970215,
      "memory(GiB)": 61.91,
      "step": 19675,
      "token_acc": 0.9019073569482289,
      "train_speed(iter/s)": 1.471807
    },
    {
      "epoch": 0.8431515359239107,
      "grad_norm": 3.678255796432495,
      "learning_rate": 9.314622326671233e-05,
      "loss": 0.5306111812591553,
      "memory(GiB)": 61.91,
      "step": 19680,
      "token_acc": 0.8757961783439491,
      "train_speed(iter/s)": 1.471835
    },
    {
      "epoch": 0.8433657512531597,
      "grad_norm": 2.04264235496521,
      "learning_rate": 9.314282209999368e-05,
      "loss": 0.5059330463409424,
      "memory(GiB)": 61.91,
      "step": 19685,
      "token_acc": 0.9217081850533808,
      "train_speed(iter/s)": 1.47186
    },
    {
      "epoch": 0.8435799665824086,
      "grad_norm": 4.152689456939697,
      "learning_rate": 9.313942015170233e-05,
      "loss": 0.770423412322998,
      "memory(GiB)": 61.91,
      "step": 19690,
      "token_acc": 0.849112426035503,
      "train_speed(iter/s)": 1.471851
    },
    {
      "epoch": 0.8437941819116576,
      "grad_norm": 4.532154560089111,
      "learning_rate": 9.31360174218999e-05,
      "loss": 0.4731895446777344,
      "memory(GiB)": 61.91,
      "step": 19695,
      "token_acc": 0.8939393939393939,
      "train_speed(iter/s)": 1.471835
    },
    {
      "epoch": 0.8440083972409066,
      "grad_norm": 3.135373830795288,
      "learning_rate": 9.313261391064807e-05,
      "loss": 0.42493476867675783,
      "memory(GiB)": 61.91,
      "step": 19700,
      "token_acc": 0.9023569023569024,
      "train_speed(iter/s)": 1.471861
    },
    {
      "epoch": 0.8442226125701555,
      "grad_norm": 4.659185886383057,
      "learning_rate": 9.312920961800847e-05,
      "loss": 0.39133548736572266,
      "memory(GiB)": 61.91,
      "step": 19705,
      "token_acc": 0.922077922077922,
      "train_speed(iter/s)": 1.47186
    },
    {
      "epoch": 0.8444368278994044,
      "grad_norm": 1.7986674308776855,
      "learning_rate": 9.312580454404278e-05,
      "loss": 0.2670176029205322,
      "memory(GiB)": 61.91,
      "step": 19710,
      "token_acc": 0.9473684210526315,
      "train_speed(iter/s)": 1.47186
    },
    {
      "epoch": 0.8446510432286535,
      "grad_norm": 4.140810489654541,
      "learning_rate": 9.312239868881268e-05,
      "loss": 0.35165934562683104,
      "memory(GiB)": 61.91,
      "step": 19715,
      "token_acc": 0.9176470588235294,
      "train_speed(iter/s)": 1.47185
    },
    {
      "epoch": 0.8448652585579024,
      "grad_norm": 6.392854690551758,
      "learning_rate": 9.311899205237989e-05,
      "loss": 0.5227189540863038,
      "memory(GiB)": 61.91,
      "step": 19720,
      "token_acc": 0.8986928104575164,
      "train_speed(iter/s)": 1.47183
    },
    {
      "epoch": 0.8450794738871513,
      "grad_norm": 7.27832555770874,
      "learning_rate": 9.31155846348061e-05,
      "loss": 0.5432696342468262,
      "memory(GiB)": 61.91,
      "step": 19725,
      "token_acc": 0.8848484848484849,
      "train_speed(iter/s)": 1.471823
    },
    {
      "epoch": 0.8452936892164004,
      "grad_norm": 2.5845816135406494,
      "learning_rate": 9.311217643615304e-05,
      "loss": 0.8471970558166504,
      "memory(GiB)": 61.91,
      "step": 19730,
      "token_acc": 0.8271276595744681,
      "train_speed(iter/s)": 1.471844
    },
    {
      "epoch": 0.8455079045456493,
      "grad_norm": 0.7281131148338318,
      "learning_rate": 9.310876745648247e-05,
      "loss": 0.16599799394607545,
      "memory(GiB)": 61.91,
      "step": 19735,
      "token_acc": 0.968421052631579,
      "train_speed(iter/s)": 1.471889
    },
    {
      "epoch": 0.8457221198748982,
      "grad_norm": 6.5422773361206055,
      "learning_rate": 9.310535769585615e-05,
      "loss": 0.41595001220703126,
      "memory(GiB)": 61.91,
      "step": 19740,
      "token_acc": 0.9094076655052264,
      "train_speed(iter/s)": 1.471875
    },
    {
      "epoch": 0.8459363352041472,
      "grad_norm": 3.186211347579956,
      "learning_rate": 9.310194715433583e-05,
      "loss": 0.7690975666046143,
      "memory(GiB)": 61.91,
      "step": 19745,
      "token_acc": 0.8598726114649682,
      "train_speed(iter/s)": 1.471896
    },
    {
      "epoch": 0.8461505505333962,
      "grad_norm": 3.912923574447632,
      "learning_rate": 9.309853583198328e-05,
      "loss": 0.40468683242797854,
      "memory(GiB)": 61.91,
      "step": 19750,
      "token_acc": 0.9120234604105572,
      "train_speed(iter/s)": 1.471898
    },
    {
      "epoch": 0.8463647658626451,
      "grad_norm": 5.038135528564453,
      "learning_rate": 9.309512372886036e-05,
      "loss": 0.5050382137298584,
      "memory(GiB)": 61.91,
      "step": 19755,
      "token_acc": 0.9126506024096386,
      "train_speed(iter/s)": 1.471899
    },
    {
      "epoch": 0.8465789811918941,
      "grad_norm": 1.8981236219406128,
      "learning_rate": 9.309171084502883e-05,
      "loss": 0.6356444835662842,
      "memory(GiB)": 61.91,
      "step": 19760,
      "token_acc": 0.8605341246290801,
      "train_speed(iter/s)": 1.471893
    },
    {
      "epoch": 0.846793196521143,
      "grad_norm": 1.8713494539260864,
      "learning_rate": 9.308829718055054e-05,
      "loss": 0.24184052944183348,
      "memory(GiB)": 61.91,
      "step": 19765,
      "token_acc": 0.9393063583815029,
      "train_speed(iter/s)": 1.471895
    },
    {
      "epoch": 0.847007411850392,
      "grad_norm": 1.6851919889450073,
      "learning_rate": 9.308488273548732e-05,
      "loss": 0.17262299060821534,
      "memory(GiB)": 61.91,
      "step": 19770,
      "token_acc": 0.9523809523809523,
      "train_speed(iter/s)": 1.471911
    },
    {
      "epoch": 0.847221627179641,
      "grad_norm": 4.5855865478515625,
      "learning_rate": 9.308146750990106e-05,
      "loss": 0.30072736740112305,
      "memory(GiB)": 61.91,
      "step": 19775,
      "token_acc": 0.9266409266409267,
      "train_speed(iter/s)": 1.471939
    },
    {
      "epoch": 0.8474358425088899,
      "grad_norm": 0.6932580471038818,
      "learning_rate": 9.307805150385356e-05,
      "loss": 0.39714038372039795,
      "memory(GiB)": 61.91,
      "step": 19780,
      "token_acc": 0.9236641221374046,
      "train_speed(iter/s)": 1.471944
    },
    {
      "epoch": 0.8476500578381388,
      "grad_norm": 2.5599021911621094,
      "learning_rate": 9.307463471740678e-05,
      "loss": 0.35082030296325684,
      "memory(GiB)": 61.91,
      "step": 19785,
      "token_acc": 0.9112627986348123,
      "train_speed(iter/s)": 1.47192
    },
    {
      "epoch": 0.8478642731673879,
      "grad_norm": 1.313427209854126,
      "learning_rate": 9.307121715062257e-05,
      "loss": 0.3513232946395874,
      "memory(GiB)": 61.91,
      "step": 19790,
      "token_acc": 0.9251497005988024,
      "train_speed(iter/s)": 1.471914
    },
    {
      "epoch": 0.8480784884966368,
      "grad_norm": 2.6140010356903076,
      "learning_rate": 9.306779880356284e-05,
      "loss": 0.3670816898345947,
      "memory(GiB)": 61.91,
      "step": 19795,
      "token_acc": 0.9106382978723404,
      "train_speed(iter/s)": 1.471913
    },
    {
      "epoch": 0.8482927038258857,
      "grad_norm": 2.5445475578308105,
      "learning_rate": 9.306437967628956e-05,
      "loss": 0.5435813426971435,
      "memory(GiB)": 61.91,
      "step": 19800,
      "token_acc": 0.8918918918918919,
      "train_speed(iter/s)": 1.471903
    },
    {
      "epoch": 0.8485069191551348,
      "grad_norm": 2.0050761699676514,
      "learning_rate": 9.306095976886464e-05,
      "loss": 0.2378622770309448,
      "memory(GiB)": 61.91,
      "step": 19805,
      "token_acc": 0.9558011049723757,
      "train_speed(iter/s)": 1.471899
    },
    {
      "epoch": 0.8487211344843837,
      "grad_norm": 4.822188377380371,
      "learning_rate": 9.305753908135003e-05,
      "loss": 0.520949125289917,
      "memory(GiB)": 61.91,
      "step": 19810,
      "token_acc": 0.885558583106267,
      "train_speed(iter/s)": 1.471877
    },
    {
      "epoch": 0.8489353498136326,
      "grad_norm": 1.3905186653137207,
      "learning_rate": 9.305411761380771e-05,
      "loss": 0.5374310493469239,
      "memory(GiB)": 61.91,
      "step": 19815,
      "token_acc": 0.9038461538461539,
      "train_speed(iter/s)": 1.471935
    },
    {
      "epoch": 0.8491495651428816,
      "grad_norm": 4.218071460723877,
      "learning_rate": 9.305069536629967e-05,
      "loss": 0.45853352546691895,
      "memory(GiB)": 61.91,
      "step": 19820,
      "token_acc": 0.8943089430894309,
      "train_speed(iter/s)": 1.471915
    },
    {
      "epoch": 0.8493637804721306,
      "grad_norm": 0.12447553128004074,
      "learning_rate": 9.30472723388879e-05,
      "loss": 0.371260404586792,
      "memory(GiB)": 61.91,
      "step": 19825,
      "token_acc": 0.9224376731301939,
      "train_speed(iter/s)": 1.471893
    },
    {
      "epoch": 0.8495779958013795,
      "grad_norm": 2.613992691040039,
      "learning_rate": 9.30438485316344e-05,
      "loss": 0.4059854507446289,
      "memory(GiB)": 61.91,
      "step": 19830,
      "token_acc": 0.9169329073482428,
      "train_speed(iter/s)": 1.471902
    },
    {
      "epoch": 0.8497922111306285,
      "grad_norm": 1.0069931745529175,
      "learning_rate": 9.30404239446012e-05,
      "loss": 0.16037768125534058,
      "memory(GiB)": 61.91,
      "step": 19835,
      "token_acc": 0.9608540925266904,
      "train_speed(iter/s)": 1.471935
    },
    {
      "epoch": 0.8500064264598775,
      "grad_norm": 3.861947536468506,
      "learning_rate": 9.303699857785035e-05,
      "loss": 0.5155746936798096,
      "memory(GiB)": 61.91,
      "step": 19840,
      "token_acc": 0.9035369774919614,
      "train_speed(iter/s)": 1.471928
    },
    {
      "epoch": 0.8502206417891264,
      "grad_norm": 1.1237943172454834,
      "learning_rate": 9.303357243144392e-05,
      "loss": 0.2743096828460693,
      "memory(GiB)": 61.91,
      "step": 19845,
      "token_acc": 0.9531772575250836,
      "train_speed(iter/s)": 1.471925
    },
    {
      "epoch": 0.8504348571183754,
      "grad_norm": 3.7272391319274902,
      "learning_rate": 9.303014550544394e-05,
      "loss": 0.1996646285057068,
      "memory(GiB)": 61.91,
      "step": 19850,
      "token_acc": 0.9566666666666667,
      "train_speed(iter/s)": 1.471911
    },
    {
      "epoch": 0.8506490724476243,
      "grad_norm": 3.2184457778930664,
      "learning_rate": 9.30267177999125e-05,
      "loss": 0.3648238658905029,
      "memory(GiB)": 61.91,
      "step": 19855,
      "token_acc": 0.9254237288135593,
      "train_speed(iter/s)": 1.471908
    },
    {
      "epoch": 0.8508632877768734,
      "grad_norm": 5.93240213394165,
      "learning_rate": 9.302328931491172e-05,
      "loss": 0.6529603004455566,
      "memory(GiB)": 61.91,
      "step": 19860,
      "token_acc": 0.8694158075601375,
      "train_speed(iter/s)": 1.47189
    },
    {
      "epoch": 0.8510775031061223,
      "grad_norm": 2.273712396621704,
      "learning_rate": 9.301986005050369e-05,
      "loss": 0.553393030166626,
      "memory(GiB)": 61.91,
      "step": 19865,
      "token_acc": 0.8790035587188612,
      "train_speed(iter/s)": 1.471883
    },
    {
      "epoch": 0.8512917184353712,
      "grad_norm": 3.3166182041168213,
      "learning_rate": 9.301643000675054e-05,
      "loss": 0.5587393283843994,
      "memory(GiB)": 61.91,
      "step": 19870,
      "token_acc": 0.8795986622073578,
      "train_speed(iter/s)": 1.471869
    },
    {
      "epoch": 0.8515059337646202,
      "grad_norm": 1.9719276428222656,
      "learning_rate": 9.30129991837144e-05,
      "loss": 0.3009920358657837,
      "memory(GiB)": 61.91,
      "step": 19875,
      "token_acc": 0.9384615384615385,
      "train_speed(iter/s)": 1.471879
    },
    {
      "epoch": 0.8517201490938692,
      "grad_norm": 2.2975635528564453,
      "learning_rate": 9.300956758145742e-05,
      "loss": 0.354633092880249,
      "memory(GiB)": 61.91,
      "step": 19880,
      "token_acc": 0.9084967320261438,
      "train_speed(iter/s)": 1.471891
    },
    {
      "epoch": 0.8519343644231181,
      "grad_norm": 3.512188196182251,
      "learning_rate": 9.30061352000418e-05,
      "loss": 0.49337472915649416,
      "memory(GiB)": 61.91,
      "step": 19885,
      "token_acc": 0.8986013986013986,
      "train_speed(iter/s)": 1.47189
    },
    {
      "epoch": 0.8521485797523671,
      "grad_norm": 1.4285236597061157,
      "learning_rate": 9.30027020395297e-05,
      "loss": 0.2660136461257935,
      "memory(GiB)": 61.91,
      "step": 19890,
      "token_acc": 0.945054945054945,
      "train_speed(iter/s)": 1.471874
    },
    {
      "epoch": 0.852362795081616,
      "grad_norm": 2.2853806018829346,
      "learning_rate": 9.299926809998329e-05,
      "loss": 0.11218425035476684,
      "memory(GiB)": 61.91,
      "step": 19895,
      "token_acc": 0.9713114754098361,
      "train_speed(iter/s)": 1.47188
    },
    {
      "epoch": 0.852577010410865,
      "grad_norm": 1.8349584341049194,
      "learning_rate": 9.299583338146483e-05,
      "loss": 0.5171759128570557,
      "memory(GiB)": 61.91,
      "step": 19900,
      "token_acc": 0.8947368421052632,
      "train_speed(iter/s)": 1.471892
    },
    {
      "epoch": 0.852791225740114,
      "grad_norm": 1.8868131637573242,
      "learning_rate": 9.299239788403649e-05,
      "loss": 0.3040379762649536,
      "memory(GiB)": 61.91,
      "step": 19905,
      "token_acc": 0.9448818897637795,
      "train_speed(iter/s)": 1.471891
    },
    {
      "epoch": 0.8530054410693629,
      "grad_norm": 3.666639566421509,
      "learning_rate": 9.298896160776054e-05,
      "loss": 0.7052950859069824,
      "memory(GiB)": 61.91,
      "step": 19910,
      "token_acc": 0.850187265917603,
      "train_speed(iter/s)": 1.471863
    },
    {
      "epoch": 0.8532196563986119,
      "grad_norm": 4.224941730499268,
      "learning_rate": 9.298552455269923e-05,
      "loss": 0.35053489208221433,
      "memory(GiB)": 61.91,
      "step": 19915,
      "token_acc": 0.9224137931034483,
      "train_speed(iter/s)": 1.471862
    },
    {
      "epoch": 0.8534338717278609,
      "grad_norm": 3.5377261638641357,
      "learning_rate": 9.298208671891482e-05,
      "loss": 0.4311653137207031,
      "memory(GiB)": 61.91,
      "step": 19920,
      "token_acc": 0.9194139194139194,
      "train_speed(iter/s)": 1.471875
    },
    {
      "epoch": 0.8536480870571098,
      "grad_norm": 4.543691635131836,
      "learning_rate": 9.297864810646958e-05,
      "loss": 0.45357646942138674,
      "memory(GiB)": 61.91,
      "step": 19925,
      "token_acc": 0.883495145631068,
      "train_speed(iter/s)": 1.471911
    },
    {
      "epoch": 0.8538623023863587,
      "grad_norm": 2.096405029296875,
      "learning_rate": 9.297520871542583e-05,
      "loss": 0.12067979574203491,
      "memory(GiB)": 61.91,
      "step": 19930,
      "token_acc": 0.9754385964912281,
      "train_speed(iter/s)": 1.471903
    },
    {
      "epoch": 0.8540765177156078,
      "grad_norm": 2.7295875549316406,
      "learning_rate": 9.297176854584582e-05,
      "loss": 0.13116652965545655,
      "memory(GiB)": 61.91,
      "step": 19935,
      "token_acc": 0.9706959706959707,
      "train_speed(iter/s)": 1.471894
    },
    {
      "epoch": 0.8542907330448567,
      "grad_norm": 3.653522253036499,
      "learning_rate": 9.296832759779195e-05,
      "loss": 0.3280023097991943,
      "memory(GiB)": 61.91,
      "step": 19940,
      "token_acc": 0.9308176100628931,
      "train_speed(iter/s)": 1.471895
    },
    {
      "epoch": 0.8545049483741056,
      "grad_norm": 1.3786207437515259,
      "learning_rate": 9.29648858713265e-05,
      "loss": 0.5261239528656005,
      "memory(GiB)": 61.91,
      "step": 19945,
      "token_acc": 0.8834586466165414,
      "train_speed(iter/s)": 1.471863
    },
    {
      "epoch": 0.8547191637033547,
      "grad_norm": 0.8776336908340454,
      "learning_rate": 9.296144336651185e-05,
      "loss": 0.5163407325744629,
      "memory(GiB)": 61.91,
      "step": 19950,
      "token_acc": 0.9069767441860465,
      "train_speed(iter/s)": 1.47187
    },
    {
      "epoch": 0.8549333790326036,
      "grad_norm": 3.3514463901519775,
      "learning_rate": 9.295800008341033e-05,
      "loss": 0.7294382095336914,
      "memory(GiB)": 61.91,
      "step": 19955,
      "token_acc": 0.855457227138643,
      "train_speed(iter/s)": 1.471906
    },
    {
      "epoch": 0.8551475943618525,
      "grad_norm": 6.463566303253174,
      "learning_rate": 9.295455602208438e-05,
      "loss": 0.5850791931152344,
      "memory(GiB)": 61.91,
      "step": 19960,
      "token_acc": 0.8929765886287625,
      "train_speed(iter/s)": 1.471898
    },
    {
      "epoch": 0.8553618096911015,
      "grad_norm": 1.3091460466384888,
      "learning_rate": 9.295111118259632e-05,
      "loss": 0.30006554126739504,
      "memory(GiB)": 61.91,
      "step": 19965,
      "token_acc": 0.9392857142857143,
      "train_speed(iter/s)": 1.471973
    },
    {
      "epoch": 0.8555760250203505,
      "grad_norm": 1.5328657627105713,
      "learning_rate": 9.29476655650086e-05,
      "loss": 0.38243653774261477,
      "memory(GiB)": 61.91,
      "step": 19970,
      "token_acc": 0.9192546583850931,
      "train_speed(iter/s)": 1.472023
    },
    {
      "epoch": 0.8557902403495994,
      "grad_norm": 2.081610679626465,
      "learning_rate": 9.294421916938363e-05,
      "loss": 0.5400920391082764,
      "memory(GiB)": 61.91,
      "step": 19975,
      "token_acc": 0.8754578754578755,
      "train_speed(iter/s)": 1.472029
    },
    {
      "epoch": 0.8560044556788484,
      "grad_norm": 2.4541804790496826,
      "learning_rate": 9.294077199578384e-05,
      "loss": 0.28597092628479004,
      "memory(GiB)": 61.91,
      "step": 19980,
      "token_acc": 0.9405204460966543,
      "train_speed(iter/s)": 1.472035
    },
    {
      "epoch": 0.8562186710080973,
      "grad_norm": 2.325462579727173,
      "learning_rate": 9.293732404427169e-05,
      "loss": 0.6353636741638183,
      "memory(GiB)": 61.91,
      "step": 19985,
      "token_acc": 0.8770491803278688,
      "train_speed(iter/s)": 1.47203
    },
    {
      "epoch": 0.8564328863373463,
      "grad_norm": 3.061760902404785,
      "learning_rate": 9.293387531490964e-05,
      "loss": 0.23824920654296874,
      "memory(GiB)": 61.91,
      "step": 19990,
      "token_acc": 0.946875,
      "train_speed(iter/s)": 1.472041
    },
    {
      "epoch": 0.8566471016665953,
      "grad_norm": 2.4279537200927734,
      "learning_rate": 9.293042580776015e-05,
      "loss": 0.2872252702713013,
      "memory(GiB)": 61.91,
      "step": 19995,
      "token_acc": 0.9263565891472868,
      "train_speed(iter/s)": 1.472075
    },
    {
      "epoch": 0.8568613169958442,
      "grad_norm": 2.666952610015869,
      "learning_rate": 9.292697552288574e-05,
      "loss": 0.3319696426391602,
      "memory(GiB)": 61.91,
      "step": 20000,
      "token_acc": 0.9391634980988594,
      "train_speed(iter/s)": 1.472069
    },
    {
      "epoch": 0.8568613169958442,
      "eval_loss": 2.5874948501586914,
      "eval_runtime": 13.3386,
      "eval_samples_per_second": 7.497,
      "eval_steps_per_second": 7.497,
      "eval_token_acc": 0.42136498516320475,
      "step": 20000
    },
    {
      "epoch": 0.8570755323250931,
      "grad_norm": 5.899051666259766,
      "learning_rate": 9.292352446034889e-05,
      "loss": 0.5617931842803955,
      "memory(GiB)": 61.91,
      "step": 20005,
      "token_acc": 0.555439330543933,
      "train_speed(iter/s)": 1.470515
    },
    {
      "epoch": 0.8572897476543422,
      "grad_norm": 1.9955731630325317,
      "learning_rate": 9.292007262021213e-05,
      "loss": 0.3105919361114502,
      "memory(GiB)": 61.91,
      "step": 20010,
      "token_acc": 0.926056338028169,
      "train_speed(iter/s)": 1.470536
    },
    {
      "epoch": 0.8575039629835911,
      "grad_norm": 4.718433380126953,
      "learning_rate": 9.291662000253799e-05,
      "loss": 0.40196914672851564,
      "memory(GiB)": 61.91,
      "step": 20015,
      "token_acc": 0.8864468864468864,
      "train_speed(iter/s)": 1.470538
    },
    {
      "epoch": 0.85771817831284,
      "grad_norm": 1.6956686973571777,
      "learning_rate": 9.291316660738903e-05,
      "loss": 0.25438950061798093,
      "memory(GiB)": 61.91,
      "step": 20020,
      "token_acc": 0.939209726443769,
      "train_speed(iter/s)": 1.47057
    },
    {
      "epoch": 0.8579323936420891,
      "grad_norm": 1.0845787525177002,
      "learning_rate": 9.290971243482778e-05,
      "loss": 0.37956478595733645,
      "memory(GiB)": 61.91,
      "step": 20025,
      "token_acc": 0.9190031152647975,
      "train_speed(iter/s)": 1.470568
    },
    {
      "epoch": 0.858146608971338,
      "grad_norm": 4.024974822998047,
      "learning_rate": 9.290625748491686e-05,
      "loss": 0.7599750518798828,
      "memory(GiB)": 61.91,
      "step": 20030,
      "token_acc": 0.8475609756097561,
      "train_speed(iter/s)": 1.470598
    },
    {
      "epoch": 0.8583608243005869,
      "grad_norm": 3.2862374782562256,
      "learning_rate": 9.290280175771882e-05,
      "loss": 0.2909094333648682,
      "memory(GiB)": 61.91,
      "step": 20035,
      "token_acc": 0.9458333333333333,
      "train_speed(iter/s)": 1.470602
    },
    {
      "epoch": 0.858575039629836,
      "grad_norm": 1.980050802230835,
      "learning_rate": 9.289934525329628e-05,
      "loss": 0.4299412727355957,
      "memory(GiB)": 61.91,
      "step": 20040,
      "token_acc": 0.90234375,
      "train_speed(iter/s)": 1.470622
    },
    {
      "epoch": 0.8587892549590849,
      "grad_norm": 8.636500358581543,
      "learning_rate": 9.289588797171186e-05,
      "loss": 0.4340050220489502,
      "memory(GiB)": 61.91,
      "step": 20045,
      "token_acc": 0.9149659863945578,
      "train_speed(iter/s)": 1.470756
    },
    {
      "epoch": 0.8590034702883338,
      "grad_norm": 2.5225956439971924,
      "learning_rate": 9.289242991302821e-05,
      "loss": 0.3914666652679443,
      "memory(GiB)": 61.91,
      "step": 20050,
      "token_acc": 0.8873239436619719,
      "train_speed(iter/s)": 1.470744
    },
    {
      "epoch": 0.8592176856175828,
      "grad_norm": 3.282421588897705,
      "learning_rate": 9.288897107730794e-05,
      "loss": 0.5906006813049316,
      "memory(GiB)": 61.91,
      "step": 20055,
      "token_acc": 0.875,
      "train_speed(iter/s)": 1.470778
    },
    {
      "epoch": 0.8594319009468318,
      "grad_norm": 3.961298942565918,
      "learning_rate": 9.288551146461373e-05,
      "loss": 0.38909914493560793,
      "memory(GiB)": 61.91,
      "step": 20060,
      "token_acc": 0.9041666666666667,
      "train_speed(iter/s)": 1.470764
    },
    {
      "epoch": 0.8596461162760807,
      "grad_norm": 2.4347612857818604,
      "learning_rate": 9.288205107500825e-05,
      "loss": 0.6195327281951905,
      "memory(GiB)": 61.91,
      "step": 20065,
      "token_acc": 0.8648648648648649,
      "train_speed(iter/s)": 1.470808
    },
    {
      "epoch": 0.8598603316053297,
      "grad_norm": 3.616971254348755,
      "learning_rate": 9.287858990855418e-05,
      "loss": 0.39984588623046874,
      "memory(GiB)": 61.91,
      "step": 20070,
      "token_acc": 0.9201277955271565,
      "train_speed(iter/s)": 1.470788
    },
    {
      "epoch": 0.8600745469345786,
      "grad_norm": 4.9394402503967285,
      "learning_rate": 9.287512796531423e-05,
      "loss": 0.3668442487716675,
      "memory(GiB)": 61.91,
      "step": 20075,
      "token_acc": 0.9266666666666666,
      "train_speed(iter/s)": 1.470813
    },
    {
      "epoch": 0.8602887622638276,
      "grad_norm": 3.415799856185913,
      "learning_rate": 9.287166524535111e-05,
      "loss": 0.4930895805358887,
      "memory(GiB)": 61.91,
      "step": 20080,
      "token_acc": 0.8642857142857143,
      "train_speed(iter/s)": 1.470785
    },
    {
      "epoch": 0.8605029775930766,
      "grad_norm": 2.4158530235290527,
      "learning_rate": 9.286820174872758e-05,
      "loss": 0.5660175800323486,
      "memory(GiB)": 61.91,
      "step": 20085,
      "token_acc": 0.8803680981595092,
      "train_speed(iter/s)": 1.470801
    },
    {
      "epoch": 0.8607171929223255,
      "grad_norm": 3.700089693069458,
      "learning_rate": 9.286473747550635e-05,
      "loss": 0.2886655330657959,
      "memory(GiB)": 61.91,
      "step": 20090,
      "token_acc": 0.9523809523809523,
      "train_speed(iter/s)": 1.470783
    },
    {
      "epoch": 0.8609314082515744,
      "grad_norm": 0.8853837251663208,
      "learning_rate": 9.286127242575019e-05,
      "loss": 0.187231183052063,
      "memory(GiB)": 61.91,
      "step": 20095,
      "token_acc": 0.9628482972136223,
      "train_speed(iter/s)": 1.470791
    },
    {
      "epoch": 0.8611456235808235,
      "grad_norm": 3.345749855041504,
      "learning_rate": 9.285780659952188e-05,
      "loss": 0.4053945541381836,
      "memory(GiB)": 61.91,
      "step": 20100,
      "token_acc": 0.9060150375939849,
      "train_speed(iter/s)": 1.470808
    },
    {
      "epoch": 0.8613598389100724,
      "grad_norm": 3.787198543548584,
      "learning_rate": 9.285433999688419e-05,
      "loss": 0.32616052627563474,
      "memory(GiB)": 61.91,
      "step": 20105,
      "token_acc": 0.9333333333333333,
      "train_speed(iter/s)": 1.470808
    },
    {
      "epoch": 0.8615740542393213,
      "grad_norm": 5.233165740966797,
      "learning_rate": 9.285087261789993e-05,
      "loss": 0.5410067558288574,
      "memory(GiB)": 61.91,
      "step": 20110,
      "token_acc": 0.8791208791208791,
      "train_speed(iter/s)": 1.470826
    },
    {
      "epoch": 0.8617882695685704,
      "grad_norm": 0.8143125772476196,
      "learning_rate": 9.284740446263191e-05,
      "loss": 0.08311324715614318,
      "memory(GiB)": 61.91,
      "step": 20115,
      "token_acc": 0.9810126582278481,
      "train_speed(iter/s)": 1.470825
    },
    {
      "epoch": 0.8620024848978193,
      "grad_norm": 3.2865731716156006,
      "learning_rate": 9.284393553114298e-05,
      "loss": 0.5665054321289062,
      "memory(GiB)": 61.91,
      "step": 20120,
      "token_acc": 0.8864468864468864,
      "train_speed(iter/s)": 1.470816
    },
    {
      "epoch": 0.8622167002270682,
      "grad_norm": 3.846881151199341,
      "learning_rate": 9.284046582349596e-05,
      "loss": 0.3428520202636719,
      "memory(GiB)": 61.91,
      "step": 20125,
      "token_acc": 0.9233449477351916,
      "train_speed(iter/s)": 1.470839
    },
    {
      "epoch": 0.8624309155563172,
      "grad_norm": 5.846823215484619,
      "learning_rate": 9.283699533975372e-05,
      "loss": 0.48529872894287107,
      "memory(GiB)": 61.91,
      "step": 20130,
      "token_acc": 0.9097744360902256,
      "train_speed(iter/s)": 1.470824
    },
    {
      "epoch": 0.8626451308855662,
      "grad_norm": 3.064837694168091,
      "learning_rate": 9.283352407997912e-05,
      "loss": 0.4784424304962158,
      "memory(GiB)": 61.91,
      "step": 20135,
      "token_acc": 0.8854489164086687,
      "train_speed(iter/s)": 1.470793
    },
    {
      "epoch": 0.8628593462148151,
      "grad_norm": 3.0719735622406006,
      "learning_rate": 9.283005204423504e-05,
      "loss": 0.31009361743927,
      "memory(GiB)": 61.91,
      "step": 20140,
      "token_acc": 0.9169960474308301,
      "train_speed(iter/s)": 1.470812
    },
    {
      "epoch": 0.8630735615440641,
      "grad_norm": 0.6391885280609131,
      "learning_rate": 9.28265792325844e-05,
      "loss": 0.2515124320983887,
      "memory(GiB)": 61.91,
      "step": 20145,
      "token_acc": 0.9510869565217391,
      "train_speed(iter/s)": 1.470803
    },
    {
      "epoch": 0.863287776873313,
      "grad_norm": 0.9864287376403809,
      "learning_rate": 9.282310564509009e-05,
      "loss": 0.3010514736175537,
      "memory(GiB)": 61.91,
      "step": 20150,
      "token_acc": 0.935374149659864,
      "train_speed(iter/s)": 1.470804
    },
    {
      "epoch": 0.863501992202562,
      "grad_norm": 3.1748859882354736,
      "learning_rate": 9.281963128181508e-05,
      "loss": 0.3412697076797485,
      "memory(GiB)": 61.91,
      "step": 20155,
      "token_acc": 0.9260450160771704,
      "train_speed(iter/s)": 1.470804
    },
    {
      "epoch": 0.863716207531811,
      "grad_norm": 3.3222877979278564,
      "learning_rate": 9.281615614282225e-05,
      "loss": 0.4447681427001953,
      "memory(GiB)": 61.91,
      "step": 20160,
      "token_acc": 0.9049180327868852,
      "train_speed(iter/s)": 1.47079
    },
    {
      "epoch": 0.8639304228610599,
      "grad_norm": 3.368241786956787,
      "learning_rate": 9.28126802281746e-05,
      "loss": 0.31921777725219724,
      "memory(GiB)": 61.91,
      "step": 20165,
      "token_acc": 0.9290540540540541,
      "train_speed(iter/s)": 1.470791
    },
    {
      "epoch": 0.8641446381903088,
      "grad_norm": 4.449585914611816,
      "learning_rate": 9.280920353793508e-05,
      "loss": 0.5786193370819092,
      "memory(GiB)": 61.91,
      "step": 20170,
      "token_acc": 0.8757961783439491,
      "train_speed(iter/s)": 1.470788
    },
    {
      "epoch": 0.8643588535195579,
      "grad_norm": 5.571672439575195,
      "learning_rate": 9.280572607216668e-05,
      "loss": 0.5033541679382324,
      "memory(GiB)": 61.91,
      "step": 20175,
      "token_acc": 0.8758620689655172,
      "train_speed(iter/s)": 1.470804
    },
    {
      "epoch": 0.8645730688488068,
      "grad_norm": 3.843304395675659,
      "learning_rate": 9.280224783093241e-05,
      "loss": 0.4961112022399902,
      "memory(GiB)": 61.91,
      "step": 20180,
      "token_acc": 0.8983050847457628,
      "train_speed(iter/s)": 1.4708
    },
    {
      "epoch": 0.8647872841780557,
      "grad_norm": 3.6941306591033936,
      "learning_rate": 9.279876881429526e-05,
      "loss": 0.4249885082244873,
      "memory(GiB)": 61.91,
      "step": 20185,
      "token_acc": 0.915129151291513,
      "train_speed(iter/s)": 1.470805
    },
    {
      "epoch": 0.8650014995073048,
      "grad_norm": 2.8257648944854736,
      "learning_rate": 9.279528902231827e-05,
      "loss": 0.3045284032821655,
      "memory(GiB)": 61.91,
      "step": 20190,
      "token_acc": 0.9283489096573209,
      "train_speed(iter/s)": 1.470834
    },
    {
      "epoch": 0.8652157148365537,
      "grad_norm": 2.070969820022583,
      "learning_rate": 9.279180845506446e-05,
      "loss": 0.15169551372528076,
      "memory(GiB)": 61.91,
      "step": 20195,
      "token_acc": 0.9750889679715302,
      "train_speed(iter/s)": 1.470857
    },
    {
      "epoch": 0.8654299301658027,
      "grad_norm": 3.058532953262329,
      "learning_rate": 9.27883271125969e-05,
      "loss": 0.4051656246185303,
      "memory(GiB)": 61.91,
      "step": 20200,
      "token_acc": 0.9141914191419142,
      "train_speed(iter/s)": 1.470906
    },
    {
      "epoch": 0.8656441454950516,
      "grad_norm": 3.8719303607940674,
      "learning_rate": 9.278484499497868e-05,
      "loss": 0.40245370864868163,
      "memory(GiB)": 61.91,
      "step": 20205,
      "token_acc": 0.9060402684563759,
      "train_speed(iter/s)": 1.470888
    },
    {
      "epoch": 0.8658583608243006,
      "grad_norm": 4.998509407043457,
      "learning_rate": 9.278136210227284e-05,
      "loss": 0.2352292060852051,
      "memory(GiB)": 61.91,
      "step": 20210,
      "token_acc": 0.9362549800796812,
      "train_speed(iter/s)": 1.470887
    },
    {
      "epoch": 0.8660725761535496,
      "grad_norm": 0.4039033055305481,
      "learning_rate": 9.277787843454248e-05,
      "loss": 0.3789071083068848,
      "memory(GiB)": 61.91,
      "step": 20215,
      "token_acc": 0.9152542372881356,
      "train_speed(iter/s)": 1.470879
    },
    {
      "epoch": 0.8662867914827985,
      "grad_norm": 4.707996368408203,
      "learning_rate": 9.277439399185074e-05,
      "loss": 0.5556529045104981,
      "memory(GiB)": 61.91,
      "step": 20220,
      "token_acc": 0.8859315589353612,
      "train_speed(iter/s)": 1.470906
    },
    {
      "epoch": 0.8665010068120474,
      "grad_norm": 2.0808002948760986,
      "learning_rate": 9.277090877426074e-05,
      "loss": 0.33698134422302245,
      "memory(GiB)": 61.91,
      "step": 20225,
      "token_acc": 0.922360248447205,
      "train_speed(iter/s)": 1.470899
    },
    {
      "epoch": 0.8667152221412965,
      "grad_norm": 2.5169596672058105,
      "learning_rate": 9.276742278183558e-05,
      "loss": 0.32741289138793944,
      "memory(GiB)": 61.91,
      "step": 20230,
      "token_acc": 0.9214285714285714,
      "train_speed(iter/s)": 1.470889
    },
    {
      "epoch": 0.8669294374705454,
      "grad_norm": 5.539857864379883,
      "learning_rate": 9.276393601463844e-05,
      "loss": 0.421093225479126,
      "memory(GiB)": 61.91,
      "step": 20235,
      "token_acc": 0.9056603773584906,
      "train_speed(iter/s)": 1.470893
    },
    {
      "epoch": 0.8671436527997943,
      "grad_norm": 3.5388846397399902,
      "learning_rate": 9.276044847273249e-05,
      "loss": 0.4861351490020752,
      "memory(GiB)": 61.91,
      "step": 20240,
      "token_acc": 0.895910780669145,
      "train_speed(iter/s)": 1.470901
    },
    {
      "epoch": 0.8673578681290434,
      "grad_norm": 1.8168584108352661,
      "learning_rate": 9.27569601561809e-05,
      "loss": 0.29187147617340087,
      "memory(GiB)": 61.91,
      "step": 20245,
      "token_acc": 0.9437229437229437,
      "train_speed(iter/s)": 1.470903
    },
    {
      "epoch": 0.8675720834582923,
      "grad_norm": 3.5806045532226562,
      "learning_rate": 9.275347106504689e-05,
      "loss": 0.36395626068115233,
      "memory(GiB)": 61.91,
      "step": 20250,
      "token_acc": 0.9074074074074074,
      "train_speed(iter/s)": 1.47092
    },
    {
      "epoch": 0.8677862987875412,
      "grad_norm": 4.734711170196533,
      "learning_rate": 9.274998119939362e-05,
      "loss": 0.3267072200775146,
      "memory(GiB)": 61.91,
      "step": 20255,
      "token_acc": 0.9219858156028369,
      "train_speed(iter/s)": 1.470916
    },
    {
      "epoch": 0.8680005141167902,
      "grad_norm": 1.8125243186950684,
      "learning_rate": 9.274649055928434e-05,
      "loss": 0.17592849731445312,
      "memory(GiB)": 61.91,
      "step": 20260,
      "token_acc": 0.9685314685314685,
      "train_speed(iter/s)": 1.470923
    },
    {
      "epoch": 0.8682147294460392,
      "grad_norm": 2.4889023303985596,
      "learning_rate": 9.274299914478228e-05,
      "loss": 0.47710418701171875,
      "memory(GiB)": 61.91,
      "step": 20265,
      "token_acc": 0.8888888888888888,
      "train_speed(iter/s)": 1.4709
    },
    {
      "epoch": 0.8684289447752881,
      "grad_norm": 5.094547271728516,
      "learning_rate": 9.273950695595071e-05,
      "loss": 0.4860203266143799,
      "memory(GiB)": 61.91,
      "step": 20270,
      "token_acc": 0.8679867986798679,
      "train_speed(iter/s)": 1.470887
    },
    {
      "epoch": 0.8686431601045371,
      "grad_norm": 2.9492194652557373,
      "learning_rate": 9.273601399285287e-05,
      "loss": 0.33748438358306887,
      "memory(GiB)": 61.91,
      "step": 20275,
      "token_acc": 0.9423868312757202,
      "train_speed(iter/s)": 1.470868
    },
    {
      "epoch": 0.868857375433786,
      "grad_norm": 2.8262240886688232,
      "learning_rate": 9.273252025555205e-05,
      "loss": 0.5211102962493896,
      "memory(GiB)": 61.91,
      "step": 20280,
      "token_acc": 0.914396887159533,
      "train_speed(iter/s)": 1.470862
    },
    {
      "epoch": 0.869071590763035,
      "grad_norm": 2.1415047645568848,
      "learning_rate": 9.272902574411153e-05,
      "loss": 0.4004986763000488,
      "memory(GiB)": 61.91,
      "step": 20285,
      "token_acc": 0.910394265232975,
      "train_speed(iter/s)": 1.470871
    },
    {
      "epoch": 0.869285806092284,
      "grad_norm": 3.3779759407043457,
      "learning_rate": 9.272553045859464e-05,
      "loss": 0.46398348808288575,
      "memory(GiB)": 61.91,
      "step": 20290,
      "token_acc": 0.8839590443686007,
      "train_speed(iter/s)": 1.470906
    },
    {
      "epoch": 0.8695000214215329,
      "grad_norm": 3.2674472332000732,
      "learning_rate": 9.272203439906469e-05,
      "loss": 0.27725958824157715,
      "memory(GiB)": 61.91,
      "step": 20295,
      "token_acc": 0.9402390438247012,
      "train_speed(iter/s)": 1.470902
    },
    {
      "epoch": 0.8697142367507819,
      "grad_norm": 0.27419528365135193,
      "learning_rate": 9.271853756558497e-05,
      "loss": 0.1272291898727417,
      "memory(GiB)": 61.91,
      "step": 20300,
      "token_acc": 0.9581749049429658,
      "train_speed(iter/s)": 1.470914
    },
    {
      "epoch": 0.8699284520800309,
      "grad_norm": 1.919814944267273,
      "learning_rate": 9.271503995821891e-05,
      "loss": 0.28002777099609377,
      "memory(GiB)": 61.91,
      "step": 20305,
      "token_acc": 0.926923076923077,
      "train_speed(iter/s)": 1.470909
    },
    {
      "epoch": 0.8701426674092798,
      "grad_norm": 2.8603670597076416,
      "learning_rate": 9.271154157702982e-05,
      "loss": 0.3877793073654175,
      "memory(GiB)": 61.91,
      "step": 20310,
      "token_acc": 0.9064748201438849,
      "train_speed(iter/s)": 1.470926
    },
    {
      "epoch": 0.8703568827385287,
      "grad_norm": 4.851675987243652,
      "learning_rate": 9.270804242208109e-05,
      "loss": 0.4519011974334717,
      "memory(GiB)": 61.91,
      "step": 20315,
      "token_acc": 0.901685393258427,
      "train_speed(iter/s)": 1.471004
    },
    {
      "epoch": 0.8705710980677778,
      "grad_norm": 2.747835636138916,
      "learning_rate": 9.27045424934361e-05,
      "loss": 0.6600792407989502,
      "memory(GiB)": 61.91,
      "step": 20320,
      "token_acc": 0.8458904109589042,
      "train_speed(iter/s)": 1.470991
    },
    {
      "epoch": 0.8707853133970267,
      "grad_norm": 0.33447086811065674,
      "learning_rate": 9.270104179115825e-05,
      "loss": 0.2837267637252808,
      "memory(GiB)": 61.91,
      "step": 20325,
      "token_acc": 0.9477351916376306,
      "train_speed(iter/s)": 1.47099
    },
    {
      "epoch": 0.8709995287262756,
      "grad_norm": 3.061060905456543,
      "learning_rate": 9.2697540315311e-05,
      "loss": 0.3605178356170654,
      "memory(GiB)": 61.91,
      "step": 20330,
      "token_acc": 0.9003115264797508,
      "train_speed(iter/s)": 1.470962
    },
    {
      "epoch": 0.8712137440555247,
      "grad_norm": 2.6664257049560547,
      "learning_rate": 9.269403806595775e-05,
      "loss": 0.42342686653137207,
      "memory(GiB)": 61.91,
      "step": 20335,
      "token_acc": 0.9067524115755627,
      "train_speed(iter/s)": 1.471021
    },
    {
      "epoch": 0.8714279593847736,
      "grad_norm": 3.8074936866760254,
      "learning_rate": 9.269053504316194e-05,
      "loss": 0.5013735294342041,
      "memory(GiB)": 61.91,
      "step": 20340,
      "token_acc": 0.8980392156862745,
      "train_speed(iter/s)": 1.471048
    },
    {
      "epoch": 0.8716421747140225,
      "grad_norm": 0.629012405872345,
      "learning_rate": 9.268703124698704e-05,
      "loss": 0.39875454902648927,
      "memory(GiB)": 61.91,
      "step": 20345,
      "token_acc": 0.9273927392739274,
      "train_speed(iter/s)": 1.471029
    },
    {
      "epoch": 0.8718563900432715,
      "grad_norm": 2.0433337688446045,
      "learning_rate": 9.268352667749653e-05,
      "loss": 0.3396777153015137,
      "memory(GiB)": 61.91,
      "step": 20350,
      "token_acc": 0.9393939393939394,
      "train_speed(iter/s)": 1.471016
    },
    {
      "epoch": 0.8720706053725205,
      "grad_norm": 4.542453765869141,
      "learning_rate": 9.268002133475388e-05,
      "loss": 0.37538139820098876,
      "memory(GiB)": 61.91,
      "step": 20355,
      "token_acc": 0.9219858156028369,
      "train_speed(iter/s)": 1.47102
    },
    {
      "epoch": 0.8722848207017694,
      "grad_norm": 5.2698235511779785,
      "learning_rate": 9.267651521882263e-05,
      "loss": 0.5297595500946045,
      "memory(GiB)": 61.91,
      "step": 20360,
      "token_acc": 0.8566433566433567,
      "train_speed(iter/s)": 1.471047
    },
    {
      "epoch": 0.8724990360310184,
      "grad_norm": 1.0837794542312622,
      "learning_rate": 9.267300832976626e-05,
      "loss": 0.2728140830993652,
      "memory(GiB)": 61.91,
      "step": 20365,
      "token_acc": 0.9306569343065694,
      "train_speed(iter/s)": 1.471029
    },
    {
      "epoch": 0.8727132513602673,
      "grad_norm": 3.025268793106079,
      "learning_rate": 9.266950066764832e-05,
      "loss": 0.5232598781585693,
      "memory(GiB)": 61.91,
      "step": 20370,
      "token_acc": 0.8888888888888888,
      "train_speed(iter/s)": 1.471016
    },
    {
      "epoch": 0.8729274666895163,
      "grad_norm": 3.443796157836914,
      "learning_rate": 9.266599223253234e-05,
      "loss": 0.38428282737731934,
      "memory(GiB)": 61.91,
      "step": 20375,
      "token_acc": 0.9271255060728745,
      "train_speed(iter/s)": 1.471029
    },
    {
      "epoch": 0.8731416820187653,
      "grad_norm": 6.164388656616211,
      "learning_rate": 9.266248302448188e-05,
      "loss": 0.5353055000305176,
      "memory(GiB)": 61.91,
      "step": 20380,
      "token_acc": 0.9080459770114943,
      "train_speed(iter/s)": 1.471098
    },
    {
      "epoch": 0.8733558973480142,
      "grad_norm": 2.455932378768921,
      "learning_rate": 9.265897304356055e-05,
      "loss": 0.5279929161071777,
      "memory(GiB)": 61.91,
      "step": 20385,
      "token_acc": 0.8932384341637011,
      "train_speed(iter/s)": 1.471086
    },
    {
      "epoch": 0.8735701126772631,
      "grad_norm": 2.3730509281158447,
      "learning_rate": 9.265546228983189e-05,
      "loss": 0.3904967546463013,
      "memory(GiB)": 61.91,
      "step": 20390,
      "token_acc": 0.9298892988929889,
      "train_speed(iter/s)": 1.47107
    },
    {
      "epoch": 0.8737843280065122,
      "grad_norm": 2.647158145904541,
      "learning_rate": 9.26519507633595e-05,
      "loss": 0.2832775354385376,
      "memory(GiB)": 61.91,
      "step": 20395,
      "token_acc": 0.9397590361445783,
      "train_speed(iter/s)": 1.471059
    },
    {
      "epoch": 0.8739985433357611,
      "grad_norm": 4.059156894683838,
      "learning_rate": 9.264843846420702e-05,
      "loss": 0.3772773027420044,
      "memory(GiB)": 61.91,
      "step": 20400,
      "token_acc": 0.9304029304029304,
      "train_speed(iter/s)": 1.471045
    },
    {
      "epoch": 0.87421275866501,
      "grad_norm": 5.386110305786133,
      "learning_rate": 9.264492539243808e-05,
      "loss": 0.3716228723526001,
      "memory(GiB)": 61.91,
      "step": 20405,
      "token_acc": 0.9142857142857143,
      "train_speed(iter/s)": 1.471043
    },
    {
      "epoch": 0.8744269739942591,
      "grad_norm": 0.08316881209611893,
      "learning_rate": 9.26414115481163e-05,
      "loss": 0.20720417499542237,
      "memory(GiB)": 61.91,
      "step": 20410,
      "token_acc": 0.9402390438247012,
      "train_speed(iter/s)": 1.471077
    },
    {
      "epoch": 0.874641189323508,
      "grad_norm": 2.0852210521698,
      "learning_rate": 9.263789693130535e-05,
      "loss": 0.23512818813323974,
      "memory(GiB)": 61.91,
      "step": 20415,
      "token_acc": 0.9498432601880877,
      "train_speed(iter/s)": 1.471067
    },
    {
      "epoch": 0.8748554046527569,
      "grad_norm": 5.843173027038574,
      "learning_rate": 9.263438154206892e-05,
      "loss": 0.30675501823425294,
      "memory(GiB)": 61.91,
      "step": 20420,
      "token_acc": 0.929368029739777,
      "train_speed(iter/s)": 1.471063
    },
    {
      "epoch": 0.8750696199820059,
      "grad_norm": 4.7368316650390625,
      "learning_rate": 9.263086538047064e-05,
      "loss": 0.5433887958526611,
      "memory(GiB)": 61.91,
      "step": 20425,
      "token_acc": 0.8905660377358491,
      "train_speed(iter/s)": 1.471044
    },
    {
      "epoch": 0.8752838353112549,
      "grad_norm": 1.196048617362976,
      "learning_rate": 9.262734844657425e-05,
      "loss": 0.36014442443847655,
      "memory(GiB)": 61.91,
      "step": 20430,
      "token_acc": 0.9243421052631579,
      "train_speed(iter/s)": 1.471028
    },
    {
      "epoch": 0.8754980506405038,
      "grad_norm": 2.621941328048706,
      "learning_rate": 9.262383074044347e-05,
      "loss": 0.3916118383407593,
      "memory(GiB)": 61.91,
      "step": 20435,
      "token_acc": 0.9302325581395349,
      "train_speed(iter/s)": 1.471029
    },
    {
      "epoch": 0.8757122659697528,
      "grad_norm": 6.432663917541504,
      "learning_rate": 9.262031226214201e-05,
      "loss": 0.7440526008605957,
      "memory(GiB)": 61.91,
      "step": 20440,
      "token_acc": 0.867109634551495,
      "train_speed(iter/s)": 1.471022
    },
    {
      "epoch": 0.8759264812990017,
      "grad_norm": 4.009224891662598,
      "learning_rate": 9.261679301173361e-05,
      "loss": 0.6484699249267578,
      "memory(GiB)": 61.91,
      "step": 20445,
      "token_acc": 0.8848684210526315,
      "train_speed(iter/s)": 1.47103
    },
    {
      "epoch": 0.8761406966282507,
      "grad_norm": 5.817619323730469,
      "learning_rate": 9.261327298928203e-05,
      "loss": 0.5252953052520752,
      "memory(GiB)": 61.91,
      "step": 20450,
      "token_acc": 0.8835341365461847,
      "train_speed(iter/s)": 1.471031
    },
    {
      "epoch": 0.8763549119574997,
      "grad_norm": 3.3331449031829834,
      "learning_rate": 9.260975219485104e-05,
      "loss": 0.985097599029541,
      "memory(GiB)": 61.91,
      "step": 20455,
      "token_acc": 0.811377245508982,
      "train_speed(iter/s)": 1.471129
    },
    {
      "epoch": 0.8765691272867486,
      "grad_norm": 1.1041663885116577,
      "learning_rate": 9.26062306285044e-05,
      "loss": 0.23234739303588867,
      "memory(GiB)": 61.91,
      "step": 20460,
      "token_acc": 0.9471698113207547,
      "train_speed(iter/s)": 1.471143
    },
    {
      "epoch": 0.8767833426159976,
      "grad_norm": 1.2077059745788574,
      "learning_rate": 9.260270829030594e-05,
      "loss": 0.45517644882202146,
      "memory(GiB)": 61.91,
      "step": 20465,
      "token_acc": 0.9125,
      "train_speed(iter/s)": 1.471127
    },
    {
      "epoch": 0.8769975579452466,
      "grad_norm": 5.726842403411865,
      "learning_rate": 9.259918518031944e-05,
      "loss": 0.4931472301483154,
      "memory(GiB)": 61.91,
      "step": 20470,
      "token_acc": 0.8910505836575876,
      "train_speed(iter/s)": 1.471116
    },
    {
      "epoch": 0.8772117732744955,
      "grad_norm": 4.1705732345581055,
      "learning_rate": 9.259566129860874e-05,
      "loss": 0.30225400924682616,
      "memory(GiB)": 61.91,
      "step": 20475,
      "token_acc": 0.9383116883116883,
      "train_speed(iter/s)": 1.471107
    },
    {
      "epoch": 0.8774259886037444,
      "grad_norm": 10.478804588317871,
      "learning_rate": 9.25921366452377e-05,
      "loss": 0.44098901748657227,
      "memory(GiB)": 61.91,
      "step": 20480,
      "token_acc": 0.9045801526717557,
      "train_speed(iter/s)": 1.471143
    },
    {
      "epoch": 0.8776402039329935,
      "grad_norm": 1.982035517692566,
      "learning_rate": 9.258861122027013e-05,
      "loss": 0.3743525743484497,
      "memory(GiB)": 61.91,
      "step": 20485,
      "token_acc": 0.9186046511627907,
      "train_speed(iter/s)": 1.471183
    },
    {
      "epoch": 0.8778544192622424,
      "grad_norm": 3.042750835418701,
      "learning_rate": 9.258508502376992e-05,
      "loss": 0.36660161018371584,
      "memory(GiB)": 61.91,
      "step": 20490,
      "token_acc": 0.9206349206349206,
      "train_speed(iter/s)": 1.471189
    },
    {
      "epoch": 0.8780686345914913,
      "grad_norm": 2.342512607574463,
      "learning_rate": 9.258155805580095e-05,
      "loss": 0.3879528522491455,
      "memory(GiB)": 61.91,
      "step": 20495,
      "token_acc": 0.9015151515151515,
      "train_speed(iter/s)": 1.471227
    },
    {
      "epoch": 0.8782828499207403,
      "grad_norm": 4.236050128936768,
      "learning_rate": 9.257803031642711e-05,
      "loss": 0.3503885269165039,
      "memory(GiB)": 61.91,
      "step": 20500,
      "token_acc": 0.9216300940438872,
      "train_speed(iter/s)": 1.47121
    },
    {
      "epoch": 0.8782828499207403,
      "eval_loss": 2.654681921005249,
      "eval_runtime": 13.0954,
      "eval_samples_per_second": 7.636,
      "eval_steps_per_second": 7.636,
      "eval_token_acc": 0.4090909090909091,
      "step": 20500
    },
    {
      "epoch": 0.8784970652499893,
      "grad_norm": 5.393502235412598,
      "learning_rate": 9.257450180571232e-05,
      "loss": 0.5845614910125733,
      "memory(GiB)": 61.91,
      "step": 20505,
      "token_acc": 0.5372993389990557,
      "train_speed(iter/s)": 1.469732
    },
    {
      "epoch": 0.8787112805792382,
      "grad_norm": 2.5605697631835938,
      "learning_rate": 9.257097252372047e-05,
      "loss": 0.33208436965942384,
      "memory(GiB)": 61.91,
      "step": 20510,
      "token_acc": 0.9304635761589404,
      "train_speed(iter/s)": 1.469746
    },
    {
      "epoch": 0.8789254959084872,
      "grad_norm": 4.5631422996521,
      "learning_rate": 9.256744247051553e-05,
      "loss": 0.4456012725830078,
      "memory(GiB)": 61.91,
      "step": 20515,
      "token_acc": 0.8870056497175142,
      "train_speed(iter/s)": 1.469791
    },
    {
      "epoch": 0.8791397112377362,
      "grad_norm": 2.600782871246338,
      "learning_rate": 9.256391164616144e-05,
      "loss": 0.4852243423461914,
      "memory(GiB)": 61.91,
      "step": 20520,
      "token_acc": 0.9251700680272109,
      "train_speed(iter/s)": 1.469791
    },
    {
      "epoch": 0.8793539265669851,
      "grad_norm": 2.8911192417144775,
      "learning_rate": 9.256038005072216e-05,
      "loss": 0.6145119190216064,
      "memory(GiB)": 61.91,
      "step": 20525,
      "token_acc": 0.8925925925925926,
      "train_speed(iter/s)": 1.469777
    },
    {
      "epoch": 0.8795681418962341,
      "grad_norm": 2.902102470397949,
      "learning_rate": 9.255684768426168e-05,
      "loss": 0.31998457908630373,
      "memory(GiB)": 61.91,
      "step": 20530,
      "token_acc": 0.9183006535947712,
      "train_speed(iter/s)": 1.469776
    },
    {
      "epoch": 0.879782357225483,
      "grad_norm": 6.201425552368164,
      "learning_rate": 9.255331454684395e-05,
      "loss": 0.48004980087280275,
      "memory(GiB)": 61.91,
      "step": 20535,
      "token_acc": 0.9188191881918819,
      "train_speed(iter/s)": 1.469783
    },
    {
      "epoch": 0.8799965725547321,
      "grad_norm": 3.5748789310455322,
      "learning_rate": 9.254978063853303e-05,
      "loss": 0.31202819347381594,
      "memory(GiB)": 61.91,
      "step": 20540,
      "token_acc": 0.9368029739776952,
      "train_speed(iter/s)": 1.469774
    },
    {
      "epoch": 0.880210787883981,
      "grad_norm": 3.452876091003418,
      "learning_rate": 9.254624595939293e-05,
      "loss": 0.2782243251800537,
      "memory(GiB)": 61.91,
      "step": 20545,
      "token_acc": 0.9351145038167938,
      "train_speed(iter/s)": 1.469762
    },
    {
      "epoch": 0.8804250032132299,
      "grad_norm": 4.855597019195557,
      "learning_rate": 9.254271050948767e-05,
      "loss": 0.3939187049865723,
      "memory(GiB)": 61.91,
      "step": 20550,
      "token_acc": 0.9328859060402684,
      "train_speed(iter/s)": 1.469741
    },
    {
      "epoch": 0.880639218542479,
      "grad_norm": 2.6236846446990967,
      "learning_rate": 9.253917428888129e-05,
      "loss": 0.5342060089111328,
      "memory(GiB)": 61.91,
      "step": 20555,
      "token_acc": 0.8905325443786982,
      "train_speed(iter/s)": 1.469752
    },
    {
      "epoch": 0.8808534338717279,
      "grad_norm": 3.9176530838012695,
      "learning_rate": 9.253563729763786e-05,
      "loss": 0.7897815704345703,
      "memory(GiB)": 61.91,
      "step": 20560,
      "token_acc": 0.8191489361702128,
      "train_speed(iter/s)": 1.469847
    },
    {
      "epoch": 0.8810676492009768,
      "grad_norm": 3.4497034549713135,
      "learning_rate": 9.253209953582147e-05,
      "loss": 0.3669548511505127,
      "memory(GiB)": 61.91,
      "step": 20565,
      "token_acc": 0.9213836477987422,
      "train_speed(iter/s)": 1.469861
    },
    {
      "epoch": 0.8812818645302258,
      "grad_norm": 2.8337817192077637,
      "learning_rate": 9.25285610034962e-05,
      "loss": 0.5095669746398925,
      "memory(GiB)": 61.91,
      "step": 20570,
      "token_acc": 0.8961937716262975,
      "train_speed(iter/s)": 1.469847
    },
    {
      "epoch": 0.8814960798594748,
      "grad_norm": 0.6971103549003601,
      "learning_rate": 9.252502170072615e-05,
      "loss": 0.4159690380096436,
      "memory(GiB)": 61.91,
      "step": 20575,
      "token_acc": 0.9194139194139194,
      "train_speed(iter/s)": 1.469867
    },
    {
      "epoch": 0.8817102951887237,
      "grad_norm": 0.8404387831687927,
      "learning_rate": 9.252148162757542e-05,
      "loss": 0.35258615016937256,
      "memory(GiB)": 61.91,
      "step": 20580,
      "token_acc": 0.9362416107382551,
      "train_speed(iter/s)": 1.469887
    },
    {
      "epoch": 0.8819245105179727,
      "grad_norm": 1.8977062702178955,
      "learning_rate": 9.251794078410818e-05,
      "loss": 0.26389617919921876,
      "memory(GiB)": 61.91,
      "step": 20585,
      "token_acc": 0.9281914893617021,
      "train_speed(iter/s)": 1.46988
    },
    {
      "epoch": 0.8821387258472216,
      "grad_norm": 2.8386340141296387,
      "learning_rate": 9.251439917038856e-05,
      "loss": 0.4016404151916504,
      "memory(GiB)": 61.91,
      "step": 20590,
      "token_acc": 0.9300411522633745,
      "train_speed(iter/s)": 1.469884
    },
    {
      "epoch": 0.8823529411764706,
      "grad_norm": 4.149711608886719,
      "learning_rate": 9.251085678648072e-05,
      "loss": 0.44855446815490724,
      "memory(GiB)": 61.91,
      "step": 20595,
      "token_acc": 0.9041533546325878,
      "train_speed(iter/s)": 1.469877
    },
    {
      "epoch": 0.8825671565057196,
      "grad_norm": 4.27059268951416,
      "learning_rate": 9.250731363244882e-05,
      "loss": 0.57105393409729,
      "memory(GiB)": 61.91,
      "step": 20600,
      "token_acc": 0.8825503355704698,
      "train_speed(iter/s)": 1.469863
    },
    {
      "epoch": 0.8827813718349685,
      "grad_norm": 0.7378469109535217,
      "learning_rate": 9.250376970835706e-05,
      "loss": 0.4087355136871338,
      "memory(GiB)": 61.91,
      "step": 20605,
      "token_acc": 0.913946587537092,
      "train_speed(iter/s)": 1.469854
    },
    {
      "epoch": 0.8829955871642174,
      "grad_norm": 2.172455310821533,
      "learning_rate": 9.250022501426965e-05,
      "loss": 0.30805253982543945,
      "memory(GiB)": 61.91,
      "step": 20610,
      "token_acc": 0.9321428571428572,
      "train_speed(iter/s)": 1.469892
    },
    {
      "epoch": 0.8832098024934665,
      "grad_norm": 3.545656681060791,
      "learning_rate": 9.249667955025079e-05,
      "loss": 0.45917425155639646,
      "memory(GiB)": 61.91,
      "step": 20615,
      "token_acc": 0.9076923076923077,
      "train_speed(iter/s)": 1.469889
    },
    {
      "epoch": 0.8834240178227154,
      "grad_norm": 2.050723075866699,
      "learning_rate": 9.24931333163647e-05,
      "loss": 0.26000337600708007,
      "memory(GiB)": 61.91,
      "step": 20620,
      "token_acc": 0.9519774011299436,
      "train_speed(iter/s)": 1.46989
    },
    {
      "epoch": 0.8836382331519643,
      "grad_norm": 3.761932611465454,
      "learning_rate": 9.248958631267566e-05,
      "loss": 0.29191017150878906,
      "memory(GiB)": 61.91,
      "step": 20625,
      "token_acc": 0.9446254071661238,
      "train_speed(iter/s)": 1.469893
    },
    {
      "epoch": 0.8838524484812134,
      "grad_norm": 3.858949899673462,
      "learning_rate": 9.248603853924789e-05,
      "loss": 0.3816622257232666,
      "memory(GiB)": 61.91,
      "step": 20630,
      "token_acc": 0.9225806451612903,
      "train_speed(iter/s)": 1.469892
    },
    {
      "epoch": 0.8840666638104623,
      "grad_norm": 2.3824822902679443,
      "learning_rate": 9.248248999614568e-05,
      "loss": 0.4334630012512207,
      "memory(GiB)": 61.91,
      "step": 20635,
      "token_acc": 0.9180327868852459,
      "train_speed(iter/s)": 1.46993
    },
    {
      "epoch": 0.8842808791397112,
      "grad_norm": 3.9659693241119385,
      "learning_rate": 9.247894068343332e-05,
      "loss": 0.3457240104675293,
      "memory(GiB)": 61.91,
      "step": 20640,
      "token_acc": 0.9163179916317992,
      "train_speed(iter/s)": 1.469917
    },
    {
      "epoch": 0.8844950944689602,
      "grad_norm": 3.462836742401123,
      "learning_rate": 9.24753906011751e-05,
      "loss": 0.3277305603027344,
      "memory(GiB)": 61.91,
      "step": 20645,
      "token_acc": 0.9236363636363636,
      "train_speed(iter/s)": 1.469965
    },
    {
      "epoch": 0.8847093097982092,
      "grad_norm": 3.7420461177825928,
      "learning_rate": 9.247183974943532e-05,
      "loss": 0.3756612777709961,
      "memory(GiB)": 61.91,
      "step": 20650,
      "token_acc": 0.9208860759493671,
      "train_speed(iter/s)": 1.469968
    },
    {
      "epoch": 0.8849235251274581,
      "grad_norm": 1.8029277324676514,
      "learning_rate": 9.246828812827834e-05,
      "loss": 0.3801274299621582,
      "memory(GiB)": 61.91,
      "step": 20655,
      "token_acc": 0.9120879120879121,
      "train_speed(iter/s)": 1.469958
    },
    {
      "epoch": 0.8851377404567071,
      "grad_norm": 2.0436856746673584,
      "learning_rate": 9.246473573776845e-05,
      "loss": 0.21556942462921141,
      "memory(GiB)": 61.91,
      "step": 20660,
      "token_acc": 0.950381679389313,
      "train_speed(iter/s)": 1.469934
    },
    {
      "epoch": 0.885351955785956,
      "grad_norm": 3.6523873805999756,
      "learning_rate": 9.246118257797007e-05,
      "loss": 0.4493208885192871,
      "memory(GiB)": 61.91,
      "step": 20665,
      "token_acc": 0.8794788273615635,
      "train_speed(iter/s)": 1.46993
    },
    {
      "epoch": 0.885566171115205,
      "grad_norm": 6.215827465057373,
      "learning_rate": 9.245762864894754e-05,
      "loss": 0.23746700286865235,
      "memory(GiB)": 61.91,
      "step": 20670,
      "token_acc": 0.9344262295081968,
      "train_speed(iter/s)": 1.46995
    },
    {
      "epoch": 0.885780386444454,
      "grad_norm": 4.692248344421387,
      "learning_rate": 9.245407395076522e-05,
      "loss": 0.709587287902832,
      "memory(GiB)": 61.91,
      "step": 20675,
      "token_acc": 0.8364312267657993,
      "train_speed(iter/s)": 1.469964
    },
    {
      "epoch": 0.8859946017737029,
      "grad_norm": 0.1074208989739418,
      "learning_rate": 9.245051848348753e-05,
      "loss": 0.3345240592956543,
      "memory(GiB)": 61.91,
      "step": 20680,
      "token_acc": 0.9402985074626866,
      "train_speed(iter/s)": 1.46996
    },
    {
      "epoch": 0.8862088171029519,
      "grad_norm": 4.640208721160889,
      "learning_rate": 9.244696224717889e-05,
      "loss": 0.2177915096282959,
      "memory(GiB)": 61.91,
      "step": 20685,
      "token_acc": 0.9560439560439561,
      "train_speed(iter/s)": 1.470003
    },
    {
      "epoch": 0.8864230324322009,
      "grad_norm": 1.579383373260498,
      "learning_rate": 9.244340524190368e-05,
      "loss": 0.6324481010437012,
      "memory(GiB)": 61.91,
      "step": 20690,
      "token_acc": 0.8830769230769231,
      "train_speed(iter/s)": 1.470021
    },
    {
      "epoch": 0.8866372477614498,
      "grad_norm": 1.55363929271698,
      "learning_rate": 9.243984746772638e-05,
      "loss": 0.5042998313903808,
      "memory(GiB)": 61.91,
      "step": 20695,
      "token_acc": 0.9019073569482289,
      "train_speed(iter/s)": 1.470008
    },
    {
      "epoch": 0.8868514630906987,
      "grad_norm": 0.22636151313781738,
      "learning_rate": 9.243628892471145e-05,
      "loss": 0.3779905796051025,
      "memory(GiB)": 61.91,
      "step": 20700,
      "token_acc": 0.9202898550724637,
      "train_speed(iter/s)": 1.469991
    },
    {
      "epoch": 0.8870656784199478,
      "grad_norm": 1.284071445465088,
      "learning_rate": 9.243272961292331e-05,
      "loss": 0.12181166410446168,
      "memory(GiB)": 61.91,
      "step": 20705,
      "token_acc": 0.9726027397260274,
      "train_speed(iter/s)": 1.469978
    },
    {
      "epoch": 0.8872798937491967,
      "grad_norm": 4.952624797821045,
      "learning_rate": 9.242916953242649e-05,
      "loss": 0.5259307861328125,
      "memory(GiB)": 61.91,
      "step": 20710,
      "token_acc": 0.9038461538461539,
      "train_speed(iter/s)": 1.469961
    },
    {
      "epoch": 0.8874941090784456,
      "grad_norm": 2.1396164894104004,
      "learning_rate": 9.242560868328545e-05,
      "loss": 0.45645833015441895,
      "memory(GiB)": 61.91,
      "step": 20715,
      "token_acc": 0.8938906752411575,
      "train_speed(iter/s)": 1.469959
    },
    {
      "epoch": 0.8877083244076946,
      "grad_norm": 2.696761131286621,
      "learning_rate": 9.242204706556472e-05,
      "loss": 0.37336955070495603,
      "memory(GiB)": 61.91,
      "step": 20720,
      "token_acc": 0.9125874125874126,
      "train_speed(iter/s)": 1.469926
    },
    {
      "epoch": 0.8879225397369436,
      "grad_norm": 2.4662747383117676,
      "learning_rate": 9.241848467932881e-05,
      "loss": 0.6372010707855225,
      "memory(GiB)": 61.91,
      "step": 20725,
      "token_acc": 0.886435331230284,
      "train_speed(iter/s)": 1.469896
    },
    {
      "epoch": 0.8881367550661925,
      "grad_norm": 2.2339935302734375,
      "learning_rate": 9.241492152464225e-05,
      "loss": 0.5099318504333497,
      "memory(GiB)": 61.91,
      "step": 20730,
      "token_acc": 0.8901515151515151,
      "train_speed(iter/s)": 1.469876
    },
    {
      "epoch": 0.8883509703954415,
      "grad_norm": 1.2749433517456055,
      "learning_rate": 9.24113576015696e-05,
      "loss": 0.35081846714019777,
      "memory(GiB)": 61.91,
      "step": 20735,
      "token_acc": 0.934931506849315,
      "train_speed(iter/s)": 1.469866
    },
    {
      "epoch": 0.8885651857246905,
      "grad_norm": 1.0432847738265991,
      "learning_rate": 9.240779291017542e-05,
      "loss": 0.21951467990875245,
      "memory(GiB)": 61.91,
      "step": 20740,
      "token_acc": 0.966542750929368,
      "train_speed(iter/s)": 1.469889
    },
    {
      "epoch": 0.8887794010539394,
      "grad_norm": 2.4450995922088623,
      "learning_rate": 9.240422745052431e-05,
      "loss": 0.449696683883667,
      "memory(GiB)": 61.91,
      "step": 20745,
      "token_acc": 0.8928571428571429,
      "train_speed(iter/s)": 1.469909
    },
    {
      "epoch": 0.8889936163831884,
      "grad_norm": 6.32750940322876,
      "learning_rate": 9.240066122268081e-05,
      "loss": 0.3290694713592529,
      "memory(GiB)": 61.91,
      "step": 20750,
      "token_acc": 0.9063545150501672,
      "train_speed(iter/s)": 1.469912
    },
    {
      "epoch": 0.8892078317124373,
      "grad_norm": 3.356121063232422,
      "learning_rate": 9.239709422670958e-05,
      "loss": 0.27981808185577395,
      "memory(GiB)": 61.91,
      "step": 20755,
      "token_acc": 0.9251700680272109,
      "train_speed(iter/s)": 1.469904
    },
    {
      "epoch": 0.8894220470416863,
      "grad_norm": 1.514607548713684,
      "learning_rate": 9.23935264626752e-05,
      "loss": 0.16967442035675048,
      "memory(GiB)": 61.91,
      "step": 20760,
      "token_acc": 0.9574468085106383,
      "train_speed(iter/s)": 1.469927
    },
    {
      "epoch": 0.8896362623709353,
      "grad_norm": 3.0608346462249756,
      "learning_rate": 9.238995793064233e-05,
      "loss": 0.6112927913665771,
      "memory(GiB)": 61.91,
      "step": 20765,
      "token_acc": 0.8910256410256411,
      "train_speed(iter/s)": 1.469987
    },
    {
      "epoch": 0.8898504777001842,
      "grad_norm": 2.5715832710266113,
      "learning_rate": 9.238638863067561e-05,
      "loss": 0.7595057010650634,
      "memory(GiB)": 61.91,
      "step": 20770,
      "token_acc": 0.840782122905028,
      "train_speed(iter/s)": 1.470015
    },
    {
      "epoch": 0.8900646930294331,
      "grad_norm": 1.7982739210128784,
      "learning_rate": 9.23828185628397e-05,
      "loss": 0.24884500503540039,
      "memory(GiB)": 61.91,
      "step": 20775,
      "token_acc": 0.959866220735786,
      "train_speed(iter/s)": 1.470021
    },
    {
      "epoch": 0.8902789083586822,
      "grad_norm": 1.380895972251892,
      "learning_rate": 9.237924772719927e-05,
      "loss": 0.5679807186126709,
      "memory(GiB)": 61.91,
      "step": 20780,
      "token_acc": 0.8849315068493151,
      "train_speed(iter/s)": 1.470006
    },
    {
      "epoch": 0.8904931236879311,
      "grad_norm": 3.490095853805542,
      "learning_rate": 9.237567612381901e-05,
      "loss": 0.5837003707885742,
      "memory(GiB)": 61.91,
      "step": 20785,
      "token_acc": 0.8766233766233766,
      "train_speed(iter/s)": 1.470049
    },
    {
      "epoch": 0.89070733901718,
      "grad_norm": 3.419269323348999,
      "learning_rate": 9.237210375276361e-05,
      "loss": 0.21716742515563964,
      "memory(GiB)": 61.91,
      "step": 20790,
      "token_acc": 0.9479553903345725,
      "train_speed(iter/s)": 1.470031
    },
    {
      "epoch": 0.8909215543464291,
      "grad_norm": 6.25709867477417,
      "learning_rate": 9.236853061409783e-05,
      "loss": 0.20150697231292725,
      "memory(GiB)": 61.91,
      "step": 20795,
      "token_acc": 0.9504132231404959,
      "train_speed(iter/s)": 1.470064
    },
    {
      "epoch": 0.891135769675678,
      "grad_norm": 3.0650343894958496,
      "learning_rate": 9.236495670788636e-05,
      "loss": 0.5902454376220703,
      "memory(GiB)": 61.91,
      "step": 20800,
      "token_acc": 0.875,
      "train_speed(iter/s)": 1.470093
    },
    {
      "epoch": 0.8913499850049269,
      "grad_norm": 1.9880532026290894,
      "learning_rate": 9.236138203419396e-05,
      "loss": 0.43593473434448243,
      "memory(GiB)": 61.91,
      "step": 20805,
      "token_acc": 0.9244604316546763,
      "train_speed(iter/s)": 1.470089
    },
    {
      "epoch": 0.8915642003341759,
      "grad_norm": 2.4334452152252197,
      "learning_rate": 9.23578065930854e-05,
      "loss": 0.34554603099823,
      "memory(GiB)": 61.91,
      "step": 20810,
      "token_acc": 0.9045936395759717,
      "train_speed(iter/s)": 1.470088
    },
    {
      "epoch": 0.8917784156634249,
      "grad_norm": 3.139000415802002,
      "learning_rate": 9.235423038462542e-05,
      "loss": 0.33843035697937013,
      "memory(GiB)": 61.91,
      "step": 20815,
      "token_acc": 0.9330855018587361,
      "train_speed(iter/s)": 1.470104
    },
    {
      "epoch": 0.8919926309926738,
      "grad_norm": 4.979912281036377,
      "learning_rate": 9.235065340887882e-05,
      "loss": 0.4225703239440918,
      "memory(GiB)": 61.91,
      "step": 20820,
      "token_acc": 0.9139344262295082,
      "train_speed(iter/s)": 1.470122
    },
    {
      "epoch": 0.8922068463219228,
      "grad_norm": 5.9896626472473145,
      "learning_rate": 9.234707566591042e-05,
      "loss": 0.563661003112793,
      "memory(GiB)": 61.91,
      "step": 20825,
      "token_acc": 0.8759398496240601,
      "train_speed(iter/s)": 1.470116
    },
    {
      "epoch": 0.8924210616511717,
      "grad_norm": 3.5042896270751953,
      "learning_rate": 9.234349715578501e-05,
      "loss": 0.4656111717224121,
      "memory(GiB)": 61.91,
      "step": 20830,
      "token_acc": 0.896551724137931,
      "train_speed(iter/s)": 1.470105
    },
    {
      "epoch": 0.8926352769804207,
      "grad_norm": 5.914404392242432,
      "learning_rate": 9.233991787856743e-05,
      "loss": 0.5232911109924316,
      "memory(GiB)": 61.91,
      "step": 20835,
      "token_acc": 0.9202453987730062,
      "train_speed(iter/s)": 1.470129
    },
    {
      "epoch": 0.8928494923096697,
      "grad_norm": 2.1118712425231934,
      "learning_rate": 9.233633783432252e-05,
      "loss": 0.21433866024017334,
      "memory(GiB)": 61.91,
      "step": 20840,
      "token_acc": 0.946236559139785,
      "train_speed(iter/s)": 1.470118
    },
    {
      "epoch": 0.8930637076389186,
      "grad_norm": 3.029348850250244,
      "learning_rate": 9.233275702311514e-05,
      "loss": 0.48177351951599123,
      "memory(GiB)": 61.91,
      "step": 20845,
      "token_acc": 0.8953068592057761,
      "train_speed(iter/s)": 1.470132
    },
    {
      "epoch": 0.8932779229681675,
      "grad_norm": 3.4902336597442627,
      "learning_rate": 9.232917544501015e-05,
      "loss": 0.6631650447845459,
      "memory(GiB)": 61.91,
      "step": 20850,
      "token_acc": 0.8542274052478134,
      "train_speed(iter/s)": 1.470121
    },
    {
      "epoch": 0.8934921382974166,
      "grad_norm": 2.977479934692383,
      "learning_rate": 9.232559310007245e-05,
      "loss": 0.19341800212860108,
      "memory(GiB)": 61.91,
      "step": 20855,
      "token_acc": 0.9579288025889967,
      "train_speed(iter/s)": 1.470124
    },
    {
      "epoch": 0.8937063536266655,
      "grad_norm": 0.5782030820846558,
      "learning_rate": 9.23220099883669e-05,
      "loss": 0.3001437187194824,
      "memory(GiB)": 61.91,
      "step": 20860,
      "token_acc": 0.9457831325301205,
      "train_speed(iter/s)": 1.470121
    },
    {
      "epoch": 0.8939205689559145,
      "grad_norm": 3.369854211807251,
      "learning_rate": 9.231842610995847e-05,
      "loss": 0.4585575103759766,
      "memory(GiB)": 61.91,
      "step": 20865,
      "token_acc": 0.9115646258503401,
      "train_speed(iter/s)": 1.470118
    },
    {
      "epoch": 0.8941347842851635,
      "grad_norm": 5.6356658935546875,
      "learning_rate": 9.231484146491203e-05,
      "loss": 0.49897942543029783,
      "memory(GiB)": 61.91,
      "step": 20870,
      "token_acc": 0.9101123595505618,
      "train_speed(iter/s)": 1.470112
    },
    {
      "epoch": 0.8943489996144124,
      "grad_norm": 3.2243142127990723,
      "learning_rate": 9.231125605329256e-05,
      "loss": 0.37024102210998533,
      "memory(GiB)": 61.91,
      "step": 20875,
      "token_acc": 0.9211356466876972,
      "train_speed(iter/s)": 1.470095
    },
    {
      "epoch": 0.8945632149436614,
      "grad_norm": 3.677781820297241,
      "learning_rate": 9.230766987516498e-05,
      "loss": 0.22300753593444825,
      "memory(GiB)": 61.91,
      "step": 20880,
      "token_acc": 0.9417808219178082,
      "train_speed(iter/s)": 1.470129
    },
    {
      "epoch": 0.8947774302729103,
      "grad_norm": 13.043365478515625,
      "learning_rate": 9.230408293059427e-05,
      "loss": 0.49459133148193357,
      "memory(GiB)": 61.91,
      "step": 20885,
      "token_acc": 0.8954703832752613,
      "train_speed(iter/s)": 1.470136
    },
    {
      "epoch": 0.8949916456021593,
      "grad_norm": 1.5378832817077637,
      "learning_rate": 9.230049521964544e-05,
      "loss": 0.38436174392700195,
      "memory(GiB)": 61.91,
      "step": 20890,
      "token_acc": 0.9106529209621993,
      "train_speed(iter/s)": 1.470128
    },
    {
      "epoch": 0.8952058609314083,
      "grad_norm": 5.490140914916992,
      "learning_rate": 9.229690674238343e-05,
      "loss": 0.4281723976135254,
      "memory(GiB)": 61.91,
      "step": 20895,
      "token_acc": 0.8997050147492626,
      "train_speed(iter/s)": 1.470145
    },
    {
      "epoch": 0.8954200762606572,
      "grad_norm": 3.94907283782959,
      "learning_rate": 9.22933174988733e-05,
      "loss": 0.2334757089614868,
      "memory(GiB)": 61.91,
      "step": 20900,
      "token_acc": 0.9424460431654677,
      "train_speed(iter/s)": 1.470126
    },
    {
      "epoch": 0.8956342915899062,
      "grad_norm": 3.798694610595703,
      "learning_rate": 9.228972748918002e-05,
      "loss": 0.3139692544937134,
      "memory(GiB)": 61.91,
      "step": 20905,
      "token_acc": 0.9425287356321839,
      "train_speed(iter/s)": 1.470161
    },
    {
      "epoch": 0.8958485069191552,
      "grad_norm": 2.0100677013397217,
      "learning_rate": 9.228613671336867e-05,
      "loss": 0.19742195606231688,
      "memory(GiB)": 61.91,
      "step": 20910,
      "token_acc": 0.95578231292517,
      "train_speed(iter/s)": 1.470168
    },
    {
      "epoch": 0.8960627222484041,
      "grad_norm": 1.268965482711792,
      "learning_rate": 9.228254517150429e-05,
      "loss": 0.37749547958374025,
      "memory(GiB)": 61.91,
      "step": 20915,
      "token_acc": 0.9074733096085409,
      "train_speed(iter/s)": 1.470172
    },
    {
      "epoch": 0.896276937577653,
      "grad_norm": 5.493825912475586,
      "learning_rate": 9.227895286365194e-05,
      "loss": 0.2918544292449951,
      "memory(GiB)": 61.91,
      "step": 20920,
      "token_acc": 0.9458483754512635,
      "train_speed(iter/s)": 1.470178
    },
    {
      "epoch": 0.8964911529069021,
      "grad_norm": 3.4826717376708984,
      "learning_rate": 9.227535978987669e-05,
      "loss": 0.2407521963119507,
      "memory(GiB)": 61.91,
      "step": 20925,
      "token_acc": 0.9380804953560371,
      "train_speed(iter/s)": 1.470217
    },
    {
      "epoch": 0.896705368236151,
      "grad_norm": 2.1452136039733887,
      "learning_rate": 9.227176595024364e-05,
      "loss": 0.24792542457580566,
      "memory(GiB)": 61.91,
      "step": 20930,
      "token_acc": 0.9562289562289562,
      "train_speed(iter/s)": 1.470209
    },
    {
      "epoch": 0.8969195835653999,
      "grad_norm": 9.311711311340332,
      "learning_rate": 9.22681713448179e-05,
      "loss": 0.4112142562866211,
      "memory(GiB)": 61.91,
      "step": 20935,
      "token_acc": 0.902127659574468,
      "train_speed(iter/s)": 1.470189
    },
    {
      "epoch": 0.897133798894649,
      "grad_norm": 0.9551988244056702,
      "learning_rate": 9.226457597366459e-05,
      "loss": 0.5080307006835938,
      "memory(GiB)": 61.91,
      "step": 20940,
      "token_acc": 0.9072164948453608,
      "train_speed(iter/s)": 1.470192
    },
    {
      "epoch": 0.8973480142238979,
      "grad_norm": 4.892697334289551,
      "learning_rate": 9.226097983684883e-05,
      "loss": 0.6797909736633301,
      "memory(GiB)": 61.91,
      "step": 20945,
      "token_acc": 0.8235294117647058,
      "train_speed(iter/s)": 1.470168
    },
    {
      "epoch": 0.8975622295531468,
      "grad_norm": 2.0195531845092773,
      "learning_rate": 9.225738293443578e-05,
      "loss": 0.3499652147293091,
      "memory(GiB)": 61.91,
      "step": 20950,
      "token_acc": 0.930921052631579,
      "train_speed(iter/s)": 1.470168
    },
    {
      "epoch": 0.8977764448823958,
      "grad_norm": 0.4601273536682129,
      "learning_rate": 9.22537852664906e-05,
      "loss": 0.4303931713104248,
      "memory(GiB)": 61.91,
      "step": 20955,
      "token_acc": 0.8875968992248062,
      "train_speed(iter/s)": 1.470172
    },
    {
      "epoch": 0.8979906602116448,
      "grad_norm": 8.655726432800293,
      "learning_rate": 9.225018683307846e-05,
      "loss": 0.7715602874755859,
      "memory(GiB)": 61.91,
      "step": 20960,
      "token_acc": 0.8339622641509434,
      "train_speed(iter/s)": 1.470152
    },
    {
      "epoch": 0.8982048755408937,
      "grad_norm": 2.676051616668701,
      "learning_rate": 9.224658763426454e-05,
      "loss": 0.39538040161132815,
      "memory(GiB)": 61.91,
      "step": 20965,
      "token_acc": 0.9305555555555556,
      "train_speed(iter/s)": 1.470146
    },
    {
      "epoch": 0.8984190908701427,
      "grad_norm": 4.208296298980713,
      "learning_rate": 9.224298767011407e-05,
      "loss": 0.34768152236938477,
      "memory(GiB)": 61.91,
      "step": 20970,
      "token_acc": 0.9230769230769231,
      "train_speed(iter/s)": 1.47016
    },
    {
      "epoch": 0.8986333061993916,
      "grad_norm": 1.6938073635101318,
      "learning_rate": 9.223938694069227e-05,
      "loss": 0.3236730098724365,
      "memory(GiB)": 61.91,
      "step": 20975,
      "token_acc": 0.9225806451612903,
      "train_speed(iter/s)": 1.47015
    },
    {
      "epoch": 0.8988475215286406,
      "grad_norm": 3.403122663497925,
      "learning_rate": 9.223578544606432e-05,
      "loss": 0.3810574054718018,
      "memory(GiB)": 61.91,
      "step": 20980,
      "token_acc": 0.9141914191419142,
      "train_speed(iter/s)": 1.470143
    },
    {
      "epoch": 0.8990617368578896,
      "grad_norm": 9.691448211669922,
      "learning_rate": 9.223218318629551e-05,
      "loss": 0.3260735034942627,
      "memory(GiB)": 61.91,
      "step": 20985,
      "token_acc": 0.9409722222222222,
      "train_speed(iter/s)": 1.470123
    },
    {
      "epoch": 0.8992759521871385,
      "grad_norm": 2.5972323417663574,
      "learning_rate": 9.222858016145108e-05,
      "loss": 0.582308006286621,
      "memory(GiB)": 61.91,
      "step": 20990,
      "token_acc": 0.8905109489051095,
      "train_speed(iter/s)": 1.470121
    },
    {
      "epoch": 0.8994901675163874,
      "grad_norm": 2.213144302368164,
      "learning_rate": 9.22249763715963e-05,
      "loss": 0.45563273429870604,
      "memory(GiB)": 61.91,
      "step": 20995,
      "token_acc": 0.8981818181818182,
      "train_speed(iter/s)": 1.470136
    },
    {
      "epoch": 0.8997043828456365,
      "grad_norm": 1.6468422412872314,
      "learning_rate": 9.222137181679648e-05,
      "loss": 0.4763401985168457,
      "memory(GiB)": 61.91,
      "step": 21000,
      "token_acc": 0.8872727272727273,
      "train_speed(iter/s)": 1.470136
    },
    {
      "epoch": 0.8997043828456365,
      "eval_loss": 2.4301607608795166,
      "eval_runtime": 13.3228,
      "eval_samples_per_second": 7.506,
      "eval_steps_per_second": 7.506,
      "eval_token_acc": 0.43898809523809523,
      "step": 21000
    },
    {
      "epoch": 0.8999185981748854,
      "grad_norm": 5.576371669769287,
      "learning_rate": 9.221776649711689e-05,
      "loss": 0.711960744857788,
      "memory(GiB)": 61.91,
      "step": 21005,
      "token_acc": 0.5627615062761506,
      "train_speed(iter/s)": 1.468677
    },
    {
      "epoch": 0.9001328135041343,
      "grad_norm": 1.782555103302002,
      "learning_rate": 9.221416041262285e-05,
      "loss": 0.3265284299850464,
      "memory(GiB)": 61.91,
      "step": 21010,
      "token_acc": 0.9418604651162791,
      "train_speed(iter/s)": 1.46871
    },
    {
      "epoch": 0.9003470288333834,
      "grad_norm": 3.746281623840332,
      "learning_rate": 9.22105535633797e-05,
      "loss": 0.4999196529388428,
      "memory(GiB)": 61.91,
      "step": 21015,
      "token_acc": 0.887719298245614,
      "train_speed(iter/s)": 1.468795
    },
    {
      "epoch": 0.9005612441626323,
      "grad_norm": 3.613847017288208,
      "learning_rate": 9.220694594945278e-05,
      "loss": 0.5048034191131592,
      "memory(GiB)": 61.91,
      "step": 21020,
      "token_acc": 0.8841463414634146,
      "train_speed(iter/s)": 1.468817
    },
    {
      "epoch": 0.9007754594918812,
      "grad_norm": 3.0073487758636475,
      "learning_rate": 9.220333757090745e-05,
      "loss": 0.2156372547149658,
      "memory(GiB)": 61.91,
      "step": 21025,
      "token_acc": 0.9621993127147767,
      "train_speed(iter/s)": 1.468829
    },
    {
      "epoch": 0.9009896748211302,
      "grad_norm": 3.043901205062866,
      "learning_rate": 9.219972842780907e-05,
      "loss": 0.24177703857421876,
      "memory(GiB)": 61.91,
      "step": 21030,
      "token_acc": 0.9464882943143813,
      "train_speed(iter/s)": 1.468802
    },
    {
      "epoch": 0.9012038901503792,
      "grad_norm": 4.064138889312744,
      "learning_rate": 9.219611852022301e-05,
      "loss": 0.6333346366882324,
      "memory(GiB)": 61.91,
      "step": 21035,
      "token_acc": 0.8622754491017964,
      "train_speed(iter/s)": 1.468842
    },
    {
      "epoch": 0.9014181054796281,
      "grad_norm": 3.9614241123199463,
      "learning_rate": 9.219250784821467e-05,
      "loss": 0.5782087802886963,
      "memory(GiB)": 61.91,
      "step": 21040,
      "token_acc": 0.8538681948424068,
      "train_speed(iter/s)": 1.468914
    },
    {
      "epoch": 0.9016323208088771,
      "grad_norm": 2.234959363937378,
      "learning_rate": 9.218889641184949e-05,
      "loss": 0.3065903663635254,
      "memory(GiB)": 61.91,
      "step": 21045,
      "token_acc": 0.9391634980988594,
      "train_speed(iter/s)": 1.468905
    },
    {
      "epoch": 0.901846536138126,
      "grad_norm": 5.204192161560059,
      "learning_rate": 9.218528421119287e-05,
      "loss": 0.398516321182251,
      "memory(GiB)": 61.91,
      "step": 21050,
      "token_acc": 0.9057971014492754,
      "train_speed(iter/s)": 1.468902
    },
    {
      "epoch": 0.902060751467375,
      "grad_norm": 1.9443687200546265,
      "learning_rate": 9.218167124631025e-05,
      "loss": 0.3728534698486328,
      "memory(GiB)": 61.91,
      "step": 21055,
      "token_acc": 0.9338842975206612,
      "train_speed(iter/s)": 1.468917
    },
    {
      "epoch": 0.902274966796624,
      "grad_norm": 3.7165210247039795,
      "learning_rate": 9.21780575172671e-05,
      "loss": 0.39874801635742185,
      "memory(GiB)": 61.91,
      "step": 21060,
      "token_acc": 0.9123376623376623,
      "train_speed(iter/s)": 1.46889
    },
    {
      "epoch": 0.9024891821258729,
      "grad_norm": 3.9779069423675537,
      "learning_rate": 9.217444302412886e-05,
      "loss": 0.5322491645812988,
      "memory(GiB)": 61.91,
      "step": 21065,
      "token_acc": 0.8546099290780141,
      "train_speed(iter/s)": 1.468898
    },
    {
      "epoch": 0.9027033974551218,
      "grad_norm": 2.97896671295166,
      "learning_rate": 9.217082776696101e-05,
      "loss": 0.23320324420928956,
      "memory(GiB)": 61.91,
      "step": 21070,
      "token_acc": 0.9514925373134329,
      "train_speed(iter/s)": 1.4689
    },
    {
      "epoch": 0.9029176127843709,
      "grad_norm": 4.310017108917236,
      "learning_rate": 9.216721174582907e-05,
      "loss": 0.8566571235656738,
      "memory(GiB)": 61.91,
      "step": 21075,
      "token_acc": 0.8323170731707317,
      "train_speed(iter/s)": 1.468894
    },
    {
      "epoch": 0.9031318281136198,
      "grad_norm": 1.8396245241165161,
      "learning_rate": 9.216359496079851e-05,
      "loss": 0.40108566284179686,
      "memory(GiB)": 61.91,
      "step": 21080,
      "token_acc": 0.9197080291970803,
      "train_speed(iter/s)": 1.468877
    },
    {
      "epoch": 0.9033460434428687,
      "grad_norm": 4.817530155181885,
      "learning_rate": 9.215997741193491e-05,
      "loss": 0.5295067310333252,
      "memory(GiB)": 61.91,
      "step": 21085,
      "token_acc": 0.8754325259515571,
      "train_speed(iter/s)": 1.468874
    },
    {
      "epoch": 0.9035602587721178,
      "grad_norm": 2.4668655395507812,
      "learning_rate": 9.215635909930376e-05,
      "loss": 0.5407426357269287,
      "memory(GiB)": 61.91,
      "step": 21090,
      "token_acc": 0.8801369863013698,
      "train_speed(iter/s)": 1.468901
    },
    {
      "epoch": 0.9037744741013667,
      "grad_norm": 2.441227912902832,
      "learning_rate": 9.21527400229706e-05,
      "loss": 0.5110808372497558,
      "memory(GiB)": 61.91,
      "step": 21095,
      "token_acc": 0.9005681818181818,
      "train_speed(iter/s)": 1.468901
    },
    {
      "epoch": 0.9039886894306156,
      "grad_norm": 3.674844264984131,
      "learning_rate": 9.214912018300103e-05,
      "loss": 0.5080351829528809,
      "memory(GiB)": 61.91,
      "step": 21100,
      "token_acc": 0.8915254237288136,
      "train_speed(iter/s)": 1.468902
    },
    {
      "epoch": 0.9042029047598646,
      "grad_norm": 5.887238025665283,
      "learning_rate": 9.214549957946061e-05,
      "loss": 0.4701183319091797,
      "memory(GiB)": 61.91,
      "step": 21105,
      "token_acc": 0.9055374592833876,
      "train_speed(iter/s)": 1.468904
    },
    {
      "epoch": 0.9044171200891136,
      "grad_norm": 5.291126251220703,
      "learning_rate": 9.214187821241492e-05,
      "loss": 0.46682538986206057,
      "memory(GiB)": 61.91,
      "step": 21110,
      "token_acc": 0.9243027888446215,
      "train_speed(iter/s)": 1.468908
    },
    {
      "epoch": 0.9046313354183625,
      "grad_norm": 2.9230358600616455,
      "learning_rate": 9.213825608192959e-05,
      "loss": 0.44749794006347654,
      "memory(GiB)": 61.91,
      "step": 21115,
      "token_acc": 0.9074733096085409,
      "train_speed(iter/s)": 1.468902
    },
    {
      "epoch": 0.9048455507476115,
      "grad_norm": 3.0748167037963867,
      "learning_rate": 9.213463318807021e-05,
      "loss": 0.31810860633850097,
      "memory(GiB)": 61.91,
      "step": 21120,
      "token_acc": 0.9372937293729373,
      "train_speed(iter/s)": 1.468898
    },
    {
      "epoch": 0.9050597660768605,
      "grad_norm": 1.4669369459152222,
      "learning_rate": 9.213100953090241e-05,
      "loss": 0.26803786754608155,
      "memory(GiB)": 61.91,
      "step": 21125,
      "token_acc": 0.9428571428571428,
      "train_speed(iter/s)": 1.468889
    },
    {
      "epoch": 0.9052739814061094,
      "grad_norm": 7.287233829498291,
      "learning_rate": 9.212738511049187e-05,
      "loss": 0.3265950679779053,
      "memory(GiB)": 61.91,
      "step": 21130,
      "token_acc": 0.9128787878787878,
      "train_speed(iter/s)": 1.468913
    },
    {
      "epoch": 0.9054881967353584,
      "grad_norm": 1.516561508178711,
      "learning_rate": 9.212375992690423e-05,
      "loss": 0.2428133487701416,
      "memory(GiB)": 61.91,
      "step": 21135,
      "token_acc": 0.950354609929078,
      "train_speed(iter/s)": 1.468912
    },
    {
      "epoch": 0.9057024120646073,
      "grad_norm": 0.18434983491897583,
      "learning_rate": 9.212013398020516e-05,
      "loss": 0.2659222841262817,
      "memory(GiB)": 61.91,
      "step": 21140,
      "token_acc": 0.947565543071161,
      "train_speed(iter/s)": 1.4689
    },
    {
      "epoch": 0.9059166273938563,
      "grad_norm": 4.327808856964111,
      "learning_rate": 9.211650727046033e-05,
      "loss": 0.7205610275268555,
      "memory(GiB)": 61.91,
      "step": 21145,
      "token_acc": 0.8446215139442231,
      "train_speed(iter/s)": 1.468881
    },
    {
      "epoch": 0.9061308427231053,
      "grad_norm": 1.7535452842712402,
      "learning_rate": 9.211287979773548e-05,
      "loss": 0.4063247203826904,
      "memory(GiB)": 61.91,
      "step": 21150,
      "token_acc": 0.90234375,
      "train_speed(iter/s)": 1.468888
    },
    {
      "epoch": 0.9063450580523542,
      "grad_norm": 2.796550989151001,
      "learning_rate": 9.210925156209632e-05,
      "loss": 0.4236761569976807,
      "memory(GiB)": 61.91,
      "step": 21155,
      "token_acc": 0.9114754098360656,
      "train_speed(iter/s)": 1.468906
    },
    {
      "epoch": 0.9065592733816031,
      "grad_norm": 4.28469705581665,
      "learning_rate": 9.210562256360855e-05,
      "loss": 0.5242139816284179,
      "memory(GiB)": 61.91,
      "step": 21160,
      "token_acc": 0.89198606271777,
      "train_speed(iter/s)": 1.46891
    },
    {
      "epoch": 0.9067734887108522,
      "grad_norm": 3.1400394439697266,
      "learning_rate": 9.210199280233794e-05,
      "loss": 0.5179316520690918,
      "memory(GiB)": 61.91,
      "step": 21165,
      "token_acc": 0.8927335640138409,
      "train_speed(iter/s)": 1.468969
    },
    {
      "epoch": 0.9069877040401011,
      "grad_norm": 3.3325257301330566,
      "learning_rate": 9.209836227835022e-05,
      "loss": 0.3620790481567383,
      "memory(GiB)": 61.91,
      "step": 21170,
      "token_acc": 0.9308943089430894,
      "train_speed(iter/s)": 1.468978
    },
    {
      "epoch": 0.90720191936935,
      "grad_norm": 1.3673030138015747,
      "learning_rate": 9.20947309917112e-05,
      "loss": 0.36810133457183836,
      "memory(GiB)": 61.91,
      "step": 21175,
      "token_acc": 0.928082191780822,
      "train_speed(iter/s)": 1.46898
    },
    {
      "epoch": 0.907416134698599,
      "grad_norm": 2.4307329654693604,
      "learning_rate": 9.209109894248662e-05,
      "loss": 0.24785809516906737,
      "memory(GiB)": 61.91,
      "step": 21180,
      "token_acc": 0.9504504504504504,
      "train_speed(iter/s)": 1.468972
    },
    {
      "epoch": 0.907630350027848,
      "grad_norm": 3.12860369682312,
      "learning_rate": 9.208746613074231e-05,
      "loss": 0.4231432914733887,
      "memory(GiB)": 61.91,
      "step": 21185,
      "token_acc": 0.9054545454545454,
      "train_speed(iter/s)": 1.468971
    },
    {
      "epoch": 0.9078445653570969,
      "grad_norm": 3.9119021892547607,
      "learning_rate": 9.208383255654406e-05,
      "loss": 0.4599141597747803,
      "memory(GiB)": 61.91,
      "step": 21190,
      "token_acc": 0.8928571428571429,
      "train_speed(iter/s)": 1.468954
    },
    {
      "epoch": 0.9080587806863459,
      "grad_norm": 1.9521663188934326,
      "learning_rate": 9.20801982199577e-05,
      "loss": 0.4041721820831299,
      "memory(GiB)": 61.91,
      "step": 21195,
      "token_acc": 0.9201277955271565,
      "train_speed(iter/s)": 1.468945
    },
    {
      "epoch": 0.9082729960155949,
      "grad_norm": 2.9989755153656006,
      "learning_rate": 9.20765631210491e-05,
      "loss": 0.5964997291564942,
      "memory(GiB)": 61.91,
      "step": 21200,
      "token_acc": 0.8742138364779874,
      "train_speed(iter/s)": 1.468942
    },
    {
      "epoch": 0.9084872113448439,
      "grad_norm": 4.3423237800598145,
      "learning_rate": 9.207292725988405e-05,
      "loss": 0.43865213394165037,
      "memory(GiB)": 61.91,
      "step": 21205,
      "token_acc": 0.89568345323741,
      "train_speed(iter/s)": 1.468954
    },
    {
      "epoch": 0.9087014266740928,
      "grad_norm": 1.333600640296936,
      "learning_rate": 9.206929063652849e-05,
      "loss": 0.2001824140548706,
      "memory(GiB)": 61.91,
      "step": 21210,
      "token_acc": 0.934640522875817,
      "train_speed(iter/s)": 1.468953
    },
    {
      "epoch": 0.9089156420033417,
      "grad_norm": 4.251082420349121,
      "learning_rate": 9.206565325104826e-05,
      "loss": 0.48429279327392577,
      "memory(GiB)": 61.91,
      "step": 21215,
      "token_acc": 0.8884120171673819,
      "train_speed(iter/s)": 1.468951
    },
    {
      "epoch": 0.9091298573325908,
      "grad_norm": 6.138099670410156,
      "learning_rate": 9.206201510350925e-05,
      "loss": 0.42626237869262695,
      "memory(GiB)": 61.91,
      "step": 21220,
      "token_acc": 0.9195402298850575,
      "train_speed(iter/s)": 1.468961
    },
    {
      "epoch": 0.9093440726618397,
      "grad_norm": 3.1755292415618896,
      "learning_rate": 9.205837619397738e-05,
      "loss": 0.5806573867797852,
      "memory(GiB)": 61.91,
      "step": 21225,
      "token_acc": 0.8865979381443299,
      "train_speed(iter/s)": 1.468948
    },
    {
      "epoch": 0.9095582879910886,
      "grad_norm": 5.708640098571777,
      "learning_rate": 9.205473652251858e-05,
      "loss": 0.39664862155914304,
      "memory(GiB)": 61.91,
      "step": 21230,
      "token_acc": 0.9192982456140351,
      "train_speed(iter/s)": 1.468959
    },
    {
      "epoch": 0.9097725033203377,
      "grad_norm": 2.797381639480591,
      "learning_rate": 9.205109608919878e-05,
      "loss": 0.5492545604705811,
      "memory(GiB)": 61.91,
      "step": 21235,
      "token_acc": 0.8917910447761194,
      "train_speed(iter/s)": 1.468937
    },
    {
      "epoch": 0.9099867186495866,
      "grad_norm": 3.780402660369873,
      "learning_rate": 9.20474548940839e-05,
      "loss": 0.32891438007354734,
      "memory(GiB)": 61.91,
      "step": 21240,
      "token_acc": 0.9269102990033222,
      "train_speed(iter/s)": 1.468922
    },
    {
      "epoch": 0.9102009339788355,
      "grad_norm": 2.2886500358581543,
      "learning_rate": 9.204381293723996e-05,
      "loss": 0.5610685348510742,
      "memory(GiB)": 61.91,
      "step": 21245,
      "token_acc": 0.8992805755395683,
      "train_speed(iter/s)": 1.468914
    },
    {
      "epoch": 0.9104151493080845,
      "grad_norm": 2.907201051712036,
      "learning_rate": 9.204017021873289e-05,
      "loss": 0.38972561359405516,
      "memory(GiB)": 61.91,
      "step": 21250,
      "token_acc": 0.9415807560137457,
      "train_speed(iter/s)": 1.468912
    },
    {
      "epoch": 0.9106293646373335,
      "grad_norm": 2.669767379760742,
      "learning_rate": 9.20365267386287e-05,
      "loss": 0.22498085498809814,
      "memory(GiB)": 61.91,
      "step": 21255,
      "token_acc": 0.952054794520548,
      "train_speed(iter/s)": 1.468965
    },
    {
      "epoch": 0.9108435799665824,
      "grad_norm": 2.1855711936950684,
      "learning_rate": 9.203288249699341e-05,
      "loss": 0.30702483654022217,
      "memory(GiB)": 61.91,
      "step": 21260,
      "token_acc": 0.9366197183098591,
      "train_speed(iter/s)": 1.468981
    },
    {
      "epoch": 0.9110577952958314,
      "grad_norm": 1.6837031841278076,
      "learning_rate": 9.202923749389302e-05,
      "loss": 0.5667271137237548,
      "memory(GiB)": 61.91,
      "step": 21265,
      "token_acc": 0.8846153846153846,
      "train_speed(iter/s)": 1.468976
    },
    {
      "epoch": 0.9112720106250803,
      "grad_norm": 3.6862032413482666,
      "learning_rate": 9.202559172939355e-05,
      "loss": 0.5549705505371094,
      "memory(GiB)": 61.91,
      "step": 21270,
      "token_acc": 0.9045454545454545,
      "train_speed(iter/s)": 1.468984
    },
    {
      "epoch": 0.9114862259543293,
      "grad_norm": 3.7247517108917236,
      "learning_rate": 9.202194520356108e-05,
      "loss": 0.25127615928649905,
      "memory(GiB)": 61.91,
      "step": 21275,
      "token_acc": 0.9448529411764706,
      "train_speed(iter/s)": 1.468998
    },
    {
      "epoch": 0.9117004412835783,
      "grad_norm": 2.1001250743865967,
      "learning_rate": 9.201829791646165e-05,
      "loss": 0.44761133193969727,
      "memory(GiB)": 61.91,
      "step": 21280,
      "token_acc": 0.912751677852349,
      "train_speed(iter/s)": 1.469042
    },
    {
      "epoch": 0.9119146566128272,
      "grad_norm": 7.292211532592773,
      "learning_rate": 9.201464986816132e-05,
      "loss": 0.40395331382751465,
      "memory(GiB)": 61.91,
      "step": 21285,
      "token_acc": 0.9238410596026491,
      "train_speed(iter/s)": 1.469055
    },
    {
      "epoch": 0.9121288719420761,
      "grad_norm": 2.17932391166687,
      "learning_rate": 9.201100105872622e-05,
      "loss": 0.36630499362945557,
      "memory(GiB)": 61.91,
      "step": 21290,
      "token_acc": 0.9112627986348123,
      "train_speed(iter/s)": 1.469047
    },
    {
      "epoch": 0.9123430872713252,
      "grad_norm": 1.934751033782959,
      "learning_rate": 9.200735148822241e-05,
      "loss": 0.5192175388336182,
      "memory(GiB)": 61.91,
      "step": 21295,
      "token_acc": 0.8922413793103449,
      "train_speed(iter/s)": 1.469067
    },
    {
      "epoch": 0.9125573026005741,
      "grad_norm": 1.818652868270874,
      "learning_rate": 9.200370115671604e-05,
      "loss": 0.5283898830413818,
      "memory(GiB)": 61.91,
      "step": 21300,
      "token_acc": 0.8953068592057761,
      "train_speed(iter/s)": 1.469069
    },
    {
      "epoch": 0.912771517929823,
      "grad_norm": 7.61631965637207,
      "learning_rate": 9.20000500642732e-05,
      "loss": 0.4101680278778076,
      "memory(GiB)": 61.91,
      "step": 21305,
      "token_acc": 0.9455252918287937,
      "train_speed(iter/s)": 1.469047
    },
    {
      "epoch": 0.9129857332590721,
      "grad_norm": 5.630564212799072,
      "learning_rate": 9.199639821096006e-05,
      "loss": 0.4321906089782715,
      "memory(GiB)": 61.91,
      "step": 21310,
      "token_acc": 0.9151943462897526,
      "train_speed(iter/s)": 1.469071
    },
    {
      "epoch": 0.913199948588321,
      "grad_norm": 5.04205846786499,
      "learning_rate": 9.199274559684277e-05,
      "loss": 0.37345871925354,
      "memory(GiB)": 61.91,
      "step": 21315,
      "token_acc": 0.9349593495934959,
      "train_speed(iter/s)": 1.469125
    },
    {
      "epoch": 0.9134141639175699,
      "grad_norm": 3.7404470443725586,
      "learning_rate": 9.198909222198751e-05,
      "loss": 0.28591485023498536,
      "memory(GiB)": 61.91,
      "step": 21320,
      "token_acc": 0.9368421052631579,
      "train_speed(iter/s)": 1.469133
    },
    {
      "epoch": 0.913628379246819,
      "grad_norm": 4.263899326324463,
      "learning_rate": 9.198543808646045e-05,
      "loss": 0.4653331756591797,
      "memory(GiB)": 61.91,
      "step": 21325,
      "token_acc": 0.9040590405904059,
      "train_speed(iter/s)": 1.46913
    },
    {
      "epoch": 0.9138425945760679,
      "grad_norm": 2.5885558128356934,
      "learning_rate": 9.19817831903278e-05,
      "loss": 0.22964158058166503,
      "memory(GiB)": 61.91,
      "step": 21330,
      "token_acc": 0.9377049180327869,
      "train_speed(iter/s)": 1.46913
    },
    {
      "epoch": 0.9140568099053168,
      "grad_norm": 1.9484418630599976,
      "learning_rate": 9.197812753365575e-05,
      "loss": 0.2303131103515625,
      "memory(GiB)": 61.91,
      "step": 21335,
      "token_acc": 0.9473684210526315,
      "train_speed(iter/s)": 1.469173
    },
    {
      "epoch": 0.9142710252345658,
      "grad_norm": 4.612428188323975,
      "learning_rate": 9.197447111651055e-05,
      "loss": 0.579350757598877,
      "memory(GiB)": 61.91,
      "step": 21340,
      "token_acc": 0.8780487804878049,
      "train_speed(iter/s)": 1.469204
    },
    {
      "epoch": 0.9144852405638147,
      "grad_norm": 3.776289224624634,
      "learning_rate": 9.197081393895843e-05,
      "loss": 0.5877717018127442,
      "memory(GiB)": 61.91,
      "step": 21345,
      "token_acc": 0.8827361563517915,
      "train_speed(iter/s)": 1.469191
    },
    {
      "epoch": 0.9146994558930637,
      "grad_norm": 7.371421813964844,
      "learning_rate": 9.196715600106564e-05,
      "loss": 0.4563504695892334,
      "memory(GiB)": 61.91,
      "step": 21350,
      "token_acc": 0.8981723237597912,
      "train_speed(iter/s)": 1.469209
    },
    {
      "epoch": 0.9149136712223127,
      "grad_norm": 4.879343509674072,
      "learning_rate": 9.196349730289845e-05,
      "loss": 0.5559205055236817,
      "memory(GiB)": 61.91,
      "step": 21355,
      "token_acc": 0.8576388888888888,
      "train_speed(iter/s)": 1.469211
    },
    {
      "epoch": 0.9151278865515616,
      "grad_norm": 2.8758363723754883,
      "learning_rate": 9.195983784452315e-05,
      "loss": 0.4233862400054932,
      "memory(GiB)": 61.91,
      "step": 21360,
      "token_acc": 0.9105263157894737,
      "train_speed(iter/s)": 1.469184
    },
    {
      "epoch": 0.9153421018808106,
      "grad_norm": 3.2779462337493896,
      "learning_rate": 9.195617762600601e-05,
      "loss": 0.13059602975845336,
      "memory(GiB)": 61.91,
      "step": 21365,
      "token_acc": 0.9736070381231672,
      "train_speed(iter/s)": 1.469164
    },
    {
      "epoch": 0.9155563172100596,
      "grad_norm": 3.2037782669067383,
      "learning_rate": 9.195251664741337e-05,
      "loss": 0.1968465805053711,
      "memory(GiB)": 61.91,
      "step": 21370,
      "token_acc": 0.9572368421052632,
      "train_speed(iter/s)": 1.469195
    },
    {
      "epoch": 0.9157705325393085,
      "grad_norm": 0.19991984963417053,
      "learning_rate": 9.194885490881153e-05,
      "loss": 0.4513296604156494,
      "memory(GiB)": 61.91,
      "step": 21375,
      "token_acc": 0.9145907473309609,
      "train_speed(iter/s)": 1.469172
    },
    {
      "epoch": 0.9159847478685574,
      "grad_norm": 3.6746139526367188,
      "learning_rate": 9.194519241026684e-05,
      "loss": 0.31049184799194335,
      "memory(GiB)": 61.91,
      "step": 21380,
      "token_acc": 0.9215686274509803,
      "train_speed(iter/s)": 1.469162
    },
    {
      "epoch": 0.9161989631978065,
      "grad_norm": 3.1778290271759033,
      "learning_rate": 9.194152915184564e-05,
      "loss": 0.4972710609436035,
      "memory(GiB)": 61.91,
      "step": 21385,
      "token_acc": 0.8729641693811075,
      "train_speed(iter/s)": 1.469185
    },
    {
      "epoch": 0.9164131785270554,
      "grad_norm": 3.5028743743896484,
      "learning_rate": 9.193786513361428e-05,
      "loss": 0.4686120986938477,
      "memory(GiB)": 61.91,
      "step": 21390,
      "token_acc": 0.8892215568862275,
      "train_speed(iter/s)": 1.469212
    },
    {
      "epoch": 0.9166273938563043,
      "grad_norm": 4.076226234436035,
      "learning_rate": 9.193420035563916e-05,
      "loss": 0.31940126419067383,
      "memory(GiB)": 61.91,
      "step": 21395,
      "token_acc": 0.9264214046822743,
      "train_speed(iter/s)": 1.469211
    },
    {
      "epoch": 0.9168416091855534,
      "grad_norm": 3.7301125526428223,
      "learning_rate": 9.193053481798667e-05,
      "loss": 0.5384344577789306,
      "memory(GiB)": 61.91,
      "step": 21400,
      "token_acc": 0.8939393939393939,
      "train_speed(iter/s)": 1.469209
    },
    {
      "epoch": 0.9170558245148023,
      "grad_norm": 3.6700236797332764,
      "learning_rate": 9.192686852072321e-05,
      "loss": 0.5279745101928711,
      "memory(GiB)": 61.91,
      "step": 21405,
      "token_acc": 0.8759398496240601,
      "train_speed(iter/s)": 1.469215
    },
    {
      "epoch": 0.9172700398440512,
      "grad_norm": 5.704214096069336,
      "learning_rate": 9.192320146391518e-05,
      "loss": 0.31001012325286864,
      "memory(GiB)": 61.91,
      "step": 21410,
      "token_acc": 0.9365079365079365,
      "train_speed(iter/s)": 1.469227
    },
    {
      "epoch": 0.9174842551733002,
      "grad_norm": 5.04512357711792,
      "learning_rate": 9.191953364762904e-05,
      "loss": 0.5324447631835938,
      "memory(GiB)": 61.91,
      "step": 21415,
      "token_acc": 0.8790035587188612,
      "train_speed(iter/s)": 1.469238
    },
    {
      "epoch": 0.9176984705025492,
      "grad_norm": 3.31048846244812,
      "learning_rate": 9.191586507193122e-05,
      "loss": 0.3500903844833374,
      "memory(GiB)": 61.91,
      "step": 21420,
      "token_acc": 0.921311475409836,
      "train_speed(iter/s)": 1.469219
    },
    {
      "epoch": 0.9179126858317981,
      "grad_norm": 3.0110814571380615,
      "learning_rate": 9.191219573688819e-05,
      "loss": 0.282306170463562,
      "memory(GiB)": 61.91,
      "step": 21425,
      "token_acc": 0.9586776859504132,
      "train_speed(iter/s)": 1.469214
    },
    {
      "epoch": 0.9181269011610471,
      "grad_norm": 1.8160474300384521,
      "learning_rate": 9.190852564256641e-05,
      "loss": 0.3427959680557251,
      "memory(GiB)": 61.91,
      "step": 21430,
      "token_acc": 0.9157894736842105,
      "train_speed(iter/s)": 1.469246
    },
    {
      "epoch": 0.918341116490296,
      "grad_norm": 0.09367097914218903,
      "learning_rate": 9.190485478903238e-05,
      "loss": 0.60965576171875,
      "memory(GiB)": 61.91,
      "step": 21435,
      "token_acc": 0.875,
      "train_speed(iter/s)": 1.469285
    },
    {
      "epoch": 0.918555331819545,
      "grad_norm": 1.5077035427093506,
      "learning_rate": 9.190118317635259e-05,
      "loss": 0.5646876335144043,
      "memory(GiB)": 61.91,
      "step": 21440,
      "token_acc": 0.903010033444816,
      "train_speed(iter/s)": 1.469327
    },
    {
      "epoch": 0.918769547148794,
      "grad_norm": 4.373021602630615,
      "learning_rate": 9.189751080459357e-05,
      "loss": 0.461979341506958,
      "memory(GiB)": 61.91,
      "step": 21445,
      "token_acc": 0.8888888888888888,
      "train_speed(iter/s)": 1.469314
    },
    {
      "epoch": 0.9189837624780429,
      "grad_norm": 2.6770918369293213,
      "learning_rate": 9.189383767382182e-05,
      "loss": 0.39444169998168943,
      "memory(GiB)": 61.91,
      "step": 21450,
      "token_acc": 0.8969072164948454,
      "train_speed(iter/s)": 1.469331
    },
    {
      "epoch": 0.9191979778072918,
      "grad_norm": 2.621260643005371,
      "learning_rate": 9.189016378410393e-05,
      "loss": 0.7233175277709961,
      "memory(GiB)": 61.91,
      "step": 21455,
      "token_acc": 0.8721804511278195,
      "train_speed(iter/s)": 1.469375
    },
    {
      "epoch": 0.9194121931365409,
      "grad_norm": 4.042331695556641,
      "learning_rate": 9.188648913550641e-05,
      "loss": 0.34184041023254397,
      "memory(GiB)": 61.91,
      "step": 21460,
      "token_acc": 0.9324324324324325,
      "train_speed(iter/s)": 1.469371
    },
    {
      "epoch": 0.9196264084657898,
      "grad_norm": 1.2194174528121948,
      "learning_rate": 9.188281372809584e-05,
      "loss": 0.35287740230560305,
      "memory(GiB)": 61.91,
      "step": 21465,
      "token_acc": 0.9276315789473685,
      "train_speed(iter/s)": 1.469355
    },
    {
      "epoch": 0.9198406237950387,
      "grad_norm": 4.231706142425537,
      "learning_rate": 9.187913756193882e-05,
      "loss": 0.3508771896362305,
      "memory(GiB)": 61.91,
      "step": 21470,
      "token_acc": 0.9331210191082803,
      "train_speed(iter/s)": 1.469356
    },
    {
      "epoch": 0.9200548391242878,
      "grad_norm": 7.7826080322265625,
      "learning_rate": 9.187546063710193e-05,
      "loss": 0.3142568826675415,
      "memory(GiB)": 61.91,
      "step": 21475,
      "token_acc": 0.941717791411043,
      "train_speed(iter/s)": 1.469381
    },
    {
      "epoch": 0.9202690544535367,
      "grad_norm": 2.4413230419158936,
      "learning_rate": 9.18717829536518e-05,
      "loss": 0.2336583614349365,
      "memory(GiB)": 61.91,
      "step": 21480,
      "token_acc": 0.9461077844311377,
      "train_speed(iter/s)": 1.469376
    },
    {
      "epoch": 0.9204832697827856,
      "grad_norm": 13.328428268432617,
      "learning_rate": 9.186810451165502e-05,
      "loss": 0.4836394786834717,
      "memory(GiB)": 61.91,
      "step": 21485,
      "token_acc": 0.889273356401384,
      "train_speed(iter/s)": 1.469454
    },
    {
      "epoch": 0.9206974851120346,
      "grad_norm": 1.6326860189437866,
      "learning_rate": 9.186442531117828e-05,
      "loss": 0.14376662969589232,
      "memory(GiB)": 61.91,
      "step": 21490,
      "token_acc": 0.9608540925266904,
      "train_speed(iter/s)": 1.469446
    },
    {
      "epoch": 0.9209117004412836,
      "grad_norm": 3.1716983318328857,
      "learning_rate": 9.18607453522882e-05,
      "loss": 0.4406903743743896,
      "memory(GiB)": 61.91,
      "step": 21495,
      "token_acc": 0.9152542372881356,
      "train_speed(iter/s)": 1.469444
    },
    {
      "epoch": 0.9211259157705325,
      "grad_norm": 4.195250034332275,
      "learning_rate": 9.185706463505143e-05,
      "loss": 0.41508235931396487,
      "memory(GiB)": 61.91,
      "step": 21500,
      "token_acc": 0.9084745762711864,
      "train_speed(iter/s)": 1.469437
    },
    {
      "epoch": 0.9211259157705325,
      "eval_loss": 2.4809060096740723,
      "eval_runtime": 13.5809,
      "eval_samples_per_second": 7.363,
      "eval_steps_per_second": 7.363,
      "eval_token_acc": 0.47137150466045274,
      "step": 21500
    },
    {
      "epoch": 0.9213401310997815,
      "grad_norm": 5.0348076820373535,
      "learning_rate": 9.185338315953468e-05,
      "loss": 0.5375232219696044,
      "memory(GiB)": 61.91,
      "step": 21505,
      "token_acc": 0.6016869728209935,
      "train_speed(iter/s)": 1.467996
    },
    {
      "epoch": 0.9215543464290304,
      "grad_norm": 3.5491511821746826,
      "learning_rate": 9.184970092580463e-05,
      "loss": 0.35980677604675293,
      "memory(GiB)": 61.91,
      "step": 21510,
      "token_acc": 0.9154411764705882,
      "train_speed(iter/s)": 1.467997
    },
    {
      "epoch": 0.9217685617582794,
      "grad_norm": 3.6351449489593506,
      "learning_rate": 9.1846017933928e-05,
      "loss": 0.6836559772491455,
      "memory(GiB)": 61.91,
      "step": 21515,
      "token_acc": 0.8622950819672132,
      "train_speed(iter/s)": 1.468031
    },
    {
      "epoch": 0.9219827770875284,
      "grad_norm": 5.040965557098389,
      "learning_rate": 9.184233418397148e-05,
      "loss": 0.5772891044616699,
      "memory(GiB)": 61.91,
      "step": 21520,
      "token_acc": 0.8552631578947368,
      "train_speed(iter/s)": 1.46805
    },
    {
      "epoch": 0.9221969924167773,
      "grad_norm": 2.6130921840667725,
      "learning_rate": 9.183864967600184e-05,
      "loss": 0.33608782291412354,
      "memory(GiB)": 61.91,
      "step": 21525,
      "token_acc": 0.9131832797427653,
      "train_speed(iter/s)": 1.468032
    },
    {
      "epoch": 0.9224112077460263,
      "grad_norm": 3.7164864540100098,
      "learning_rate": 9.183496441008581e-05,
      "loss": 0.6200734138488769,
      "memory(GiB)": 61.91,
      "step": 21530,
      "token_acc": 0.901840490797546,
      "train_speed(iter/s)": 1.468053
    },
    {
      "epoch": 0.9226254230752753,
      "grad_norm": 3.2450459003448486,
      "learning_rate": 9.183127838629016e-05,
      "loss": 0.34793431758880616,
      "memory(GiB)": 61.91,
      "step": 21535,
      "token_acc": 0.932,
      "train_speed(iter/s)": 1.468063
    },
    {
      "epoch": 0.9228396384045242,
      "grad_norm": 3.1909561157226562,
      "learning_rate": 9.182759160468164e-05,
      "loss": 0.502778959274292,
      "memory(GiB)": 61.91,
      "step": 21540,
      "token_acc": 0.8908554572271387,
      "train_speed(iter/s)": 1.468055
    },
    {
      "epoch": 0.9230538537337732,
      "grad_norm": 2.9813499450683594,
      "learning_rate": 9.182390406532708e-05,
      "loss": 0.3325430631637573,
      "memory(GiB)": 61.91,
      "step": 21545,
      "token_acc": 0.9185185185185185,
      "train_speed(iter/s)": 1.468059
    },
    {
      "epoch": 0.9232680690630222,
      "grad_norm": 0.42148756980895996,
      "learning_rate": 9.182021576829326e-05,
      "loss": 0.2874005317687988,
      "memory(GiB)": 61.91,
      "step": 21550,
      "token_acc": 0.9272727272727272,
      "train_speed(iter/s)": 1.468051
    },
    {
      "epoch": 0.9234822843922711,
      "grad_norm": 7.309770107269287,
      "learning_rate": 9.1816526713647e-05,
      "loss": 0.41666626930236816,
      "memory(GiB)": 61.91,
      "step": 21555,
      "token_acc": 0.9102167182662538,
      "train_speed(iter/s)": 1.468058
    },
    {
      "epoch": 0.9236964997215201,
      "grad_norm": 2.943063259124756,
      "learning_rate": 9.181283690145514e-05,
      "loss": 0.44800772666931155,
      "memory(GiB)": 61.91,
      "step": 21560,
      "token_acc": 0.9005847953216374,
      "train_speed(iter/s)": 1.468119
    },
    {
      "epoch": 0.923910715050769,
      "grad_norm": 2.407881021499634,
      "learning_rate": 9.18091463317845e-05,
      "loss": 0.5137041568756103,
      "memory(GiB)": 61.91,
      "step": 21565,
      "token_acc": 0.89419795221843,
      "train_speed(iter/s)": 1.468111
    },
    {
      "epoch": 0.924124930380018,
      "grad_norm": 3.065321207046509,
      "learning_rate": 9.180545500470197e-05,
      "loss": 0.1917765974998474,
      "memory(GiB)": 61.91,
      "step": 21570,
      "token_acc": 0.9442724458204335,
      "train_speed(iter/s)": 1.468135
    },
    {
      "epoch": 0.924339145709267,
      "grad_norm": 5.5132341384887695,
      "learning_rate": 9.18017629202744e-05,
      "loss": 0.3915544033050537,
      "memory(GiB)": 61.91,
      "step": 21575,
      "token_acc": 0.9260869565217391,
      "train_speed(iter/s)": 1.468147
    },
    {
      "epoch": 0.9245533610385159,
      "grad_norm": 4.298677444458008,
      "learning_rate": 9.179807007856867e-05,
      "loss": 0.5810704231262207,
      "memory(GiB)": 61.91,
      "step": 21580,
      "token_acc": 0.8877551020408163,
      "train_speed(iter/s)": 1.468184
    },
    {
      "epoch": 0.9247675763677649,
      "grad_norm": 2.4810447692871094,
      "learning_rate": 9.179437647965172e-05,
      "loss": 0.2753650188446045,
      "memory(GiB)": 61.91,
      "step": 21585,
      "token_acc": 0.9357142857142857,
      "train_speed(iter/s)": 1.468185
    },
    {
      "epoch": 0.9249817916970139,
      "grad_norm": 0.9998043775558472,
      "learning_rate": 9.179068212359041e-05,
      "loss": 0.31003599166870116,
      "memory(GiB)": 61.91,
      "step": 21590,
      "token_acc": 0.9081632653061225,
      "train_speed(iter/s)": 1.468171
    },
    {
      "epoch": 0.9251960070262628,
      "grad_norm": 1.3406322002410889,
      "learning_rate": 9.178698701045169e-05,
      "loss": 0.5939372539520263,
      "memory(GiB)": 61.91,
      "step": 21595,
      "token_acc": 0.8881118881118881,
      "train_speed(iter/s)": 1.468168
    },
    {
      "epoch": 0.9254102223555117,
      "grad_norm": 4.452731609344482,
      "learning_rate": 9.178329114030251e-05,
      "loss": 0.6086047172546387,
      "memory(GiB)": 61.91,
      "step": 21600,
      "token_acc": 0.8770764119601329,
      "train_speed(iter/s)": 1.468188
    },
    {
      "epoch": 0.9256244376847608,
      "grad_norm": 4.703988075256348,
      "learning_rate": 9.177959451320981e-05,
      "loss": 0.43970203399658203,
      "memory(GiB)": 61.91,
      "step": 21605,
      "token_acc": 0.9290780141843972,
      "train_speed(iter/s)": 1.468251
    },
    {
      "epoch": 0.9258386530140097,
      "grad_norm": 4.260828495025635,
      "learning_rate": 9.177589712924055e-05,
      "loss": 0.2748166799545288,
      "memory(GiB)": 61.91,
      "step": 21610,
      "token_acc": 0.9391025641025641,
      "train_speed(iter/s)": 1.468258
    },
    {
      "epoch": 0.9260528683432586,
      "grad_norm": 2.5444605350494385,
      "learning_rate": 9.177219898846175e-05,
      "loss": 0.46671123504638673,
      "memory(GiB)": 61.91,
      "step": 21615,
      "token_acc": 0.9028571428571428,
      "train_speed(iter/s)": 1.468236
    },
    {
      "epoch": 0.9262670836725077,
      "grad_norm": 0.20816941559314728,
      "learning_rate": 9.176850009094037e-05,
      "loss": 0.18379536867141724,
      "memory(GiB)": 61.91,
      "step": 21620,
      "token_acc": 0.9477124183006536,
      "train_speed(iter/s)": 1.468265
    },
    {
      "epoch": 0.9264812990017566,
      "grad_norm": 2.2215750217437744,
      "learning_rate": 9.176480043674343e-05,
      "loss": 0.6445996284484863,
      "memory(GiB)": 61.91,
      "step": 21625,
      "token_acc": 0.8631921824104235,
      "train_speed(iter/s)": 1.468308
    },
    {
      "epoch": 0.9266955143310055,
      "grad_norm": 2.9829514026641846,
      "learning_rate": 9.176110002593794e-05,
      "loss": 0.2611949920654297,
      "memory(GiB)": 61.91,
      "step": 21630,
      "token_acc": 0.9263157894736842,
      "train_speed(iter/s)": 1.468312
    },
    {
      "epoch": 0.9269097296602545,
      "grad_norm": 0.739586353302002,
      "learning_rate": 9.175739885859095e-05,
      "loss": 0.2256244421005249,
      "memory(GiB)": 61.91,
      "step": 21635,
      "token_acc": 0.9447852760736196,
      "train_speed(iter/s)": 1.46831
    },
    {
      "epoch": 0.9271239449895035,
      "grad_norm": 1.6529383659362793,
      "learning_rate": 9.175369693476951e-05,
      "loss": 0.407302713394165,
      "memory(GiB)": 61.91,
      "step": 21640,
      "token_acc": 0.9324324324324325,
      "train_speed(iter/s)": 1.468305
    },
    {
      "epoch": 0.9273381603187524,
      "grad_norm": 4.504682540893555,
      "learning_rate": 9.17499942545407e-05,
      "loss": 0.552332067489624,
      "memory(GiB)": 61.91,
      "step": 21645,
      "token_acc": 0.8846153846153846,
      "train_speed(iter/s)": 1.468325
    },
    {
      "epoch": 0.9275523756480014,
      "grad_norm": 2.626634359359741,
      "learning_rate": 9.174629081797156e-05,
      "loss": 0.3850921869277954,
      "memory(GiB)": 61.91,
      "step": 21650,
      "token_acc": 0.9237804878048781,
      "train_speed(iter/s)": 1.468361
    },
    {
      "epoch": 0.9277665909772503,
      "grad_norm": 4.137327194213867,
      "learning_rate": 9.174258662512921e-05,
      "loss": 0.6813245296478272,
      "memory(GiB)": 61.91,
      "step": 21655,
      "token_acc": 0.8544061302681992,
      "train_speed(iter/s)": 1.468361
    },
    {
      "epoch": 0.9279808063064993,
      "grad_norm": 2.16678786277771,
      "learning_rate": 9.173888167608074e-05,
      "loss": 0.31565237045288086,
      "memory(GiB)": 61.91,
      "step": 21660,
      "token_acc": 0.933852140077821,
      "train_speed(iter/s)": 1.46834
    },
    {
      "epoch": 0.9281950216357483,
      "grad_norm": 4.856224536895752,
      "learning_rate": 9.173517597089328e-05,
      "loss": 0.42600555419921876,
      "memory(GiB)": 61.91,
      "step": 21665,
      "token_acc": 0.9125475285171103,
      "train_speed(iter/s)": 1.468332
    },
    {
      "epoch": 0.9284092369649972,
      "grad_norm": 3.3635854721069336,
      "learning_rate": 9.173146950963396e-05,
      "loss": 0.5583606719970703,
      "memory(GiB)": 61.91,
      "step": 21670,
      "token_acc": 0.869281045751634,
      "train_speed(iter/s)": 1.468336
    },
    {
      "epoch": 0.9286234522942461,
      "grad_norm": 2.0386464595794678,
      "learning_rate": 9.17277622923699e-05,
      "loss": 0.36098499298095704,
      "memory(GiB)": 61.91,
      "step": 21675,
      "token_acc": 0.9010238907849829,
      "train_speed(iter/s)": 1.46836
    },
    {
      "epoch": 0.9288376676234952,
      "grad_norm": 3.757216453552246,
      "learning_rate": 9.172405431916831e-05,
      "loss": 0.3979825019836426,
      "memory(GiB)": 61.91,
      "step": 21680,
      "token_acc": 0.9230769230769231,
      "train_speed(iter/s)": 1.468339
    },
    {
      "epoch": 0.9290518829527441,
      "grad_norm": 3.399961471557617,
      "learning_rate": 9.172034559009632e-05,
      "loss": 0.43909454345703125,
      "memory(GiB)": 61.91,
      "step": 21685,
      "token_acc": 0.9112903225806451,
      "train_speed(iter/s)": 1.468346
    },
    {
      "epoch": 0.929266098281993,
      "grad_norm": 4.831272125244141,
      "learning_rate": 9.171663610522114e-05,
      "loss": 0.5059815406799316,
      "memory(GiB)": 61.91,
      "step": 21690,
      "token_acc": 0.902027027027027,
      "train_speed(iter/s)": 1.468358
    },
    {
      "epoch": 0.9294803136112421,
      "grad_norm": 2.395486354827881,
      "learning_rate": 9.171292586460996e-05,
      "loss": 0.21482341289520263,
      "memory(GiB)": 61.91,
      "step": 21695,
      "token_acc": 0.9368029739776952,
      "train_speed(iter/s)": 1.468353
    },
    {
      "epoch": 0.929694528940491,
      "grad_norm": 2.5342960357666016,
      "learning_rate": 9.170921486833e-05,
      "loss": 0.3123177051544189,
      "memory(GiB)": 61.91,
      "step": 21700,
      "token_acc": 0.9270833333333334,
      "train_speed(iter/s)": 1.468364
    },
    {
      "epoch": 0.9299087442697399,
      "grad_norm": 6.398664474487305,
      "learning_rate": 9.170550311644848e-05,
      "loss": 0.29514780044555666,
      "memory(GiB)": 61.91,
      "step": 21705,
      "token_acc": 0.9365671641791045,
      "train_speed(iter/s)": 1.46836
    },
    {
      "epoch": 0.9301229595989889,
      "grad_norm": 10.130684852600098,
      "learning_rate": 9.170179060903265e-05,
      "loss": 0.4303934097290039,
      "memory(GiB)": 61.91,
      "step": 21710,
      "token_acc": 0.9355932203389831,
      "train_speed(iter/s)": 1.468385
    },
    {
      "epoch": 0.9303371749282379,
      "grad_norm": 1.6480915546417236,
      "learning_rate": 9.169807734614976e-05,
      "loss": 0.3645016670227051,
      "memory(GiB)": 61.91,
      "step": 21715,
      "token_acc": 0.9266666666666666,
      "train_speed(iter/s)": 1.468385
    },
    {
      "epoch": 0.9305513902574868,
      "grad_norm": 0.2999686896800995,
      "learning_rate": 9.16943633278671e-05,
      "loss": 0.1993804931640625,
      "memory(GiB)": 61.91,
      "step": 21720,
      "token_acc": 0.9642857142857143,
      "train_speed(iter/s)": 1.468389
    },
    {
      "epoch": 0.9307656055867358,
      "grad_norm": 5.946140289306641,
      "learning_rate": 9.169064855425191e-05,
      "loss": 0.5237468242645263,
      "memory(GiB)": 61.91,
      "step": 21725,
      "token_acc": 0.8888888888888888,
      "train_speed(iter/s)": 1.468381
    },
    {
      "epoch": 0.9309798209159847,
      "grad_norm": 2.3099989891052246,
      "learning_rate": 9.168693302537155e-05,
      "loss": 0.12125378847122192,
      "memory(GiB)": 61.91,
      "step": 21730,
      "token_acc": 0.9662921348314607,
      "train_speed(iter/s)": 1.468389
    },
    {
      "epoch": 0.9311940362452337,
      "grad_norm": 4.910868167877197,
      "learning_rate": 9.168321674129326e-05,
      "loss": 0.7533376693725586,
      "memory(GiB)": 61.91,
      "step": 21735,
      "token_acc": 0.8374558303886925,
      "train_speed(iter/s)": 1.468406
    },
    {
      "epoch": 0.9314082515744827,
      "grad_norm": 2.5448858737945557,
      "learning_rate": 9.16794997020844e-05,
      "loss": 0.5284440994262696,
      "memory(GiB)": 61.91,
      "step": 21740,
      "token_acc": 0.8783783783783784,
      "train_speed(iter/s)": 1.468443
    },
    {
      "epoch": 0.9316224669037316,
      "grad_norm": 5.13730001449585,
      "learning_rate": 9.167578190781232e-05,
      "loss": 0.47591609954833985,
      "memory(GiB)": 61.91,
      "step": 21745,
      "token_acc": 0.9166666666666666,
      "train_speed(iter/s)": 1.468473
    },
    {
      "epoch": 0.9318366822329806,
      "grad_norm": 3.113262176513672,
      "learning_rate": 9.167206335854435e-05,
      "loss": 0.44594440460205076,
      "memory(GiB)": 61.91,
      "step": 21750,
      "token_acc": 0.903010033444816,
      "train_speed(iter/s)": 1.468502
    },
    {
      "epoch": 0.9320508975622296,
      "grad_norm": 5.642615795135498,
      "learning_rate": 9.166834405434785e-05,
      "loss": 0.3996292591094971,
      "memory(GiB)": 61.91,
      "step": 21755,
      "token_acc": 0.9047619047619048,
      "train_speed(iter/s)": 1.468549
    },
    {
      "epoch": 0.9322651128914785,
      "grad_norm": 2.782771110534668,
      "learning_rate": 9.166462399529021e-05,
      "loss": 0.2934854984283447,
      "memory(GiB)": 61.91,
      "step": 21760,
      "token_acc": 0.9291338582677166,
      "train_speed(iter/s)": 1.468528
    },
    {
      "epoch": 0.9324793282207274,
      "grad_norm": 2.485308885574341,
      "learning_rate": 9.166090318143883e-05,
      "loss": 0.33316378593444823,
      "memory(GiB)": 61.91,
      "step": 21765,
      "token_acc": 0.9347079037800687,
      "train_speed(iter/s)": 1.46853
    },
    {
      "epoch": 0.9326935435499765,
      "grad_norm": 4.183074474334717,
      "learning_rate": 9.165718161286111e-05,
      "loss": 0.2629737377166748,
      "memory(GiB)": 61.91,
      "step": 21770,
      "token_acc": 0.9507692307692308,
      "train_speed(iter/s)": 1.468589
    },
    {
      "epoch": 0.9329077588792254,
      "grad_norm": 9.6895170211792,
      "learning_rate": 9.165345928962446e-05,
      "loss": 0.446839714050293,
      "memory(GiB)": 61.91,
      "step": 21775,
      "token_acc": 0.909375,
      "train_speed(iter/s)": 1.468582
    },
    {
      "epoch": 0.9331219742084743,
      "grad_norm": 1.9767284393310547,
      "learning_rate": 9.164973621179634e-05,
      "loss": 0.3707670927047729,
      "memory(GiB)": 61.91,
      "step": 21780,
      "token_acc": 0.9273356401384083,
      "train_speed(iter/s)": 1.468574
    },
    {
      "epoch": 0.9333361895377233,
      "grad_norm": 3.75480580329895,
      "learning_rate": 9.164601237944415e-05,
      "loss": 0.5814951419830322,
      "memory(GiB)": 61.91,
      "step": 21785,
      "token_acc": 0.8786764705882353,
      "train_speed(iter/s)": 1.468569
    },
    {
      "epoch": 0.9335504048669723,
      "grad_norm": 4.223403453826904,
      "learning_rate": 9.16422877926354e-05,
      "loss": 0.48333230018615725,
      "memory(GiB)": 61.91,
      "step": 21790,
      "token_acc": 0.907258064516129,
      "train_speed(iter/s)": 1.468565
    },
    {
      "epoch": 0.9337646201962212,
      "grad_norm": 7.418219566345215,
      "learning_rate": 9.163856245143752e-05,
      "loss": 0.30231361389160155,
      "memory(GiB)": 61.91,
      "step": 21795,
      "token_acc": 0.9384615384615385,
      "train_speed(iter/s)": 1.468544
    },
    {
      "epoch": 0.9339788355254702,
      "grad_norm": 0.9733916521072388,
      "learning_rate": 9.163483635591804e-05,
      "loss": 0.5750089168548584,
      "memory(GiB)": 61.91,
      "step": 21800,
      "token_acc": 0.8605442176870748,
      "train_speed(iter/s)": 1.468541
    },
    {
      "epoch": 0.9341930508547192,
      "grad_norm": 3.0943830013275146,
      "learning_rate": 9.163110950614445e-05,
      "loss": 0.5243294715881348,
      "memory(GiB)": 61.91,
      "step": 21805,
      "token_acc": 0.8904109589041096,
      "train_speed(iter/s)": 1.468537
    },
    {
      "epoch": 0.9344072661839681,
      "grad_norm": 2.1970760822296143,
      "learning_rate": 9.162738190218424e-05,
      "loss": 0.5049887657165527,
      "memory(GiB)": 61.91,
      "step": 21810,
      "token_acc": 0.9154929577464789,
      "train_speed(iter/s)": 1.468535
    },
    {
      "epoch": 0.9346214815132171,
      "grad_norm": 2.471345901489258,
      "learning_rate": 9.162365354410496e-05,
      "loss": 0.3774231433868408,
      "memory(GiB)": 61.91,
      "step": 21815,
      "token_acc": 0.9022556390977443,
      "train_speed(iter/s)": 1.468522
    },
    {
      "epoch": 0.934835696842466,
      "grad_norm": 2.2825400829315186,
      "learning_rate": 9.161992443197416e-05,
      "loss": 0.6198227405548096,
      "memory(GiB)": 61.91,
      "step": 21820,
      "token_acc": 0.8742857142857143,
      "train_speed(iter/s)": 1.46855
    },
    {
      "epoch": 0.935049912171715,
      "grad_norm": 8.822504043579102,
      "learning_rate": 9.161619456585937e-05,
      "loss": 0.5631507396697998,
      "memory(GiB)": 61.91,
      "step": 21825,
      "token_acc": 0.8767605633802817,
      "train_speed(iter/s)": 1.468598
    },
    {
      "epoch": 0.935264127500964,
      "grad_norm": 0.9258486032485962,
      "learning_rate": 9.161246394582818e-05,
      "loss": 0.21416058540344238,
      "memory(GiB)": 61.91,
      "step": 21830,
      "token_acc": 0.9573643410852714,
      "train_speed(iter/s)": 1.468604
    },
    {
      "epoch": 0.9354783428302129,
      "grad_norm": 0.7375249266624451,
      "learning_rate": 9.160873257194818e-05,
      "loss": 0.5469198226928711,
      "memory(GiB)": 61.91,
      "step": 21835,
      "token_acc": 0.889589905362776,
      "train_speed(iter/s)": 1.468594
    },
    {
      "epoch": 0.9356925581594618,
      "grad_norm": 2.162390947341919,
      "learning_rate": 9.160500044428696e-05,
      "loss": 0.15717933177947999,
      "memory(GiB)": 61.91,
      "step": 21840,
      "token_acc": 0.9575289575289575,
      "train_speed(iter/s)": 1.468609
    },
    {
      "epoch": 0.9359067734887109,
      "grad_norm": 3.077003240585327,
      "learning_rate": 9.160126756291211e-05,
      "loss": 0.1973029136657715,
      "memory(GiB)": 61.91,
      "step": 21845,
      "token_acc": 0.9623824451410659,
      "train_speed(iter/s)": 1.468605
    },
    {
      "epoch": 0.9361209888179598,
      "grad_norm": 4.814973831176758,
      "learning_rate": 9.15975339278913e-05,
      "loss": 0.4534627914428711,
      "memory(GiB)": 61.91,
      "step": 21850,
      "token_acc": 0.9015384615384615,
      "train_speed(iter/s)": 1.468597
    },
    {
      "epoch": 0.9363352041472087,
      "grad_norm": 3.5661003589630127,
      "learning_rate": 9.159379953929213e-05,
      "loss": 0.34124555587768557,
      "memory(GiB)": 61.91,
      "step": 21855,
      "token_acc": 0.9375,
      "train_speed(iter/s)": 1.468606
    },
    {
      "epoch": 0.9365494194764578,
      "grad_norm": 0.24279503524303436,
      "learning_rate": 9.159006439718226e-05,
      "loss": 0.39367103576660156,
      "memory(GiB)": 61.91,
      "step": 21860,
      "token_acc": 0.9097222222222222,
      "train_speed(iter/s)": 1.468587
    },
    {
      "epoch": 0.9367636348057067,
      "grad_norm": 5.398018836975098,
      "learning_rate": 9.158632850162935e-05,
      "loss": 0.9319599151611329,
      "memory(GiB)": 61.91,
      "step": 21865,
      "token_acc": 0.81640625,
      "train_speed(iter/s)": 1.468583
    },
    {
      "epoch": 0.9369778501349556,
      "grad_norm": 1.7811599969863892,
      "learning_rate": 9.158259185270108e-05,
      "loss": 0.1912021040916443,
      "memory(GiB)": 61.91,
      "step": 21870,
      "token_acc": 0.9556313993174061,
      "train_speed(iter/s)": 1.468573
    },
    {
      "epoch": 0.9371920654642046,
      "grad_norm": 3.930480718612671,
      "learning_rate": 9.157885445046519e-05,
      "loss": 0.3817904472351074,
      "memory(GiB)": 61.91,
      "step": 21875,
      "token_acc": 0.9261992619926199,
      "train_speed(iter/s)": 1.468562
    },
    {
      "epoch": 0.9374062807934536,
      "grad_norm": 1.0631310939788818,
      "learning_rate": 9.157511629498932e-05,
      "loss": 0.24165065288543702,
      "memory(GiB)": 61.91,
      "step": 21880,
      "token_acc": 0.9465648854961832,
      "train_speed(iter/s)": 1.468612
    },
    {
      "epoch": 0.9376204961227026,
      "grad_norm": 3.7608025074005127,
      "learning_rate": 9.157137738634122e-05,
      "loss": 0.41273512840271,
      "memory(GiB)": 61.91,
      "step": 21885,
      "token_acc": 0.9105058365758755,
      "train_speed(iter/s)": 1.468643
    },
    {
      "epoch": 0.9378347114519515,
      "grad_norm": 1.4621498584747314,
      "learning_rate": 9.156763772458862e-05,
      "loss": 0.5931309223175049,
      "memory(GiB)": 61.91,
      "step": 21890,
      "token_acc": 0.8614130434782609,
      "train_speed(iter/s)": 1.468755
    },
    {
      "epoch": 0.9380489267812004,
      "grad_norm": 12.01050853729248,
      "learning_rate": 9.156389730979928e-05,
      "loss": 0.562861967086792,
      "memory(GiB)": 61.91,
      "step": 21895,
      "token_acc": 0.8742138364779874,
      "train_speed(iter/s)": 1.468777
    },
    {
      "epoch": 0.9382631421104495,
      "grad_norm": 3.3016483783721924,
      "learning_rate": 9.156015614204094e-05,
      "loss": 0.5169822692871093,
      "memory(GiB)": 61.91,
      "step": 21900,
      "token_acc": 0.8850574712643678,
      "train_speed(iter/s)": 1.468782
    },
    {
      "epoch": 0.9384773574396984,
      "grad_norm": 2.3634750843048096,
      "learning_rate": 9.155641422138139e-05,
      "loss": 0.3248711109161377,
      "memory(GiB)": 61.91,
      "step": 21905,
      "token_acc": 0.9389312977099237,
      "train_speed(iter/s)": 1.468796
    },
    {
      "epoch": 0.9386915727689473,
      "grad_norm": 3.5388264656066895,
      "learning_rate": 9.15526715478884e-05,
      "loss": 0.3158034563064575,
      "memory(GiB)": 61.91,
      "step": 21910,
      "token_acc": 0.9117647058823529,
      "train_speed(iter/s)": 1.468793
    },
    {
      "epoch": 0.9389057880981964,
      "grad_norm": 2.4606473445892334,
      "learning_rate": 9.15489281216298e-05,
      "loss": 0.24230554103851318,
      "memory(GiB)": 61.91,
      "step": 21915,
      "token_acc": 0.940677966101695,
      "train_speed(iter/s)": 1.468768
    },
    {
      "epoch": 0.9391200034274453,
      "grad_norm": 8.201204299926758,
      "learning_rate": 9.154518394267338e-05,
      "loss": 0.43552207946777344,
      "memory(GiB)": 61.91,
      "step": 21920,
      "token_acc": 0.9104477611940298,
      "train_speed(iter/s)": 1.468754
    },
    {
      "epoch": 0.9393342187566942,
      "grad_norm": 2.507315158843994,
      "learning_rate": 9.154143901108699e-05,
      "loss": 0.27986721992492675,
      "memory(GiB)": 61.91,
      "step": 21925,
      "token_acc": 0.94,
      "train_speed(iter/s)": 1.468726
    },
    {
      "epoch": 0.9395484340859432,
      "grad_norm": 5.884382724761963,
      "learning_rate": 9.153769332693847e-05,
      "loss": 0.4830728530883789,
      "memory(GiB)": 61.91,
      "step": 21930,
      "token_acc": 0.8942307692307693,
      "train_speed(iter/s)": 1.468723
    },
    {
      "epoch": 0.9397626494151922,
      "grad_norm": 4.490473747253418,
      "learning_rate": 9.153394689029566e-05,
      "loss": 0.4647077560424805,
      "memory(GiB)": 61.91,
      "step": 21935,
      "token_acc": 0.9107806691449815,
      "train_speed(iter/s)": 1.468717
    },
    {
      "epoch": 0.9399768647444411,
      "grad_norm": 4.24407434463501,
      "learning_rate": 9.153019970122643e-05,
      "loss": 0.2609121799468994,
      "memory(GiB)": 61.91,
      "step": 21940,
      "token_acc": 0.943089430894309,
      "train_speed(iter/s)": 1.46871
    },
    {
      "epoch": 0.9401910800736901,
      "grad_norm": 4.920910358428955,
      "learning_rate": 9.15264517597987e-05,
      "loss": 0.45217576026916506,
      "memory(GiB)": 61.91,
      "step": 21945,
      "token_acc": 0.9205298013245033,
      "train_speed(iter/s)": 1.468714
    },
    {
      "epoch": 0.940405295402939,
      "grad_norm": 1.928147315979004,
      "learning_rate": 9.152270306608031e-05,
      "loss": 0.5785836219787598,
      "memory(GiB)": 61.91,
      "step": 21950,
      "token_acc": 0.8989169675090253,
      "train_speed(iter/s)": 1.468723
    },
    {
      "epoch": 0.940619510732188,
      "grad_norm": 6.729263782501221,
      "learning_rate": 9.151895362013922e-05,
      "loss": 0.7683110237121582,
      "memory(GiB)": 61.91,
      "step": 21955,
      "token_acc": 0.8605577689243028,
      "train_speed(iter/s)": 1.468791
    },
    {
      "epoch": 0.940833726061437,
      "grad_norm": 3.0432956218719482,
      "learning_rate": 9.151520342204334e-05,
      "loss": 0.5410183429718017,
      "memory(GiB)": 61.91,
      "step": 21960,
      "token_acc": 0.8778877887788779,
      "train_speed(iter/s)": 1.468841
    },
    {
      "epoch": 0.9410479413906859,
      "grad_norm": 4.007168292999268,
      "learning_rate": 9.151145247186061e-05,
      "loss": 0.3860992670059204,
      "memory(GiB)": 61.91,
      "step": 21965,
      "token_acc": 0.9233128834355828,
      "train_speed(iter/s)": 1.468839
    },
    {
      "epoch": 0.9412621567199349,
      "grad_norm": 7.444249153137207,
      "learning_rate": 9.150770076965895e-05,
      "loss": 0.8896987915039063,
      "memory(GiB)": 61.91,
      "step": 21970,
      "token_acc": 0.8233082706766918,
      "train_speed(iter/s)": 1.468851
    },
    {
      "epoch": 0.9414763720491839,
      "grad_norm": 2.3637804985046387,
      "learning_rate": 9.15039483155064e-05,
      "loss": 0.35094847679138186,
      "memory(GiB)": 61.91,
      "step": 21975,
      "token_acc": 0.9278688524590164,
      "train_speed(iter/s)": 1.468852
    },
    {
      "epoch": 0.9416905873784328,
      "grad_norm": 1.595467209815979,
      "learning_rate": 9.150019510947086e-05,
      "loss": 0.3369180202484131,
      "memory(GiB)": 61.91,
      "step": 21980,
      "token_acc": 0.9400630914826499,
      "train_speed(iter/s)": 1.468841
    },
    {
      "epoch": 0.9419048027076817,
      "grad_norm": 9.078901290893555,
      "learning_rate": 9.149644115162035e-05,
      "loss": 0.3941490650177002,
      "memory(GiB)": 61.91,
      "step": 21985,
      "token_acc": 0.9146341463414634,
      "train_speed(iter/s)": 1.468823
    },
    {
      "epoch": 0.9421190180369308,
      "grad_norm": 3.327976942062378,
      "learning_rate": 9.149268644202289e-05,
      "loss": 0.6081852436065673,
      "memory(GiB)": 61.91,
      "step": 21990,
      "token_acc": 0.8776978417266187,
      "train_speed(iter/s)": 1.46884
    },
    {
      "epoch": 0.9423332333661797,
      "grad_norm": 2.6609435081481934,
      "learning_rate": 9.148893098074649e-05,
      "loss": 0.2604940414428711,
      "memory(GiB)": 61.91,
      "step": 21995,
      "token_acc": 0.9401993355481728,
      "train_speed(iter/s)": 1.468842
    },
    {
      "epoch": 0.9425474486954286,
      "grad_norm": 4.201693534851074,
      "learning_rate": 9.148517476785918e-05,
      "loss": 0.31285412311553956,
      "memory(GiB)": 61.91,
      "step": 22000,
      "token_acc": 0.9225589225589226,
      "train_speed(iter/s)": 1.468842
    },
    {
      "epoch": 0.9425474486954286,
      "eval_loss": 2.6864635944366455,
      "eval_runtime": 13.7071,
      "eval_samples_per_second": 7.295,
      "eval_steps_per_second": 7.295,
      "eval_token_acc": 0.4018445322793149,
      "step": 22000
    },
    {
      "epoch": 0.9427616640246776,
      "grad_norm": 0.37354639172554016,
      "learning_rate": 9.148141780342903e-05,
      "loss": 0.47384963035583494,
      "memory(GiB)": 61.91,
      "step": 22005,
      "token_acc": 0.5462184873949579,
      "train_speed(iter/s)": 1.467417
    },
    {
      "epoch": 0.9429758793539266,
      "grad_norm": 4.4734063148498535,
      "learning_rate": 9.147766008752407e-05,
      "loss": 0.4271239757537842,
      "memory(GiB)": 61.91,
      "step": 22010,
      "token_acc": 0.8915254237288136,
      "train_speed(iter/s)": 1.467407
    },
    {
      "epoch": 0.9431900946831755,
      "grad_norm": 3.5342743396759033,
      "learning_rate": 9.14739016202124e-05,
      "loss": 0.21099598407745362,
      "memory(GiB)": 61.91,
      "step": 22015,
      "token_acc": 0.9501779359430605,
      "train_speed(iter/s)": 1.467413
    },
    {
      "epoch": 0.9434043100124245,
      "grad_norm": 5.982921600341797,
      "learning_rate": 9.14701424015621e-05,
      "loss": 0.6093832015991211,
      "memory(GiB)": 61.91,
      "step": 22020,
      "token_acc": 0.875,
      "train_speed(iter/s)": 1.467409
    },
    {
      "epoch": 0.9436185253416735,
      "grad_norm": 0.34842735528945923,
      "learning_rate": 9.146638243164125e-05,
      "loss": 0.2463322877883911,
      "memory(GiB)": 61.91,
      "step": 22025,
      "token_acc": 0.9372549019607843,
      "train_speed(iter/s)": 1.467407
    },
    {
      "epoch": 0.9438327406709224,
      "grad_norm": 1.6568808555603027,
      "learning_rate": 9.1462621710518e-05,
      "loss": 0.16732157468795777,
      "memory(GiB)": 61.91,
      "step": 22030,
      "token_acc": 0.9562043795620438,
      "train_speed(iter/s)": 1.467395
    },
    {
      "epoch": 0.9440469560001714,
      "grad_norm": 1.5235697031021118,
      "learning_rate": 9.145886023826044e-05,
      "loss": 0.6104533195495605,
      "memory(GiB)": 61.91,
      "step": 22035,
      "token_acc": 0.9018181818181819,
      "train_speed(iter/s)": 1.4674
    },
    {
      "epoch": 0.9442611713294203,
      "grad_norm": 0.07455126941204071,
      "learning_rate": 9.145509801493677e-05,
      "loss": 0.5838310241699218,
      "memory(GiB)": 61.91,
      "step": 22040,
      "token_acc": 0.8783269961977186,
      "train_speed(iter/s)": 1.467419
    },
    {
      "epoch": 0.9444753866586693,
      "grad_norm": 3.9855546951293945,
      "learning_rate": 9.145133504061509e-05,
      "loss": 0.46494288444519044,
      "memory(GiB)": 61.91,
      "step": 22045,
      "token_acc": 0.894927536231884,
      "train_speed(iter/s)": 1.467403
    },
    {
      "epoch": 0.9446896019879183,
      "grad_norm": 4.242485046386719,
      "learning_rate": 9.14475713153636e-05,
      "loss": 0.3579071521759033,
      "memory(GiB)": 61.91,
      "step": 22050,
      "token_acc": 0.9131736526946108,
      "train_speed(iter/s)": 1.467395
    },
    {
      "epoch": 0.9449038173171672,
      "grad_norm": 8.145403861999512,
      "learning_rate": 9.144380683925044e-05,
      "loss": 0.539143180847168,
      "memory(GiB)": 61.91,
      "step": 22055,
      "token_acc": 0.9028776978417267,
      "train_speed(iter/s)": 1.467394
    },
    {
      "epoch": 0.9451180326464161,
      "grad_norm": 1.9371577501296997,
      "learning_rate": 9.144004161234388e-05,
      "loss": 0.3176047086715698,
      "memory(GiB)": 61.91,
      "step": 22060,
      "token_acc": 0.9215017064846417,
      "train_speed(iter/s)": 1.467389
    },
    {
      "epoch": 0.9453322479756652,
      "grad_norm": 3.149219274520874,
      "learning_rate": 9.143627563471209e-05,
      "loss": 0.34988203048706057,
      "memory(GiB)": 61.91,
      "step": 22065,
      "token_acc": 0.9256505576208178,
      "train_speed(iter/s)": 1.467378
    },
    {
      "epoch": 0.9455464633049141,
      "grad_norm": 1.1061185598373413,
      "learning_rate": 9.143250890642327e-05,
      "loss": 0.4117379665374756,
      "memory(GiB)": 61.91,
      "step": 22070,
      "token_acc": 0.9090909090909091,
      "train_speed(iter/s)": 1.467377
    },
    {
      "epoch": 0.945760678634163,
      "grad_norm": 15.019400596618652,
      "learning_rate": 9.142874142754572e-05,
      "loss": 0.6722813129425049,
      "memory(GiB)": 61.91,
      "step": 22075,
      "token_acc": 0.8736059479553904,
      "train_speed(iter/s)": 1.467435
    },
    {
      "epoch": 0.9459748939634121,
      "grad_norm": 2.8176960945129395,
      "learning_rate": 9.142497319814764e-05,
      "loss": 0.3606797456741333,
      "memory(GiB)": 61.91,
      "step": 22080,
      "token_acc": 0.9197707736389685,
      "train_speed(iter/s)": 1.46745
    },
    {
      "epoch": 0.946189109292661,
      "grad_norm": 4.598263263702393,
      "learning_rate": 9.142120421829729e-05,
      "loss": 0.5131877422332763,
      "memory(GiB)": 61.91,
      "step": 22085,
      "token_acc": 0.9061371841155235,
      "train_speed(iter/s)": 1.467418
    },
    {
      "epoch": 0.9464033246219099,
      "grad_norm": 4.7928619384765625,
      "learning_rate": 9.141743448806301e-05,
      "loss": 0.3072411060333252,
      "memory(GiB)": 61.91,
      "step": 22090,
      "token_acc": 0.9378531073446328,
      "train_speed(iter/s)": 1.467433
    },
    {
      "epoch": 0.9466175399511589,
      "grad_norm": 4.520856857299805,
      "learning_rate": 9.141366400751301e-05,
      "loss": 0.23764169216156006,
      "memory(GiB)": 61.91,
      "step": 22095,
      "token_acc": 0.9493670886075949,
      "train_speed(iter/s)": 1.467478
    },
    {
      "epoch": 0.9468317552804079,
      "grad_norm": 2.09917950630188,
      "learning_rate": 9.140989277671567e-05,
      "loss": 0.3776474714279175,
      "memory(GiB)": 61.91,
      "step": 22100,
      "token_acc": 0.9367088607594937,
      "train_speed(iter/s)": 1.46753
    },
    {
      "epoch": 0.9470459706096568,
      "grad_norm": 4.244811058044434,
      "learning_rate": 9.140612079573927e-05,
      "loss": 0.37911081314086914,
      "memory(GiB)": 61.91,
      "step": 22105,
      "token_acc": 0.9161073825503355,
      "train_speed(iter/s)": 1.467533
    },
    {
      "epoch": 0.9472601859389058,
      "grad_norm": 7.26774787902832,
      "learning_rate": 9.140234806465214e-05,
      "loss": 0.40667333602905276,
      "memory(GiB)": 61.91,
      "step": 22110,
      "token_acc": 0.9017094017094017,
      "train_speed(iter/s)": 1.46752
    },
    {
      "epoch": 0.9474744012681547,
      "grad_norm": 2.320934534072876,
      "learning_rate": 9.139857458352263e-05,
      "loss": 0.40746731758117677,
      "memory(GiB)": 61.91,
      "step": 22115,
      "token_acc": 0.9295302013422819,
      "train_speed(iter/s)": 1.467493
    },
    {
      "epoch": 0.9476886165974037,
      "grad_norm": 3.4059460163116455,
      "learning_rate": 9.139480035241912e-05,
      "loss": 0.2704026222229004,
      "memory(GiB)": 61.91,
      "step": 22120,
      "token_acc": 0.932806324110672,
      "train_speed(iter/s)": 1.467522
    },
    {
      "epoch": 0.9479028319266527,
      "grad_norm": 3.425511598587036,
      "learning_rate": 9.139102537140996e-05,
      "loss": 0.36084067821502686,
      "memory(GiB)": 61.91,
      "step": 22125,
      "token_acc": 0.9293286219081273,
      "train_speed(iter/s)": 1.467523
    },
    {
      "epoch": 0.9481170472559016,
      "grad_norm": 0.608832061290741,
      "learning_rate": 9.138724964056355e-05,
      "loss": 0.1984044075012207,
      "memory(GiB)": 61.91,
      "step": 22130,
      "token_acc": 0.9571984435797666,
      "train_speed(iter/s)": 1.467537
    },
    {
      "epoch": 0.9483312625851505,
      "grad_norm": 4.046356678009033,
      "learning_rate": 9.13834731599483e-05,
      "loss": 0.3591649532318115,
      "memory(GiB)": 61.91,
      "step": 22135,
      "token_acc": 0.9288025889967637,
      "train_speed(iter/s)": 1.467579
    },
    {
      "epoch": 0.9485454779143996,
      "grad_norm": 2.5247511863708496,
      "learning_rate": 9.13796959296326e-05,
      "loss": 0.46526460647583007,
      "memory(GiB)": 61.91,
      "step": 22140,
      "token_acc": 0.9115646258503401,
      "train_speed(iter/s)": 1.46758
    },
    {
      "epoch": 0.9487596932436485,
      "grad_norm": 1.9445387125015259,
      "learning_rate": 9.137591794968489e-05,
      "loss": 0.3836775302886963,
      "memory(GiB)": 61.91,
      "step": 22145,
      "token_acc": 0.9326599326599326,
      "train_speed(iter/s)": 1.467565
    },
    {
      "epoch": 0.9489739085728974,
      "grad_norm": 1.2154020071029663,
      "learning_rate": 9.137213922017363e-05,
      "loss": 0.1609580397605896,
      "memory(GiB)": 61.91,
      "step": 22150,
      "token_acc": 0.9705882352941176,
      "train_speed(iter/s)": 1.467564
    },
    {
      "epoch": 0.9491881239021465,
      "grad_norm": 6.556546211242676,
      "learning_rate": 9.136835974116724e-05,
      "loss": 0.37168872356414795,
      "memory(GiB)": 61.91,
      "step": 22155,
      "token_acc": 0.9306569343065694,
      "train_speed(iter/s)": 1.46754
    },
    {
      "epoch": 0.9494023392313954,
      "grad_norm": 3.9003090858459473,
      "learning_rate": 9.136457951273423e-05,
      "loss": 0.3579442262649536,
      "memory(GiB)": 61.91,
      "step": 22160,
      "token_acc": 0.930635838150289,
      "train_speed(iter/s)": 1.467526
    },
    {
      "epoch": 0.9496165545606443,
      "grad_norm": 5.424684047698975,
      "learning_rate": 9.136079853494304e-05,
      "loss": 0.6327717781066895,
      "memory(GiB)": 61.91,
      "step": 22165,
      "token_acc": 0.8622950819672132,
      "train_speed(iter/s)": 1.467563
    },
    {
      "epoch": 0.9498307698898933,
      "grad_norm": 0.14198103547096252,
      "learning_rate": 9.135701680786218e-05,
      "loss": 0.23424289226531983,
      "memory(GiB)": 61.91,
      "step": 22170,
      "token_acc": 0.9451476793248945,
      "train_speed(iter/s)": 1.467564
    },
    {
      "epoch": 0.9500449852191423,
      "grad_norm": 6.476556777954102,
      "learning_rate": 9.135323433156018e-05,
      "loss": 0.27534635066986085,
      "memory(GiB)": 61.91,
      "step": 22175,
      "token_acc": 0.9488372093023256,
      "train_speed(iter/s)": 1.467566
    },
    {
      "epoch": 0.9502592005483912,
      "grad_norm": 4.816646099090576,
      "learning_rate": 9.134945110610554e-05,
      "loss": 0.2359365463256836,
      "memory(GiB)": 61.91,
      "step": 22180,
      "token_acc": 0.9340659340659341,
      "train_speed(iter/s)": 1.467576
    },
    {
      "epoch": 0.9504734158776402,
      "grad_norm": 3.0063388347625732,
      "learning_rate": 9.134566713156679e-05,
      "loss": 0.3660297155380249,
      "memory(GiB)": 61.91,
      "step": 22185,
      "token_acc": 0.9385665529010239,
      "train_speed(iter/s)": 1.467606
    },
    {
      "epoch": 0.9506876312068891,
      "grad_norm": 11.726957321166992,
      "learning_rate": 9.134188240801251e-05,
      "loss": 0.7190132141113281,
      "memory(GiB)": 61.91,
      "step": 22190,
      "token_acc": 0.870253164556962,
      "train_speed(iter/s)": 1.467605
    },
    {
      "epoch": 0.9509018465361381,
      "grad_norm": 3.5979745388031006,
      "learning_rate": 9.133809693551125e-05,
      "loss": 0.421830415725708,
      "memory(GiB)": 61.91,
      "step": 22195,
      "token_acc": 0.9054054054054054,
      "train_speed(iter/s)": 1.467604
    },
    {
      "epoch": 0.9511160618653871,
      "grad_norm": 0.9612870812416077,
      "learning_rate": 9.133431071413158e-05,
      "loss": 0.5331704616546631,
      "memory(GiB)": 61.91,
      "step": 22200,
      "token_acc": 0.8907849829351536,
      "train_speed(iter/s)": 1.467602
    },
    {
      "epoch": 0.951330277194636,
      "grad_norm": 9.472886085510254,
      "learning_rate": 9.13305237439421e-05,
      "loss": 0.36295955181121825,
      "memory(GiB)": 61.91,
      "step": 22205,
      "token_acc": 0.8992805755395683,
      "train_speed(iter/s)": 1.467586
    },
    {
      "epoch": 0.951544492523885,
      "grad_norm": 0.37650957703590393,
      "learning_rate": 9.13267360250114e-05,
      "loss": 0.10992643833160401,
      "memory(GiB)": 61.91,
      "step": 22210,
      "token_acc": 0.9689655172413794,
      "train_speed(iter/s)": 1.467568
    },
    {
      "epoch": 0.951758707853134,
      "grad_norm": 2.342907190322876,
      "learning_rate": 9.132294755740814e-05,
      "loss": 0.6292852878570556,
      "memory(GiB)": 61.91,
      "step": 22215,
      "token_acc": 0.8885245901639345,
      "train_speed(iter/s)": 1.467601
    },
    {
      "epoch": 0.9519729231823829,
      "grad_norm": 1.9482372999191284,
      "learning_rate": 9.131915834120088e-05,
      "loss": 0.336916446685791,
      "memory(GiB)": 61.91,
      "step": 22220,
      "token_acc": 0.9174917491749175,
      "train_speed(iter/s)": 1.467591
    },
    {
      "epoch": 0.952187138511632,
      "grad_norm": 0.6206032037734985,
      "learning_rate": 9.131536837645833e-05,
      "loss": 0.5354894638061524,
      "memory(GiB)": 61.91,
      "step": 22225,
      "token_acc": 0.9053627760252366,
      "train_speed(iter/s)": 1.467581
    },
    {
      "epoch": 0.9524013538408809,
      "grad_norm": 4.015766143798828,
      "learning_rate": 9.131157766324912e-05,
      "loss": 0.3910503625869751,
      "memory(GiB)": 61.91,
      "step": 22230,
      "token_acc": 0.9230769230769231,
      "train_speed(iter/s)": 1.467573
    },
    {
      "epoch": 0.9526155691701298,
      "grad_norm": 0.1864416003227234,
      "learning_rate": 9.130778620164193e-05,
      "loss": 0.1978856325149536,
      "memory(GiB)": 61.91,
      "step": 22235,
      "token_acc": 0.9573770491803278,
      "train_speed(iter/s)": 1.467576
    },
    {
      "epoch": 0.9528297844993788,
      "grad_norm": 1.8641152381896973,
      "learning_rate": 9.130399399170544e-05,
      "loss": 0.600673770904541,
      "memory(GiB)": 61.91,
      "step": 22240,
      "token_acc": 0.8849315068493151,
      "train_speed(iter/s)": 1.467564
    },
    {
      "epoch": 0.9530439998286278,
      "grad_norm": 3.894437789916992,
      "learning_rate": 9.130020103350836e-05,
      "loss": 0.5011430740356445,
      "memory(GiB)": 61.91,
      "step": 22245,
      "token_acc": 0.9083333333333333,
      "train_speed(iter/s)": 1.467552
    },
    {
      "epoch": 0.9532582151578767,
      "grad_norm": 0.9876573085784912,
      "learning_rate": 9.12964073271194e-05,
      "loss": 0.11070897579193115,
      "memory(GiB)": 61.91,
      "step": 22250,
      "token_acc": 0.970873786407767,
      "train_speed(iter/s)": 1.467551
    },
    {
      "epoch": 0.9534724304871257,
      "grad_norm": 3.1903834342956543,
      "learning_rate": 9.129261287260726e-05,
      "loss": 0.5551234722137451,
      "memory(GiB)": 61.91,
      "step": 22255,
      "token_acc": 0.8856304985337243,
      "train_speed(iter/s)": 1.46753
    },
    {
      "epoch": 0.9536866458163746,
      "grad_norm": 0.4327496886253357,
      "learning_rate": 9.128881767004072e-05,
      "loss": 0.19804818630218507,
      "memory(GiB)": 61.91,
      "step": 22260,
      "token_acc": 0.9498069498069498,
      "train_speed(iter/s)": 1.467524
    },
    {
      "epoch": 0.9539008611456236,
      "grad_norm": 2.652514696121216,
      "learning_rate": 9.12850217194885e-05,
      "loss": 0.6420618057250976,
      "memory(GiB)": 61.91,
      "step": 22265,
      "token_acc": 0.8524096385542169,
      "train_speed(iter/s)": 1.467552
    },
    {
      "epoch": 0.9541150764748726,
      "grad_norm": 2.181469440460205,
      "learning_rate": 9.12812250210194e-05,
      "loss": 0.3005370616912842,
      "memory(GiB)": 61.91,
      "step": 22270,
      "token_acc": 0.9338235294117647,
      "train_speed(iter/s)": 1.467567
    },
    {
      "epoch": 0.9543292918041215,
      "grad_norm": 3.3608345985412598,
      "learning_rate": 9.127742757470217e-05,
      "loss": 0.4011042594909668,
      "memory(GiB)": 61.91,
      "step": 22275,
      "token_acc": 0.9233576642335767,
      "train_speed(iter/s)": 1.46759
    },
    {
      "epoch": 0.9545435071333704,
      "grad_norm": 2.2149758338928223,
      "learning_rate": 9.127362938060563e-05,
      "loss": 0.3083944320678711,
      "memory(GiB)": 61.91,
      "step": 22280,
      "token_acc": 0.9361022364217252,
      "train_speed(iter/s)": 1.467565
    },
    {
      "epoch": 0.9547577224626195,
      "grad_norm": 3.811053991317749,
      "learning_rate": 9.126983043879857e-05,
      "loss": 0.48477878570556643,
      "memory(GiB)": 61.91,
      "step": 22285,
      "token_acc": 0.9033333333333333,
      "train_speed(iter/s)": 1.46757
    },
    {
      "epoch": 0.9549719377918684,
      "grad_norm": 5.421357154846191,
      "learning_rate": 9.126603074934982e-05,
      "loss": 0.4821812152862549,
      "memory(GiB)": 61.91,
      "step": 22290,
      "token_acc": 0.875,
      "train_speed(iter/s)": 1.467566
    },
    {
      "epoch": 0.9551861531211173,
      "grad_norm": 3.3017706871032715,
      "learning_rate": 9.126223031232822e-05,
      "loss": 0.47586774826049805,
      "memory(GiB)": 61.91,
      "step": 22295,
      "token_acc": 0.9112903225806451,
      "train_speed(iter/s)": 1.467572
    },
    {
      "epoch": 0.9554003684503664,
      "grad_norm": 4.029461860656738,
      "learning_rate": 9.125842912780259e-05,
      "loss": 0.3086519479751587,
      "memory(GiB)": 61.91,
      "step": 22300,
      "token_acc": 0.9462025316455697,
      "train_speed(iter/s)": 1.467576
    },
    {
      "epoch": 0.9556145837796153,
      "grad_norm": 5.007809638977051,
      "learning_rate": 9.125462719584183e-05,
      "loss": 0.5117624759674072,
      "memory(GiB)": 61.91,
      "step": 22305,
      "token_acc": 0.8733333333333333,
      "train_speed(iter/s)": 1.467603
    },
    {
      "epoch": 0.9558287991088642,
      "grad_norm": 6.0248212814331055,
      "learning_rate": 9.125082451651479e-05,
      "loss": 0.5615583419799804,
      "memory(GiB)": 61.91,
      "step": 22310,
      "token_acc": 0.8787878787878788,
      "train_speed(iter/s)": 1.467633
    },
    {
      "epoch": 0.9560430144381132,
      "grad_norm": 3.623988151550293,
      "learning_rate": 9.124702108989036e-05,
      "loss": 0.49052066802978517,
      "memory(GiB)": 61.91,
      "step": 22315,
      "token_acc": 0.903010033444816,
      "train_speed(iter/s)": 1.467623
    },
    {
      "epoch": 0.9562572297673622,
      "grad_norm": 5.618017196655273,
      "learning_rate": 9.124321691603747e-05,
      "loss": 0.5810177326202393,
      "memory(GiB)": 61.91,
      "step": 22320,
      "token_acc": 0.889763779527559,
      "train_speed(iter/s)": 1.467696
    },
    {
      "epoch": 0.9564714450966111,
      "grad_norm": 2.131089687347412,
      "learning_rate": 9.123941199502501e-05,
      "loss": 0.33435850143432616,
      "memory(GiB)": 61.91,
      "step": 22325,
      "token_acc": 0.9190751445086706,
      "train_speed(iter/s)": 1.4677
    },
    {
      "epoch": 0.9566856604258601,
      "grad_norm": 6.61406135559082,
      "learning_rate": 9.12356063269219e-05,
      "loss": 0.1339050531387329,
      "memory(GiB)": 61.91,
      "step": 22330,
      "token_acc": 0.9636363636363636,
      "train_speed(iter/s)": 1.467719
    },
    {
      "epoch": 0.956899875755109,
      "grad_norm": 5.483438014984131,
      "learning_rate": 9.123179991179711e-05,
      "loss": 0.5129273891448974,
      "memory(GiB)": 61.91,
      "step": 22335,
      "token_acc": 0.8795620437956204,
      "train_speed(iter/s)": 1.467755
    },
    {
      "epoch": 0.957114091084358,
      "grad_norm": 3.1934163570404053,
      "learning_rate": 9.122799274971959e-05,
      "loss": 0.5013748168945312,
      "memory(GiB)": 61.91,
      "step": 22340,
      "token_acc": 0.8991825613079019,
      "train_speed(iter/s)": 1.467779
    },
    {
      "epoch": 0.957328306413607,
      "grad_norm": 2.149122476577759,
      "learning_rate": 9.12241848407583e-05,
      "loss": 0.35799126625061034,
      "memory(GiB)": 61.91,
      "step": 22345,
      "token_acc": 0.9230769230769231,
      "train_speed(iter/s)": 1.467799
    },
    {
      "epoch": 0.9575425217428559,
      "grad_norm": 5.2121500968933105,
      "learning_rate": 9.122037618498225e-05,
      "loss": 0.32495272159576416,
      "memory(GiB)": 61.91,
      "step": 22350,
      "token_acc": 0.9336734693877551,
      "train_speed(iter/s)": 1.467806
    },
    {
      "epoch": 0.9577567370721048,
      "grad_norm": 2.289686679840088,
      "learning_rate": 9.12165667824604e-05,
      "loss": 0.436721134185791,
      "memory(GiB)": 61.91,
      "step": 22355,
      "token_acc": 0.9143835616438356,
      "train_speed(iter/s)": 1.467808
    },
    {
      "epoch": 0.9579709524013539,
      "grad_norm": 6.328433513641357,
      "learning_rate": 9.121275663326178e-05,
      "loss": 0.5549020290374755,
      "memory(GiB)": 61.91,
      "step": 22360,
      "token_acc": 0.891566265060241,
      "train_speed(iter/s)": 1.467793
    },
    {
      "epoch": 0.9581851677306028,
      "grad_norm": 1.0749785900115967,
      "learning_rate": 9.120894573745542e-05,
      "loss": 0.30508639812469485,
      "memory(GiB)": 61.91,
      "step": 22365,
      "token_acc": 0.9369747899159664,
      "train_speed(iter/s)": 1.467801
    },
    {
      "epoch": 0.9583993830598517,
      "grad_norm": 3.816537380218506,
      "learning_rate": 9.120513409511033e-05,
      "loss": 0.7308573722839355,
      "memory(GiB)": 61.91,
      "step": 22370,
      "token_acc": 0.8586206896551725,
      "train_speed(iter/s)": 1.467852
    },
    {
      "epoch": 0.9586135983891008,
      "grad_norm": 3.2269225120544434,
      "learning_rate": 9.12013217062956e-05,
      "loss": 0.22136139869689941,
      "memory(GiB)": 61.91,
      "step": 22375,
      "token_acc": 0.953405017921147,
      "train_speed(iter/s)": 1.46787
    },
    {
      "epoch": 0.9588278137183497,
      "grad_norm": 2.831312656402588,
      "learning_rate": 9.119750857108027e-05,
      "loss": 0.5857760906219482,
      "memory(GiB)": 61.91,
      "step": 22380,
      "token_acc": 0.8945783132530121,
      "train_speed(iter/s)": 1.467908
    },
    {
      "epoch": 0.9590420290475986,
      "grad_norm": 1.791275143623352,
      "learning_rate": 9.119369468953344e-05,
      "loss": 0.16478101015090943,
      "memory(GiB)": 61.91,
      "step": 22385,
      "token_acc": 0.9647058823529412,
      "train_speed(iter/s)": 1.467907
    },
    {
      "epoch": 0.9592562443768476,
      "grad_norm": 3.5680434703826904,
      "learning_rate": 9.118988006172418e-05,
      "loss": 0.44626750946044924,
      "memory(GiB)": 61.91,
      "step": 22390,
      "token_acc": 0.9064327485380117,
      "train_speed(iter/s)": 1.467886
    },
    {
      "epoch": 0.9594704597060966,
      "grad_norm": 3.1389763355255127,
      "learning_rate": 9.11860646877216e-05,
      "loss": 0.27337968349456787,
      "memory(GiB)": 61.91,
      "step": 22395,
      "token_acc": 0.9263157894736842,
      "train_speed(iter/s)": 1.467876
    },
    {
      "epoch": 0.9596846750353455,
      "grad_norm": 4.181807994842529,
      "learning_rate": 9.118224856759482e-05,
      "loss": 0.19652308225631715,
      "memory(GiB)": 61.91,
      "step": 22400,
      "token_acc": 0.9568106312292359,
      "train_speed(iter/s)": 1.467862
    },
    {
      "epoch": 0.9598988903645945,
      "grad_norm": 3.2786691188812256,
      "learning_rate": 9.117843170141297e-05,
      "loss": 0.3506011962890625,
      "memory(GiB)": 61.91,
      "step": 22405,
      "token_acc": 0.9172661870503597,
      "train_speed(iter/s)": 1.46785
    },
    {
      "epoch": 0.9601131056938434,
      "grad_norm": 4.515069961547852,
      "learning_rate": 9.117461408924521e-05,
      "loss": 0.4957274436950684,
      "memory(GiB)": 61.91,
      "step": 22410,
      "token_acc": 0.8644688644688645,
      "train_speed(iter/s)": 1.467848
    },
    {
      "epoch": 0.9603273210230924,
      "grad_norm": 3.6373491287231445,
      "learning_rate": 9.11707957311607e-05,
      "loss": 0.358294677734375,
      "memory(GiB)": 61.91,
      "step": 22415,
      "token_acc": 0.9347826086956522,
      "train_speed(iter/s)": 1.467846
    },
    {
      "epoch": 0.9605415363523414,
      "grad_norm": 1.7846280336380005,
      "learning_rate": 9.116697662722859e-05,
      "loss": 0.32404446601867676,
      "memory(GiB)": 61.91,
      "step": 22420,
      "token_acc": 0.9362416107382551,
      "train_speed(iter/s)": 1.467838
    },
    {
      "epoch": 0.9607557516815903,
      "grad_norm": 4.620795726776123,
      "learning_rate": 9.116315677751807e-05,
      "loss": 0.3525334119796753,
      "memory(GiB)": 61.91,
      "step": 22425,
      "token_acc": 0.9324894514767933,
      "train_speed(iter/s)": 1.467812
    },
    {
      "epoch": 0.9609699670108393,
      "grad_norm": 2.1255245208740234,
      "learning_rate": 9.115933618209838e-05,
      "loss": 0.5580577850341797,
      "memory(GiB)": 61.91,
      "step": 22430,
      "token_acc": 0.9078947368421053,
      "train_speed(iter/s)": 1.46785
    },
    {
      "epoch": 0.9611841823400883,
      "grad_norm": 0.656931459903717,
      "learning_rate": 9.115551484103869e-05,
      "loss": 0.34498775005340576,
      "memory(GiB)": 61.91,
      "step": 22435,
      "token_acc": 0.9400749063670412,
      "train_speed(iter/s)": 1.467908
    },
    {
      "epoch": 0.9613983976693372,
      "grad_norm": 5.368595123291016,
      "learning_rate": 9.115169275440825e-05,
      "loss": 0.421937370300293,
      "memory(GiB)": 61.91,
      "step": 22440,
      "token_acc": 0.8934707903780069,
      "train_speed(iter/s)": 1.467939
    },
    {
      "epoch": 0.9616126129985861,
      "grad_norm": 4.023448944091797,
      "learning_rate": 9.114786992227629e-05,
      "loss": 0.461160945892334,
      "memory(GiB)": 61.91,
      "step": 22445,
      "token_acc": 0.8932038834951457,
      "train_speed(iter/s)": 1.46797
    },
    {
      "epoch": 0.9618268283278352,
      "grad_norm": 1.2711139917373657,
      "learning_rate": 9.114404634471205e-05,
      "loss": 0.682069969177246,
      "memory(GiB)": 61.91,
      "step": 22450,
      "token_acc": 0.9021406727828746,
      "train_speed(iter/s)": 1.467974
    },
    {
      "epoch": 0.9620410436570841,
      "grad_norm": 2.49837327003479,
      "learning_rate": 9.114022202178483e-05,
      "loss": 0.5080674648284912,
      "memory(GiB)": 61.91,
      "step": 22455,
      "token_acc": 0.9247311827956989,
      "train_speed(iter/s)": 1.468005
    },
    {
      "epoch": 0.962255258986333,
      "grad_norm": 5.150381565093994,
      "learning_rate": 9.113639695356388e-05,
      "loss": 0.5699351787567138,
      "memory(GiB)": 61.91,
      "step": 22460,
      "token_acc": 0.8768768768768769,
      "train_speed(iter/s)": 1.468003
    },
    {
      "epoch": 0.962469474315582,
      "grad_norm": 0.38493117690086365,
      "learning_rate": 9.113257114011852e-05,
      "loss": 0.2862043857574463,
      "memory(GiB)": 61.91,
      "step": 22465,
      "token_acc": 0.929368029739777,
      "train_speed(iter/s)": 1.468023
    },
    {
      "epoch": 0.962683689644831,
      "grad_norm": 8.213302612304688,
      "learning_rate": 9.112874458151805e-05,
      "loss": 0.5726579666137696,
      "memory(GiB)": 61.91,
      "step": 22470,
      "token_acc": 0.9046052631578947,
      "train_speed(iter/s)": 1.468044
    },
    {
      "epoch": 0.9628979049740799,
      "grad_norm": 3.255385637283325,
      "learning_rate": 9.112491727783179e-05,
      "loss": 0.5179494857788086,
      "memory(GiB)": 61.91,
      "step": 22475,
      "token_acc": 0.8840125391849529,
      "train_speed(iter/s)": 1.46804
    },
    {
      "epoch": 0.9631121203033289,
      "grad_norm": 2.541604995727539,
      "learning_rate": 9.112108922912907e-05,
      "loss": 0.2757928133010864,
      "memory(GiB)": 61.91,
      "step": 22480,
      "token_acc": 0.9463722397476341,
      "train_speed(iter/s)": 1.468086
    },
    {
      "epoch": 0.9633263356325779,
      "grad_norm": 4.0006103515625,
      "learning_rate": 9.111726043547926e-05,
      "loss": 0.5233933448791503,
      "memory(GiB)": 61.91,
      "step": 22485,
      "token_acc": 0.8823529411764706,
      "train_speed(iter/s)": 1.468088
    },
    {
      "epoch": 0.9635405509618268,
      "grad_norm": 4.771426677703857,
      "learning_rate": 9.111343089695168e-05,
      "loss": 0.18716444969177246,
      "memory(GiB)": 61.91,
      "step": 22490,
      "token_acc": 0.9475806451612904,
      "train_speed(iter/s)": 1.468145
    },
    {
      "epoch": 0.9637547662910758,
      "grad_norm": 2.943324327468872,
      "learning_rate": 9.110960061361575e-05,
      "loss": 0.36272666454315183,
      "memory(GiB)": 61.91,
      "step": 22495,
      "token_acc": 0.9272727272727272,
      "train_speed(iter/s)": 1.468142
    },
    {
      "epoch": 0.9639689816203247,
      "grad_norm": 4.363766670227051,
      "learning_rate": 9.110576958554085e-05,
      "loss": 0.9681766510009766,
      "memory(GiB)": 61.91,
      "step": 22500,
      "token_acc": 0.7987012987012987,
      "train_speed(iter/s)": 1.468166
    },
    {
      "epoch": 0.9639689816203247,
      "eval_loss": 2.6133882999420166,
      "eval_runtime": 13.4996,
      "eval_samples_per_second": 7.408,
      "eval_steps_per_second": 7.408,
      "eval_token_acc": 0.4236024844720497,
      "step": 22500
    },
    {
      "epoch": 0.9641831969495737,
      "grad_norm": 10.396462440490723,
      "learning_rate": 9.110193781279635e-05,
      "loss": 0.3440162181854248,
      "memory(GiB)": 61.91,
      "step": 22505,
      "token_acc": 0.560106856634016,
      "train_speed(iter/s)": 1.466791
    },
    {
      "epoch": 0.9643974122788227,
      "grad_norm": 0.7376004457473755,
      "learning_rate": 9.109810529545171e-05,
      "loss": 0.4431018829345703,
      "memory(GiB)": 61.91,
      "step": 22510,
      "token_acc": 0.909433962264151,
      "train_speed(iter/s)": 1.466803
    },
    {
      "epoch": 0.9646116276080716,
      "grad_norm": 3.4292876720428467,
      "learning_rate": 9.109427203357632e-05,
      "loss": 0.32602872848510744,
      "memory(GiB)": 61.91,
      "step": 22515,
      "token_acc": 0.904320987654321,
      "train_speed(iter/s)": 1.466802
    },
    {
      "epoch": 0.9648258429373205,
      "grad_norm": 4.269575595855713,
      "learning_rate": 9.109043802723967e-05,
      "loss": 0.45380420684814454,
      "memory(GiB)": 61.91,
      "step": 22520,
      "token_acc": 0.9186440677966101,
      "train_speed(iter/s)": 1.466815
    },
    {
      "epoch": 0.9650400582665696,
      "grad_norm": 3.65321946144104,
      "learning_rate": 9.108660327651116e-05,
      "loss": 0.3738923311233521,
      "memory(GiB)": 61.91,
      "step": 22525,
      "token_acc": 0.926530612244898,
      "train_speed(iter/s)": 1.466804
    },
    {
      "epoch": 0.9652542735958185,
      "grad_norm": 1.4909251928329468,
      "learning_rate": 9.10827677814603e-05,
      "loss": 0.14607330560684204,
      "memory(GiB)": 61.91,
      "step": 22530,
      "token_acc": 0.9619377162629758,
      "train_speed(iter/s)": 1.466817
    },
    {
      "epoch": 0.9654684889250674,
      "grad_norm": 0.9541783928871155,
      "learning_rate": 9.107893154215656e-05,
      "loss": 0.31940200328826907,
      "memory(GiB)": 61.91,
      "step": 22535,
      "token_acc": 0.9288025889967637,
      "train_speed(iter/s)": 1.466855
    },
    {
      "epoch": 0.9656827042543165,
      "grad_norm": 5.5046281814575195,
      "learning_rate": 9.107509455866945e-05,
      "loss": 0.27488677501678466,
      "memory(GiB)": 61.91,
      "step": 22540,
      "token_acc": 0.9378698224852071,
      "train_speed(iter/s)": 1.466878
    },
    {
      "epoch": 0.9658969195835654,
      "grad_norm": 4.118765354156494,
      "learning_rate": 9.107125683106848e-05,
      "loss": 0.41463871002197267,
      "memory(GiB)": 61.91,
      "step": 22545,
      "token_acc": 0.8873720136518771,
      "train_speed(iter/s)": 1.4669
    },
    {
      "epoch": 0.9661111349128143,
      "grad_norm": 1.8921499252319336,
      "learning_rate": 9.106741835942314e-05,
      "loss": 0.32947168350219724,
      "memory(GiB)": 61.91,
      "step": 22550,
      "token_acc": 0.9389830508474576,
      "train_speed(iter/s)": 1.466894
    },
    {
      "epoch": 0.9663253502420633,
      "grad_norm": 0.6701685786247253,
      "learning_rate": 9.106357914380299e-05,
      "loss": 0.321948766708374,
      "memory(GiB)": 61.91,
      "step": 22555,
      "token_acc": 0.9259259259259259,
      "train_speed(iter/s)": 1.466918
    },
    {
      "epoch": 0.9665395655713123,
      "grad_norm": 0.5912522673606873,
      "learning_rate": 9.105973918427759e-05,
      "loss": 0.3507030487060547,
      "memory(GiB)": 61.91,
      "step": 22560,
      "token_acc": 0.9259259259259259,
      "train_speed(iter/s)": 1.466945
    },
    {
      "epoch": 0.9667537809005613,
      "grad_norm": 3.008070230484009,
      "learning_rate": 9.105589848091651e-05,
      "loss": 0.5276268005371094,
      "memory(GiB)": 61.91,
      "step": 22565,
      "token_acc": 0.8951310861423221,
      "train_speed(iter/s)": 1.466947
    },
    {
      "epoch": 0.9669679962298102,
      "grad_norm": 5.073894023895264,
      "learning_rate": 9.105205703378931e-05,
      "loss": 0.3554256439208984,
      "memory(GiB)": 61.91,
      "step": 22570,
      "token_acc": 0.9359430604982206,
      "train_speed(iter/s)": 1.466952
    },
    {
      "epoch": 0.9671822115590591,
      "grad_norm": 5.506412982940674,
      "learning_rate": 9.104821484296559e-05,
      "loss": 0.44730396270751954,
      "memory(GiB)": 61.91,
      "step": 22575,
      "token_acc": 0.9222222222222223,
      "train_speed(iter/s)": 1.466998
    },
    {
      "epoch": 0.9673964268883082,
      "grad_norm": 6.124819278717041,
      "learning_rate": 9.104437190851493e-05,
      "loss": 0.542087459564209,
      "memory(GiB)": 61.91,
      "step": 22580,
      "token_acc": 0.88671875,
      "train_speed(iter/s)": 1.466991
    },
    {
      "epoch": 0.9676106422175571,
      "grad_norm": 1.4492192268371582,
      "learning_rate": 9.104052823050699e-05,
      "loss": 0.45547022819519045,
      "memory(GiB)": 61.91,
      "step": 22585,
      "token_acc": 0.9104938271604939,
      "train_speed(iter/s)": 1.466984
    },
    {
      "epoch": 0.967824857546806,
      "grad_norm": 4.878481864929199,
      "learning_rate": 9.103668380901138e-05,
      "loss": 0.3959322929382324,
      "memory(GiB)": 61.91,
      "step": 22590,
      "token_acc": 0.9118541033434651,
      "train_speed(iter/s)": 1.466953
    },
    {
      "epoch": 0.9680390728760551,
      "grad_norm": 4.652645111083984,
      "learning_rate": 9.103283864409775e-05,
      "loss": 0.37216198444366455,
      "memory(GiB)": 61.91,
      "step": 22595,
      "token_acc": 0.9346153846153846,
      "train_speed(iter/s)": 1.466962
    },
    {
      "epoch": 0.968253288205304,
      "grad_norm": 5.647254467010498,
      "learning_rate": 9.102899273583575e-05,
      "loss": 0.8148353576660157,
      "memory(GiB)": 61.91,
      "step": 22600,
      "token_acc": 0.8439716312056738,
      "train_speed(iter/s)": 1.466977
    },
    {
      "epoch": 0.9684675035345529,
      "grad_norm": 1.1464730501174927,
      "learning_rate": 9.102514608429507e-05,
      "loss": 0.3738710880279541,
      "memory(GiB)": 61.91,
      "step": 22605,
      "token_acc": 0.9020979020979021,
      "train_speed(iter/s)": 1.466988
    },
    {
      "epoch": 0.9686817188638019,
      "grad_norm": 3.6540586948394775,
      "learning_rate": 9.102129868954537e-05,
      "loss": 0.31359329223632815,
      "memory(GiB)": 61.91,
      "step": 22610,
      "token_acc": 0.953405017921147,
      "train_speed(iter/s)": 1.466989
    },
    {
      "epoch": 0.9688959341930509,
      "grad_norm": 0.45914551615715027,
      "learning_rate": 9.101745055165635e-05,
      "loss": 0.1510934591293335,
      "memory(GiB)": 61.91,
      "step": 22615,
      "token_acc": 0.9607843137254902,
      "train_speed(iter/s)": 1.466983
    },
    {
      "epoch": 0.9691101495222998,
      "grad_norm": 4.30312967300415,
      "learning_rate": 9.101360167069777e-05,
      "loss": 0.4194404125213623,
      "memory(GiB)": 61.91,
      "step": 22620,
      "token_acc": 0.9109792284866469,
      "train_speed(iter/s)": 1.466963
    },
    {
      "epoch": 0.9693243648515488,
      "grad_norm": 0.39689433574676514,
      "learning_rate": 9.100975204673929e-05,
      "loss": 0.16106451749801637,
      "memory(GiB)": 61.91,
      "step": 22625,
      "token_acc": 0.946236559139785,
      "train_speed(iter/s)": 1.466963
    },
    {
      "epoch": 0.9695385801807977,
      "grad_norm": 3.3761978149414062,
      "learning_rate": 9.10059016798507e-05,
      "loss": 0.42366819381713866,
      "memory(GiB)": 61.91,
      "step": 22630,
      "token_acc": 0.9084745762711864,
      "train_speed(iter/s)": 1.46699
    },
    {
      "epoch": 0.9697527955100467,
      "grad_norm": 2.0866873264312744,
      "learning_rate": 9.100205057010174e-05,
      "loss": 0.21488714218139648,
      "memory(GiB)": 61.91,
      "step": 22635,
      "token_acc": 0.9558359621451105,
      "train_speed(iter/s)": 1.466979
    },
    {
      "epoch": 0.9699670108392957,
      "grad_norm": 2.843698740005493,
      "learning_rate": 9.099819871756215e-05,
      "loss": 0.8273063659667969,
      "memory(GiB)": 61.91,
      "step": 22640,
      "token_acc": 0.8344827586206897,
      "train_speed(iter/s)": 1.467028
    },
    {
      "epoch": 0.9701812261685446,
      "grad_norm": 2.5688352584838867,
      "learning_rate": 9.099434612230175e-05,
      "loss": 0.4158743381500244,
      "memory(GiB)": 61.91,
      "step": 22645,
      "token_acc": 0.9283276450511946,
      "train_speed(iter/s)": 1.467062
    },
    {
      "epoch": 0.9703954414977936,
      "grad_norm": 2.3692450523376465,
      "learning_rate": 9.099049278439029e-05,
      "loss": 0.4909754753112793,
      "memory(GiB)": 61.91,
      "step": 22650,
      "token_acc": 0.9187279151943463,
      "train_speed(iter/s)": 1.467048
    },
    {
      "epoch": 0.9706096568270426,
      "grad_norm": 4.009530544281006,
      "learning_rate": 9.098663870389763e-05,
      "loss": 0.53192138671875,
      "memory(GiB)": 61.91,
      "step": 22655,
      "token_acc": 0.8753462603878116,
      "train_speed(iter/s)": 1.467048
    },
    {
      "epoch": 0.9708238721562915,
      "grad_norm": 0.4658305048942566,
      "learning_rate": 9.098278388089354e-05,
      "loss": 0.33517186641693114,
      "memory(GiB)": 61.91,
      "step": 22660,
      "token_acc": 0.9251101321585903,
      "train_speed(iter/s)": 1.467084
    },
    {
      "epoch": 0.9710380874855404,
      "grad_norm": 2.894105911254883,
      "learning_rate": 9.097892831544789e-05,
      "loss": 0.24039785861968993,
      "memory(GiB)": 61.91,
      "step": 22665,
      "token_acc": 0.9436619718309859,
      "train_speed(iter/s)": 1.467081
    },
    {
      "epoch": 0.9712523028147895,
      "grad_norm": 2.1339268684387207,
      "learning_rate": 9.097507200763052e-05,
      "loss": 0.38661694526672363,
      "memory(GiB)": 61.91,
      "step": 22670,
      "token_acc": 0.9078014184397163,
      "train_speed(iter/s)": 1.467099
    },
    {
      "epoch": 0.9714665181440384,
      "grad_norm": 2.4960134029388428,
      "learning_rate": 9.097121495751126e-05,
      "loss": 0.6261242389678955,
      "memory(GiB)": 61.91,
      "step": 22675,
      "token_acc": 0.8620689655172413,
      "train_speed(iter/s)": 1.467094
    },
    {
      "epoch": 0.9716807334732873,
      "grad_norm": 2.5292131900787354,
      "learning_rate": 9.096735716516001e-05,
      "loss": 0.37179586887359617,
      "memory(GiB)": 61.91,
      "step": 22680,
      "token_acc": 0.9140893470790378,
      "train_speed(iter/s)": 1.467099
    },
    {
      "epoch": 0.9718949488025364,
      "grad_norm": 2.4643478393554688,
      "learning_rate": 9.096349863064666e-05,
      "loss": 0.7186147689819335,
      "memory(GiB)": 61.91,
      "step": 22685,
      "token_acc": 0.8371212121212122,
      "train_speed(iter/s)": 1.467192
    },
    {
      "epoch": 0.9721091641317853,
      "grad_norm": 3.2507870197296143,
      "learning_rate": 9.09596393540411e-05,
      "loss": 0.4861918926239014,
      "memory(GiB)": 61.91,
      "step": 22690,
      "token_acc": 0.8989169675090253,
      "train_speed(iter/s)": 1.467188
    },
    {
      "epoch": 0.9723233794610342,
      "grad_norm": 4.054476737976074,
      "learning_rate": 9.095577933541326e-05,
      "loss": 0.31674144268035886,
      "memory(GiB)": 61.91,
      "step": 22695,
      "token_acc": 0.9220338983050848,
      "train_speed(iter/s)": 1.4672
    },
    {
      "epoch": 0.9725375947902832,
      "grad_norm": 3.62605357170105,
      "learning_rate": 9.095191857483305e-05,
      "loss": 0.43697395324707033,
      "memory(GiB)": 61.91,
      "step": 22700,
      "token_acc": 0.9066666666666666,
      "train_speed(iter/s)": 1.467203
    },
    {
      "epoch": 0.9727518101195322,
      "grad_norm": 4.2331013679504395,
      "learning_rate": 9.094805707237041e-05,
      "loss": 0.3778168439865112,
      "memory(GiB)": 61.91,
      "step": 22705,
      "token_acc": 0.9216417910447762,
      "train_speed(iter/s)": 1.467221
    },
    {
      "epoch": 0.9729660254487811,
      "grad_norm": 5.261354923248291,
      "learning_rate": 9.094419482809534e-05,
      "loss": 0.7905144691467285,
      "memory(GiB)": 61.91,
      "step": 22710,
      "token_acc": 0.8440366972477065,
      "train_speed(iter/s)": 1.467262
    },
    {
      "epoch": 0.9731802407780301,
      "grad_norm": 3.8394057750701904,
      "learning_rate": 9.094033184207774e-05,
      "loss": 0.29835102558135984,
      "memory(GiB)": 61.91,
      "step": 22715,
      "token_acc": 0.9138755980861244,
      "train_speed(iter/s)": 1.46726
    },
    {
      "epoch": 0.973394456107279,
      "grad_norm": 3.8342833518981934,
      "learning_rate": 9.093646811438762e-05,
      "loss": 0.42450265884399413,
      "memory(GiB)": 61.91,
      "step": 22720,
      "token_acc": 0.9163763066202091,
      "train_speed(iter/s)": 1.467265
    },
    {
      "epoch": 0.973608671436528,
      "grad_norm": 1.0380003452301025,
      "learning_rate": 9.0932603645095e-05,
      "loss": 0.4169100284576416,
      "memory(GiB)": 61.91,
      "step": 22725,
      "token_acc": 0.9210526315789473,
      "train_speed(iter/s)": 1.467247
    },
    {
      "epoch": 0.973822886765777,
      "grad_norm": 4.247737407684326,
      "learning_rate": 9.092873843426986e-05,
      "loss": 0.5221052169799805,
      "memory(GiB)": 61.91,
      "step": 22730,
      "token_acc": 0.8945686900958466,
      "train_speed(iter/s)": 1.467249
    },
    {
      "epoch": 0.9740371020950259,
      "grad_norm": 3.9924652576446533,
      "learning_rate": 9.092487248198222e-05,
      "loss": 0.2715971231460571,
      "memory(GiB)": 61.91,
      "step": 22735,
      "token_acc": 0.9433198380566802,
      "train_speed(iter/s)": 1.467245
    },
    {
      "epoch": 0.9742513174242748,
      "grad_norm": 5.439665794372559,
      "learning_rate": 9.092100578830214e-05,
      "loss": 0.43852987289428713,
      "memory(GiB)": 61.91,
      "step": 22740,
      "token_acc": 0.9073482428115016,
      "train_speed(iter/s)": 1.467269
    },
    {
      "epoch": 0.9744655327535239,
      "grad_norm": 3.2469286918640137,
      "learning_rate": 9.091713835329964e-05,
      "loss": 0.5105165481567383,
      "memory(GiB)": 61.91,
      "step": 22745,
      "token_acc": 0.8933333333333333,
      "train_speed(iter/s)": 1.467261
    },
    {
      "epoch": 0.9746797480827728,
      "grad_norm": 3.2909281253814697,
      "learning_rate": 9.091327017704479e-05,
      "loss": 0.4127491474151611,
      "memory(GiB)": 61.91,
      "step": 22750,
      "token_acc": 0.9148264984227129,
      "train_speed(iter/s)": 1.467235
    },
    {
      "epoch": 0.9748939634120217,
      "grad_norm": 3.50614333152771,
      "learning_rate": 9.090940125960769e-05,
      "loss": 0.33447291851043703,
      "memory(GiB)": 61.91,
      "step": 22755,
      "token_acc": 0.9267515923566879,
      "train_speed(iter/s)": 1.467224
    },
    {
      "epoch": 0.9751081787412708,
      "grad_norm": 3.6761868000030518,
      "learning_rate": 9.090553160105839e-05,
      "loss": 0.38726153373718264,
      "memory(GiB)": 61.91,
      "step": 22760,
      "token_acc": 0.9207920792079208,
      "train_speed(iter/s)": 1.467228
    },
    {
      "epoch": 0.9753223940705197,
      "grad_norm": 2.542299509048462,
      "learning_rate": 9.090166120146702e-05,
      "loss": 0.31950788497924804,
      "memory(GiB)": 61.91,
      "step": 22765,
      "token_acc": 0.9328859060402684,
      "train_speed(iter/s)": 1.467242
    },
    {
      "epoch": 0.9755366093997686,
      "grad_norm": 1.9300401210784912,
      "learning_rate": 9.08977900609037e-05,
      "loss": 0.5971720695495606,
      "memory(GiB)": 61.91,
      "step": 22770,
      "token_acc": 0.8586206896551725,
      "train_speed(iter/s)": 1.467296
    },
    {
      "epoch": 0.9757508247290176,
      "grad_norm": 2.1128714084625244,
      "learning_rate": 9.089391817943853e-05,
      "loss": 0.3215195894241333,
      "memory(GiB)": 61.91,
      "step": 22775,
      "token_acc": 0.9061371841155235,
      "train_speed(iter/s)": 1.467292
    },
    {
      "epoch": 0.9759650400582666,
      "grad_norm": 2.8073298931121826,
      "learning_rate": 9.089004555714168e-05,
      "loss": 0.3955368518829346,
      "memory(GiB)": 61.91,
      "step": 22780,
      "token_acc": 0.9063670411985019,
      "train_speed(iter/s)": 1.467313
    },
    {
      "epoch": 0.9761792553875155,
      "grad_norm": 5.319118499755859,
      "learning_rate": 9.08861721940833e-05,
      "loss": 0.5572036743164063,
      "memory(GiB)": 61.91,
      "step": 22785,
      "token_acc": 0.86875,
      "train_speed(iter/s)": 1.467327
    },
    {
      "epoch": 0.9763934707167645,
      "grad_norm": 0.07403390109539032,
      "learning_rate": 9.088229809033355e-05,
      "loss": 0.4871349334716797,
      "memory(GiB)": 61.91,
      "step": 22790,
      "token_acc": 0.875,
      "train_speed(iter/s)": 1.46736
    },
    {
      "epoch": 0.9766076860460134,
      "grad_norm": 4.482929229736328,
      "learning_rate": 9.087842324596262e-05,
      "loss": 0.4333138942718506,
      "memory(GiB)": 61.91,
      "step": 22795,
      "token_acc": 0.9016393442622951,
      "train_speed(iter/s)": 1.467365
    },
    {
      "epoch": 0.9768219013752624,
      "grad_norm": 2.1911461353302,
      "learning_rate": 9.087454766104071e-05,
      "loss": 0.253869366645813,
      "memory(GiB)": 61.91,
      "step": 22800,
      "token_acc": 0.9415807560137457,
      "train_speed(iter/s)": 1.467393
    },
    {
      "epoch": 0.9770361167045114,
      "grad_norm": 0.11205966025590897,
      "learning_rate": 9.087067133563803e-05,
      "loss": 0.2503319263458252,
      "memory(GiB)": 61.91,
      "step": 22805,
      "token_acc": 0.9317269076305221,
      "train_speed(iter/s)": 1.467368
    },
    {
      "epoch": 0.9772503320337603,
      "grad_norm": 2.9930312633514404,
      "learning_rate": 9.086679426982479e-05,
      "loss": 0.44928412437438964,
      "memory(GiB)": 61.91,
      "step": 22810,
      "token_acc": 0.9085173501577287,
      "train_speed(iter/s)": 1.467359
    },
    {
      "epoch": 0.9774645473630093,
      "grad_norm": 4.701198101043701,
      "learning_rate": 9.086291646367123e-05,
      "loss": 0.3456684350967407,
      "memory(GiB)": 61.91,
      "step": 22815,
      "token_acc": 0.9275862068965517,
      "train_speed(iter/s)": 1.467368
    },
    {
      "epoch": 0.9776787626922583,
      "grad_norm": 4.550952434539795,
      "learning_rate": 9.085903791724761e-05,
      "loss": 0.6531576156616211,
      "memory(GiB)": 61.91,
      "step": 22820,
      "token_acc": 0.8565737051792829,
      "train_speed(iter/s)": 1.467435
    },
    {
      "epoch": 0.9778929780215072,
      "grad_norm": 1.775841474533081,
      "learning_rate": 9.085515863062419e-05,
      "loss": 0.547609519958496,
      "memory(GiB)": 61.91,
      "step": 22825,
      "token_acc": 0.8595890410958904,
      "train_speed(iter/s)": 1.467438
    },
    {
      "epoch": 0.9781071933507561,
      "grad_norm": 4.896491050720215,
      "learning_rate": 9.085127860387126e-05,
      "loss": 0.5056403160095215,
      "memory(GiB)": 61.91,
      "step": 22830,
      "token_acc": 0.9036144578313253,
      "train_speed(iter/s)": 1.467417
    },
    {
      "epoch": 0.9783214086800052,
      "grad_norm": 4.149960994720459,
      "learning_rate": 9.084739783705909e-05,
      "loss": 0.32451980113983153,
      "memory(GiB)": 61.91,
      "step": 22835,
      "token_acc": 0.9192982456140351,
      "train_speed(iter/s)": 1.46741
    },
    {
      "epoch": 0.9785356240092541,
      "grad_norm": 3.365799903869629,
      "learning_rate": 9.084351633025798e-05,
      "loss": 0.3388540744781494,
      "memory(GiB)": 61.91,
      "step": 22840,
      "token_acc": 0.9192982456140351,
      "train_speed(iter/s)": 1.4674
    },
    {
      "epoch": 0.978749839338503,
      "grad_norm": 1.8322138786315918,
      "learning_rate": 9.083963408353825e-05,
      "loss": 0.1649320125579834,
      "memory(GiB)": 61.91,
      "step": 22845,
      "token_acc": 0.9689922480620154,
      "train_speed(iter/s)": 1.467407
    },
    {
      "epoch": 0.978964054667752,
      "grad_norm": 4.165931701660156,
      "learning_rate": 9.083575109697027e-05,
      "loss": 0.331998872756958,
      "memory(GiB)": 61.91,
      "step": 22850,
      "token_acc": 0.9260700389105059,
      "train_speed(iter/s)": 1.467384
    },
    {
      "epoch": 0.979178269997001,
      "grad_norm": 3.4234819412231445,
      "learning_rate": 9.083186737062432e-05,
      "loss": 0.346051287651062,
      "memory(GiB)": 61.91,
      "step": 22855,
      "token_acc": 0.9283276450511946,
      "train_speed(iter/s)": 1.467369
    },
    {
      "epoch": 0.9793924853262499,
      "grad_norm": 2.548560857772827,
      "learning_rate": 9.082798290457081e-05,
      "loss": 0.29793710708618165,
      "memory(GiB)": 61.91,
      "step": 22860,
      "token_acc": 0.9259259259259259,
      "train_speed(iter/s)": 1.467365
    },
    {
      "epoch": 0.9796067006554989,
      "grad_norm": 2.5122900009155273,
      "learning_rate": 9.082409769888008e-05,
      "loss": 0.4655618190765381,
      "memory(GiB)": 61.91,
      "step": 22865,
      "token_acc": 0.8922558922558923,
      "train_speed(iter/s)": 1.467374
    },
    {
      "epoch": 0.9798209159847479,
      "grad_norm": 4.179500102996826,
      "learning_rate": 9.082021175362252e-05,
      "loss": 0.4870340347290039,
      "memory(GiB)": 61.91,
      "step": 22870,
      "token_acc": 0.8793103448275862,
      "train_speed(iter/s)": 1.467377
    },
    {
      "epoch": 0.9800351313139968,
      "grad_norm": 1.5908443927764893,
      "learning_rate": 9.081632506886854e-05,
      "loss": 0.4044306755065918,
      "memory(GiB)": 61.91,
      "step": 22875,
      "token_acc": 0.9190031152647975,
      "train_speed(iter/s)": 1.467397
    },
    {
      "epoch": 0.9802493466432458,
      "grad_norm": 2.0280659198760986,
      "learning_rate": 9.081243764468854e-05,
      "loss": 0.4685558795928955,
      "memory(GiB)": 61.91,
      "step": 22880,
      "token_acc": 0.9017857142857143,
      "train_speed(iter/s)": 1.467408
    },
    {
      "epoch": 0.9804635619724947,
      "grad_norm": 2.4970626831054688,
      "learning_rate": 9.080854948115295e-05,
      "loss": 0.34035229682922363,
      "memory(GiB)": 61.91,
      "step": 22885,
      "token_acc": 0.9304635761589404,
      "train_speed(iter/s)": 1.467427
    },
    {
      "epoch": 0.9806777773017437,
      "grad_norm": 6.476522922515869,
      "learning_rate": 9.080466057833221e-05,
      "loss": 0.5590397834777832,
      "memory(GiB)": 61.91,
      "step": 22890,
      "token_acc": 0.9020408163265307,
      "train_speed(iter/s)": 1.467421
    },
    {
      "epoch": 0.9808919926309927,
      "grad_norm": 3.67911434173584,
      "learning_rate": 9.080077093629675e-05,
      "loss": 0.1436244010925293,
      "memory(GiB)": 61.91,
      "step": 22895,
      "token_acc": 0.9598540145985401,
      "train_speed(iter/s)": 1.467422
    },
    {
      "epoch": 0.9811062079602416,
      "grad_norm": 4.9731268882751465,
      "learning_rate": 9.079688055511707e-05,
      "loss": 0.3296573877334595,
      "memory(GiB)": 61.91,
      "step": 22900,
      "token_acc": 0.9139784946236559,
      "train_speed(iter/s)": 1.467449
    },
    {
      "epoch": 0.9813204232894907,
      "grad_norm": 2.9628140926361084,
      "learning_rate": 9.079298943486361e-05,
      "loss": 0.49567241668701173,
      "memory(GiB)": 61.91,
      "step": 22905,
      "token_acc": 0.8932038834951457,
      "train_speed(iter/s)": 1.467451
    },
    {
      "epoch": 0.9815346386187396,
      "grad_norm": 3.39810848236084,
      "learning_rate": 9.078909757560687e-05,
      "loss": 0.2028059720993042,
      "memory(GiB)": 61.91,
      "step": 22910,
      "token_acc": 0.9485294117647058,
      "train_speed(iter/s)": 1.467453
    },
    {
      "epoch": 0.9817488539479885,
      "grad_norm": 3.356431722640991,
      "learning_rate": 9.07852049774174e-05,
      "loss": 0.46726598739624026,
      "memory(GiB)": 61.91,
      "step": 22915,
      "token_acc": 0.8844884488448845,
      "train_speed(iter/s)": 1.467524
    },
    {
      "epoch": 0.9819630692772375,
      "grad_norm": 2.2710084915161133,
      "learning_rate": 9.078131164036565e-05,
      "loss": 0.3028480291366577,
      "memory(GiB)": 61.91,
      "step": 22920,
      "token_acc": 0.9375,
      "train_speed(iter/s)": 1.467542
    },
    {
      "epoch": 0.9821772846064865,
      "grad_norm": 2.8824594020843506,
      "learning_rate": 9.07774175645222e-05,
      "loss": 0.6599407196044922,
      "memory(GiB)": 61.91,
      "step": 22925,
      "token_acc": 0.8934707903780069,
      "train_speed(iter/s)": 1.467535
    },
    {
      "epoch": 0.9823914999357354,
      "grad_norm": 5.740154266357422,
      "learning_rate": 9.077352274995757e-05,
      "loss": 0.5597051620483399,
      "memory(GiB)": 61.91,
      "step": 22930,
      "token_acc": 0.8806584362139918,
      "train_speed(iter/s)": 1.467518
    },
    {
      "epoch": 0.9826057152649844,
      "grad_norm": 2.952100992202759,
      "learning_rate": 9.076962719674233e-05,
      "loss": 0.23585197925567628,
      "memory(GiB)": 61.91,
      "step": 22935,
      "token_acc": 0.9423868312757202,
      "train_speed(iter/s)": 1.46753
    },
    {
      "epoch": 0.9828199305942333,
      "grad_norm": 4.040224552154541,
      "learning_rate": 9.076573090494704e-05,
      "loss": 0.49897093772888185,
      "memory(GiB)": 61.91,
      "step": 22940,
      "token_acc": 0.900709219858156,
      "train_speed(iter/s)": 1.467527
    },
    {
      "epoch": 0.9830341459234823,
      "grad_norm": 1.7992702722549438,
      "learning_rate": 9.076183387464232e-05,
      "loss": 0.34796526432037356,
      "memory(GiB)": 61.91,
      "step": 22945,
      "token_acc": 0.9423868312757202,
      "train_speed(iter/s)": 1.467535
    },
    {
      "epoch": 0.9832483612527313,
      "grad_norm": 4.571271896362305,
      "learning_rate": 9.075793610589871e-05,
      "loss": 0.35993621349334715,
      "memory(GiB)": 61.91,
      "step": 22950,
      "token_acc": 0.9066147859922179,
      "train_speed(iter/s)": 1.467526
    },
    {
      "epoch": 0.9834625765819802,
      "grad_norm": 3.348897695541382,
      "learning_rate": 9.075403759878687e-05,
      "loss": 0.42169771194458006,
      "memory(GiB)": 61.91,
      "step": 22955,
      "token_acc": 0.9225352112676056,
      "train_speed(iter/s)": 1.467504
    },
    {
      "epoch": 0.9836767919112291,
      "grad_norm": 4.686835289001465,
      "learning_rate": 9.075013835337742e-05,
      "loss": 0.46544132232666013,
      "memory(GiB)": 61.91,
      "step": 22960,
      "token_acc": 0.9112627986348123,
      "train_speed(iter/s)": 1.467518
    },
    {
      "epoch": 0.9838910072404782,
      "grad_norm": 9.308765411376953,
      "learning_rate": 9.074623836974097e-05,
      "loss": 0.2516660213470459,
      "memory(GiB)": 61.91,
      "step": 22965,
      "token_acc": 0.9507575757575758,
      "train_speed(iter/s)": 1.467536
    },
    {
      "epoch": 0.9841052225697271,
      "grad_norm": 5.000901699066162,
      "learning_rate": 9.074233764794818e-05,
      "loss": 0.5643965721130371,
      "memory(GiB)": 61.91,
      "step": 22970,
      "token_acc": 0.881578947368421,
      "train_speed(iter/s)": 1.467553
    },
    {
      "epoch": 0.984319437898976,
      "grad_norm": 2.312708616256714,
      "learning_rate": 9.073843618806974e-05,
      "loss": 0.3907627582550049,
      "memory(GiB)": 61.91,
      "step": 22975,
      "token_acc": 0.9114754098360656,
      "train_speed(iter/s)": 1.467559
    },
    {
      "epoch": 0.9845336532282251,
      "grad_norm": 5.159397125244141,
      "learning_rate": 9.073453399017631e-05,
      "loss": 0.3154179334640503,
      "memory(GiB)": 61.91,
      "step": 22980,
      "token_acc": 0.9437086092715232,
      "train_speed(iter/s)": 1.467533
    },
    {
      "epoch": 0.984747868557474,
      "grad_norm": 3.7507987022399902,
      "learning_rate": 9.073063105433859e-05,
      "loss": 0.46868071556091306,
      "memory(GiB)": 61.91,
      "step": 22985,
      "token_acc": 0.9075342465753424,
      "train_speed(iter/s)": 1.467525
    },
    {
      "epoch": 0.9849620838867229,
      "grad_norm": 3.410108804702759,
      "learning_rate": 9.072672738062726e-05,
      "loss": 0.3694835424423218,
      "memory(GiB)": 61.91,
      "step": 22990,
      "token_acc": 0.9241706161137441,
      "train_speed(iter/s)": 1.467538
    },
    {
      "epoch": 0.9851762992159719,
      "grad_norm": 5.171638488769531,
      "learning_rate": 9.072282296911308e-05,
      "loss": 0.4230008125305176,
      "memory(GiB)": 61.91,
      "step": 22995,
      "token_acc": 0.9131944444444444,
      "train_speed(iter/s)": 1.467543
    },
    {
      "epoch": 0.9853905145452209,
      "grad_norm": 3.866205930709839,
      "learning_rate": 9.071891781986675e-05,
      "loss": 0.3414628267288208,
      "memory(GiB)": 61.91,
      "step": 23000,
      "token_acc": 0.924812030075188,
      "train_speed(iter/s)": 1.467528
    },
    {
      "epoch": 0.9853905145452209,
      "eval_loss": 2.8018884658813477,
      "eval_runtime": 13.9523,
      "eval_samples_per_second": 7.167,
      "eval_steps_per_second": 7.167,
      "eval_token_acc": 0.4074074074074074,
      "step": 23000
    },
    {
      "epoch": 0.9856047298744698,
      "grad_norm": 4.5356316566467285,
      "learning_rate": 9.071501193295903e-05,
      "loss": 0.6438232421875,
      "memory(GiB)": 61.91,
      "step": 23005,
      "token_acc": 0.5313688212927756,
      "train_speed(iter/s)": 1.466173
    },
    {
      "epoch": 0.9858189452037188,
      "grad_norm": 4.7228569984436035,
      "learning_rate": 9.071110530846067e-05,
      "loss": 0.71490478515625,
      "memory(GiB)": 61.91,
      "step": 23010,
      "token_acc": 0.8690095846645367,
      "train_speed(iter/s)": 1.46617
    },
    {
      "epoch": 0.9860331605329677,
      "grad_norm": 1.2189868688583374,
      "learning_rate": 9.070719794644245e-05,
      "loss": 0.40151104927062986,
      "memory(GiB)": 61.91,
      "step": 23015,
      "token_acc": 0.9107806691449815,
      "train_speed(iter/s)": 1.466177
    },
    {
      "epoch": 0.9862473758622167,
      "grad_norm": 3.7882189750671387,
      "learning_rate": 9.070328984697516e-05,
      "loss": 0.47653851509094236,
      "memory(GiB)": 61.91,
      "step": 23020,
      "token_acc": 0.896,
      "train_speed(iter/s)": 1.466186
    },
    {
      "epoch": 0.9864615911914657,
      "grad_norm": 3.042577028274536,
      "learning_rate": 9.069938101012958e-05,
      "loss": 0.28176016807556153,
      "memory(GiB)": 61.91,
      "step": 23025,
      "token_acc": 0.9418181818181818,
      "train_speed(iter/s)": 1.466173
    },
    {
      "epoch": 0.9866758065207146,
      "grad_norm": 3.0926737785339355,
      "learning_rate": 9.069547143597655e-05,
      "loss": 0.20814967155456543,
      "memory(GiB)": 61.91,
      "step": 23030,
      "token_acc": 0.9616724738675958,
      "train_speed(iter/s)": 1.466174
    },
    {
      "epoch": 0.9868900218499636,
      "grad_norm": 5.371574401855469,
      "learning_rate": 9.069156112458685e-05,
      "loss": 0.354787540435791,
      "memory(GiB)": 61.91,
      "step": 23035,
      "token_acc": 0.9294478527607362,
      "train_speed(iter/s)": 1.46616
    },
    {
      "epoch": 0.9871042371792126,
      "grad_norm": 2.7587740421295166,
      "learning_rate": 9.068765007603137e-05,
      "loss": 0.38357689380645754,
      "memory(GiB)": 61.91,
      "step": 23040,
      "token_acc": 0.9072164948453608,
      "train_speed(iter/s)": 1.466146
    },
    {
      "epoch": 0.9873184525084615,
      "grad_norm": 2.922731876373291,
      "learning_rate": 9.068373829038095e-05,
      "loss": 0.3913354635238647,
      "memory(GiB)": 61.91,
      "step": 23045,
      "token_acc": 0.9230769230769231,
      "train_speed(iter/s)": 1.466146
    },
    {
      "epoch": 0.9875326678377104,
      "grad_norm": 4.297885417938232,
      "learning_rate": 9.067982576770644e-05,
      "loss": 0.20912642478942872,
      "memory(GiB)": 61.91,
      "step": 23050,
      "token_acc": 0.9506849315068493,
      "train_speed(iter/s)": 1.466137
    },
    {
      "epoch": 0.9877468831669595,
      "grad_norm": 4.305956840515137,
      "learning_rate": 9.067591250807872e-05,
      "loss": 0.22772567272186278,
      "memory(GiB)": 61.91,
      "step": 23055,
      "token_acc": 0.9421221864951769,
      "train_speed(iter/s)": 1.466132
    },
    {
      "epoch": 0.9879610984962084,
      "grad_norm": 3.4289517402648926,
      "learning_rate": 9.067199851156869e-05,
      "loss": 0.35645499229431155,
      "memory(GiB)": 61.91,
      "step": 23060,
      "token_acc": 0.9198606271777003,
      "train_speed(iter/s)": 1.466137
    },
    {
      "epoch": 0.9881753138254573,
      "grad_norm": 3.0420477390289307,
      "learning_rate": 9.066808377824725e-05,
      "loss": 0.28496618270874025,
      "memory(GiB)": 61.91,
      "step": 23065,
      "token_acc": 0.943952802359882,
      "train_speed(iter/s)": 1.466147
    },
    {
      "epoch": 0.9883895291547063,
      "grad_norm": 7.919363021850586,
      "learning_rate": 9.066416830818531e-05,
      "loss": 0.3788649082183838,
      "memory(GiB)": 61.91,
      "step": 23070,
      "token_acc": 0.9266409266409267,
      "train_speed(iter/s)": 1.46618
    },
    {
      "epoch": 0.9886037444839553,
      "grad_norm": 1.373322606086731,
      "learning_rate": 9.066025210145384e-05,
      "loss": 0.43091492652893065,
      "memory(GiB)": 61.91,
      "step": 23075,
      "token_acc": 0.9233449477351916,
      "train_speed(iter/s)": 1.466165
    },
    {
      "epoch": 0.9888179598132042,
      "grad_norm": 2.3561184406280518,
      "learning_rate": 9.065633515812376e-05,
      "loss": 0.31202499866485595,
      "memory(GiB)": 61.91,
      "step": 23080,
      "token_acc": 0.92,
      "train_speed(iter/s)": 1.466164
    },
    {
      "epoch": 0.9890321751424532,
      "grad_norm": 3.0452964305877686,
      "learning_rate": 9.0652417478266e-05,
      "loss": 0.3210011959075928,
      "memory(GiB)": 61.91,
      "step": 23085,
      "token_acc": 0.9456521739130435,
      "train_speed(iter/s)": 1.466183
    },
    {
      "epoch": 0.9892463904717022,
      "grad_norm": 2.93115496635437,
      "learning_rate": 9.064849906195159e-05,
      "loss": 0.4121109485626221,
      "memory(GiB)": 61.91,
      "step": 23090,
      "token_acc": 0.9107142857142857,
      "train_speed(iter/s)": 1.466165
    },
    {
      "epoch": 0.9894606058009511,
      "grad_norm": 5.3507208824157715,
      "learning_rate": 9.064457990925149e-05,
      "loss": 0.41944360733032227,
      "memory(GiB)": 61.91,
      "step": 23095,
      "token_acc": 0.890625,
      "train_speed(iter/s)": 1.466149
    },
    {
      "epoch": 0.9896748211302001,
      "grad_norm": 2.316462278366089,
      "learning_rate": 9.064066002023668e-05,
      "loss": 0.2755529165267944,
      "memory(GiB)": 61.91,
      "step": 23100,
      "token_acc": 0.916058394160584,
      "train_speed(iter/s)": 1.466157
    },
    {
      "epoch": 0.989889036459449,
      "grad_norm": 2.3346195220947266,
      "learning_rate": 9.06367393949782e-05,
      "loss": 0.3700258731842041,
      "memory(GiB)": 61.91,
      "step": 23105,
      "token_acc": 0.9206349206349206,
      "train_speed(iter/s)": 1.466141
    },
    {
      "epoch": 0.990103251788698,
      "grad_norm": 2.1577906608581543,
      "learning_rate": 9.063281803354707e-05,
      "loss": 0.2636056661605835,
      "memory(GiB)": 61.91,
      "step": 23110,
      "token_acc": 0.936,
      "train_speed(iter/s)": 1.466153
    },
    {
      "epoch": 0.990317467117947,
      "grad_norm": 1.8787915706634521,
      "learning_rate": 9.062889593601432e-05,
      "loss": 0.27724628448486327,
      "memory(GiB)": 61.91,
      "step": 23115,
      "token_acc": 0.9266409266409267,
      "train_speed(iter/s)": 1.466134
    },
    {
      "epoch": 0.9905316824471959,
      "grad_norm": 2.152647018432617,
      "learning_rate": 9.0624973102451e-05,
      "loss": 0.4210536003112793,
      "memory(GiB)": 61.91,
      "step": 23120,
      "token_acc": 0.9130434782608695,
      "train_speed(iter/s)": 1.466139
    },
    {
      "epoch": 0.9907458977764448,
      "grad_norm": 2.9005849361419678,
      "learning_rate": 9.062104953292819e-05,
      "loss": 0.4311054229736328,
      "memory(GiB)": 61.91,
      "step": 23125,
      "token_acc": 0.9166666666666666,
      "train_speed(iter/s)": 1.466151
    },
    {
      "epoch": 0.9909601131056939,
      "grad_norm": 3.3991777896881104,
      "learning_rate": 9.061712522751696e-05,
      "loss": 0.3234874725341797,
      "memory(GiB)": 61.91,
      "step": 23130,
      "token_acc": 0.9451612903225807,
      "train_speed(iter/s)": 1.466148
    },
    {
      "epoch": 0.9911743284349428,
      "grad_norm": 4.2745137214660645,
      "learning_rate": 9.06132001862884e-05,
      "loss": 0.30898351669311525,
      "memory(GiB)": 61.91,
      "step": 23135,
      "token_acc": 0.934640522875817,
      "train_speed(iter/s)": 1.466201
    },
    {
      "epoch": 0.9913885437641917,
      "grad_norm": 5.174011707305908,
      "learning_rate": 9.060927440931362e-05,
      "loss": 0.5215951919555664,
      "memory(GiB)": 61.91,
      "step": 23140,
      "token_acc": 0.901840490797546,
      "train_speed(iter/s)": 1.466249
    },
    {
      "epoch": 0.9916027590934408,
      "grad_norm": 4.024851322174072,
      "learning_rate": 9.060534789666374e-05,
      "loss": 0.23213725090026854,
      "memory(GiB)": 61.91,
      "step": 23145,
      "token_acc": 0.9304029304029304,
      "train_speed(iter/s)": 1.466235
    },
    {
      "epoch": 0.9918169744226897,
      "grad_norm": 5.033786296844482,
      "learning_rate": 9.06014206484099e-05,
      "loss": 0.3277372121810913,
      "memory(GiB)": 61.91,
      "step": 23150,
      "token_acc": 0.9297658862876255,
      "train_speed(iter/s)": 1.466229
    },
    {
      "epoch": 0.9920311897519386,
      "grad_norm": 4.290957450866699,
      "learning_rate": 9.059749266462324e-05,
      "loss": 0.48192148208618163,
      "memory(GiB)": 61.91,
      "step": 23155,
      "token_acc": 0.891566265060241,
      "train_speed(iter/s)": 1.466252
    },
    {
      "epoch": 0.9922454050811876,
      "grad_norm": 4.1790900230407715,
      "learning_rate": 9.05935639453749e-05,
      "loss": 0.20256810188293456,
      "memory(GiB)": 61.91,
      "step": 23160,
      "token_acc": 0.940959409594096,
      "train_speed(iter/s)": 1.466233
    },
    {
      "epoch": 0.9924596204104366,
      "grad_norm": 3.9452850818634033,
      "learning_rate": 9.058963449073607e-05,
      "loss": 0.3903980255126953,
      "memory(GiB)": 61.91,
      "step": 23165,
      "token_acc": 0.9295774647887324,
      "train_speed(iter/s)": 1.466248
    },
    {
      "epoch": 0.9926738357396855,
      "grad_norm": 2.163417339324951,
      "learning_rate": 9.058570430077795e-05,
      "loss": 0.5196821689605713,
      "memory(GiB)": 61.91,
      "step": 23170,
      "token_acc": 0.9154929577464789,
      "train_speed(iter/s)": 1.466297
    },
    {
      "epoch": 0.9928880510689345,
      "grad_norm": 5.080713272094727,
      "learning_rate": 9.058177337557172e-05,
      "loss": 0.6870219230651855,
      "memory(GiB)": 61.91,
      "step": 23175,
      "token_acc": 0.8442367601246106,
      "train_speed(iter/s)": 1.466316
    },
    {
      "epoch": 0.9931022663981834,
      "grad_norm": 3.430781126022339,
      "learning_rate": 9.057784171518861e-05,
      "loss": 0.3689839839935303,
      "memory(GiB)": 61.91,
      "step": 23180,
      "token_acc": 0.9166666666666666,
      "train_speed(iter/s)": 1.466285
    },
    {
      "epoch": 0.9933164817274324,
      "grad_norm": 4.090959072113037,
      "learning_rate": 9.057390931969981e-05,
      "loss": 0.4228992462158203,
      "memory(GiB)": 61.91,
      "step": 23185,
      "token_acc": 0.9305555555555556,
      "train_speed(iter/s)": 1.466275
    },
    {
      "epoch": 0.9935306970566814,
      "grad_norm": 4.610325336456299,
      "learning_rate": 9.056997618917659e-05,
      "loss": 0.5709116458892822,
      "memory(GiB)": 61.91,
      "step": 23190,
      "token_acc": 0.8685258964143426,
      "train_speed(iter/s)": 1.466298
    },
    {
      "epoch": 0.9937449123859303,
      "grad_norm": 5.033995628356934,
      "learning_rate": 9.056604232369019e-05,
      "loss": 0.6102637767791748,
      "memory(GiB)": 61.91,
      "step": 23195,
      "token_acc": 0.8714859437751004,
      "train_speed(iter/s)": 1.466282
    },
    {
      "epoch": 0.9939591277151792,
      "grad_norm": 3.39082407951355,
      "learning_rate": 9.056210772331188e-05,
      "loss": 0.7244359493255615,
      "memory(GiB)": 61.91,
      "step": 23200,
      "token_acc": 0.875,
      "train_speed(iter/s)": 1.466274
    },
    {
      "epoch": 0.9941733430444283,
      "grad_norm": 1.8970284461975098,
      "learning_rate": 9.055817238811295e-05,
      "loss": 0.5684709072113037,
      "memory(GiB)": 61.91,
      "step": 23205,
      "token_acc": 0.8770226537216829,
      "train_speed(iter/s)": 1.466281
    },
    {
      "epoch": 0.9943875583736772,
      "grad_norm": 3.8140368461608887,
      "learning_rate": 9.055423631816466e-05,
      "loss": 0.3557960033416748,
      "memory(GiB)": 61.91,
      "step": 23210,
      "token_acc": 0.9201183431952663,
      "train_speed(iter/s)": 1.466277
    },
    {
      "epoch": 0.9946017737029261,
      "grad_norm": 3.936457633972168,
      "learning_rate": 9.055029951353835e-05,
      "loss": 0.4290026664733887,
      "memory(GiB)": 61.91,
      "step": 23215,
      "token_acc": 0.9178571428571428,
      "train_speed(iter/s)": 1.466298
    },
    {
      "epoch": 0.9948159890321752,
      "grad_norm": 4.572265625,
      "learning_rate": 9.054636197430533e-05,
      "loss": 0.41004114151000975,
      "memory(GiB)": 61.91,
      "step": 23220,
      "token_acc": 0.8862068965517241,
      "train_speed(iter/s)": 1.4663
    },
    {
      "epoch": 0.9950302043614241,
      "grad_norm": 4.204168796539307,
      "learning_rate": 9.054242370053691e-05,
      "loss": 0.43382911682128905,
      "memory(GiB)": 61.91,
      "step": 23225,
      "token_acc": 0.9166666666666666,
      "train_speed(iter/s)": 1.466288
    },
    {
      "epoch": 0.995244419690673,
      "grad_norm": 1.5903034210205078,
      "learning_rate": 9.053848469230446e-05,
      "loss": 0.3283071041107178,
      "memory(GiB)": 61.91,
      "step": 23230,
      "token_acc": 0.9223880597014925,
      "train_speed(iter/s)": 1.466292
    },
    {
      "epoch": 0.995458635019922,
      "grad_norm": 4.326785087585449,
      "learning_rate": 9.053454494967935e-05,
      "loss": 0.49473347663879397,
      "memory(GiB)": 61.91,
      "step": 23235,
      "token_acc": 0.876984126984127,
      "train_speed(iter/s)": 1.46628
    },
    {
      "epoch": 0.995672850349171,
      "grad_norm": 5.735963821411133,
      "learning_rate": 9.053060447273291e-05,
      "loss": 0.5998233795166016,
      "memory(GiB)": 61.91,
      "step": 23240,
      "token_acc": 0.8525179856115108,
      "train_speed(iter/s)": 1.466261
    },
    {
      "epoch": 0.99588706567842,
      "grad_norm": 4.444169521331787,
      "learning_rate": 9.052666326153656e-05,
      "loss": 0.4996207237243652,
      "memory(GiB)": 61.91,
      "step": 23245,
      "token_acc": 0.9055374592833876,
      "train_speed(iter/s)": 1.46626
    },
    {
      "epoch": 0.9961012810076689,
      "grad_norm": 3.0266075134277344,
      "learning_rate": 9.052272131616168e-05,
      "loss": 0.38396737575531004,
      "memory(GiB)": 61.91,
      "step": 23250,
      "token_acc": 0.9064748201438849,
      "train_speed(iter/s)": 1.466251
    },
    {
      "epoch": 0.9963154963369178,
      "grad_norm": 3.2546558380126953,
      "learning_rate": 9.051877863667969e-05,
      "loss": 0.5909715175628663,
      "memory(GiB)": 61.91,
      "step": 23255,
      "token_acc": 0.8835341365461847,
      "train_speed(iter/s)": 1.466246
    },
    {
      "epoch": 0.9965297116661669,
      "grad_norm": 1.6458323001861572,
      "learning_rate": 9.051483522316202e-05,
      "loss": 0.19717875719070435,
      "memory(GiB)": 61.91,
      "step": 23260,
      "token_acc": 0.9488054607508533,
      "train_speed(iter/s)": 1.466259
    },
    {
      "epoch": 0.9967439269954158,
      "grad_norm": 5.961434841156006,
      "learning_rate": 9.05108910756801e-05,
      "loss": 0.4791823387145996,
      "memory(GiB)": 61.91,
      "step": 23265,
      "token_acc": 0.9087591240875912,
      "train_speed(iter/s)": 1.466288
    },
    {
      "epoch": 0.9969581423246647,
      "grad_norm": 2.838625431060791,
      "learning_rate": 9.050694619430539e-05,
      "loss": 0.46123476028442384,
      "memory(GiB)": 61.91,
      "step": 23270,
      "token_acc": 0.9036544850498339,
      "train_speed(iter/s)": 1.466283
    },
    {
      "epoch": 0.9971723576539138,
      "grad_norm": 3.1425623893737793,
      "learning_rate": 9.050300057910936e-05,
      "loss": 0.3685252904891968,
      "memory(GiB)": 61.91,
      "step": 23275,
      "token_acc": 0.936,
      "train_speed(iter/s)": 1.466277
    },
    {
      "epoch": 0.9973865729831627,
      "grad_norm": 4.533308506011963,
      "learning_rate": 9.049905423016347e-05,
      "loss": 0.5994612693786621,
      "memory(GiB)": 61.91,
      "step": 23280,
      "token_acc": 0.8484848484848485,
      "train_speed(iter/s)": 1.466302
    },
    {
      "epoch": 0.9976007883124116,
      "grad_norm": 3.043637990951538,
      "learning_rate": 9.049510714753922e-05,
      "loss": 0.49548187255859377,
      "memory(GiB)": 61.91,
      "step": 23285,
      "token_acc": 0.9113149847094801,
      "train_speed(iter/s)": 1.466302
    },
    {
      "epoch": 0.9978150036416606,
      "grad_norm": 2.361222505569458,
      "learning_rate": 9.049115933130811e-05,
      "loss": 0.3626401424407959,
      "memory(GiB)": 61.91,
      "step": 23290,
      "token_acc": 0.9028776978417267,
      "train_speed(iter/s)": 1.466278
    },
    {
      "epoch": 0.9980292189709096,
      "grad_norm": 3.5664327144622803,
      "learning_rate": 9.048721078154168e-05,
      "loss": 0.21756746768951415,
      "memory(GiB)": 61.91,
      "step": 23295,
      "token_acc": 0.9554794520547946,
      "train_speed(iter/s)": 1.466275
    },
    {
      "epoch": 0.9982434343001585,
      "grad_norm": 1.6589657068252563,
      "learning_rate": 9.048326149831143e-05,
      "loss": 0.20720133781433106,
      "memory(GiB)": 61.91,
      "step": 23300,
      "token_acc": 0.9413793103448276,
      "train_speed(iter/s)": 1.466268
    },
    {
      "epoch": 0.9984576496294075,
      "grad_norm": 6.977700710296631,
      "learning_rate": 9.047931148168894e-05,
      "loss": 0.4335311412811279,
      "memory(GiB)": 61.91,
      "step": 23305,
      "token_acc": 0.9069767441860465,
      "train_speed(iter/s)": 1.466252
    },
    {
      "epoch": 0.9986718649586565,
      "grad_norm": 2.216754674911499,
      "learning_rate": 9.047536073174573e-05,
      "loss": 0.41321487426757814,
      "memory(GiB)": 61.91,
      "step": 23310,
      "token_acc": 0.9161490683229814,
      "train_speed(iter/s)": 1.466222
    },
    {
      "epoch": 0.9988860802879054,
      "grad_norm": 1.8785909414291382,
      "learning_rate": 9.047140924855342e-05,
      "loss": 0.6249926567077637,
      "memory(GiB)": 61.91,
      "step": 23315,
      "token_acc": 0.8746268656716418,
      "train_speed(iter/s)": 1.466214
    },
    {
      "epoch": 0.9991002956171544,
      "grad_norm": 1.247135043144226,
      "learning_rate": 9.046745703218356e-05,
      "loss": 0.17793688774108887,
      "memory(GiB)": 61.91,
      "step": 23320,
      "token_acc": 0.96,
      "train_speed(iter/s)": 1.466266
    },
    {
      "epoch": 0.9993145109464033,
      "grad_norm": 3.6000959873199463,
      "learning_rate": 9.046350408270772e-05,
      "loss": 0.37376389503479,
      "memory(GiB)": 61.91,
      "step": 23325,
      "token_acc": 0.926984126984127,
      "train_speed(iter/s)": 1.466274
    },
    {
      "epoch": 0.9995287262756523,
      "grad_norm": 1.988287091255188,
      "learning_rate": 9.045955040019758e-05,
      "loss": 0.46655926704406736,
      "memory(GiB)": 61.91,
      "step": 23330,
      "token_acc": 0.9087719298245615,
      "train_speed(iter/s)": 1.466243
    },
    {
      "epoch": 0.9997429416049013,
      "grad_norm": 2.605344295501709,
      "learning_rate": 9.045559598472472e-05,
      "loss": 0.3812110900878906,
      "memory(GiB)": 61.91,
      "step": 23335,
      "token_acc": 0.939622641509434,
      "train_speed(iter/s)": 1.466272
    },
    {
      "epoch": 0.9999571569341502,
      "grad_norm": 6.514379978179932,
      "learning_rate": 9.045164083636079e-05,
      "loss": 0.5162374973297119,
      "memory(GiB)": 61.91,
      "step": 23340,
      "token_acc": 0.8844984802431611,
      "train_speed(iter/s)": 1.466289
    },
    {
      "epoch": 1.0001713722633991,
      "grad_norm": 0.22389034926891327,
      "learning_rate": 9.044768495517744e-05,
      "loss": 0.43283467292785643,
      "memory(GiB)": 61.91,
      "step": 23345,
      "token_acc": 0.9097744360902256,
      "train_speed(iter/s)": 1.466301
    },
    {
      "epoch": 1.0003855875926482,
      "grad_norm": 3.21712327003479,
      "learning_rate": 9.044372834124632e-05,
      "loss": 0.7594629287719726,
      "memory(GiB)": 61.91,
      "step": 23350,
      "token_acc": 0.8366013071895425,
      "train_speed(iter/s)": 1.466303
    },
    {
      "epoch": 1.000599802921897,
      "grad_norm": 2.753504991531372,
      "learning_rate": 9.043977099463914e-05,
      "loss": 0.4891964912414551,
      "memory(GiB)": 61.91,
      "step": 23355,
      "token_acc": 0.9170854271356784,
      "train_speed(iter/s)": 1.466294
    },
    {
      "epoch": 1.000814018251146,
      "grad_norm": 3.037426710128784,
      "learning_rate": 9.043581291542757e-05,
      "loss": 0.41431436538696287,
      "memory(GiB)": 61.91,
      "step": 23360,
      "token_acc": 0.934375,
      "train_speed(iter/s)": 1.466277
    },
    {
      "epoch": 1.001028233580395,
      "grad_norm": 2.8651130199432373,
      "learning_rate": 9.043185410368332e-05,
      "loss": 0.6977530479431152,
      "memory(GiB)": 61.91,
      "step": 23365,
      "token_acc": 0.8633093525179856,
      "train_speed(iter/s)": 1.466266
    },
    {
      "epoch": 1.0012424489096439,
      "grad_norm": 2.355426788330078,
      "learning_rate": 9.042789455947808e-05,
      "loss": 0.2588301181793213,
      "memory(GiB)": 61.91,
      "step": 23370,
      "token_acc": 0.9509433962264151,
      "train_speed(iter/s)": 1.466276
    },
    {
      "epoch": 1.001456664238893,
      "grad_norm": 6.826366424560547,
      "learning_rate": 9.042393428288363e-05,
      "loss": 0.4513858795166016,
      "memory(GiB)": 61.91,
      "step": 23375,
      "token_acc": 0.8942307692307693,
      "train_speed(iter/s)": 1.466295
    },
    {
      "epoch": 1.001670879568142,
      "grad_norm": 3.9340813159942627,
      "learning_rate": 9.041997327397169e-05,
      "loss": 0.3208312511444092,
      "memory(GiB)": 61.91,
      "step": 23380,
      "token_acc": 0.9372549019607843,
      "train_speed(iter/s)": 1.466336
    },
    {
      "epoch": 1.0018850948973907,
      "grad_norm": 1.9665848016738892,
      "learning_rate": 9.0416011532814e-05,
      "loss": 0.3248921871185303,
      "memory(GiB)": 61.91,
      "step": 23385,
      "token_acc": 0.9271137026239067,
      "train_speed(iter/s)": 1.466327
    },
    {
      "epoch": 1.0020993102266398,
      "grad_norm": 4.530271053314209,
      "learning_rate": 9.041204905948236e-05,
      "loss": 0.4966284275054932,
      "memory(GiB)": 61.91,
      "step": 23390,
      "token_acc": 0.8920634920634921,
      "train_speed(iter/s)": 1.466337
    },
    {
      "epoch": 1.0023135255558888,
      "grad_norm": 4.857135772705078,
      "learning_rate": 9.040808585404854e-05,
      "loss": 0.6355748653411866,
      "memory(GiB)": 61.91,
      "step": 23395,
      "token_acc": 0.8414239482200647,
      "train_speed(iter/s)": 1.466356
    },
    {
      "epoch": 1.0025277408851376,
      "grad_norm": 1.4380847215652466,
      "learning_rate": 9.040412191658434e-05,
      "loss": 0.24257736206054686,
      "memory(GiB)": 61.91,
      "step": 23400,
      "token_acc": 0.9523809523809523,
      "train_speed(iter/s)": 1.466342
    },
    {
      "epoch": 1.0027419562143867,
      "grad_norm": 1.4551470279693604,
      "learning_rate": 9.040015724716157e-05,
      "loss": 0.23666529655456542,
      "memory(GiB)": 61.91,
      "step": 23405,
      "token_acc": 0.9718875502008032,
      "train_speed(iter/s)": 1.466349
    },
    {
      "epoch": 1.0029561715436357,
      "grad_norm": 4.318110942840576,
      "learning_rate": 9.039619184585204e-05,
      "loss": 0.46571621894836424,
      "memory(GiB)": 61.91,
      "step": 23410,
      "token_acc": 0.9125,
      "train_speed(iter/s)": 1.466345
    },
    {
      "epoch": 1.0031703868728847,
      "grad_norm": 3.5381014347076416,
      "learning_rate": 9.039222571272763e-05,
      "loss": 0.5022389411926269,
      "memory(GiB)": 61.91,
      "step": 23415,
      "token_acc": 0.8566433566433567,
      "train_speed(iter/s)": 1.466355
    },
    {
      "epoch": 1.0033846022021335,
      "grad_norm": 6.335610389709473,
      "learning_rate": 9.038825884786013e-05,
      "loss": 0.5737714767456055,
      "memory(GiB)": 61.91,
      "step": 23420,
      "token_acc": 0.8526315789473684,
      "train_speed(iter/s)": 1.466385
    },
    {
      "epoch": 1.0035988175313826,
      "grad_norm": 2.6478395462036133,
      "learning_rate": 9.038429125132143e-05,
      "loss": 0.27043585777282714,
      "memory(GiB)": 61.91,
      "step": 23425,
      "token_acc": 0.9466666666666667,
      "train_speed(iter/s)": 1.466374
    },
    {
      "epoch": 1.0038130328606316,
      "grad_norm": 3.0995121002197266,
      "learning_rate": 9.038032292318343e-05,
      "loss": 0.3798614501953125,
      "memory(GiB)": 61.91,
      "step": 23430,
      "token_acc": 0.9101123595505618,
      "train_speed(iter/s)": 1.466426
    },
    {
      "epoch": 1.0040272481898804,
      "grad_norm": 2.3428080081939697,
      "learning_rate": 9.037635386351801e-05,
      "loss": 0.29378395080566405,
      "memory(GiB)": 61.91,
      "step": 23435,
      "token_acc": 0.9235474006116208,
      "train_speed(iter/s)": 1.466436
    },
    {
      "epoch": 1.0042414635191295,
      "grad_norm": 3.297528028488159,
      "learning_rate": 9.037238407239705e-05,
      "loss": 0.39637892246246337,
      "memory(GiB)": 61.91,
      "step": 23440,
      "token_acc": 0.8985074626865671,
      "train_speed(iter/s)": 1.46643
    },
    {
      "epoch": 1.0044556788483785,
      "grad_norm": 0.13324862718582153,
      "learning_rate": 9.036841354989248e-05,
      "loss": 0.2587049722671509,
      "memory(GiB)": 61.91,
      "step": 23445,
      "token_acc": 0.9469387755102041,
      "train_speed(iter/s)": 1.466443
    },
    {
      "epoch": 1.0046698941776273,
      "grad_norm": 2.8279895782470703,
      "learning_rate": 9.036444229607623e-05,
      "loss": 0.37244181632995604,
      "memory(GiB)": 61.91,
      "step": 23450,
      "token_acc": 0.9233576642335767,
      "train_speed(iter/s)": 1.46644
    },
    {
      "epoch": 1.0048841095068763,
      "grad_norm": 2.424670457839966,
      "learning_rate": 9.036047031102024e-05,
      "loss": 0.16059852838516236,
      "memory(GiB)": 61.91,
      "step": 23455,
      "token_acc": 0.9607843137254902,
      "train_speed(iter/s)": 1.466433
    },
    {
      "epoch": 1.0050983248361254,
      "grad_norm": 3.1816744804382324,
      "learning_rate": 9.035649759479648e-05,
      "loss": 0.5765062808990479,
      "memory(GiB)": 61.91,
      "step": 23460,
      "token_acc": 0.864406779661017,
      "train_speed(iter/s)": 1.46643
    },
    {
      "epoch": 1.0053125401653742,
      "grad_norm": 1.5164985656738281,
      "learning_rate": 9.03525241474769e-05,
      "loss": 0.39667363166809083,
      "memory(GiB)": 61.91,
      "step": 23465,
      "token_acc": 0.9153225806451613,
      "train_speed(iter/s)": 1.466439
    },
    {
      "epoch": 1.0055267554946232,
      "grad_norm": 1.8255109786987305,
      "learning_rate": 9.034854996913349e-05,
      "loss": 0.2590620517730713,
      "memory(GiB)": 61.91,
      "step": 23470,
      "token_acc": 0.9511278195488722,
      "train_speed(iter/s)": 1.466455
    },
    {
      "epoch": 1.0057409708238723,
      "grad_norm": 3.093670129776001,
      "learning_rate": 9.034457505983825e-05,
      "loss": 0.20003871917724608,
      "memory(GiB)": 61.91,
      "step": 23475,
      "token_acc": 0.9486301369863014,
      "train_speed(iter/s)": 1.466449
    },
    {
      "epoch": 1.005955186153121,
      "grad_norm": 2.040165901184082,
      "learning_rate": 9.034059941966318e-05,
      "loss": 0.41846427917480467,
      "memory(GiB)": 61.91,
      "step": 23480,
      "token_acc": 0.908284023668639,
      "train_speed(iter/s)": 1.466429
    },
    {
      "epoch": 1.00616940148237,
      "grad_norm": 2.276426315307617,
      "learning_rate": 9.033662304868031e-05,
      "loss": 0.3062429666519165,
      "memory(GiB)": 61.91,
      "step": 23485,
      "token_acc": 0.935374149659864,
      "train_speed(iter/s)": 1.466434
    },
    {
      "epoch": 1.0063836168116191,
      "grad_norm": 3.0900518894195557,
      "learning_rate": 9.033264594696169e-05,
      "loss": 0.30295767784118655,
      "memory(GiB)": 61.91,
      "step": 23490,
      "token_acc": 0.9264705882352942,
      "train_speed(iter/s)": 1.466439
    },
    {
      "epoch": 1.006597832140868,
      "grad_norm": 7.886228084564209,
      "learning_rate": 9.032866811457935e-05,
      "loss": 0.3275092124938965,
      "memory(GiB)": 61.91,
      "step": 23495,
      "token_acc": 0.9532374100719424,
      "train_speed(iter/s)": 1.466473
    },
    {
      "epoch": 1.006812047470117,
      "grad_norm": 2.3839709758758545,
      "learning_rate": 9.032468955160533e-05,
      "loss": 0.3025867700576782,
      "memory(GiB)": 61.91,
      "step": 23500,
      "token_acc": 0.9397590361445783,
      "train_speed(iter/s)": 1.466459
    },
    {
      "epoch": 1.006812047470117,
      "eval_loss": 2.469367265701294,
      "eval_runtime": 13.9982,
      "eval_samples_per_second": 7.144,
      "eval_steps_per_second": 7.144,
      "eval_token_acc": 0.4483260553129549,
      "step": 23500
    },
    {
      "epoch": 1.007026262799366,
      "grad_norm": 1.615294098854065,
      "learning_rate": 9.032071025811175e-05,
      "loss": 0.5064341068267822,
      "memory(GiB)": 61.91,
      "step": 23505,
      "token_acc": 0.5769633507853403,
      "train_speed(iter/s)": 1.465154
    },
    {
      "epoch": 1.0072404781286148,
      "grad_norm": 4.048498153686523,
      "learning_rate": 9.031673023417069e-05,
      "loss": 0.36421771049499513,
      "memory(GiB)": 61.91,
      "step": 23510,
      "token_acc": 0.9233449477351916,
      "train_speed(iter/s)": 1.465138
    },
    {
      "epoch": 1.0074546934578639,
      "grad_norm": 2.4360225200653076,
      "learning_rate": 9.031274947985422e-05,
      "loss": 0.24397542476654052,
      "memory(GiB)": 61.91,
      "step": 23515,
      "token_acc": 0.95,
      "train_speed(iter/s)": 1.465134
    },
    {
      "epoch": 1.007668908787113,
      "grad_norm": 2.519141435623169,
      "learning_rate": 9.03087679952345e-05,
      "loss": 0.26824772357940674,
      "memory(GiB)": 61.91,
      "step": 23520,
      "token_acc": 0.9495548961424333,
      "train_speed(iter/s)": 1.465124
    },
    {
      "epoch": 1.0078831241163617,
      "grad_norm": 3.696718454360962,
      "learning_rate": 9.030478578038361e-05,
      "loss": 0.25292823314666746,
      "memory(GiB)": 61.91,
      "step": 23525,
      "token_acc": 0.9464285714285714,
      "train_speed(iter/s)": 1.465125
    },
    {
      "epoch": 1.0080973394456108,
      "grad_norm": 4.095617771148682,
      "learning_rate": 9.030080283537374e-05,
      "loss": 0.3337285280227661,
      "memory(GiB)": 61.91,
      "step": 23530,
      "token_acc": 0.9314079422382672,
      "train_speed(iter/s)": 1.465169
    },
    {
      "epoch": 1.0083115547748598,
      "grad_norm": 5.484187602996826,
      "learning_rate": 9.029681916027701e-05,
      "loss": 0.3777590751647949,
      "memory(GiB)": 61.91,
      "step": 23535,
      "token_acc": 0.9377049180327869,
      "train_speed(iter/s)": 1.465204
    },
    {
      "epoch": 1.0085257701041086,
      "grad_norm": 8.735016822814941,
      "learning_rate": 9.029283475516561e-05,
      "loss": 0.33849124908447265,
      "memory(GiB)": 61.91,
      "step": 23540,
      "token_acc": 0.9304635761589404,
      "train_speed(iter/s)": 1.465178
    },
    {
      "epoch": 1.0087399854333576,
      "grad_norm": 2.73144268989563,
      "learning_rate": 9.028884962011169e-05,
      "loss": 0.3165081024169922,
      "memory(GiB)": 61.91,
      "step": 23545,
      "token_acc": 0.9192982456140351,
      "train_speed(iter/s)": 1.465181
    },
    {
      "epoch": 1.0089542007626067,
      "grad_norm": 9.543110847473145,
      "learning_rate": 9.028486375518748e-05,
      "loss": 0.575448751449585,
      "memory(GiB)": 61.91,
      "step": 23550,
      "token_acc": 0.8790849673202614,
      "train_speed(iter/s)": 1.46522
    },
    {
      "epoch": 1.0091684160918555,
      "grad_norm": 7.58178186416626,
      "learning_rate": 9.028087716046516e-05,
      "loss": 0.43502011299133303,
      "memory(GiB)": 61.91,
      "step": 23555,
      "token_acc": 0.9163879598662207,
      "train_speed(iter/s)": 1.46524
    },
    {
      "epoch": 1.0093826314211045,
      "grad_norm": 0.39661312103271484,
      "learning_rate": 9.027688983601699e-05,
      "loss": 0.5027358531951904,
      "memory(GiB)": 61.91,
      "step": 23560,
      "token_acc": 0.900709219858156,
      "train_speed(iter/s)": 1.465265
    },
    {
      "epoch": 1.0095968467503535,
      "grad_norm": 3.94197154045105,
      "learning_rate": 9.027290178191515e-05,
      "loss": 0.4046445369720459,
      "memory(GiB)": 61.91,
      "step": 23565,
      "token_acc": 0.902834008097166,
      "train_speed(iter/s)": 1.465269
    },
    {
      "epoch": 1.0098110620796024,
      "grad_norm": 3.701342821121216,
      "learning_rate": 9.026891299823192e-05,
      "loss": 0.5746723175048828,
      "memory(GiB)": 61.91,
      "step": 23570,
      "token_acc": 0.8780487804878049,
      "train_speed(iter/s)": 1.46529
    },
    {
      "epoch": 1.0100252774088514,
      "grad_norm": 9.59444522857666,
      "learning_rate": 9.026492348503957e-05,
      "loss": 0.28274238109588623,
      "memory(GiB)": 61.91,
      "step": 23575,
      "token_acc": 0.9461538461538461,
      "train_speed(iter/s)": 1.465333
    },
    {
      "epoch": 1.0102394927381004,
      "grad_norm": 0.4904763400554657,
      "learning_rate": 9.026093324241035e-05,
      "loss": 0.24711041450500487,
      "memory(GiB)": 61.91,
      "step": 23580,
      "token_acc": 0.9504950495049505,
      "train_speed(iter/s)": 1.465339
    },
    {
      "epoch": 1.0104537080673492,
      "grad_norm": 6.157111167907715,
      "learning_rate": 9.025694227041656e-05,
      "loss": 0.36108989715576173,
      "memory(GiB)": 61.91,
      "step": 23585,
      "token_acc": 0.9244604316546763,
      "train_speed(iter/s)": 1.465326
    },
    {
      "epoch": 1.0106679233965983,
      "grad_norm": 9.211114883422852,
      "learning_rate": 9.025295056913049e-05,
      "loss": 0.12766200304031372,
      "memory(GiB)": 61.91,
      "step": 23590,
      "token_acc": 0.9719626168224299,
      "train_speed(iter/s)": 1.465329
    },
    {
      "epoch": 1.0108821387258473,
      "grad_norm": 3.0461602210998535,
      "learning_rate": 9.024895813862446e-05,
      "loss": 0.34656329154968263,
      "memory(GiB)": 61.91,
      "step": 23595,
      "token_acc": 0.9134328358208955,
      "train_speed(iter/s)": 1.465363
    },
    {
      "epoch": 1.0110963540550961,
      "grad_norm": 3.0216598510742188,
      "learning_rate": 9.024496497897082e-05,
      "loss": 0.38831591606140137,
      "memory(GiB)": 61.91,
      "step": 23600,
      "token_acc": 0.9050847457627119,
      "train_speed(iter/s)": 1.465363
    },
    {
      "epoch": 1.0113105693843452,
      "grad_norm": 1.6130406856536865,
      "learning_rate": 9.024097109024186e-05,
      "loss": 0.5789651870727539,
      "memory(GiB)": 61.91,
      "step": 23605,
      "token_acc": 0.8830409356725146,
      "train_speed(iter/s)": 1.465348
    },
    {
      "epoch": 1.0115247847135942,
      "grad_norm": 8.610644340515137,
      "learning_rate": 9.023697647250995e-05,
      "loss": 0.635160255432129,
      "memory(GiB)": 61.91,
      "step": 23610,
      "token_acc": 0.8957654723127035,
      "train_speed(iter/s)": 1.465329
    },
    {
      "epoch": 1.011739000042843,
      "grad_norm": 6.728611946105957,
      "learning_rate": 9.023298112584749e-05,
      "loss": 0.2811427593231201,
      "memory(GiB)": 61.91,
      "step": 23615,
      "token_acc": 0.9433962264150944,
      "train_speed(iter/s)": 1.465318
    },
    {
      "epoch": 1.011953215372092,
      "grad_norm": 4.121522903442383,
      "learning_rate": 9.022898505032685e-05,
      "loss": 0.3907188415527344,
      "memory(GiB)": 61.91,
      "step": 23620,
      "token_acc": 0.9194630872483222,
      "train_speed(iter/s)": 1.465323
    },
    {
      "epoch": 1.012167430701341,
      "grad_norm": 3.289065361022949,
      "learning_rate": 9.022498824602037e-05,
      "loss": 0.2839103937149048,
      "memory(GiB)": 61.91,
      "step": 23625,
      "token_acc": 0.9435736677115988,
      "train_speed(iter/s)": 1.465335
    },
    {
      "epoch": 1.0123816460305899,
      "grad_norm": 5.088583469390869,
      "learning_rate": 9.022099071300052e-05,
      "loss": 0.5283496856689454,
      "memory(GiB)": 61.91,
      "step": 23630,
      "token_acc": 0.8566433566433567,
      "train_speed(iter/s)": 1.465349
    },
    {
      "epoch": 1.012595861359839,
      "grad_norm": 1.2132079601287842,
      "learning_rate": 9.021699245133967e-05,
      "loss": 0.26539108753204343,
      "memory(GiB)": 61.91,
      "step": 23635,
      "token_acc": 0.9409937888198758,
      "train_speed(iter/s)": 1.465351
    },
    {
      "epoch": 1.012810076689088,
      "grad_norm": 2.5080668926239014,
      "learning_rate": 9.02129934611103e-05,
      "loss": 0.28379638195037843,
      "memory(GiB)": 61.91,
      "step": 23640,
      "token_acc": 0.9503311258278145,
      "train_speed(iter/s)": 1.465339
    },
    {
      "epoch": 1.0130242920183368,
      "grad_norm": 3.9254150390625,
      "learning_rate": 9.020899374238481e-05,
      "loss": 0.6180932998657227,
      "memory(GiB)": 61.91,
      "step": 23645,
      "token_acc": 0.8877887788778878,
      "train_speed(iter/s)": 1.465347
    },
    {
      "epoch": 1.0132385073475858,
      "grad_norm": 1.524520754814148,
      "learning_rate": 9.020499329523569e-05,
      "loss": 0.26360454559326174,
      "memory(GiB)": 61.91,
      "step": 23650,
      "token_acc": 0.9464285714285714,
      "train_speed(iter/s)": 1.465333
    },
    {
      "epoch": 1.0134527226768348,
      "grad_norm": 2.9095935821533203,
      "learning_rate": 9.02009921197354e-05,
      "loss": 0.3064687728881836,
      "memory(GiB)": 61.91,
      "step": 23655,
      "token_acc": 0.9257950530035336,
      "train_speed(iter/s)": 1.465365
    },
    {
      "epoch": 1.0136669380060837,
      "grad_norm": 3.9265029430389404,
      "learning_rate": 9.019699021595642e-05,
      "loss": 0.4506204605102539,
      "memory(GiB)": 61.91,
      "step": 23660,
      "token_acc": 0.9025270758122743,
      "train_speed(iter/s)": 1.465372
    },
    {
      "epoch": 1.0138811533353327,
      "grad_norm": 3.024338483810425,
      "learning_rate": 9.019298758397127e-05,
      "loss": 0.3629601240158081,
      "memory(GiB)": 61.91,
      "step": 23665,
      "token_acc": 0.9019607843137255,
      "train_speed(iter/s)": 1.465352
    },
    {
      "epoch": 1.0140953686645817,
      "grad_norm": 3.0038468837738037,
      "learning_rate": 9.018898422385243e-05,
      "loss": 0.4109188556671143,
      "memory(GiB)": 61.91,
      "step": 23670,
      "token_acc": 0.9134948096885813,
      "train_speed(iter/s)": 1.465357
    },
    {
      "epoch": 1.0143095839938305,
      "grad_norm": 8.002450942993164,
      "learning_rate": 9.018498013567244e-05,
      "loss": 0.5566529750823974,
      "memory(GiB)": 61.91,
      "step": 23675,
      "token_acc": 0.8658892128279884,
      "train_speed(iter/s)": 1.465348
    },
    {
      "epoch": 1.0145237993230796,
      "grad_norm": 1.4162464141845703,
      "learning_rate": 9.018097531950385e-05,
      "loss": 0.20337629318237305,
      "memory(GiB)": 61.91,
      "step": 23680,
      "token_acc": 0.9381818181818182,
      "train_speed(iter/s)": 1.465331
    },
    {
      "epoch": 1.0147380146523286,
      "grad_norm": 3.031485080718994,
      "learning_rate": 9.01769697754192e-05,
      "loss": 0.4739412307739258,
      "memory(GiB)": 61.91,
      "step": 23685,
      "token_acc": 0.9056603773584906,
      "train_speed(iter/s)": 1.465339
    },
    {
      "epoch": 1.0149522299815774,
      "grad_norm": 1.5300397872924805,
      "learning_rate": 9.017296350349105e-05,
      "loss": 0.4788696765899658,
      "memory(GiB)": 61.91,
      "step": 23690,
      "token_acc": 0.8901515151515151,
      "train_speed(iter/s)": 1.465375
    },
    {
      "epoch": 1.0151664453108264,
      "grad_norm": 3.886418581008911,
      "learning_rate": 9.016895650379198e-05,
      "loss": 0.30700781345367434,
      "memory(GiB)": 61.91,
      "step": 23695,
      "token_acc": 0.9351851851851852,
      "train_speed(iter/s)": 1.465373
    },
    {
      "epoch": 1.0153806606400755,
      "grad_norm": 1.7262898683547974,
      "learning_rate": 9.016494877639457e-05,
      "loss": 0.3223842144012451,
      "memory(GiB)": 61.91,
      "step": 23700,
      "token_acc": 0.9297124600638977,
      "train_speed(iter/s)": 1.465341
    },
    {
      "epoch": 1.0155948759693243,
      "grad_norm": 0.08459437638521194,
      "learning_rate": 9.016094032137144e-05,
      "loss": 0.44769678115844724,
      "memory(GiB)": 61.91,
      "step": 23705,
      "token_acc": 0.930327868852459,
      "train_speed(iter/s)": 1.465341
    },
    {
      "epoch": 1.0158090912985733,
      "grad_norm": 4.825450897216797,
      "learning_rate": 9.015693113879521e-05,
      "loss": 0.552297830581665,
      "memory(GiB)": 61.91,
      "step": 23710,
      "token_acc": 0.90625,
      "train_speed(iter/s)": 1.465369
    },
    {
      "epoch": 1.0160233066278224,
      "grad_norm": 2.290187120437622,
      "learning_rate": 9.01529212287385e-05,
      "loss": 0.5609296798706055,
      "memory(GiB)": 61.91,
      "step": 23715,
      "token_acc": 0.8723404255319149,
      "train_speed(iter/s)": 1.465397
    },
    {
      "epoch": 1.0162375219570712,
      "grad_norm": 4.897535800933838,
      "learning_rate": 9.014891059127395e-05,
      "loss": 0.2322864532470703,
      "memory(GiB)": 61.91,
      "step": 23720,
      "token_acc": 0.9592592592592593,
      "train_speed(iter/s)": 1.465397
    },
    {
      "epoch": 1.0164517372863202,
      "grad_norm": 5.353052139282227,
      "learning_rate": 9.014489922647423e-05,
      "loss": 0.7771756172180175,
      "memory(GiB)": 61.91,
      "step": 23725,
      "token_acc": 0.8647686832740213,
      "train_speed(iter/s)": 1.465394
    },
    {
      "epoch": 1.0166659526155692,
      "grad_norm": 2.4255247116088867,
      "learning_rate": 9.014088713441199e-05,
      "loss": 0.27210915088653564,
      "memory(GiB)": 61.91,
      "step": 23730,
      "token_acc": 0.9446366782006921,
      "train_speed(iter/s)": 1.465415
    },
    {
      "epoch": 1.016880167944818,
      "grad_norm": 13.28315258026123,
      "learning_rate": 9.013687431515994e-05,
      "loss": 0.25912630558013916,
      "memory(GiB)": 61.91,
      "step": 23735,
      "token_acc": 0.95,
      "train_speed(iter/s)": 1.46544
    },
    {
      "epoch": 1.017094383274067,
      "grad_norm": 0.2015436738729477,
      "learning_rate": 9.013286076879075e-05,
      "loss": 0.27670879364013673,
      "memory(GiB)": 61.91,
      "step": 23740,
      "token_acc": 0.9361702127659575,
      "train_speed(iter/s)": 1.46546
    },
    {
      "epoch": 1.0173085986033161,
      "grad_norm": 3.1965699195861816,
      "learning_rate": 9.012884649537715e-05,
      "loss": 0.4143507957458496,
      "memory(GiB)": 61.91,
      "step": 23745,
      "token_acc": 0.9182389937106918,
      "train_speed(iter/s)": 1.465452
    },
    {
      "epoch": 1.017522813932565,
      "grad_norm": 3.8803138732910156,
      "learning_rate": 9.012483149499184e-05,
      "loss": 0.3869894027709961,
      "memory(GiB)": 61.91,
      "step": 23750,
      "token_acc": 0.9255014326647565,
      "train_speed(iter/s)": 1.465449
    },
    {
      "epoch": 1.017737029261814,
      "grad_norm": 8.221329689025879,
      "learning_rate": 9.012081576770757e-05,
      "loss": 0.3318179130554199,
      "memory(GiB)": 61.91,
      "step": 23755,
      "token_acc": 0.9190140845070423,
      "train_speed(iter/s)": 1.465445
    },
    {
      "epoch": 1.017951244591063,
      "grad_norm": 3.0845487117767334,
      "learning_rate": 9.011679931359708e-05,
      "loss": 0.3559630632400513,
      "memory(GiB)": 61.91,
      "step": 23760,
      "token_acc": 0.9080459770114943,
      "train_speed(iter/s)": 1.465443
    },
    {
      "epoch": 1.0181654599203118,
      "grad_norm": 1.5996146202087402,
      "learning_rate": 9.011278213273315e-05,
      "loss": 0.418825101852417,
      "memory(GiB)": 61.91,
      "step": 23765,
      "token_acc": 0.9308943089430894,
      "train_speed(iter/s)": 1.465455
    },
    {
      "epoch": 1.0183796752495609,
      "grad_norm": 5.632864952087402,
      "learning_rate": 9.010876422518854e-05,
      "loss": 0.4143717288970947,
      "memory(GiB)": 61.91,
      "step": 23770,
      "token_acc": 0.9159663865546218,
      "train_speed(iter/s)": 1.465456
    },
    {
      "epoch": 1.01859389057881,
      "grad_norm": 3.0984368324279785,
      "learning_rate": 9.010474559103604e-05,
      "loss": 0.5069024085998535,
      "memory(GiB)": 61.91,
      "step": 23775,
      "token_acc": 0.9093567251461988,
      "train_speed(iter/s)": 1.465489
    },
    {
      "epoch": 1.0188081059080587,
      "grad_norm": 2.284766435623169,
      "learning_rate": 9.010072623034845e-05,
      "loss": 0.3870377540588379,
      "memory(GiB)": 61.91,
      "step": 23780,
      "token_acc": 0.9244604316546763,
      "train_speed(iter/s)": 1.465488
    },
    {
      "epoch": 1.0190223212373077,
      "grad_norm": 3.195847511291504,
      "learning_rate": 9.00967061431986e-05,
      "loss": 0.5520201683044433,
      "memory(GiB)": 61.91,
      "step": 23785,
      "token_acc": 0.8888888888888888,
      "train_speed(iter/s)": 1.465539
    },
    {
      "epoch": 1.0192365365665568,
      "grad_norm": 3.7913758754730225,
      "learning_rate": 9.009268532965929e-05,
      "loss": 0.47884197235107423,
      "memory(GiB)": 61.91,
      "step": 23790,
      "token_acc": 0.8985507246376812,
      "train_speed(iter/s)": 1.465535
    },
    {
      "epoch": 1.0194507518958056,
      "grad_norm": 1.4986008405685425,
      "learning_rate": 9.008866378980338e-05,
      "loss": 0.4291853427886963,
      "memory(GiB)": 61.91,
      "step": 23795,
      "token_acc": 0.9106529209621993,
      "train_speed(iter/s)": 1.465551
    },
    {
      "epoch": 1.0196649672250546,
      "grad_norm": 5.391343116760254,
      "learning_rate": 9.008464152370371e-05,
      "loss": 0.6348857879638672,
      "memory(GiB)": 61.91,
      "step": 23800,
      "token_acc": 0.875968992248062,
      "train_speed(iter/s)": 1.465552
    },
    {
      "epoch": 1.0198791825543037,
      "grad_norm": 2.7656822204589844,
      "learning_rate": 9.008061853143318e-05,
      "loss": 0.7851232528686524,
      "memory(GiB)": 61.91,
      "step": 23805,
      "token_acc": 0.8095238095238095,
      "train_speed(iter/s)": 1.465556
    },
    {
      "epoch": 1.0200933978835525,
      "grad_norm": 4.616089344024658,
      "learning_rate": 9.00765948130646e-05,
      "loss": 0.4948453903198242,
      "memory(GiB)": 61.91,
      "step": 23810,
      "token_acc": 0.8726591760299626,
      "train_speed(iter/s)": 1.465558
    },
    {
      "epoch": 1.0203076132128015,
      "grad_norm": 2.38692307472229,
      "learning_rate": 9.007257036867095e-05,
      "loss": 0.35584383010864257,
      "memory(GiB)": 61.91,
      "step": 23815,
      "token_acc": 0.9223300970873787,
      "train_speed(iter/s)": 1.465565
    },
    {
      "epoch": 1.0205218285420505,
      "grad_norm": 3.6535544395446777,
      "learning_rate": 9.006854519832509e-05,
      "loss": 0.3924243927001953,
      "memory(GiB)": 61.91,
      "step": 23820,
      "token_acc": 0.9002849002849003,
      "train_speed(iter/s)": 1.46555
    },
    {
      "epoch": 1.0207360438712993,
      "grad_norm": 1.4373676776885986,
      "learning_rate": 9.006451930209995e-05,
      "loss": 0.30323379039764403,
      "memory(GiB)": 61.91,
      "step": 23825,
      "token_acc": 0.936046511627907,
      "train_speed(iter/s)": 1.465556
    },
    {
      "epoch": 1.0209502592005484,
      "grad_norm": 0.54873126745224,
      "learning_rate": 9.006049268006844e-05,
      "loss": 0.4213856220245361,
      "memory(GiB)": 61.91,
      "step": 23830,
      "token_acc": 0.9014084507042254,
      "train_speed(iter/s)": 1.465565
    },
    {
      "epoch": 1.0211644745297974,
      "grad_norm": 2.612874746322632,
      "learning_rate": 9.005646533230354e-05,
      "loss": 0.45401439666748045,
      "memory(GiB)": 61.91,
      "step": 23835,
      "token_acc": 0.9108910891089109,
      "train_speed(iter/s)": 1.465592
    },
    {
      "epoch": 1.0213786898590462,
      "grad_norm": 3.547144889831543,
      "learning_rate": 9.005243725887819e-05,
      "loss": 0.33333210945129393,
      "memory(GiB)": 61.91,
      "step": 23840,
      "token_acc": 0.9432314410480349,
      "train_speed(iter/s)": 1.465604
    },
    {
      "epoch": 1.0215929051882953,
      "grad_norm": 3.859700918197632,
      "learning_rate": 9.004840845986538e-05,
      "loss": 0.28083953857421873,
      "memory(GiB)": 61.91,
      "step": 23845,
      "token_acc": 0.941908713692946,
      "train_speed(iter/s)": 1.465611
    },
    {
      "epoch": 1.0218071205175443,
      "grad_norm": 1.8149458169937134,
      "learning_rate": 9.004437893533807e-05,
      "loss": 0.41157379150390627,
      "memory(GiB)": 61.91,
      "step": 23850,
      "token_acc": 0.9085173501577287,
      "train_speed(iter/s)": 1.465642
    },
    {
      "epoch": 1.022021335846793,
      "grad_norm": 7.2644124031066895,
      "learning_rate": 9.004034868536929e-05,
      "loss": 0.2830932140350342,
      "memory(GiB)": 61.91,
      "step": 23855,
      "token_acc": 0.9455782312925171,
      "train_speed(iter/s)": 1.465639
    },
    {
      "epoch": 1.0222355511760421,
      "grad_norm": 1.5202754735946655,
      "learning_rate": 9.0036317710032e-05,
      "loss": 0.30549819469451905,
      "memory(GiB)": 61.91,
      "step": 23860,
      "token_acc": 0.9462025316455697,
      "train_speed(iter/s)": 1.465642
    },
    {
      "epoch": 1.0224497665052912,
      "grad_norm": 3.795874834060669,
      "learning_rate": 9.003228600939926e-05,
      "loss": 0.3573035001754761,
      "memory(GiB)": 61.91,
      "step": 23865,
      "token_acc": 0.9084745762711864,
      "train_speed(iter/s)": 1.465646
    },
    {
      "epoch": 1.02266398183454,
      "grad_norm": 3.455781936645508,
      "learning_rate": 9.002825358354414e-05,
      "loss": 0.5387766361236572,
      "memory(GiB)": 61.91,
      "step": 23870,
      "token_acc": 0.8878205128205128,
      "train_speed(iter/s)": 1.465633
    },
    {
      "epoch": 1.022878197163789,
      "grad_norm": 2.7534501552581787,
      "learning_rate": 9.002422043253962e-05,
      "loss": 0.19465169906616211,
      "memory(GiB)": 61.91,
      "step": 23875,
      "token_acc": 0.9567901234567902,
      "train_speed(iter/s)": 1.465634
    },
    {
      "epoch": 1.023092412493038,
      "grad_norm": 4.161811828613281,
      "learning_rate": 9.002018655645882e-05,
      "loss": 0.38434433937072754,
      "memory(GiB)": 61.91,
      "step": 23880,
      "token_acc": 0.9027777777777778,
      "train_speed(iter/s)": 1.465669
    },
    {
      "epoch": 1.0233066278222869,
      "grad_norm": 3.3509883880615234,
      "learning_rate": 9.00161519553748e-05,
      "loss": 0.2794214725494385,
      "memory(GiB)": 61.91,
      "step": 23885,
      "token_acc": 0.9540636042402827,
      "train_speed(iter/s)": 1.465643
    },
    {
      "epoch": 1.023520843151536,
      "grad_norm": 6.030032157897949,
      "learning_rate": 9.001211662936065e-05,
      "loss": 0.4510654926300049,
      "memory(GiB)": 61.91,
      "step": 23890,
      "token_acc": 0.875,
      "train_speed(iter/s)": 1.46568
    },
    {
      "epoch": 1.023735058480785,
      "grad_norm": 3.849942922592163,
      "learning_rate": 9.000808057848946e-05,
      "loss": 0.2655608654022217,
      "memory(GiB)": 61.91,
      "step": 23895,
      "token_acc": 0.9178082191780822,
      "train_speed(iter/s)": 1.465677
    },
    {
      "epoch": 1.0239492738100338,
      "grad_norm": 4.946908950805664,
      "learning_rate": 9.000404380283435e-05,
      "loss": 0.6014955997467041,
      "memory(GiB)": 61.91,
      "step": 23900,
      "token_acc": 0.888030888030888,
      "train_speed(iter/s)": 1.465691
    },
    {
      "epoch": 1.0241634891392828,
      "grad_norm": 5.117305755615234,
      "learning_rate": 9.000000630246848e-05,
      "loss": 0.4203506946563721,
      "memory(GiB)": 61.91,
      "step": 23905,
      "token_acc": 0.8727272727272727,
      "train_speed(iter/s)": 1.465683
    },
    {
      "epoch": 1.0243777044685318,
      "grad_norm": 4.915281295776367,
      "learning_rate": 8.999596807746497e-05,
      "loss": 0.604158592224121,
      "memory(GiB)": 61.91,
      "step": 23910,
      "token_acc": 0.8778877887788779,
      "train_speed(iter/s)": 1.465678
    },
    {
      "epoch": 1.0245919197977806,
      "grad_norm": 3.1406631469726562,
      "learning_rate": 8.999192912789697e-05,
      "loss": 0.3629206895828247,
      "memory(GiB)": 61.91,
      "step": 23915,
      "token_acc": 0.9260450160771704,
      "train_speed(iter/s)": 1.465675
    },
    {
      "epoch": 1.0248061351270297,
      "grad_norm": 1.7814267873764038,
      "learning_rate": 8.998788945383768e-05,
      "loss": 0.21764559745788575,
      "memory(GiB)": 61.91,
      "step": 23920,
      "token_acc": 0.9419795221843004,
      "train_speed(iter/s)": 1.465703
    },
    {
      "epoch": 1.0250203504562787,
      "grad_norm": 0.5259619355201721,
      "learning_rate": 8.998384905536025e-05,
      "loss": 0.13449478149414062,
      "memory(GiB)": 61.91,
      "step": 23925,
      "token_acc": 0.9776951672862454,
      "train_speed(iter/s)": 1.465703
    },
    {
      "epoch": 1.0252345657855275,
      "grad_norm": 3.3351895809173584,
      "learning_rate": 8.997980793253789e-05,
      "loss": 0.40390958786010744,
      "memory(GiB)": 61.91,
      "step": 23930,
      "token_acc": 0.907051282051282,
      "train_speed(iter/s)": 1.465694
    },
    {
      "epoch": 1.0254487811147766,
      "grad_norm": 2.7225615978240967,
      "learning_rate": 8.99757660854438e-05,
      "loss": 0.3746323585510254,
      "memory(GiB)": 61.91,
      "step": 23935,
      "token_acc": 0.9351145038167938,
      "train_speed(iter/s)": 1.465677
    },
    {
      "epoch": 1.0256629964440256,
      "grad_norm": 1.1734360456466675,
      "learning_rate": 8.99717235141512e-05,
      "loss": 0.285518217086792,
      "memory(GiB)": 61.91,
      "step": 23940,
      "token_acc": 0.933579335793358,
      "train_speed(iter/s)": 1.465684
    },
    {
      "epoch": 1.0258772117732744,
      "grad_norm": 2.768935203552246,
      "learning_rate": 8.996768021873334e-05,
      "loss": 0.4000732898712158,
      "memory(GiB)": 61.91,
      "step": 23945,
      "token_acc": 0.9074626865671642,
      "train_speed(iter/s)": 1.465668
    },
    {
      "epoch": 1.0260914271025234,
      "grad_norm": 1.2003343105316162,
      "learning_rate": 8.996363619926346e-05,
      "loss": 0.24114615917205812,
      "memory(GiB)": 61.91,
      "step": 23950,
      "token_acc": 0.9377289377289377,
      "train_speed(iter/s)": 1.465696
    },
    {
      "epoch": 1.0263056424317725,
      "grad_norm": 4.34152364730835,
      "learning_rate": 8.995959145581482e-05,
      "loss": 0.5346135139465332,
      "memory(GiB)": 61.91,
      "step": 23955,
      "token_acc": 0.8544061302681992,
      "train_speed(iter/s)": 1.465711
    },
    {
      "epoch": 1.0265198577610213,
      "grad_norm": 7.844885349273682,
      "learning_rate": 8.995554598846069e-05,
      "loss": 0.3114687204360962,
      "memory(GiB)": 61.91,
      "step": 23960,
      "token_acc": 0.9376947040498442,
      "train_speed(iter/s)": 1.465687
    },
    {
      "epoch": 1.0267340730902703,
      "grad_norm": 4.174375057220459,
      "learning_rate": 8.995149979727437e-05,
      "loss": 0.2836555004119873,
      "memory(GiB)": 61.91,
      "step": 23965,
      "token_acc": 0.9329073482428115,
      "train_speed(iter/s)": 1.465702
    },
    {
      "epoch": 1.0269482884195194,
      "grad_norm": 1.7498981952667236,
      "learning_rate": 8.994745288232916e-05,
      "loss": 0.1777945041656494,
      "memory(GiB)": 61.91,
      "step": 23970,
      "token_acc": 0.9479166666666666,
      "train_speed(iter/s)": 1.465708
    },
    {
      "epoch": 1.0271625037487682,
      "grad_norm": 3.24495530128479,
      "learning_rate": 8.994340524369836e-05,
      "loss": 0.3749157190322876,
      "memory(GiB)": 61.91,
      "step": 23975,
      "token_acc": 0.9310344827586207,
      "train_speed(iter/s)": 1.465724
    },
    {
      "epoch": 1.0273767190780172,
      "grad_norm": 2.2031073570251465,
      "learning_rate": 8.993935688145529e-05,
      "loss": 0.2984520673751831,
      "memory(GiB)": 61.91,
      "step": 23980,
      "token_acc": 0.926829268292683,
      "train_speed(iter/s)": 1.46573
    },
    {
      "epoch": 1.0275909344072662,
      "grad_norm": 1.7824747562408447,
      "learning_rate": 8.993530779567332e-05,
      "loss": 0.5164326190948486,
      "memory(GiB)": 61.91,
      "step": 23985,
      "token_acc": 0.899641577060932,
      "train_speed(iter/s)": 1.46573
    },
    {
      "epoch": 1.027805149736515,
      "grad_norm": 2.182659149169922,
      "learning_rate": 8.993125798642579e-05,
      "loss": 0.18115880489349365,
      "memory(GiB)": 61.91,
      "step": 23990,
      "token_acc": 0.9556313993174061,
      "train_speed(iter/s)": 1.465721
    },
    {
      "epoch": 1.028019365065764,
      "grad_norm": 4.258477687835693,
      "learning_rate": 8.992720745378605e-05,
      "loss": 0.19324620962142944,
      "memory(GiB)": 61.91,
      "step": 23995,
      "token_acc": 0.9528985507246377,
      "train_speed(iter/s)": 1.465704
    },
    {
      "epoch": 1.0282335803950131,
      "grad_norm": 3.3171730041503906,
      "learning_rate": 8.99231561978275e-05,
      "loss": 0.3769431829452515,
      "memory(GiB)": 61.91,
      "step": 24000,
      "token_acc": 0.9325842696629213,
      "train_speed(iter/s)": 1.465703
    },
    {
      "epoch": 1.0282335803950131,
      "eval_loss": 2.421964406967163,
      "eval_runtime": 14.0585,
      "eval_samples_per_second": 7.113,
      "eval_steps_per_second": 7.113,
      "eval_token_acc": 0.4547707558859975,
      "step": 24000
    },
    {
      "epoch": 1.028447795724262,
      "grad_norm": 0.6051115989685059,
      "learning_rate": 8.991910421862352e-05,
      "loss": 0.5557611465454102,
      "memory(GiB)": 61.91,
      "step": 24005,
      "token_acc": 0.5623268698060941,
      "train_speed(iter/s)": 1.464404
    },
    {
      "epoch": 1.028662011053511,
      "grad_norm": 3.6435952186584473,
      "learning_rate": 8.991505151624752e-05,
      "loss": 0.40444722175598147,
      "memory(GiB)": 61.91,
      "step": 24010,
      "token_acc": 0.918918918918919,
      "train_speed(iter/s)": 1.464394
    },
    {
      "epoch": 1.02887622638276,
      "grad_norm": 2.667833089828491,
      "learning_rate": 8.991099809077292e-05,
      "loss": 0.37153091430664065,
      "memory(GiB)": 61.91,
      "step": 24015,
      "token_acc": 0.9252669039145908,
      "train_speed(iter/s)": 1.464381
    },
    {
      "epoch": 1.0290904417120088,
      "grad_norm": 6.376405239105225,
      "learning_rate": 8.990694394227317e-05,
      "loss": 0.6703934669494629,
      "memory(GiB)": 61.91,
      "step": 24020,
      "token_acc": 0.8825396825396825,
      "train_speed(iter/s)": 1.464383
    },
    {
      "epoch": 1.0293046570412578,
      "grad_norm": 2.192556142807007,
      "learning_rate": 8.990288907082168e-05,
      "loss": 0.30700173377990725,
      "memory(GiB)": 61.91,
      "step": 24025,
      "token_acc": 0.9370860927152318,
      "train_speed(iter/s)": 1.464365
    },
    {
      "epoch": 1.0295188723705069,
      "grad_norm": 1.5167392492294312,
      "learning_rate": 8.989883347649191e-05,
      "loss": 0.6016419410705567,
      "memory(GiB)": 61.91,
      "step": 24030,
      "token_acc": 0.8674698795180723,
      "train_speed(iter/s)": 1.464352
    },
    {
      "epoch": 1.0297330876997557,
      "grad_norm": 3.5724446773529053,
      "learning_rate": 8.989477715935735e-05,
      "loss": 0.3023569107055664,
      "memory(GiB)": 61.91,
      "step": 24035,
      "token_acc": 0.9424460431654677,
      "train_speed(iter/s)": 1.464348
    },
    {
      "epoch": 1.0299473030290047,
      "grad_norm": 5.434454441070557,
      "learning_rate": 8.989072011949148e-05,
      "loss": 0.4067696571350098,
      "memory(GiB)": 61.91,
      "step": 24040,
      "token_acc": 0.911660777385159,
      "train_speed(iter/s)": 1.464351
    },
    {
      "epoch": 1.0301615183582538,
      "grad_norm": 3.908027172088623,
      "learning_rate": 8.988666235696779e-05,
      "loss": 0.3161868333816528,
      "memory(GiB)": 61.91,
      "step": 24045,
      "token_acc": 0.9458333333333333,
      "train_speed(iter/s)": 1.464361
    },
    {
      "epoch": 1.0303757336875026,
      "grad_norm": 5.010776519775391,
      "learning_rate": 8.98826038718598e-05,
      "loss": 0.421356725692749,
      "memory(GiB)": 61.91,
      "step": 24050,
      "token_acc": 0.9254658385093167,
      "train_speed(iter/s)": 1.464398
    },
    {
      "epoch": 1.0305899490167516,
      "grad_norm": 4.870143890380859,
      "learning_rate": 8.987854466424103e-05,
      "loss": 0.4914794921875,
      "memory(GiB)": 61.91,
      "step": 24055,
      "token_acc": 0.9220338983050848,
      "train_speed(iter/s)": 1.464394
    },
    {
      "epoch": 1.0308041643460006,
      "grad_norm": 1.539344072341919,
      "learning_rate": 8.987448473418502e-05,
      "loss": 0.309219217300415,
      "memory(GiB)": 61.91,
      "step": 24060,
      "token_acc": 0.9297124600638977,
      "train_speed(iter/s)": 1.464394
    },
    {
      "epoch": 1.0310183796752495,
      "grad_norm": 6.891141414642334,
      "learning_rate": 8.98704240817653e-05,
      "loss": 0.48237247467041017,
      "memory(GiB)": 61.91,
      "step": 24065,
      "token_acc": 0.8782287822878229,
      "train_speed(iter/s)": 1.464382
    },
    {
      "epoch": 1.0312325950044985,
      "grad_norm": 9.305587768554688,
      "learning_rate": 8.986636270705545e-05,
      "loss": 0.5514328002929687,
      "memory(GiB)": 61.91,
      "step": 24070,
      "token_acc": 0.8618421052631579,
      "train_speed(iter/s)": 1.464388
    },
    {
      "epoch": 1.0314468103337475,
      "grad_norm": 4.008392810821533,
      "learning_rate": 8.986230061012905e-05,
      "loss": 0.4085784912109375,
      "memory(GiB)": 61.91,
      "step": 24075,
      "token_acc": 0.9037800687285223,
      "train_speed(iter/s)": 1.464386
    },
    {
      "epoch": 1.0316610256629963,
      "grad_norm": 3.2478981018066406,
      "learning_rate": 8.985823779105968e-05,
      "loss": 0.6436156749725341,
      "memory(GiB)": 61.91,
      "step": 24080,
      "token_acc": 0.8733333333333333,
      "train_speed(iter/s)": 1.464398
    },
    {
      "epoch": 1.0318752409922454,
      "grad_norm": 1.4090534448623657,
      "learning_rate": 8.985417424992093e-05,
      "loss": 0.33253023624420164,
      "memory(GiB)": 61.91,
      "step": 24085,
      "token_acc": 0.9481481481481482,
      "train_speed(iter/s)": 1.464414
    },
    {
      "epoch": 1.0320894563214944,
      "grad_norm": 3.732822895050049,
      "learning_rate": 8.985010998678642e-05,
      "loss": 0.35651991367340086,
      "memory(GiB)": 61.91,
      "step": 24090,
      "token_acc": 0.9218009478672986,
      "train_speed(iter/s)": 1.464413
    },
    {
      "epoch": 1.0323036716507432,
      "grad_norm": 5.69921875,
      "learning_rate": 8.984604500172982e-05,
      "loss": 0.5643367767333984,
      "memory(GiB)": 61.91,
      "step": 24095,
      "token_acc": 0.8746081504702194,
      "train_speed(iter/s)": 1.464427
    },
    {
      "epoch": 1.0325178869799922,
      "grad_norm": 1.5702533721923828,
      "learning_rate": 8.984197929482471e-05,
      "loss": 0.23799962997436525,
      "memory(GiB)": 61.91,
      "step": 24100,
      "token_acc": 0.9641255605381166,
      "train_speed(iter/s)": 1.464436
    },
    {
      "epoch": 1.0327321023092413,
      "grad_norm": 0.3736724257469177,
      "learning_rate": 8.983791286614476e-05,
      "loss": 0.3604216337203979,
      "memory(GiB)": 61.91,
      "step": 24105,
      "token_acc": 0.9188405797101449,
      "train_speed(iter/s)": 1.464437
    },
    {
      "epoch": 1.03294631763849,
      "grad_norm": 7.146617889404297,
      "learning_rate": 8.983384571576367e-05,
      "loss": 0.5076184272766113,
      "memory(GiB)": 61.91,
      "step": 24110,
      "token_acc": 0.8858267716535433,
      "train_speed(iter/s)": 1.464474
    },
    {
      "epoch": 1.0331605329677391,
      "grad_norm": 2.8069584369659424,
      "learning_rate": 8.98297778437551e-05,
      "loss": 0.5033679485321045,
      "memory(GiB)": 61.91,
      "step": 24115,
      "token_acc": 0.8884615384615384,
      "train_speed(iter/s)": 1.464504
    },
    {
      "epoch": 1.0333747482969882,
      "grad_norm": 2.150357961654663,
      "learning_rate": 8.982570925019273e-05,
      "loss": 0.48045029640197756,
      "memory(GiB)": 61.91,
      "step": 24120,
      "token_acc": 0.911864406779661,
      "train_speed(iter/s)": 1.464499
    },
    {
      "epoch": 1.0335889636262372,
      "grad_norm": 4.750834941864014,
      "learning_rate": 8.982163993515027e-05,
      "loss": 0.41797494888305664,
      "memory(GiB)": 61.91,
      "step": 24125,
      "token_acc": 0.9064748201438849,
      "train_speed(iter/s)": 1.464499
    },
    {
      "epoch": 1.033803178955486,
      "grad_norm": 5.105282783508301,
      "learning_rate": 8.981756989870147e-05,
      "loss": 0.4597672462463379,
      "memory(GiB)": 61.91,
      "step": 24130,
      "token_acc": 0.886986301369863,
      "train_speed(iter/s)": 1.464485
    },
    {
      "epoch": 1.034017394284735,
      "grad_norm": 4.628366470336914,
      "learning_rate": 8.981349914092002e-05,
      "loss": 0.32115945816040037,
      "memory(GiB)": 61.91,
      "step": 24135,
      "token_acc": 0.9361702127659575,
      "train_speed(iter/s)": 1.464512
    },
    {
      "epoch": 1.034231609613984,
      "grad_norm": 3.567861318588257,
      "learning_rate": 8.98094276618797e-05,
      "loss": 0.35840439796447754,
      "memory(GiB)": 61.91,
      "step": 24140,
      "token_acc": 0.9096573208722741,
      "train_speed(iter/s)": 1.464514
    },
    {
      "epoch": 1.034445824943233,
      "grad_norm": 2.5147645473480225,
      "learning_rate": 8.980535546165422e-05,
      "loss": 0.2598418235778809,
      "memory(GiB)": 61.91,
      "step": 24145,
      "token_acc": 0.9508771929824561,
      "train_speed(iter/s)": 1.464527
    },
    {
      "epoch": 1.034660040272482,
      "grad_norm": 5.6054277420043945,
      "learning_rate": 8.980128254031743e-05,
      "loss": 0.7183452129364014,
      "memory(GiB)": 61.91,
      "step": 24150,
      "token_acc": 0.8598484848484849,
      "train_speed(iter/s)": 1.464556
    },
    {
      "epoch": 1.034874255601731,
      "grad_norm": 1.148579478263855,
      "learning_rate": 8.979720889794305e-05,
      "loss": 0.2743793249130249,
      "memory(GiB)": 61.91,
      "step": 24155,
      "token_acc": 0.9543859649122807,
      "train_speed(iter/s)": 1.464556
    },
    {
      "epoch": 1.0350884709309798,
      "grad_norm": 2.0797195434570312,
      "learning_rate": 8.979313453460489e-05,
      "loss": 0.6344887733459472,
      "memory(GiB)": 61.91,
      "step": 24160,
      "token_acc": 0.8532934131736527,
      "train_speed(iter/s)": 1.464565
    },
    {
      "epoch": 1.0353026862602288,
      "grad_norm": 3.153362274169922,
      "learning_rate": 8.978905945037678e-05,
      "loss": 0.3576789379119873,
      "memory(GiB)": 61.91,
      "step": 24165,
      "token_acc": 0.9236363636363636,
      "train_speed(iter/s)": 1.464611
    },
    {
      "epoch": 1.0355169015894778,
      "grad_norm": 6.813891410827637,
      "learning_rate": 8.978498364533252e-05,
      "loss": 0.490116548538208,
      "memory(GiB)": 61.91,
      "step": 24170,
      "token_acc": 0.8877887788778878,
      "train_speed(iter/s)": 1.464588
    },
    {
      "epoch": 1.0357311169187267,
      "grad_norm": 0.4202563762664795,
      "learning_rate": 8.978090711954598e-05,
      "loss": 0.5096145629882812,
      "memory(GiB)": 61.91,
      "step": 24175,
      "token_acc": 0.9046052631578947,
      "train_speed(iter/s)": 1.46458
    },
    {
      "epoch": 1.0359453322479757,
      "grad_norm": 2.6798930168151855,
      "learning_rate": 8.977682987309097e-05,
      "loss": 0.5132251739501953,
      "memory(GiB)": 61.91,
      "step": 24180,
      "token_acc": 0.8982456140350877,
      "train_speed(iter/s)": 1.464591
    },
    {
      "epoch": 1.0361595475772247,
      "grad_norm": 2.239856481552124,
      "learning_rate": 8.977275190604138e-05,
      "loss": 0.431731128692627,
      "memory(GiB)": 61.91,
      "step": 24185,
      "token_acc": 0.9197530864197531,
      "train_speed(iter/s)": 1.464587
    },
    {
      "epoch": 1.0363737629064735,
      "grad_norm": 5.426468849182129,
      "learning_rate": 8.97686732184711e-05,
      "loss": 0.2138045310974121,
      "memory(GiB)": 61.91,
      "step": 24190,
      "token_acc": 0.9417808219178082,
      "train_speed(iter/s)": 1.464575
    },
    {
      "epoch": 1.0365879782357226,
      "grad_norm": 3.2703423500061035,
      "learning_rate": 8.976459381045396e-05,
      "loss": 0.49705729484558103,
      "memory(GiB)": 61.91,
      "step": 24195,
      "token_acc": 0.8950819672131147,
      "train_speed(iter/s)": 1.464557
    },
    {
      "epoch": 1.0368021935649716,
      "grad_norm": 3.2299559116363525,
      "learning_rate": 8.976051368206393e-05,
      "loss": 0.5994937419891357,
      "memory(GiB)": 61.91,
      "step": 24200,
      "token_acc": 0.8571428571428571,
      "train_speed(iter/s)": 1.464564
    },
    {
      "epoch": 1.0370164088942204,
      "grad_norm": 3.224350690841675,
      "learning_rate": 8.97564328333749e-05,
      "loss": 0.3096506118774414,
      "memory(GiB)": 61.91,
      "step": 24205,
      "token_acc": 0.9255663430420712,
      "train_speed(iter/s)": 1.464575
    },
    {
      "epoch": 1.0372306242234695,
      "grad_norm": 3.6686999797821045,
      "learning_rate": 8.975235126446077e-05,
      "loss": 0.35379881858825685,
      "memory(GiB)": 61.91,
      "step": 24210,
      "token_acc": 0.9158878504672897,
      "train_speed(iter/s)": 1.464593
    },
    {
      "epoch": 1.0374448395527185,
      "grad_norm": 2.865050792694092,
      "learning_rate": 8.974826897539553e-05,
      "loss": 0.34299044609069823,
      "memory(GiB)": 61.91,
      "step": 24215,
      "token_acc": 0.9285714285714286,
      "train_speed(iter/s)": 1.464584
    },
    {
      "epoch": 1.0376590548819673,
      "grad_norm": 4.1757941246032715,
      "learning_rate": 8.97441859662531e-05,
      "loss": 0.21633481979370117,
      "memory(GiB)": 61.91,
      "step": 24220,
      "token_acc": 0.9378698224852071,
      "train_speed(iter/s)": 1.464594
    },
    {
      "epoch": 1.0378732702112163,
      "grad_norm": 1.6024999618530273,
      "learning_rate": 8.974010223710744e-05,
      "loss": 0.32485003471374513,
      "memory(GiB)": 61.91,
      "step": 24225,
      "token_acc": 0.9290780141843972,
      "train_speed(iter/s)": 1.464573
    },
    {
      "epoch": 1.0380874855404654,
      "grad_norm": 5.2512898445129395,
      "learning_rate": 8.973601778803257e-05,
      "loss": 0.31087527275085447,
      "memory(GiB)": 61.91,
      "step": 24230,
      "token_acc": 0.9183006535947712,
      "train_speed(iter/s)": 1.464572
    },
    {
      "epoch": 1.0383017008697142,
      "grad_norm": 4.432954788208008,
      "learning_rate": 8.973193261910247e-05,
      "loss": 0.4209420680999756,
      "memory(GiB)": 61.91,
      "step": 24235,
      "token_acc": 0.9108527131782945,
      "train_speed(iter/s)": 1.464558
    },
    {
      "epoch": 1.0385159161989632,
      "grad_norm": 1.7838047742843628,
      "learning_rate": 8.972784673039111e-05,
      "loss": 0.38697524070739747,
      "memory(GiB)": 61.91,
      "step": 24240,
      "token_acc": 0.9130434782608695,
      "train_speed(iter/s)": 1.464567
    },
    {
      "epoch": 1.0387301315282123,
      "grad_norm": 3.2540478706359863,
      "learning_rate": 8.972376012197256e-05,
      "loss": 0.3679241418838501,
      "memory(GiB)": 61.91,
      "step": 24245,
      "token_acc": 0.9154411764705882,
      "train_speed(iter/s)": 1.464579
    },
    {
      "epoch": 1.038944346857461,
      "grad_norm": 0.34556567668914795,
      "learning_rate": 8.971967279392083e-05,
      "loss": 0.24760043621063232,
      "memory(GiB)": 61.91,
      "step": 24250,
      "token_acc": 0.9540983606557377,
      "train_speed(iter/s)": 1.464577
    },
    {
      "epoch": 1.03915856218671,
      "grad_norm": 2.6779847145080566,
      "learning_rate": 8.971558474630997e-05,
      "loss": 0.25387375354766845,
      "memory(GiB)": 61.91,
      "step": 24255,
      "token_acc": 0.9448051948051948,
      "train_speed(iter/s)": 1.464579
    },
    {
      "epoch": 1.0393727775159591,
      "grad_norm": 10.152575492858887,
      "learning_rate": 8.971149597921402e-05,
      "loss": 0.35585870742797854,
      "memory(GiB)": 61.91,
      "step": 24260,
      "token_acc": 0.933993399339934,
      "train_speed(iter/s)": 1.464603
    },
    {
      "epoch": 1.039586992845208,
      "grad_norm": 5.448152542114258,
      "learning_rate": 8.970740649270708e-05,
      "loss": 0.4424184799194336,
      "memory(GiB)": 61.91,
      "step": 24265,
      "token_acc": 0.9235127478753541,
      "train_speed(iter/s)": 1.464601
    },
    {
      "epoch": 1.039801208174457,
      "grad_norm": 4.517699718475342,
      "learning_rate": 8.970331628686323e-05,
      "loss": 0.37652125358581545,
      "memory(GiB)": 61.91,
      "step": 24270,
      "token_acc": 0.92578125,
      "train_speed(iter/s)": 1.464607
    },
    {
      "epoch": 1.040015423503706,
      "grad_norm": 4.656617641448975,
      "learning_rate": 8.969922536175654e-05,
      "loss": 0.20780539512634277,
      "memory(GiB)": 61.91,
      "step": 24275,
      "token_acc": 0.9649122807017544,
      "train_speed(iter/s)": 1.464608
    },
    {
      "epoch": 1.0402296388329548,
      "grad_norm": 5.385461330413818,
      "learning_rate": 8.969513371746116e-05,
      "loss": 0.7299694538116455,
      "memory(GiB)": 61.91,
      "step": 24280,
      "token_acc": 0.8438661710037175,
      "train_speed(iter/s)": 1.464611
    },
    {
      "epoch": 1.0404438541622039,
      "grad_norm": 2.6314682960510254,
      "learning_rate": 8.96910413540512e-05,
      "loss": 0.45586442947387695,
      "memory(GiB)": 61.91,
      "step": 24285,
      "token_acc": 0.9022801302931596,
      "train_speed(iter/s)": 1.464617
    },
    {
      "epoch": 1.040658069491453,
      "grad_norm": 5.021481037139893,
      "learning_rate": 8.968694827160078e-05,
      "loss": 0.44088234901428225,
      "memory(GiB)": 61.91,
      "step": 24290,
      "token_acc": 0.9197530864197531,
      "train_speed(iter/s)": 1.464599
    },
    {
      "epoch": 1.0408722848207017,
      "grad_norm": 0.8950258493423462,
      "learning_rate": 8.968285447018406e-05,
      "loss": 0.23418760299682617,
      "memory(GiB)": 61.91,
      "step": 24295,
      "token_acc": 0.9590443686006825,
      "train_speed(iter/s)": 1.464588
    },
    {
      "epoch": 1.0410865001499507,
      "grad_norm": 3.1786627769470215,
      "learning_rate": 8.967875994987521e-05,
      "loss": 0.2624032735824585,
      "memory(GiB)": 61.91,
      "step": 24300,
      "token_acc": 0.9282868525896414,
      "train_speed(iter/s)": 1.464597
    },
    {
      "epoch": 1.0413007154791998,
      "grad_norm": 2.7386865615844727,
      "learning_rate": 8.967466471074841e-05,
      "loss": 0.6103688240051269,
      "memory(GiB)": 61.91,
      "step": 24305,
      "token_acc": 0.8680351906158358,
      "train_speed(iter/s)": 1.464632
    },
    {
      "epoch": 1.0415149308084486,
      "grad_norm": 2.946176290512085,
      "learning_rate": 8.967056875287783e-05,
      "loss": 0.2909055709838867,
      "memory(GiB)": 61.91,
      "step": 24310,
      "token_acc": 0.9312169312169312,
      "train_speed(iter/s)": 1.464654
    },
    {
      "epoch": 1.0417291461376976,
      "grad_norm": 3.299198627471924,
      "learning_rate": 8.966647207633769e-05,
      "loss": 0.30119829177856444,
      "memory(GiB)": 61.91,
      "step": 24315,
      "token_acc": 0.9244186046511628,
      "train_speed(iter/s)": 1.464656
    },
    {
      "epoch": 1.0419433614669467,
      "grad_norm": 6.524297714233398,
      "learning_rate": 8.966237468120218e-05,
      "loss": 0.33791408538818357,
      "memory(GiB)": 61.91,
      "step": 24320,
      "token_acc": 0.9299363057324841,
      "train_speed(iter/s)": 1.464661
    },
    {
      "epoch": 1.0421575767961955,
      "grad_norm": 5.097473621368408,
      "learning_rate": 8.965827656754557e-05,
      "loss": 0.39647159576416013,
      "memory(GiB)": 61.91,
      "step": 24325,
      "token_acc": 0.9244604316546763,
      "train_speed(iter/s)": 1.464656
    },
    {
      "epoch": 1.0423717921254445,
      "grad_norm": 6.352043628692627,
      "learning_rate": 8.965417773544207e-05,
      "loss": 0.6294098377227784,
      "memory(GiB)": 61.91,
      "step": 24330,
      "token_acc": 0.8738738738738738,
      "train_speed(iter/s)": 1.464623
    },
    {
      "epoch": 1.0425860074546935,
      "grad_norm": 0.5737296342849731,
      "learning_rate": 8.965007818496593e-05,
      "loss": 0.20080997943878173,
      "memory(GiB)": 61.91,
      "step": 24335,
      "token_acc": 0.9562289562289562,
      "train_speed(iter/s)": 1.464614
    },
    {
      "epoch": 1.0428002227839424,
      "grad_norm": 1.7697242498397827,
      "learning_rate": 8.964597791619145e-05,
      "loss": 0.38774738311767576,
      "memory(GiB)": 61.91,
      "step": 24340,
      "token_acc": 0.9185185185185185,
      "train_speed(iter/s)": 1.464612
    },
    {
      "epoch": 1.0430144381131914,
      "grad_norm": 3.4896583557128906,
      "learning_rate": 8.964187692919288e-05,
      "loss": 0.374206018447876,
      "memory(GiB)": 61.91,
      "step": 24345,
      "token_acc": 0.9222222222222223,
      "train_speed(iter/s)": 1.46461
    },
    {
      "epoch": 1.0432286534424404,
      "grad_norm": 2.0575408935546875,
      "learning_rate": 8.963777522404451e-05,
      "loss": 0.17304366827011108,
      "memory(GiB)": 61.91,
      "step": 24350,
      "token_acc": 0.9642857142857143,
      "train_speed(iter/s)": 1.464627
    },
    {
      "epoch": 1.0434428687716892,
      "grad_norm": 2.240955114364624,
      "learning_rate": 8.963367280082067e-05,
      "loss": 0.4267293453216553,
      "memory(GiB)": 61.91,
      "step": 24355,
      "token_acc": 0.8959537572254336,
      "train_speed(iter/s)": 1.464621
    },
    {
      "epoch": 1.0436570841009383,
      "grad_norm": 4.518520832061768,
      "learning_rate": 8.962956965959568e-05,
      "loss": 0.43558921813964846,
      "memory(GiB)": 61.91,
      "step": 24360,
      "token_acc": 0.8878787878787879,
      "train_speed(iter/s)": 1.464657
    },
    {
      "epoch": 1.0438712994301873,
      "grad_norm": 2.9348843097686768,
      "learning_rate": 8.962546580044384e-05,
      "loss": 0.32297143936157224,
      "memory(GiB)": 61.91,
      "step": 24365,
      "token_acc": 0.9331476323119777,
      "train_speed(iter/s)": 1.464656
    },
    {
      "epoch": 1.0440855147594361,
      "grad_norm": 2.9803168773651123,
      "learning_rate": 8.962136122343952e-05,
      "loss": 0.4230632781982422,
      "memory(GiB)": 61.91,
      "step": 24370,
      "token_acc": 0.9038461538461539,
      "train_speed(iter/s)": 1.464657
    },
    {
      "epoch": 1.0442997300886852,
      "grad_norm": 4.076694011688232,
      "learning_rate": 8.961725592865708e-05,
      "loss": 0.2613226890563965,
      "memory(GiB)": 61.91,
      "step": 24375,
      "token_acc": 0.9355828220858896,
      "train_speed(iter/s)": 1.464642
    },
    {
      "epoch": 1.0445139454179342,
      "grad_norm": 4.294290065765381,
      "learning_rate": 8.961314991617089e-05,
      "loss": 0.23920989036560059,
      "memory(GiB)": 61.91,
      "step": 24380,
      "token_acc": 0.939873417721519,
      "train_speed(iter/s)": 1.464635
    },
    {
      "epoch": 1.044728160747183,
      "grad_norm": 5.321024417877197,
      "learning_rate": 8.960904318605532e-05,
      "loss": 0.2719660043716431,
      "memory(GiB)": 61.91,
      "step": 24385,
      "token_acc": 0.9727626459143969,
      "train_speed(iter/s)": 1.464634
    },
    {
      "epoch": 1.044942376076432,
      "grad_norm": 4.041585445404053,
      "learning_rate": 8.960493573838477e-05,
      "loss": 0.21441121101379396,
      "memory(GiB)": 61.91,
      "step": 24390,
      "token_acc": 0.9555555555555556,
      "train_speed(iter/s)": 1.464629
    },
    {
      "epoch": 1.045156591405681,
      "grad_norm": 1.3916192054748535,
      "learning_rate": 8.960082757323367e-05,
      "loss": 0.3945186614990234,
      "memory(GiB)": 61.91,
      "step": 24395,
      "token_acc": 0.9291338582677166,
      "train_speed(iter/s)": 1.46463
    },
    {
      "epoch": 1.0453708067349299,
      "grad_norm": 5.567774295806885,
      "learning_rate": 8.95967186906764e-05,
      "loss": 0.7327682495117187,
      "memory(GiB)": 61.91,
      "step": 24400,
      "token_acc": 0.8651315789473685,
      "train_speed(iter/s)": 1.464625
    },
    {
      "epoch": 1.045585022064179,
      "grad_norm": 3.443730592727661,
      "learning_rate": 8.959260909078746e-05,
      "loss": 0.45744829177856444,
      "memory(GiB)": 61.91,
      "step": 24405,
      "token_acc": 0.9076923076923077,
      "train_speed(iter/s)": 1.46464
    },
    {
      "epoch": 1.045799237393428,
      "grad_norm": 6.3759589195251465,
      "learning_rate": 8.958849877364125e-05,
      "loss": 0.26079578399658204,
      "memory(GiB)": 61.91,
      "step": 24410,
      "token_acc": 0.9395973154362416,
      "train_speed(iter/s)": 1.464627
    },
    {
      "epoch": 1.0460134527226768,
      "grad_norm": 5.873168468475342,
      "learning_rate": 8.958438773931226e-05,
      "loss": 0.3855307579040527,
      "memory(GiB)": 61.91,
      "step": 24415,
      "token_acc": 0.9154228855721394,
      "train_speed(iter/s)": 1.464609
    },
    {
      "epoch": 1.0462276680519258,
      "grad_norm": 4.777133941650391,
      "learning_rate": 8.958027598787495e-05,
      "loss": 0.41317110061645507,
      "memory(GiB)": 61.91,
      "step": 24420,
      "token_acc": 0.9254237288135593,
      "train_speed(iter/s)": 1.4646
    },
    {
      "epoch": 1.0464418833811748,
      "grad_norm": 3.342287540435791,
      "learning_rate": 8.957616351940381e-05,
      "loss": 0.3870342493057251,
      "memory(GiB)": 61.91,
      "step": 24425,
      "token_acc": 0.9377289377289377,
      "train_speed(iter/s)": 1.46459
    },
    {
      "epoch": 1.0466560987104236,
      "grad_norm": 4.336524963378906,
      "learning_rate": 8.957205033397333e-05,
      "loss": 0.22227773666381836,
      "memory(GiB)": 61.91,
      "step": 24430,
      "token_acc": 0.952191235059761,
      "train_speed(iter/s)": 1.464584
    },
    {
      "epoch": 1.0468703140396727,
      "grad_norm": 1.838070034980774,
      "learning_rate": 8.956793643165805e-05,
      "loss": 0.30626659393310546,
      "memory(GiB)": 61.91,
      "step": 24435,
      "token_acc": 0.9369627507163324,
      "train_speed(iter/s)": 1.464588
    },
    {
      "epoch": 1.0470845293689217,
      "grad_norm": 3.0602188110351562,
      "learning_rate": 8.956382181253248e-05,
      "loss": 0.5171976089477539,
      "memory(GiB)": 61.91,
      "step": 24440,
      "token_acc": 0.889967637540453,
      "train_speed(iter/s)": 1.464615
    },
    {
      "epoch": 1.0472987446981705,
      "grad_norm": 5.2733588218688965,
      "learning_rate": 8.955970647667115e-05,
      "loss": 0.4559472560882568,
      "memory(GiB)": 61.91,
      "step": 24445,
      "token_acc": 0.9107142857142857,
      "train_speed(iter/s)": 1.464636
    },
    {
      "epoch": 1.0475129600274196,
      "grad_norm": 1.6563656330108643,
      "learning_rate": 8.955559042414865e-05,
      "loss": 0.14235712289810182,
      "memory(GiB)": 61.91,
      "step": 24450,
      "token_acc": 0.9703947368421053,
      "train_speed(iter/s)": 1.464638
    },
    {
      "epoch": 1.0477271753566686,
      "grad_norm": 4.546403408050537,
      "learning_rate": 8.955147365503952e-05,
      "loss": 0.3481938362121582,
      "memory(GiB)": 61.91,
      "step": 24455,
      "token_acc": 0.9240924092409241,
      "train_speed(iter/s)": 1.464659
    },
    {
      "epoch": 1.0479413906859174,
      "grad_norm": 5.60993766784668,
      "learning_rate": 8.954735616941834e-05,
      "loss": 0.28456690311431887,
      "memory(GiB)": 61.91,
      "step": 24460,
      "token_acc": 0.9446808510638298,
      "train_speed(iter/s)": 1.464656
    },
    {
      "epoch": 1.0481556060151664,
      "grad_norm": 3.9068949222564697,
      "learning_rate": 8.954323796735969e-05,
      "loss": 0.23663861751556398,
      "memory(GiB)": 61.91,
      "step": 24465,
      "token_acc": 0.9471544715447154,
      "train_speed(iter/s)": 1.46468
    },
    {
      "epoch": 1.0483698213444155,
      "grad_norm": 2.339041233062744,
      "learning_rate": 8.953911904893821e-05,
      "loss": 0.4617782115936279,
      "memory(GiB)": 61.91,
      "step": 24470,
      "token_acc": 0.8938906752411575,
      "train_speed(iter/s)": 1.464704
    },
    {
      "epoch": 1.0485840366736643,
      "grad_norm": 2.016204833984375,
      "learning_rate": 8.953499941422849e-05,
      "loss": 0.5554094791412354,
      "memory(GiB)": 61.91,
      "step": 24475,
      "token_acc": 0.8705501618122977,
      "train_speed(iter/s)": 1.464706
    },
    {
      "epoch": 1.0487982520029133,
      "grad_norm": 3.9696414470672607,
      "learning_rate": 8.953087906330514e-05,
      "loss": 0.4019582271575928,
      "memory(GiB)": 61.91,
      "step": 24480,
      "token_acc": 0.9202898550724637,
      "train_speed(iter/s)": 1.464708
    },
    {
      "epoch": 1.0490124673321624,
      "grad_norm": 5.826642990112305,
      "learning_rate": 8.952675799624288e-05,
      "loss": 0.513193416595459,
      "memory(GiB)": 61.91,
      "step": 24485,
      "token_acc": 0.8874172185430463,
      "train_speed(iter/s)": 1.464686
    },
    {
      "epoch": 1.0492266826614112,
      "grad_norm": 2.8811776638031006,
      "learning_rate": 8.952263621311629e-05,
      "loss": 0.28107781410217286,
      "memory(GiB)": 61.91,
      "step": 24490,
      "token_acc": 0.9452054794520548,
      "train_speed(iter/s)": 1.464705
    },
    {
      "epoch": 1.0494408979906602,
      "grad_norm": 3.4632833003997803,
      "learning_rate": 8.951851371400008e-05,
      "loss": 0.27753098011016847,
      "memory(GiB)": 61.91,
      "step": 24495,
      "token_acc": 0.9375,
      "train_speed(iter/s)": 1.464717
    },
    {
      "epoch": 1.0496551133199092,
      "grad_norm": 2.1803221702575684,
      "learning_rate": 8.951439049896892e-05,
      "loss": 0.46370563507080076,
      "memory(GiB)": 61.91,
      "step": 24500,
      "token_acc": 0.9003215434083601,
      "train_speed(iter/s)": 1.464726
    },
    {
      "epoch": 1.0496551133199092,
      "eval_loss": 2.581887722015381,
      "eval_runtime": 13.8188,
      "eval_samples_per_second": 7.237,
      "eval_steps_per_second": 7.237,
      "eval_token_acc": 0.42140921409214094,
      "step": 24500
    },
    {
      "epoch": 1.049869328649158,
      "grad_norm": 4.523056507110596,
      "learning_rate": 8.951026656809753e-05,
      "loss": 0.3761757850646973,
      "memory(GiB)": 61.91,
      "step": 24505,
      "token_acc": 0.5439672801635992,
      "train_speed(iter/s)": 1.463442
    },
    {
      "epoch": 1.050083543978407,
      "grad_norm": 3.1562626361846924,
      "learning_rate": 8.950614192146058e-05,
      "loss": 0.26401805877685547,
      "memory(GiB)": 61.91,
      "step": 24510,
      "token_acc": 0.9401993355481728,
      "train_speed(iter/s)": 1.463445
    },
    {
      "epoch": 1.0502977593076561,
      "grad_norm": 3.197272539138794,
      "learning_rate": 8.950201655913279e-05,
      "loss": 0.42534689903259276,
      "memory(GiB)": 61.91,
      "step": 24515,
      "token_acc": 0.9128787878787878,
      "train_speed(iter/s)": 1.46345
    },
    {
      "epoch": 1.050511974636905,
      "grad_norm": 2.8793113231658936,
      "learning_rate": 8.949789048118894e-05,
      "loss": 0.5593438148498535,
      "memory(GiB)": 61.91,
      "step": 24520,
      "token_acc": 0.8961937716262975,
      "train_speed(iter/s)": 1.463472
    },
    {
      "epoch": 1.050726189966154,
      "grad_norm": 3.943530797958374,
      "learning_rate": 8.949376368770375e-05,
      "loss": 0.3187270641326904,
      "memory(GiB)": 61.91,
      "step": 24525,
      "token_acc": 0.9084249084249084,
      "train_speed(iter/s)": 1.463474
    },
    {
      "epoch": 1.050940405295403,
      "grad_norm": 4.713124752044678,
      "learning_rate": 8.948963617875197e-05,
      "loss": 0.5596467018127441,
      "memory(GiB)": 61.91,
      "step": 24530,
      "token_acc": 0.8941605839416058,
      "train_speed(iter/s)": 1.463447
    },
    {
      "epoch": 1.0511546206246518,
      "grad_norm": 4.850879192352295,
      "learning_rate": 8.94855079544084e-05,
      "loss": 0.2769219160079956,
      "memory(GiB)": 61.91,
      "step": 24535,
      "token_acc": 0.9401993355481728,
      "train_speed(iter/s)": 1.463448
    },
    {
      "epoch": 1.0513688359539008,
      "grad_norm": 0.12854355573654175,
      "learning_rate": 8.94813790147478e-05,
      "loss": 0.2537151098251343,
      "memory(GiB)": 61.91,
      "step": 24540,
      "token_acc": 0.9453781512605042,
      "train_speed(iter/s)": 1.463419
    },
    {
      "epoch": 1.0515830512831499,
      "grad_norm": 2.161783218383789,
      "learning_rate": 8.947724935984499e-05,
      "loss": 0.20682380199432374,
      "memory(GiB)": 61.91,
      "step": 24545,
      "token_acc": 0.94375,
      "train_speed(iter/s)": 1.46341
    },
    {
      "epoch": 1.0517972666123987,
      "grad_norm": 2.990401029586792,
      "learning_rate": 8.947311898977477e-05,
      "loss": 0.48949708938598635,
      "memory(GiB)": 61.91,
      "step": 24550,
      "token_acc": 0.8963414634146342,
      "train_speed(iter/s)": 1.463395
    },
    {
      "epoch": 1.0520114819416477,
      "grad_norm": 4.989822864532471,
      "learning_rate": 8.946898790461197e-05,
      "loss": 0.7246774196624756,
      "memory(GiB)": 61.91,
      "step": 24555,
      "token_acc": 0.8481848184818482,
      "train_speed(iter/s)": 1.463419
    },
    {
      "epoch": 1.0522256972708968,
      "grad_norm": 0.16161809861660004,
      "learning_rate": 8.946485610443144e-05,
      "loss": 0.5387742996215821,
      "memory(GiB)": 61.91,
      "step": 24560,
      "token_acc": 0.8896321070234113,
      "train_speed(iter/s)": 1.463421
    },
    {
      "epoch": 1.0524399126001456,
      "grad_norm": 4.49443244934082,
      "learning_rate": 8.946072358930802e-05,
      "loss": 0.5307668209075928,
      "memory(GiB)": 61.91,
      "step": 24565,
      "token_acc": 0.8651026392961877,
      "train_speed(iter/s)": 1.463423
    },
    {
      "epoch": 1.0526541279293946,
      "grad_norm": 11.624452590942383,
      "learning_rate": 8.945659035931656e-05,
      "loss": 0.47968149185180664,
      "memory(GiB)": 61.91,
      "step": 24570,
      "token_acc": 0.9181494661921709,
      "train_speed(iter/s)": 1.463432
    },
    {
      "epoch": 1.0528683432586436,
      "grad_norm": 2.9155590534210205,
      "learning_rate": 8.945245641453197e-05,
      "loss": 0.5393363475799561,
      "memory(GiB)": 61.91,
      "step": 24575,
      "token_acc": 0.9019607843137255,
      "train_speed(iter/s)": 1.46345
    },
    {
      "epoch": 1.0530825585878925,
      "grad_norm": 6.699670791625977,
      "learning_rate": 8.94483217550291e-05,
      "loss": 0.5843441963195801,
      "memory(GiB)": 61.91,
      "step": 24580,
      "token_acc": 0.8904109589041096,
      "train_speed(iter/s)": 1.463466
    },
    {
      "epoch": 1.0532967739171415,
      "grad_norm": 3.1946828365325928,
      "learning_rate": 8.94441863808829e-05,
      "loss": 0.457660436630249,
      "memory(GiB)": 61.91,
      "step": 24585,
      "token_acc": 0.8778135048231511,
      "train_speed(iter/s)": 1.463462
    },
    {
      "epoch": 1.0535109892463905,
      "grad_norm": 4.133587837219238,
      "learning_rate": 8.944005029216824e-05,
      "loss": 0.4464540958404541,
      "memory(GiB)": 61.91,
      "step": 24590,
      "token_acc": 0.9171974522292994,
      "train_speed(iter/s)": 1.463466
    },
    {
      "epoch": 1.0537252045756393,
      "grad_norm": 4.191961765289307,
      "learning_rate": 8.94359134889601e-05,
      "loss": 0.5787910461425781,
      "memory(GiB)": 61.91,
      "step": 24595,
      "token_acc": 0.8698630136986302,
      "train_speed(iter/s)": 1.463458
    },
    {
      "epoch": 1.0539394199048884,
      "grad_norm": 1.294704556465149,
      "learning_rate": 8.943177597133336e-05,
      "loss": 0.2509007453918457,
      "memory(GiB)": 61.91,
      "step": 24600,
      "token_acc": 0.9386503067484663,
      "train_speed(iter/s)": 1.463462
    },
    {
      "epoch": 1.0541536352341374,
      "grad_norm": 5.287006378173828,
      "learning_rate": 8.942763773936304e-05,
      "loss": 0.3590357780456543,
      "memory(GiB)": 61.91,
      "step": 24605,
      "token_acc": 0.9243421052631579,
      "train_speed(iter/s)": 1.46346
    },
    {
      "epoch": 1.0543678505633862,
      "grad_norm": 6.0106120109558105,
      "learning_rate": 8.942349879312406e-05,
      "loss": 0.3875889301300049,
      "memory(GiB)": 61.91,
      "step": 24610,
      "token_acc": 0.9087136929460581,
      "train_speed(iter/s)": 1.463465
    },
    {
      "epoch": 1.0545820658926353,
      "grad_norm": 3.205077648162842,
      "learning_rate": 8.941935913269142e-05,
      "loss": 0.15592634677886963,
      "memory(GiB)": 61.91,
      "step": 24615,
      "token_acc": 0.9535714285714286,
      "train_speed(iter/s)": 1.463451
    },
    {
      "epoch": 1.0547962812218843,
      "grad_norm": 2.217055082321167,
      "learning_rate": 8.94152187581401e-05,
      "loss": 0.3313002109527588,
      "memory(GiB)": 61.91,
      "step": 24620,
      "token_acc": 0.9335260115606936,
      "train_speed(iter/s)": 1.463441
    },
    {
      "epoch": 1.055010496551133,
      "grad_norm": 2.336862325668335,
      "learning_rate": 8.941107766954513e-05,
      "loss": 0.2223813056945801,
      "memory(GiB)": 61.91,
      "step": 24625,
      "token_acc": 0.9491017964071856,
      "train_speed(iter/s)": 1.463429
    },
    {
      "epoch": 1.0552247118803821,
      "grad_norm": 2.2205827236175537,
      "learning_rate": 8.940693586698152e-05,
      "loss": 0.26647419929504396,
      "memory(GiB)": 61.91,
      "step": 24630,
      "token_acc": 0.9530685920577617,
      "train_speed(iter/s)": 1.463443
    },
    {
      "epoch": 1.0554389272096312,
      "grad_norm": 2.743354558944702,
      "learning_rate": 8.940279335052428e-05,
      "loss": 0.6133790016174316,
      "memory(GiB)": 61.91,
      "step": 24635,
      "token_acc": 0.8858024691358025,
      "train_speed(iter/s)": 1.463469
    },
    {
      "epoch": 1.05565314253888,
      "grad_norm": 1.262387990951538,
      "learning_rate": 8.939865012024849e-05,
      "loss": 0.3659468412399292,
      "memory(GiB)": 61.91,
      "step": 24640,
      "token_acc": 0.9316239316239316,
      "train_speed(iter/s)": 1.463446
    },
    {
      "epoch": 1.055867357868129,
      "grad_norm": 5.1507344245910645,
      "learning_rate": 8.939450617622919e-05,
      "loss": 0.13844575881958007,
      "memory(GiB)": 61.91,
      "step": 24645,
      "token_acc": 0.9630872483221476,
      "train_speed(iter/s)": 1.463467
    },
    {
      "epoch": 1.056081573197378,
      "grad_norm": 1.9977318048477173,
      "learning_rate": 8.939036151854147e-05,
      "loss": 0.46593294143676756,
      "memory(GiB)": 61.91,
      "step": 24650,
      "token_acc": 0.9094202898550725,
      "train_speed(iter/s)": 1.463456
    },
    {
      "epoch": 1.0562957885266269,
      "grad_norm": 0.044040482491254807,
      "learning_rate": 8.93862161472604e-05,
      "loss": 0.540539026260376,
      "memory(GiB)": 61.91,
      "step": 24655,
      "token_acc": 0.8840579710144928,
      "train_speed(iter/s)": 1.463463
    },
    {
      "epoch": 1.056510003855876,
      "grad_norm": 3.416168689727783,
      "learning_rate": 8.938207006246106e-05,
      "loss": 0.3566168785095215,
      "memory(GiB)": 61.91,
      "step": 24660,
      "token_acc": 0.9104477611940298,
      "train_speed(iter/s)": 1.463465
    },
    {
      "epoch": 1.056724219185125,
      "grad_norm": 2.509399175643921,
      "learning_rate": 8.937792326421859e-05,
      "loss": 0.4582388401031494,
      "memory(GiB)": 61.91,
      "step": 24665,
      "token_acc": 0.8873720136518771,
      "train_speed(iter/s)": 1.463457
    },
    {
      "epoch": 1.0569384345143737,
      "grad_norm": 1.3250961303710938,
      "learning_rate": 8.937377575260809e-05,
      "loss": 0.34017324447631836,
      "memory(GiB)": 61.91,
      "step": 24670,
      "token_acc": 0.9087947882736156,
      "train_speed(iter/s)": 1.463459
    },
    {
      "epoch": 1.0571526498436228,
      "grad_norm": 5.463022708892822,
      "learning_rate": 8.93696275277047e-05,
      "loss": 0.5743795394897461,
      "memory(GiB)": 61.91,
      "step": 24675,
      "token_acc": 0.8858858858858859,
      "train_speed(iter/s)": 1.463465
    },
    {
      "epoch": 1.0573668651728718,
      "grad_norm": 3.259611129760742,
      "learning_rate": 8.93654785895836e-05,
      "loss": 0.3714089870452881,
      "memory(GiB)": 61.91,
      "step": 24680,
      "token_acc": 0.9263157894736842,
      "train_speed(iter/s)": 1.463475
    },
    {
      "epoch": 1.0575810805021206,
      "grad_norm": 3.1880557537078857,
      "learning_rate": 8.936132893831992e-05,
      "loss": 0.36184766292572024,
      "memory(GiB)": 61.91,
      "step": 24685,
      "token_acc": 0.899390243902439,
      "train_speed(iter/s)": 1.463467
    },
    {
      "epoch": 1.0577952958313697,
      "grad_norm": 4.762054920196533,
      "learning_rate": 8.935717857398883e-05,
      "loss": 0.5450374126434326,
      "memory(GiB)": 61.91,
      "step": 24690,
      "token_acc": 0.9,
      "train_speed(iter/s)": 1.463451
    },
    {
      "epoch": 1.0580095111606187,
      "grad_norm": 4.3264994621276855,
      "learning_rate": 8.935302749666554e-05,
      "loss": 0.4252921581268311,
      "memory(GiB)": 61.91,
      "step": 24695,
      "token_acc": 0.9156976744186046,
      "train_speed(iter/s)": 1.463448
    },
    {
      "epoch": 1.0582237264898675,
      "grad_norm": 0.6226086616516113,
      "learning_rate": 8.934887570642523e-05,
      "loss": 0.305343770980835,
      "memory(GiB)": 61.91,
      "step": 24700,
      "token_acc": 0.9464285714285714,
      "train_speed(iter/s)": 1.463464
    },
    {
      "epoch": 1.0584379418191165,
      "grad_norm": 4.047313213348389,
      "learning_rate": 8.934472320334312e-05,
      "loss": 0.4131124019622803,
      "memory(GiB)": 61.91,
      "step": 24705,
      "token_acc": 0.9039735099337748,
      "train_speed(iter/s)": 1.463454
    },
    {
      "epoch": 1.0586521571483656,
      "grad_norm": 2.9302256107330322,
      "learning_rate": 8.934056998749447e-05,
      "loss": 0.49488101005554197,
      "memory(GiB)": 61.91,
      "step": 24710,
      "token_acc": 0.8588588588588588,
      "train_speed(iter/s)": 1.463481
    },
    {
      "epoch": 1.0588663724776144,
      "grad_norm": 2.868764638900757,
      "learning_rate": 8.933641605895447e-05,
      "loss": 0.433966064453125,
      "memory(GiB)": 61.91,
      "step": 24715,
      "token_acc": 0.8957654723127035,
      "train_speed(iter/s)": 1.463515
    },
    {
      "epoch": 1.0590805878068634,
      "grad_norm": 8.793230056762695,
      "learning_rate": 8.93322614177984e-05,
      "loss": 0.3274407386779785,
      "memory(GiB)": 61.91,
      "step": 24720,
      "token_acc": 0.9357429718875502,
      "train_speed(iter/s)": 1.463518
    },
    {
      "epoch": 1.0592948031361125,
      "grad_norm": 2.3424408435821533,
      "learning_rate": 8.932810606410151e-05,
      "loss": 0.304095196723938,
      "memory(GiB)": 61.91,
      "step": 24725,
      "token_acc": 0.9365671641791045,
      "train_speed(iter/s)": 1.463499
    },
    {
      "epoch": 1.0595090184653613,
      "grad_norm": 1.8642646074295044,
      "learning_rate": 8.932394999793909e-05,
      "loss": 0.40365915298461913,
      "memory(GiB)": 61.91,
      "step": 24730,
      "token_acc": 0.9130434782608695,
      "train_speed(iter/s)": 1.463495
    },
    {
      "epoch": 1.0597232337946103,
      "grad_norm": 3.6033267974853516,
      "learning_rate": 8.931979321938643e-05,
      "loss": 0.500331974029541,
      "memory(GiB)": 61.91,
      "step": 24735,
      "token_acc": 0.8926380368098159,
      "train_speed(iter/s)": 1.463513
    },
    {
      "epoch": 1.0599374491238593,
      "grad_norm": 2.8488059043884277,
      "learning_rate": 8.931563572851883e-05,
      "loss": 0.26050543785095215,
      "memory(GiB)": 61.91,
      "step": 24740,
      "token_acc": 0.9370629370629371,
      "train_speed(iter/s)": 1.463504
    },
    {
      "epoch": 1.0601516644531084,
      "grad_norm": 5.4557108879089355,
      "learning_rate": 8.93114775254116e-05,
      "loss": 0.7832996368408203,
      "memory(GiB)": 61.91,
      "step": 24745,
      "token_acc": 0.8533333333333334,
      "train_speed(iter/s)": 1.463521
    },
    {
      "epoch": 1.0603658797823572,
      "grad_norm": 1.754604697227478,
      "learning_rate": 8.930731861014009e-05,
      "loss": 0.27332515716552735,
      "memory(GiB)": 61.91,
      "step": 24750,
      "token_acc": 0.9205298013245033,
      "train_speed(iter/s)": 1.463509
    },
    {
      "epoch": 1.0605800951116062,
      "grad_norm": 1.303481101989746,
      "learning_rate": 8.930315898277961e-05,
      "loss": 0.18530147075653075,
      "memory(GiB)": 61.91,
      "step": 24755,
      "token_acc": 0.9642857142857143,
      "train_speed(iter/s)": 1.463532
    },
    {
      "epoch": 1.0607943104408553,
      "grad_norm": 4.179767608642578,
      "learning_rate": 8.929899864340556e-05,
      "loss": 0.45236945152282715,
      "memory(GiB)": 61.91,
      "step": 24760,
      "token_acc": 0.9102990033222591,
      "train_speed(iter/s)": 1.463544
    },
    {
      "epoch": 1.061008525770104,
      "grad_norm": 3.072788715362549,
      "learning_rate": 8.929483759209327e-05,
      "loss": 0.19269709587097167,
      "memory(GiB)": 61.91,
      "step": 24765,
      "token_acc": 0.9718875502008032,
      "train_speed(iter/s)": 1.463551
    },
    {
      "epoch": 1.061222741099353,
      "grad_norm": 4.7244486808776855,
      "learning_rate": 8.929067582891813e-05,
      "loss": 0.5001522541046143,
      "memory(GiB)": 61.91,
      "step": 24770,
      "token_acc": 0.9096385542168675,
      "train_speed(iter/s)": 1.463553
    },
    {
      "epoch": 1.0614369564286021,
      "grad_norm": 4.894017696380615,
      "learning_rate": 8.928651335395556e-05,
      "loss": 0.4955124378204346,
      "memory(GiB)": 61.91,
      "step": 24775,
      "token_acc": 0.9028776978417267,
      "train_speed(iter/s)": 1.463574
    },
    {
      "epoch": 1.061651171757851,
      "grad_norm": 2.9096834659576416,
      "learning_rate": 8.928235016728093e-05,
      "loss": 0.40262584686279296,
      "memory(GiB)": 61.91,
      "step": 24780,
      "token_acc": 0.9034267912772586,
      "train_speed(iter/s)": 1.463568
    },
    {
      "epoch": 1.0618653870871,
      "grad_norm": 2.329826593399048,
      "learning_rate": 8.927818626896968e-05,
      "loss": 0.46176509857177733,
      "memory(GiB)": 61.91,
      "step": 24785,
      "token_acc": 0.9111842105263158,
      "train_speed(iter/s)": 1.463593
    },
    {
      "epoch": 1.062079602416349,
      "grad_norm": 2.8342161178588867,
      "learning_rate": 8.927402165909724e-05,
      "loss": 0.45001873970031736,
      "memory(GiB)": 61.91,
      "step": 24790,
      "token_acc": 0.9145569620253164,
      "train_speed(iter/s)": 1.463582
    },
    {
      "epoch": 1.0622938177455978,
      "grad_norm": 2.7624945640563965,
      "learning_rate": 8.926985633773906e-05,
      "loss": 0.6400355815887451,
      "memory(GiB)": 61.91,
      "step": 24795,
      "token_acc": 0.8888888888888888,
      "train_speed(iter/s)": 1.463605
    },
    {
      "epoch": 1.0625080330748469,
      "grad_norm": 4.156216144561768,
      "learning_rate": 8.92656903049706e-05,
      "loss": 0.22993097305297852,
      "memory(GiB)": 61.91,
      "step": 24800,
      "token_acc": 0.9440298507462687,
      "train_speed(iter/s)": 1.463611
    },
    {
      "epoch": 1.062722248404096,
      "grad_norm": 5.344137191772461,
      "learning_rate": 8.92615235608673e-05,
      "loss": 0.46294326782226564,
      "memory(GiB)": 61.91,
      "step": 24805,
      "token_acc": 0.8846153846153846,
      "train_speed(iter/s)": 1.463669
    },
    {
      "epoch": 1.0629364637333447,
      "grad_norm": 4.553225517272949,
      "learning_rate": 8.925735610550469e-05,
      "loss": 0.5529368400573731,
      "memory(GiB)": 61.91,
      "step": 24810,
      "token_acc": 0.861764705882353,
      "train_speed(iter/s)": 1.463684
    },
    {
      "epoch": 1.0631506790625938,
      "grad_norm": 2.958220958709717,
      "learning_rate": 8.925318793895825e-05,
      "loss": 0.36243481636047364,
      "memory(GiB)": 61.91,
      "step": 24815,
      "token_acc": 0.8972602739726028,
      "train_speed(iter/s)": 1.463697
    },
    {
      "epoch": 1.0633648943918428,
      "grad_norm": 3.3008368015289307,
      "learning_rate": 8.924901906130348e-05,
      "loss": 0.47784738540649413,
      "memory(GiB)": 61.91,
      "step": 24820,
      "token_acc": 0.9225806451612903,
      "train_speed(iter/s)": 1.463685
    },
    {
      "epoch": 1.0635791097210916,
      "grad_norm": 2.8839049339294434,
      "learning_rate": 8.924484947261592e-05,
      "loss": 0.3755256414413452,
      "memory(GiB)": 61.91,
      "step": 24825,
      "token_acc": 0.9206896551724137,
      "train_speed(iter/s)": 1.463681
    },
    {
      "epoch": 1.0637933250503406,
      "grad_norm": 6.298213005065918,
      "learning_rate": 8.92406791729711e-05,
      "loss": 0.4611805438995361,
      "memory(GiB)": 61.91,
      "step": 24830,
      "token_acc": 0.8812949640287769,
      "train_speed(iter/s)": 1.463658
    },
    {
      "epoch": 1.0640075403795897,
      "grad_norm": 6.608723163604736,
      "learning_rate": 8.923650816244455e-05,
      "loss": 0.5829193115234375,
      "memory(GiB)": 61.91,
      "step": 24835,
      "token_acc": 0.8745762711864407,
      "train_speed(iter/s)": 1.463658
    },
    {
      "epoch": 1.0642217557088385,
      "grad_norm": 3.4404544830322266,
      "learning_rate": 8.923233644111187e-05,
      "loss": 0.4655473709106445,
      "memory(GiB)": 61.91,
      "step": 24840,
      "token_acc": 0.8817204301075269,
      "train_speed(iter/s)": 1.463653
    },
    {
      "epoch": 1.0644359710380875,
      "grad_norm": 4.406962871551514,
      "learning_rate": 8.922816400904859e-05,
      "loss": 0.6765220642089844,
      "memory(GiB)": 61.91,
      "step": 24845,
      "token_acc": 0.8525641025641025,
      "train_speed(iter/s)": 1.463643
    },
    {
      "epoch": 1.0646501863673365,
      "grad_norm": 0.7809498310089111,
      "learning_rate": 8.922399086633032e-05,
      "loss": 0.2585753440856934,
      "memory(GiB)": 61.91,
      "step": 24850,
      "token_acc": 0.9291338582677166,
      "train_speed(iter/s)": 1.463636
    },
    {
      "epoch": 1.0648644016965854,
      "grad_norm": 4.0026655197143555,
      "learning_rate": 8.921981701303267e-05,
      "loss": 0.20240280628204346,
      "memory(GiB)": 61.91,
      "step": 24855,
      "token_acc": 0.9742647058823529,
      "train_speed(iter/s)": 1.463652
    },
    {
      "epoch": 1.0650786170258344,
      "grad_norm": 2.499643564224243,
      "learning_rate": 8.921564244923124e-05,
      "loss": 0.3598951816558838,
      "memory(GiB)": 61.91,
      "step": 24860,
      "token_acc": 0.9254901960784314,
      "train_speed(iter/s)": 1.463646
    },
    {
      "epoch": 1.0652928323550834,
      "grad_norm": 2.647608757019043,
      "learning_rate": 8.921146717500166e-05,
      "loss": 0.5103109359741211,
      "memory(GiB)": 61.91,
      "step": 24865,
      "token_acc": 0.8854625550660793,
      "train_speed(iter/s)": 1.463641
    },
    {
      "epoch": 1.0655070476843322,
      "grad_norm": 3.645301580429077,
      "learning_rate": 8.920729119041957e-05,
      "loss": 0.40702085494995116,
      "memory(GiB)": 61.91,
      "step": 24870,
      "token_acc": 0.901060070671378,
      "train_speed(iter/s)": 1.463654
    },
    {
      "epoch": 1.0657212630135813,
      "grad_norm": 0.49799811840057373,
      "learning_rate": 8.920311449556062e-05,
      "loss": 0.2589221239089966,
      "memory(GiB)": 61.91,
      "step": 24875,
      "token_acc": 0.9420731707317073,
      "train_speed(iter/s)": 1.463635
    },
    {
      "epoch": 1.0659354783428303,
      "grad_norm": 2.3787267208099365,
      "learning_rate": 8.919893709050049e-05,
      "loss": 0.5414438247680664,
      "memory(GiB)": 61.91,
      "step": 24880,
      "token_acc": 0.8972809667673716,
      "train_speed(iter/s)": 1.463638
    },
    {
      "epoch": 1.0661496936720791,
      "grad_norm": 4.094865322113037,
      "learning_rate": 8.919475897531482e-05,
      "loss": 0.29633493423461915,
      "memory(GiB)": 61.91,
      "step": 24885,
      "token_acc": 0.9254901960784314,
      "train_speed(iter/s)": 1.46363
    },
    {
      "epoch": 1.0663639090013282,
      "grad_norm": 4.348586559295654,
      "learning_rate": 8.919058015007934e-05,
      "loss": 0.4576865196228027,
      "memory(GiB)": 61.91,
      "step": 24890,
      "token_acc": 0.9,
      "train_speed(iter/s)": 1.463633
    },
    {
      "epoch": 1.0665781243305772,
      "grad_norm": 4.508138179779053,
      "learning_rate": 8.918640061486974e-05,
      "loss": 0.4288358211517334,
      "memory(GiB)": 61.91,
      "step": 24895,
      "token_acc": 0.9131832797427653,
      "train_speed(iter/s)": 1.463666
    },
    {
      "epoch": 1.066792339659826,
      "grad_norm": 6.435828685760498,
      "learning_rate": 8.918222036976172e-05,
      "loss": 0.5891474723815918,
      "memory(GiB)": 61.91,
      "step": 24900,
      "token_acc": 0.8716216216216216,
      "train_speed(iter/s)": 1.463683
    },
    {
      "epoch": 1.067006554989075,
      "grad_norm": 3.5111541748046875,
      "learning_rate": 8.917803941483101e-05,
      "loss": 0.30353994369506837,
      "memory(GiB)": 61.91,
      "step": 24905,
      "token_acc": 0.9335664335664335,
      "train_speed(iter/s)": 1.463683
    },
    {
      "epoch": 1.067220770318324,
      "grad_norm": 1.9401183128356934,
      "learning_rate": 8.917385775015338e-05,
      "loss": 0.34528138637542727,
      "memory(GiB)": 61.91,
      "step": 24910,
      "token_acc": 0.916955017301038,
      "train_speed(iter/s)": 1.46367
    },
    {
      "epoch": 1.0674349856475729,
      "grad_norm": 9.288268089294434,
      "learning_rate": 8.916967537580457e-05,
      "loss": 0.329301643371582,
      "memory(GiB)": 61.91,
      "step": 24915,
      "token_acc": 0.9019607843137255,
      "train_speed(iter/s)": 1.463708
    },
    {
      "epoch": 1.067649200976822,
      "grad_norm": 4.7642717361450195,
      "learning_rate": 8.916549229186036e-05,
      "loss": 0.3683889150619507,
      "memory(GiB)": 61.91,
      "step": 24920,
      "token_acc": 0.926829268292683,
      "train_speed(iter/s)": 1.463718
    },
    {
      "epoch": 1.067863416306071,
      "grad_norm": 3.6249523162841797,
      "learning_rate": 8.916130849839649e-05,
      "loss": 0.3878005504608154,
      "memory(GiB)": 61.91,
      "step": 24925,
      "token_acc": 0.9076923076923077,
      "train_speed(iter/s)": 1.463686
    },
    {
      "epoch": 1.0680776316353198,
      "grad_norm": 3.421154022216797,
      "learning_rate": 8.915712399548879e-05,
      "loss": 0.2848489761352539,
      "memory(GiB)": 61.91,
      "step": 24930,
      "token_acc": 0.9230769230769231,
      "train_speed(iter/s)": 1.463682
    },
    {
      "epoch": 1.0682918469645688,
      "grad_norm": 8.362064361572266,
      "learning_rate": 8.915293878321308e-05,
      "loss": 0.2502378225326538,
      "memory(GiB)": 61.91,
      "step": 24935,
      "token_acc": 0.9446640316205533,
      "train_speed(iter/s)": 1.463675
    },
    {
      "epoch": 1.0685060622938178,
      "grad_norm": 2.1216957569122314,
      "learning_rate": 8.914875286164512e-05,
      "loss": 0.3043825626373291,
      "memory(GiB)": 61.91,
      "step": 24940,
      "token_acc": 0.9186440677966101,
      "train_speed(iter/s)": 1.463672
    },
    {
      "epoch": 1.0687202776230667,
      "grad_norm": 4.274103164672852,
      "learning_rate": 8.914456623086078e-05,
      "loss": 0.6435746192932129,
      "memory(GiB)": 61.91,
      "step": 24945,
      "token_acc": 0.8384615384615385,
      "train_speed(iter/s)": 1.463671
    },
    {
      "epoch": 1.0689344929523157,
      "grad_norm": 3.7751007080078125,
      "learning_rate": 8.914037889093591e-05,
      "loss": 0.4034872055053711,
      "memory(GiB)": 61.91,
      "step": 24950,
      "token_acc": 0.9158576051779935,
      "train_speed(iter/s)": 1.463667
    },
    {
      "epoch": 1.0691487082815647,
      "grad_norm": 5.098366737365723,
      "learning_rate": 8.913619084194638e-05,
      "loss": 0.48452329635620117,
      "memory(GiB)": 61.91,
      "step": 24955,
      "token_acc": 0.9098591549295775,
      "train_speed(iter/s)": 1.463713
    },
    {
      "epoch": 1.0693629236108135,
      "grad_norm": 4.837723255157471,
      "learning_rate": 8.913200208396801e-05,
      "loss": 0.7379373550415039,
      "memory(GiB)": 61.91,
      "step": 24960,
      "token_acc": 0.8547008547008547,
      "train_speed(iter/s)": 1.463693
    },
    {
      "epoch": 1.0695771389400626,
      "grad_norm": 4.730515480041504,
      "learning_rate": 8.912781261707674e-05,
      "loss": 0.37705981731414795,
      "memory(GiB)": 61.91,
      "step": 24965,
      "token_acc": 0.9175531914893617,
      "train_speed(iter/s)": 1.463707
    },
    {
      "epoch": 1.0697913542693116,
      "grad_norm": 0.41072091460227966,
      "learning_rate": 8.912362244134842e-05,
      "loss": 0.18380309343338014,
      "memory(GiB)": 61.91,
      "step": 24970,
      "token_acc": 0.9589905362776026,
      "train_speed(iter/s)": 1.463735
    },
    {
      "epoch": 1.0700055695985604,
      "grad_norm": 3.805476665496826,
      "learning_rate": 8.911943155685897e-05,
      "loss": 0.17919005155563356,
      "memory(GiB)": 61.91,
      "step": 24975,
      "token_acc": 0.9583333333333334,
      "train_speed(iter/s)": 1.463739
    },
    {
      "epoch": 1.0702197849278094,
      "grad_norm": 1.8773678541183472,
      "learning_rate": 8.911523996368434e-05,
      "loss": 0.18148293495178222,
      "memory(GiB)": 61.91,
      "step": 24980,
      "token_acc": 0.9683098591549296,
      "train_speed(iter/s)": 1.463764
    },
    {
      "epoch": 1.0704340002570585,
      "grad_norm": 2.188059091567993,
      "learning_rate": 8.911104766190045e-05,
      "loss": 0.23359532356262208,
      "memory(GiB)": 61.91,
      "step": 24985,
      "token_acc": 0.939622641509434,
      "train_speed(iter/s)": 1.463792
    },
    {
      "epoch": 1.0706482155863073,
      "grad_norm": 3.9614980220794678,
      "learning_rate": 8.910685465158324e-05,
      "loss": 0.401519775390625,
      "memory(GiB)": 61.91,
      "step": 24990,
      "token_acc": 0.9256756756756757,
      "train_speed(iter/s)": 1.463803
    },
    {
      "epoch": 1.0708624309155563,
      "grad_norm": 4.403512001037598,
      "learning_rate": 8.910266093280866e-05,
      "loss": 0.3135676860809326,
      "memory(GiB)": 61.91,
      "step": 24995,
      "token_acc": 0.9282868525896414,
      "train_speed(iter/s)": 1.463794
    },
    {
      "epoch": 1.0710766462448054,
      "grad_norm": 2.090351104736328,
      "learning_rate": 8.90984665056527e-05,
      "loss": 0.4066732406616211,
      "memory(GiB)": 61.91,
      "step": 25000,
      "token_acc": 0.9172932330827067,
      "train_speed(iter/s)": 1.463792
    },
    {
      "epoch": 1.0710766462448054,
      "eval_loss": 2.409970760345459,
      "eval_runtime": 13.7652,
      "eval_samples_per_second": 7.265,
      "eval_steps_per_second": 7.265,
      "eval_token_acc": 0.4330042313117066,
      "step": 25000
    },
    {
      "epoch": 1.0712908615740542,
      "grad_norm": 0.228685662150383,
      "learning_rate": 8.909427137019136e-05,
      "loss": 0.15805572271347046,
      "memory(GiB)": 61.91,
      "step": 25005,
      "token_acc": 0.5811359026369168,
      "train_speed(iter/s)": 1.462527
    },
    {
      "epoch": 1.0715050769033032,
      "grad_norm": 4.091732501983643,
      "learning_rate": 8.90900755265006e-05,
      "loss": 0.5353171825408936,
      "memory(GiB)": 61.91,
      "step": 25010,
      "token_acc": 0.8817204301075269,
      "train_speed(iter/s)": 1.462506
    },
    {
      "epoch": 1.0717192922325522,
      "grad_norm": 3.826026439666748,
      "learning_rate": 8.908587897465644e-05,
      "loss": 0.3465597152709961,
      "memory(GiB)": 61.91,
      "step": 25015,
      "token_acc": 0.9306569343065694,
      "train_speed(iter/s)": 1.462524
    },
    {
      "epoch": 1.071933507561801,
      "grad_norm": 4.4526848793029785,
      "learning_rate": 8.908168171473494e-05,
      "loss": 0.6048482894897461,
      "memory(GiB)": 61.91,
      "step": 25020,
      "token_acc": 0.8590163934426229,
      "train_speed(iter/s)": 1.462535
    },
    {
      "epoch": 1.07214772289105,
      "grad_norm": 2.495469570159912,
      "learning_rate": 8.907748374681211e-05,
      "loss": 0.13592972755432128,
      "memory(GiB)": 61.91,
      "step": 25025,
      "token_acc": 0.9668874172185431,
      "train_speed(iter/s)": 1.462541
    },
    {
      "epoch": 1.0723619382202991,
      "grad_norm": 1.3913660049438477,
      "learning_rate": 8.907328507096399e-05,
      "loss": 0.5762334346771241,
      "memory(GiB)": 61.91,
      "step": 25030,
      "token_acc": 0.8781362007168458,
      "train_speed(iter/s)": 1.462569
    },
    {
      "epoch": 1.072576153549548,
      "grad_norm": 5.104248046875,
      "learning_rate": 8.906908568726669e-05,
      "loss": 0.35464026927948,
      "memory(GiB)": 61.91,
      "step": 25035,
      "token_acc": 0.9222520107238605,
      "train_speed(iter/s)": 1.462579
    },
    {
      "epoch": 1.072790368878797,
      "grad_norm": 2.8235175609588623,
      "learning_rate": 8.906488559579623e-05,
      "loss": 0.1746814727783203,
      "memory(GiB)": 61.91,
      "step": 25040,
      "token_acc": 0.9527272727272728,
      "train_speed(iter/s)": 1.462621
    },
    {
      "epoch": 1.073004584208046,
      "grad_norm": 2.6833760738372803,
      "learning_rate": 8.906068479662871e-05,
      "loss": 0.5139699935913086,
      "memory(GiB)": 61.91,
      "step": 25045,
      "token_acc": 0.9184397163120568,
      "train_speed(iter/s)": 1.462614
    },
    {
      "epoch": 1.0732187995372948,
      "grad_norm": 3.5112621784210205,
      "learning_rate": 8.905648328984026e-05,
      "loss": 0.35757970809936523,
      "memory(GiB)": 61.91,
      "step": 25050,
      "token_acc": 0.91015625,
      "train_speed(iter/s)": 1.46264
    },
    {
      "epoch": 1.0734330148665439,
      "grad_norm": 4.577869415283203,
      "learning_rate": 8.905228107550697e-05,
      "loss": 0.5617709159851074,
      "memory(GiB)": 61.91,
      "step": 25055,
      "token_acc": 0.8801261829652997,
      "train_speed(iter/s)": 1.462627
    },
    {
      "epoch": 1.073647230195793,
      "grad_norm": 0.9779202938079834,
      "learning_rate": 8.904807815370499e-05,
      "loss": 0.22143781185150146,
      "memory(GiB)": 61.91,
      "step": 25060,
      "token_acc": 0.9395017793594306,
      "train_speed(iter/s)": 1.462627
    },
    {
      "epoch": 1.0738614455250417,
      "grad_norm": 2.0550382137298584,
      "learning_rate": 8.904387452451042e-05,
      "loss": 0.2850539445877075,
      "memory(GiB)": 61.91,
      "step": 25065,
      "token_acc": 0.9413919413919414,
      "train_speed(iter/s)": 1.462631
    },
    {
      "epoch": 1.0740756608542907,
      "grad_norm": 4.75274658203125,
      "learning_rate": 8.903967018799946e-05,
      "loss": 0.3070229530334473,
      "memory(GiB)": 61.91,
      "step": 25070,
      "token_acc": 0.9343065693430657,
      "train_speed(iter/s)": 1.462621
    },
    {
      "epoch": 1.0742898761835398,
      "grad_norm": 4.14871072769165,
      "learning_rate": 8.903546514424824e-05,
      "loss": 0.443074369430542,
      "memory(GiB)": 61.91,
      "step": 25075,
      "token_acc": 0.918918918918919,
      "train_speed(iter/s)": 1.462644
    },
    {
      "epoch": 1.0745040915127886,
      "grad_norm": 0.5455694198608398,
      "learning_rate": 8.903125939333294e-05,
      "loss": 0.40418376922607424,
      "memory(GiB)": 61.91,
      "step": 25080,
      "token_acc": 0.9251700680272109,
      "train_speed(iter/s)": 1.462643
    },
    {
      "epoch": 1.0747183068420376,
      "grad_norm": 0.7578938603401184,
      "learning_rate": 8.902705293532978e-05,
      "loss": 0.3441060781478882,
      "memory(GiB)": 61.91,
      "step": 25085,
      "token_acc": 0.933993399339934,
      "train_speed(iter/s)": 1.462668
    },
    {
      "epoch": 1.0749325221712867,
      "grad_norm": 3.748610019683838,
      "learning_rate": 8.902284577031494e-05,
      "loss": 0.22135050296783448,
      "memory(GiB)": 61.91,
      "step": 25090,
      "token_acc": 0.9491525423728814,
      "train_speed(iter/s)": 1.462671
    },
    {
      "epoch": 1.0751467375005355,
      "grad_norm": 2.808198928833008,
      "learning_rate": 8.901863789836464e-05,
      "loss": 0.24704573154449463,
      "memory(GiB)": 61.91,
      "step": 25095,
      "token_acc": 0.9523809523809523,
      "train_speed(iter/s)": 1.462685
    },
    {
      "epoch": 1.0753609528297845,
      "grad_norm": 2.515803337097168,
      "learning_rate": 8.901442931955512e-05,
      "loss": 0.3248444080352783,
      "memory(GiB)": 61.91,
      "step": 25100,
      "token_acc": 0.9333333333333333,
      "train_speed(iter/s)": 1.462701
    },
    {
      "epoch": 1.0755751681590335,
      "grad_norm": 3.623593807220459,
      "learning_rate": 8.90102200339626e-05,
      "loss": 0.3366007566452026,
      "memory(GiB)": 61.91,
      "step": 25105,
      "token_acc": 0.9292604501607717,
      "train_speed(iter/s)": 1.462734
    },
    {
      "epoch": 1.0757893834882823,
      "grad_norm": 5.1452741622924805,
      "learning_rate": 8.900601004166335e-05,
      "loss": 0.546142864227295,
      "memory(GiB)": 61.91,
      "step": 25110,
      "token_acc": 0.903954802259887,
      "train_speed(iter/s)": 1.46271
    },
    {
      "epoch": 1.0760035988175314,
      "grad_norm": 2.1082112789154053,
      "learning_rate": 8.900179934273366e-05,
      "loss": 0.3791569709777832,
      "memory(GiB)": 61.91,
      "step": 25115,
      "token_acc": 0.9211356466876972,
      "train_speed(iter/s)": 1.462718
    },
    {
      "epoch": 1.0762178141467804,
      "grad_norm": 8.615592956542969,
      "learning_rate": 8.899758793724978e-05,
      "loss": 0.4793417453765869,
      "memory(GiB)": 61.91,
      "step": 25120,
      "token_acc": 0.8981132075471698,
      "train_speed(iter/s)": 1.462775
    },
    {
      "epoch": 1.0764320294760292,
      "grad_norm": 10.395878791809082,
      "learning_rate": 8.8993375825288e-05,
      "loss": 0.2862694263458252,
      "memory(GiB)": 61.91,
      "step": 25125,
      "token_acc": 0.9323308270676691,
      "train_speed(iter/s)": 1.46283
    },
    {
      "epoch": 1.0766462448052783,
      "grad_norm": 3.636275053024292,
      "learning_rate": 8.898916300692463e-05,
      "loss": 0.24978837966918946,
      "memory(GiB)": 61.91,
      "step": 25130,
      "token_acc": 0.9236641221374046,
      "train_speed(iter/s)": 1.462816
    },
    {
      "epoch": 1.0768604601345273,
      "grad_norm": 2.033215284347534,
      "learning_rate": 8.898494948223604e-05,
      "loss": 0.47611422538757325,
      "memory(GiB)": 61.91,
      "step": 25135,
      "token_acc": 0.9006622516556292,
      "train_speed(iter/s)": 1.462817
    },
    {
      "epoch": 1.077074675463776,
      "grad_norm": 4.658651351928711,
      "learning_rate": 8.898073525129848e-05,
      "loss": 0.4858135223388672,
      "memory(GiB)": 61.91,
      "step": 25140,
      "token_acc": 0.9041533546325878,
      "train_speed(iter/s)": 1.462814
    },
    {
      "epoch": 1.0772888907930251,
      "grad_norm": 7.769630432128906,
      "learning_rate": 8.897652031418834e-05,
      "loss": 0.6140228271484375,
      "memory(GiB)": 61.91,
      "step": 25145,
      "token_acc": 0.862453531598513,
      "train_speed(iter/s)": 1.462879
    },
    {
      "epoch": 1.0775031061222742,
      "grad_norm": 2.520064115524292,
      "learning_rate": 8.8972304670982e-05,
      "loss": 0.14724371433258057,
      "memory(GiB)": 61.91,
      "step": 25150,
      "token_acc": 0.9710144927536232,
      "train_speed(iter/s)": 1.462883
    },
    {
      "epoch": 1.077717321451523,
      "grad_norm": 2.481902837753296,
      "learning_rate": 8.896808832175576e-05,
      "loss": 0.3497974634170532,
      "memory(GiB)": 61.91,
      "step": 25155,
      "token_acc": 0.9217687074829932,
      "train_speed(iter/s)": 1.462883
    },
    {
      "epoch": 1.077931536780772,
      "grad_norm": 3.923410654067993,
      "learning_rate": 8.896387126658605e-05,
      "loss": 0.4088460445404053,
      "memory(GiB)": 61.91,
      "step": 25160,
      "token_acc": 0.9044117647058824,
      "train_speed(iter/s)": 1.462879
    },
    {
      "epoch": 1.078145752110021,
      "grad_norm": 2.801046133041382,
      "learning_rate": 8.895965350554929e-05,
      "loss": 0.26686644554138184,
      "memory(GiB)": 61.91,
      "step": 25165,
      "token_acc": 0.93,
      "train_speed(iter/s)": 1.462866
    },
    {
      "epoch": 1.0783599674392699,
      "grad_norm": 0.24932678043842316,
      "learning_rate": 8.895543503872183e-05,
      "loss": 0.16468576192855836,
      "memory(GiB)": 61.91,
      "step": 25170,
      "token_acc": 0.9575289575289575,
      "train_speed(iter/s)": 1.462872
    },
    {
      "epoch": 1.078574182768519,
      "grad_norm": 0.6644452810287476,
      "learning_rate": 8.895121586618014e-05,
      "loss": 0.6380305290222168,
      "memory(GiB)": 61.91,
      "step": 25175,
      "token_acc": 0.8755020080321285,
      "train_speed(iter/s)": 1.462851
    },
    {
      "epoch": 1.078788398097768,
      "grad_norm": 3.240630626678467,
      "learning_rate": 8.894699598800064e-05,
      "loss": 0.3646794080734253,
      "memory(GiB)": 61.91,
      "step": 25180,
      "token_acc": 0.9136212624584718,
      "train_speed(iter/s)": 1.462843
    },
    {
      "epoch": 1.0790026134270168,
      "grad_norm": 3.887277841567993,
      "learning_rate": 8.894277540425977e-05,
      "loss": 0.526161003112793,
      "memory(GiB)": 61.91,
      "step": 25185,
      "token_acc": 0.8974358974358975,
      "train_speed(iter/s)": 1.462826
    },
    {
      "epoch": 1.0792168287562658,
      "grad_norm": 3.63022780418396,
      "learning_rate": 8.893855411503398e-05,
      "loss": 0.5759621620178222,
      "memory(GiB)": 61.91,
      "step": 25190,
      "token_acc": 0.8912280701754386,
      "train_speed(iter/s)": 1.462835
    },
    {
      "epoch": 1.0794310440855148,
      "grad_norm": 5.664218902587891,
      "learning_rate": 8.893433212039974e-05,
      "loss": 0.6657480239868164,
      "memory(GiB)": 61.91,
      "step": 25195,
      "token_acc": 0.8771331058020477,
      "train_speed(iter/s)": 1.462841
    },
    {
      "epoch": 1.0796452594147636,
      "grad_norm": 3.331249713897705,
      "learning_rate": 8.893010942043359e-05,
      "loss": 0.3688171863555908,
      "memory(GiB)": 61.91,
      "step": 25200,
      "token_acc": 0.9113475177304965,
      "train_speed(iter/s)": 1.462851
    },
    {
      "epoch": 1.0798594747440127,
      "grad_norm": 1.8218655586242676,
      "learning_rate": 8.892588601521197e-05,
      "loss": 0.2277174711227417,
      "memory(GiB)": 61.91,
      "step": 25205,
      "token_acc": 0.9473684210526315,
      "train_speed(iter/s)": 1.46284
    },
    {
      "epoch": 1.0800736900732617,
      "grad_norm": 1.4769761562347412,
      "learning_rate": 8.89216619048114e-05,
      "loss": 0.3569038391113281,
      "memory(GiB)": 61.91,
      "step": 25210,
      "token_acc": 0.9236363636363636,
      "train_speed(iter/s)": 1.462835
    },
    {
      "epoch": 1.0802879054025105,
      "grad_norm": 0.698101818561554,
      "learning_rate": 8.891743708930842e-05,
      "loss": 0.14968445301055908,
      "memory(GiB)": 61.91,
      "step": 25215,
      "token_acc": 0.9620253164556962,
      "train_speed(iter/s)": 1.462841
    },
    {
      "epoch": 1.0805021207317596,
      "grad_norm": 1.0063821077346802,
      "learning_rate": 8.891321156877957e-05,
      "loss": 0.20954930782318115,
      "memory(GiB)": 61.91,
      "step": 25220,
      "token_acc": 0.9565217391304348,
      "train_speed(iter/s)": 1.462843
    },
    {
      "epoch": 1.0807163360610086,
      "grad_norm": 2.674788236618042,
      "learning_rate": 8.890898534330136e-05,
      "loss": 0.44927129745483396,
      "memory(GiB)": 61.91,
      "step": 25225,
      "token_acc": 0.9222222222222223,
      "train_speed(iter/s)": 1.462838
    },
    {
      "epoch": 1.0809305513902574,
      "grad_norm": 3.1945652961730957,
      "learning_rate": 8.89047584129504e-05,
      "loss": 0.3681762218475342,
      "memory(GiB)": 61.91,
      "step": 25230,
      "token_acc": 0.9198606271777003,
      "train_speed(iter/s)": 1.462834
    },
    {
      "epoch": 1.0811447667195064,
      "grad_norm": 2.5937066078186035,
      "learning_rate": 8.890053077780325e-05,
      "loss": 0.28696560859680176,
      "memory(GiB)": 61.91,
      "step": 25235,
      "token_acc": 0.9377289377289377,
      "train_speed(iter/s)": 1.462837
    },
    {
      "epoch": 1.0813589820487555,
      "grad_norm": 1.969464659690857,
      "learning_rate": 8.88963024379365e-05,
      "loss": 0.5010621547698975,
      "memory(GiB)": 61.91,
      "step": 25240,
      "token_acc": 0.8947368421052632,
      "train_speed(iter/s)": 1.462837
    },
    {
      "epoch": 1.0815731973780043,
      "grad_norm": 0.615304172039032,
      "learning_rate": 8.889207339342673e-05,
      "loss": 0.40453338623046875,
      "memory(GiB)": 61.91,
      "step": 25245,
      "token_acc": 0.9081967213114754,
      "train_speed(iter/s)": 1.462855
    },
    {
      "epoch": 1.0817874127072533,
      "grad_norm": 5.109377861022949,
      "learning_rate": 8.888784364435056e-05,
      "loss": 0.26205923557281496,
      "memory(GiB)": 61.91,
      "step": 25250,
      "token_acc": 0.9449838187702265,
      "train_speed(iter/s)": 1.462854
    },
    {
      "epoch": 1.0820016280365023,
      "grad_norm": 4.434478759765625,
      "learning_rate": 8.888361319078464e-05,
      "loss": 0.5640530109405517,
      "memory(GiB)": 61.91,
      "step": 25255,
      "token_acc": 0.8637992831541219,
      "train_speed(iter/s)": 1.462855
    },
    {
      "epoch": 1.0822158433657512,
      "grad_norm": 6.821907997131348,
      "learning_rate": 8.887938203280559e-05,
      "loss": 0.6305492401123047,
      "memory(GiB)": 61.91,
      "step": 25260,
      "token_acc": 0.874251497005988,
      "train_speed(iter/s)": 1.462843
    },
    {
      "epoch": 1.0824300586950002,
      "grad_norm": 2.9749338626861572,
      "learning_rate": 8.887515017049006e-05,
      "loss": 0.3896113157272339,
      "memory(GiB)": 61.91,
      "step": 25265,
      "token_acc": 0.9058441558441559,
      "train_speed(iter/s)": 1.462842
    },
    {
      "epoch": 1.0826442740242492,
      "grad_norm": 3.366748094558716,
      "learning_rate": 8.887091760391471e-05,
      "loss": 0.33929243087768557,
      "memory(GiB)": 61.91,
      "step": 25270,
      "token_acc": 0.9146341463414634,
      "train_speed(iter/s)": 1.462838
    },
    {
      "epoch": 1.082858489353498,
      "grad_norm": 2.0692217350006104,
      "learning_rate": 8.886668433315622e-05,
      "loss": 0.397383451461792,
      "memory(GiB)": 61.91,
      "step": 25275,
      "token_acc": 0.8975155279503105,
      "train_speed(iter/s)": 1.462836
    },
    {
      "epoch": 1.083072704682747,
      "grad_norm": 30.156509399414062,
      "learning_rate": 8.88624503582913e-05,
      "loss": 0.4812010765075684,
      "memory(GiB)": 61.91,
      "step": 25280,
      "token_acc": 0.9087301587301587,
      "train_speed(iter/s)": 1.462868
    },
    {
      "epoch": 1.0832869200119961,
      "grad_norm": 0.6205039024353027,
      "learning_rate": 8.885821567939663e-05,
      "loss": 0.33576979637146,
      "memory(GiB)": 61.91,
      "step": 25285,
      "token_acc": 0.9175627240143369,
      "train_speed(iter/s)": 1.46286
    },
    {
      "epoch": 1.083501135341245,
      "grad_norm": 2.5365982055664062,
      "learning_rate": 8.885398029654892e-05,
      "loss": 0.2362661838531494,
      "memory(GiB)": 61.91,
      "step": 25290,
      "token_acc": 0.9488054607508533,
      "train_speed(iter/s)": 1.46287
    },
    {
      "epoch": 1.083715350670494,
      "grad_norm": 1.851911187171936,
      "learning_rate": 8.884974420982493e-05,
      "loss": 0.22056131362915038,
      "memory(GiB)": 61.91,
      "step": 25295,
      "token_acc": 0.9607843137254902,
      "train_speed(iter/s)": 1.462859
    },
    {
      "epoch": 1.083929565999743,
      "grad_norm": 7.808811664581299,
      "learning_rate": 8.884550741930135e-05,
      "loss": 0.5282489776611328,
      "memory(GiB)": 61.91,
      "step": 25300,
      "token_acc": 0.8875379939209727,
      "train_speed(iter/s)": 1.462877
    },
    {
      "epoch": 1.0841437813289918,
      "grad_norm": 8.61439323425293,
      "learning_rate": 8.884126992505498e-05,
      "loss": 0.42961935997009276,
      "memory(GiB)": 61.91,
      "step": 25305,
      "token_acc": 0.890282131661442,
      "train_speed(iter/s)": 1.462902
    },
    {
      "epoch": 1.0843579966582408,
      "grad_norm": 3.740543842315674,
      "learning_rate": 8.883703172716258e-05,
      "loss": 0.35737314224243166,
      "memory(GiB)": 61.91,
      "step": 25310,
      "token_acc": 0.9357541899441341,
      "train_speed(iter/s)": 1.462915
    },
    {
      "epoch": 1.0845722119874899,
      "grad_norm": 0.029797568917274475,
      "learning_rate": 8.883279282570089e-05,
      "loss": 0.19379490613937378,
      "memory(GiB)": 61.91,
      "step": 25315,
      "token_acc": 0.9615384615384616,
      "train_speed(iter/s)": 1.462925
    },
    {
      "epoch": 1.0847864273167387,
      "grad_norm": 3.8831422328948975,
      "learning_rate": 8.882855322074674e-05,
      "loss": 0.35411949157714845,
      "memory(GiB)": 61.91,
      "step": 25320,
      "token_acc": 0.9335664335664335,
      "train_speed(iter/s)": 1.462926
    },
    {
      "epoch": 1.0850006426459877,
      "grad_norm": 6.7855544090271,
      "learning_rate": 8.882431291237693e-05,
      "loss": 0.5354075908660889,
      "memory(GiB)": 61.91,
      "step": 25325,
      "token_acc": 0.8865248226950354,
      "train_speed(iter/s)": 1.462951
    },
    {
      "epoch": 1.0852148579752368,
      "grad_norm": 2.5457420349121094,
      "learning_rate": 8.882007190066827e-05,
      "loss": 0.5731357574462891,
      "memory(GiB)": 61.91,
      "step": 25330,
      "token_acc": 0.8856088560885609,
      "train_speed(iter/s)": 1.462956
    },
    {
      "epoch": 1.0854290733044856,
      "grad_norm": 7.45316743850708,
      "learning_rate": 8.881583018569761e-05,
      "loss": 0.2582524538040161,
      "memory(GiB)": 61.91,
      "step": 25335,
      "token_acc": 0.9477351916376306,
      "train_speed(iter/s)": 1.462937
    },
    {
      "epoch": 1.0856432886337346,
      "grad_norm": 5.669838905334473,
      "learning_rate": 8.881158776754175e-05,
      "loss": 0.40042386054992674,
      "memory(GiB)": 61.91,
      "step": 25340,
      "token_acc": 0.916955017301038,
      "train_speed(iter/s)": 1.462927
    },
    {
      "epoch": 1.0858575039629836,
      "grad_norm": 3.774674415588379,
      "learning_rate": 8.880734464627757e-05,
      "loss": 0.3499144077301025,
      "memory(GiB)": 61.91,
      "step": 25345,
      "token_acc": 0.9251700680272109,
      "train_speed(iter/s)": 1.462958
    },
    {
      "epoch": 1.0860717192922325,
      "grad_norm": 2.943087100982666,
      "learning_rate": 8.880310082198196e-05,
      "loss": 0.3465965747833252,
      "memory(GiB)": 61.91,
      "step": 25350,
      "token_acc": 0.9290123456790124,
      "train_speed(iter/s)": 1.462958
    },
    {
      "epoch": 1.0862859346214815,
      "grad_norm": 2.5265161991119385,
      "learning_rate": 8.879885629473176e-05,
      "loss": 0.41710567474365234,
      "memory(GiB)": 61.91,
      "step": 25355,
      "token_acc": 0.8929889298892989,
      "train_speed(iter/s)": 1.462959
    },
    {
      "epoch": 1.0865001499507305,
      "grad_norm": 4.733047962188721,
      "learning_rate": 8.87946110646039e-05,
      "loss": 0.44867305755615233,
      "memory(GiB)": 61.91,
      "step": 25360,
      "token_acc": 0.9130434782608695,
      "train_speed(iter/s)": 1.462988
    },
    {
      "epoch": 1.0867143652799793,
      "grad_norm": 4.866017818450928,
      "learning_rate": 8.879036513167523e-05,
      "loss": 0.26465625762939454,
      "memory(GiB)": 61.91,
      "step": 25365,
      "token_acc": 0.9417808219178082,
      "train_speed(iter/s)": 1.462988
    },
    {
      "epoch": 1.0869285806092284,
      "grad_norm": 3.216681480407715,
      "learning_rate": 8.878611849602274e-05,
      "loss": 0.41363911628723143,
      "memory(GiB)": 61.91,
      "step": 25370,
      "token_acc": 0.912621359223301,
      "train_speed(iter/s)": 1.462982
    },
    {
      "epoch": 1.0871427959384774,
      "grad_norm": 4.08538293838501,
      "learning_rate": 8.878187115772331e-05,
      "loss": 0.49055957794189453,
      "memory(GiB)": 61.91,
      "step": 25375,
      "token_acc": 0.8957055214723927,
      "train_speed(iter/s)": 1.46301
    },
    {
      "epoch": 1.0873570112677262,
      "grad_norm": 4.663366794586182,
      "learning_rate": 8.877762311685391e-05,
      "loss": 0.43918437957763673,
      "memory(GiB)": 61.91,
      "step": 25380,
      "token_acc": 0.9054545454545454,
      "train_speed(iter/s)": 1.463018
    },
    {
      "epoch": 1.0875712265969752,
      "grad_norm": 1.3237236738204956,
      "learning_rate": 8.87733743734915e-05,
      "loss": 0.3800185680389404,
      "memory(GiB)": 61.91,
      "step": 25385,
      "token_acc": 0.9203296703296703,
      "train_speed(iter/s)": 1.463017
    },
    {
      "epoch": 1.0877854419262243,
      "grad_norm": 2.6623470783233643,
      "learning_rate": 8.876912492771303e-05,
      "loss": 0.3958677530288696,
      "memory(GiB)": 61.91,
      "step": 25390,
      "token_acc": 0.9040590405904059,
      "train_speed(iter/s)": 1.463022
    },
    {
      "epoch": 1.087999657255473,
      "grad_norm": 1.49717378616333,
      "learning_rate": 8.876487477959551e-05,
      "loss": 0.45929994583129885,
      "memory(GiB)": 61.91,
      "step": 25395,
      "token_acc": 0.9015151515151515,
      "train_speed(iter/s)": 1.463012
    },
    {
      "epoch": 1.0882138725847221,
      "grad_norm": 3.0187296867370605,
      "learning_rate": 8.876062392921591e-05,
      "loss": 0.5400813102722168,
      "memory(GiB)": 61.91,
      "step": 25400,
      "token_acc": 0.8625429553264605,
      "train_speed(iter/s)": 1.463016
    },
    {
      "epoch": 1.0884280879139712,
      "grad_norm": 0.5320674180984497,
      "learning_rate": 8.875637237665124e-05,
      "loss": 0.20714907646179198,
      "memory(GiB)": 61.91,
      "step": 25405,
      "token_acc": 0.9689922480620154,
      "train_speed(iter/s)": 1.463016
    },
    {
      "epoch": 1.08864230324322,
      "grad_norm": 5.187716007232666,
      "learning_rate": 8.875212012197853e-05,
      "loss": 0.747398853302002,
      "memory(GiB)": 61.91,
      "step": 25410,
      "token_acc": 0.8581818181818182,
      "train_speed(iter/s)": 1.463032
    },
    {
      "epoch": 1.088856518572469,
      "grad_norm": 1.979594349861145,
      "learning_rate": 8.874786716527482e-05,
      "loss": 0.5119746685028076,
      "memory(GiB)": 61.91,
      "step": 25415,
      "token_acc": 0.9219858156028369,
      "train_speed(iter/s)": 1.463034
    },
    {
      "epoch": 1.089070733901718,
      "grad_norm": 3.005169630050659,
      "learning_rate": 8.874361350661713e-05,
      "loss": 0.28762526512145997,
      "memory(GiB)": 61.91,
      "step": 25420,
      "token_acc": 0.9305019305019305,
      "train_speed(iter/s)": 1.463013
    },
    {
      "epoch": 1.0892849492309669,
      "grad_norm": 2.158773183822632,
      "learning_rate": 8.873935914608256e-05,
      "loss": 0.37089555263519286,
      "memory(GiB)": 61.91,
      "step": 25425,
      "token_acc": 0.9162011173184358,
      "train_speed(iter/s)": 1.463023
    },
    {
      "epoch": 1.089499164560216,
      "grad_norm": 1.2758687734603882,
      "learning_rate": 8.873510408374814e-05,
      "loss": 0.366333532333374,
      "memory(GiB)": 61.91,
      "step": 25430,
      "token_acc": 0.9078947368421053,
      "train_speed(iter/s)": 1.463027
    },
    {
      "epoch": 1.089713379889465,
      "grad_norm": 1.6552425622940063,
      "learning_rate": 8.873084831969098e-05,
      "loss": 0.3514272451400757,
      "memory(GiB)": 61.91,
      "step": 25435,
      "token_acc": 0.9221556886227545,
      "train_speed(iter/s)": 1.463022
    },
    {
      "epoch": 1.0899275952187137,
      "grad_norm": 4.64774751663208,
      "learning_rate": 8.872659185398817e-05,
      "loss": 0.6251749038696289,
      "memory(GiB)": 61.91,
      "step": 25440,
      "token_acc": 0.858085808580858,
      "train_speed(iter/s)": 1.463054
    },
    {
      "epoch": 1.0901418105479628,
      "grad_norm": 2.954789876937866,
      "learning_rate": 8.872233468671683e-05,
      "loss": 0.3360616445541382,
      "memory(GiB)": 61.91,
      "step": 25445,
      "token_acc": 0.924,
      "train_speed(iter/s)": 1.463056
    },
    {
      "epoch": 1.0903560258772118,
      "grad_norm": 5.879907608032227,
      "learning_rate": 8.871807681795406e-05,
      "loss": 0.5345702171325684,
      "memory(GiB)": 61.91,
      "step": 25450,
      "token_acc": 0.8848920863309353,
      "train_speed(iter/s)": 1.463087
    },
    {
      "epoch": 1.0905702412064606,
      "grad_norm": 2.535137891769409,
      "learning_rate": 8.8713818247777e-05,
      "loss": 0.42162532806396485,
      "memory(GiB)": 61.91,
      "step": 25455,
      "token_acc": 0.9123376623376623,
      "train_speed(iter/s)": 1.463101
    },
    {
      "epoch": 1.0907844565357097,
      "grad_norm": 1.8338370323181152,
      "learning_rate": 8.870955897626283e-05,
      "loss": 0.39129176139831545,
      "memory(GiB)": 61.91,
      "step": 25460,
      "token_acc": 0.9129032258064517,
      "train_speed(iter/s)": 1.463122
    },
    {
      "epoch": 1.0909986718649587,
      "grad_norm": 2.5455667972564697,
      "learning_rate": 8.870529900348867e-05,
      "loss": 0.7869563579559327,
      "memory(GiB)": 61.91,
      "step": 25465,
      "token_acc": 0.8435374149659864,
      "train_speed(iter/s)": 1.463112
    },
    {
      "epoch": 1.0912128871942075,
      "grad_norm": 3.762604236602783,
      "learning_rate": 8.870103832953172e-05,
      "loss": 0.5257608413696289,
      "memory(GiB)": 61.91,
      "step": 25470,
      "token_acc": 0.9051094890510949,
      "train_speed(iter/s)": 1.463113
    },
    {
      "epoch": 1.0914271025234565,
      "grad_norm": 2.8788902759552,
      "learning_rate": 8.869677695446914e-05,
      "loss": 0.5383646965026856,
      "memory(GiB)": 61.91,
      "step": 25475,
      "token_acc": 0.9028776978417267,
      "train_speed(iter/s)": 1.463128
    },
    {
      "epoch": 1.0916413178527056,
      "grad_norm": 2.302339792251587,
      "learning_rate": 8.869251487837816e-05,
      "loss": 0.458376407623291,
      "memory(GiB)": 61.91,
      "step": 25480,
      "token_acc": 0.895910780669145,
      "train_speed(iter/s)": 1.46316
    },
    {
      "epoch": 1.0918555331819544,
      "grad_norm": 4.270304203033447,
      "learning_rate": 8.868825210133598e-05,
      "loss": 0.663810920715332,
      "memory(GiB)": 61.91,
      "step": 25485,
      "token_acc": 0.8729641693811075,
      "train_speed(iter/s)": 1.46319
    },
    {
      "epoch": 1.0920697485112034,
      "grad_norm": 1.3363163471221924,
      "learning_rate": 8.86839886234198e-05,
      "loss": 0.5032050609588623,
      "memory(GiB)": 61.91,
      "step": 25490,
      "token_acc": 0.9251700680272109,
      "train_speed(iter/s)": 1.463204
    },
    {
      "epoch": 1.0922839638404525,
      "grad_norm": 1.5518182516098022,
      "learning_rate": 8.86797244447069e-05,
      "loss": 0.4348761081695557,
      "memory(GiB)": 61.91,
      "step": 25495,
      "token_acc": 0.8943894389438944,
      "train_speed(iter/s)": 1.463225
    },
    {
      "epoch": 1.0924981791697013,
      "grad_norm": 3.966857433319092,
      "learning_rate": 8.86754595652745e-05,
      "loss": 0.5428637981414794,
      "memory(GiB)": 61.91,
      "step": 25500,
      "token_acc": 0.8778409090909091,
      "train_speed(iter/s)": 1.463233
    },
    {
      "epoch": 1.0924981791697013,
      "eval_loss": 2.4473960399627686,
      "eval_runtime": 11.8427,
      "eval_samples_per_second": 8.444,
      "eval_steps_per_second": 8.444,
      "eval_token_acc": 0.46208869814020026,
      "step": 25500
    },
    {
      "epoch": 1.0927123944989503,
      "grad_norm": 3.0310986042022705,
      "learning_rate": 8.867119398519986e-05,
      "loss": 0.2647587299346924,
      "memory(GiB)": 61.91,
      "step": 25505,
      "token_acc": 0.5818181818181818,
      "train_speed(iter/s)": 1.462166
    },
    {
      "epoch": 1.0929266098281993,
      "grad_norm": 4.473127841949463,
      "learning_rate": 8.866692770456026e-05,
      "loss": 0.5191736698150635,
      "memory(GiB)": 61.91,
      "step": 25510,
      "token_acc": 0.9012345679012346,
      "train_speed(iter/s)": 1.462211
    },
    {
      "epoch": 1.0931408251574484,
      "grad_norm": 2.7050929069519043,
      "learning_rate": 8.866266072343301e-05,
      "loss": 0.4386690616607666,
      "memory(GiB)": 61.91,
      "step": 25515,
      "token_acc": 0.9180790960451978,
      "train_speed(iter/s)": 1.462225
    },
    {
      "epoch": 1.0933550404866972,
      "grad_norm": 3.027987241744995,
      "learning_rate": 8.865839304189538e-05,
      "loss": 0.35813226699829104,
      "memory(GiB)": 61.91,
      "step": 25520,
      "token_acc": 0.9283276450511946,
      "train_speed(iter/s)": 1.462227
    },
    {
      "epoch": 1.0935692558159462,
      "grad_norm": 2.442445755004883,
      "learning_rate": 8.865412466002472e-05,
      "loss": 0.4285855293273926,
      "memory(GiB)": 61.91,
      "step": 25525,
      "token_acc": 0.9113149847094801,
      "train_speed(iter/s)": 1.462219
    },
    {
      "epoch": 1.0937834711451953,
      "grad_norm": 2.3580482006073,
      "learning_rate": 8.86498555778983e-05,
      "loss": 0.4725804805755615,
      "memory(GiB)": 61.91,
      "step": 25530,
      "token_acc": 0.9,
      "train_speed(iter/s)": 1.462215
    },
    {
      "epoch": 1.093997686474444,
      "grad_norm": 3.6616616249084473,
      "learning_rate": 8.86455857955935e-05,
      "loss": 0.1727069616317749,
      "memory(GiB)": 61.91,
      "step": 25535,
      "token_acc": 0.9478527607361963,
      "train_speed(iter/s)": 1.462223
    },
    {
      "epoch": 1.094211901803693,
      "grad_norm": 7.300609111785889,
      "learning_rate": 8.864131531318766e-05,
      "loss": 0.439729642868042,
      "memory(GiB)": 61.91,
      "step": 25540,
      "token_acc": 0.9172413793103448,
      "train_speed(iter/s)": 1.46224
    },
    {
      "epoch": 1.0944261171329421,
      "grad_norm": 2.9304041862487793,
      "learning_rate": 8.863704413075816e-05,
      "loss": 0.6195690631866455,
      "memory(GiB)": 61.91,
      "step": 25545,
      "token_acc": 0.8961038961038961,
      "train_speed(iter/s)": 1.462276
    },
    {
      "epoch": 1.094640332462191,
      "grad_norm": 3.695221424102783,
      "learning_rate": 8.863277224838234e-05,
      "loss": 0.5634300231933593,
      "memory(GiB)": 61.91,
      "step": 25550,
      "token_acc": 0.8843283582089553,
      "train_speed(iter/s)": 1.462298
    },
    {
      "epoch": 1.09485454779144,
      "grad_norm": 3.3114211559295654,
      "learning_rate": 8.862849966613763e-05,
      "loss": 0.23432071208953859,
      "memory(GiB)": 61.91,
      "step": 25555,
      "token_acc": 0.9372693726937269,
      "train_speed(iter/s)": 1.462312
    },
    {
      "epoch": 1.095068763120689,
      "grad_norm": 3.130274534225464,
      "learning_rate": 8.862422638410139e-05,
      "loss": 0.3334404706954956,
      "memory(GiB)": 61.91,
      "step": 25560,
      "token_acc": 0.9261744966442953,
      "train_speed(iter/s)": 1.462297
    },
    {
      "epoch": 1.0952829784499378,
      "grad_norm": 3.812450885772705,
      "learning_rate": 8.861995240235106e-05,
      "loss": 0.31398777961730956,
      "memory(GiB)": 61.91,
      "step": 25565,
      "token_acc": 0.9275862068965517,
      "train_speed(iter/s)": 1.462309
    },
    {
      "epoch": 1.0954971937791869,
      "grad_norm": 3.378427743911743,
      "learning_rate": 8.861567772096408e-05,
      "loss": 0.2816780090332031,
      "memory(GiB)": 61.91,
      "step": 25570,
      "token_acc": 0.95,
      "train_speed(iter/s)": 1.46232
    },
    {
      "epoch": 1.095711409108436,
      "grad_norm": 2.5424489974975586,
      "learning_rate": 8.861140234001785e-05,
      "loss": 0.38444080352783205,
      "memory(GiB)": 61.91,
      "step": 25575,
      "token_acc": 0.9029850746268657,
      "train_speed(iter/s)": 1.462337
    },
    {
      "epoch": 1.0959256244376847,
      "grad_norm": 4.114015102386475,
      "learning_rate": 8.860712625958987e-05,
      "loss": 0.6762954235076905,
      "memory(GiB)": 61.91,
      "step": 25580,
      "token_acc": 0.8594249201277955,
      "train_speed(iter/s)": 1.462359
    },
    {
      "epoch": 1.0961398397669337,
      "grad_norm": 5.402930736541748,
      "learning_rate": 8.860284947975758e-05,
      "loss": 0.4496199607849121,
      "memory(GiB)": 61.91,
      "step": 25585,
      "token_acc": 0.8776978417266187,
      "train_speed(iter/s)": 1.462359
    },
    {
      "epoch": 1.0963540550961828,
      "grad_norm": 3.0589101314544678,
      "learning_rate": 8.859857200059845e-05,
      "loss": 0.39393432140350343,
      "memory(GiB)": 61.91,
      "step": 25590,
      "token_acc": 0.922509225092251,
      "train_speed(iter/s)": 1.462373
    },
    {
      "epoch": 1.0965682704254316,
      "grad_norm": 1.7756133079528809,
      "learning_rate": 8.859429382218998e-05,
      "loss": 0.2643697738647461,
      "memory(GiB)": 61.91,
      "step": 25595,
      "token_acc": 0.9508196721311475,
      "train_speed(iter/s)": 1.462414
    },
    {
      "epoch": 1.0967824857546806,
      "grad_norm": 1.9535704851150513,
      "learning_rate": 8.859001494460968e-05,
      "loss": 0.21287319660186768,
      "memory(GiB)": 61.91,
      "step": 25600,
      "token_acc": 0.940625,
      "train_speed(iter/s)": 1.462405
    },
    {
      "epoch": 1.0969967010839297,
      "grad_norm": 2.799534797668457,
      "learning_rate": 8.858573536793504e-05,
      "loss": 0.27471189498901366,
      "memory(GiB)": 61.91,
      "step": 25605,
      "token_acc": 0.9442724458204335,
      "train_speed(iter/s)": 1.462414
    },
    {
      "epoch": 1.0972109164131785,
      "grad_norm": 3.4930942058563232,
      "learning_rate": 8.858145509224363e-05,
      "loss": 0.6470661163330078,
      "memory(GiB)": 61.91,
      "step": 25610,
      "token_acc": 0.8538961038961039,
      "train_speed(iter/s)": 1.462409
    },
    {
      "epoch": 1.0974251317424275,
      "grad_norm": 4.832221984863281,
      "learning_rate": 8.857717411761296e-05,
      "loss": 0.43185877799987793,
      "memory(GiB)": 61.91,
      "step": 25615,
      "token_acc": 0.9105058365758755,
      "train_speed(iter/s)": 1.462418
    },
    {
      "epoch": 1.0976393470716765,
      "grad_norm": 2.0932860374450684,
      "learning_rate": 8.857289244412059e-05,
      "loss": 0.4046803951263428,
      "memory(GiB)": 61.91,
      "step": 25620,
      "token_acc": 0.897196261682243,
      "train_speed(iter/s)": 1.462439
    },
    {
      "epoch": 1.0978535624009254,
      "grad_norm": 3.1558215618133545,
      "learning_rate": 8.85686100718441e-05,
      "loss": 0.4110370635986328,
      "memory(GiB)": 61.91,
      "step": 25625,
      "token_acc": 0.8947368421052632,
      "train_speed(iter/s)": 1.462454
    },
    {
      "epoch": 1.0980677777301744,
      "grad_norm": 6.352552890777588,
      "learning_rate": 8.856432700086104e-05,
      "loss": 0.3852397441864014,
      "memory(GiB)": 61.91,
      "step": 25630,
      "token_acc": 0.9279279279279279,
      "train_speed(iter/s)": 1.462453
    },
    {
      "epoch": 1.0982819930594234,
      "grad_norm": 2.6966769695281982,
      "learning_rate": 8.856004323124903e-05,
      "loss": 0.4180790424346924,
      "memory(GiB)": 61.91,
      "step": 25635,
      "token_acc": 0.9188191881918819,
      "train_speed(iter/s)": 1.462463
    },
    {
      "epoch": 1.0984962083886722,
      "grad_norm": 7.430751323699951,
      "learning_rate": 8.855575876308566e-05,
      "loss": 0.5509214401245117,
      "memory(GiB)": 61.91,
      "step": 25640,
      "token_acc": 0.8515151515151516,
      "train_speed(iter/s)": 1.462435
    },
    {
      "epoch": 1.0987104237179213,
      "grad_norm": 2.179262399673462,
      "learning_rate": 8.855147359644856e-05,
      "loss": 0.21901309490203857,
      "memory(GiB)": 61.91,
      "step": 25645,
      "token_acc": 0.9494949494949495,
      "train_speed(iter/s)": 1.462428
    },
    {
      "epoch": 1.0989246390471703,
      "grad_norm": 0.5742531418800354,
      "learning_rate": 8.854718773141535e-05,
      "loss": 0.421583366394043,
      "memory(GiB)": 61.91,
      "step": 25650,
      "token_acc": 0.8959731543624161,
      "train_speed(iter/s)": 1.462419
    },
    {
      "epoch": 1.0991388543764191,
      "grad_norm": 3.2867512702941895,
      "learning_rate": 8.854290116806367e-05,
      "loss": 0.43399825096130373,
      "memory(GiB)": 61.91,
      "step": 25655,
      "token_acc": 0.9,
      "train_speed(iter/s)": 1.462418
    },
    {
      "epoch": 1.0993530697056682,
      "grad_norm": 3.334643602371216,
      "learning_rate": 8.853861390647118e-05,
      "loss": 0.5151684761047364,
      "memory(GiB)": 61.91,
      "step": 25660,
      "token_acc": 0.897887323943662,
      "train_speed(iter/s)": 1.462416
    },
    {
      "epoch": 1.0995672850349172,
      "grad_norm": 6.875061511993408,
      "learning_rate": 8.853432594671554e-05,
      "loss": 0.40060272216796877,
      "memory(GiB)": 61.91,
      "step": 25665,
      "token_acc": 0.9343065693430657,
      "train_speed(iter/s)": 1.462424
    },
    {
      "epoch": 1.099781500364166,
      "grad_norm": 4.736055850982666,
      "learning_rate": 8.853003728887446e-05,
      "loss": 0.39192359447479247,
      "memory(GiB)": 61.91,
      "step": 25670,
      "token_acc": 0.9278688524590164,
      "train_speed(iter/s)": 1.462446
    },
    {
      "epoch": 1.099995715693415,
      "grad_norm": 1.5845576524734497,
      "learning_rate": 8.85257479330256e-05,
      "loss": 0.33023924827575685,
      "memory(GiB)": 61.91,
      "step": 25675,
      "token_acc": 0.9228187919463087,
      "train_speed(iter/s)": 1.462504
    },
    {
      "epoch": 1.100209931022664,
      "grad_norm": 4.0633087158203125,
      "learning_rate": 8.852145787924666e-05,
      "loss": 0.4188316822052002,
      "memory(GiB)": 61.91,
      "step": 25680,
      "token_acc": 0.9198717948717948,
      "train_speed(iter/s)": 1.462513
    },
    {
      "epoch": 1.1004241463519129,
      "grad_norm": 6.944761753082275,
      "learning_rate": 8.851716712761538e-05,
      "loss": 0.560029935836792,
      "memory(GiB)": 61.91,
      "step": 25685,
      "token_acc": 0.8989169675090253,
      "train_speed(iter/s)": 1.462555
    },
    {
      "epoch": 1.100638361681162,
      "grad_norm": 5.15505838394165,
      "learning_rate": 8.851287567820949e-05,
      "loss": 0.2748559951782227,
      "memory(GiB)": 61.91,
      "step": 25690,
      "token_acc": 0.9553264604810997,
      "train_speed(iter/s)": 1.462544
    },
    {
      "epoch": 1.100852577010411,
      "grad_norm": 5.872371196746826,
      "learning_rate": 8.850858353110674e-05,
      "loss": 0.5358783721923828,
      "memory(GiB)": 61.91,
      "step": 25695,
      "token_acc": 0.8825503355704698,
      "train_speed(iter/s)": 1.462517
    },
    {
      "epoch": 1.1010667923396598,
      "grad_norm": 5.624542236328125,
      "learning_rate": 8.850429068638487e-05,
      "loss": 0.42310667037963867,
      "memory(GiB)": 61.91,
      "step": 25700,
      "token_acc": 0.8944099378881988,
      "train_speed(iter/s)": 1.46252
    },
    {
      "epoch": 1.1012810076689088,
      "grad_norm": 3.241826295852661,
      "learning_rate": 8.849999714412165e-05,
      "loss": 0.1837466835975647,
      "memory(GiB)": 61.91,
      "step": 25705,
      "token_acc": 0.9620253164556962,
      "train_speed(iter/s)": 1.462512
    },
    {
      "epoch": 1.1014952229981578,
      "grad_norm": 3.443141222000122,
      "learning_rate": 8.849570290439486e-05,
      "loss": 0.31424198150634763,
      "memory(GiB)": 61.91,
      "step": 25710,
      "token_acc": 0.9281045751633987,
      "train_speed(iter/s)": 1.462513
    },
    {
      "epoch": 1.1017094383274066,
      "grad_norm": 3.0369327068328857,
      "learning_rate": 8.84914079672823e-05,
      "loss": 0.3812888145446777,
      "memory(GiB)": 61.91,
      "step": 25715,
      "token_acc": 0.9192546583850931,
      "train_speed(iter/s)": 1.462506
    },
    {
      "epoch": 1.1019236536566557,
      "grad_norm": 1.579086184501648,
      "learning_rate": 8.84871123328618e-05,
      "loss": 0.6522722721099854,
      "memory(GiB)": 61.91,
      "step": 25720,
      "token_acc": 0.8566775244299675,
      "train_speed(iter/s)": 1.462488
    },
    {
      "epoch": 1.1021378689859047,
      "grad_norm": 9.20272159576416,
      "learning_rate": 8.848281600121114e-05,
      "loss": 0.34494576454162595,
      "memory(GiB)": 61.91,
      "step": 25725,
      "token_acc": 0.9136212624584718,
      "train_speed(iter/s)": 1.462493
    },
    {
      "epoch": 1.1023520843151535,
      "grad_norm": 1.4920995235443115,
      "learning_rate": 8.847851897240815e-05,
      "loss": 0.31069986820220946,
      "memory(GiB)": 61.91,
      "step": 25730,
      "token_acc": 0.9290540540540541,
      "train_speed(iter/s)": 1.462494
    },
    {
      "epoch": 1.1025662996444026,
      "grad_norm": 2.090115785598755,
      "learning_rate": 8.847422124653072e-05,
      "loss": 0.3923627853393555,
      "memory(GiB)": 61.91,
      "step": 25735,
      "token_acc": 0.9050847457627119,
      "train_speed(iter/s)": 1.462505
    },
    {
      "epoch": 1.1027805149736516,
      "grad_norm": 2.7149574756622314,
      "learning_rate": 8.846992282365667e-05,
      "loss": 0.30125668048858645,
      "memory(GiB)": 61.91,
      "step": 25740,
      "token_acc": 0.9358974358974359,
      "train_speed(iter/s)": 1.462542
    },
    {
      "epoch": 1.1029947303029004,
      "grad_norm": 0.14514748752117157,
      "learning_rate": 8.846562370386389e-05,
      "loss": 0.26002140045166017,
      "memory(GiB)": 61.91,
      "step": 25745,
      "token_acc": 0.9401993355481728,
      "train_speed(iter/s)": 1.462553
    },
    {
      "epoch": 1.1032089456321494,
      "grad_norm": 3.914837598800659,
      "learning_rate": 8.846132388723023e-05,
      "loss": 0.3982586622238159,
      "memory(GiB)": 61.91,
      "step": 25750,
      "token_acc": 0.9090909090909091,
      "train_speed(iter/s)": 1.462558
    },
    {
      "epoch": 1.1034231609613985,
      "grad_norm": 5.314088344573975,
      "learning_rate": 8.845702337383363e-05,
      "loss": 0.3666435480117798,
      "memory(GiB)": 61.91,
      "step": 25755,
      "token_acc": 0.9024390243902439,
      "train_speed(iter/s)": 1.462559
    },
    {
      "epoch": 1.1036373762906473,
      "grad_norm": 5.537886142730713,
      "learning_rate": 8.845272216375196e-05,
      "loss": 0.37426419258117677,
      "memory(GiB)": 61.91,
      "step": 25760,
      "token_acc": 0.91015625,
      "train_speed(iter/s)": 1.462576
    },
    {
      "epoch": 1.1038515916198963,
      "grad_norm": 6.6959333419799805,
      "learning_rate": 8.844842025706316e-05,
      "loss": 0.6918998718261719,
      "memory(GiB)": 61.91,
      "step": 25765,
      "token_acc": 0.8586572438162544,
      "train_speed(iter/s)": 1.462597
    },
    {
      "epoch": 1.1040658069491454,
      "grad_norm": 0.5444590449333191,
      "learning_rate": 8.844411765384517e-05,
      "loss": 0.40291452407836914,
      "memory(GiB)": 61.91,
      "step": 25770,
      "token_acc": 0.8945783132530121,
      "train_speed(iter/s)": 1.462585
    },
    {
      "epoch": 1.1042800222783942,
      "grad_norm": 3.045780658721924,
      "learning_rate": 8.843981435417592e-05,
      "loss": 0.4199867248535156,
      "memory(GiB)": 61.91,
      "step": 25775,
      "token_acc": 0.9090909090909091,
      "train_speed(iter/s)": 1.462566
    },
    {
      "epoch": 1.1044942376076432,
      "grad_norm": 3.6586849689483643,
      "learning_rate": 8.843551035813337e-05,
      "loss": 0.39733223915100097,
      "memory(GiB)": 61.91,
      "step": 25780,
      "token_acc": 0.9074733096085409,
      "train_speed(iter/s)": 1.462562
    },
    {
      "epoch": 1.1047084529368922,
      "grad_norm": 0.856523871421814,
      "learning_rate": 8.84312056657955e-05,
      "loss": 0.46988687515258787,
      "memory(GiB)": 61.91,
      "step": 25785,
      "token_acc": 0.9146341463414634,
      "train_speed(iter/s)": 1.462566
    },
    {
      "epoch": 1.104922668266141,
      "grad_norm": 2.635715961456299,
      "learning_rate": 8.842690027724029e-05,
      "loss": 0.25634231567382815,
      "memory(GiB)": 61.91,
      "step": 25790,
      "token_acc": 0.9375,
      "train_speed(iter/s)": 1.462569
    },
    {
      "epoch": 1.10513688359539,
      "grad_norm": 2.0435597896575928,
      "learning_rate": 8.842259419254573e-05,
      "loss": 0.20999600887298583,
      "memory(GiB)": 61.91,
      "step": 25795,
      "token_acc": 0.9369747899159664,
      "train_speed(iter/s)": 1.462553
    },
    {
      "epoch": 1.1053510989246391,
      "grad_norm": 0.8108588457107544,
      "learning_rate": 8.841828741178984e-05,
      "loss": 0.1909146785736084,
      "memory(GiB)": 61.91,
      "step": 25800,
      "token_acc": 0.9773755656108597,
      "train_speed(iter/s)": 1.462547
    },
    {
      "epoch": 1.105565314253888,
      "grad_norm": 5.369544506072998,
      "learning_rate": 8.841397993505062e-05,
      "loss": 0.4492218017578125,
      "memory(GiB)": 61.91,
      "step": 25805,
      "token_acc": 0.9155844155844156,
      "train_speed(iter/s)": 1.462554
    },
    {
      "epoch": 1.105779529583137,
      "grad_norm": 3.5922462940216064,
      "learning_rate": 8.840967176240612e-05,
      "loss": 0.48829221725463867,
      "memory(GiB)": 61.91,
      "step": 25810,
      "token_acc": 0.9102990033222591,
      "train_speed(iter/s)": 1.46256
    },
    {
      "epoch": 1.105993744912386,
      "grad_norm": 4.329902648925781,
      "learning_rate": 8.840536289393439e-05,
      "loss": 0.7044106960296631,
      "memory(GiB)": 61.91,
      "step": 25815,
      "token_acc": 0.8355263157894737,
      "train_speed(iter/s)": 1.462552
    },
    {
      "epoch": 1.1062079602416348,
      "grad_norm": 5.652036190032959,
      "learning_rate": 8.840105332971348e-05,
      "loss": 0.5730079650878906,
      "memory(GiB)": 61.91,
      "step": 25820,
      "token_acc": 0.890625,
      "train_speed(iter/s)": 1.46253
    },
    {
      "epoch": 1.1064221755708838,
      "grad_norm": 4.295072078704834,
      "learning_rate": 8.839674306982148e-05,
      "loss": 0.398391580581665,
      "memory(GiB)": 61.91,
      "step": 25825,
      "token_acc": 0.9267399267399268,
      "train_speed(iter/s)": 1.462544
    },
    {
      "epoch": 1.1066363909001329,
      "grad_norm": 3.323746919631958,
      "learning_rate": 8.839243211433645e-05,
      "loss": 0.23300089836120605,
      "memory(GiB)": 61.91,
      "step": 25830,
      "token_acc": 0.9365671641791045,
      "train_speed(iter/s)": 1.462541
    },
    {
      "epoch": 1.1068506062293817,
      "grad_norm": 2.5753722190856934,
      "learning_rate": 8.838812046333648e-05,
      "loss": 0.4785348892211914,
      "memory(GiB)": 61.91,
      "step": 25835,
      "token_acc": 0.911660777385159,
      "train_speed(iter/s)": 1.462584
    },
    {
      "epoch": 1.1070648215586307,
      "grad_norm": 3.165036201477051,
      "learning_rate": 8.838380811689973e-05,
      "loss": 0.38180112838745117,
      "memory(GiB)": 61.91,
      "step": 25840,
      "token_acc": 0.9340277777777778,
      "train_speed(iter/s)": 1.46259
    },
    {
      "epoch": 1.1072790368878798,
      "grad_norm": 5.510438442230225,
      "learning_rate": 8.837949507510427e-05,
      "loss": 0.2891889810562134,
      "memory(GiB)": 61.91,
      "step": 25845,
      "token_acc": 0.9370860927152318,
      "train_speed(iter/s)": 1.462589
    },
    {
      "epoch": 1.1074932522171286,
      "grad_norm": 2.0826663970947266,
      "learning_rate": 8.837518133802826e-05,
      "loss": 0.1692386507987976,
      "memory(GiB)": 61.91,
      "step": 25850,
      "token_acc": 0.9686520376175548,
      "train_speed(iter/s)": 1.462604
    },
    {
      "epoch": 1.1077074675463776,
      "grad_norm": 3.4737603664398193,
      "learning_rate": 8.837086690574983e-05,
      "loss": 0.3102865219116211,
      "memory(GiB)": 61.91,
      "step": 25855,
      "token_acc": 0.9246861924686193,
      "train_speed(iter/s)": 1.462604
    },
    {
      "epoch": 1.1079216828756266,
      "grad_norm": 3.8852028846740723,
      "learning_rate": 8.836655177834716e-05,
      "loss": 0.5614929676055909,
      "memory(GiB)": 61.91,
      "step": 25860,
      "token_acc": 0.9026217228464419,
      "train_speed(iter/s)": 1.462585
    },
    {
      "epoch": 1.1081358982048755,
      "grad_norm": 1.5113072395324707,
      "learning_rate": 8.836223595589842e-05,
      "loss": 0.3846569061279297,
      "memory(GiB)": 61.91,
      "step": 25865,
      "token_acc": 0.9238754325259516,
      "train_speed(iter/s)": 1.462576
    },
    {
      "epoch": 1.1083501135341245,
      "grad_norm": 3.7111425399780273,
      "learning_rate": 8.835791943848178e-05,
      "loss": 0.32469854354858396,
      "memory(GiB)": 61.91,
      "step": 25870,
      "token_acc": 0.9176470588235294,
      "train_speed(iter/s)": 1.462591
    },
    {
      "epoch": 1.1085643288633735,
      "grad_norm": 5.516271591186523,
      "learning_rate": 8.835360222617545e-05,
      "loss": 0.5753870964050293,
      "memory(GiB)": 61.91,
      "step": 25875,
      "token_acc": 0.8772563176895307,
      "train_speed(iter/s)": 1.462645
    },
    {
      "epoch": 1.1087785441926223,
      "grad_norm": 14.346359252929688,
      "learning_rate": 8.834928431905764e-05,
      "loss": 0.3491765022277832,
      "memory(GiB)": 61.91,
      "step": 25880,
      "token_acc": 0.930921052631579,
      "train_speed(iter/s)": 1.462679
    },
    {
      "epoch": 1.1089927595218714,
      "grad_norm": 7.797201633453369,
      "learning_rate": 8.834496571720657e-05,
      "loss": 0.15641179084777831,
      "memory(GiB)": 61.91,
      "step": 25885,
      "token_acc": 0.9724770642201835,
      "train_speed(iter/s)": 1.462689
    },
    {
      "epoch": 1.1092069748511204,
      "grad_norm": 2.635921001434326,
      "learning_rate": 8.834064642070045e-05,
      "loss": 0.2182243585586548,
      "memory(GiB)": 61.91,
      "step": 25890,
      "token_acc": 0.9471830985915493,
      "train_speed(iter/s)": 1.462697
    },
    {
      "epoch": 1.1094211901803692,
      "grad_norm": 4.201181411743164,
      "learning_rate": 8.833632642961759e-05,
      "loss": 0.45209469795227053,
      "memory(GiB)": 61.91,
      "step": 25895,
      "token_acc": 0.9027237354085603,
      "train_speed(iter/s)": 1.462695
    },
    {
      "epoch": 1.1096354055096183,
      "grad_norm": 3.0628347396850586,
      "learning_rate": 8.83320057440362e-05,
      "loss": 0.35988383293151854,
      "memory(GiB)": 61.91,
      "step": 25900,
      "token_acc": 0.9047619047619048,
      "train_speed(iter/s)": 1.46272
    },
    {
      "epoch": 1.1098496208388673,
      "grad_norm": 0.08065354079008102,
      "learning_rate": 8.832768436403455e-05,
      "loss": 0.3029822587966919,
      "memory(GiB)": 61.91,
      "step": 25905,
      "token_acc": 0.9406392694063926,
      "train_speed(iter/s)": 1.462709
    },
    {
      "epoch": 1.110063836168116,
      "grad_norm": 4.140479564666748,
      "learning_rate": 8.832336228969098e-05,
      "loss": 0.4738334655761719,
      "memory(GiB)": 61.91,
      "step": 25910,
      "token_acc": 0.8991097922848664,
      "train_speed(iter/s)": 1.462683
    },
    {
      "epoch": 1.1102780514973651,
      "grad_norm": 1.6978429555892944,
      "learning_rate": 8.831903952108372e-05,
      "loss": 0.31353259086608887,
      "memory(GiB)": 61.91,
      "step": 25915,
      "token_acc": 0.9372549019607843,
      "train_speed(iter/s)": 1.462681
    },
    {
      "epoch": 1.1104922668266142,
      "grad_norm": 3.5904202461242676,
      "learning_rate": 8.831471605829113e-05,
      "loss": 0.45062990188598634,
      "memory(GiB)": 61.91,
      "step": 25920,
      "token_acc": 0.8827586206896552,
      "train_speed(iter/s)": 1.462663
    },
    {
      "epoch": 1.110706482155863,
      "grad_norm": 4.93032169342041,
      "learning_rate": 8.831039190139152e-05,
      "loss": 0.4715071201324463,
      "memory(GiB)": 61.91,
      "step": 25925,
      "token_acc": 0.9,
      "train_speed(iter/s)": 1.462656
    },
    {
      "epoch": 1.110920697485112,
      "grad_norm": 2.0727381706237793,
      "learning_rate": 8.830606705046321e-05,
      "loss": 0.6093162536621094,
      "memory(GiB)": 61.91,
      "step": 25930,
      "token_acc": 0.8754208754208754,
      "train_speed(iter/s)": 1.462645
    },
    {
      "epoch": 1.111134912814361,
      "grad_norm": 3.761521816253662,
      "learning_rate": 8.830174150558456e-05,
      "loss": 0.43672747611999513,
      "memory(GiB)": 61.91,
      "step": 25935,
      "token_acc": 0.9290780141843972,
      "train_speed(iter/s)": 1.462636
    },
    {
      "epoch": 1.1113491281436099,
      "grad_norm": 3.003472328186035,
      "learning_rate": 8.829741526683394e-05,
      "loss": 0.33553566932678225,
      "memory(GiB)": 61.91,
      "step": 25940,
      "token_acc": 0.9274809160305344,
      "train_speed(iter/s)": 1.462646
    },
    {
      "epoch": 1.111563343472859,
      "grad_norm": 2.529301643371582,
      "learning_rate": 8.829308833428972e-05,
      "loss": 0.1377146363258362,
      "memory(GiB)": 61.91,
      "step": 25945,
      "token_acc": 0.9562043795620438,
      "train_speed(iter/s)": 1.46265
    },
    {
      "epoch": 1.111777558802108,
      "grad_norm": 4.39158296585083,
      "learning_rate": 8.828876070803028e-05,
      "loss": 0.30743117332458497,
      "memory(GiB)": 61.91,
      "step": 25950,
      "token_acc": 0.9340659340659341,
      "train_speed(iter/s)": 1.462657
    },
    {
      "epoch": 1.1119917741313567,
      "grad_norm": 2.907616376876831,
      "learning_rate": 8.828443238813402e-05,
      "loss": 0.4554884433746338,
      "memory(GiB)": 61.91,
      "step": 25955,
      "token_acc": 0.8985507246376812,
      "train_speed(iter/s)": 1.46266
    },
    {
      "epoch": 1.1122059894606058,
      "grad_norm": 1.3503397703170776,
      "learning_rate": 8.828010337467936e-05,
      "loss": 0.2182377576828003,
      "memory(GiB)": 61.91,
      "step": 25960,
      "token_acc": 0.9417808219178082,
      "train_speed(iter/s)": 1.462661
    },
    {
      "epoch": 1.1124202047898548,
      "grad_norm": 2.1970860958099365,
      "learning_rate": 8.82757736677447e-05,
      "loss": 0.3443499803543091,
      "memory(GiB)": 61.91,
      "step": 25965,
      "token_acc": 0.9116719242902208,
      "train_speed(iter/s)": 1.462636
    },
    {
      "epoch": 1.1126344201191036,
      "grad_norm": 0.16376492381095886,
      "learning_rate": 8.82714432674085e-05,
      "loss": 0.3272589921951294,
      "memory(GiB)": 61.91,
      "step": 25970,
      "token_acc": 0.9235668789808917,
      "train_speed(iter/s)": 1.462629
    },
    {
      "epoch": 1.1128486354483527,
      "grad_norm": 0.7045992612838745,
      "learning_rate": 8.826711217374921e-05,
      "loss": 0.21618645191192626,
      "memory(GiB)": 61.91,
      "step": 25975,
      "token_acc": 0.9566787003610109,
      "train_speed(iter/s)": 1.462639
    },
    {
      "epoch": 1.1130628507776017,
      "grad_norm": 3.08687162399292,
      "learning_rate": 8.826278038684529e-05,
      "loss": 0.30884385108947754,
      "memory(GiB)": 61.91,
      "step": 25980,
      "token_acc": 0.9434628975265018,
      "train_speed(iter/s)": 1.462623
    },
    {
      "epoch": 1.1132770661068505,
      "grad_norm": 4.081678867340088,
      "learning_rate": 8.82584479067752e-05,
      "loss": 0.4381399631500244,
      "memory(GiB)": 61.91,
      "step": 25985,
      "token_acc": 0.9064516129032258,
      "train_speed(iter/s)": 1.462629
    },
    {
      "epoch": 1.1134912814360995,
      "grad_norm": 4.202171325683594,
      "learning_rate": 8.825411473361745e-05,
      "loss": 0.46744394302368164,
      "memory(GiB)": 61.91,
      "step": 25990,
      "token_acc": 0.8902439024390244,
      "train_speed(iter/s)": 1.46263
    },
    {
      "epoch": 1.1137054967653486,
      "grad_norm": 5.836882591247559,
      "learning_rate": 8.824978086745051e-05,
      "loss": 0.5948639392852784,
      "memory(GiB)": 61.91,
      "step": 25995,
      "token_acc": 0.8783269961977186,
      "train_speed(iter/s)": 1.462635
    },
    {
      "epoch": 1.1139197120945974,
      "grad_norm": 0.019692501053214073,
      "learning_rate": 8.824544630835293e-05,
      "loss": 0.35597076416015627,
      "memory(GiB)": 61.91,
      "step": 26000,
      "token_acc": 0.9251700680272109,
      "train_speed(iter/s)": 1.462642
    },
    {
      "epoch": 1.1139197120945974,
      "eval_loss": 2.8603272438049316,
      "eval_runtime": 12.8826,
      "eval_samples_per_second": 7.762,
      "eval_steps_per_second": 7.762,
      "eval_token_acc": 0.402088772845953,
      "step": 26000
    },
    {
      "epoch": 1.1141339274238464,
      "grad_norm": 3.9984090328216553,
      "learning_rate": 8.82411110564032e-05,
      "loss": 0.477640438079834,
      "memory(GiB)": 61.91,
      "step": 26005,
      "token_acc": 0.5439924314096499,
      "train_speed(iter/s)": 1.461508
    },
    {
      "epoch": 1.1143481427530955,
      "grad_norm": 2.167558193206787,
      "learning_rate": 8.823677511167986e-05,
      "loss": 0.4058560371398926,
      "memory(GiB)": 61.91,
      "step": 26010,
      "token_acc": 0.9300911854103343,
      "train_speed(iter/s)": 1.461524
    },
    {
      "epoch": 1.1145623580823443,
      "grad_norm": 4.482082366943359,
      "learning_rate": 8.823243847426148e-05,
      "loss": 0.20967702865600585,
      "memory(GiB)": 61.91,
      "step": 26015,
      "token_acc": 0.9602649006622517,
      "train_speed(iter/s)": 1.461537
    },
    {
      "epoch": 1.1147765734115933,
      "grad_norm": 1.9614057540893555,
      "learning_rate": 8.822810114422662e-05,
      "loss": 0.3087871551513672,
      "memory(GiB)": 61.91,
      "step": 26020,
      "token_acc": 0.934984520123839,
      "train_speed(iter/s)": 1.461528
    },
    {
      "epoch": 1.1149907887408423,
      "grad_norm": 4.167447090148926,
      "learning_rate": 8.822376312165384e-05,
      "loss": 0.26484408378601076,
      "memory(GiB)": 61.91,
      "step": 26025,
      "token_acc": 0.9354838709677419,
      "train_speed(iter/s)": 1.461532
    },
    {
      "epoch": 1.1152050040700912,
      "grad_norm": 1.0285189151763916,
      "learning_rate": 8.821942440662172e-05,
      "loss": 0.48116049766540525,
      "memory(GiB)": 61.91,
      "step": 26030,
      "token_acc": 0.9248366013071896,
      "train_speed(iter/s)": 1.461547
    },
    {
      "epoch": 1.1154192193993402,
      "grad_norm": 4.51882266998291,
      "learning_rate": 8.821508499920889e-05,
      "loss": 0.5329698085784912,
      "memory(GiB)": 61.91,
      "step": 26035,
      "token_acc": 0.875,
      "train_speed(iter/s)": 1.461554
    },
    {
      "epoch": 1.1156334347285892,
      "grad_norm": 3.5376172065734863,
      "learning_rate": 8.821074489949395e-05,
      "loss": 0.22811331748962402,
      "memory(GiB)": 61.91,
      "step": 26040,
      "token_acc": 0.946360153256705,
      "train_speed(iter/s)": 1.461563
    },
    {
      "epoch": 1.115847650057838,
      "grad_norm": 2.4727799892425537,
      "learning_rate": 8.820640410755551e-05,
      "loss": 0.41037464141845703,
      "memory(GiB)": 61.91,
      "step": 26045,
      "token_acc": 0.9250814332247557,
      "train_speed(iter/s)": 1.46158
    },
    {
      "epoch": 1.116061865387087,
      "grad_norm": 4.7784600257873535,
      "learning_rate": 8.820206262347221e-05,
      "loss": 0.7095525741577149,
      "memory(GiB)": 61.91,
      "step": 26050,
      "token_acc": 0.868421052631579,
      "train_speed(iter/s)": 1.461582
    },
    {
      "epoch": 1.116276080716336,
      "grad_norm": 1.9152454137802124,
      "learning_rate": 8.819772044732274e-05,
      "loss": 0.4355663776397705,
      "memory(GiB)": 61.91,
      "step": 26055,
      "token_acc": 0.9136212624584718,
      "train_speed(iter/s)": 1.461607
    },
    {
      "epoch": 1.1164902960455851,
      "grad_norm": 1.8125394582748413,
      "learning_rate": 8.81933775791857e-05,
      "loss": 0.391705846786499,
      "memory(GiB)": 61.91,
      "step": 26060,
      "token_acc": 0.9244604316546763,
      "train_speed(iter/s)": 1.461618
    },
    {
      "epoch": 1.116704511374834,
      "grad_norm": 2.8288371562957764,
      "learning_rate": 8.818903401913983e-05,
      "loss": 0.46057939529418945,
      "memory(GiB)": 61.91,
      "step": 26065,
      "token_acc": 0.9006410256410257,
      "train_speed(iter/s)": 1.461622
    },
    {
      "epoch": 1.116918726704083,
      "grad_norm": 7.917285442352295,
      "learning_rate": 8.818468976726377e-05,
      "loss": 0.3275259256362915,
      "memory(GiB)": 61.91,
      "step": 26070,
      "token_acc": 0.9174603174603174,
      "train_speed(iter/s)": 1.46163
    },
    {
      "epoch": 1.117132942033332,
      "grad_norm": 4.810873985290527,
      "learning_rate": 8.818034482363622e-05,
      "loss": 0.2278437852859497,
      "memory(GiB)": 61.91,
      "step": 26075,
      "token_acc": 0.950381679389313,
      "train_speed(iter/s)": 1.461625
    },
    {
      "epoch": 1.1173471573625808,
      "grad_norm": 0.0541328489780426,
      "learning_rate": 8.817599918833593e-05,
      "loss": 0.528840160369873,
      "memory(GiB)": 61.91,
      "step": 26080,
      "token_acc": 0.8796992481203008,
      "train_speed(iter/s)": 1.461629
    },
    {
      "epoch": 1.1175613726918299,
      "grad_norm": 2.85356068611145,
      "learning_rate": 8.817165286144158e-05,
      "loss": 0.3979561567306519,
      "memory(GiB)": 61.91,
      "step": 26085,
      "token_acc": 0.9133333333333333,
      "train_speed(iter/s)": 1.461635
    },
    {
      "epoch": 1.117775588021079,
      "grad_norm": 4.269800186157227,
      "learning_rate": 8.816730584303194e-05,
      "loss": 0.33117525577545165,
      "memory(GiB)": 61.91,
      "step": 26090,
      "token_acc": 0.9424920127795527,
      "train_speed(iter/s)": 1.461628
    },
    {
      "epoch": 1.1179898033503277,
      "grad_norm": 1.470747709274292,
      "learning_rate": 8.816295813318576e-05,
      "loss": 0.23719658851623535,
      "memory(GiB)": 61.91,
      "step": 26095,
      "token_acc": 0.9349593495934959,
      "train_speed(iter/s)": 1.461633
    },
    {
      "epoch": 1.1182040186795768,
      "grad_norm": 0.3618052303791046,
      "learning_rate": 8.815860973198177e-05,
      "loss": 0.21009986400604247,
      "memory(GiB)": 61.91,
      "step": 26100,
      "token_acc": 0.956140350877193,
      "train_speed(iter/s)": 1.461649
    },
    {
      "epoch": 1.1184182340088258,
      "grad_norm": 3.4741058349609375,
      "learning_rate": 8.81542606394988e-05,
      "loss": 0.2764773368835449,
      "memory(GiB)": 61.91,
      "step": 26105,
      "token_acc": 0.9347079037800687,
      "train_speed(iter/s)": 1.461648
    },
    {
      "epoch": 1.1186324493380746,
      "grad_norm": 0.8171009421348572,
      "learning_rate": 8.814991085581559e-05,
      "loss": 0.23196308612823485,
      "memory(GiB)": 61.91,
      "step": 26110,
      "token_acc": 0.9606299212598425,
      "train_speed(iter/s)": 1.461666
    },
    {
      "epoch": 1.1188466646673236,
      "grad_norm": 7.960484027862549,
      "learning_rate": 8.814556038101097e-05,
      "loss": 0.35217013359069826,
      "memory(GiB)": 61.91,
      "step": 26115,
      "token_acc": 0.9087591240875912,
      "train_speed(iter/s)": 1.461677
    },
    {
      "epoch": 1.1190608799965727,
      "grad_norm": 6.349799633026123,
      "learning_rate": 8.814120921516372e-05,
      "loss": 0.4199717044830322,
      "memory(GiB)": 61.91,
      "step": 26120,
      "token_acc": 0.9115384615384615,
      "train_speed(iter/s)": 1.461701
    },
    {
      "epoch": 1.1192750953258215,
      "grad_norm": 0.9499421715736389,
      "learning_rate": 8.81368573583527e-05,
      "loss": 0.09501857757568359,
      "memory(GiB)": 61.91,
      "step": 26125,
      "token_acc": 0.9735973597359736,
      "train_speed(iter/s)": 1.461697
    },
    {
      "epoch": 1.1194893106550705,
      "grad_norm": 4.508030414581299,
      "learning_rate": 8.813250481065673e-05,
      "loss": 0.3168467044830322,
      "memory(GiB)": 61.91,
      "step": 26130,
      "token_acc": 0.9370629370629371,
      "train_speed(iter/s)": 1.46171
    },
    {
      "epoch": 1.1197035259843195,
      "grad_norm": 0.3455658555030823,
      "learning_rate": 8.812815157215466e-05,
      "loss": 0.22859432697296142,
      "memory(GiB)": 61.91,
      "step": 26135,
      "token_acc": 0.951048951048951,
      "train_speed(iter/s)": 1.461698
    },
    {
      "epoch": 1.1199177413135684,
      "grad_norm": 0.6234250664710999,
      "learning_rate": 8.812379764292535e-05,
      "loss": 0.1639164447784424,
      "memory(GiB)": 61.91,
      "step": 26140,
      "token_acc": 0.9696969696969697,
      "train_speed(iter/s)": 1.461703
    },
    {
      "epoch": 1.1201319566428174,
      "grad_norm": 7.03093147277832,
      "learning_rate": 8.81194430230477e-05,
      "loss": 0.5368332862854004,
      "memory(GiB)": 61.91,
      "step": 26145,
      "token_acc": 0.8848484848484849,
      "train_speed(iter/s)": 1.461704
    },
    {
      "epoch": 1.1203461719720664,
      "grad_norm": 3.659715414047241,
      "learning_rate": 8.811508771260058e-05,
      "loss": 0.35149564743041994,
      "memory(GiB)": 61.91,
      "step": 26150,
      "token_acc": 0.927797833935018,
      "train_speed(iter/s)": 1.461718
    },
    {
      "epoch": 1.1205603873013152,
      "grad_norm": 6.870719909667969,
      "learning_rate": 8.811073171166288e-05,
      "loss": 0.5246157646179199,
      "memory(GiB)": 61.91,
      "step": 26155,
      "token_acc": 0.8832116788321168,
      "train_speed(iter/s)": 1.461717
    },
    {
      "epoch": 1.1207746026305643,
      "grad_norm": 2.9553987979888916,
      "learning_rate": 8.810637502031354e-05,
      "loss": 0.22522883415222167,
      "memory(GiB)": 61.91,
      "step": 26160,
      "token_acc": 0.946236559139785,
      "train_speed(iter/s)": 1.461703
    },
    {
      "epoch": 1.1209888179598133,
      "grad_norm": 1.4802271127700806,
      "learning_rate": 8.810201763863145e-05,
      "loss": 0.35056252479553224,
      "memory(GiB)": 61.91,
      "step": 26165,
      "token_acc": 0.91701244813278,
      "train_speed(iter/s)": 1.46171
    },
    {
      "epoch": 1.1212030332890621,
      "grad_norm": 2.2727434635162354,
      "learning_rate": 8.809765956669558e-05,
      "loss": 0.22972548007965088,
      "memory(GiB)": 61.91,
      "step": 26170,
      "token_acc": 0.9540636042402827,
      "train_speed(iter/s)": 1.461705
    },
    {
      "epoch": 1.1214172486183112,
      "grad_norm": 5.035428047180176,
      "learning_rate": 8.809330080458487e-05,
      "loss": 0.609769630432129,
      "memory(GiB)": 61.91,
      "step": 26175,
      "token_acc": 0.8823529411764706,
      "train_speed(iter/s)": 1.461699
    },
    {
      "epoch": 1.1216314639475602,
      "grad_norm": 4.777257442474365,
      "learning_rate": 8.808894135237828e-05,
      "loss": 0.550982666015625,
      "memory(GiB)": 61.91,
      "step": 26180,
      "token_acc": 0.8766066838046273,
      "train_speed(iter/s)": 1.461685
    },
    {
      "epoch": 1.121845679276809,
      "grad_norm": 2.739004611968994,
      "learning_rate": 8.808458121015477e-05,
      "loss": 0.15362064838409423,
      "memory(GiB)": 61.91,
      "step": 26185,
      "token_acc": 0.9629629629629629,
      "train_speed(iter/s)": 1.46168
    },
    {
      "epoch": 1.122059894606058,
      "grad_norm": 2.7337646484375,
      "learning_rate": 8.808022037799337e-05,
      "loss": 0.28790113925933836,
      "memory(GiB)": 61.91,
      "step": 26190,
      "token_acc": 0.9453376205787781,
      "train_speed(iter/s)": 1.461672
    },
    {
      "epoch": 1.122274109935307,
      "grad_norm": 1.677972674369812,
      "learning_rate": 8.807585885597305e-05,
      "loss": 0.40721921920776366,
      "memory(GiB)": 61.91,
      "step": 26195,
      "token_acc": 0.8912280701754386,
      "train_speed(iter/s)": 1.461703
    },
    {
      "epoch": 1.1224883252645559,
      "grad_norm": 5.349055767059326,
      "learning_rate": 8.807149664417283e-05,
      "loss": 0.46950383186340333,
      "memory(GiB)": 61.91,
      "step": 26200,
      "token_acc": 0.9103448275862069,
      "train_speed(iter/s)": 1.461696
    },
    {
      "epoch": 1.122702540593805,
      "grad_norm": 0.5679978132247925,
      "learning_rate": 8.806713374267172e-05,
      "loss": 0.6093727111816406,
      "memory(GiB)": 61.91,
      "step": 26205,
      "token_acc": 0.8888888888888888,
      "train_speed(iter/s)": 1.461724
    },
    {
      "epoch": 1.122916755923054,
      "grad_norm": 2.052076816558838,
      "learning_rate": 8.806277015154877e-05,
      "loss": 0.6248156547546386,
      "memory(GiB)": 61.91,
      "step": 26210,
      "token_acc": 0.881578947368421,
      "train_speed(iter/s)": 1.461709
    },
    {
      "epoch": 1.1231309712523028,
      "grad_norm": 2.506183385848999,
      "learning_rate": 8.805840587088305e-05,
      "loss": 0.40237765312194823,
      "memory(GiB)": 61.91,
      "step": 26215,
      "token_acc": 0.9256756756756757,
      "train_speed(iter/s)": 1.461711
    },
    {
      "epoch": 1.1233451865815518,
      "grad_norm": 1.0284641981124878,
      "learning_rate": 8.80540409007536e-05,
      "loss": 0.2713034629821777,
      "memory(GiB)": 61.91,
      "step": 26220,
      "token_acc": 0.9455252918287937,
      "train_speed(iter/s)": 1.461703
    },
    {
      "epoch": 1.1235594019108008,
      "grad_norm": 0.7613735795021057,
      "learning_rate": 8.80496752412395e-05,
      "loss": 0.36021335124969484,
      "memory(GiB)": 61.91,
      "step": 26225,
      "token_acc": 0.8993506493506493,
      "train_speed(iter/s)": 1.461704
    },
    {
      "epoch": 1.1237736172400496,
      "grad_norm": 1.4267903566360474,
      "learning_rate": 8.804530889241984e-05,
      "loss": 0.28552565574645994,
      "memory(GiB)": 61.91,
      "step": 26230,
      "token_acc": 0.9333333333333333,
      "train_speed(iter/s)": 1.461714
    },
    {
      "epoch": 1.1239878325692987,
      "grad_norm": 1.1366699934005737,
      "learning_rate": 8.804094185437373e-05,
      "loss": 0.10604041814804077,
      "memory(GiB)": 61.91,
      "step": 26235,
      "token_acc": 0.9742765273311897,
      "train_speed(iter/s)": 1.461731
    },
    {
      "epoch": 1.1242020478985477,
      "grad_norm": 1.6727384328842163,
      "learning_rate": 8.803657412718025e-05,
      "loss": 0.5167356014251709,
      "memory(GiB)": 61.91,
      "step": 26240,
      "token_acc": 0.8833922261484098,
      "train_speed(iter/s)": 1.461784
    },
    {
      "epoch": 1.1244162632277965,
      "grad_norm": 1.7886157035827637,
      "learning_rate": 8.803220571091857e-05,
      "loss": 0.38741886615753174,
      "memory(GiB)": 61.91,
      "step": 26245,
      "token_acc": 0.9122807017543859,
      "train_speed(iter/s)": 1.461772
    },
    {
      "epoch": 1.1246304785570456,
      "grad_norm": 2.2191781997680664,
      "learning_rate": 8.80278366056678e-05,
      "loss": 0.3287331581115723,
      "memory(GiB)": 61.91,
      "step": 26250,
      "token_acc": 0.932475884244373,
      "train_speed(iter/s)": 1.461773
    },
    {
      "epoch": 1.1248446938862946,
      "grad_norm": 2.588775157928467,
      "learning_rate": 8.80234668115071e-05,
      "loss": 0.3286754608154297,
      "memory(GiB)": 61.91,
      "step": 26255,
      "token_acc": 0.9435483870967742,
      "train_speed(iter/s)": 1.46178
    },
    {
      "epoch": 1.1250589092155434,
      "grad_norm": 0.2267780303955078,
      "learning_rate": 8.801909632851561e-05,
      "loss": 0.24134862422943115,
      "memory(GiB)": 61.91,
      "step": 26260,
      "token_acc": 0.9491525423728814,
      "train_speed(iter/s)": 1.461795
    },
    {
      "epoch": 1.1252731245447924,
      "grad_norm": 6.69584846496582,
      "learning_rate": 8.801472515677255e-05,
      "loss": 0.7560809135437012,
      "memory(GiB)": 61.91,
      "step": 26265,
      "token_acc": 0.8726708074534162,
      "train_speed(iter/s)": 1.461836
    },
    {
      "epoch": 1.1254873398740415,
      "grad_norm": 2.309577226638794,
      "learning_rate": 8.801035329635707e-05,
      "loss": 0.3805506229400635,
      "memory(GiB)": 61.91,
      "step": 26270,
      "token_acc": 0.9247648902821317,
      "train_speed(iter/s)": 1.461822
    },
    {
      "epoch": 1.1257015552032903,
      "grad_norm": 2.2896904945373535,
      "learning_rate": 8.800598074734839e-05,
      "loss": 0.23543791770935057,
      "memory(GiB)": 61.91,
      "step": 26275,
      "token_acc": 0.9405099150141643,
      "train_speed(iter/s)": 1.461811
    },
    {
      "epoch": 1.1259157705325393,
      "grad_norm": 2.063399314880371,
      "learning_rate": 8.800160750982572e-05,
      "loss": 0.35433077812194824,
      "memory(GiB)": 61.91,
      "step": 26280,
      "token_acc": 0.9253731343283582,
      "train_speed(iter/s)": 1.461844
    },
    {
      "epoch": 1.1261299858617884,
      "grad_norm": 0.5752164721488953,
      "learning_rate": 8.799723358386826e-05,
      "loss": 0.19752790927886962,
      "memory(GiB)": 61.91,
      "step": 26285,
      "token_acc": 0.9543859649122807,
      "train_speed(iter/s)": 1.461853
    },
    {
      "epoch": 1.1263442011910372,
      "grad_norm": 4.012307643890381,
      "learning_rate": 8.79928589695553e-05,
      "loss": 0.8025521278381348,
      "memory(GiB)": 61.91,
      "step": 26290,
      "token_acc": 0.8689655172413793,
      "train_speed(iter/s)": 1.461876
    },
    {
      "epoch": 1.1265584165202862,
      "grad_norm": 4.477820873260498,
      "learning_rate": 8.798848366696604e-05,
      "loss": 0.4734935760498047,
      "memory(GiB)": 61.91,
      "step": 26295,
      "token_acc": 0.8969072164948454,
      "train_speed(iter/s)": 1.461867
    },
    {
      "epoch": 1.1267726318495352,
      "grad_norm": 6.467166900634766,
      "learning_rate": 8.798410767617977e-05,
      "loss": 0.26991212368011475,
      "memory(GiB)": 61.91,
      "step": 26300,
      "token_acc": 0.943609022556391,
      "train_speed(iter/s)": 1.461875
    },
    {
      "epoch": 1.126986847178784,
      "grad_norm": 3.980029582977295,
      "learning_rate": 8.797973099727575e-05,
      "loss": 0.45307326316833496,
      "memory(GiB)": 61.91,
      "step": 26305,
      "token_acc": 0.8867924528301887,
      "train_speed(iter/s)": 1.461881
    },
    {
      "epoch": 1.127201062508033,
      "grad_norm": 5.111351013183594,
      "learning_rate": 8.797535363033327e-05,
      "loss": 0.6769253253936768,
      "memory(GiB)": 61.91,
      "step": 26310,
      "token_acc": 0.8768656716417911,
      "train_speed(iter/s)": 1.461876
    },
    {
      "epoch": 1.1274152778372821,
      "grad_norm": 0.3300164043903351,
      "learning_rate": 8.797097557543166e-05,
      "loss": 0.18169888257980346,
      "memory(GiB)": 61.91,
      "step": 26315,
      "token_acc": 0.9680851063829787,
      "train_speed(iter/s)": 1.461874
    },
    {
      "epoch": 1.127629493166531,
      "grad_norm": 5.1741251945495605,
      "learning_rate": 8.796659683265019e-05,
      "loss": 0.5114869117736817,
      "memory(GiB)": 61.91,
      "step": 26320,
      "token_acc": 0.889273356401384,
      "train_speed(iter/s)": 1.461892
    },
    {
      "epoch": 1.12784370849578,
      "grad_norm": 1.7412159442901611,
      "learning_rate": 8.796221740206819e-05,
      "loss": 0.24938132762908935,
      "memory(GiB)": 61.91,
      "step": 26325,
      "token_acc": 0.9517241379310345,
      "train_speed(iter/s)": 1.461898
    },
    {
      "epoch": 1.128057923825029,
      "grad_norm": 9.390755653381348,
      "learning_rate": 8.795783728376504e-05,
      "loss": 0.3866883277893066,
      "memory(GiB)": 61.91,
      "step": 26330,
      "token_acc": 0.9068100358422939,
      "train_speed(iter/s)": 1.46194
    },
    {
      "epoch": 1.1282721391542778,
      "grad_norm": 3.1858954429626465,
      "learning_rate": 8.795345647782002e-05,
      "loss": 0.33103716373443604,
      "memory(GiB)": 61.91,
      "step": 26335,
      "token_acc": 0.9364548494983278,
      "train_speed(iter/s)": 1.461946
    },
    {
      "epoch": 1.1284863544835269,
      "grad_norm": 1.362095594406128,
      "learning_rate": 8.794907498431258e-05,
      "loss": 0.46091465950012206,
      "memory(GiB)": 61.91,
      "step": 26340,
      "token_acc": 0.9248366013071896,
      "train_speed(iter/s)": 1.461947
    },
    {
      "epoch": 1.128700569812776,
      "grad_norm": 1.0109814405441284,
      "learning_rate": 8.794469280332203e-05,
      "loss": 0.17772690057754517,
      "memory(GiB)": 61.91,
      "step": 26345,
      "token_acc": 0.968944099378882,
      "train_speed(iter/s)": 1.461963
    },
    {
      "epoch": 1.1289147851420247,
      "grad_norm": 0.17211231589317322,
      "learning_rate": 8.794030993492777e-05,
      "loss": 0.29437663555145266,
      "memory(GiB)": 61.91,
      "step": 26350,
      "token_acc": 0.9509803921568627,
      "train_speed(iter/s)": 1.461981
    },
    {
      "epoch": 1.1291290004712737,
      "grad_norm": 3.646125078201294,
      "learning_rate": 8.79359263792092e-05,
      "loss": 0.2094897747039795,
      "memory(GiB)": 61.91,
      "step": 26355,
      "token_acc": 0.9516129032258065,
      "train_speed(iter/s)": 1.461986
    },
    {
      "epoch": 1.1293432158005228,
      "grad_norm": 1.7775609493255615,
      "learning_rate": 8.793154213624572e-05,
      "loss": 0.18389105796813965,
      "memory(GiB)": 61.91,
      "step": 26360,
      "token_acc": 0.947075208913649,
      "train_speed(iter/s)": 1.461982
    },
    {
      "epoch": 1.1295574311297716,
      "grad_norm": 3.1013858318328857,
      "learning_rate": 8.792715720611682e-05,
      "loss": 0.28110852241516116,
      "memory(GiB)": 61.91,
      "step": 26365,
      "token_acc": 0.9386973180076629,
      "train_speed(iter/s)": 1.461983
    },
    {
      "epoch": 1.1297716464590206,
      "grad_norm": 4.99979829788208,
      "learning_rate": 8.792277158890185e-05,
      "loss": 0.5510260581970214,
      "memory(GiB)": 61.91,
      "step": 26370,
      "token_acc": 0.8844884488448845,
      "train_speed(iter/s)": 1.461972
    },
    {
      "epoch": 1.1299858617882697,
      "grad_norm": 4.520094871520996,
      "learning_rate": 8.791838528468031e-05,
      "loss": 0.43732423782348634,
      "memory(GiB)": 61.91,
      "step": 26375,
      "token_acc": 0.9169960474308301,
      "train_speed(iter/s)": 1.461987
    },
    {
      "epoch": 1.1302000771175185,
      "grad_norm": 3.135410785675049,
      "learning_rate": 8.791399829353166e-05,
      "loss": 0.6960330009460449,
      "memory(GiB)": 61.91,
      "step": 26380,
      "token_acc": 0.8745980707395499,
      "train_speed(iter/s)": 1.461988
    },
    {
      "epoch": 1.1304142924467675,
      "grad_norm": 3.4536800384521484,
      "learning_rate": 8.790961061553535e-05,
      "loss": 0.7386884689331055,
      "memory(GiB)": 61.91,
      "step": 26385,
      "token_acc": 0.8490566037735849,
      "train_speed(iter/s)": 1.462008
    },
    {
      "epoch": 1.1306285077760165,
      "grad_norm": 4.701251029968262,
      "learning_rate": 8.79052222507709e-05,
      "loss": 0.34480297565460205,
      "memory(GiB)": 61.91,
      "step": 26390,
      "token_acc": 0.9388646288209607,
      "train_speed(iter/s)": 1.462008
    },
    {
      "epoch": 1.1308427231052653,
      "grad_norm": 4.125917434692383,
      "learning_rate": 8.790083319931776e-05,
      "loss": 0.33802318572998047,
      "memory(GiB)": 61.91,
      "step": 26395,
      "token_acc": 0.9178571428571428,
      "train_speed(iter/s)": 1.462023
    },
    {
      "epoch": 1.1310569384345144,
      "grad_norm": 1.582581877708435,
      "learning_rate": 8.78964434612555e-05,
      "loss": 0.3007009029388428,
      "memory(GiB)": 61.91,
      "step": 26400,
      "token_acc": 0.9393939393939394,
      "train_speed(iter/s)": 1.462021
    },
    {
      "epoch": 1.1312711537637634,
      "grad_norm": 5.054229259490967,
      "learning_rate": 8.789205303666361e-05,
      "loss": 0.36643755435943604,
      "memory(GiB)": 61.91,
      "step": 26405,
      "token_acc": 0.9227799227799228,
      "train_speed(iter/s)": 1.462017
    },
    {
      "epoch": 1.1314853690930122,
      "grad_norm": 3.7279350757598877,
      "learning_rate": 8.788766192562162e-05,
      "loss": 0.48390746116638184,
      "memory(GiB)": 61.91,
      "step": 26410,
      "token_acc": 0.9177215189873418,
      "train_speed(iter/s)": 1.462024
    },
    {
      "epoch": 1.1316995844222613,
      "grad_norm": 5.66748046875,
      "learning_rate": 8.78832701282091e-05,
      "loss": 0.43849525451660154,
      "memory(GiB)": 61.91,
      "step": 26415,
      "token_acc": 0.9230769230769231,
      "train_speed(iter/s)": 1.462035
    },
    {
      "epoch": 1.1319137997515103,
      "grad_norm": 5.298398017883301,
      "learning_rate": 8.787887764450561e-05,
      "loss": 0.4307565212249756,
      "memory(GiB)": 61.91,
      "step": 26420,
      "token_acc": 0.9119718309859155,
      "train_speed(iter/s)": 1.462046
    },
    {
      "epoch": 1.132128015080759,
      "grad_norm": 2.7949657440185547,
      "learning_rate": 8.787448447459073e-05,
      "loss": 0.3090996026992798,
      "memory(GiB)": 61.91,
      "step": 26425,
      "token_acc": 0.9217687074829932,
      "train_speed(iter/s)": 1.462042
    },
    {
      "epoch": 1.1323422304100081,
      "grad_norm": 3.3758275508880615,
      "learning_rate": 8.787009061854401e-05,
      "loss": 0.41748714447021484,
      "memory(GiB)": 61.91,
      "step": 26430,
      "token_acc": 0.9101796407185628,
      "train_speed(iter/s)": 1.462044
    },
    {
      "epoch": 1.1325564457392572,
      "grad_norm": 4.111979961395264,
      "learning_rate": 8.786569607644509e-05,
      "loss": 0.6709149360656739,
      "memory(GiB)": 61.91,
      "step": 26435,
      "token_acc": 0.8595317725752508,
      "train_speed(iter/s)": 1.462065
    },
    {
      "epoch": 1.132770661068506,
      "grad_norm": 1.385623812675476,
      "learning_rate": 8.786130084837355e-05,
      "loss": 0.3760974645614624,
      "memory(GiB)": 61.91,
      "step": 26440,
      "token_acc": 0.9044368600682594,
      "train_speed(iter/s)": 1.462066
    },
    {
      "epoch": 1.132984876397755,
      "grad_norm": 5.607177257537842,
      "learning_rate": 8.785690493440904e-05,
      "loss": 0.2619167327880859,
      "memory(GiB)": 61.91,
      "step": 26445,
      "token_acc": 0.9473684210526315,
      "train_speed(iter/s)": 1.462058
    },
    {
      "epoch": 1.133199091727004,
      "grad_norm": 5.212167739868164,
      "learning_rate": 8.78525083346312e-05,
      "loss": 0.2667985200881958,
      "memory(GiB)": 61.91,
      "step": 26450,
      "token_acc": 0.9486301369863014,
      "train_speed(iter/s)": 1.462072
    },
    {
      "epoch": 1.1334133070562529,
      "grad_norm": 1.5862174034118652,
      "learning_rate": 8.784811104911962e-05,
      "loss": 0.33330023288726807,
      "memory(GiB)": 61.91,
      "step": 26455,
      "token_acc": 0.9411764705882353,
      "train_speed(iter/s)": 1.462076
    },
    {
      "epoch": 1.133627522385502,
      "grad_norm": 3.704350233078003,
      "learning_rate": 8.784371307795403e-05,
      "loss": 0.2546100616455078,
      "memory(GiB)": 61.91,
      "step": 26460,
      "token_acc": 0.9391025641025641,
      "train_speed(iter/s)": 1.462098
    },
    {
      "epoch": 1.133841737714751,
      "grad_norm": 4.092438220977783,
      "learning_rate": 8.783931442121409e-05,
      "loss": 0.5389917850494385,
      "memory(GiB)": 61.91,
      "step": 26465,
      "token_acc": 0.8873720136518771,
      "train_speed(iter/s)": 1.46212
    },
    {
      "epoch": 1.1340559530439998,
      "grad_norm": 3.689357280731201,
      "learning_rate": 8.783491507897946e-05,
      "loss": 0.33945412635803224,
      "memory(GiB)": 61.91,
      "step": 26470,
      "token_acc": 0.9273356401384083,
      "train_speed(iter/s)": 1.462142
    },
    {
      "epoch": 1.1342701683732488,
      "grad_norm": 3.49214506149292,
      "learning_rate": 8.783051505132984e-05,
      "loss": 0.35528762340545655,
      "memory(GiB)": 61.91,
      "step": 26475,
      "token_acc": 0.9236363636363636,
      "train_speed(iter/s)": 1.462168
    },
    {
      "epoch": 1.1344843837024978,
      "grad_norm": 4.826119899749756,
      "learning_rate": 8.782611433834497e-05,
      "loss": 0.3468620300292969,
      "memory(GiB)": 61.91,
      "step": 26480,
      "token_acc": 0.9224489795918367,
      "train_speed(iter/s)": 1.462165
    },
    {
      "epoch": 1.1346985990317466,
      "grad_norm": 1.4491357803344727,
      "learning_rate": 8.782171294010455e-05,
      "loss": 0.31558690071105955,
      "memory(GiB)": 61.91,
      "step": 26485,
      "token_acc": 0.927710843373494,
      "train_speed(iter/s)": 1.462178
    },
    {
      "epoch": 1.1349128143609957,
      "grad_norm": 11.554035186767578,
      "learning_rate": 8.781731085668831e-05,
      "loss": 0.48640732765197753,
      "memory(GiB)": 61.91,
      "step": 26490,
      "token_acc": 0.9188191881918819,
      "train_speed(iter/s)": 1.462175
    },
    {
      "epoch": 1.1351270296902447,
      "grad_norm": 6.421611785888672,
      "learning_rate": 8.781290808817602e-05,
      "loss": 0.8330686569213868,
      "memory(GiB)": 61.91,
      "step": 26495,
      "token_acc": 0.834920634920635,
      "train_speed(iter/s)": 1.46222
    },
    {
      "epoch": 1.1353412450194935,
      "grad_norm": 3.354543447494507,
      "learning_rate": 8.780850463464742e-05,
      "loss": 0.2645491361618042,
      "memory(GiB)": 61.91,
      "step": 26500,
      "token_acc": 0.9497041420118343,
      "train_speed(iter/s)": 1.462231
    },
    {
      "epoch": 1.1353412450194935,
      "eval_loss": 2.7438652515411377,
      "eval_runtime": 13.9044,
      "eval_samples_per_second": 7.192,
      "eval_steps_per_second": 7.192,
      "eval_token_acc": 0.40942562592047127,
      "step": 26500
    },
    {
      "epoch": 1.1355554603487426,
      "grad_norm": 4.273571968078613,
      "learning_rate": 8.78041004961823e-05,
      "loss": 0.12824413776397706,
      "memory(GiB)": 61.91,
      "step": 26505,
      "token_acc": 0.5770423991726991,
      "train_speed(iter/s)": 1.46105
    },
    {
      "epoch": 1.1357696756779916,
      "grad_norm": 1.6561557054519653,
      "learning_rate": 8.779969567286044e-05,
      "loss": 0.3181114435195923,
      "memory(GiB)": 61.91,
      "step": 26510,
      "token_acc": 0.9368770764119602,
      "train_speed(iter/s)": 1.461042
    },
    {
      "epoch": 1.1359838910072404,
      "grad_norm": 3.3794522285461426,
      "learning_rate": 8.779529016476163e-05,
      "loss": 0.55096435546875,
      "memory(GiB)": 61.91,
      "step": 26515,
      "token_acc": 0.8908450704225352,
      "train_speed(iter/s)": 1.461052
    },
    {
      "epoch": 1.1361981063364894,
      "grad_norm": 4.289788722991943,
      "learning_rate": 8.779088397196567e-05,
      "loss": 0.42473573684692384,
      "memory(GiB)": 61.91,
      "step": 26520,
      "token_acc": 0.935064935064935,
      "train_speed(iter/s)": 1.461049
    },
    {
      "epoch": 1.1364123216657385,
      "grad_norm": 5.276933670043945,
      "learning_rate": 8.778647709455241e-05,
      "loss": 0.4002220153808594,
      "memory(GiB)": 61.91,
      "step": 26525,
      "token_acc": 0.9037267080745341,
      "train_speed(iter/s)": 1.461044
    },
    {
      "epoch": 1.1366265369949873,
      "grad_norm": 2.022319793701172,
      "learning_rate": 8.778206953260166e-05,
      "loss": 0.40973901748657227,
      "memory(GiB)": 61.91,
      "step": 26530,
      "token_acc": 0.9123376623376623,
      "train_speed(iter/s)": 1.461049
    },
    {
      "epoch": 1.1368407523242363,
      "grad_norm": 2.8799374103546143,
      "learning_rate": 8.77776612861933e-05,
      "loss": 0.248968505859375,
      "memory(GiB)": 61.91,
      "step": 26535,
      "token_acc": 0.924901185770751,
      "train_speed(iter/s)": 1.461031
    },
    {
      "epoch": 1.1370549676534853,
      "grad_norm": 3.935370445251465,
      "learning_rate": 8.777325235540715e-05,
      "loss": 0.5882336139678955,
      "memory(GiB)": 61.91,
      "step": 26540,
      "token_acc": 0.9003115264797508,
      "train_speed(iter/s)": 1.461056
    },
    {
      "epoch": 1.1372691829827342,
      "grad_norm": 2.681248426437378,
      "learning_rate": 8.776884274032309e-05,
      "loss": 0.5274367809295655,
      "memory(GiB)": 61.91,
      "step": 26545,
      "token_acc": 0.8996865203761756,
      "train_speed(iter/s)": 1.461061
    },
    {
      "epoch": 1.1374833983119832,
      "grad_norm": 3.3033900260925293,
      "learning_rate": 8.776443244102103e-05,
      "loss": 0.274369478225708,
      "memory(GiB)": 61.91,
      "step": 26550,
      "token_acc": 0.9049429657794676,
      "train_speed(iter/s)": 1.461078
    },
    {
      "epoch": 1.1376976136412322,
      "grad_norm": 0.2870866358280182,
      "learning_rate": 8.776002145758084e-05,
      "loss": 0.30403268337249756,
      "memory(GiB)": 61.91,
      "step": 26555,
      "token_acc": 0.950354609929078,
      "train_speed(iter/s)": 1.46107
    },
    {
      "epoch": 1.137911828970481,
      "grad_norm": 3.863036870956421,
      "learning_rate": 8.775560979008244e-05,
      "loss": 0.3843610525131226,
      "memory(GiB)": 61.91,
      "step": 26560,
      "token_acc": 0.9130434782608695,
      "train_speed(iter/s)": 1.46111
    },
    {
      "epoch": 1.13812604429973,
      "grad_norm": 3.814878225326538,
      "learning_rate": 8.775119743860576e-05,
      "loss": 0.5964557647705078,
      "memory(GiB)": 61.91,
      "step": 26565,
      "token_acc": 0.8904593639575972,
      "train_speed(iter/s)": 1.461148
    },
    {
      "epoch": 1.1383402596289791,
      "grad_norm": 7.409132957458496,
      "learning_rate": 8.774678440323072e-05,
      "loss": 0.43335652351379395,
      "memory(GiB)": 61.91,
      "step": 26570,
      "token_acc": 0.9151943462897526,
      "train_speed(iter/s)": 1.461151
    },
    {
      "epoch": 1.138554474958228,
      "grad_norm": 2.808820962905884,
      "learning_rate": 8.774237068403727e-05,
      "loss": 0.589351224899292,
      "memory(GiB)": 61.91,
      "step": 26575,
      "token_acc": 0.875886524822695,
      "train_speed(iter/s)": 1.461155
    },
    {
      "epoch": 1.138768690287477,
      "grad_norm": 6.124139785766602,
      "learning_rate": 8.773795628110539e-05,
      "loss": 0.608174180984497,
      "memory(GiB)": 61.91,
      "step": 26580,
      "token_acc": 0.8888888888888888,
      "train_speed(iter/s)": 1.461144
    },
    {
      "epoch": 1.138982905616726,
      "grad_norm": 2.435736894607544,
      "learning_rate": 8.7733541194515e-05,
      "loss": 0.39284548759460447,
      "memory(GiB)": 61.91,
      "step": 26585,
      "token_acc": 0.9078014184397163,
      "train_speed(iter/s)": 1.461144
    },
    {
      "epoch": 1.1391971209459748,
      "grad_norm": 5.412548542022705,
      "learning_rate": 8.772912542434613e-05,
      "loss": 0.7333405971527099,
      "memory(GiB)": 61.91,
      "step": 26590,
      "token_acc": 0.8576051779935275,
      "train_speed(iter/s)": 1.461181
    },
    {
      "epoch": 1.1394113362752238,
      "grad_norm": 3.823418378829956,
      "learning_rate": 8.772470897067877e-05,
      "loss": 0.1958150625228882,
      "memory(GiB)": 61.91,
      "step": 26595,
      "token_acc": 0.9457627118644067,
      "train_speed(iter/s)": 1.461176
    },
    {
      "epoch": 1.1396255516044729,
      "grad_norm": 1.6777039766311646,
      "learning_rate": 8.772029183359289e-05,
      "loss": 0.36051928997039795,
      "memory(GiB)": 61.91,
      "step": 26600,
      "token_acc": 0.920265780730897,
      "train_speed(iter/s)": 1.461184
    },
    {
      "epoch": 1.1398397669337217,
      "grad_norm": 6.240048885345459,
      "learning_rate": 8.771587401316856e-05,
      "loss": 0.4356318473815918,
      "memory(GiB)": 61.91,
      "step": 26605,
      "token_acc": 0.8880597014925373,
      "train_speed(iter/s)": 1.461173
    },
    {
      "epoch": 1.1400539822629707,
      "grad_norm": 0.8438418507575989,
      "learning_rate": 8.771145550948579e-05,
      "loss": 0.2984419584274292,
      "memory(GiB)": 61.91,
      "step": 26610,
      "token_acc": 0.926605504587156,
      "train_speed(iter/s)": 1.461174
    },
    {
      "epoch": 1.1402681975922198,
      "grad_norm": 6.933533191680908,
      "learning_rate": 8.770703632262463e-05,
      "loss": 0.3161618232727051,
      "memory(GiB)": 61.91,
      "step": 26615,
      "token_acc": 0.9428571428571428,
      "train_speed(iter/s)": 1.461179
    },
    {
      "epoch": 1.1404824129214686,
      "grad_norm": 15.130616188049316,
      "learning_rate": 8.770261645266513e-05,
      "loss": 0.3326070547103882,
      "memory(GiB)": 61.91,
      "step": 26620,
      "token_acc": 0.9011406844106464,
      "train_speed(iter/s)": 1.46118
    },
    {
      "epoch": 1.1406966282507176,
      "grad_norm": 4.683438301086426,
      "learning_rate": 8.769819589968737e-05,
      "loss": 0.6716950416564942,
      "memory(GiB)": 61.91,
      "step": 26625,
      "token_acc": 0.8548895899053628,
      "train_speed(iter/s)": 1.461219
    },
    {
      "epoch": 1.1409108435799666,
      "grad_norm": 4.932214260101318,
      "learning_rate": 8.76937746637714e-05,
      "loss": 0.5809123516082764,
      "memory(GiB)": 61.91,
      "step": 26630,
      "token_acc": 0.8966789667896679,
      "train_speed(iter/s)": 1.461204
    },
    {
      "epoch": 1.1411250589092155,
      "grad_norm": 3.569580078125,
      "learning_rate": 8.768935274499738e-05,
      "loss": 0.4189265251159668,
      "memory(GiB)": 61.91,
      "step": 26635,
      "token_acc": 0.9132075471698113,
      "train_speed(iter/s)": 1.461195
    },
    {
      "epoch": 1.1413392742384645,
      "grad_norm": 5.013300895690918,
      "learning_rate": 8.768493014344536e-05,
      "loss": 0.6613543033599854,
      "memory(GiB)": 61.91,
      "step": 26640,
      "token_acc": 0.8796296296296297,
      "train_speed(iter/s)": 1.461189
    },
    {
      "epoch": 1.1415534895677135,
      "grad_norm": 7.03164005279541,
      "learning_rate": 8.768050685919548e-05,
      "loss": 0.3545989513397217,
      "memory(GiB)": 61.91,
      "step": 26645,
      "token_acc": 0.9285714285714286,
      "train_speed(iter/s)": 1.461196
    },
    {
      "epoch": 1.1417677048969623,
      "grad_norm": 3.2936513423919678,
      "learning_rate": 8.767608289232787e-05,
      "loss": 0.41465468406677247,
      "memory(GiB)": 61.91,
      "step": 26650,
      "token_acc": 0.9084745762711864,
      "train_speed(iter/s)": 1.461194
    },
    {
      "epoch": 1.1419819202262114,
      "grad_norm": 2.45546293258667,
      "learning_rate": 8.767165824292269e-05,
      "loss": 0.5031896591186523,
      "memory(GiB)": 61.91,
      "step": 26655,
      "token_acc": 0.9101123595505618,
      "train_speed(iter/s)": 1.461234
    },
    {
      "epoch": 1.1421961355554604,
      "grad_norm": 4.533189296722412,
      "learning_rate": 8.766723291106007e-05,
      "loss": 0.4757691860198975,
      "memory(GiB)": 61.91,
      "step": 26660,
      "token_acc": 0.891156462585034,
      "train_speed(iter/s)": 1.461244
    },
    {
      "epoch": 1.1424103508847092,
      "grad_norm": 3.5602285861968994,
      "learning_rate": 8.76628068968202e-05,
      "loss": 0.6425958156585694,
      "memory(GiB)": 61.91,
      "step": 26665,
      "token_acc": 0.8527397260273972,
      "train_speed(iter/s)": 1.461326
    },
    {
      "epoch": 1.1426245662139582,
      "grad_norm": 2.2294564247131348,
      "learning_rate": 8.765838020028322e-05,
      "loss": 0.14861805438995362,
      "memory(GiB)": 61.91,
      "step": 26670,
      "token_acc": 0.9695817490494296,
      "train_speed(iter/s)": 1.461358
    },
    {
      "epoch": 1.1428387815432073,
      "grad_norm": 4.039392948150635,
      "learning_rate": 8.76539528215294e-05,
      "loss": 0.47201013565063477,
      "memory(GiB)": 61.91,
      "step": 26675,
      "token_acc": 0.8936170212765957,
      "train_speed(iter/s)": 1.461381
    },
    {
      "epoch": 1.143052996872456,
      "grad_norm": 2.3085455894470215,
      "learning_rate": 8.764952476063887e-05,
      "loss": 0.45480642318725584,
      "memory(GiB)": 61.91,
      "step": 26680,
      "token_acc": 0.9080882352941176,
      "train_speed(iter/s)": 1.461385
    },
    {
      "epoch": 1.1432672122017051,
      "grad_norm": 2.8155980110168457,
      "learning_rate": 8.76450960176919e-05,
      "loss": 0.2605112552642822,
      "memory(GiB)": 61.91,
      "step": 26685,
      "token_acc": 0.9377049180327869,
      "train_speed(iter/s)": 1.461388
    },
    {
      "epoch": 1.1434814275309542,
      "grad_norm": 2.4411351680755615,
      "learning_rate": 8.76406665927687e-05,
      "loss": 0.22828738689422606,
      "memory(GiB)": 61.91,
      "step": 26690,
      "token_acc": 0.9515570934256056,
      "train_speed(iter/s)": 1.461393
    },
    {
      "epoch": 1.143695642860203,
      "grad_norm": 3.1956703662872314,
      "learning_rate": 8.763623648594952e-05,
      "loss": 0.4074734687805176,
      "memory(GiB)": 61.91,
      "step": 26695,
      "token_acc": 0.9193548387096774,
      "train_speed(iter/s)": 1.46139
    },
    {
      "epoch": 1.143909858189452,
      "grad_norm": 4.64717435836792,
      "learning_rate": 8.76318056973146e-05,
      "loss": 0.3331305503845215,
      "memory(GiB)": 61.91,
      "step": 26700,
      "token_acc": 0.9344827586206896,
      "train_speed(iter/s)": 1.461379
    },
    {
      "epoch": 1.144124073518701,
      "grad_norm": 3.197009325027466,
      "learning_rate": 8.762737422694423e-05,
      "loss": 0.27103993892669676,
      "memory(GiB)": 61.91,
      "step": 26705,
      "token_acc": 0.9338235294117647,
      "train_speed(iter/s)": 1.461402
    },
    {
      "epoch": 1.1443382888479499,
      "grad_norm": 3.5140109062194824,
      "learning_rate": 8.762294207491865e-05,
      "loss": 0.4616459846496582,
      "memory(GiB)": 61.91,
      "step": 26710,
      "token_acc": 0.9119496855345912,
      "train_speed(iter/s)": 1.461398
    },
    {
      "epoch": 1.144552504177199,
      "grad_norm": 10.521489143371582,
      "learning_rate": 8.761850924131821e-05,
      "loss": 0.36064810752868653,
      "memory(GiB)": 61.91,
      "step": 26715,
      "token_acc": 0.922077922077922,
      "train_speed(iter/s)": 1.461414
    },
    {
      "epoch": 1.144766719506448,
      "grad_norm": 1.628326654434204,
      "learning_rate": 8.761407572622318e-05,
      "loss": 0.41204233169555665,
      "memory(GiB)": 61.91,
      "step": 26720,
      "token_acc": 0.9260700389105059,
      "train_speed(iter/s)": 1.46142
    },
    {
      "epoch": 1.1449809348356967,
      "grad_norm": 2.1768410205841064,
      "learning_rate": 8.760964152971387e-05,
      "loss": 0.41211891174316406,
      "memory(GiB)": 61.91,
      "step": 26725,
      "token_acc": 0.8968253968253969,
      "train_speed(iter/s)": 1.461422
    },
    {
      "epoch": 1.1451951501649458,
      "grad_norm": 4.617672920227051,
      "learning_rate": 8.760520665187064e-05,
      "loss": 0.3817413091659546,
      "memory(GiB)": 61.91,
      "step": 26730,
      "token_acc": 0.9230769230769231,
      "train_speed(iter/s)": 1.461434
    },
    {
      "epoch": 1.1454093654941948,
      "grad_norm": 0.8221848607063293,
      "learning_rate": 8.760077109277381e-05,
      "loss": 0.2713869333267212,
      "memory(GiB)": 61.91,
      "step": 26735,
      "token_acc": 0.939799331103679,
      "train_speed(iter/s)": 1.461442
    },
    {
      "epoch": 1.1456235808234436,
      "grad_norm": 2.6634857654571533,
      "learning_rate": 8.759633485250372e-05,
      "loss": 0.32805671691894533,
      "memory(GiB)": 61.91,
      "step": 26740,
      "token_acc": 0.935374149659864,
      "train_speed(iter/s)": 1.461467
    },
    {
      "epoch": 1.1458377961526927,
      "grad_norm": 5.354935169219971,
      "learning_rate": 8.759189793114077e-05,
      "loss": 0.5214598655700684,
      "memory(GiB)": 61.91,
      "step": 26745,
      "token_acc": 0.9024390243902439,
      "train_speed(iter/s)": 1.461495
    },
    {
      "epoch": 1.1460520114819417,
      "grad_norm": 0.3496028780937195,
      "learning_rate": 8.758746032876534e-05,
      "loss": 0.2831345796585083,
      "memory(GiB)": 61.91,
      "step": 26750,
      "token_acc": 0.943217665615142,
      "train_speed(iter/s)": 1.461531
    },
    {
      "epoch": 1.1462662268111905,
      "grad_norm": 4.514954090118408,
      "learning_rate": 8.758302204545779e-05,
      "loss": 0.5584105491638184,
      "memory(GiB)": 61.91,
      "step": 26755,
      "token_acc": 0.8927335640138409,
      "train_speed(iter/s)": 1.461531
    },
    {
      "epoch": 1.1464804421404395,
      "grad_norm": 1.5539497137069702,
      "learning_rate": 8.757858308129854e-05,
      "loss": 0.32678513526916503,
      "memory(GiB)": 61.91,
      "step": 26760,
      "token_acc": 0.9171974522292994,
      "train_speed(iter/s)": 1.461536
    },
    {
      "epoch": 1.1466946574696886,
      "grad_norm": 2.7008018493652344,
      "learning_rate": 8.7574143436368e-05,
      "loss": 0.3492297887802124,
      "memory(GiB)": 61.91,
      "step": 26765,
      "token_acc": 0.9217687074829932,
      "train_speed(iter/s)": 1.461547
    },
    {
      "epoch": 1.1469088727989374,
      "grad_norm": 2.5524442195892334,
      "learning_rate": 8.756970311074663e-05,
      "loss": 0.4269843578338623,
      "memory(GiB)": 61.91,
      "step": 26770,
      "token_acc": 0.9094488188976378,
      "train_speed(iter/s)": 1.461554
    },
    {
      "epoch": 1.1471230881281864,
      "grad_norm": 2.3108484745025635,
      "learning_rate": 8.756526210451483e-05,
      "loss": 0.26482362747192384,
      "memory(GiB)": 61.91,
      "step": 26775,
      "token_acc": 0.9353846153846154,
      "train_speed(iter/s)": 1.461555
    },
    {
      "epoch": 1.1473373034574355,
      "grad_norm": 2.869001626968384,
      "learning_rate": 8.756082041775307e-05,
      "loss": 0.6392002582550049,
      "memory(GiB)": 61.91,
      "step": 26780,
      "token_acc": 0.871875,
      "train_speed(iter/s)": 1.461598
    },
    {
      "epoch": 1.1475515187866843,
      "grad_norm": 6.049563407897949,
      "learning_rate": 8.75563780505418e-05,
      "loss": 0.6253294467926025,
      "memory(GiB)": 61.91,
      "step": 26785,
      "token_acc": 0.8726591760299626,
      "train_speed(iter/s)": 1.461587
    },
    {
      "epoch": 1.1477657341159333,
      "grad_norm": 1.2965211868286133,
      "learning_rate": 8.755193500296152e-05,
      "loss": 0.3923739671707153,
      "memory(GiB)": 61.91,
      "step": 26790,
      "token_acc": 0.9235668789808917,
      "train_speed(iter/s)": 1.461593
    },
    {
      "epoch": 1.1479799494451823,
      "grad_norm": 7.631797790527344,
      "learning_rate": 8.75474912750927e-05,
      "loss": 0.21072850227355958,
      "memory(GiB)": 61.91,
      "step": 26795,
      "token_acc": 0.9386281588447654,
      "train_speed(iter/s)": 1.461596
    },
    {
      "epoch": 1.1481941647744311,
      "grad_norm": 2.7792611122131348,
      "learning_rate": 8.754304686701588e-05,
      "loss": 0.4612226963043213,
      "memory(GiB)": 61.91,
      "step": 26800,
      "token_acc": 0.8919667590027701,
      "train_speed(iter/s)": 1.461581
    },
    {
      "epoch": 1.1484083801036802,
      "grad_norm": 5.018490791320801,
      "learning_rate": 8.753860177881153e-05,
      "loss": 0.2552131414413452,
      "memory(GiB)": 61.91,
      "step": 26805,
      "token_acc": 0.9423076923076923,
      "train_speed(iter/s)": 1.461585
    },
    {
      "epoch": 1.1486225954329292,
      "grad_norm": 4.857707977294922,
      "learning_rate": 8.753415601056019e-05,
      "loss": 0.338424825668335,
      "memory(GiB)": 61.91,
      "step": 26810,
      "token_acc": 0.9384057971014492,
      "train_speed(iter/s)": 1.461578
    },
    {
      "epoch": 1.148836810762178,
      "grad_norm": 5.596978187561035,
      "learning_rate": 8.752970956234242e-05,
      "loss": 0.4507925987243652,
      "memory(GiB)": 61.91,
      "step": 26815,
      "token_acc": 0.9196141479099679,
      "train_speed(iter/s)": 1.461583
    },
    {
      "epoch": 1.149051026091427,
      "grad_norm": 2.386216878890991,
      "learning_rate": 8.752526243423874e-05,
      "loss": 0.4013469696044922,
      "memory(GiB)": 61.91,
      "step": 26820,
      "token_acc": 0.9387755102040817,
      "train_speed(iter/s)": 1.461588
    },
    {
      "epoch": 1.149265241420676,
      "grad_norm": 2.2629246711730957,
      "learning_rate": 8.752081462632973e-05,
      "loss": 0.404984188079834,
      "memory(GiB)": 61.91,
      "step": 26825,
      "token_acc": 0.9,
      "train_speed(iter/s)": 1.461592
    },
    {
      "epoch": 1.149479456749925,
      "grad_norm": 2.845334529876709,
      "learning_rate": 8.751636613869599e-05,
      "loss": 0.2315990447998047,
      "memory(GiB)": 61.91,
      "step": 26830,
      "token_acc": 0.9565217391304348,
      "train_speed(iter/s)": 1.461589
    },
    {
      "epoch": 1.149693672079174,
      "grad_norm": 3.614377975463867,
      "learning_rate": 8.751191697141805e-05,
      "loss": 0.2555378437042236,
      "memory(GiB)": 61.91,
      "step": 26835,
      "token_acc": 0.9553264604810997,
      "train_speed(iter/s)": 1.461612
    },
    {
      "epoch": 1.149907887408423,
      "grad_norm": 1.2070457935333252,
      "learning_rate": 8.750746712457656e-05,
      "loss": 0.4660207748413086,
      "memory(GiB)": 61.91,
      "step": 26840,
      "token_acc": 0.911042944785276,
      "train_speed(iter/s)": 1.461634
    },
    {
      "epoch": 1.1501221027376718,
      "grad_norm": 6.598074913024902,
      "learning_rate": 8.750301659825213e-05,
      "loss": 0.41602044105529784,
      "memory(GiB)": 61.91,
      "step": 26845,
      "token_acc": 0.8916967509025271,
      "train_speed(iter/s)": 1.461631
    },
    {
      "epoch": 1.1503363180669208,
      "grad_norm": 3.4315176010131836,
      "learning_rate": 8.749856539252537e-05,
      "loss": 0.35334115028381347,
      "memory(GiB)": 61.91,
      "step": 26850,
      "token_acc": 0.9411764705882353,
      "train_speed(iter/s)": 1.461692
    },
    {
      "epoch": 1.1505505333961699,
      "grad_norm": 3.621868133544922,
      "learning_rate": 8.749411350747691e-05,
      "loss": 0.23037028312683105,
      "memory(GiB)": 61.91,
      "step": 26855,
      "token_acc": 0.9488636363636364,
      "train_speed(iter/s)": 1.461677
    },
    {
      "epoch": 1.1507647487254187,
      "grad_norm": 3.2805111408233643,
      "learning_rate": 8.74896609431874e-05,
      "loss": 0.44887447357177734,
      "memory(GiB)": 61.91,
      "step": 26860,
      "token_acc": 0.9055944055944056,
      "train_speed(iter/s)": 1.461666
    },
    {
      "epoch": 1.1509789640546677,
      "grad_norm": 5.436990261077881,
      "learning_rate": 8.748520769973754e-05,
      "loss": 0.36088948249816893,
      "memory(GiB)": 61.91,
      "step": 26865,
      "token_acc": 0.9271523178807947,
      "train_speed(iter/s)": 1.461659
    },
    {
      "epoch": 1.1511931793839167,
      "grad_norm": 1.8816511631011963,
      "learning_rate": 8.748075377720796e-05,
      "loss": 0.5005486965179443,
      "memory(GiB)": 61.91,
      "step": 26870,
      "token_acc": 0.8940809968847352,
      "train_speed(iter/s)": 1.461669
    },
    {
      "epoch": 1.1514073947131656,
      "grad_norm": 0.316930890083313,
      "learning_rate": 8.747629917567938e-05,
      "loss": 0.21820466518402098,
      "memory(GiB)": 61.91,
      "step": 26875,
      "token_acc": 0.9518072289156626,
      "train_speed(iter/s)": 1.461662
    },
    {
      "epoch": 1.1516216100424146,
      "grad_norm": 0.2483154833316803,
      "learning_rate": 8.747184389523249e-05,
      "loss": 0.3985395908355713,
      "memory(GiB)": 61.91,
      "step": 26880,
      "token_acc": 0.9189944134078212,
      "train_speed(iter/s)": 1.46168
    },
    {
      "epoch": 1.1518358253716636,
      "grad_norm": 2.2917938232421875,
      "learning_rate": 8.746738793594798e-05,
      "loss": 0.6126693248748779,
      "memory(GiB)": 61.91,
      "step": 26885,
      "token_acc": 0.8600583090379009,
      "train_speed(iter/s)": 1.461669
    },
    {
      "epoch": 1.1520500407009124,
      "grad_norm": 2.5798611640930176,
      "learning_rate": 8.746293129790659e-05,
      "loss": 0.6437596797943115,
      "memory(GiB)": 61.91,
      "step": 26890,
      "token_acc": 0.8637602179836512,
      "train_speed(iter/s)": 1.461658
    },
    {
      "epoch": 1.1522642560301615,
      "grad_norm": 2.5376362800598145,
      "learning_rate": 8.745847398118906e-05,
      "loss": 0.4123214244842529,
      "memory(GiB)": 61.91,
      "step": 26895,
      "token_acc": 0.9235880398671097,
      "train_speed(iter/s)": 1.461679
    },
    {
      "epoch": 1.1524784713594105,
      "grad_norm": 5.213351249694824,
      "learning_rate": 8.745401598587614e-05,
      "loss": 0.5159083366394043,
      "memory(GiB)": 61.91,
      "step": 26900,
      "token_acc": 0.8927335640138409,
      "train_speed(iter/s)": 1.461679
    },
    {
      "epoch": 1.1526926866886593,
      "grad_norm": 2.3423850536346436,
      "learning_rate": 8.744955731204858e-05,
      "loss": 0.29472510814666747,
      "memory(GiB)": 61.91,
      "step": 26905,
      "token_acc": 0.9442231075697212,
      "train_speed(iter/s)": 1.461685
    },
    {
      "epoch": 1.1529069020179084,
      "grad_norm": 0.2404128909111023,
      "learning_rate": 8.744509795978716e-05,
      "loss": 0.4204659938812256,
      "memory(GiB)": 61.91,
      "step": 26910,
      "token_acc": 0.9124087591240876,
      "train_speed(iter/s)": 1.461665
    },
    {
      "epoch": 1.1531211173471574,
      "grad_norm": 3.8732352256774902,
      "learning_rate": 8.744063792917267e-05,
      "loss": 0.7047980785369873,
      "memory(GiB)": 61.91,
      "step": 26915,
      "token_acc": 0.8598130841121495,
      "train_speed(iter/s)": 1.461693
    },
    {
      "epoch": 1.1533353326764062,
      "grad_norm": 8.14934253692627,
      "learning_rate": 8.74361772202859e-05,
      "loss": 0.4716783046722412,
      "memory(GiB)": 61.91,
      "step": 26920,
      "token_acc": 0.8976897689768977,
      "train_speed(iter/s)": 1.46169
    },
    {
      "epoch": 1.1535495480056552,
      "grad_norm": 3.923034429550171,
      "learning_rate": 8.743171583320765e-05,
      "loss": 0.5041105270385742,
      "memory(GiB)": 61.91,
      "step": 26925,
      "token_acc": 0.89272030651341,
      "train_speed(iter/s)": 1.461681
    },
    {
      "epoch": 1.1537637633349043,
      "grad_norm": 3.038620710372925,
      "learning_rate": 8.742725376801877e-05,
      "loss": 0.49754629135131834,
      "memory(GiB)": 61.91,
      "step": 26930,
      "token_acc": 0.889273356401384,
      "train_speed(iter/s)": 1.461668
    },
    {
      "epoch": 1.1539779786641533,
      "grad_norm": 2.773599863052368,
      "learning_rate": 8.742279102480007e-05,
      "loss": 0.600126075744629,
      "memory(GiB)": 61.91,
      "step": 26935,
      "token_acc": 0.8857142857142857,
      "train_speed(iter/s)": 1.461668
    },
    {
      "epoch": 1.1541921939934021,
      "grad_norm": 4.7869648933410645,
      "learning_rate": 8.74183276036324e-05,
      "loss": 0.6292204856872559,
      "memory(GiB)": 61.91,
      "step": 26940,
      "token_acc": 0.8664122137404581,
      "train_speed(iter/s)": 1.46169
    },
    {
      "epoch": 1.1544064093226512,
      "grad_norm": 3.7261319160461426,
      "learning_rate": 8.741386350459663e-05,
      "loss": 0.4502689361572266,
      "memory(GiB)": 61.91,
      "step": 26945,
      "token_acc": 0.8853046594982079,
      "train_speed(iter/s)": 1.46171
    },
    {
      "epoch": 1.1546206246519002,
      "grad_norm": 1.4275434017181396,
      "learning_rate": 8.740939872777363e-05,
      "loss": 0.3404550075531006,
      "memory(GiB)": 61.91,
      "step": 26950,
      "token_acc": 0.9347826086956522,
      "train_speed(iter/s)": 1.461703
    },
    {
      "epoch": 1.154834839981149,
      "grad_norm": 1.018642783164978,
      "learning_rate": 8.740493327324425e-05,
      "loss": 0.3515539407730103,
      "memory(GiB)": 61.91,
      "step": 26955,
      "token_acc": 0.9274447949526814,
      "train_speed(iter/s)": 1.461741
    },
    {
      "epoch": 1.155049055310398,
      "grad_norm": 4.763855934143066,
      "learning_rate": 8.740046714108947e-05,
      "loss": 0.5544607162475585,
      "memory(GiB)": 61.91,
      "step": 26960,
      "token_acc": 0.8859060402684564,
      "train_speed(iter/s)": 1.46174
    },
    {
      "epoch": 1.155263270639647,
      "grad_norm": 2.9768805503845215,
      "learning_rate": 8.739600033139011e-05,
      "loss": 0.6591886043548584,
      "memory(GiB)": 61.91,
      "step": 26965,
      "token_acc": 0.8579710144927536,
      "train_speed(iter/s)": 1.461741
    },
    {
      "epoch": 1.1554774859688959,
      "grad_norm": 2.7662746906280518,
      "learning_rate": 8.739153284422712e-05,
      "loss": 0.3039403915405273,
      "memory(GiB)": 61.91,
      "step": 26970,
      "token_acc": 0.925531914893617,
      "train_speed(iter/s)": 1.461734
    },
    {
      "epoch": 1.155691701298145,
      "grad_norm": 4.4477763175964355,
      "learning_rate": 8.738706467968145e-05,
      "loss": 0.16495518684387206,
      "memory(GiB)": 61.91,
      "step": 26975,
      "token_acc": 0.9580152671755725,
      "train_speed(iter/s)": 1.461738
    },
    {
      "epoch": 1.155905916627394,
      "grad_norm": 4.663832664489746,
      "learning_rate": 8.738259583783401e-05,
      "loss": 0.4200472354888916,
      "memory(GiB)": 61.91,
      "step": 26980,
      "token_acc": 0.9052631578947369,
      "train_speed(iter/s)": 1.461747
    },
    {
      "epoch": 1.1561201319566428,
      "grad_norm": 2.6624226570129395,
      "learning_rate": 8.737812631876581e-05,
      "loss": 0.27507672309875486,
      "memory(GiB)": 61.91,
      "step": 26985,
      "token_acc": 0.942652329749104,
      "train_speed(iter/s)": 1.461761
    },
    {
      "epoch": 1.1563343472858918,
      "grad_norm": 3.916761875152588,
      "learning_rate": 8.737365612255777e-05,
      "loss": 0.6516876220703125,
      "memory(GiB)": 61.91,
      "step": 26990,
      "token_acc": 0.8741007194244604,
      "train_speed(iter/s)": 1.461815
    },
    {
      "epoch": 1.1565485626151408,
      "grad_norm": 6.223006725311279,
      "learning_rate": 8.736918524929088e-05,
      "loss": 0.36646764278411864,
      "memory(GiB)": 61.91,
      "step": 26995,
      "token_acc": 0.9226190476190477,
      "train_speed(iter/s)": 1.461814
    },
    {
      "epoch": 1.1567627779443896,
      "grad_norm": 0.3463360071182251,
      "learning_rate": 8.736471369904616e-05,
      "loss": 0.15181455612182618,
      "memory(GiB)": 61.91,
      "step": 27000,
      "token_acc": 0.9666666666666667,
      "train_speed(iter/s)": 1.461822
    },
    {
      "epoch": 1.1567627779443896,
      "eval_loss": 2.429696559906006,
      "eval_runtime": 13.5526,
      "eval_samples_per_second": 7.379,
      "eval_steps_per_second": 7.379,
      "eval_token_acc": 0.43854748603351956,
      "step": 27000
    },
    {
      "epoch": 1.1569769932736387,
      "grad_norm": 2.5531721115112305,
      "learning_rate": 8.73602414719046e-05,
      "loss": 0.23930234909057618,
      "memory(GiB)": 61.91,
      "step": 27005,
      "token_acc": 0.5899705014749262,
      "train_speed(iter/s)": 1.46067
    },
    {
      "epoch": 1.1571912086028877,
      "grad_norm": 3.0251352787017822,
      "learning_rate": 8.735576856794722e-05,
      "loss": 0.37264466285705566,
      "memory(GiB)": 61.91,
      "step": 27010,
      "token_acc": 0.921161825726141,
      "train_speed(iter/s)": 1.460679
    },
    {
      "epoch": 1.1574054239321365,
      "grad_norm": 1.9043092727661133,
      "learning_rate": 8.735129498725504e-05,
      "loss": 0.36947178840637207,
      "memory(GiB)": 61.91,
      "step": 27015,
      "token_acc": 0.9226519337016574,
      "train_speed(iter/s)": 1.460681
    },
    {
      "epoch": 1.1576196392613856,
      "grad_norm": 2.872340202331543,
      "learning_rate": 8.734682072990912e-05,
      "loss": 0.4814347743988037,
      "memory(GiB)": 61.91,
      "step": 27020,
      "token_acc": 0.8964497041420119,
      "train_speed(iter/s)": 1.460692
    },
    {
      "epoch": 1.1578338545906346,
      "grad_norm": 1.1264070272445679,
      "learning_rate": 8.734234579599049e-05,
      "loss": 0.3190495252609253,
      "memory(GiB)": 61.91,
      "step": 27025,
      "token_acc": 0.9327217125382263,
      "train_speed(iter/s)": 1.460703
    },
    {
      "epoch": 1.1580480699198834,
      "grad_norm": 4.4127936363220215,
      "learning_rate": 8.733787018558026e-05,
      "loss": 0.34917254447937013,
      "memory(GiB)": 61.91,
      "step": 27030,
      "token_acc": 0.9006849315068494,
      "train_speed(iter/s)": 1.46073
    },
    {
      "epoch": 1.1582622852491324,
      "grad_norm": 7.701265335083008,
      "learning_rate": 8.733339389875947e-05,
      "loss": 0.29199419021606443,
      "memory(GiB)": 61.91,
      "step": 27035,
      "token_acc": 0.9222614840989399,
      "train_speed(iter/s)": 1.460724
    },
    {
      "epoch": 1.1584765005783815,
      "grad_norm": 2.2245240211486816,
      "learning_rate": 8.732891693560926e-05,
      "loss": 0.3258677959442139,
      "memory(GiB)": 61.91,
      "step": 27040,
      "token_acc": 0.9225589225589226,
      "train_speed(iter/s)": 1.460715
    },
    {
      "epoch": 1.1586907159076303,
      "grad_norm": 2.8822805881500244,
      "learning_rate": 8.732443929621067e-05,
      "loss": 0.2705258846282959,
      "memory(GiB)": 61.91,
      "step": 27045,
      "token_acc": 0.9475409836065574,
      "train_speed(iter/s)": 1.460721
    },
    {
      "epoch": 1.1589049312368793,
      "grad_norm": 3.4608795642852783,
      "learning_rate": 8.731996098064485e-05,
      "loss": 0.4080799579620361,
      "memory(GiB)": 61.91,
      "step": 27050,
      "token_acc": 0.9198473282442748,
      "train_speed(iter/s)": 1.46078
    },
    {
      "epoch": 1.1591191465661284,
      "grad_norm": 4.119937896728516,
      "learning_rate": 8.731548198899295e-05,
      "loss": 0.44458322525024413,
      "memory(GiB)": 61.91,
      "step": 27055,
      "token_acc": 0.9141914191419142,
      "train_speed(iter/s)": 1.46077
    },
    {
      "epoch": 1.1593333618953772,
      "grad_norm": 3.356840133666992,
      "learning_rate": 8.731100232133607e-05,
      "loss": 0.3473116397857666,
      "memory(GiB)": 61.91,
      "step": 27060,
      "token_acc": 0.9264214046822743,
      "train_speed(iter/s)": 1.460772
    },
    {
      "epoch": 1.1595475772246262,
      "grad_norm": 3.8236172199249268,
      "learning_rate": 8.730652197775538e-05,
      "loss": 0.7024046897888183,
      "memory(GiB)": 61.91,
      "step": 27065,
      "token_acc": 0.8629629629629629,
      "train_speed(iter/s)": 1.460782
    },
    {
      "epoch": 1.1597617925538752,
      "grad_norm": 1.732124924659729,
      "learning_rate": 8.730204095833205e-05,
      "loss": 0.3555913925170898,
      "memory(GiB)": 61.91,
      "step": 27070,
      "token_acc": 0.9269005847953217,
      "train_speed(iter/s)": 1.460792
    },
    {
      "epoch": 1.159976007883124,
      "grad_norm": 4.695122241973877,
      "learning_rate": 8.729755926314727e-05,
      "loss": 0.3641330718994141,
      "memory(GiB)": 61.91,
      "step": 27075,
      "token_acc": 0.9108527131782945,
      "train_speed(iter/s)": 1.460816
    },
    {
      "epoch": 1.160190223212373,
      "grad_norm": 3.788940906524658,
      "learning_rate": 8.72930768922822e-05,
      "loss": 0.36044723987579347,
      "memory(GiB)": 61.91,
      "step": 27080,
      "token_acc": 0.9259259259259259,
      "train_speed(iter/s)": 1.460799
    },
    {
      "epoch": 1.1604044385416221,
      "grad_norm": 0.6726099848747253,
      "learning_rate": 8.728859384581807e-05,
      "loss": 0.2768702030181885,
      "memory(GiB)": 61.91,
      "step": 27085,
      "token_acc": 0.9498525073746312,
      "train_speed(iter/s)": 1.460803
    },
    {
      "epoch": 1.160618653870871,
      "grad_norm": 1.037795901298523,
      "learning_rate": 8.728411012383609e-05,
      "loss": 0.36952362060546873,
      "memory(GiB)": 61.91,
      "step": 27090,
      "token_acc": 0.9245283018867925,
      "train_speed(iter/s)": 1.460796
    },
    {
      "epoch": 1.16083286920012,
      "grad_norm": 1.9771710634231567,
      "learning_rate": 8.727962572641746e-05,
      "loss": 0.3629880905151367,
      "memory(GiB)": 61.91,
      "step": 27095,
      "token_acc": 0.9278996865203761,
      "train_speed(iter/s)": 1.460785
    },
    {
      "epoch": 1.161047084529369,
      "grad_norm": 4.5945820808410645,
      "learning_rate": 8.727514065364344e-05,
      "loss": 0.4015196800231934,
      "memory(GiB)": 61.91,
      "step": 27100,
      "token_acc": 0.9085173501577287,
      "train_speed(iter/s)": 1.460795
    },
    {
      "epoch": 1.1612612998586178,
      "grad_norm": 13.400678634643555,
      "learning_rate": 8.72706549055953e-05,
      "loss": 0.6496493339538574,
      "memory(GiB)": 61.91,
      "step": 27105,
      "token_acc": 0.8860294117647058,
      "train_speed(iter/s)": 1.46081
    },
    {
      "epoch": 1.1614755151878668,
      "grad_norm": 1.4677107334136963,
      "learning_rate": 8.726616848235426e-05,
      "loss": 0.5809225082397461,
      "memory(GiB)": 61.91,
      "step": 27110,
      "token_acc": 0.8766666666666667,
      "train_speed(iter/s)": 1.460842
    },
    {
      "epoch": 1.1616897305171159,
      "grad_norm": 4.834376811981201,
      "learning_rate": 8.726168138400163e-05,
      "loss": 0.24409055709838867,
      "memory(GiB)": 61.91,
      "step": 27115,
      "token_acc": 0.9407114624505929,
      "train_speed(iter/s)": 1.460833
    },
    {
      "epoch": 1.1619039458463647,
      "grad_norm": 3.2266368865966797,
      "learning_rate": 8.725719361061868e-05,
      "loss": 0.2937380313873291,
      "memory(GiB)": 61.91,
      "step": 27120,
      "token_acc": 0.9455782312925171,
      "train_speed(iter/s)": 1.460826
    },
    {
      "epoch": 1.1621181611756137,
      "grad_norm": 6.295896053314209,
      "learning_rate": 8.725270516228674e-05,
      "loss": 0.47815933227539065,
      "memory(GiB)": 61.91,
      "step": 27125,
      "token_acc": 0.8850174216027874,
      "train_speed(iter/s)": 1.460828
    },
    {
      "epoch": 1.1623323765048628,
      "grad_norm": 6.782707214355469,
      "learning_rate": 8.724821603908708e-05,
      "loss": 0.48696441650390626,
      "memory(GiB)": 61.91,
      "step": 27130,
      "token_acc": 0.919093851132686,
      "train_speed(iter/s)": 1.460841
    },
    {
      "epoch": 1.1625465918341116,
      "grad_norm": 2.87168550491333,
      "learning_rate": 8.724372624110105e-05,
      "loss": 0.8753524780273437,
      "memory(GiB)": 61.91,
      "step": 27135,
      "token_acc": 0.8054607508532423,
      "train_speed(iter/s)": 1.460899
    },
    {
      "epoch": 1.1627608071633606,
      "grad_norm": 2.4264421463012695,
      "learning_rate": 8.723923576840997e-05,
      "loss": 0.42538604736328123,
      "memory(GiB)": 61.91,
      "step": 27140,
      "token_acc": 0.903010033444816,
      "train_speed(iter/s)": 1.460906
    },
    {
      "epoch": 1.1629750224926096,
      "grad_norm": 4.042639255523682,
      "learning_rate": 8.723474462109522e-05,
      "loss": 0.46027507781982424,
      "memory(GiB)": 61.91,
      "step": 27145,
      "token_acc": 0.9124087591240876,
      "train_speed(iter/s)": 1.460893
    },
    {
      "epoch": 1.1631892378218585,
      "grad_norm": 3.2272777557373047,
      "learning_rate": 8.723025279923813e-05,
      "loss": 0.5300007343292237,
      "memory(GiB)": 61.91,
      "step": 27150,
      "token_acc": 0.8899082568807339,
      "train_speed(iter/s)": 1.460881
    },
    {
      "epoch": 1.1634034531511075,
      "grad_norm": 0.7378474473953247,
      "learning_rate": 8.722576030292009e-05,
      "loss": 0.28441083431243896,
      "memory(GiB)": 61.91,
      "step": 27155,
      "token_acc": 0.9354838709677419,
      "train_speed(iter/s)": 1.46088
    },
    {
      "epoch": 1.1636176684803565,
      "grad_norm": 4.1307053565979,
      "learning_rate": 8.72212671322225e-05,
      "loss": 0.406647777557373,
      "memory(GiB)": 61.91,
      "step": 27160,
      "token_acc": 0.9180887372013652,
      "train_speed(iter/s)": 1.460872
    },
    {
      "epoch": 1.1638318838096053,
      "grad_norm": 3.850874900817871,
      "learning_rate": 8.72167732872267e-05,
      "loss": 0.45705575942993165,
      "memory(GiB)": 61.91,
      "step": 27165,
      "token_acc": 0.8849557522123894,
      "train_speed(iter/s)": 1.460857
    },
    {
      "epoch": 1.1640460991388544,
      "grad_norm": 2.1271936893463135,
      "learning_rate": 8.721227876801417e-05,
      "loss": 0.44733333587646484,
      "memory(GiB)": 61.91,
      "step": 27170,
      "token_acc": 0.8990228013029316,
      "train_speed(iter/s)": 1.460883
    },
    {
      "epoch": 1.1642603144681034,
      "grad_norm": 2.8834433555603027,
      "learning_rate": 8.72077835746663e-05,
      "loss": 0.42781639099121094,
      "memory(GiB)": 61.91,
      "step": 27175,
      "token_acc": 0.9125874125874126,
      "train_speed(iter/s)": 1.460899
    },
    {
      "epoch": 1.1644745297973522,
      "grad_norm": 2.0410032272338867,
      "learning_rate": 8.720328770726452e-05,
      "loss": 0.2662254810333252,
      "memory(GiB)": 61.91,
      "step": 27180,
      "token_acc": 0.9377593360995851,
      "train_speed(iter/s)": 1.4609
    },
    {
      "epoch": 1.1646887451266013,
      "grad_norm": 2.0117454528808594,
      "learning_rate": 8.719879116589028e-05,
      "loss": 0.2769863367080688,
      "memory(GiB)": 61.91,
      "step": 27185,
      "token_acc": 0.941358024691358,
      "train_speed(iter/s)": 1.460933
    },
    {
      "epoch": 1.1649029604558503,
      "grad_norm": 2.7450499534606934,
      "learning_rate": 8.719429395062504e-05,
      "loss": 0.43062796592712405,
      "memory(GiB)": 61.91,
      "step": 27190,
      "token_acc": 0.9075144508670521,
      "train_speed(iter/s)": 1.460936
    },
    {
      "epoch": 1.165117175785099,
      "grad_norm": 5.097678184509277,
      "learning_rate": 8.718979606155029e-05,
      "loss": 0.5683262348175049,
      "memory(GiB)": 61.91,
      "step": 27195,
      "token_acc": 0.8861209964412812,
      "train_speed(iter/s)": 1.460913
    },
    {
      "epoch": 1.1653313911143481,
      "grad_norm": 1.399099349975586,
      "learning_rate": 8.718529749874749e-05,
      "loss": 0.3681401491165161,
      "memory(GiB)": 61.91,
      "step": 27200,
      "token_acc": 0.8895348837209303,
      "train_speed(iter/s)": 1.460959
    },
    {
      "epoch": 1.1655456064435972,
      "grad_norm": 3.62467885017395,
      "learning_rate": 8.718079826229813e-05,
      "loss": 0.27970669269561765,
      "memory(GiB)": 61.91,
      "step": 27205,
      "token_acc": 0.94921875,
      "train_speed(iter/s)": 1.460982
    },
    {
      "epoch": 1.165759821772846,
      "grad_norm": 4.3549604415893555,
      "learning_rate": 8.717629835228375e-05,
      "loss": 0.34541032314300535,
      "memory(GiB)": 61.91,
      "step": 27210,
      "token_acc": 0.9237804878048781,
      "train_speed(iter/s)": 1.460998
    },
    {
      "epoch": 1.165974037102095,
      "grad_norm": 5.398664951324463,
      "learning_rate": 8.717179776878583e-05,
      "loss": 0.5803122520446777,
      "memory(GiB)": 61.91,
      "step": 27215,
      "token_acc": 0.8854166666666666,
      "train_speed(iter/s)": 1.461013
    },
    {
      "epoch": 1.166188252431344,
      "grad_norm": 2.3413476943969727,
      "learning_rate": 8.716729651188595e-05,
      "loss": 0.35051331520080564,
      "memory(GiB)": 61.91,
      "step": 27220,
      "token_acc": 0.9424460431654677,
      "train_speed(iter/s)": 1.461027
    },
    {
      "epoch": 1.1664024677605929,
      "grad_norm": 6.186840057373047,
      "learning_rate": 8.71627945816656e-05,
      "loss": 0.4927004337310791,
      "memory(GiB)": 61.91,
      "step": 27225,
      "token_acc": 0.9044585987261147,
      "train_speed(iter/s)": 1.461032
    },
    {
      "epoch": 1.166616683089842,
      "grad_norm": 3.859182596206665,
      "learning_rate": 8.715829197820639e-05,
      "loss": 0.34815685749053954,
      "memory(GiB)": 61.91,
      "step": 27230,
      "token_acc": 0.9254901960784314,
      "train_speed(iter/s)": 1.461028
    },
    {
      "epoch": 1.166830898419091,
      "grad_norm": 3.5118043422698975,
      "learning_rate": 8.715378870158986e-05,
      "loss": 0.3174623966217041,
      "memory(GiB)": 61.91,
      "step": 27235,
      "token_acc": 0.9367088607594937,
      "train_speed(iter/s)": 1.461012
    },
    {
      "epoch": 1.1670451137483397,
      "grad_norm": 2.677747964859009,
      "learning_rate": 8.714928475189759e-05,
      "loss": 0.4030020236968994,
      "memory(GiB)": 61.91,
      "step": 27240,
      "token_acc": 0.9140625,
      "train_speed(iter/s)": 1.461013
    },
    {
      "epoch": 1.1672593290775888,
      "grad_norm": 3.561037302017212,
      "learning_rate": 8.714478012921117e-05,
      "loss": 0.26595358848571776,
      "memory(GiB)": 61.91,
      "step": 27245,
      "token_acc": 0.9306930693069307,
      "train_speed(iter/s)": 1.461011
    },
    {
      "epoch": 1.1674735444068378,
      "grad_norm": 6.076673984527588,
      "learning_rate": 8.714027483361222e-05,
      "loss": 0.6540487289428711,
      "memory(GiB)": 61.91,
      "step": 27250,
      "token_acc": 0.8996763754045307,
      "train_speed(iter/s)": 1.461009
    },
    {
      "epoch": 1.1676877597360866,
      "grad_norm": 2.9037301540374756,
      "learning_rate": 8.713576886518235e-05,
      "loss": 0.5325719833374023,
      "memory(GiB)": 61.91,
      "step": 27255,
      "token_acc": 0.887240356083086,
      "train_speed(iter/s)": 1.461035
    },
    {
      "epoch": 1.1679019750653357,
      "grad_norm": 3.223959445953369,
      "learning_rate": 8.713126222400319e-05,
      "loss": 0.41504511833190916,
      "memory(GiB)": 61.91,
      "step": 27260,
      "token_acc": 0.9107692307692308,
      "train_speed(iter/s)": 1.461044
    },
    {
      "epoch": 1.1681161903945847,
      "grad_norm": 3.3443033695220947,
      "learning_rate": 8.712675491015638e-05,
      "loss": 0.19659769535064697,
      "memory(GiB)": 61.91,
      "step": 27265,
      "token_acc": 0.9487179487179487,
      "train_speed(iter/s)": 1.461069
    },
    {
      "epoch": 1.1683304057238335,
      "grad_norm": 1.2430284023284912,
      "learning_rate": 8.712224692372358e-05,
      "loss": 0.1977284789085388,
      "memory(GiB)": 61.91,
      "step": 27270,
      "token_acc": 0.9461538461538461,
      "train_speed(iter/s)": 1.46107
    },
    {
      "epoch": 1.1685446210530825,
      "grad_norm": 7.776795387268066,
      "learning_rate": 8.711773826478646e-05,
      "loss": 0.5328941822052002,
      "memory(GiB)": 61.91,
      "step": 27275,
      "token_acc": 0.8884297520661157,
      "train_speed(iter/s)": 1.461084
    },
    {
      "epoch": 1.1687588363823316,
      "grad_norm": 2.1505463123321533,
      "learning_rate": 8.711322893342668e-05,
      "loss": 0.4903285980224609,
      "memory(GiB)": 61.91,
      "step": 27280,
      "token_acc": 0.9066666666666666,
      "train_speed(iter/s)": 1.461103
    },
    {
      "epoch": 1.1689730517115804,
      "grad_norm": 4.274763107299805,
      "learning_rate": 8.710871892972595e-05,
      "loss": 0.5169817924499511,
      "memory(GiB)": 61.91,
      "step": 27285,
      "token_acc": 0.889261744966443,
      "train_speed(iter/s)": 1.461098
    },
    {
      "epoch": 1.1691872670408294,
      "grad_norm": 4.621191024780273,
      "learning_rate": 8.710420825376597e-05,
      "loss": 0.3140977621078491,
      "memory(GiB)": 61.91,
      "step": 27290,
      "token_acc": 0.9373134328358209,
      "train_speed(iter/s)": 1.461111
    },
    {
      "epoch": 1.1694014823700785,
      "grad_norm": 0.06240272894501686,
      "learning_rate": 8.709969690562845e-05,
      "loss": 0.41395859718322753,
      "memory(GiB)": 61.91,
      "step": 27295,
      "token_acc": 0.9333333333333333,
      "train_speed(iter/s)": 1.461112
    },
    {
      "epoch": 1.1696156976993273,
      "grad_norm": 3.521989583969116,
      "learning_rate": 8.709518488539511e-05,
      "loss": 0.5750338554382324,
      "memory(GiB)": 61.91,
      "step": 27300,
      "token_acc": 0.8727810650887574,
      "train_speed(iter/s)": 1.461136
    },
    {
      "epoch": 1.1698299130285763,
      "grad_norm": 2.1408612728118896,
      "learning_rate": 8.709067219314771e-05,
      "loss": 0.27926547527313234,
      "memory(GiB)": 61.91,
      "step": 27305,
      "token_acc": 0.9192307692307692,
      "train_speed(iter/s)": 1.461146
    },
    {
      "epoch": 1.1700441283578253,
      "grad_norm": 2.902564287185669,
      "learning_rate": 8.708615882896798e-05,
      "loss": 0.21940712928771972,
      "memory(GiB)": 61.91,
      "step": 27310,
      "token_acc": 0.9490196078431372,
      "train_speed(iter/s)": 1.461147
    },
    {
      "epoch": 1.1702583436870742,
      "grad_norm": 0.6718227863311768,
      "learning_rate": 8.708164479293767e-05,
      "loss": 0.2615920066833496,
      "memory(GiB)": 61.91,
      "step": 27315,
      "token_acc": 0.9473684210526315,
      "train_speed(iter/s)": 1.461179
    },
    {
      "epoch": 1.1704725590163232,
      "grad_norm": 6.851076602935791,
      "learning_rate": 8.707713008513863e-05,
      "loss": 0.3633223056793213,
      "memory(GiB)": 61.91,
      "step": 27320,
      "token_acc": 0.9325396825396826,
      "train_speed(iter/s)": 1.461167
    },
    {
      "epoch": 1.1706867743455722,
      "grad_norm": 0.7372506856918335,
      "learning_rate": 8.707261470565256e-05,
      "loss": 0.2106724977493286,
      "memory(GiB)": 61.91,
      "step": 27325,
      "token_acc": 0.9513888888888888,
      "train_speed(iter/s)": 1.461154
    },
    {
      "epoch": 1.170900989674821,
      "grad_norm": 2.4116199016571045,
      "learning_rate": 8.706809865456131e-05,
      "loss": 0.18555760383605957,
      "memory(GiB)": 61.91,
      "step": 27330,
      "token_acc": 0.9545454545454546,
      "train_speed(iter/s)": 1.46115
    },
    {
      "epoch": 1.17111520500407,
      "grad_norm": 7.784188747406006,
      "learning_rate": 8.706358193194668e-05,
      "loss": 0.33608691692352294,
      "memory(GiB)": 61.91,
      "step": 27335,
      "token_acc": 0.9163498098859315,
      "train_speed(iter/s)": 1.461146
    },
    {
      "epoch": 1.171329420333319,
      "grad_norm": 0.6339495182037354,
      "learning_rate": 8.705906453789049e-05,
      "loss": 0.2623204946517944,
      "memory(GiB)": 61.91,
      "step": 27340,
      "token_acc": 0.9551282051282052,
      "train_speed(iter/s)": 1.461142
    },
    {
      "epoch": 1.171543635662568,
      "grad_norm": 1.8444576263427734,
      "learning_rate": 8.705454647247458e-05,
      "loss": 0.2400134563446045,
      "memory(GiB)": 61.91,
      "step": 27345,
      "token_acc": 0.9386973180076629,
      "train_speed(iter/s)": 1.461149
    },
    {
      "epoch": 1.171757850991817,
      "grad_norm": 4.573610782623291,
      "learning_rate": 8.705002773578081e-05,
      "loss": 0.47996368408203127,
      "memory(GiB)": 61.91,
      "step": 27350,
      "token_acc": 0.9100719424460432,
      "train_speed(iter/s)": 1.461165
    },
    {
      "epoch": 1.171972066321066,
      "grad_norm": 3.799398183822632,
      "learning_rate": 8.704550832789103e-05,
      "loss": 0.5838590621948242,
      "memory(GiB)": 61.91,
      "step": 27355,
      "token_acc": 0.8865248226950354,
      "train_speed(iter/s)": 1.461172
    },
    {
      "epoch": 1.172186281650315,
      "grad_norm": 0.3304809331893921,
      "learning_rate": 8.704098824888711e-05,
      "loss": 0.22252418994903564,
      "memory(GiB)": 61.91,
      "step": 27360,
      "token_acc": 0.9622641509433962,
      "train_speed(iter/s)": 1.461184
    },
    {
      "epoch": 1.1724004969795638,
      "grad_norm": 0.31113743782043457,
      "learning_rate": 8.703646749885095e-05,
      "loss": 0.2334071636199951,
      "memory(GiB)": 61.91,
      "step": 27365,
      "token_acc": 0.9513677811550152,
      "train_speed(iter/s)": 1.461182
    },
    {
      "epoch": 1.1726147123088129,
      "grad_norm": 1.784250259399414,
      "learning_rate": 8.703194607786442e-05,
      "loss": 0.130288565158844,
      "memory(GiB)": 61.91,
      "step": 27370,
      "token_acc": 0.9777070063694268,
      "train_speed(iter/s)": 1.461192
    },
    {
      "epoch": 1.172828927638062,
      "grad_norm": 2.2480852603912354,
      "learning_rate": 8.702742398600947e-05,
      "loss": 0.4066332817077637,
      "memory(GiB)": 61.91,
      "step": 27375,
      "token_acc": 0.896875,
      "train_speed(iter/s)": 1.461199
    },
    {
      "epoch": 1.1730431429673107,
      "grad_norm": 3.3074028491973877,
      "learning_rate": 8.702290122336798e-05,
      "loss": 0.40485610961914065,
      "memory(GiB)": 61.91,
      "step": 27380,
      "token_acc": 0.925414364640884,
      "train_speed(iter/s)": 1.461182
    },
    {
      "epoch": 1.1732573582965597,
      "grad_norm": 4.337277889251709,
      "learning_rate": 8.701837779002192e-05,
      "loss": 0.3386176586151123,
      "memory(GiB)": 61.91,
      "step": 27385,
      "token_acc": 0.9255583126550868,
      "train_speed(iter/s)": 1.461192
    },
    {
      "epoch": 1.1734715736258088,
      "grad_norm": 1.7082427740097046,
      "learning_rate": 8.701385368605322e-05,
      "loss": 0.548438024520874,
      "memory(GiB)": 61.91,
      "step": 27390,
      "token_acc": 0.888135593220339,
      "train_speed(iter/s)": 1.461221
    },
    {
      "epoch": 1.1736857889550576,
      "grad_norm": 3.663837432861328,
      "learning_rate": 8.700932891154383e-05,
      "loss": 0.26578531265258787,
      "memory(GiB)": 61.91,
      "step": 27395,
      "token_acc": 0.9458483754512635,
      "train_speed(iter/s)": 1.461224
    },
    {
      "epoch": 1.1739000042843066,
      "grad_norm": 9.805458068847656,
      "learning_rate": 8.700480346657574e-05,
      "loss": 0.6319806098937988,
      "memory(GiB)": 61.91,
      "step": 27400,
      "token_acc": 0.8783783783783784,
      "train_speed(iter/s)": 1.461216
    },
    {
      "epoch": 1.1741142196135557,
      "grad_norm": 2.616286516189575,
      "learning_rate": 8.70002773512309e-05,
      "loss": 0.4588280200958252,
      "memory(GiB)": 61.91,
      "step": 27405,
      "token_acc": 0.9015748031496063,
      "train_speed(iter/s)": 1.461212
    },
    {
      "epoch": 1.1743284349428045,
      "grad_norm": 5.402585983276367,
      "learning_rate": 8.699575056559134e-05,
      "loss": 0.38677082061767576,
      "memory(GiB)": 61.91,
      "step": 27410,
      "token_acc": 0.9221789883268483,
      "train_speed(iter/s)": 1.46123
    },
    {
      "epoch": 1.1745426502720535,
      "grad_norm": 5.67852258682251,
      "learning_rate": 8.699122310973907e-05,
      "loss": 0.6302347183227539,
      "memory(GiB)": 61.91,
      "step": 27415,
      "token_acc": 0.8524590163934426,
      "train_speed(iter/s)": 1.461251
    },
    {
      "epoch": 1.1747568656013025,
      "grad_norm": 3.1055490970611572,
      "learning_rate": 8.698669498375606e-05,
      "loss": 0.4468526840209961,
      "memory(GiB)": 61.91,
      "step": 27420,
      "token_acc": 0.9175257731958762,
      "train_speed(iter/s)": 1.461257
    },
    {
      "epoch": 1.1749710809305514,
      "grad_norm": 0.04025399684906006,
      "learning_rate": 8.698216618772439e-05,
      "loss": 0.22625575065612794,
      "memory(GiB)": 61.91,
      "step": 27425,
      "token_acc": 0.9584569732937686,
      "train_speed(iter/s)": 1.461263
    },
    {
      "epoch": 1.1751852962598004,
      "grad_norm": 1.5601253509521484,
      "learning_rate": 8.69776367217261e-05,
      "loss": 0.28963565826416016,
      "memory(GiB)": 61.91,
      "step": 27430,
      "token_acc": 0.9536231884057971,
      "train_speed(iter/s)": 1.461306
    },
    {
      "epoch": 1.1753995115890494,
      "grad_norm": 3.0854616165161133,
      "learning_rate": 8.697310658584321e-05,
      "loss": 0.5477337837219238,
      "memory(GiB)": 61.91,
      "step": 27435,
      "token_acc": 0.8821752265861027,
      "train_speed(iter/s)": 1.461312
    },
    {
      "epoch": 1.1756137269182982,
      "grad_norm": 3.910092830657959,
      "learning_rate": 8.696857578015783e-05,
      "loss": 0.517252254486084,
      "memory(GiB)": 61.91,
      "step": 27440,
      "token_acc": 0.9185393258426966,
      "train_speed(iter/s)": 1.461337
    },
    {
      "epoch": 1.1758279422475473,
      "grad_norm": 3.5918619632720947,
      "learning_rate": 8.696404430475201e-05,
      "loss": 0.4231856822967529,
      "memory(GiB)": 61.91,
      "step": 27445,
      "token_acc": 0.9127725856697819,
      "train_speed(iter/s)": 1.461339
    },
    {
      "epoch": 1.1760421575767963,
      "grad_norm": 0.3004184365272522,
      "learning_rate": 8.695951215970785e-05,
      "loss": 0.9701239585876464,
      "memory(GiB)": 61.91,
      "step": 27450,
      "token_acc": 0.8612099644128114,
      "train_speed(iter/s)": 1.461324
    },
    {
      "epoch": 1.1762563729060451,
      "grad_norm": 1.1849474906921387,
      "learning_rate": 8.695497934510747e-05,
      "loss": 0.5460041046142579,
      "memory(GiB)": 61.91,
      "step": 27455,
      "token_acc": 0.8949152542372881,
      "train_speed(iter/s)": 1.461354
    },
    {
      "epoch": 1.1764705882352942,
      "grad_norm": 0.43875399231910706,
      "learning_rate": 8.695044586103296e-05,
      "loss": 0.20521197319030762,
      "memory(GiB)": 61.91,
      "step": 27460,
      "token_acc": 0.9530201342281879,
      "train_speed(iter/s)": 1.461385
    },
    {
      "epoch": 1.1766848035645432,
      "grad_norm": 2.842956066131592,
      "learning_rate": 8.694591170756647e-05,
      "loss": 0.608389139175415,
      "memory(GiB)": 61.91,
      "step": 27465,
      "token_acc": 0.8745098039215686,
      "train_speed(iter/s)": 1.461379
    },
    {
      "epoch": 1.176899018893792,
      "grad_norm": 2.967393636703491,
      "learning_rate": 8.694137688479012e-05,
      "loss": 0.3976465940475464,
      "memory(GiB)": 61.91,
      "step": 27470,
      "token_acc": 0.9075907590759076,
      "train_speed(iter/s)": 1.461426
    },
    {
      "epoch": 1.177113234223041,
      "grad_norm": 0.30286338925361633,
      "learning_rate": 8.693684139278609e-05,
      "loss": 0.47690300941467284,
      "memory(GiB)": 61.91,
      "step": 27475,
      "token_acc": 0.9055374592833876,
      "train_speed(iter/s)": 1.461436
    },
    {
      "epoch": 1.17732744955229,
      "grad_norm": 2.456118583679199,
      "learning_rate": 8.693230523163652e-05,
      "loss": 0.3592314004898071,
      "memory(GiB)": 61.91,
      "step": 27480,
      "token_acc": 0.8988326848249028,
      "train_speed(iter/s)": 1.461447
    },
    {
      "epoch": 1.1775416648815389,
      "grad_norm": 5.993458271026611,
      "learning_rate": 8.692776840142359e-05,
      "loss": 0.5350056648254394,
      "memory(GiB)": 61.91,
      "step": 27485,
      "token_acc": 0.891566265060241,
      "train_speed(iter/s)": 1.461423
    },
    {
      "epoch": 1.177755880210788,
      "grad_norm": 4.8261284828186035,
      "learning_rate": 8.692323090222949e-05,
      "loss": 0.3401159763336182,
      "memory(GiB)": 61.91,
      "step": 27490,
      "token_acc": 0.9127906976744186,
      "train_speed(iter/s)": 1.461415
    },
    {
      "epoch": 1.177970095540037,
      "grad_norm": 0.8125938773155212,
      "learning_rate": 8.691869273413645e-05,
      "loss": 0.32099523544311526,
      "memory(GiB)": 61.91,
      "step": 27495,
      "token_acc": 0.9302325581395349,
      "train_speed(iter/s)": 1.461417
    },
    {
      "epoch": 1.1781843108692858,
      "grad_norm": 3.7261292934417725,
      "learning_rate": 8.691415389722663e-05,
      "loss": 0.3475987672805786,
      "memory(GiB)": 61.91,
      "step": 27500,
      "token_acc": 0.9098039215686274,
      "train_speed(iter/s)": 1.46142
    },
    {
      "epoch": 1.1781843108692858,
      "eval_loss": 2.6660988330841064,
      "eval_runtime": 13.8964,
      "eval_samples_per_second": 7.196,
      "eval_steps_per_second": 7.196,
      "eval_token_acc": 0.4216691068814056,
      "step": 27500
    },
    {
      "epoch": 1.1783985261985348,
      "grad_norm": 3.1181623935699463,
      "learning_rate": 8.690961439158229e-05,
      "loss": 0.3369602680206299,
      "memory(GiB)": 61.91,
      "step": 27505,
      "token_acc": 0.5661764705882353,
      "train_speed(iter/s)": 1.4603
    },
    {
      "epoch": 1.1786127415277838,
      "grad_norm": 0.273754358291626,
      "learning_rate": 8.690507421728566e-05,
      "loss": 0.1816296935081482,
      "memory(GiB)": 61.91,
      "step": 27510,
      "token_acc": 0.9610894941634242,
      "train_speed(iter/s)": 1.460318
    },
    {
      "epoch": 1.1788269568570326,
      "grad_norm": 2.5263724327087402,
      "learning_rate": 8.690053337441901e-05,
      "loss": 0.4082071304321289,
      "memory(GiB)": 61.91,
      "step": 27515,
      "token_acc": 0.9240506329113924,
      "train_speed(iter/s)": 1.46035
    },
    {
      "epoch": 1.1790411721862817,
      "grad_norm": 2.617877244949341,
      "learning_rate": 8.689599186306457e-05,
      "loss": 0.4701240539550781,
      "memory(GiB)": 61.91,
      "step": 27520,
      "token_acc": 0.8910505836575876,
      "train_speed(iter/s)": 1.460407
    },
    {
      "epoch": 1.1792553875155307,
      "grad_norm": 8.040634155273438,
      "learning_rate": 8.689144968330462e-05,
      "loss": 0.3190941095352173,
      "memory(GiB)": 61.91,
      "step": 27525,
      "token_acc": 0.9191919191919192,
      "train_speed(iter/s)": 1.460408
    },
    {
      "epoch": 1.1794696028447795,
      "grad_norm": 2.0461626052856445,
      "learning_rate": 8.688690683522147e-05,
      "loss": 0.2766294479370117,
      "memory(GiB)": 61.91,
      "step": 27530,
      "token_acc": 0.9413919413919414,
      "train_speed(iter/s)": 1.460404
    },
    {
      "epoch": 1.1796838181740286,
      "grad_norm": 1.9271962642669678,
      "learning_rate": 8.688236331889739e-05,
      "loss": 0.29475812911987304,
      "memory(GiB)": 61.91,
      "step": 27535,
      "token_acc": 0.9272151898734177,
      "train_speed(iter/s)": 1.460411
    },
    {
      "epoch": 1.1798980335032776,
      "grad_norm": 4.869226455688477,
      "learning_rate": 8.687781913441469e-05,
      "loss": 0.2279655933380127,
      "memory(GiB)": 61.91,
      "step": 27540,
      "token_acc": 0.9501915708812261,
      "train_speed(iter/s)": 1.460401
    },
    {
      "epoch": 1.1801122488325264,
      "grad_norm": 2.486436367034912,
      "learning_rate": 8.687327428185573e-05,
      "loss": 0.21123323440551758,
      "memory(GiB)": 61.91,
      "step": 27545,
      "token_acc": 0.9496402877697842,
      "train_speed(iter/s)": 1.460433
    },
    {
      "epoch": 1.1803264641617754,
      "grad_norm": 3.5693612098693848,
      "learning_rate": 8.686872876130279e-05,
      "loss": 0.30232465267181396,
      "memory(GiB)": 61.91,
      "step": 27550,
      "token_acc": 0.9228187919463087,
      "train_speed(iter/s)": 1.460448
    },
    {
      "epoch": 1.1805406794910245,
      "grad_norm": 3.338470458984375,
      "learning_rate": 8.686418257283824e-05,
      "loss": 0.4710539817810059,
      "memory(GiB)": 61.91,
      "step": 27555,
      "token_acc": 0.9178082191780822,
      "train_speed(iter/s)": 1.460459
    },
    {
      "epoch": 1.1807548948202733,
      "grad_norm": 12.185235023498535,
      "learning_rate": 8.685963571654445e-05,
      "loss": 0.5314490318298339,
      "memory(GiB)": 61.91,
      "step": 27560,
      "token_acc": 0.9066147859922179,
      "train_speed(iter/s)": 1.46047
    },
    {
      "epoch": 1.1809691101495223,
      "grad_norm": 1.880761981010437,
      "learning_rate": 8.685508819250379e-05,
      "loss": 0.6484626293182373,
      "memory(GiB)": 61.91,
      "step": 27565,
      "token_acc": 0.8773234200743495,
      "train_speed(iter/s)": 1.460512
    },
    {
      "epoch": 1.1811833254787714,
      "grad_norm": 3.661987066268921,
      "learning_rate": 8.685054000079863e-05,
      "loss": 0.3060471534729004,
      "memory(GiB)": 61.91,
      "step": 27570,
      "token_acc": 0.9307958477508651,
      "train_speed(iter/s)": 1.460502
    },
    {
      "epoch": 1.1813975408080202,
      "grad_norm": 3.506565809249878,
      "learning_rate": 8.684599114151137e-05,
      "loss": 0.34361732006073,
      "memory(GiB)": 61.91,
      "step": 27575,
      "token_acc": 0.9384615384615385,
      "train_speed(iter/s)": 1.460497
    },
    {
      "epoch": 1.1816117561372692,
      "grad_norm": 5.588808536529541,
      "learning_rate": 8.684144161472441e-05,
      "loss": 0.43086843490600585,
      "memory(GiB)": 61.91,
      "step": 27580,
      "token_acc": 0.9125,
      "train_speed(iter/s)": 1.460483
    },
    {
      "epoch": 1.1818259714665182,
      "grad_norm": 3.000349998474121,
      "learning_rate": 8.683689142052018e-05,
      "loss": 0.538430643081665,
      "memory(GiB)": 61.91,
      "step": 27585,
      "token_acc": 0.8848920863309353,
      "train_speed(iter/s)": 1.460492
    },
    {
      "epoch": 1.182040186795767,
      "grad_norm": 2.432335376739502,
      "learning_rate": 8.68323405589811e-05,
      "loss": 0.32781119346618653,
      "memory(GiB)": 61.91,
      "step": 27590,
      "token_acc": 0.9145907473309609,
      "train_speed(iter/s)": 1.460492
    },
    {
      "epoch": 1.182254402125016,
      "grad_norm": 6.3943705558776855,
      "learning_rate": 8.682778903018962e-05,
      "loss": 0.4973437786102295,
      "memory(GiB)": 61.91,
      "step": 27595,
      "token_acc": 0.8888888888888888,
      "train_speed(iter/s)": 1.460501
    },
    {
      "epoch": 1.1824686174542651,
      "grad_norm": 2.1886560916900635,
      "learning_rate": 8.68232368342282e-05,
      "loss": 0.5877338886260987,
      "memory(GiB)": 61.91,
      "step": 27600,
      "token_acc": 0.8711656441717791,
      "train_speed(iter/s)": 1.46049
    },
    {
      "epoch": 1.182682832783514,
      "grad_norm": 3.536951780319214,
      "learning_rate": 8.68186839711793e-05,
      "loss": 0.3492010831832886,
      "memory(GiB)": 61.91,
      "step": 27605,
      "token_acc": 0.9175627240143369,
      "train_speed(iter/s)": 1.460498
    },
    {
      "epoch": 1.182897048112763,
      "grad_norm": 0.06246297433972359,
      "learning_rate": 8.68141304411254e-05,
      "loss": 0.1567667007446289,
      "memory(GiB)": 61.91,
      "step": 27610,
      "token_acc": 0.9681978798586572,
      "train_speed(iter/s)": 1.460498
    },
    {
      "epoch": 1.183111263442012,
      "grad_norm": 4.08609676361084,
      "learning_rate": 8.680957624414901e-05,
      "loss": 0.5827283382415771,
      "memory(GiB)": 61.91,
      "step": 27615,
      "token_acc": 0.8745519713261649,
      "train_speed(iter/s)": 1.460523
    },
    {
      "epoch": 1.1833254787712608,
      "grad_norm": 2.5387463569641113,
      "learning_rate": 8.68050213803326e-05,
      "loss": 0.2990507841110229,
      "memory(GiB)": 61.91,
      "step": 27620,
      "token_acc": 0.9310344827586207,
      "train_speed(iter/s)": 1.460545
    },
    {
      "epoch": 1.1835396941005099,
      "grad_norm": 5.2335968017578125,
      "learning_rate": 8.68004658497587e-05,
      "loss": 0.4036684989929199,
      "memory(GiB)": 61.91,
      "step": 27625,
      "token_acc": 0.9169675090252708,
      "train_speed(iter/s)": 1.46054
    },
    {
      "epoch": 1.1837539094297589,
      "grad_norm": 4.865113258361816,
      "learning_rate": 8.679590965250984e-05,
      "loss": 0.4664731502532959,
      "memory(GiB)": 61.91,
      "step": 27630,
      "token_acc": 0.9043478260869565,
      "train_speed(iter/s)": 1.460517
    },
    {
      "epoch": 1.1839681247590077,
      "grad_norm": 4.395020484924316,
      "learning_rate": 8.679135278866855e-05,
      "loss": 0.36223368644714354,
      "memory(GiB)": 61.91,
      "step": 27635,
      "token_acc": 0.9192546583850931,
      "train_speed(iter/s)": 1.460508
    },
    {
      "epoch": 1.1841823400882567,
      "grad_norm": 2.5459609031677246,
      "learning_rate": 8.678679525831742e-05,
      "loss": 0.5691050052642822,
      "memory(GiB)": 61.91,
      "step": 27640,
      "token_acc": 0.9120521172638436,
      "train_speed(iter/s)": 1.460543
    },
    {
      "epoch": 1.1843965554175058,
      "grad_norm": 1.297463297843933,
      "learning_rate": 8.678223706153895e-05,
      "loss": 0.3210099220275879,
      "memory(GiB)": 61.91,
      "step": 27645,
      "token_acc": 0.9271523178807947,
      "train_speed(iter/s)": 1.460546
    },
    {
      "epoch": 1.1846107707467546,
      "grad_norm": 3.25260066986084,
      "learning_rate": 8.677767819841577e-05,
      "loss": 0.45520620346069335,
      "memory(GiB)": 61.91,
      "step": 27650,
      "token_acc": 0.8993055555555556,
      "train_speed(iter/s)": 1.46057
    },
    {
      "epoch": 1.1848249860760036,
      "grad_norm": 1.494598150253296,
      "learning_rate": 8.677311866903044e-05,
      "loss": 0.36129810810089114,
      "memory(GiB)": 61.91,
      "step": 27655,
      "token_acc": 0.9186440677966101,
      "train_speed(iter/s)": 1.46058
    },
    {
      "epoch": 1.1850392014052527,
      "grad_norm": 3.1212198734283447,
      "learning_rate": 8.676855847346559e-05,
      "loss": 0.38303992748260496,
      "memory(GiB)": 61.91,
      "step": 27660,
      "token_acc": 0.9180327868852459,
      "train_speed(iter/s)": 1.460575
    },
    {
      "epoch": 1.1852534167345015,
      "grad_norm": 4.345556735992432,
      "learning_rate": 8.676399761180379e-05,
      "loss": 0.5732937812805176,
      "memory(GiB)": 61.91,
      "step": 27665,
      "token_acc": 0.8882521489971347,
      "train_speed(iter/s)": 1.460549
    },
    {
      "epoch": 1.1854676320637505,
      "grad_norm": 2.435948133468628,
      "learning_rate": 8.67594360841277e-05,
      "loss": 0.20181746482849122,
      "memory(GiB)": 61.91,
      "step": 27670,
      "token_acc": 0.9591078066914498,
      "train_speed(iter/s)": 1.460554
    },
    {
      "epoch": 1.1856818473929995,
      "grad_norm": 5.0014448165893555,
      "learning_rate": 8.675487389051993e-05,
      "loss": 0.3425534963607788,
      "memory(GiB)": 61.91,
      "step": 27675,
      "token_acc": 0.9358490566037736,
      "train_speed(iter/s)": 1.46054
    },
    {
      "epoch": 1.1858960627222483,
      "grad_norm": 2.6436309814453125,
      "learning_rate": 8.675031103106315e-05,
      "loss": 0.4479849815368652,
      "memory(GiB)": 61.91,
      "step": 27680,
      "token_acc": 0.9033457249070632,
      "train_speed(iter/s)": 1.460561
    },
    {
      "epoch": 1.1861102780514974,
      "grad_norm": 1.7217724323272705,
      "learning_rate": 8.674574750584002e-05,
      "loss": 0.47141528129577637,
      "memory(GiB)": 61.91,
      "step": 27685,
      "token_acc": 0.8852459016393442,
      "train_speed(iter/s)": 1.460581
    },
    {
      "epoch": 1.1863244933807464,
      "grad_norm": 5.502981662750244,
      "learning_rate": 8.674118331493317e-05,
      "loss": 0.47626380920410155,
      "memory(GiB)": 61.91,
      "step": 27690,
      "token_acc": 0.9041095890410958,
      "train_speed(iter/s)": 1.460601
    },
    {
      "epoch": 1.1865387087099952,
      "grad_norm": 4.990617275238037,
      "learning_rate": 8.673661845842536e-05,
      "loss": 0.38213050365448,
      "memory(GiB)": 61.91,
      "step": 27695,
      "token_acc": 0.9157509157509157,
      "train_speed(iter/s)": 1.46062
    },
    {
      "epoch": 1.1867529240392443,
      "grad_norm": 0.08761344105005264,
      "learning_rate": 8.673205293639921e-05,
      "loss": 0.2496865510940552,
      "memory(GiB)": 61.91,
      "step": 27700,
      "token_acc": 0.9482071713147411,
      "train_speed(iter/s)": 1.460618
    },
    {
      "epoch": 1.1869671393684933,
      "grad_norm": 1.7175565958023071,
      "learning_rate": 8.672748674893749e-05,
      "loss": 0.15277130603790284,
      "memory(GiB)": 61.91,
      "step": 27705,
      "token_acc": 0.9655172413793104,
      "train_speed(iter/s)": 1.460618
    },
    {
      "epoch": 1.187181354697742,
      "grad_norm": 4.048750400543213,
      "learning_rate": 8.672291989612287e-05,
      "loss": 0.3579143524169922,
      "memory(GiB)": 61.91,
      "step": 27710,
      "token_acc": 0.9288135593220339,
      "train_speed(iter/s)": 1.460619
    },
    {
      "epoch": 1.1873955700269911,
      "grad_norm": 5.862030029296875,
      "learning_rate": 8.671835237803812e-05,
      "loss": 0.4447788238525391,
      "memory(GiB)": 61.91,
      "step": 27715,
      "token_acc": 0.910377358490566,
      "train_speed(iter/s)": 1.460647
    },
    {
      "epoch": 1.1876097853562402,
      "grad_norm": 3.9289848804473877,
      "learning_rate": 8.671378419476596e-05,
      "loss": 0.4060066699981689,
      "memory(GiB)": 61.91,
      "step": 27720,
      "token_acc": 0.935064935064935,
      "train_speed(iter/s)": 1.460642
    },
    {
      "epoch": 1.187824000685489,
      "grad_norm": 1.8064296245574951,
      "learning_rate": 8.670921534638918e-05,
      "loss": 0.3035606384277344,
      "memory(GiB)": 61.91,
      "step": 27725,
      "token_acc": 0.9290322580645162,
      "train_speed(iter/s)": 1.460632
    },
    {
      "epoch": 1.188038216014738,
      "grad_norm": 3.9078991413116455,
      "learning_rate": 8.670464583299052e-05,
      "loss": 0.5067134857177734,
      "memory(GiB)": 61.91,
      "step": 27730,
      "token_acc": 0.8932038834951457,
      "train_speed(iter/s)": 1.46067
    },
    {
      "epoch": 1.188252431343987,
      "grad_norm": 3.5502026081085205,
      "learning_rate": 8.670007565465277e-05,
      "loss": 0.42167024612426757,
      "memory(GiB)": 61.91,
      "step": 27735,
      "token_acc": 0.9006849315068494,
      "train_speed(iter/s)": 1.460662
    },
    {
      "epoch": 1.1884666466732359,
      "grad_norm": 7.078333377838135,
      "learning_rate": 8.669550481145872e-05,
      "loss": 0.4318528175354004,
      "memory(GiB)": 61.91,
      "step": 27740,
      "token_acc": 0.8983739837398373,
      "train_speed(iter/s)": 1.460676
    },
    {
      "epoch": 1.188680862002485,
      "grad_norm": 5.993659019470215,
      "learning_rate": 8.669093330349118e-05,
      "loss": 0.6715028762817383,
      "memory(GiB)": 61.91,
      "step": 27745,
      "token_acc": 0.8685121107266436,
      "train_speed(iter/s)": 1.460669
    },
    {
      "epoch": 1.188895077331734,
      "grad_norm": 3.2523434162139893,
      "learning_rate": 8.668636113083296e-05,
      "loss": 0.2733804941177368,
      "memory(GiB)": 61.91,
      "step": 27750,
      "token_acc": 0.9307958477508651,
      "train_speed(iter/s)": 1.460659
    },
    {
      "epoch": 1.1891092926609828,
      "grad_norm": 2.3306844234466553,
      "learning_rate": 8.66817882935669e-05,
      "loss": 0.591513729095459,
      "memory(GiB)": 61.91,
      "step": 27755,
      "token_acc": 0.8844765342960289,
      "train_speed(iter/s)": 1.460666
    },
    {
      "epoch": 1.1893235079902318,
      "grad_norm": 2.3767032623291016,
      "learning_rate": 8.667721479177583e-05,
      "loss": 0.45267701148986816,
      "memory(GiB)": 61.91,
      "step": 27760,
      "token_acc": 0.8936781609195402,
      "train_speed(iter/s)": 1.460658
    },
    {
      "epoch": 1.1895377233194808,
      "grad_norm": 4.592023849487305,
      "learning_rate": 8.66726406255426e-05,
      "loss": 0.37990307807922363,
      "memory(GiB)": 61.91,
      "step": 27765,
      "token_acc": 0.9225352112676056,
      "train_speed(iter/s)": 1.460694
    },
    {
      "epoch": 1.1897519386487296,
      "grad_norm": 3.88527250289917,
      "learning_rate": 8.66680657949501e-05,
      "loss": 0.4046185493469238,
      "memory(GiB)": 61.91,
      "step": 27770,
      "token_acc": 0.9149659863945578,
      "train_speed(iter/s)": 1.460712
    },
    {
      "epoch": 1.1899661539779787,
      "grad_norm": 4.222915172576904,
      "learning_rate": 8.666349030008118e-05,
      "loss": 0.31887116432189944,
      "memory(GiB)": 61.91,
      "step": 27775,
      "token_acc": 0.9151943462897526,
      "train_speed(iter/s)": 1.460734
    },
    {
      "epoch": 1.1901803693072277,
      "grad_norm": 4.50861120223999,
      "learning_rate": 8.665891414101874e-05,
      "loss": 0.45573787689208983,
      "memory(GiB)": 61.91,
      "step": 27780,
      "token_acc": 0.9183673469387755,
      "train_speed(iter/s)": 1.460728
    },
    {
      "epoch": 1.1903945846364765,
      "grad_norm": 1.6139092445373535,
      "learning_rate": 8.665433731784568e-05,
      "loss": 0.27750492095947266,
      "memory(GiB)": 61.91,
      "step": 27785,
      "token_acc": 0.9375,
      "train_speed(iter/s)": 1.460736
    },
    {
      "epoch": 1.1906087999657256,
      "grad_norm": 5.027646064758301,
      "learning_rate": 8.664975983064491e-05,
      "loss": 0.24301564693450928,
      "memory(GiB)": 61.91,
      "step": 27790,
      "token_acc": 0.9383561643835616,
      "train_speed(iter/s)": 1.460726
    },
    {
      "epoch": 1.1908230152949746,
      "grad_norm": 2.637526273727417,
      "learning_rate": 8.664518167949937e-05,
      "loss": 0.27830004692077637,
      "memory(GiB)": 61.91,
      "step": 27795,
      "token_acc": 0.927536231884058,
      "train_speed(iter/s)": 1.460716
    },
    {
      "epoch": 1.1910372306242234,
      "grad_norm": 2.433516502380371,
      "learning_rate": 8.6640602864492e-05,
      "loss": 0.47333393096923826,
      "memory(GiB)": 61.91,
      "step": 27800,
      "token_acc": 0.8985507246376812,
      "train_speed(iter/s)": 1.460721
    },
    {
      "epoch": 1.1912514459534724,
      "grad_norm": 1.6175190210342407,
      "learning_rate": 8.663602338570571e-05,
      "loss": 0.5544665336608887,
      "memory(GiB)": 61.91,
      "step": 27805,
      "token_acc": 0.8835616438356164,
      "train_speed(iter/s)": 1.460719
    },
    {
      "epoch": 1.1914656612827215,
      "grad_norm": 2.9511265754699707,
      "learning_rate": 8.663144324322351e-05,
      "loss": 0.253474760055542,
      "memory(GiB)": 61.91,
      "step": 27810,
      "token_acc": 0.9428571428571428,
      "train_speed(iter/s)": 1.460714
    },
    {
      "epoch": 1.1916798766119703,
      "grad_norm": 6.227827072143555,
      "learning_rate": 8.662686243712834e-05,
      "loss": 0.3957479476928711,
      "memory(GiB)": 61.91,
      "step": 27815,
      "token_acc": 0.9133858267716536,
      "train_speed(iter/s)": 1.460711
    },
    {
      "epoch": 1.1918940919412193,
      "grad_norm": 0.07227258384227753,
      "learning_rate": 8.662228096750321e-05,
      "loss": 0.25143747329711913,
      "memory(GiB)": 61.91,
      "step": 27820,
      "token_acc": 0.9344262295081968,
      "train_speed(iter/s)": 1.460713
    },
    {
      "epoch": 1.1921083072704683,
      "grad_norm": 5.512509346008301,
      "learning_rate": 8.661769883443109e-05,
      "loss": 0.5983704566955567,
      "memory(GiB)": 61.91,
      "step": 27825,
      "token_acc": 0.8928571428571429,
      "train_speed(iter/s)": 1.460721
    },
    {
      "epoch": 1.1923225225997172,
      "grad_norm": 4.126183986663818,
      "learning_rate": 8.661311603799503e-05,
      "loss": 0.22532787322998046,
      "memory(GiB)": 61.91,
      "step": 27830,
      "token_acc": 0.9471544715447154,
      "train_speed(iter/s)": 1.460713
    },
    {
      "epoch": 1.1925367379289662,
      "grad_norm": 2.8886923789978027,
      "learning_rate": 8.660853257827801e-05,
      "loss": 0.3726520538330078,
      "memory(GiB)": 61.91,
      "step": 27835,
      "token_acc": 0.921875,
      "train_speed(iter/s)": 1.460732
    },
    {
      "epoch": 1.1927509532582152,
      "grad_norm": 7.896599769592285,
      "learning_rate": 8.660394845536309e-05,
      "loss": 0.2909923791885376,
      "memory(GiB)": 61.91,
      "step": 27840,
      "token_acc": 0.9241071428571429,
      "train_speed(iter/s)": 1.460736
    },
    {
      "epoch": 1.192965168587464,
      "grad_norm": 6.7992024421691895,
      "learning_rate": 8.659936366933328e-05,
      "loss": 0.8210404396057129,
      "memory(GiB)": 61.91,
      "step": 27845,
      "token_acc": 0.8227848101265823,
      "train_speed(iter/s)": 1.460731
    },
    {
      "epoch": 1.193179383916713,
      "grad_norm": 1.9434590339660645,
      "learning_rate": 8.659477822027169e-05,
      "loss": 0.28756487369537354,
      "memory(GiB)": 61.91,
      "step": 27850,
      "token_acc": 0.9344262295081968,
      "train_speed(iter/s)": 1.460735
    },
    {
      "epoch": 1.1933935992459621,
      "grad_norm": 3.627007007598877,
      "learning_rate": 8.659019210826136e-05,
      "loss": 0.2786900997161865,
      "memory(GiB)": 61.91,
      "step": 27855,
      "token_acc": 0.9326923076923077,
      "train_speed(iter/s)": 1.460737
    },
    {
      "epoch": 1.193607814575211,
      "grad_norm": 2.218353509902954,
      "learning_rate": 8.658560533338537e-05,
      "loss": 0.26366727352142333,
      "memory(GiB)": 61.91,
      "step": 27860,
      "token_acc": 0.9534883720930233,
      "train_speed(iter/s)": 1.460769
    },
    {
      "epoch": 1.19382202990446,
      "grad_norm": 2.653010368347168,
      "learning_rate": 8.658101789572683e-05,
      "loss": 0.1858613133430481,
      "memory(GiB)": 61.91,
      "step": 27865,
      "token_acc": 0.9525547445255474,
      "train_speed(iter/s)": 1.460763
    },
    {
      "epoch": 1.194036245233709,
      "grad_norm": 3.2128870487213135,
      "learning_rate": 8.657642979536882e-05,
      "loss": 0.29883289337158203,
      "memory(GiB)": 61.91,
      "step": 27870,
      "token_acc": 0.9382716049382716,
      "train_speed(iter/s)": 1.460767
    },
    {
      "epoch": 1.1942504605629578,
      "grad_norm": 1.9711037874221802,
      "learning_rate": 8.657184103239448e-05,
      "loss": 0.47423410415649414,
      "memory(GiB)": 61.91,
      "step": 27875,
      "token_acc": 0.8978978978978979,
      "train_speed(iter/s)": 1.460758
    },
    {
      "epoch": 1.1944646758922068,
      "grad_norm": 4.6100053787231445,
      "learning_rate": 8.656725160688694e-05,
      "loss": 0.29145112037658694,
      "memory(GiB)": 61.91,
      "step": 27880,
      "token_acc": 0.9438596491228071,
      "train_speed(iter/s)": 1.460776
    },
    {
      "epoch": 1.1946788912214559,
      "grad_norm": 3.0555756092071533,
      "learning_rate": 8.656266151892932e-05,
      "loss": 0.47237286567687986,
      "memory(GiB)": 61.91,
      "step": 27885,
      "token_acc": 0.896969696969697,
      "train_speed(iter/s)": 1.460774
    },
    {
      "epoch": 1.1948931065507047,
      "grad_norm": 2.5839154720306396,
      "learning_rate": 8.655807076860481e-05,
      "loss": 0.33853778839111326,
      "memory(GiB)": 61.91,
      "step": 27890,
      "token_acc": 0.9258064516129032,
      "train_speed(iter/s)": 1.460772
    },
    {
      "epoch": 1.1951073218799537,
      "grad_norm": 4.189910411834717,
      "learning_rate": 8.655347935599653e-05,
      "loss": 0.43024392127990724,
      "memory(GiB)": 61.91,
      "step": 27895,
      "token_acc": 0.9228295819935691,
      "train_speed(iter/s)": 1.46077
    },
    {
      "epoch": 1.1953215372092028,
      "grad_norm": 3.1846423149108887,
      "learning_rate": 8.654888728118769e-05,
      "loss": 0.21485917568206786,
      "memory(GiB)": 61.91,
      "step": 27900,
      "token_acc": 0.9421768707482994,
      "train_speed(iter/s)": 1.460774
    },
    {
      "epoch": 1.1955357525384516,
      "grad_norm": 3.7577319145202637,
      "learning_rate": 8.654429454426148e-05,
      "loss": 0.6605565547943115,
      "memory(GiB)": 61.91,
      "step": 27905,
      "token_acc": 0.8533834586466166,
      "train_speed(iter/s)": 1.460769
    },
    {
      "epoch": 1.1957499678677006,
      "grad_norm": 1.9759801626205444,
      "learning_rate": 8.653970114530107e-05,
      "loss": 0.5945672035217285,
      "memory(GiB)": 61.91,
      "step": 27910,
      "token_acc": 0.8831168831168831,
      "train_speed(iter/s)": 1.460778
    },
    {
      "epoch": 1.1959641831969496,
      "grad_norm": 2.1129112243652344,
      "learning_rate": 8.65351070843897e-05,
      "loss": 0.30331013202667234,
      "memory(GiB)": 61.91,
      "step": 27915,
      "token_acc": 0.9397590361445783,
      "train_speed(iter/s)": 1.460777
    },
    {
      "epoch": 1.1961783985261984,
      "grad_norm": 2.9007315635681152,
      "learning_rate": 8.653051236161062e-05,
      "loss": 0.25067079067230225,
      "memory(GiB)": 61.91,
      "step": 27920,
      "token_acc": 0.9314079422382672,
      "train_speed(iter/s)": 1.460769
    },
    {
      "epoch": 1.1963926138554475,
      "grad_norm": 3.4782657623291016,
      "learning_rate": 8.652591697704702e-05,
      "loss": 0.31124417781829833,
      "memory(GiB)": 61.91,
      "step": 27925,
      "token_acc": 0.9392857142857143,
      "train_speed(iter/s)": 1.460776
    },
    {
      "epoch": 1.1966068291846965,
      "grad_norm": 2.081183910369873,
      "learning_rate": 8.652132093078217e-05,
      "loss": 0.4089543342590332,
      "memory(GiB)": 61.91,
      "step": 27930,
      "token_acc": 0.9212328767123288,
      "train_speed(iter/s)": 1.460772
    },
    {
      "epoch": 1.1968210445139453,
      "grad_norm": 2.5384631156921387,
      "learning_rate": 8.651672422289934e-05,
      "loss": 0.30466084480285643,
      "memory(GiB)": 61.91,
      "step": 27935,
      "token_acc": 0.9326923076923077,
      "train_speed(iter/s)": 1.460764
    },
    {
      "epoch": 1.1970352598431944,
      "grad_norm": 2.5552260875701904,
      "learning_rate": 8.65121268534818e-05,
      "loss": 0.43434958457946776,
      "memory(GiB)": 61.91,
      "step": 27940,
      "token_acc": 0.9065743944636678,
      "train_speed(iter/s)": 1.460761
    },
    {
      "epoch": 1.1972494751724434,
      "grad_norm": 5.045369625091553,
      "learning_rate": 8.650752882261282e-05,
      "loss": 0.40030813217163086,
      "memory(GiB)": 61.91,
      "step": 27945,
      "token_acc": 0.9109311740890689,
      "train_speed(iter/s)": 1.460753
    },
    {
      "epoch": 1.1974636905016922,
      "grad_norm": 1.5198307037353516,
      "learning_rate": 8.65029301303757e-05,
      "loss": 0.649674367904663,
      "memory(GiB)": 61.91,
      "step": 27950,
      "token_acc": 0.8700361010830325,
      "train_speed(iter/s)": 1.460748
    },
    {
      "epoch": 1.1976779058309412,
      "grad_norm": 3.5921056270599365,
      "learning_rate": 8.649833077685377e-05,
      "loss": 0.4389814376831055,
      "memory(GiB)": 61.91,
      "step": 27955,
      "token_acc": 0.9183006535947712,
      "train_speed(iter/s)": 1.460748
    },
    {
      "epoch": 1.1978921211601903,
      "grad_norm": 9.163003921508789,
      "learning_rate": 8.649373076213035e-05,
      "loss": 0.43363800048828127,
      "memory(GiB)": 61.91,
      "step": 27960,
      "token_acc": 0.90234375,
      "train_speed(iter/s)": 1.460765
    },
    {
      "epoch": 1.198106336489439,
      "grad_norm": 2.96183443069458,
      "learning_rate": 8.648913008628874e-05,
      "loss": 0.3425696134567261,
      "memory(GiB)": 61.91,
      "step": 27965,
      "token_acc": 0.9340659340659341,
      "train_speed(iter/s)": 1.460798
    },
    {
      "epoch": 1.1983205518186881,
      "grad_norm": 11.292884826660156,
      "learning_rate": 8.648452874941232e-05,
      "loss": 0.49149255752563475,
      "memory(GiB)": 61.91,
      "step": 27970,
      "token_acc": 0.8928571428571429,
      "train_speed(iter/s)": 1.460831
    },
    {
      "epoch": 1.1985347671479372,
      "grad_norm": 3.9998838901519775,
      "learning_rate": 8.647992675158443e-05,
      "loss": 0.25110797882080077,
      "memory(GiB)": 61.91,
      "step": 27975,
      "token_acc": 0.9450171821305842,
      "train_speed(iter/s)": 1.460836
    },
    {
      "epoch": 1.198748982477186,
      "grad_norm": 3.9017081260681152,
      "learning_rate": 8.647532409288846e-05,
      "loss": 0.23569326400756835,
      "memory(GiB)": 61.91,
      "step": 27980,
      "token_acc": 0.9350180505415162,
      "train_speed(iter/s)": 1.460844
    },
    {
      "epoch": 1.198963197806435,
      "grad_norm": 3.8430380821228027,
      "learning_rate": 8.647072077340776e-05,
      "loss": 0.2965246677398682,
      "memory(GiB)": 61.91,
      "step": 27985,
      "token_acc": 0.9369085173501577,
      "train_speed(iter/s)": 1.460849
    },
    {
      "epoch": 1.199177413135684,
      "grad_norm": 2.336280584335327,
      "learning_rate": 8.646611679322576e-05,
      "loss": 0.2888176441192627,
      "memory(GiB)": 61.91,
      "step": 27990,
      "token_acc": 0.9310344827586207,
      "train_speed(iter/s)": 1.460856
    },
    {
      "epoch": 1.1993916284649329,
      "grad_norm": 3.4651288986206055,
      "learning_rate": 8.646151215242584e-05,
      "loss": 0.47187957763671873,
      "memory(GiB)": 61.91,
      "step": 27995,
      "token_acc": 0.89,
      "train_speed(iter/s)": 1.460877
    },
    {
      "epoch": 1.199605843794182,
      "grad_norm": 3.152578115463257,
      "learning_rate": 8.645690685109143e-05,
      "loss": 0.5831411361694336,
      "memory(GiB)": 61.91,
      "step": 28000,
      "token_acc": 0.8769716088328076,
      "train_speed(iter/s)": 1.460856
    },
    {
      "epoch": 1.199605843794182,
      "eval_loss": 2.5096592903137207,
      "eval_runtime": 13.683,
      "eval_samples_per_second": 7.308,
      "eval_steps_per_second": 7.308,
      "eval_token_acc": 0.45278450363196127,
      "step": 28000
    },
    {
      "epoch": 1.199820059123431,
      "grad_norm": 4.018642902374268,
      "learning_rate": 8.645230088930593e-05,
      "loss": 0.23248164653778075,
      "memory(GiB)": 61.91,
      "step": 28005,
      "token_acc": 0.5626767200754006,
      "train_speed(iter/s)": 1.459745
    },
    {
      "epoch": 1.2000342744526797,
      "grad_norm": 5.524142742156982,
      "learning_rate": 8.644769426715282e-05,
      "loss": 0.38020977973937986,
      "memory(GiB)": 61.91,
      "step": 28010,
      "token_acc": 0.9139784946236559,
      "train_speed(iter/s)": 1.459755
    },
    {
      "epoch": 1.2002484897819288,
      "grad_norm": 2.946371555328369,
      "learning_rate": 8.644308698471553e-05,
      "loss": 0.3227513313293457,
      "memory(GiB)": 61.91,
      "step": 28015,
      "token_acc": 0.933933933933934,
      "train_speed(iter/s)": 1.459747
    },
    {
      "epoch": 1.2004627051111778,
      "grad_norm": 3.1455514430999756,
      "learning_rate": 8.643847904207755e-05,
      "loss": 0.3625441074371338,
      "memory(GiB)": 61.91,
      "step": 28020,
      "token_acc": 0.9278996865203761,
      "train_speed(iter/s)": 1.459781
    },
    {
      "epoch": 1.2006769204404266,
      "grad_norm": 3.3631556034088135,
      "learning_rate": 8.643387043932232e-05,
      "loss": 0.3023067474365234,
      "memory(GiB)": 61.91,
      "step": 28025,
      "token_acc": 0.9248366013071896,
      "train_speed(iter/s)": 1.459772
    },
    {
      "epoch": 1.2008911357696757,
      "grad_norm": 3.2706353664398193,
      "learning_rate": 8.642926117653336e-05,
      "loss": 0.19410618543624877,
      "memory(GiB)": 61.91,
      "step": 28030,
      "token_acc": 0.9597701149425287,
      "train_speed(iter/s)": 1.459763
    },
    {
      "epoch": 1.2011053510989247,
      "grad_norm": 6.316496849060059,
      "learning_rate": 8.642465125379415e-05,
      "loss": 0.47822070121765137,
      "memory(GiB)": 61.91,
      "step": 28035,
      "token_acc": 0.8983050847457628,
      "train_speed(iter/s)": 1.459757
    },
    {
      "epoch": 1.2013195664281735,
      "grad_norm": 2.6856529712677,
      "learning_rate": 8.642004067118824e-05,
      "loss": 0.28473172187805174,
      "memory(GiB)": 61.91,
      "step": 28040,
      "token_acc": 0.9409722222222222,
      "train_speed(iter/s)": 1.459759
    },
    {
      "epoch": 1.2015337817574225,
      "grad_norm": 2.1148924827575684,
      "learning_rate": 8.64154294287991e-05,
      "loss": 0.3436261177062988,
      "memory(GiB)": 61.91,
      "step": 28045,
      "token_acc": 0.930635838150289,
      "train_speed(iter/s)": 1.459764
    },
    {
      "epoch": 1.2017479970866716,
      "grad_norm": 2.5761327743530273,
      "learning_rate": 8.64108175267103e-05,
      "loss": 0.445538330078125,
      "memory(GiB)": 61.91,
      "step": 28050,
      "token_acc": 0.8955823293172691,
      "train_speed(iter/s)": 1.459756
    },
    {
      "epoch": 1.2019622124159204,
      "grad_norm": 1.4132699966430664,
      "learning_rate": 8.64062049650054e-05,
      "loss": 0.11094833612442016,
      "memory(GiB)": 61.91,
      "step": 28055,
      "token_acc": 0.9711538461538461,
      "train_speed(iter/s)": 1.459757
    },
    {
      "epoch": 1.2021764277451694,
      "grad_norm": 2.2885355949401855,
      "learning_rate": 8.640159174376793e-05,
      "loss": 0.619700574874878,
      "memory(GiB)": 61.91,
      "step": 28060,
      "token_acc": 0.8593155893536122,
      "train_speed(iter/s)": 1.459765
    },
    {
      "epoch": 1.2023906430744185,
      "grad_norm": 0.5354423522949219,
      "learning_rate": 8.63969778630815e-05,
      "loss": 0.24304051399230958,
      "memory(GiB)": 61.91,
      "step": 28065,
      "token_acc": 0.945859872611465,
      "train_speed(iter/s)": 1.459771
    },
    {
      "epoch": 1.2026048584036673,
      "grad_norm": 5.000336170196533,
      "learning_rate": 8.639236332302964e-05,
      "loss": 0.5044078826904297,
      "memory(GiB)": 61.91,
      "step": 28070,
      "token_acc": 0.8973509933774835,
      "train_speed(iter/s)": 1.459768
    },
    {
      "epoch": 1.2028190737329163,
      "grad_norm": 2.0146937370300293,
      "learning_rate": 8.638774812369599e-05,
      "loss": 0.3279404640197754,
      "memory(GiB)": 61.91,
      "step": 28075,
      "token_acc": 0.9166666666666666,
      "train_speed(iter/s)": 1.459807
    },
    {
      "epoch": 1.2030332890621653,
      "grad_norm": 3.6388721466064453,
      "learning_rate": 8.638313226516417e-05,
      "loss": 0.3655651569366455,
      "memory(GiB)": 61.91,
      "step": 28080,
      "token_acc": 0.9224806201550387,
      "train_speed(iter/s)": 1.459821
    },
    {
      "epoch": 1.2032475043914141,
      "grad_norm": 3.607572317123413,
      "learning_rate": 8.637851574751776e-05,
      "loss": 0.500798511505127,
      "memory(GiB)": 61.91,
      "step": 28085,
      "token_acc": 0.8926174496644296,
      "train_speed(iter/s)": 1.459837
    },
    {
      "epoch": 1.2034617197206632,
      "grad_norm": 4.0003180503845215,
      "learning_rate": 8.637389857084041e-05,
      "loss": 0.467467212677002,
      "memory(GiB)": 61.91,
      "step": 28090,
      "token_acc": 0.8704318936877077,
      "train_speed(iter/s)": 1.459841
    },
    {
      "epoch": 1.2036759350499122,
      "grad_norm": 4.659339904785156,
      "learning_rate": 8.636928073521577e-05,
      "loss": 0.5863923549652099,
      "memory(GiB)": 61.91,
      "step": 28095,
      "token_acc": 0.8855218855218855,
      "train_speed(iter/s)": 1.45986
    },
    {
      "epoch": 1.203890150379161,
      "grad_norm": 5.063822269439697,
      "learning_rate": 8.63646622407275e-05,
      "loss": 0.4056821823120117,
      "memory(GiB)": 61.91,
      "step": 28100,
      "token_acc": 0.917910447761194,
      "train_speed(iter/s)": 1.459854
    },
    {
      "epoch": 1.20410436570841,
      "grad_norm": 6.201742172241211,
      "learning_rate": 8.636004308745925e-05,
      "loss": 0.3372138500213623,
      "memory(GiB)": 61.91,
      "step": 28105,
      "token_acc": 0.9381818181818182,
      "train_speed(iter/s)": 1.459849
    },
    {
      "epoch": 1.204318581037659,
      "grad_norm": 1.7787158489227295,
      "learning_rate": 8.635542327549471e-05,
      "loss": 0.31066012382507324,
      "memory(GiB)": 61.91,
      "step": 28110,
      "token_acc": 0.9214285714285714,
      "train_speed(iter/s)": 1.459848
    },
    {
      "epoch": 1.204532796366908,
      "grad_norm": 4.5597453117370605,
      "learning_rate": 8.635080280491758e-05,
      "loss": 0.24001779556274414,
      "memory(GiB)": 61.91,
      "step": 28115,
      "token_acc": 0.9477124183006536,
      "train_speed(iter/s)": 1.45987
    },
    {
      "epoch": 1.204747011696157,
      "grad_norm": 13.057588577270508,
      "learning_rate": 8.634618167581156e-05,
      "loss": 0.5345338821411133,
      "memory(GiB)": 61.91,
      "step": 28120,
      "token_acc": 0.8880866425992779,
      "train_speed(iter/s)": 1.459871
    },
    {
      "epoch": 1.204961227025406,
      "grad_norm": 3.2676684856414795,
      "learning_rate": 8.634155988826035e-05,
      "loss": 0.4874904632568359,
      "memory(GiB)": 61.91,
      "step": 28125,
      "token_acc": 0.9177631578947368,
      "train_speed(iter/s)": 1.459873
    },
    {
      "epoch": 1.2051754423546548,
      "grad_norm": 2.4030985832214355,
      "learning_rate": 8.633693744234771e-05,
      "loss": 0.23031084537506102,
      "memory(GiB)": 61.91,
      "step": 28130,
      "token_acc": 0.9471544715447154,
      "train_speed(iter/s)": 1.459877
    },
    {
      "epoch": 1.2053896576839038,
      "grad_norm": 4.123158931732178,
      "learning_rate": 8.633231433815735e-05,
      "loss": 0.7623964786529541,
      "memory(GiB)": 61.91,
      "step": 28135,
      "token_acc": 0.870253164556962,
      "train_speed(iter/s)": 1.459872
    },
    {
      "epoch": 1.2056038730131529,
      "grad_norm": 5.783171653747559,
      "learning_rate": 8.632769057577304e-05,
      "loss": 0.4329171657562256,
      "memory(GiB)": 61.91,
      "step": 28140,
      "token_acc": 0.9055793991416309,
      "train_speed(iter/s)": 1.45989
    },
    {
      "epoch": 1.2058180883424017,
      "grad_norm": 3.6788575649261475,
      "learning_rate": 8.632306615527853e-05,
      "loss": 0.2637831926345825,
      "memory(GiB)": 61.91,
      "step": 28145,
      "token_acc": 0.9454545454545454,
      "train_speed(iter/s)": 1.459898
    },
    {
      "epoch": 1.2060323036716507,
      "grad_norm": 5.337653160095215,
      "learning_rate": 8.63184410767576e-05,
      "loss": 0.6391002178192139,
      "memory(GiB)": 61.91,
      "step": 28150,
      "token_acc": 0.8823529411764706,
      "train_speed(iter/s)": 1.459898
    },
    {
      "epoch": 1.2062465190008997,
      "grad_norm": 3.700960636138916,
      "learning_rate": 8.631381534029404e-05,
      "loss": 0.38558814525604246,
      "memory(GiB)": 61.91,
      "step": 28155,
      "token_acc": 0.9038461538461539,
      "train_speed(iter/s)": 1.459891
    },
    {
      "epoch": 1.2064607343301486,
      "grad_norm": 3.387779951095581,
      "learning_rate": 8.630918894597166e-05,
      "loss": 0.31129357814788816,
      "memory(GiB)": 61.91,
      "step": 28160,
      "token_acc": 0.9395161290322581,
      "train_speed(iter/s)": 1.459918
    },
    {
      "epoch": 1.2066749496593976,
      "grad_norm": 2.8449461460113525,
      "learning_rate": 8.630456189387426e-05,
      "loss": 0.24952354431152343,
      "memory(GiB)": 61.91,
      "step": 28165,
      "token_acc": 0.935361216730038,
      "train_speed(iter/s)": 1.459924
    },
    {
      "epoch": 1.2068891649886466,
      "grad_norm": 4.6224236488342285,
      "learning_rate": 8.629993418408566e-05,
      "loss": 0.5465425014495849,
      "memory(GiB)": 61.91,
      "step": 28170,
      "token_acc": 0.9033457249070632,
      "train_speed(iter/s)": 1.459923
    },
    {
      "epoch": 1.2071033803178954,
      "grad_norm": 4.5857319831848145,
      "learning_rate": 8.62953058166897e-05,
      "loss": 0.35084664821624756,
      "memory(GiB)": 61.91,
      "step": 28175,
      "token_acc": 0.9383116883116883,
      "train_speed(iter/s)": 1.459948
    },
    {
      "epoch": 1.2073175956471445,
      "grad_norm": 3.8924574851989746,
      "learning_rate": 8.629067679177023e-05,
      "loss": 0.4107808589935303,
      "memory(GiB)": 61.91,
      "step": 28180,
      "token_acc": 0.9090909090909091,
      "train_speed(iter/s)": 1.459929
    },
    {
      "epoch": 1.2075318109763935,
      "grad_norm": 2.2992641925811768,
      "learning_rate": 8.62860471094111e-05,
      "loss": 0.3128371715545654,
      "memory(GiB)": 61.91,
      "step": 28185,
      "token_acc": 0.9275862068965517,
      "train_speed(iter/s)": 1.45994
    },
    {
      "epoch": 1.2077460263056423,
      "grad_norm": 2.859445095062256,
      "learning_rate": 8.62814167696962e-05,
      "loss": 0.3536311864852905,
      "memory(GiB)": 61.91,
      "step": 28190,
      "token_acc": 0.9290540540540541,
      "train_speed(iter/s)": 1.459951
    },
    {
      "epoch": 1.2079602416348914,
      "grad_norm": 3.191948175430298,
      "learning_rate": 8.627678577270939e-05,
      "loss": 0.4690140724182129,
      "memory(GiB)": 61.91,
      "step": 28195,
      "token_acc": 0.8809523809523809,
      "train_speed(iter/s)": 1.45996
    },
    {
      "epoch": 1.2081744569641404,
      "grad_norm": 2.5329604148864746,
      "learning_rate": 8.627215411853459e-05,
      "loss": 0.42574052810668944,
      "memory(GiB)": 61.91,
      "step": 28200,
      "token_acc": 0.9137254901960784,
      "train_speed(iter/s)": 1.459976
    },
    {
      "epoch": 1.2083886722933892,
      "grad_norm": 2.932382822036743,
      "learning_rate": 8.626752180725568e-05,
      "loss": 0.4206682205200195,
      "memory(GiB)": 61.91,
      "step": 28205,
      "token_acc": 0.9134078212290503,
      "train_speed(iter/s)": 1.459993
    },
    {
      "epoch": 1.2086028876226382,
      "grad_norm": 3.857832193374634,
      "learning_rate": 8.626288883895659e-05,
      "loss": 0.41814308166503905,
      "memory(GiB)": 61.91,
      "step": 28210,
      "token_acc": 0.9033613445378151,
      "train_speed(iter/s)": 1.459972
    },
    {
      "epoch": 1.2088171029518873,
      "grad_norm": 2.0870256423950195,
      "learning_rate": 8.625825521372125e-05,
      "loss": 0.4810174942016602,
      "memory(GiB)": 61.91,
      "step": 28215,
      "token_acc": 0.9047619047619048,
      "train_speed(iter/s)": 1.459962
    },
    {
      "epoch": 1.209031318281136,
      "grad_norm": 3.25201678276062,
      "learning_rate": 8.62536209316336e-05,
      "loss": 0.20692050457000732,
      "memory(GiB)": 61.91,
      "step": 28220,
      "token_acc": 0.9573170731707317,
      "train_speed(iter/s)": 1.459964
    },
    {
      "epoch": 1.2092455336103851,
      "grad_norm": 3.2210497856140137,
      "learning_rate": 8.624898599277762e-05,
      "loss": 0.25086545944213867,
      "memory(GiB)": 61.91,
      "step": 28225,
      "token_acc": 0.9455782312925171,
      "train_speed(iter/s)": 1.459955
    },
    {
      "epoch": 1.2094597489396341,
      "grad_norm": 2.4520580768585205,
      "learning_rate": 8.624435039723724e-05,
      "loss": 0.3127427339553833,
      "memory(GiB)": 61.91,
      "step": 28230,
      "token_acc": 0.9243697478991597,
      "train_speed(iter/s)": 1.460008
    },
    {
      "epoch": 1.209673964268883,
      "grad_norm": 0.32143110036849976,
      "learning_rate": 8.623971414509644e-05,
      "loss": 0.3568761348724365,
      "memory(GiB)": 61.91,
      "step": 28235,
      "token_acc": 0.9236111111111112,
      "train_speed(iter/s)": 1.460033
    },
    {
      "epoch": 1.209888179598132,
      "grad_norm": 2.4051144123077393,
      "learning_rate": 8.623507723643924e-05,
      "loss": 0.40650715827941897,
      "memory(GiB)": 61.91,
      "step": 28240,
      "token_acc": 0.9140625,
      "train_speed(iter/s)": 1.460036
    },
    {
      "epoch": 1.210102394927381,
      "grad_norm": 4.323846340179443,
      "learning_rate": 8.623043967134963e-05,
      "loss": 0.511476469039917,
      "memory(GiB)": 65.35,
      "step": 28245,
      "token_acc": 0.8865979381443299,
      "train_speed(iter/s)": 1.460033
    },
    {
      "epoch": 1.2103166102566298,
      "grad_norm": 3.9283812046051025,
      "learning_rate": 8.622580144991159e-05,
      "loss": 0.43967185020446775,
      "memory(GiB)": 65.35,
      "step": 28250,
      "token_acc": 0.9169675090252708,
      "train_speed(iter/s)": 1.460045
    },
    {
      "epoch": 1.2105308255858789,
      "grad_norm": 2.900285482406616,
      "learning_rate": 8.622116257220921e-05,
      "loss": 0.6238034248352051,
      "memory(GiB)": 65.35,
      "step": 28255,
      "token_acc": 0.8562091503267973,
      "train_speed(iter/s)": 1.460056
    },
    {
      "epoch": 1.210745040915128,
      "grad_norm": 2.0437841415405273,
      "learning_rate": 8.621652303832647e-05,
      "loss": 0.4387816429138184,
      "memory(GiB)": 65.35,
      "step": 28260,
      "token_acc": 0.9158576051779935,
      "train_speed(iter/s)": 1.46006
    },
    {
      "epoch": 1.2109592562443767,
      "grad_norm": 3.513793706893921,
      "learning_rate": 8.621188284834745e-05,
      "loss": 0.49291324615478516,
      "memory(GiB)": 65.35,
      "step": 28265,
      "token_acc": 0.9021739130434783,
      "train_speed(iter/s)": 1.460065
    },
    {
      "epoch": 1.2111734715736258,
      "grad_norm": 5.792081832885742,
      "learning_rate": 8.62072420023562e-05,
      "loss": 0.2662515640258789,
      "memory(GiB)": 65.35,
      "step": 28270,
      "token_acc": 0.9379310344827586,
      "train_speed(iter/s)": 1.460079
    },
    {
      "epoch": 1.2113876869028748,
      "grad_norm": 3.331434965133667,
      "learning_rate": 8.620260050043678e-05,
      "loss": 0.3295966625213623,
      "memory(GiB)": 65.35,
      "step": 28275,
      "token_acc": 0.9154411764705882,
      "train_speed(iter/s)": 1.460093
    },
    {
      "epoch": 1.2116019022321236,
      "grad_norm": 4.264649391174316,
      "learning_rate": 8.619795834267331e-05,
      "loss": 0.5271106719970703,
      "memory(GiB)": 65.35,
      "step": 28280,
      "token_acc": 0.8846153846153846,
      "train_speed(iter/s)": 1.460145
    },
    {
      "epoch": 1.2118161175613726,
      "grad_norm": 2.189558744430542,
      "learning_rate": 8.619331552914987e-05,
      "loss": 0.3954843759536743,
      "memory(GiB)": 65.35,
      "step": 28285,
      "token_acc": 0.9242902208201893,
      "train_speed(iter/s)": 1.460168
    },
    {
      "epoch": 1.2120303328906217,
      "grad_norm": 1.8964002132415771,
      "learning_rate": 8.618867205995056e-05,
      "loss": 0.32153000831604006,
      "memory(GiB)": 65.35,
      "step": 28290,
      "token_acc": 0.9312977099236641,
      "train_speed(iter/s)": 1.46016
    },
    {
      "epoch": 1.2122445482198707,
      "grad_norm": 3.0196118354797363,
      "learning_rate": 8.618402793515949e-05,
      "loss": 0.3545821666717529,
      "memory(GiB)": 65.35,
      "step": 28295,
      "token_acc": 0.9204892966360856,
      "train_speed(iter/s)": 1.460169
    },
    {
      "epoch": 1.2124587635491195,
      "grad_norm": 3.8822877407073975,
      "learning_rate": 8.617938315486084e-05,
      "loss": 0.5855368614196778,
      "memory(GiB)": 65.35,
      "step": 28300,
      "token_acc": 0.8971631205673759,
      "train_speed(iter/s)": 1.460175
    },
    {
      "epoch": 1.2126729788783686,
      "grad_norm": 2.030122995376587,
      "learning_rate": 8.617473771913871e-05,
      "loss": 0.37313051223754884,
      "memory(GiB)": 65.35,
      "step": 28305,
      "token_acc": 0.9138576779026217,
      "train_speed(iter/s)": 1.460173
    },
    {
      "epoch": 1.2128871942076176,
      "grad_norm": 2.709770679473877,
      "learning_rate": 8.617009162807727e-05,
      "loss": 0.2883031368255615,
      "memory(GiB)": 65.35,
      "step": 28310,
      "token_acc": 0.9395770392749244,
      "train_speed(iter/s)": 1.460188
    },
    {
      "epoch": 1.2131014095368664,
      "grad_norm": 6.382560729980469,
      "learning_rate": 8.61654448817607e-05,
      "loss": 0.8410708427429199,
      "memory(GiB)": 65.35,
      "step": 28315,
      "token_acc": 0.8308157099697885,
      "train_speed(iter/s)": 1.460237
    },
    {
      "epoch": 1.2133156248661154,
      "grad_norm": 5.385939121246338,
      "learning_rate": 8.616079748027317e-05,
      "loss": 0.37341487407684326,
      "memory(GiB)": 65.35,
      "step": 28320,
      "token_acc": 0.9233716475095786,
      "train_speed(iter/s)": 1.460219
    },
    {
      "epoch": 1.2135298401953645,
      "grad_norm": 1.8570003509521484,
      "learning_rate": 8.615614942369887e-05,
      "loss": 0.3430162906646729,
      "memory(GiB)": 65.35,
      "step": 28325,
      "token_acc": 0.9283154121863799,
      "train_speed(iter/s)": 1.46023
    },
    {
      "epoch": 1.2137440555246133,
      "grad_norm": 3.420652389526367,
      "learning_rate": 8.6151500712122e-05,
      "loss": 0.6096773147583008,
      "memory(GiB)": 65.35,
      "step": 28330,
      "token_acc": 0.8674033149171271,
      "train_speed(iter/s)": 1.460267
    },
    {
      "epoch": 1.2139582708538623,
      "grad_norm": 6.012396812438965,
      "learning_rate": 8.614685134562679e-05,
      "loss": 0.9031429290771484,
      "memory(GiB)": 65.35,
      "step": 28335,
      "token_acc": 0.8303886925795053,
      "train_speed(iter/s)": 1.460253
    },
    {
      "epoch": 1.2141724861831114,
      "grad_norm": 3.566208839416504,
      "learning_rate": 8.614220132429746e-05,
      "loss": 0.3378458976745605,
      "memory(GiB)": 65.35,
      "step": 28340,
      "token_acc": 0.9280575539568345,
      "train_speed(iter/s)": 1.460246
    },
    {
      "epoch": 1.2143867015123602,
      "grad_norm": 3.81057071685791,
      "learning_rate": 8.613755064821824e-05,
      "loss": 0.3401157855987549,
      "memory(GiB)": 65.35,
      "step": 28345,
      "token_acc": 0.9206896551724137,
      "train_speed(iter/s)": 1.460231
    },
    {
      "epoch": 1.2146009168416092,
      "grad_norm": 2.6822686195373535,
      "learning_rate": 8.613289931747339e-05,
      "loss": 0.5216886043548584,
      "memory(GiB)": 65.35,
      "step": 28350,
      "token_acc": 0.9009584664536742,
      "train_speed(iter/s)": 1.460226
    },
    {
      "epoch": 1.2148151321708582,
      "grad_norm": 7.4567179679870605,
      "learning_rate": 8.612824733214717e-05,
      "loss": 0.6001446723937989,
      "memory(GiB)": 65.35,
      "step": 28355,
      "token_acc": 0.8936170212765957,
      "train_speed(iter/s)": 1.460216
    },
    {
      "epoch": 1.215029347500107,
      "grad_norm": 5.147367000579834,
      "learning_rate": 8.612359469232387e-05,
      "loss": 0.3531834125518799,
      "memory(GiB)": 65.35,
      "step": 28360,
      "token_acc": 0.935374149659864,
      "train_speed(iter/s)": 1.46021
    },
    {
      "epoch": 1.215243562829356,
      "grad_norm": 6.37980842590332,
      "learning_rate": 8.611894139808776e-05,
      "loss": 0.21638710498809816,
      "memory(GiB)": 65.35,
      "step": 28365,
      "token_acc": 0.9473684210526315,
      "train_speed(iter/s)": 1.460213
    },
    {
      "epoch": 1.2154577781586051,
      "grad_norm": 2.930772542953491,
      "learning_rate": 8.611428744952315e-05,
      "loss": 0.3490036725997925,
      "memory(GiB)": 65.35,
      "step": 28370,
      "token_acc": 0.9384615384615385,
      "train_speed(iter/s)": 1.460221
    },
    {
      "epoch": 1.215671993487854,
      "grad_norm": 1.4674005508422852,
      "learning_rate": 8.610963284671433e-05,
      "loss": 0.40391831398010253,
      "memory(GiB)": 65.35,
      "step": 28375,
      "token_acc": 0.9132075471698113,
      "train_speed(iter/s)": 1.460213
    },
    {
      "epoch": 1.215886208817103,
      "grad_norm": 1.4618442058563232,
      "learning_rate": 8.610497758974566e-05,
      "loss": 0.14197814464569092,
      "memory(GiB)": 65.35,
      "step": 28380,
      "token_acc": 0.9642857142857143,
      "train_speed(iter/s)": 1.460224
    },
    {
      "epoch": 1.216100424146352,
      "grad_norm": 1.2743782997131348,
      "learning_rate": 8.610032167870144e-05,
      "loss": 0.45685505867004395,
      "memory(GiB)": 65.35,
      "step": 28385,
      "token_acc": 0.9078947368421053,
      "train_speed(iter/s)": 1.460227
    },
    {
      "epoch": 1.2163146394756008,
      "grad_norm": 3.869875192642212,
      "learning_rate": 8.609566511366603e-05,
      "loss": 0.4434321403503418,
      "memory(GiB)": 65.35,
      "step": 28390,
      "token_acc": 0.8863636363636364,
      "train_speed(iter/s)": 1.46023
    },
    {
      "epoch": 1.2165288548048498,
      "grad_norm": 3.313890218734741,
      "learning_rate": 8.609100789472377e-05,
      "loss": 0.23853189945220948,
      "memory(GiB)": 65.35,
      "step": 28395,
      "token_acc": 0.9492957746478873,
      "train_speed(iter/s)": 1.460232
    },
    {
      "epoch": 1.2167430701340989,
      "grad_norm": 6.129242420196533,
      "learning_rate": 8.608635002195908e-05,
      "loss": 0.602261734008789,
      "memory(GiB)": 65.35,
      "step": 28400,
      "token_acc": 0.8767605633802817,
      "train_speed(iter/s)": 1.460235
    },
    {
      "epoch": 1.2169572854633477,
      "grad_norm": 2.5561740398406982,
      "learning_rate": 8.608169149545629e-05,
      "loss": 0.5529039859771728,
      "memory(GiB)": 65.35,
      "step": 28405,
      "token_acc": 0.8786885245901639,
      "train_speed(iter/s)": 1.460269
    },
    {
      "epoch": 1.2171715007925967,
      "grad_norm": 5.392173767089844,
      "learning_rate": 8.60770323152998e-05,
      "loss": 0.34566895961761473,
      "memory(GiB)": 65.35,
      "step": 28410,
      "token_acc": 0.934984520123839,
      "train_speed(iter/s)": 1.460269
    },
    {
      "epoch": 1.2173857161218458,
      "grad_norm": 3.6324377059936523,
      "learning_rate": 8.607237248157403e-05,
      "loss": 0.3127319097518921,
      "memory(GiB)": 65.35,
      "step": 28415,
      "token_acc": 0.9218241042345277,
      "train_speed(iter/s)": 1.460261
    },
    {
      "epoch": 1.2175999314510946,
      "grad_norm": 2.924931764602661,
      "learning_rate": 8.606771199436341e-05,
      "loss": 0.35693798065185545,
      "memory(GiB)": 65.35,
      "step": 28420,
      "token_acc": 0.9197530864197531,
      "train_speed(iter/s)": 1.460257
    },
    {
      "epoch": 1.2178141467803436,
      "grad_norm": 3.2903215885162354,
      "learning_rate": 8.606305085375234e-05,
      "loss": 0.30550906658172605,
      "memory(GiB)": 65.35,
      "step": 28425,
      "token_acc": 0.9388379204892966,
      "train_speed(iter/s)": 1.460256
    },
    {
      "epoch": 1.2180283621095926,
      "grad_norm": 1.8877665996551514,
      "learning_rate": 8.605838905982526e-05,
      "loss": 0.3474111557006836,
      "memory(GiB)": 65.35,
      "step": 28430,
      "token_acc": 0.9118773946360154,
      "train_speed(iter/s)": 1.460235
    },
    {
      "epoch": 1.2182425774388415,
      "grad_norm": 3.0434253215789795,
      "learning_rate": 8.605372661266667e-05,
      "loss": 0.4959871292114258,
      "memory(GiB)": 65.35,
      "step": 28435,
      "token_acc": 0.9011976047904192,
      "train_speed(iter/s)": 1.460236
    },
    {
      "epoch": 1.2184567927680905,
      "grad_norm": 0.5078388452529907,
      "learning_rate": 8.604906351236097e-05,
      "loss": 0.49997587203979493,
      "memory(GiB)": 65.35,
      "step": 28440,
      "token_acc": 0.8947368421052632,
      "train_speed(iter/s)": 1.460233
    },
    {
      "epoch": 1.2186710080973395,
      "grad_norm": 2.6899778842926025,
      "learning_rate": 8.604439975899269e-05,
      "loss": 0.545769739151001,
      "memory(GiB)": 65.35,
      "step": 28445,
      "token_acc": 0.8807692307692307,
      "train_speed(iter/s)": 1.460233
    },
    {
      "epoch": 1.2188852234265883,
      "grad_norm": 2.4926204681396484,
      "learning_rate": 8.60397353526463e-05,
      "loss": 0.3422074794769287,
      "memory(GiB)": 65.35,
      "step": 28450,
      "token_acc": 0.9047619047619048,
      "train_speed(iter/s)": 1.460238
    },
    {
      "epoch": 1.2190994387558374,
      "grad_norm": 9.098722457885742,
      "learning_rate": 8.603507029340627e-05,
      "loss": 0.4513997554779053,
      "memory(GiB)": 65.35,
      "step": 28455,
      "token_acc": 0.9250936329588015,
      "train_speed(iter/s)": 1.460241
    },
    {
      "epoch": 1.2193136540850864,
      "grad_norm": 0.38856807351112366,
      "learning_rate": 8.603040458135715e-05,
      "loss": 0.3014711618423462,
      "memory(GiB)": 65.35,
      "step": 28460,
      "token_acc": 0.9337979094076655,
      "train_speed(iter/s)": 1.460256
    },
    {
      "epoch": 1.2195278694143352,
      "grad_norm": 5.859399318695068,
      "learning_rate": 8.602573821658345e-05,
      "loss": 0.2844375133514404,
      "memory(GiB)": 65.35,
      "step": 28465,
      "token_acc": 0.9479166666666666,
      "train_speed(iter/s)": 1.460245
    },
    {
      "epoch": 1.2197420847435843,
      "grad_norm": 2.3409230709075928,
      "learning_rate": 8.602107119916971e-05,
      "loss": 0.3645988702774048,
      "memory(GiB)": 65.35,
      "step": 28470,
      "token_acc": 0.9293286219081273,
      "train_speed(iter/s)": 1.460259
    },
    {
      "epoch": 1.2199563000728333,
      "grad_norm": 2.457714319229126,
      "learning_rate": 8.601640352920049e-05,
      "loss": 0.2600761651992798,
      "memory(GiB)": 65.35,
      "step": 28475,
      "token_acc": 0.9375,
      "train_speed(iter/s)": 1.460268
    },
    {
      "epoch": 1.220170515402082,
      "grad_norm": 3.0965373516082764,
      "learning_rate": 8.601173520676031e-05,
      "loss": 0.43578367233276366,
      "memory(GiB)": 70.5,
      "step": 28480,
      "token_acc": 0.9061371841155235,
      "train_speed(iter/s)": 1.46027
    },
    {
      "epoch": 1.2203847307313311,
      "grad_norm": 9.817384719848633,
      "learning_rate": 8.600706623193377e-05,
      "loss": 0.2756763219833374,
      "memory(GiB)": 70.5,
      "step": 28485,
      "token_acc": 0.9250936329588015,
      "train_speed(iter/s)": 1.46029
    },
    {
      "epoch": 1.2205989460605802,
      "grad_norm": 0.3203599154949188,
      "learning_rate": 8.600239660480546e-05,
      "loss": 0.22174072265625,
      "memory(GiB)": 70.5,
      "step": 28490,
      "token_acc": 0.95625,
      "train_speed(iter/s)": 1.460284
    },
    {
      "epoch": 1.220813161389829,
      "grad_norm": 9.00351619720459,
      "learning_rate": 8.599772632545995e-05,
      "loss": 0.48617048263549806,
      "memory(GiB)": 70.5,
      "step": 28495,
      "token_acc": 0.8897435897435897,
      "train_speed(iter/s)": 1.460281
    },
    {
      "epoch": 1.221027376719078,
      "grad_norm": 0.043783530592918396,
      "learning_rate": 8.599305539398186e-05,
      "loss": 0.11486012935638427,
      "memory(GiB)": 70.5,
      "step": 28500,
      "token_acc": 0.9649805447470817,
      "train_speed(iter/s)": 1.460268
    },
    {
      "epoch": 1.221027376719078,
      "eval_loss": 2.6682300567626953,
      "eval_runtime": 13.7904,
      "eval_samples_per_second": 7.251,
      "eval_steps_per_second": 7.251,
      "eval_token_acc": 0.4305364511691884,
      "step": 28500
    },
    {
      "epoch": 1.221241592048327,
      "grad_norm": 2.6652050018310547,
      "learning_rate": 8.598838381045582e-05,
      "loss": 0.3963721990585327,
      "memory(GiB)": 70.5,
      "step": 28505,
      "token_acc": 0.5695952615992103,
      "train_speed(iter/s)": 1.459188
    },
    {
      "epoch": 1.2214558073775759,
      "grad_norm": 7.385496616363525,
      "learning_rate": 8.598371157496642e-05,
      "loss": 0.4642333984375,
      "memory(GiB)": 70.5,
      "step": 28510,
      "token_acc": 0.9007352941176471,
      "train_speed(iter/s)": 1.459177
    },
    {
      "epoch": 1.221670022706825,
      "grad_norm": 6.27261209487915,
      "learning_rate": 8.597903868759836e-05,
      "loss": 0.6061900138854981,
      "memory(GiB)": 70.5,
      "step": 28515,
      "token_acc": 0.8735632183908046,
      "train_speed(iter/s)": 1.459212
    },
    {
      "epoch": 1.221884238036074,
      "grad_norm": 5.944021224975586,
      "learning_rate": 8.597436514843625e-05,
      "loss": 0.4169018745422363,
      "memory(GiB)": 70.5,
      "step": 28520,
      "token_acc": 0.9149797570850202,
      "train_speed(iter/s)": 1.459217
    },
    {
      "epoch": 1.2220984533653227,
      "grad_norm": 4.3176798820495605,
      "learning_rate": 8.596969095756478e-05,
      "loss": 0.42948522567749026,
      "memory(GiB)": 70.5,
      "step": 28525,
      "token_acc": 0.9099099099099099,
      "train_speed(iter/s)": 1.459257
    },
    {
      "epoch": 1.2223126686945718,
      "grad_norm": 4.60506534576416,
      "learning_rate": 8.59650161150686e-05,
      "loss": 0.41767420768737795,
      "memory(GiB)": 70.5,
      "step": 28530,
      "token_acc": 0.9096774193548387,
      "train_speed(iter/s)": 1.459246
    },
    {
      "epoch": 1.2225268840238208,
      "grad_norm": 3.639427661895752,
      "learning_rate": 8.596034062103242e-05,
      "loss": 0.7455500602722168,
      "memory(GiB)": 70.5,
      "step": 28535,
      "token_acc": 0.85546875,
      "train_speed(iter/s)": 1.459241
    },
    {
      "epoch": 1.2227410993530696,
      "grad_norm": 1.5944561958312988,
      "learning_rate": 8.595566447554093e-05,
      "loss": 0.4830667972564697,
      "memory(GiB)": 70.5,
      "step": 28540,
      "token_acc": 0.9003322259136213,
      "train_speed(iter/s)": 1.459232
    },
    {
      "epoch": 1.2229553146823187,
      "grad_norm": 2.8588011264801025,
      "learning_rate": 8.595098767867886e-05,
      "loss": 0.5178374767303466,
      "memory(GiB)": 70.5,
      "step": 28545,
      "token_acc": 0.8907849829351536,
      "train_speed(iter/s)": 1.459247
    },
    {
      "epoch": 1.2231695300115677,
      "grad_norm": 4.137483596801758,
      "learning_rate": 8.594631023053093e-05,
      "loss": 0.3964956760406494,
      "memory(GiB)": 70.5,
      "step": 28550,
      "token_acc": 0.9074074074074074,
      "train_speed(iter/s)": 1.459252
    },
    {
      "epoch": 1.2233837453408165,
      "grad_norm": 3.0286550521850586,
      "learning_rate": 8.594163213118185e-05,
      "loss": 0.4017927646636963,
      "memory(GiB)": 70.5,
      "step": 28555,
      "token_acc": 0.9236641221374046,
      "train_speed(iter/s)": 1.459266
    },
    {
      "epoch": 1.2235979606700655,
      "grad_norm": 2.804932117462158,
      "learning_rate": 8.593695338071639e-05,
      "loss": 0.21779294013977052,
      "memory(GiB)": 70.5,
      "step": 28560,
      "token_acc": 0.9452054794520548,
      "train_speed(iter/s)": 1.459278
    },
    {
      "epoch": 1.2238121759993146,
      "grad_norm": 2.500014305114746,
      "learning_rate": 8.593227397921932e-05,
      "loss": 0.5392621994018555,
      "memory(GiB)": 70.5,
      "step": 28565,
      "token_acc": 0.8758620689655172,
      "train_speed(iter/s)": 1.459322
    },
    {
      "epoch": 1.2240263913285634,
      "grad_norm": 6.010717391967773,
      "learning_rate": 8.59275939267754e-05,
      "loss": 0.4046011447906494,
      "memory(GiB)": 70.5,
      "step": 28570,
      "token_acc": 0.9347079037800687,
      "train_speed(iter/s)": 1.459323
    },
    {
      "epoch": 1.2242406066578124,
      "grad_norm": 2.4557695388793945,
      "learning_rate": 8.59229132234694e-05,
      "loss": 0.5093642234802246,
      "memory(GiB)": 70.5,
      "step": 28575,
      "token_acc": 0.9061488673139159,
      "train_speed(iter/s)": 1.45935
    },
    {
      "epoch": 1.2244548219870615,
      "grad_norm": 4.539165496826172,
      "learning_rate": 8.591823186938614e-05,
      "loss": 0.38286681175231935,
      "memory(GiB)": 70.5,
      "step": 28580,
      "token_acc": 0.9272727272727272,
      "train_speed(iter/s)": 1.459342
    },
    {
      "epoch": 1.2246690373163103,
      "grad_norm": 3.756697177886963,
      "learning_rate": 8.591354986461042e-05,
      "loss": 0.32461550235748293,
      "memory(GiB)": 70.5,
      "step": 28585,
      "token_acc": 0.9285714285714286,
      "train_speed(iter/s)": 1.459341
    },
    {
      "epoch": 1.2248832526455593,
      "grad_norm": 3.549438953399658,
      "learning_rate": 8.590886720922704e-05,
      "loss": 0.3358589172363281,
      "memory(GiB)": 70.5,
      "step": 28590,
      "token_acc": 0.926056338028169,
      "train_speed(iter/s)": 1.459339
    },
    {
      "epoch": 1.2250974679748083,
      "grad_norm": 4.6078691482543945,
      "learning_rate": 8.590418390332084e-05,
      "loss": 0.43480691909790037,
      "memory(GiB)": 70.5,
      "step": 28595,
      "token_acc": 0.9041666666666667,
      "train_speed(iter/s)": 1.459339
    },
    {
      "epoch": 1.2253116833040572,
      "grad_norm": 4.199001789093018,
      "learning_rate": 8.589949994697669e-05,
      "loss": 0.4181361198425293,
      "memory(GiB)": 70.5,
      "step": 28600,
      "token_acc": 0.9027777777777778,
      "train_speed(iter/s)": 1.459376
    },
    {
      "epoch": 1.2255258986333062,
      "grad_norm": 6.4896769523620605,
      "learning_rate": 8.589481534027941e-05,
      "loss": 0.31342453956604005,
      "memory(GiB)": 70.5,
      "step": 28605,
      "token_acc": 0.9272030651340997,
      "train_speed(iter/s)": 1.459364
    },
    {
      "epoch": 1.2257401139625552,
      "grad_norm": 8.924944877624512,
      "learning_rate": 8.589013008331388e-05,
      "loss": 0.43149623870849607,
      "memory(GiB)": 70.5,
      "step": 28610,
      "token_acc": 0.8901960784313725,
      "train_speed(iter/s)": 1.459385
    },
    {
      "epoch": 1.225954329291804,
      "grad_norm": 1.7413734197616577,
      "learning_rate": 8.588544417616497e-05,
      "loss": 0.3726505756378174,
      "memory(GiB)": 70.5,
      "step": 28615,
      "token_acc": 0.9233716475095786,
      "train_speed(iter/s)": 1.459372
    },
    {
      "epoch": 1.226168544621053,
      "grad_norm": 2.79915714263916,
      "learning_rate": 8.588075761891758e-05,
      "loss": 0.2623190402984619,
      "memory(GiB)": 70.5,
      "step": 28620,
      "token_acc": 0.9392712550607287,
      "train_speed(iter/s)": 1.459341
    },
    {
      "epoch": 1.226382759950302,
      "grad_norm": 2.4305312633514404,
      "learning_rate": 8.587607041165662e-05,
      "loss": 0.42760567665100097,
      "memory(GiB)": 70.5,
      "step": 28625,
      "token_acc": 0.9087719298245615,
      "train_speed(iter/s)": 1.459344
    },
    {
      "epoch": 1.226596975279551,
      "grad_norm": 3.396895408630371,
      "learning_rate": 8.587138255446698e-05,
      "loss": 0.547541332244873,
      "memory(GiB)": 70.5,
      "step": 28630,
      "token_acc": 0.875968992248062,
      "train_speed(iter/s)": 1.459338
    },
    {
      "epoch": 1.2268111906088,
      "grad_norm": 4.583094120025635,
      "learning_rate": 8.586669404743359e-05,
      "loss": 0.72474365234375,
      "memory(GiB)": 70.5,
      "step": 28635,
      "token_acc": 0.8436482084690554,
      "train_speed(iter/s)": 1.459363
    },
    {
      "epoch": 1.227025405938049,
      "grad_norm": 5.1589035987854,
      "learning_rate": 8.586200489064138e-05,
      "loss": 0.405120325088501,
      "memory(GiB)": 70.5,
      "step": 28640,
      "token_acc": 0.9090909090909091,
      "train_speed(iter/s)": 1.459366
    },
    {
      "epoch": 1.2272396212672978,
      "grad_norm": 3.3551888465881348,
      "learning_rate": 8.585731508417533e-05,
      "loss": 0.354505729675293,
      "memory(GiB)": 70.5,
      "step": 28645,
      "token_acc": 0.9285714285714286,
      "train_speed(iter/s)": 1.459373
    },
    {
      "epoch": 1.2274538365965468,
      "grad_norm": 3.5921969413757324,
      "learning_rate": 8.585262462812038e-05,
      "loss": 0.392541241645813,
      "memory(GiB)": 70.5,
      "step": 28650,
      "token_acc": 0.9023569023569024,
      "train_speed(iter/s)": 1.459358
    },
    {
      "epoch": 1.2276680519257959,
      "grad_norm": 3.168592691421509,
      "learning_rate": 8.584793352256149e-05,
      "loss": 0.3253945827484131,
      "memory(GiB)": 70.5,
      "step": 28655,
      "token_acc": 0.9227642276422764,
      "train_speed(iter/s)": 1.459359
    },
    {
      "epoch": 1.2278822672550447,
      "grad_norm": 3.7773995399475098,
      "learning_rate": 8.584324176758367e-05,
      "loss": 0.3911292552947998,
      "memory(GiB)": 70.5,
      "step": 28660,
      "token_acc": 0.9041095890410958,
      "train_speed(iter/s)": 1.459357
    },
    {
      "epoch": 1.2280964825842937,
      "grad_norm": 3.424224376678467,
      "learning_rate": 8.583854936327189e-05,
      "loss": 0.5317602157592773,
      "memory(GiB)": 70.5,
      "step": 28665,
      "token_acc": 0.9,
      "train_speed(iter/s)": 1.459364
    },
    {
      "epoch": 1.2283106979135427,
      "grad_norm": 2.6607155799865723,
      "learning_rate": 8.583385630971118e-05,
      "loss": 0.4934698104858398,
      "memory(GiB)": 70.5,
      "step": 28670,
      "token_acc": 0.8859060402684564,
      "train_speed(iter/s)": 1.459397
    },
    {
      "epoch": 1.2285249132427916,
      "grad_norm": 3.4515416622161865,
      "learning_rate": 8.582916260698655e-05,
      "loss": 0.3314671039581299,
      "memory(GiB)": 70.5,
      "step": 28675,
      "token_acc": 0.9391025641025641,
      "train_speed(iter/s)": 1.459406
    },
    {
      "epoch": 1.2287391285720406,
      "grad_norm": 1.3812919855117798,
      "learning_rate": 8.582446825518302e-05,
      "loss": 0.4162896156311035,
      "memory(GiB)": 70.5,
      "step": 28680,
      "token_acc": 0.8992248062015504,
      "train_speed(iter/s)": 1.459407
    },
    {
      "epoch": 1.2289533439012896,
      "grad_norm": 5.83089542388916,
      "learning_rate": 8.581977325438564e-05,
      "loss": 0.35457663536071776,
      "memory(GiB)": 70.5,
      "step": 28685,
      "token_acc": 0.9290780141843972,
      "train_speed(iter/s)": 1.459439
    },
    {
      "epoch": 1.2291675592305384,
      "grad_norm": 3.297933578491211,
      "learning_rate": 8.581507760467945e-05,
      "loss": 0.2458139181137085,
      "memory(GiB)": 70.5,
      "step": 28690,
      "token_acc": 0.9454545454545454,
      "train_speed(iter/s)": 1.45945
    },
    {
      "epoch": 1.2293817745597875,
      "grad_norm": 3.665548801422119,
      "learning_rate": 8.581038130614957e-05,
      "loss": 0.3766390323638916,
      "memory(GiB)": 70.5,
      "step": 28695,
      "token_acc": 0.9304029304029304,
      "train_speed(iter/s)": 1.459453
    },
    {
      "epoch": 1.2295959898890365,
      "grad_norm": 1.5152146816253662,
      "learning_rate": 8.580568435888102e-05,
      "loss": 0.5002099990844726,
      "memory(GiB)": 70.5,
      "step": 28700,
      "token_acc": 0.89198606271777,
      "train_speed(iter/s)": 1.459433
    },
    {
      "epoch": 1.2298102052182853,
      "grad_norm": 1.8952580690383911,
      "learning_rate": 8.580098676295891e-05,
      "loss": 0.6652101993560791,
      "memory(GiB)": 70.5,
      "step": 28705,
      "token_acc": 0.8769230769230769,
      "train_speed(iter/s)": 1.459482
    },
    {
      "epoch": 1.2300244205475344,
      "grad_norm": 3.0868444442749023,
      "learning_rate": 8.579628851846834e-05,
      "loss": 0.1136460542678833,
      "memory(GiB)": 70.5,
      "step": 28710,
      "token_acc": 0.9641434262948207,
      "train_speed(iter/s)": 1.459476
    },
    {
      "epoch": 1.2302386358767834,
      "grad_norm": 1.3543386459350586,
      "learning_rate": 8.579158962549443e-05,
      "loss": 0.4275153636932373,
      "memory(GiB)": 70.5,
      "step": 28715,
      "token_acc": 0.9051724137931034,
      "train_speed(iter/s)": 1.459472
    },
    {
      "epoch": 1.2304528512060324,
      "grad_norm": 4.341468334197998,
      "learning_rate": 8.578689008412229e-05,
      "loss": 0.47058582305908203,
      "memory(GiB)": 70.5,
      "step": 28720,
      "token_acc": 0.8961538461538462,
      "train_speed(iter/s)": 1.459491
    },
    {
      "epoch": 1.2306670665352812,
      "grad_norm": 2.261753559112549,
      "learning_rate": 8.578218989443706e-05,
      "loss": 0.32040581703186033,
      "memory(GiB)": 70.5,
      "step": 28725,
      "token_acc": 0.9198606271777003,
      "train_speed(iter/s)": 1.459504
    },
    {
      "epoch": 1.2308812818645303,
      "grad_norm": 7.691011905670166,
      "learning_rate": 8.577748905652389e-05,
      "loss": 0.27357323169708253,
      "memory(GiB)": 70.5,
      "step": 28730,
      "token_acc": 0.9375,
      "train_speed(iter/s)": 1.459549
    },
    {
      "epoch": 1.2310954971937793,
      "grad_norm": 4.0928754806518555,
      "learning_rate": 8.577278757046797e-05,
      "loss": 0.43462166786193845,
      "memory(GiB)": 70.5,
      "step": 28735,
      "token_acc": 0.8834355828220859,
      "train_speed(iter/s)": 1.459551
    },
    {
      "epoch": 1.2313097125230281,
      "grad_norm": 0.43395888805389404,
      "learning_rate": 8.576808543635443e-05,
      "loss": 0.21653640270233154,
      "memory(GiB)": 70.5,
      "step": 28740,
      "token_acc": 0.9552238805970149,
      "train_speed(iter/s)": 1.459548
    },
    {
      "epoch": 1.2315239278522772,
      "grad_norm": 4.157932281494141,
      "learning_rate": 8.576338265426846e-05,
      "loss": 0.6290278911590577,
      "memory(GiB)": 70.5,
      "step": 28745,
      "token_acc": 0.8810975609756098,
      "train_speed(iter/s)": 1.459567
    },
    {
      "epoch": 1.2317381431815262,
      "grad_norm": 5.734848499298096,
      "learning_rate": 8.575867922429529e-05,
      "loss": 0.5779965877532959,
      "memory(GiB)": 70.5,
      "step": 28750,
      "token_acc": 0.8736462093862816,
      "train_speed(iter/s)": 1.459584
    },
    {
      "epoch": 1.231952358510775,
      "grad_norm": 4.653557300567627,
      "learning_rate": 8.575397514652008e-05,
      "loss": 0.35430202484130857,
      "memory(GiB)": 70.5,
      "step": 28755,
      "token_acc": 0.9102167182662538,
      "train_speed(iter/s)": 1.459589
    },
    {
      "epoch": 1.232166573840024,
      "grad_norm": 6.49091100692749,
      "learning_rate": 8.574927042102807e-05,
      "loss": 0.41132383346557616,
      "memory(GiB)": 70.5,
      "step": 28760,
      "token_acc": 0.9066666666666666,
      "train_speed(iter/s)": 1.459617
    },
    {
      "epoch": 1.232380789169273,
      "grad_norm": 0.679785966873169,
      "learning_rate": 8.574456504790451e-05,
      "loss": 0.19811904430389404,
      "memory(GiB)": 70.5,
      "step": 28765,
      "token_acc": 0.94140625,
      "train_speed(iter/s)": 1.459653
    },
    {
      "epoch": 1.2325950044985219,
      "grad_norm": 2.063711643218994,
      "learning_rate": 8.57398590272346e-05,
      "loss": 0.36643757820129397,
      "memory(GiB)": 70.5,
      "step": 28770,
      "token_acc": 0.9188191881918819,
      "train_speed(iter/s)": 1.459686
    },
    {
      "epoch": 1.232809219827771,
      "grad_norm": 1.8696587085723877,
      "learning_rate": 8.573515235910364e-05,
      "loss": 0.3570316553115845,
      "memory(GiB)": 70.5,
      "step": 28775,
      "token_acc": 0.9171597633136095,
      "train_speed(iter/s)": 1.459691
    },
    {
      "epoch": 1.23302343515702,
      "grad_norm": 2.8457818031311035,
      "learning_rate": 8.573044504359686e-05,
      "loss": 0.45464282035827636,
      "memory(GiB)": 70.5,
      "step": 28780,
      "token_acc": 0.9097472924187726,
      "train_speed(iter/s)": 1.459713
    },
    {
      "epoch": 1.2332376504862688,
      "grad_norm": 4.043572902679443,
      "learning_rate": 8.572573708079954e-05,
      "loss": 0.5563277721405029,
      "memory(GiB)": 70.5,
      "step": 28785,
      "token_acc": 0.8991097922848664,
      "train_speed(iter/s)": 1.459727
    },
    {
      "epoch": 1.2334518658155178,
      "grad_norm": 7.788190841674805,
      "learning_rate": 8.5721028470797e-05,
      "loss": 0.25124990940093994,
      "memory(GiB)": 70.5,
      "step": 28790,
      "token_acc": 0.9372693726937269,
      "train_speed(iter/s)": 1.459724
    },
    {
      "epoch": 1.2336660811447668,
      "grad_norm": 8.407608985900879,
      "learning_rate": 8.571631921367451e-05,
      "loss": 0.38669581413269044,
      "memory(GiB)": 70.5,
      "step": 28795,
      "token_acc": 0.94375,
      "train_speed(iter/s)": 1.459725
    },
    {
      "epoch": 1.2338802964740156,
      "grad_norm": 7.932103633880615,
      "learning_rate": 8.571160930951738e-05,
      "loss": 0.5228333473205566,
      "memory(GiB)": 70.5,
      "step": 28800,
      "token_acc": 0.8858131487889274,
      "train_speed(iter/s)": 1.459732
    },
    {
      "epoch": 1.2340945118032647,
      "grad_norm": 2.0269482135772705,
      "learning_rate": 8.570689875841095e-05,
      "loss": 0.2339808464050293,
      "memory(GiB)": 70.5,
      "step": 28805,
      "token_acc": 0.9537953795379538,
      "train_speed(iter/s)": 1.459724
    },
    {
      "epoch": 1.2343087271325137,
      "grad_norm": 2.3556950092315674,
      "learning_rate": 8.570218756044058e-05,
      "loss": 0.2837003469467163,
      "memory(GiB)": 70.5,
      "step": 28810,
      "token_acc": 0.9305555555555556,
      "train_speed(iter/s)": 1.459722
    },
    {
      "epoch": 1.2345229424617625,
      "grad_norm": 3.0436832904815674,
      "learning_rate": 8.569747571569157e-05,
      "loss": 0.46598243713378906,
      "memory(GiB)": 70.5,
      "step": 28815,
      "token_acc": 0.910958904109589,
      "train_speed(iter/s)": 1.45975
    },
    {
      "epoch": 1.2347371577910116,
      "grad_norm": 1.9308842420578003,
      "learning_rate": 8.569276322424931e-05,
      "loss": 0.227305006980896,
      "memory(GiB)": 70.5,
      "step": 28820,
      "token_acc": 0.948339483394834,
      "train_speed(iter/s)": 1.45975
    },
    {
      "epoch": 1.2349513731202606,
      "grad_norm": 3.580707311630249,
      "learning_rate": 8.568805008619916e-05,
      "loss": 0.6920265674591064,
      "memory(GiB)": 70.5,
      "step": 28825,
      "token_acc": 0.8604651162790697,
      "train_speed(iter/s)": 1.459774
    },
    {
      "epoch": 1.2351655884495094,
      "grad_norm": 5.626827239990234,
      "learning_rate": 8.568333630162649e-05,
      "loss": 0.4729918956756592,
      "memory(GiB)": 70.5,
      "step": 28830,
      "token_acc": 0.8960573476702509,
      "train_speed(iter/s)": 1.459767
    },
    {
      "epoch": 1.2353798037787584,
      "grad_norm": 5.439419269561768,
      "learning_rate": 8.567862187061673e-05,
      "loss": 0.36155588626861573,
      "memory(GiB)": 70.5,
      "step": 28835,
      "token_acc": 0.9175257731958762,
      "train_speed(iter/s)": 1.459767
    },
    {
      "epoch": 1.2355940191080075,
      "grad_norm": 3.7669289112091064,
      "learning_rate": 8.567390679325525e-05,
      "loss": 0.24959793090820312,
      "memory(GiB)": 70.5,
      "step": 28840,
      "token_acc": 0.9423728813559322,
      "train_speed(iter/s)": 1.459761
    },
    {
      "epoch": 1.2358082344372563,
      "grad_norm": 1.7373647689819336,
      "learning_rate": 8.56691910696275e-05,
      "loss": 0.44876947402954104,
      "memory(GiB)": 70.5,
      "step": 28845,
      "token_acc": 0.9102564102564102,
      "train_speed(iter/s)": 1.459759
    },
    {
      "epoch": 1.2360224497665053,
      "grad_norm": 2.7433671951293945,
      "learning_rate": 8.566447469981888e-05,
      "loss": 0.4350141525268555,
      "memory(GiB)": 70.5,
      "step": 28850,
      "token_acc": 0.9047619047619048,
      "train_speed(iter/s)": 1.459774
    },
    {
      "epoch": 1.2362366650957544,
      "grad_norm": 1.865427017211914,
      "learning_rate": 8.565975768391484e-05,
      "loss": 0.24694678783416749,
      "memory(GiB)": 70.5,
      "step": 28855,
      "token_acc": 0.9484126984126984,
      "train_speed(iter/s)": 1.459781
    },
    {
      "epoch": 1.2364508804250032,
      "grad_norm": 3.5901381969451904,
      "learning_rate": 8.565504002200084e-05,
      "loss": 0.2563082218170166,
      "memory(GiB)": 70.5,
      "step": 28860,
      "token_acc": 0.94,
      "train_speed(iter/s)": 1.459786
    },
    {
      "epoch": 1.2366650957542522,
      "grad_norm": 4.55043888092041,
      "learning_rate": 8.565032171416236e-05,
      "loss": 0.447910737991333,
      "memory(GiB)": 70.5,
      "step": 28865,
      "token_acc": 0.887459807073955,
      "train_speed(iter/s)": 1.459781
    },
    {
      "epoch": 1.2368793110835012,
      "grad_norm": 0.5246461033821106,
      "learning_rate": 8.564560276048483e-05,
      "loss": 0.1848062038421631,
      "memory(GiB)": 70.5,
      "step": 28870,
      "token_acc": 0.9501915708812261,
      "train_speed(iter/s)": 1.459781
    },
    {
      "epoch": 1.23709352641275,
      "grad_norm": 1.4550343751907349,
      "learning_rate": 8.56408831610538e-05,
      "loss": 0.21954522132873536,
      "memory(GiB)": 70.5,
      "step": 28875,
      "token_acc": 0.9527272727272728,
      "train_speed(iter/s)": 1.459775
    },
    {
      "epoch": 1.237307741741999,
      "grad_norm": 1.5454086065292358,
      "learning_rate": 8.563616291595473e-05,
      "loss": 0.29167561531066893,
      "memory(GiB)": 70.5,
      "step": 28880,
      "token_acc": 0.9245283018867925,
      "train_speed(iter/s)": 1.459768
    },
    {
      "epoch": 1.2375219570712481,
      "grad_norm": 3.651888370513916,
      "learning_rate": 8.563144202527312e-05,
      "loss": 0.38002190589904783,
      "memory(GiB)": 70.5,
      "step": 28885,
      "token_acc": 0.9235880398671097,
      "train_speed(iter/s)": 1.459757
    },
    {
      "epoch": 1.237736172400497,
      "grad_norm": 3.1474192142486572,
      "learning_rate": 8.562672048909453e-05,
      "loss": 0.5399748325347901,
      "memory(GiB)": 70.5,
      "step": 28890,
      "token_acc": 0.8947368421052632,
      "train_speed(iter/s)": 1.459778
    },
    {
      "epoch": 1.237950387729746,
      "grad_norm": 7.90514612197876,
      "learning_rate": 8.562199830750447e-05,
      "loss": 0.4144142150878906,
      "memory(GiB)": 70.5,
      "step": 28895,
      "token_acc": 0.9025157232704403,
      "train_speed(iter/s)": 1.459784
    },
    {
      "epoch": 1.238164603058995,
      "grad_norm": 4.611439228057861,
      "learning_rate": 8.561727548058849e-05,
      "loss": 0.5246325492858886,
      "memory(GiB)": 70.5,
      "step": 28900,
      "token_acc": 0.8940677966101694,
      "train_speed(iter/s)": 1.459792
    },
    {
      "epoch": 1.2383788183882438,
      "grad_norm": 2.7660176753997803,
      "learning_rate": 8.561255200843216e-05,
      "loss": 0.38808698654174806,
      "memory(GiB)": 70.5,
      "step": 28905,
      "token_acc": 0.9100719424460432,
      "train_speed(iter/s)": 1.459796
    },
    {
      "epoch": 1.2385930337174929,
      "grad_norm": 4.510849952697754,
      "learning_rate": 8.560782789112105e-05,
      "loss": 0.4601875305175781,
      "memory(GiB)": 70.5,
      "step": 28910,
      "token_acc": 0.9103448275862069,
      "train_speed(iter/s)": 1.459799
    },
    {
      "epoch": 1.2388072490467419,
      "grad_norm": 4.3433661460876465,
      "learning_rate": 8.560310312874074e-05,
      "loss": 0.4888437271118164,
      "memory(GiB)": 70.5,
      "step": 28915,
      "token_acc": 0.9118773946360154,
      "train_speed(iter/s)": 1.459801
    },
    {
      "epoch": 1.2390214643759907,
      "grad_norm": 4.092221736907959,
      "learning_rate": 8.55983777213768e-05,
      "loss": 0.5752559661865234,
      "memory(GiB)": 70.5,
      "step": 28920,
      "token_acc": 0.9035087719298246,
      "train_speed(iter/s)": 1.459796
    },
    {
      "epoch": 1.2392356797052397,
      "grad_norm": 3.211754083633423,
      "learning_rate": 8.559365166911486e-05,
      "loss": 0.5797932624816895,
      "memory(GiB)": 70.5,
      "step": 28925,
      "token_acc": 0.8930041152263375,
      "train_speed(iter/s)": 1.459831
    },
    {
      "epoch": 1.2394498950344888,
      "grad_norm": 4.0878987312316895,
      "learning_rate": 8.558892497204052e-05,
      "loss": 0.2980156660079956,
      "memory(GiB)": 70.5,
      "step": 28930,
      "token_acc": 0.9392857142857143,
      "train_speed(iter/s)": 1.459842
    },
    {
      "epoch": 1.2396641103637376,
      "grad_norm": 3.2938647270202637,
      "learning_rate": 8.558419763023944e-05,
      "loss": 0.2715883255004883,
      "memory(GiB)": 70.5,
      "step": 28935,
      "token_acc": 0.939622641509434,
      "train_speed(iter/s)": 1.459828
    },
    {
      "epoch": 1.2398783256929866,
      "grad_norm": 1.4768784046173096,
      "learning_rate": 8.557946964379723e-05,
      "loss": 0.27364349365234375,
      "memory(GiB)": 70.5,
      "step": 28940,
      "token_acc": 0.9464882943143813,
      "train_speed(iter/s)": 1.459824
    },
    {
      "epoch": 1.2400925410222357,
      "grad_norm": 2.780395746231079,
      "learning_rate": 8.557474101279955e-05,
      "loss": 0.7205383777618408,
      "memory(GiB)": 70.5,
      "step": 28945,
      "token_acc": 0.8473520249221184,
      "train_speed(iter/s)": 1.459823
    },
    {
      "epoch": 1.2403067563514845,
      "grad_norm": 1.0614615678787231,
      "learning_rate": 8.557001173733206e-05,
      "loss": 0.29847934246063235,
      "memory(GiB)": 70.5,
      "step": 28950,
      "token_acc": 0.9294871794871795,
      "train_speed(iter/s)": 1.459823
    },
    {
      "epoch": 1.2405209716807335,
      "grad_norm": 1.1671044826507568,
      "learning_rate": 8.556528181748044e-05,
      "loss": 0.304517126083374,
      "memory(GiB)": 70.5,
      "step": 28955,
      "token_acc": 0.9376947040498442,
      "train_speed(iter/s)": 1.459842
    },
    {
      "epoch": 1.2407351870099825,
      "grad_norm": 2.3180508613586426,
      "learning_rate": 8.556055125333039e-05,
      "loss": 0.31635441780090334,
      "memory(GiB)": 70.5,
      "step": 28960,
      "token_acc": 0.9475308641975309,
      "train_speed(iter/s)": 1.45985
    },
    {
      "epoch": 1.2409494023392313,
      "grad_norm": 2.8442888259887695,
      "learning_rate": 8.555582004496758e-05,
      "loss": 0.4768516540527344,
      "memory(GiB)": 70.5,
      "step": 28965,
      "token_acc": 0.8869257950530035,
      "train_speed(iter/s)": 1.459837
    },
    {
      "epoch": 1.2411636176684804,
      "grad_norm": 1.021620273590088,
      "learning_rate": 8.555108819247774e-05,
      "loss": 0.14426627159118652,
      "memory(GiB)": 70.5,
      "step": 28970,
      "token_acc": 0.9570957095709571,
      "train_speed(iter/s)": 1.459821
    },
    {
      "epoch": 1.2413778329977294,
      "grad_norm": 1.8862017393112183,
      "learning_rate": 8.55463556959466e-05,
      "loss": 0.40767779350280764,
      "memory(GiB)": 70.5,
      "step": 28975,
      "token_acc": 0.9025974025974026,
      "train_speed(iter/s)": 1.459804
    },
    {
      "epoch": 1.2415920483269782,
      "grad_norm": 5.05383825302124,
      "learning_rate": 8.554162255545987e-05,
      "loss": 0.7440976142883301,
      "memory(GiB)": 70.5,
      "step": 28980,
      "token_acc": 0.8355263157894737,
      "train_speed(iter/s)": 1.459801
    },
    {
      "epoch": 1.2418062636562273,
      "grad_norm": 4.222079753875732,
      "learning_rate": 8.55368887711033e-05,
      "loss": 0.5529540538787842,
      "memory(GiB)": 70.5,
      "step": 28985,
      "token_acc": 0.9090909090909091,
      "train_speed(iter/s)": 1.459816
    },
    {
      "epoch": 1.2420204789854763,
      "grad_norm": 0.13829588890075684,
      "learning_rate": 8.553215434296268e-05,
      "loss": 0.3693918943405151,
      "memory(GiB)": 70.5,
      "step": 28990,
      "token_acc": 0.937007874015748,
      "train_speed(iter/s)": 1.459829
    },
    {
      "epoch": 1.242234694314725,
      "grad_norm": 6.722729682922363,
      "learning_rate": 8.552741927112373e-05,
      "loss": 0.30765609741210936,
      "memory(GiB)": 70.5,
      "step": 28995,
      "token_acc": 0.932,
      "train_speed(iter/s)": 1.45984
    },
    {
      "epoch": 1.2424489096439741,
      "grad_norm": 1.3156976699829102,
      "learning_rate": 8.552268355567226e-05,
      "loss": 0.3905435800552368,
      "memory(GiB)": 70.5,
      "step": 29000,
      "token_acc": 0.911660777385159,
      "train_speed(iter/s)": 1.459862
    },
    {
      "epoch": 1.2424489096439741,
      "eval_loss": 2.8005011081695557,
      "eval_runtime": 12.3422,
      "eval_samples_per_second": 8.102,
      "eval_steps_per_second": 8.102,
      "eval_token_acc": 0.4096209912536443,
      "step": 29000
    },
    {
      "epoch": 1.2426631249732232,
      "grad_norm": 0.11432226002216339,
      "learning_rate": 8.551794719669405e-05,
      "loss": 0.50243239402771,
      "memory(GiB)": 70.5,
      "step": 29005,
      "token_acc": 0.5523906408952187,
      "train_speed(iter/s)": 1.458859
    },
    {
      "epoch": 1.242877340302472,
      "grad_norm": 5.912202835083008,
      "learning_rate": 8.551321019427491e-05,
      "loss": 0.5213563442230225,
      "memory(GiB)": 70.5,
      "step": 29010,
      "token_acc": 0.8925619834710744,
      "train_speed(iter/s)": 1.458851
    },
    {
      "epoch": 1.243091555631721,
      "grad_norm": 5.640886306762695,
      "learning_rate": 8.550847254850065e-05,
      "loss": 0.344775652885437,
      "memory(GiB)": 70.5,
      "step": 29015,
      "token_acc": 0.9197530864197531,
      "train_speed(iter/s)": 1.458866
    },
    {
      "epoch": 1.24330577096097,
      "grad_norm": 1.5810576677322388,
      "learning_rate": 8.550373425945711e-05,
      "loss": 0.23305246829986573,
      "memory(GiB)": 70.5,
      "step": 29020,
      "token_acc": 0.9422382671480144,
      "train_speed(iter/s)": 1.458903
    },
    {
      "epoch": 1.2435199862902189,
      "grad_norm": 2.995321035385132,
      "learning_rate": 8.549899532723011e-05,
      "loss": 0.47314157485961916,
      "memory(GiB)": 70.5,
      "step": 29025,
      "token_acc": 0.906896551724138,
      "train_speed(iter/s)": 1.458917
    },
    {
      "epoch": 1.243734201619468,
      "grad_norm": 1.5212292671203613,
      "learning_rate": 8.549425575190551e-05,
      "loss": 0.31415791511535646,
      "memory(GiB)": 70.5,
      "step": 29030,
      "token_acc": 0.93359375,
      "train_speed(iter/s)": 1.458923
    },
    {
      "epoch": 1.243948416948717,
      "grad_norm": 2.8490805625915527,
      "learning_rate": 8.548951553356917e-05,
      "loss": 0.31001482009887693,
      "memory(GiB)": 70.5,
      "step": 29035,
      "token_acc": 0.9288389513108615,
      "train_speed(iter/s)": 1.458932
    },
    {
      "epoch": 1.2441626322779658,
      "grad_norm": 3.2684969902038574,
      "learning_rate": 8.548477467230697e-05,
      "loss": 0.30856592655181886,
      "memory(GiB)": 70.5,
      "step": 29040,
      "token_acc": 0.9399293286219081,
      "train_speed(iter/s)": 1.458928
    },
    {
      "epoch": 1.2443768476072148,
      "grad_norm": 3.5933282375335693,
      "learning_rate": 8.548003316820478e-05,
      "loss": 0.6146927833557129,
      "memory(GiB)": 70.5,
      "step": 29045,
      "token_acc": 0.8644688644688645,
      "train_speed(iter/s)": 1.458931
    },
    {
      "epoch": 1.2445910629364638,
      "grad_norm": 7.600386619567871,
      "learning_rate": 8.547529102134852e-05,
      "loss": 0.6400364875793457,
      "memory(GiB)": 70.5,
      "step": 29050,
      "token_acc": 0.8664688427299704,
      "train_speed(iter/s)": 1.45896
    },
    {
      "epoch": 1.2448052782657126,
      "grad_norm": 0.9201118350028992,
      "learning_rate": 8.547054823182408e-05,
      "loss": 0.18789709806442262,
      "memory(GiB)": 70.5,
      "step": 29055,
      "token_acc": 0.9568627450980393,
      "train_speed(iter/s)": 1.458961
    },
    {
      "epoch": 1.2450194935949617,
      "grad_norm": 1.9765459299087524,
      "learning_rate": 8.546580479971737e-05,
      "loss": 0.2538090705871582,
      "memory(GiB)": 70.5,
      "step": 29060,
      "token_acc": 0.9606299212598425,
      "train_speed(iter/s)": 1.458952
    },
    {
      "epoch": 1.2452337089242107,
      "grad_norm": 2.0024800300598145,
      "learning_rate": 8.546106072511435e-05,
      "loss": 0.30450661182403566,
      "memory(GiB)": 70.5,
      "step": 29065,
      "token_acc": 0.9401993355481728,
      "train_speed(iter/s)": 1.458961
    },
    {
      "epoch": 1.2454479242534595,
      "grad_norm": 0.07608669996261597,
      "learning_rate": 8.545631600810094e-05,
      "loss": 0.17100688219070434,
      "memory(GiB)": 70.5,
      "step": 29070,
      "token_acc": 0.9568627450980393,
      "train_speed(iter/s)": 1.458965
    },
    {
      "epoch": 1.2456621395827085,
      "grad_norm": 2.5897634029388428,
      "learning_rate": 8.545157064876311e-05,
      "loss": 0.42132954597473143,
      "memory(GiB)": 70.5,
      "step": 29075,
      "token_acc": 0.9213836477987422,
      "train_speed(iter/s)": 1.458962
    },
    {
      "epoch": 1.2458763549119576,
      "grad_norm": 3.237631320953369,
      "learning_rate": 8.544682464718684e-05,
      "loss": 0.30410854816436766,
      "memory(GiB)": 70.5,
      "step": 29080,
      "token_acc": 0.9291666666666667,
      "train_speed(iter/s)": 1.458963
    },
    {
      "epoch": 1.2460905702412064,
      "grad_norm": 1.7259944677352905,
      "learning_rate": 8.544207800345808e-05,
      "loss": 0.25592570304870604,
      "memory(GiB)": 70.5,
      "step": 29085,
      "token_acc": 0.9501466275659824,
      "train_speed(iter/s)": 1.458963
    },
    {
      "epoch": 1.2463047855704554,
      "grad_norm": 3.6296374797821045,
      "learning_rate": 8.54373307176628e-05,
      "loss": 0.5873505115509033,
      "memory(GiB)": 70.5,
      "step": 29090,
      "token_acc": 0.8605577689243028,
      "train_speed(iter/s)": 1.458968
    },
    {
      "epoch": 1.2465190008997045,
      "grad_norm": 3.0311009883880615,
      "learning_rate": 8.543258278988706e-05,
      "loss": 0.1008824348449707,
      "memory(GiB)": 70.5,
      "step": 29095,
      "token_acc": 0.9738805970149254,
      "train_speed(iter/s)": 1.458973
    },
    {
      "epoch": 1.2467332162289533,
      "grad_norm": 1.3565449714660645,
      "learning_rate": 8.542783422021684e-05,
      "loss": 0.29799978733062743,
      "memory(GiB)": 70.5,
      "step": 29100,
      "token_acc": 0.9345454545454546,
      "train_speed(iter/s)": 1.458972
    },
    {
      "epoch": 1.2469474315582023,
      "grad_norm": 5.559714317321777,
      "learning_rate": 8.542308500873817e-05,
      "loss": 0.4301851749420166,
      "memory(GiB)": 70.5,
      "step": 29105,
      "token_acc": 0.9233716475095786,
      "train_speed(iter/s)": 1.458988
    },
    {
      "epoch": 1.2471616468874513,
      "grad_norm": 1.1793007850646973,
      "learning_rate": 8.541833515553707e-05,
      "loss": 0.36353268623352053,
      "memory(GiB)": 70.5,
      "step": 29110,
      "token_acc": 0.9385665529010239,
      "train_speed(iter/s)": 1.458988
    },
    {
      "epoch": 1.2473758622167002,
      "grad_norm": 3.349144458770752,
      "learning_rate": 8.541358466069962e-05,
      "loss": 0.47623772621154786,
      "memory(GiB)": 70.5,
      "step": 29115,
      "token_acc": 0.9082278481012658,
      "train_speed(iter/s)": 1.458989
    },
    {
      "epoch": 1.2475900775459492,
      "grad_norm": 7.387825012207031,
      "learning_rate": 8.540883352431186e-05,
      "loss": 0.7970787048339844,
      "memory(GiB)": 70.5,
      "step": 29120,
      "token_acc": 0.8632218844984803,
      "train_speed(iter/s)": 1.458998
    },
    {
      "epoch": 1.2478042928751982,
      "grad_norm": 0.4633074402809143,
      "learning_rate": 8.540408174645986e-05,
      "loss": 0.13221513032913207,
      "memory(GiB)": 70.5,
      "step": 29125,
      "token_acc": 0.9748427672955975,
      "train_speed(iter/s)": 1.459009
    },
    {
      "epoch": 1.248018508204447,
      "grad_norm": 5.0791215896606445,
      "learning_rate": 8.539932932722971e-05,
      "loss": 0.43569259643554686,
      "memory(GiB)": 70.5,
      "step": 29130,
      "token_acc": 0.9094202898550725,
      "train_speed(iter/s)": 1.459025
    },
    {
      "epoch": 1.248232723533696,
      "grad_norm": 2.352419376373291,
      "learning_rate": 8.539457626670752e-05,
      "loss": 0.2878647565841675,
      "memory(GiB)": 70.5,
      "step": 29135,
      "token_acc": 0.9514925373134329,
      "train_speed(iter/s)": 1.45903
    },
    {
      "epoch": 1.248446938862945,
      "grad_norm": 7.328221321105957,
      "learning_rate": 8.538982256497937e-05,
      "loss": 0.4525442123413086,
      "memory(GiB)": 70.5,
      "step": 29140,
      "token_acc": 0.8904109589041096,
      "train_speed(iter/s)": 1.459023
    },
    {
      "epoch": 1.248661154192194,
      "grad_norm": 0.08371718227863312,
      "learning_rate": 8.538506822213136e-05,
      "loss": 0.2914890289306641,
      "memory(GiB)": 70.5,
      "step": 29145,
      "token_acc": 0.9456869009584664,
      "train_speed(iter/s)": 1.459044
    },
    {
      "epoch": 1.248875369521443,
      "grad_norm": 2.1332688331604004,
      "learning_rate": 8.538031323824967e-05,
      "loss": 0.4658027172088623,
      "memory(GiB)": 70.5,
      "step": 29150,
      "token_acc": 0.8775510204081632,
      "train_speed(iter/s)": 1.459063
    },
    {
      "epoch": 1.249089584850692,
      "grad_norm": 3.8882882595062256,
      "learning_rate": 8.537555761342039e-05,
      "loss": 0.42287864685058596,
      "memory(GiB)": 70.5,
      "step": 29155,
      "token_acc": 0.9051724137931034,
      "train_speed(iter/s)": 1.459055
    },
    {
      "epoch": 1.2493038001799408,
      "grad_norm": 3.24094295501709,
      "learning_rate": 8.537080134772973e-05,
      "loss": 0.7032517433166504,
      "memory(GiB)": 70.5,
      "step": 29160,
      "token_acc": 0.8562691131498471,
      "train_speed(iter/s)": 1.459076
    },
    {
      "epoch": 1.2495180155091898,
      "grad_norm": 6.988615989685059,
      "learning_rate": 8.536604444126382e-05,
      "loss": 0.8840079307556152,
      "memory(GiB)": 70.5,
      "step": 29165,
      "token_acc": 0.8611111111111112,
      "train_speed(iter/s)": 1.459161
    },
    {
      "epoch": 1.2497322308384389,
      "grad_norm": 4.241008758544922,
      "learning_rate": 8.536128689410882e-05,
      "loss": 0.6901953220367432,
      "memory(GiB)": 70.5,
      "step": 29170,
      "token_acc": 0.8466666666666667,
      "train_speed(iter/s)": 1.459172
    },
    {
      "epoch": 1.2499464461676877,
      "grad_norm": 1.4506499767303467,
      "learning_rate": 8.535652870635094e-05,
      "loss": 0.30791759490966797,
      "memory(GiB)": 70.5,
      "step": 29175,
      "token_acc": 0.9337349397590361,
      "train_speed(iter/s)": 1.459166
    },
    {
      "epoch": 1.2501606614969367,
      "grad_norm": 5.401695251464844,
      "learning_rate": 8.535176987807639e-05,
      "loss": 0.47107744216918945,
      "memory(GiB)": 70.5,
      "step": 29180,
      "token_acc": 0.9096989966555183,
      "train_speed(iter/s)": 1.459175
    },
    {
      "epoch": 1.2503748768261858,
      "grad_norm": 6.9021477699279785,
      "learning_rate": 8.534701040937136e-05,
      "loss": 0.27175335884094237,
      "memory(GiB)": 70.5,
      "step": 29185,
      "token_acc": 0.9475806451612904,
      "train_speed(iter/s)": 1.459204
    },
    {
      "epoch": 1.2505890921554346,
      "grad_norm": 2.8939247131347656,
      "learning_rate": 8.534225030032208e-05,
      "loss": 0.26791355609893797,
      "memory(GiB)": 70.5,
      "step": 29190,
      "token_acc": 0.9456521739130435,
      "train_speed(iter/s)": 1.459192
    },
    {
      "epoch": 1.2508033074846836,
      "grad_norm": 2.8367764949798584,
      "learning_rate": 8.533748955101477e-05,
      "loss": 0.6467954635620117,
      "memory(GiB)": 70.5,
      "step": 29195,
      "token_acc": 0.8658536585365854,
      "train_speed(iter/s)": 1.459215
    },
    {
      "epoch": 1.2510175228139326,
      "grad_norm": 1.7617906332015991,
      "learning_rate": 8.533272816153571e-05,
      "loss": 0.34679675102233887,
      "memory(GiB)": 70.5,
      "step": 29200,
      "token_acc": 0.9365079365079365,
      "train_speed(iter/s)": 1.459229
    },
    {
      "epoch": 1.2512317381431814,
      "grad_norm": 4.4903106689453125,
      "learning_rate": 8.532796613197112e-05,
      "loss": 0.2919837474822998,
      "memory(GiB)": 70.5,
      "step": 29205,
      "token_acc": 0.9438596491228071,
      "train_speed(iter/s)": 1.45922
    },
    {
      "epoch": 1.2514459534724305,
      "grad_norm": 6.98383903503418,
      "learning_rate": 8.532320346240728e-05,
      "loss": 0.5498651981353759,
      "memory(GiB)": 70.5,
      "step": 29210,
      "token_acc": 0.9235668789808917,
      "train_speed(iter/s)": 1.45922
    },
    {
      "epoch": 1.2516601688016795,
      "grad_norm": 2.8354265689849854,
      "learning_rate": 8.531844015293047e-05,
      "loss": 0.274582839012146,
      "memory(GiB)": 70.5,
      "step": 29215,
      "token_acc": 0.9261538461538461,
      "train_speed(iter/s)": 1.459236
    },
    {
      "epoch": 1.2518743841309283,
      "grad_norm": 4.92308235168457,
      "learning_rate": 8.531367620362699e-05,
      "loss": 0.343812894821167,
      "memory(GiB)": 70.5,
      "step": 29220,
      "token_acc": 0.9344827586206896,
      "train_speed(iter/s)": 1.459236
    },
    {
      "epoch": 1.2520885994601774,
      "grad_norm": 4.177879810333252,
      "learning_rate": 8.530891161458314e-05,
      "loss": 0.3351206541061401,
      "memory(GiB)": 70.5,
      "step": 29225,
      "token_acc": 0.9297124600638977,
      "train_speed(iter/s)": 1.459243
    },
    {
      "epoch": 1.2523028147894264,
      "grad_norm": 4.229502201080322,
      "learning_rate": 8.530414638588525e-05,
      "loss": 0.4089400291442871,
      "memory(GiB)": 70.5,
      "step": 29230,
      "token_acc": 0.9240924092409241,
      "train_speed(iter/s)": 1.459257
    },
    {
      "epoch": 1.2525170301186752,
      "grad_norm": 2.7000114917755127,
      "learning_rate": 8.529938051761961e-05,
      "loss": 0.22326862812042236,
      "memory(GiB)": 70.5,
      "step": 29235,
      "token_acc": 0.952755905511811,
      "train_speed(iter/s)": 1.459249
    },
    {
      "epoch": 1.2527312454479242,
      "grad_norm": 6.276409149169922,
      "learning_rate": 8.529461400987258e-05,
      "loss": 0.639458703994751,
      "memory(GiB)": 70.5,
      "step": 29240,
      "token_acc": 0.8992805755395683,
      "train_speed(iter/s)": 1.45928
    },
    {
      "epoch": 1.2529454607771733,
      "grad_norm": 2.294243574142456,
      "learning_rate": 8.528984686273051e-05,
      "loss": 0.4025286674499512,
      "memory(GiB)": 70.5,
      "step": 29245,
      "token_acc": 0.905511811023622,
      "train_speed(iter/s)": 1.459278
    },
    {
      "epoch": 1.253159676106422,
      "grad_norm": 2.1983466148376465,
      "learning_rate": 8.528507907627977e-05,
      "loss": 0.3566704988479614,
      "memory(GiB)": 70.5,
      "step": 29250,
      "token_acc": 0.9404761904761905,
      "train_speed(iter/s)": 1.459275
    },
    {
      "epoch": 1.2533738914356711,
      "grad_norm": 1.5105807781219482,
      "learning_rate": 8.528031065060669e-05,
      "loss": 0.4867263317108154,
      "memory(GiB)": 70.5,
      "step": 29255,
      "token_acc": 0.9100346020761245,
      "train_speed(iter/s)": 1.4593
    },
    {
      "epoch": 1.2535881067649202,
      "grad_norm": 2.4161007404327393,
      "learning_rate": 8.527554158579772e-05,
      "loss": 0.4373313426971436,
      "memory(GiB)": 70.5,
      "step": 29260,
      "token_acc": 0.9075907590759076,
      "train_speed(iter/s)": 1.459312
    },
    {
      "epoch": 1.253802322094169,
      "grad_norm": 3.5348730087280273,
      "learning_rate": 8.527077188193921e-05,
      "loss": 0.3148198127746582,
      "memory(GiB)": 70.5,
      "step": 29265,
      "token_acc": 0.928,
      "train_speed(iter/s)": 1.459352
    },
    {
      "epoch": 1.254016537423418,
      "grad_norm": 7.50300407409668,
      "learning_rate": 8.52660015391176e-05,
      "loss": 0.23862810134887696,
      "memory(GiB)": 70.5,
      "step": 29270,
      "token_acc": 0.9414225941422594,
      "train_speed(iter/s)": 1.459362
    },
    {
      "epoch": 1.254230752752667,
      "grad_norm": 4.476847171783447,
      "learning_rate": 8.526123055741926e-05,
      "loss": 0.2558876991271973,
      "memory(GiB)": 70.5,
      "step": 29275,
      "token_acc": 0.9440298507462687,
      "train_speed(iter/s)": 1.459352
    },
    {
      "epoch": 1.2544449680819159,
      "grad_norm": 6.159602165222168,
      "learning_rate": 8.525645893693067e-05,
      "loss": 0.25457963943481443,
      "memory(GiB)": 70.5,
      "step": 29280,
      "token_acc": 0.9605734767025089,
      "train_speed(iter/s)": 1.459385
    },
    {
      "epoch": 1.254659183411165,
      "grad_norm": 6.141406536102295,
      "learning_rate": 8.525168667773824e-05,
      "loss": 0.6891416549682617,
      "memory(GiB)": 70.5,
      "step": 29285,
      "token_acc": 0.855457227138643,
      "train_speed(iter/s)": 1.45938
    },
    {
      "epoch": 1.254873398740414,
      "grad_norm": 4.8232502937316895,
      "learning_rate": 8.524691377992844e-05,
      "loss": 0.6522525310516357,
      "memory(GiB)": 70.5,
      "step": 29290,
      "token_acc": 0.8888888888888888,
      "train_speed(iter/s)": 1.459383
    },
    {
      "epoch": 1.2550876140696627,
      "grad_norm": 3.1136302947998047,
      "learning_rate": 8.524214024358775e-05,
      "loss": 0.6452937126159668,
      "memory(GiB)": 70.5,
      "step": 29295,
      "token_acc": 0.8687258687258688,
      "train_speed(iter/s)": 1.459397
    },
    {
      "epoch": 1.2553018293989118,
      "grad_norm": 0.552302360534668,
      "learning_rate": 8.523736606880261e-05,
      "loss": 0.24634690284729005,
      "memory(GiB)": 70.5,
      "step": 29300,
      "token_acc": 0.9548387096774194,
      "train_speed(iter/s)": 1.459409
    },
    {
      "epoch": 1.2555160447281608,
      "grad_norm": 1.2489570379257202,
      "learning_rate": 8.523259125565954e-05,
      "loss": 0.40707855224609374,
      "memory(GiB)": 70.5,
      "step": 29305,
      "token_acc": 0.9166666666666666,
      "train_speed(iter/s)": 1.459434
    },
    {
      "epoch": 1.2557302600574096,
      "grad_norm": 5.957675933837891,
      "learning_rate": 8.522781580424502e-05,
      "loss": 0.4742734909057617,
      "memory(GiB)": 70.5,
      "step": 29310,
      "token_acc": 0.911660777385159,
      "train_speed(iter/s)": 1.459465
    },
    {
      "epoch": 1.2559444753866587,
      "grad_norm": 2.38187837600708,
      "learning_rate": 8.522303971464557e-05,
      "loss": 0.12131955623626708,
      "memory(GiB)": 70.5,
      "step": 29315,
      "token_acc": 0.9745454545454545,
      "train_speed(iter/s)": 1.459459
    },
    {
      "epoch": 1.2561586907159077,
      "grad_norm": 4.360453128814697,
      "learning_rate": 8.521826298694773e-05,
      "loss": 0.6178698539733887,
      "memory(GiB)": 70.5,
      "step": 29320,
      "token_acc": 0.8704318936877077,
      "train_speed(iter/s)": 1.459457
    },
    {
      "epoch": 1.2563729060451565,
      "grad_norm": 2.035855293273926,
      "learning_rate": 8.5213485621238e-05,
      "loss": 0.39890825748443604,
      "memory(GiB)": 70.5,
      "step": 29325,
      "token_acc": 0.9090909090909091,
      "train_speed(iter/s)": 1.459453
    },
    {
      "epoch": 1.2565871213744055,
      "grad_norm": 4.895684242248535,
      "learning_rate": 8.520870761760296e-05,
      "loss": 0.6082334041595459,
      "memory(GiB)": 70.5,
      "step": 29330,
      "token_acc": 0.8827586206896552,
      "train_speed(iter/s)": 1.459445
    },
    {
      "epoch": 1.2568013367036546,
      "grad_norm": 2.4869489669799805,
      "learning_rate": 8.520392897612913e-05,
      "loss": 0.29045541286468507,
      "memory(GiB)": 70.5,
      "step": 29335,
      "token_acc": 0.9266666666666666,
      "train_speed(iter/s)": 1.45945
    },
    {
      "epoch": 1.2570155520329034,
      "grad_norm": 3.417677879333496,
      "learning_rate": 8.519914969690313e-05,
      "loss": 0.26786007881164553,
      "memory(GiB)": 70.5,
      "step": 29340,
      "token_acc": 0.9543859649122807,
      "train_speed(iter/s)": 1.459456
    },
    {
      "epoch": 1.2572297673621524,
      "grad_norm": 6.659523963928223,
      "learning_rate": 8.51943697800115e-05,
      "loss": 0.5537979125976562,
      "memory(GiB)": 70.5,
      "step": 29345,
      "token_acc": 0.8876404494382022,
      "train_speed(iter/s)": 1.459451
    },
    {
      "epoch": 1.2574439826914015,
      "grad_norm": 2.5123026371002197,
      "learning_rate": 8.518958922554085e-05,
      "loss": 0.26626837253570557,
      "memory(GiB)": 70.5,
      "step": 29350,
      "token_acc": 0.9395770392749244,
      "train_speed(iter/s)": 1.459445
    },
    {
      "epoch": 1.2576581980206503,
      "grad_norm": 3.2117135524749756,
      "learning_rate": 8.518480803357778e-05,
      "loss": 0.3281700611114502,
      "memory(GiB)": 70.5,
      "step": 29355,
      "token_acc": 0.9306122448979591,
      "train_speed(iter/s)": 1.459452
    },
    {
      "epoch": 1.2578724133498993,
      "grad_norm": 2.199904203414917,
      "learning_rate": 8.51800262042089e-05,
      "loss": 0.3753015995025635,
      "memory(GiB)": 70.5,
      "step": 29360,
      "token_acc": 0.8979591836734694,
      "train_speed(iter/s)": 1.459501
    },
    {
      "epoch": 1.2580866286791483,
      "grad_norm": 4.344563961029053,
      "learning_rate": 8.517524373752083e-05,
      "loss": 0.6609188556671143,
      "memory(GiB)": 70.5,
      "step": 29365,
      "token_acc": 0.8461538461538461,
      "train_speed(iter/s)": 1.459503
    },
    {
      "epoch": 1.2583008440083971,
      "grad_norm": 6.746652603149414,
      "learning_rate": 8.517046063360026e-05,
      "loss": 0.5054292678833008,
      "memory(GiB)": 70.5,
      "step": 29370,
      "token_acc": 0.8825214899713467,
      "train_speed(iter/s)": 1.459522
    },
    {
      "epoch": 1.2585150593376462,
      "grad_norm": 2.8431644439697266,
      "learning_rate": 8.516567689253378e-05,
      "loss": 0.35375218391418456,
      "memory(GiB)": 70.5,
      "step": 29375,
      "token_acc": 0.916,
      "train_speed(iter/s)": 1.45955
    },
    {
      "epoch": 1.2587292746668952,
      "grad_norm": 2.975360155105591,
      "learning_rate": 8.516089251440809e-05,
      "loss": 0.24523301124572755,
      "memory(GiB)": 70.5,
      "step": 29380,
      "token_acc": 0.9318181818181818,
      "train_speed(iter/s)": 1.459555
    },
    {
      "epoch": 1.258943489996144,
      "grad_norm": 2.5990257263183594,
      "learning_rate": 8.515610749930982e-05,
      "loss": 0.35393433570861815,
      "memory(GiB)": 70.5,
      "step": 29385,
      "token_acc": 0.9264705882352942,
      "train_speed(iter/s)": 1.459554
    },
    {
      "epoch": 1.259157705325393,
      "grad_norm": 2.165531635284424,
      "learning_rate": 8.51513218473257e-05,
      "loss": 0.3198702812194824,
      "memory(GiB)": 70.5,
      "step": 29390,
      "token_acc": 0.9210526315789473,
      "train_speed(iter/s)": 1.459566
    },
    {
      "epoch": 1.259371920654642,
      "grad_norm": 1.1080985069274902,
      "learning_rate": 8.514653555854242e-05,
      "loss": 0.2838580131530762,
      "memory(GiB)": 70.5,
      "step": 29395,
      "token_acc": 0.9425675675675675,
      "train_speed(iter/s)": 1.459566
    },
    {
      "epoch": 1.259586135983891,
      "grad_norm": 3.015970230102539,
      "learning_rate": 8.514174863304667e-05,
      "loss": 0.2974837064743042,
      "memory(GiB)": 70.5,
      "step": 29400,
      "token_acc": 0.9409937888198758,
      "train_speed(iter/s)": 1.459566
    },
    {
      "epoch": 1.25980035131314,
      "grad_norm": 7.240182876586914,
      "learning_rate": 8.513696107092517e-05,
      "loss": 0.5272724151611328,
      "memory(GiB)": 70.5,
      "step": 29405,
      "token_acc": 0.867109634551495,
      "train_speed(iter/s)": 1.459592
    },
    {
      "epoch": 1.260014566642389,
      "grad_norm": 3.594452142715454,
      "learning_rate": 8.513217287226466e-05,
      "loss": 0.2696810245513916,
      "memory(GiB)": 70.5,
      "step": 29410,
      "token_acc": 0.9465648854961832,
      "train_speed(iter/s)": 1.459592
    },
    {
      "epoch": 1.2602287819716378,
      "grad_norm": 6.8041462898254395,
      "learning_rate": 8.51273840371519e-05,
      "loss": 0.8743310928344726,
      "memory(GiB)": 70.5,
      "step": 29415,
      "token_acc": 0.8248175182481752,
      "train_speed(iter/s)": 1.459609
    },
    {
      "epoch": 1.2604429973008868,
      "grad_norm": 2.0887532234191895,
      "learning_rate": 8.512259456567362e-05,
      "loss": 0.26936898231506345,
      "memory(GiB)": 70.5,
      "step": 29420,
      "token_acc": 0.9103139013452914,
      "train_speed(iter/s)": 1.45961
    },
    {
      "epoch": 1.2606572126301359,
      "grad_norm": 3.885690450668335,
      "learning_rate": 8.511780445791659e-05,
      "loss": 0.26320586204528806,
      "memory(GiB)": 70.5,
      "step": 29425,
      "token_acc": 0.9411764705882353,
      "train_speed(iter/s)": 1.459621
    },
    {
      "epoch": 1.2608714279593847,
      "grad_norm": 2.9421584606170654,
      "learning_rate": 8.511301371396758e-05,
      "loss": 0.305998420715332,
      "memory(GiB)": 70.5,
      "step": 29430,
      "token_acc": 0.9344827586206896,
      "train_speed(iter/s)": 1.459617
    },
    {
      "epoch": 1.2610856432886337,
      "grad_norm": 7.47238826751709,
      "learning_rate": 8.510822233391338e-05,
      "loss": 0.21636428833007812,
      "memory(GiB)": 70.5,
      "step": 29435,
      "token_acc": 0.9566473988439307,
      "train_speed(iter/s)": 1.459618
    },
    {
      "epoch": 1.2612998586178827,
      "grad_norm": 2.947373390197754,
      "learning_rate": 8.510343031784082e-05,
      "loss": 0.4619601726531982,
      "memory(GiB)": 70.5,
      "step": 29440,
      "token_acc": 0.9074074074074074,
      "train_speed(iter/s)": 1.45962
    },
    {
      "epoch": 1.2615140739471316,
      "grad_norm": 2.7564048767089844,
      "learning_rate": 8.509863766583668e-05,
      "loss": 0.4633053779602051,
      "memory(GiB)": 70.5,
      "step": 29445,
      "token_acc": 0.9252669039145908,
      "train_speed(iter/s)": 1.459635
    },
    {
      "epoch": 1.2617282892763806,
      "grad_norm": 3.020763397216797,
      "learning_rate": 8.50938443779878e-05,
      "loss": 0.2540282249450684,
      "memory(GiB)": 70.5,
      "step": 29450,
      "token_acc": 0.9423076923076923,
      "train_speed(iter/s)": 1.459651
    },
    {
      "epoch": 1.2619425046056296,
      "grad_norm": 4.042263031005859,
      "learning_rate": 8.5089050454381e-05,
      "loss": 0.6614347457885742,
      "memory(GiB)": 70.5,
      "step": 29455,
      "token_acc": 0.8635014836795252,
      "train_speed(iter/s)": 1.459655
    },
    {
      "epoch": 1.2621567199348784,
      "grad_norm": 0.20716750621795654,
      "learning_rate": 8.508425589510314e-05,
      "loss": 0.09188072085380554,
      "memory(GiB)": 70.5,
      "step": 29460,
      "token_acc": 0.9809885931558935,
      "train_speed(iter/s)": 1.459647
    },
    {
      "epoch": 1.2623709352641275,
      "grad_norm": 1.8272584676742554,
      "learning_rate": 8.507946070024108e-05,
      "loss": 0.23726961612701417,
      "memory(GiB)": 70.5,
      "step": 29465,
      "token_acc": 0.9336283185840708,
      "train_speed(iter/s)": 1.459646
    },
    {
      "epoch": 1.2625851505933765,
      "grad_norm": 4.413135051727295,
      "learning_rate": 8.507466486988168e-05,
      "loss": 0.41762652397155764,
      "memory(GiB)": 70.5,
      "step": 29470,
      "token_acc": 0.8984375,
      "train_speed(iter/s)": 1.459645
    },
    {
      "epoch": 1.2627993659226253,
      "grad_norm": 6.202095985412598,
      "learning_rate": 8.50698684041118e-05,
      "loss": 0.9201351165771484,
      "memory(GiB)": 70.5,
      "step": 29475,
      "token_acc": 0.8146718146718147,
      "train_speed(iter/s)": 1.459653
    },
    {
      "epoch": 1.2630135812518744,
      "grad_norm": 5.074501991271973,
      "learning_rate": 8.506507130301837e-05,
      "loss": 0.6145877838134766,
      "memory(GiB)": 70.5,
      "step": 29480,
      "token_acc": 0.8772455089820359,
      "train_speed(iter/s)": 1.459638
    },
    {
      "epoch": 1.2632277965811234,
      "grad_norm": 8.206456184387207,
      "learning_rate": 8.50602735666883e-05,
      "loss": 0.3873254060745239,
      "memory(GiB)": 70.5,
      "step": 29485,
      "token_acc": 0.9407114624505929,
      "train_speed(iter/s)": 1.459661
    },
    {
      "epoch": 1.2634420119103722,
      "grad_norm": 3.1469428539276123,
      "learning_rate": 8.505547519520845e-05,
      "loss": 0.3197284698486328,
      "memory(GiB)": 70.5,
      "step": 29490,
      "token_acc": 0.934640522875817,
      "train_speed(iter/s)": 1.459657
    },
    {
      "epoch": 1.2636562272396212,
      "grad_norm": 2.79191255569458,
      "learning_rate": 8.50506761886658e-05,
      "loss": 0.3960960865020752,
      "memory(GiB)": 70.5,
      "step": 29495,
      "token_acc": 0.9162995594713657,
      "train_speed(iter/s)": 1.459671
    },
    {
      "epoch": 1.2638704425688703,
      "grad_norm": 5.558347702026367,
      "learning_rate": 8.504587654714727e-05,
      "loss": 0.6469968318939209,
      "memory(GiB)": 70.5,
      "step": 29500,
      "token_acc": 0.8817204301075269,
      "train_speed(iter/s)": 1.459672
    },
    {
      "epoch": 1.2638704425688703,
      "eval_loss": 2.3853721618652344,
      "eval_runtime": 13.2949,
      "eval_samples_per_second": 7.522,
      "eval_steps_per_second": 7.522,
      "eval_token_acc": 0.46907993966817496,
      "step": 29500
    },
    {
      "epoch": 1.264084657898119,
      "grad_norm": 3.5258467197418213,
      "learning_rate": 8.50410762707398e-05,
      "loss": 0.21535353660583495,
      "memory(GiB)": 70.5,
      "step": 29505,
      "token_acc": 0.6139240506329114,
      "train_speed(iter/s)": 1.458634
    },
    {
      "epoch": 1.2642988732273681,
      "grad_norm": 3.423760414123535,
      "learning_rate": 8.503627535953039e-05,
      "loss": 0.4491128921508789,
      "memory(GiB)": 70.5,
      "step": 29510,
      "token_acc": 0.8981132075471698,
      "train_speed(iter/s)": 1.458635
    },
    {
      "epoch": 1.2645130885566171,
      "grad_norm": 3.715054988861084,
      "learning_rate": 8.503147381360595e-05,
      "loss": 0.42610626220703124,
      "memory(GiB)": 70.5,
      "step": 29515,
      "token_acc": 0.9207547169811321,
      "train_speed(iter/s)": 1.458638
    },
    {
      "epoch": 1.264727303885866,
      "grad_norm": 5.445971488952637,
      "learning_rate": 8.502667163305353e-05,
      "loss": 0.42958989143371584,
      "memory(GiB)": 70.5,
      "step": 29520,
      "token_acc": 0.9198813056379822,
      "train_speed(iter/s)": 1.458642
    },
    {
      "epoch": 1.264941519215115,
      "grad_norm": 2.743868827819824,
      "learning_rate": 8.502186881796008e-05,
      "loss": 0.44974508285522463,
      "memory(GiB)": 70.5,
      "step": 29525,
      "token_acc": 0.9236111111111112,
      "train_speed(iter/s)": 1.45864
    },
    {
      "epoch": 1.265155734544364,
      "grad_norm": 3.1829349994659424,
      "learning_rate": 8.501706536841263e-05,
      "loss": 0.601075267791748,
      "memory(GiB)": 70.5,
      "step": 29530,
      "token_acc": 0.88,
      "train_speed(iter/s)": 1.458657
    },
    {
      "epoch": 1.2653699498736128,
      "grad_norm": 3.351846694946289,
      "learning_rate": 8.501226128449818e-05,
      "loss": 0.5974397659301758,
      "memory(GiB)": 70.5,
      "step": 29535,
      "token_acc": 0.8676470588235294,
      "train_speed(iter/s)": 1.45865
    },
    {
      "epoch": 1.2655841652028619,
      "grad_norm": 7.076048851013184,
      "learning_rate": 8.500745656630379e-05,
      "loss": 0.4228181838989258,
      "memory(GiB)": 70.5,
      "step": 29540,
      "token_acc": 0.9136690647482014,
      "train_speed(iter/s)": 1.45864
    },
    {
      "epoch": 1.265798380532111,
      "grad_norm": 3.8224270343780518,
      "learning_rate": 8.500265121391649e-05,
      "loss": 0.19450316429138184,
      "memory(GiB)": 70.5,
      "step": 29545,
      "token_acc": 0.9505703422053232,
      "train_speed(iter/s)": 1.458642
    },
    {
      "epoch": 1.2660125958613597,
      "grad_norm": 1.7245527505874634,
      "learning_rate": 8.499784522742329e-05,
      "loss": 0.3539534568786621,
      "memory(GiB)": 70.5,
      "step": 29550,
      "token_acc": 0.9298780487804879,
      "train_speed(iter/s)": 1.45866
    },
    {
      "epoch": 1.2662268111906088,
      "grad_norm": 3.6926724910736084,
      "learning_rate": 8.499303860691132e-05,
      "loss": 0.4948283195495605,
      "memory(GiB)": 70.5,
      "step": 29555,
      "token_acc": 0.9006849315068494,
      "train_speed(iter/s)": 1.458676
    },
    {
      "epoch": 1.2664410265198578,
      "grad_norm": 1.224912166595459,
      "learning_rate": 8.498823135246763e-05,
      "loss": 0.5429718971252442,
      "memory(GiB)": 70.5,
      "step": 29560,
      "token_acc": 0.8782051282051282,
      "train_speed(iter/s)": 1.458678
    },
    {
      "epoch": 1.2666552418491066,
      "grad_norm": 1.8287054300308228,
      "learning_rate": 8.49834234641793e-05,
      "loss": 0.29946820735931395,
      "memory(GiB)": 70.5,
      "step": 29565,
      "token_acc": 0.9238410596026491,
      "train_speed(iter/s)": 1.458682
    },
    {
      "epoch": 1.2668694571783556,
      "grad_norm": 3.513446569442749,
      "learning_rate": 8.497861494213344e-05,
      "loss": 0.5439561367034912,
      "memory(GiB)": 70.5,
      "step": 29570,
      "token_acc": 0.8914728682170543,
      "train_speed(iter/s)": 1.458692
    },
    {
      "epoch": 1.2670836725076047,
      "grad_norm": 4.542169094085693,
      "learning_rate": 8.497380578641717e-05,
      "loss": 0.4530160903930664,
      "memory(GiB)": 70.5,
      "step": 29575,
      "token_acc": 0.8931750741839762,
      "train_speed(iter/s)": 1.45869
    },
    {
      "epoch": 1.2672978878368535,
      "grad_norm": 4.6029372215271,
      "learning_rate": 8.496899599711759e-05,
      "loss": 0.4029345989227295,
      "memory(GiB)": 70.5,
      "step": 29580,
      "token_acc": 0.905511811023622,
      "train_speed(iter/s)": 1.458695
    },
    {
      "epoch": 1.2675121031661025,
      "grad_norm": 8.973332405090332,
      "learning_rate": 8.496418557432183e-05,
      "loss": 0.4158797264099121,
      "memory(GiB)": 70.5,
      "step": 29585,
      "token_acc": 0.9101796407185628,
      "train_speed(iter/s)": 1.458707
    },
    {
      "epoch": 1.2677263184953516,
      "grad_norm": 3.049168825149536,
      "learning_rate": 8.495937451811706e-05,
      "loss": 0.651026439666748,
      "memory(GiB)": 70.5,
      "step": 29590,
      "token_acc": 0.8719346049046321,
      "train_speed(iter/s)": 1.458701
    },
    {
      "epoch": 1.2679405338246004,
      "grad_norm": 2.0089340209960938,
      "learning_rate": 8.495456282859043e-05,
      "loss": 0.5116514205932617,
      "memory(GiB)": 70.5,
      "step": 29595,
      "token_acc": 0.8662420382165605,
      "train_speed(iter/s)": 1.458706
    },
    {
      "epoch": 1.2681547491538494,
      "grad_norm": 3.671867609024048,
      "learning_rate": 8.494975050582909e-05,
      "loss": 0.4380197525024414,
      "memory(GiB)": 70.5,
      "step": 29600,
      "token_acc": 0.9094076655052264,
      "train_speed(iter/s)": 1.458713
    },
    {
      "epoch": 1.2683689644830984,
      "grad_norm": 4.57921838760376,
      "learning_rate": 8.494493754992026e-05,
      "loss": 0.5987775802612305,
      "memory(GiB)": 70.5,
      "step": 29605,
      "token_acc": 0.895910780669145,
      "train_speed(iter/s)": 1.458733
    },
    {
      "epoch": 1.2685831798123473,
      "grad_norm": 2.2865347862243652,
      "learning_rate": 8.49401239609511e-05,
      "loss": 0.334675931930542,
      "memory(GiB)": 70.5,
      "step": 29610,
      "token_acc": 0.925764192139738,
      "train_speed(iter/s)": 1.458734
    },
    {
      "epoch": 1.2687973951415963,
      "grad_norm": 1.6028703451156616,
      "learning_rate": 8.49353097390088e-05,
      "loss": 0.5188379764556885,
      "memory(GiB)": 70.5,
      "step": 29615,
      "token_acc": 0.9184397163120568,
      "train_speed(iter/s)": 1.458759
    },
    {
      "epoch": 1.2690116104708453,
      "grad_norm": 2.378448486328125,
      "learning_rate": 8.493049488418061e-05,
      "loss": 0.27522637844085696,
      "memory(GiB)": 70.5,
      "step": 29620,
      "token_acc": 0.9575971731448764,
      "train_speed(iter/s)": 1.458774
    },
    {
      "epoch": 1.2692258258000941,
      "grad_norm": 4.79465913772583,
      "learning_rate": 8.492567939655371e-05,
      "loss": 0.5007132530212403,
      "memory(GiB)": 70.5,
      "step": 29625,
      "token_acc": 0.8865248226950354,
      "train_speed(iter/s)": 1.45879
    },
    {
      "epoch": 1.2694400411293432,
      "grad_norm": 5.266905784606934,
      "learning_rate": 8.49208632762154e-05,
      "loss": 0.33909246921539304,
      "memory(GiB)": 70.5,
      "step": 29630,
      "token_acc": 0.9261992619926199,
      "train_speed(iter/s)": 1.458792
    },
    {
      "epoch": 1.2696542564585922,
      "grad_norm": 2.0880701541900635,
      "learning_rate": 8.491604652325287e-05,
      "loss": 0.34532716274261477,
      "memory(GiB)": 70.5,
      "step": 29635,
      "token_acc": 0.9190031152647975,
      "train_speed(iter/s)": 1.458796
    },
    {
      "epoch": 1.269868471787841,
      "grad_norm": 5.966197490692139,
      "learning_rate": 8.491122913775342e-05,
      "loss": 0.5256233215332031,
      "memory(GiB)": 70.5,
      "step": 29640,
      "token_acc": 0.9105691056910569,
      "train_speed(iter/s)": 1.458781
    },
    {
      "epoch": 1.27008268711709,
      "grad_norm": 3.2529380321502686,
      "learning_rate": 8.490641111980429e-05,
      "loss": 0.5330324172973633,
      "memory(GiB)": 70.5,
      "step": 29645,
      "token_acc": 0.8730769230769231,
      "train_speed(iter/s)": 1.458787
    },
    {
      "epoch": 1.270296902446339,
      "grad_norm": 5.165452003479004,
      "learning_rate": 8.490159246949278e-05,
      "loss": 0.5016083717346191,
      "memory(GiB)": 70.5,
      "step": 29650,
      "token_acc": 0.9024390243902439,
      "train_speed(iter/s)": 1.458794
    },
    {
      "epoch": 1.270511117775588,
      "grad_norm": 1.6002442836761475,
      "learning_rate": 8.489677318690619e-05,
      "loss": 0.26929244995117185,
      "memory(GiB)": 70.5,
      "step": 29655,
      "token_acc": 0.944954128440367,
      "train_speed(iter/s)": 1.458804
    },
    {
      "epoch": 1.270725333104837,
      "grad_norm": 3.590688943862915,
      "learning_rate": 8.48919532721318e-05,
      "loss": 0.3608463525772095,
      "memory(GiB)": 70.5,
      "step": 29660,
      "token_acc": 0.9233226837060703,
      "train_speed(iter/s)": 1.458811
    },
    {
      "epoch": 1.270939548434086,
      "grad_norm": 7.401162624359131,
      "learning_rate": 8.488713272525696e-05,
      "loss": 0.14221543073654175,
      "memory(GiB)": 70.5,
      "step": 29665,
      "token_acc": 0.9666666666666667,
      "train_speed(iter/s)": 1.458817
    },
    {
      "epoch": 1.2711537637633348,
      "grad_norm": 5.671383380889893,
      "learning_rate": 8.488231154636899e-05,
      "loss": 0.43341598510742185,
      "memory(GiB)": 70.5,
      "step": 29670,
      "token_acc": 0.9252336448598131,
      "train_speed(iter/s)": 1.458851
    },
    {
      "epoch": 1.2713679790925838,
      "grad_norm": 2.6080334186553955,
      "learning_rate": 8.487748973555523e-05,
      "loss": 0.20556674003601075,
      "memory(GiB)": 70.5,
      "step": 29675,
      "token_acc": 0.932,
      "train_speed(iter/s)": 1.458869
    },
    {
      "epoch": 1.2715821944218328,
      "grad_norm": 3.6386735439300537,
      "learning_rate": 8.487266729290299e-05,
      "loss": 0.3783675193786621,
      "memory(GiB)": 70.5,
      "step": 29680,
      "token_acc": 0.9169329073482428,
      "train_speed(iter/s)": 1.458871
    },
    {
      "epoch": 1.2717964097510817,
      "grad_norm": 2.6982903480529785,
      "learning_rate": 8.48678442184997e-05,
      "loss": 0.1514630913734436,
      "memory(GiB)": 70.5,
      "step": 29685,
      "token_acc": 0.972,
      "train_speed(iter/s)": 1.458881
    },
    {
      "epoch": 1.2720106250803307,
      "grad_norm": 2.801332712173462,
      "learning_rate": 8.48630205124327e-05,
      "loss": 0.27791943550109866,
      "memory(GiB)": 70.5,
      "step": 29690,
      "token_acc": 0.9612903225806452,
      "train_speed(iter/s)": 1.458913
    },
    {
      "epoch": 1.2722248404095797,
      "grad_norm": 2.981699228286743,
      "learning_rate": 8.485819617478936e-05,
      "loss": 0.261728310585022,
      "memory(GiB)": 70.5,
      "step": 29695,
      "token_acc": 0.9352941176470588,
      "train_speed(iter/s)": 1.45891
    },
    {
      "epoch": 1.2724390557388285,
      "grad_norm": 4.557619571685791,
      "learning_rate": 8.485337120565712e-05,
      "loss": 0.5662907600402832,
      "memory(GiB)": 70.5,
      "step": 29700,
      "token_acc": 0.8851851851851852,
      "train_speed(iter/s)": 1.458912
    },
    {
      "epoch": 1.2726532710680776,
      "grad_norm": 8.436476707458496,
      "learning_rate": 8.484854560512335e-05,
      "loss": 0.7185813903808593,
      "memory(GiB)": 70.5,
      "step": 29705,
      "token_acc": 0.8618181818181818,
      "train_speed(iter/s)": 1.458912
    },
    {
      "epoch": 1.2728674863973266,
      "grad_norm": 2.366124391555786,
      "learning_rate": 8.48437193732755e-05,
      "loss": 0.16902703046798706,
      "memory(GiB)": 70.5,
      "step": 29710,
      "token_acc": 0.9700374531835206,
      "train_speed(iter/s)": 1.458925
    },
    {
      "epoch": 1.2730817017265754,
      "grad_norm": 5.958586692810059,
      "learning_rate": 8.483889251020097e-05,
      "loss": 0.7384626388549804,
      "memory(GiB)": 70.5,
      "step": 29715,
      "token_acc": 0.8576512455516014,
      "train_speed(iter/s)": 1.458924
    },
    {
      "epoch": 1.2732959170558245,
      "grad_norm": 3.1885979175567627,
      "learning_rate": 8.483406501598724e-05,
      "loss": 0.514025354385376,
      "memory(GiB)": 70.5,
      "step": 29720,
      "token_acc": 0.8934707903780069,
      "train_speed(iter/s)": 1.458914
    },
    {
      "epoch": 1.2735101323850735,
      "grad_norm": 5.713798999786377,
      "learning_rate": 8.482923689072173e-05,
      "loss": 0.383162784576416,
      "memory(GiB)": 70.5,
      "step": 29725,
      "token_acc": 0.9342560553633218,
      "train_speed(iter/s)": 1.458913
    },
    {
      "epoch": 1.2737243477143223,
      "grad_norm": 3.1353511810302734,
      "learning_rate": 8.482440813449193e-05,
      "loss": 0.19593286514282227,
      "memory(GiB)": 70.5,
      "step": 29730,
      "token_acc": 0.9448818897637795,
      "train_speed(iter/s)": 1.458903
    },
    {
      "epoch": 1.2739385630435713,
      "grad_norm": 4.115242004394531,
      "learning_rate": 8.481957874738529e-05,
      "loss": 0.45981249809265134,
      "memory(GiB)": 70.5,
      "step": 29735,
      "token_acc": 0.8840125391849529,
      "train_speed(iter/s)": 1.458903
    },
    {
      "epoch": 1.2741527783728204,
      "grad_norm": 1.1208608150482178,
      "learning_rate": 8.481474872948933e-05,
      "loss": 0.3527961730957031,
      "memory(GiB)": 70.5,
      "step": 29740,
      "token_acc": 0.9316770186335404,
      "train_speed(iter/s)": 1.458906
    },
    {
      "epoch": 1.2743669937020692,
      "grad_norm": 6.6403489112854,
      "learning_rate": 8.480991808089156e-05,
      "loss": 0.49266824722290037,
      "memory(GiB)": 70.5,
      "step": 29745,
      "token_acc": 0.8881118881118881,
      "train_speed(iter/s)": 1.45893
    },
    {
      "epoch": 1.2745812090313182,
      "grad_norm": 0.20183557271957397,
      "learning_rate": 8.480508680167945e-05,
      "loss": 0.57802414894104,
      "memory(GiB)": 70.5,
      "step": 29750,
      "token_acc": 0.8660436137071651,
      "train_speed(iter/s)": 1.45893
    },
    {
      "epoch": 1.2747954243605673,
      "grad_norm": 7.588120460510254,
      "learning_rate": 8.480025489194055e-05,
      "loss": 0.29415862560272216,
      "memory(GiB)": 70.5,
      "step": 29755,
      "token_acc": 0.9302325581395349,
      "train_speed(iter/s)": 1.458937
    },
    {
      "epoch": 1.275009639689816,
      "grad_norm": 0.6383906006813049,
      "learning_rate": 8.479542235176236e-05,
      "loss": 0.15490446090698243,
      "memory(GiB)": 70.5,
      "step": 29760,
      "token_acc": 0.9585798816568047,
      "train_speed(iter/s)": 1.458926
    },
    {
      "epoch": 1.275223855019065,
      "grad_norm": 4.747074127197266,
      "learning_rate": 8.479058918123248e-05,
      "loss": 0.473863410949707,
      "memory(GiB)": 70.5,
      "step": 29765,
      "token_acc": 0.8989547038327527,
      "train_speed(iter/s)": 1.458957
    },
    {
      "epoch": 1.2754380703483141,
      "grad_norm": 2.325996160507202,
      "learning_rate": 8.478575538043843e-05,
      "loss": 0.4399857044219971,
      "memory(GiB)": 70.5,
      "step": 29770,
      "token_acc": 0.898989898989899,
      "train_speed(iter/s)": 1.458957
    },
    {
      "epoch": 1.2756522856775632,
      "grad_norm": 4.548655986785889,
      "learning_rate": 8.47809209494678e-05,
      "loss": 0.703969669342041,
      "memory(GiB)": 70.5,
      "step": 29775,
      "token_acc": 0.849112426035503,
      "train_speed(iter/s)": 1.459004
    },
    {
      "epoch": 1.275866501006812,
      "grad_norm": 2.850931406021118,
      "learning_rate": 8.477608588840815e-05,
      "loss": 0.5269589424133301,
      "memory(GiB)": 70.5,
      "step": 29780,
      "token_acc": 0.8808664259927798,
      "train_speed(iter/s)": 1.458993
    },
    {
      "epoch": 1.276080716336061,
      "grad_norm": 3.2139194011688232,
      "learning_rate": 8.477125019734709e-05,
      "loss": 0.4174196720123291,
      "memory(GiB)": 70.5,
      "step": 29785,
      "token_acc": 0.9133574007220217,
      "train_speed(iter/s)": 1.458989
    },
    {
      "epoch": 1.27629493166531,
      "grad_norm": 1.4902491569519043,
      "learning_rate": 8.476641387637221e-05,
      "loss": 0.6477405548095703,
      "memory(GiB)": 70.5,
      "step": 29790,
      "token_acc": 0.8823529411764706,
      "train_speed(iter/s)": 1.458985
    },
    {
      "epoch": 1.2765091469945589,
      "grad_norm": 1.6624939441680908,
      "learning_rate": 8.476157692557112e-05,
      "loss": 0.3559281349182129,
      "memory(GiB)": 70.5,
      "step": 29795,
      "token_acc": 0.9273927392739274,
      "train_speed(iter/s)": 1.458986
    },
    {
      "epoch": 1.276723362323808,
      "grad_norm": 4.922333717346191,
      "learning_rate": 8.475673934503147e-05,
      "loss": 0.5401047706604004,
      "memory(GiB)": 70.5,
      "step": 29800,
      "token_acc": 0.8980891719745223,
      "train_speed(iter/s)": 1.45897
    },
    {
      "epoch": 1.276937577653057,
      "grad_norm": 1.4910491704940796,
      "learning_rate": 8.475190113484088e-05,
      "loss": 0.2811305999755859,
      "memory(GiB)": 70.5,
      "step": 29805,
      "token_acc": 0.940625,
      "train_speed(iter/s)": 1.458981
    },
    {
      "epoch": 1.2771517929823057,
      "grad_norm": 2.8214588165283203,
      "learning_rate": 8.4747062295087e-05,
      "loss": 0.5604674816131592,
      "memory(GiB)": 70.5,
      "step": 29810,
      "token_acc": 0.8986013986013986,
      "train_speed(iter/s)": 1.459004
    },
    {
      "epoch": 1.2773660083115548,
      "grad_norm": 5.1869611740112305,
      "learning_rate": 8.474222282585749e-05,
      "loss": 0.6191688537597656,
      "memory(GiB)": 70.5,
      "step": 29815,
      "token_acc": 0.8615819209039548,
      "train_speed(iter/s)": 1.45899
    },
    {
      "epoch": 1.2775802236408038,
      "grad_norm": 2.96712064743042,
      "learning_rate": 8.473738272724001e-05,
      "loss": 0.6996460437774659,
      "memory(GiB)": 70.5,
      "step": 29820,
      "token_acc": 0.8691275167785235,
      "train_speed(iter/s)": 1.458984
    },
    {
      "epoch": 1.2777944389700526,
      "grad_norm": 3.6422829627990723,
      "learning_rate": 8.473254199932227e-05,
      "loss": 0.342163610458374,
      "memory(GiB)": 70.5,
      "step": 29825,
      "token_acc": 0.916030534351145,
      "train_speed(iter/s)": 1.458986
    },
    {
      "epoch": 1.2780086542993017,
      "grad_norm": 3.816073417663574,
      "learning_rate": 8.472770064219196e-05,
      "loss": 0.2063524007797241,
      "memory(GiB)": 70.5,
      "step": 29830,
      "token_acc": 0.9603658536585366,
      "train_speed(iter/s)": 1.458985
    },
    {
      "epoch": 1.2782228696285507,
      "grad_norm": 4.224072456359863,
      "learning_rate": 8.472285865593674e-05,
      "loss": 0.4125386714935303,
      "memory(GiB)": 70.5,
      "step": 29835,
      "token_acc": 0.9027237354085603,
      "train_speed(iter/s)": 1.458982
    },
    {
      "epoch": 1.2784370849577995,
      "grad_norm": 3.3599400520324707,
      "learning_rate": 8.47180160406444e-05,
      "loss": 0.5086872577667236,
      "memory(GiB)": 70.5,
      "step": 29840,
      "token_acc": 0.8866666666666667,
      "train_speed(iter/s)": 1.458983
    },
    {
      "epoch": 1.2786513002870485,
      "grad_norm": 1.791751503944397,
      "learning_rate": 8.471317279640261e-05,
      "loss": 0.29446992874145506,
      "memory(GiB)": 70.5,
      "step": 29845,
      "token_acc": 0.9311475409836065,
      "train_speed(iter/s)": 1.458977
    },
    {
      "epoch": 1.2788655156162976,
      "grad_norm": 4.830417633056641,
      "learning_rate": 8.470832892329912e-05,
      "loss": 0.4301201820373535,
      "memory(GiB)": 70.5,
      "step": 29850,
      "token_acc": 0.9238095238095239,
      "train_speed(iter/s)": 1.458965
    },
    {
      "epoch": 1.2790797309455464,
      "grad_norm": 4.122400760650635,
      "learning_rate": 8.470348442142172e-05,
      "loss": 0.44718027114868164,
      "memory(GiB)": 70.5,
      "step": 29855,
      "token_acc": 0.9198717948717948,
      "train_speed(iter/s)": 1.458967
    },
    {
      "epoch": 1.2792939462747954,
      "grad_norm": 2.8930602073669434,
      "learning_rate": 8.469863929085813e-05,
      "loss": 0.5242234230041504,
      "memory(GiB)": 70.5,
      "step": 29860,
      "token_acc": 0.8766233766233766,
      "train_speed(iter/s)": 1.45894
    },
    {
      "epoch": 1.2795081616040445,
      "grad_norm": 2.5271313190460205,
      "learning_rate": 8.469379353169615e-05,
      "loss": 0.38395450115203855,
      "memory(GiB)": 70.5,
      "step": 29865,
      "token_acc": 0.8986013986013986,
      "train_speed(iter/s)": 1.458968
    },
    {
      "epoch": 1.2797223769332933,
      "grad_norm": 6.374747276306152,
      "learning_rate": 8.468894714402356e-05,
      "loss": 0.6272805213928223,
      "memory(GiB)": 70.5,
      "step": 29870,
      "token_acc": 0.8759398496240601,
      "train_speed(iter/s)": 1.458989
    },
    {
      "epoch": 1.2799365922625423,
      "grad_norm": 2.678518533706665,
      "learning_rate": 8.468410012792813e-05,
      "loss": 0.29465909004211427,
      "memory(GiB)": 70.5,
      "step": 29875,
      "token_acc": 0.9375,
      "train_speed(iter/s)": 1.458976
    },
    {
      "epoch": 1.2801508075917913,
      "grad_norm": 7.466035842895508,
      "learning_rate": 8.467925248349771e-05,
      "loss": 0.2940552234649658,
      "memory(GiB)": 70.5,
      "step": 29880,
      "token_acc": 0.9396551724137931,
      "train_speed(iter/s)": 1.458969
    },
    {
      "epoch": 1.2803650229210402,
      "grad_norm": 1.88372004032135,
      "learning_rate": 8.467440421082008e-05,
      "loss": 0.34623758792877196,
      "memory(GiB)": 70.5,
      "step": 29885,
      "token_acc": 0.9250814332247557,
      "train_speed(iter/s)": 1.458958
    },
    {
      "epoch": 1.2805792382502892,
      "grad_norm": 4.124139785766602,
      "learning_rate": 8.466955530998311e-05,
      "loss": 0.2557192802429199,
      "memory(GiB)": 70.5,
      "step": 29890,
      "token_acc": 0.9300911854103343,
      "train_speed(iter/s)": 1.458944
    },
    {
      "epoch": 1.2807934535795382,
      "grad_norm": 0.5330995321273804,
      "learning_rate": 8.466470578107462e-05,
      "loss": 0.5040007591247558,
      "memory(GiB)": 70.5,
      "step": 29895,
      "token_acc": 0.8838709677419355,
      "train_speed(iter/s)": 1.458947
    },
    {
      "epoch": 1.281007668908787,
      "grad_norm": 6.731649398803711,
      "learning_rate": 8.465985562418244e-05,
      "loss": 0.501140022277832,
      "memory(GiB)": 70.5,
      "step": 29900,
      "token_acc": 0.9050632911392406,
      "train_speed(iter/s)": 1.458938
    },
    {
      "epoch": 1.281221884238036,
      "grad_norm": 3.6900737285614014,
      "learning_rate": 8.465500483939449e-05,
      "loss": 0.31390197277069093,
      "memory(GiB)": 70.5,
      "step": 29905,
      "token_acc": 0.9174917491749175,
      "train_speed(iter/s)": 1.458938
    },
    {
      "epoch": 1.281436099567285,
      "grad_norm": 2.3455448150634766,
      "learning_rate": 8.465015342679861e-05,
      "loss": 0.4726511001586914,
      "memory(GiB)": 70.5,
      "step": 29910,
      "token_acc": 0.9106628242074928,
      "train_speed(iter/s)": 1.458936
    },
    {
      "epoch": 1.281650314896534,
      "grad_norm": 10.730294227600098,
      "learning_rate": 8.46453013864827e-05,
      "loss": 0.4314899444580078,
      "memory(GiB)": 70.5,
      "step": 29915,
      "token_acc": 0.9012738853503185,
      "train_speed(iter/s)": 1.458986
    },
    {
      "epoch": 1.281864530225783,
      "grad_norm": 3.045428514480591,
      "learning_rate": 8.464044871853465e-05,
      "loss": 0.48629183769226075,
      "memory(GiB)": 70.5,
      "step": 29920,
      "token_acc": 0.9096989966555183,
      "train_speed(iter/s)": 1.458984
    },
    {
      "epoch": 1.282078745555032,
      "grad_norm": 0.24822835624217987,
      "learning_rate": 8.463559542304238e-05,
      "loss": 0.42037043571472166,
      "memory(GiB)": 70.5,
      "step": 29925,
      "token_acc": 0.9244712990936556,
      "train_speed(iter/s)": 1.459011
    },
    {
      "epoch": 1.2822929608842808,
      "grad_norm": 10.605915069580078,
      "learning_rate": 8.46307415000938e-05,
      "loss": 0.5231534481048584,
      "memory(GiB)": 70.5,
      "step": 29930,
      "token_acc": 0.9106529209621993,
      "train_speed(iter/s)": 1.459005
    },
    {
      "epoch": 1.2825071762135298,
      "grad_norm": 1.670084834098816,
      "learning_rate": 8.462588694977686e-05,
      "loss": 0.25115835666656494,
      "memory(GiB)": 70.5,
      "step": 29935,
      "token_acc": 0.9388489208633094,
      "train_speed(iter/s)": 1.459037
    },
    {
      "epoch": 1.2827213915427789,
      "grad_norm": 2.6144778728485107,
      "learning_rate": 8.46210317721795e-05,
      "loss": 0.20669689178466796,
      "memory(GiB)": 70.5,
      "step": 29940,
      "token_acc": 0.9465408805031447,
      "train_speed(iter/s)": 1.459029
    },
    {
      "epoch": 1.282935606872028,
      "grad_norm": 3.8312618732452393,
      "learning_rate": 8.461617596738967e-05,
      "loss": 0.5742983341217041,
      "memory(GiB)": 70.5,
      "step": 29945,
      "token_acc": 0.8757961783439491,
      "train_speed(iter/s)": 1.459027
    },
    {
      "epoch": 1.2831498222012767,
      "grad_norm": 0.6021116375923157,
      "learning_rate": 8.461131953549532e-05,
      "loss": 0.35267813205718995,
      "memory(GiB)": 70.5,
      "step": 29950,
      "token_acc": 0.9218241042345277,
      "train_speed(iter/s)": 1.459036
    },
    {
      "epoch": 1.2833640375305257,
      "grad_norm": 5.433487415313721,
      "learning_rate": 8.460646247658446e-05,
      "loss": 0.6305763721466064,
      "memory(GiB)": 70.5,
      "step": 29955,
      "token_acc": 0.8698630136986302,
      "train_speed(iter/s)": 1.459029
    },
    {
      "epoch": 1.2835782528597748,
      "grad_norm": 9.005967140197754,
      "learning_rate": 8.460160479074508e-05,
      "loss": 0.5377079486846924,
      "memory(GiB)": 70.5,
      "step": 29960,
      "token_acc": 0.8582089552238806,
      "train_speed(iter/s)": 1.459054
    },
    {
      "epoch": 1.2837924681890236,
      "grad_norm": 4.968935489654541,
      "learning_rate": 8.459674647806517e-05,
      "loss": 0.3803140163421631,
      "memory(GiB)": 70.5,
      "step": 29965,
      "token_acc": 0.9211956521739131,
      "train_speed(iter/s)": 1.459051
    },
    {
      "epoch": 1.2840066835182726,
      "grad_norm": 2.7944939136505127,
      "learning_rate": 8.459188753863273e-05,
      "loss": 0.5167969226837158,
      "memory(GiB)": 70.5,
      "step": 29970,
      "token_acc": 0.9020979020979021,
      "train_speed(iter/s)": 1.459067
    },
    {
      "epoch": 1.2842208988475217,
      "grad_norm": 3.64066219329834,
      "learning_rate": 8.458702797253581e-05,
      "loss": 0.4003900051116943,
      "memory(GiB)": 70.5,
      "step": 29975,
      "token_acc": 0.946058091286307,
      "train_speed(iter/s)": 1.459084
    },
    {
      "epoch": 1.2844351141767705,
      "grad_norm": 1.681719183921814,
      "learning_rate": 8.458216777986243e-05,
      "loss": 0.3096207618713379,
      "memory(GiB)": 70.5,
      "step": 29980,
      "token_acc": 0.9173228346456693,
      "train_speed(iter/s)": 1.459109
    },
    {
      "epoch": 1.2846493295060195,
      "grad_norm": 1.9459717273712158,
      "learning_rate": 8.457730696070063e-05,
      "loss": 0.5179637908935547,
      "memory(GiB)": 70.5,
      "step": 29985,
      "token_acc": 0.9252336448598131,
      "train_speed(iter/s)": 1.459133
    },
    {
      "epoch": 1.2848635448352685,
      "grad_norm": 3.676410436630249,
      "learning_rate": 8.457244551513848e-05,
      "loss": 0.24379475116729737,
      "memory(GiB)": 70.5,
      "step": 29990,
      "token_acc": 0.9517543859649122,
      "train_speed(iter/s)": 1.459108
    },
    {
      "epoch": 1.2850777601645174,
      "grad_norm": 2.706596612930298,
      "learning_rate": 8.456758344326406e-05,
      "loss": 0.2934009552001953,
      "memory(GiB)": 70.5,
      "step": 29995,
      "token_acc": 0.9328358208955224,
      "train_speed(iter/s)": 1.459114
    },
    {
      "epoch": 1.2852919754937664,
      "grad_norm": 2.5565052032470703,
      "learning_rate": 8.456272074516542e-05,
      "loss": 0.17023004293441774,
      "memory(GiB)": 70.5,
      "step": 30000,
      "token_acc": 0.9574468085106383,
      "train_speed(iter/s)": 1.459114
    },
    {
      "epoch": 1.2852919754937664,
      "eval_loss": 2.5184383392333984,
      "eval_runtime": 12.996,
      "eval_samples_per_second": 7.695,
      "eval_steps_per_second": 7.695,
      "eval_token_acc": 0.40242261103633914,
      "step": 30000
    },
    {
      "epoch": 1.2855061908230154,
      "grad_norm": 3.9537088871002197,
      "learning_rate": 8.45578574209307e-05,
      "loss": 0.39363799095153806,
      "memory(GiB)": 70.5,
      "step": 30005,
      "token_acc": 0.5246727089627392,
      "train_speed(iter/s)": 1.458123
    },
    {
      "epoch": 1.2857204061522642,
      "grad_norm": 3.2739484310150146,
      "learning_rate": 8.455299347064795e-05,
      "loss": 0.23785266876220704,
      "memory(GiB)": 70.5,
      "step": 30010,
      "token_acc": 0.9471544715447154,
      "train_speed(iter/s)": 1.458125
    },
    {
      "epoch": 1.2859346214815133,
      "grad_norm": 6.409919261932373,
      "learning_rate": 8.454812889440533e-05,
      "loss": 0.4956367969512939,
      "memory(GiB)": 70.5,
      "step": 30015,
      "token_acc": 0.896797153024911,
      "train_speed(iter/s)": 1.458119
    },
    {
      "epoch": 1.2861488368107623,
      "grad_norm": 2.0644640922546387,
      "learning_rate": 8.454326369229094e-05,
      "loss": 0.28067281246185305,
      "memory(GiB)": 70.5,
      "step": 30020,
      "token_acc": 0.9502923976608187,
      "train_speed(iter/s)": 1.458127
    },
    {
      "epoch": 1.2863630521400111,
      "grad_norm": 2.044461250305176,
      "learning_rate": 8.45383978643929e-05,
      "loss": 0.2562739372253418,
      "memory(GiB)": 70.5,
      "step": 30025,
      "token_acc": 0.9518900343642611,
      "train_speed(iter/s)": 1.458132
    },
    {
      "epoch": 1.2865772674692602,
      "grad_norm": 2.226694345474243,
      "learning_rate": 8.453353141079941e-05,
      "loss": 0.3011181831359863,
      "memory(GiB)": 70.5,
      "step": 30030,
      "token_acc": 0.934931506849315,
      "train_speed(iter/s)": 1.458132
    },
    {
      "epoch": 1.2867914827985092,
      "grad_norm": 4.527383804321289,
      "learning_rate": 8.452866433159859e-05,
      "loss": 0.4662955284118652,
      "memory(GiB)": 70.5,
      "step": 30035,
      "token_acc": 0.9033457249070632,
      "train_speed(iter/s)": 1.458135
    },
    {
      "epoch": 1.287005698127758,
      "grad_norm": 6.652449607849121,
      "learning_rate": 8.452379662687864e-05,
      "loss": 0.6231932640075684,
      "memory(GiB)": 70.5,
      "step": 30040,
      "token_acc": 0.8850174216027874,
      "train_speed(iter/s)": 1.458165
    },
    {
      "epoch": 1.287219913457007,
      "grad_norm": 4.222189426422119,
      "learning_rate": 8.45189282967277e-05,
      "loss": 0.6096114158630371,
      "memory(GiB)": 70.5,
      "step": 30045,
      "token_acc": 0.9039735099337748,
      "train_speed(iter/s)": 1.458189
    },
    {
      "epoch": 1.287434128786256,
      "grad_norm": 6.116891860961914,
      "learning_rate": 8.451405934123402e-05,
      "loss": 0.33343169689178465,
      "memory(GiB)": 70.5,
      "step": 30050,
      "token_acc": 0.9331306990881459,
      "train_speed(iter/s)": 1.458214
    },
    {
      "epoch": 1.2876483441155049,
      "grad_norm": 0.03571288660168648,
      "learning_rate": 8.450918976048577e-05,
      "loss": 0.3327286720275879,
      "memory(GiB)": 70.5,
      "step": 30055,
      "token_acc": 0.9271523178807947,
      "train_speed(iter/s)": 1.458213
    },
    {
      "epoch": 1.287862559444754,
      "grad_norm": 2.856956720352173,
      "learning_rate": 8.450431955457118e-05,
      "loss": 0.340993595123291,
      "memory(GiB)": 70.5,
      "step": 30060,
      "token_acc": 0.9243697478991597,
      "train_speed(iter/s)": 1.458212
    },
    {
      "epoch": 1.288076774774003,
      "grad_norm": 3.268655776977539,
      "learning_rate": 8.449944872357845e-05,
      "loss": 0.26356987953186034,
      "memory(GiB)": 70.5,
      "step": 30065,
      "token_acc": 0.9510204081632653,
      "train_speed(iter/s)": 1.458214
    },
    {
      "epoch": 1.2882909901032518,
      "grad_norm": 0.598157525062561,
      "learning_rate": 8.449457726759586e-05,
      "loss": 0.392649245262146,
      "memory(GiB)": 70.5,
      "step": 30070,
      "token_acc": 0.9171974522292994,
      "train_speed(iter/s)": 1.458223
    },
    {
      "epoch": 1.2885052054325008,
      "grad_norm": 4.578696250915527,
      "learning_rate": 8.448970518671165e-05,
      "loss": 0.5073931694030762,
      "memory(GiB)": 70.5,
      "step": 30075,
      "token_acc": 0.8779661016949153,
      "train_speed(iter/s)": 1.458249
    },
    {
      "epoch": 1.2887194207617498,
      "grad_norm": 6.804533004760742,
      "learning_rate": 8.448483248101408e-05,
      "loss": 0.5093812942504883,
      "memory(GiB)": 70.5,
      "step": 30080,
      "token_acc": 0.8858024691358025,
      "train_speed(iter/s)": 1.458251
    },
    {
      "epoch": 1.2889336360909986,
      "grad_norm": 4.5196614265441895,
      "learning_rate": 8.447995915059142e-05,
      "loss": 0.5194606781005859,
      "memory(GiB)": 70.5,
      "step": 30085,
      "token_acc": 0.8903225806451613,
      "train_speed(iter/s)": 1.458251
    },
    {
      "epoch": 1.2891478514202477,
      "grad_norm": 3.8750336170196533,
      "learning_rate": 8.447508519553194e-05,
      "loss": 0.4613044261932373,
      "memory(GiB)": 70.5,
      "step": 30090,
      "token_acc": 0.8953846153846153,
      "train_speed(iter/s)": 1.458257
    },
    {
      "epoch": 1.2893620667494967,
      "grad_norm": 2.771576404571533,
      "learning_rate": 8.447021061592396e-05,
      "loss": 0.2743196725845337,
      "memory(GiB)": 70.5,
      "step": 30095,
      "token_acc": 0.9486404833836858,
      "train_speed(iter/s)": 1.458263
    },
    {
      "epoch": 1.2895762820787455,
      "grad_norm": 2.6836910247802734,
      "learning_rate": 8.446533541185577e-05,
      "loss": 0.265791916847229,
      "memory(GiB)": 70.5,
      "step": 30100,
      "token_acc": 0.9462809917355371,
      "train_speed(iter/s)": 1.458278
    },
    {
      "epoch": 1.2897904974079946,
      "grad_norm": 4.909562110900879,
      "learning_rate": 8.44604595834157e-05,
      "loss": 0.28582425117492677,
      "memory(GiB)": 70.5,
      "step": 30105,
      "token_acc": 0.9459459459459459,
      "train_speed(iter/s)": 1.458274
    },
    {
      "epoch": 1.2900047127372436,
      "grad_norm": 2.0642929077148438,
      "learning_rate": 8.445558313069208e-05,
      "loss": 0.24840967655181884,
      "memory(GiB)": 70.5,
      "step": 30110,
      "token_acc": 0.9494949494949495,
      "train_speed(iter/s)": 1.458303
    },
    {
      "epoch": 1.2902189280664924,
      "grad_norm": 2.361539125442505,
      "learning_rate": 8.445070605377326e-05,
      "loss": 0.5139287948608399,
      "memory(GiB)": 70.5,
      "step": 30115,
      "token_acc": 0.9130434782608695,
      "train_speed(iter/s)": 1.458316
    },
    {
      "epoch": 1.2904331433957414,
      "grad_norm": 2.4001433849334717,
      "learning_rate": 8.444582835274758e-05,
      "loss": 0.23269104957580566,
      "memory(GiB)": 70.5,
      "step": 30120,
      "token_acc": 0.9559322033898305,
      "train_speed(iter/s)": 1.45833
    },
    {
      "epoch": 1.2906473587249905,
      "grad_norm": 3.326000452041626,
      "learning_rate": 8.444095002770341e-05,
      "loss": 0.3852069616317749,
      "memory(GiB)": 70.5,
      "step": 30125,
      "token_acc": 0.9238754325259516,
      "train_speed(iter/s)": 1.45832
    },
    {
      "epoch": 1.2908615740542393,
      "grad_norm": 3.9654464721679688,
      "learning_rate": 8.44360710787291e-05,
      "loss": 0.5478158950805664,
      "memory(GiB)": 70.5,
      "step": 30130,
      "token_acc": 0.8823529411764706,
      "train_speed(iter/s)": 1.458313
    },
    {
      "epoch": 1.2910757893834883,
      "grad_norm": 2.166776657104492,
      "learning_rate": 8.443119150591309e-05,
      "loss": 0.23938210010528566,
      "memory(GiB)": 70.5,
      "step": 30135,
      "token_acc": 0.9459459459459459,
      "train_speed(iter/s)": 1.458313
    },
    {
      "epoch": 1.2912900047127374,
      "grad_norm": 4.00125789642334,
      "learning_rate": 8.442631130934372e-05,
      "loss": 0.3719663381576538,
      "memory(GiB)": 70.5,
      "step": 30140,
      "token_acc": 0.9251700680272109,
      "train_speed(iter/s)": 1.458299
    },
    {
      "epoch": 1.2915042200419862,
      "grad_norm": 0.9174326062202454,
      "learning_rate": 8.442143048910944e-05,
      "loss": 0.20450005531311036,
      "memory(GiB)": 70.5,
      "step": 30145,
      "token_acc": 0.9629629629629629,
      "train_speed(iter/s)": 1.458304
    },
    {
      "epoch": 1.2917184353712352,
      "grad_norm": 1.8179670572280884,
      "learning_rate": 8.441654904529866e-05,
      "loss": 0.3477299690246582,
      "memory(GiB)": 70.5,
      "step": 30150,
      "token_acc": 0.9150943396226415,
      "train_speed(iter/s)": 1.458318
    },
    {
      "epoch": 1.2919326507004842,
      "grad_norm": 1.4222861528396606,
      "learning_rate": 8.441166697799981e-05,
      "loss": 0.3365692377090454,
      "memory(GiB)": 70.5,
      "step": 30155,
      "token_acc": 0.9418604651162791,
      "train_speed(iter/s)": 1.458317
    },
    {
      "epoch": 1.292146866029733,
      "grad_norm": 2.249558210372925,
      "learning_rate": 8.440678428730131e-05,
      "loss": 0.5029243469238281,
      "memory(GiB)": 70.5,
      "step": 30160,
      "token_acc": 0.9055944055944056,
      "train_speed(iter/s)": 1.458338
    },
    {
      "epoch": 1.292361081358982,
      "grad_norm": 2.347201108932495,
      "learning_rate": 8.440190097329165e-05,
      "loss": 0.4322988510131836,
      "memory(GiB)": 70.5,
      "step": 30165,
      "token_acc": 0.9124087591240876,
      "train_speed(iter/s)": 1.458344
    },
    {
      "epoch": 1.2925752966882311,
      "grad_norm": 6.547861099243164,
      "learning_rate": 8.439701703605929e-05,
      "loss": 0.5659078121185303,
      "memory(GiB)": 70.5,
      "step": 30170,
      "token_acc": 0.889261744966443,
      "train_speed(iter/s)": 1.458356
    },
    {
      "epoch": 1.29278951201748,
      "grad_norm": 2.9590468406677246,
      "learning_rate": 8.439213247569269e-05,
      "loss": 0.4748394012451172,
      "memory(GiB)": 70.5,
      "step": 30175,
      "token_acc": 0.9082278481012658,
      "train_speed(iter/s)": 1.458352
    },
    {
      "epoch": 1.293003727346729,
      "grad_norm": 2.951038122177124,
      "learning_rate": 8.438724729228034e-05,
      "loss": 0.41629915237426757,
      "memory(GiB)": 70.5,
      "step": 30180,
      "token_acc": 0.9254237288135593,
      "train_speed(iter/s)": 1.458349
    },
    {
      "epoch": 1.293217942675978,
      "grad_norm": 6.607094764709473,
      "learning_rate": 8.438236148591076e-05,
      "loss": 0.30472211837768554,
      "memory(GiB)": 70.5,
      "step": 30185,
      "token_acc": 0.934931506849315,
      "train_speed(iter/s)": 1.458351
    },
    {
      "epoch": 1.2934321580052268,
      "grad_norm": 3.5958123207092285,
      "learning_rate": 8.437747505667243e-05,
      "loss": 0.4924447059631348,
      "memory(GiB)": 70.5,
      "step": 30190,
      "token_acc": 0.8975409836065574,
      "train_speed(iter/s)": 1.458384
    },
    {
      "epoch": 1.2936463733344759,
      "grad_norm": 1.4519730806350708,
      "learning_rate": 8.437258800465392e-05,
      "loss": 0.4160431385040283,
      "memory(GiB)": 70.5,
      "step": 30195,
      "token_acc": 0.9143835616438356,
      "train_speed(iter/s)": 1.458385
    },
    {
      "epoch": 1.2938605886637249,
      "grad_norm": 2.4063892364501953,
      "learning_rate": 8.436770032994372e-05,
      "loss": 0.2876838207244873,
      "memory(GiB)": 70.5,
      "step": 30200,
      "token_acc": 0.9501779359430605,
      "train_speed(iter/s)": 1.45839
    },
    {
      "epoch": 1.2940748039929737,
      "grad_norm": 2.394120454788208,
      "learning_rate": 8.436281203263039e-05,
      "loss": 0.36110696792602537,
      "memory(GiB)": 70.5,
      "step": 30205,
      "token_acc": 0.9198606271777003,
      "train_speed(iter/s)": 1.458396
    },
    {
      "epoch": 1.2942890193222227,
      "grad_norm": 5.880767822265625,
      "learning_rate": 8.435792311280248e-05,
      "loss": 0.49774909019470215,
      "memory(GiB)": 70.5,
      "step": 30210,
      "token_acc": 0.9142857142857143,
      "train_speed(iter/s)": 1.458384
    },
    {
      "epoch": 1.2945032346514718,
      "grad_norm": 2.962679862976074,
      "learning_rate": 8.435303357054857e-05,
      "loss": 0.26512560844421384,
      "memory(GiB)": 70.5,
      "step": 30215,
      "token_acc": 0.9315589353612167,
      "train_speed(iter/s)": 1.458374
    },
    {
      "epoch": 1.2947174499807206,
      "grad_norm": 3.3766441345214844,
      "learning_rate": 8.434814340595722e-05,
      "loss": 0.335724925994873,
      "memory(GiB)": 70.5,
      "step": 30220,
      "token_acc": 0.9372549019607843,
      "train_speed(iter/s)": 1.458372
    },
    {
      "epoch": 1.2949316653099696,
      "grad_norm": 3.475271463394165,
      "learning_rate": 8.434325261911705e-05,
      "loss": 0.428848934173584,
      "memory(GiB)": 70.5,
      "step": 30225,
      "token_acc": 0.9182879377431906,
      "train_speed(iter/s)": 1.458403
    },
    {
      "epoch": 1.2951458806392186,
      "grad_norm": 2.8398513793945312,
      "learning_rate": 8.433836121011662e-05,
      "loss": 0.457656192779541,
      "memory(GiB)": 70.5,
      "step": 30230,
      "token_acc": 0.9051094890510949,
      "train_speed(iter/s)": 1.458435
    },
    {
      "epoch": 1.2953600959684675,
      "grad_norm": 3.9846298694610596,
      "learning_rate": 8.43334691790446e-05,
      "loss": 0.24355754852294922,
      "memory(GiB)": 70.5,
      "step": 30235,
      "token_acc": 0.9453924914675768,
      "train_speed(iter/s)": 1.458438
    },
    {
      "epoch": 1.2955743112977165,
      "grad_norm": 1.7453004121780396,
      "learning_rate": 8.432857652598954e-05,
      "loss": 0.33660039901733396,
      "memory(GiB)": 70.5,
      "step": 30240,
      "token_acc": 0.9296875,
      "train_speed(iter/s)": 1.458468
    },
    {
      "epoch": 1.2957885266269655,
      "grad_norm": 2.7953476905822754,
      "learning_rate": 8.432368325104014e-05,
      "loss": 0.2706213712692261,
      "memory(GiB)": 70.5,
      "step": 30245,
      "token_acc": 0.946058091286307,
      "train_speed(iter/s)": 1.458453
    },
    {
      "epoch": 1.2960027419562143,
      "grad_norm": 2.485037088394165,
      "learning_rate": 8.4318789354285e-05,
      "loss": 0.5242500305175781,
      "memory(GiB)": 70.5,
      "step": 30250,
      "token_acc": 0.9155405405405406,
      "train_speed(iter/s)": 1.458449
    },
    {
      "epoch": 1.2962169572854634,
      "grad_norm": 5.447127342224121,
      "learning_rate": 8.43138948358128e-05,
      "loss": 0.5402061462402343,
      "memory(GiB)": 70.5,
      "step": 30255,
      "token_acc": 0.8974358974358975,
      "train_speed(iter/s)": 1.458481
    },
    {
      "epoch": 1.2964311726147124,
      "grad_norm": 4.394353866577148,
      "learning_rate": 8.43089996957122e-05,
      "loss": 0.4694994926452637,
      "memory(GiB)": 70.5,
      "step": 30260,
      "token_acc": 0.9045936395759717,
      "train_speed(iter/s)": 1.458484
    },
    {
      "epoch": 1.2966453879439612,
      "grad_norm": 6.264091968536377,
      "learning_rate": 8.43041039340719e-05,
      "loss": 0.5922162532806396,
      "memory(GiB)": 70.5,
      "step": 30265,
      "token_acc": 0.8694158075601375,
      "train_speed(iter/s)": 1.458504
    },
    {
      "epoch": 1.2968596032732103,
      "grad_norm": 2.6779918670654297,
      "learning_rate": 8.429920755098058e-05,
      "loss": 0.24519219398498535,
      "memory(GiB)": 70.5,
      "step": 30270,
      "token_acc": 0.9422492401215805,
      "train_speed(iter/s)": 1.458525
    },
    {
      "epoch": 1.2970738186024593,
      "grad_norm": 0.16881245374679565,
      "learning_rate": 8.429431054652695e-05,
      "loss": 0.3606379985809326,
      "memory(GiB)": 70.5,
      "step": 30275,
      "token_acc": 0.9094202898550725,
      "train_speed(iter/s)": 1.45851
    },
    {
      "epoch": 1.297288033931708,
      "grad_norm": 5.221207618713379,
      "learning_rate": 8.428941292079968e-05,
      "loss": 0.3302126884460449,
      "memory(GiB)": 70.5,
      "step": 30280,
      "token_acc": 0.9266409266409267,
      "train_speed(iter/s)": 1.458497
    },
    {
      "epoch": 1.2975022492609571,
      "grad_norm": 4.075576305389404,
      "learning_rate": 8.428451467388756e-05,
      "loss": 0.44627747535705564,
      "memory(GiB)": 70.5,
      "step": 30285,
      "token_acc": 0.8844984802431611,
      "train_speed(iter/s)": 1.458511
    },
    {
      "epoch": 1.2977164645902062,
      "grad_norm": 0.16002584993839264,
      "learning_rate": 8.427961580587927e-05,
      "loss": 0.2184974193572998,
      "memory(GiB)": 70.5,
      "step": 30290,
      "token_acc": 0.9565217391304348,
      "train_speed(iter/s)": 1.458561
    },
    {
      "epoch": 1.297930679919455,
      "grad_norm": 4.323823928833008,
      "learning_rate": 8.427471631686359e-05,
      "loss": 0.728772783279419,
      "memory(GiB)": 70.5,
      "step": 30295,
      "token_acc": 0.8644688644688645,
      "train_speed(iter/s)": 1.458561
    },
    {
      "epoch": 1.298144895248704,
      "grad_norm": 4.32131290435791,
      "learning_rate": 8.426981620692929e-05,
      "loss": 0.42799954414367675,
      "memory(GiB)": 70.5,
      "step": 30300,
      "token_acc": 0.9133574007220217,
      "train_speed(iter/s)": 1.458562
    },
    {
      "epoch": 1.298359110577953,
      "grad_norm": 3.029005289077759,
      "learning_rate": 8.426491547616511e-05,
      "loss": 0.42690377235412597,
      "memory(GiB)": 70.5,
      "step": 30305,
      "token_acc": 0.9023569023569024,
      "train_speed(iter/s)": 1.458559
    },
    {
      "epoch": 1.2985733259072019,
      "grad_norm": 3.5467302799224854,
      "learning_rate": 8.426001412465984e-05,
      "loss": 0.3418227195739746,
      "memory(GiB)": 70.5,
      "step": 30310,
      "token_acc": 0.9295302013422819,
      "train_speed(iter/s)": 1.458566
    },
    {
      "epoch": 1.298787541236451,
      "grad_norm": 2.7245285511016846,
      "learning_rate": 8.425511215250226e-05,
      "loss": 0.18051953315734864,
      "memory(GiB)": 70.5,
      "step": 30315,
      "token_acc": 0.9537366548042705,
      "train_speed(iter/s)": 1.458569
    },
    {
      "epoch": 1.2990017565657,
      "grad_norm": 3.9731051921844482,
      "learning_rate": 8.425020955978122e-05,
      "loss": 0.24331314563751222,
      "memory(GiB)": 70.5,
      "step": 30320,
      "token_acc": 0.9545454545454546,
      "train_speed(iter/s)": 1.458566
    },
    {
      "epoch": 1.2992159718949488,
      "grad_norm": 2.7079808712005615,
      "learning_rate": 8.424530634658549e-05,
      "loss": 0.1700899839401245,
      "memory(GiB)": 70.5,
      "step": 30325,
      "token_acc": 0.9589552238805971,
      "train_speed(iter/s)": 1.458575
    },
    {
      "epoch": 1.2994301872241978,
      "grad_norm": 6.110294818878174,
      "learning_rate": 8.424040251300392e-05,
      "loss": 0.5049260139465332,
      "memory(GiB)": 70.5,
      "step": 30330,
      "token_acc": 0.8736462093862816,
      "train_speed(iter/s)": 1.458584
    },
    {
      "epoch": 1.2996444025534468,
      "grad_norm": 0.578482449054718,
      "learning_rate": 8.423549805912532e-05,
      "loss": 0.3013183832168579,
      "memory(GiB)": 70.5,
      "step": 30335,
      "token_acc": 0.9304029304029304,
      "train_speed(iter/s)": 1.458582
    },
    {
      "epoch": 1.2998586178826956,
      "grad_norm": 2.968851327896118,
      "learning_rate": 8.423059298503857e-05,
      "loss": 0.4921926498413086,
      "memory(GiB)": 70.5,
      "step": 30340,
      "token_acc": 0.9054545454545454,
      "train_speed(iter/s)": 1.458584
    },
    {
      "epoch": 1.3000728332119447,
      "grad_norm": 3.3922643661499023,
      "learning_rate": 8.422568729083251e-05,
      "loss": 0.4118156433105469,
      "memory(GiB)": 70.5,
      "step": 30345,
      "token_acc": 0.9124293785310734,
      "train_speed(iter/s)": 1.458584
    },
    {
      "epoch": 1.3002870485411937,
      "grad_norm": 2.8108761310577393,
      "learning_rate": 8.422078097659602e-05,
      "loss": 0.35151607990264894,
      "memory(GiB)": 70.5,
      "step": 30350,
      "token_acc": 0.9216417910447762,
      "train_speed(iter/s)": 1.458613
    },
    {
      "epoch": 1.3005012638704425,
      "grad_norm": 2.362638235092163,
      "learning_rate": 8.4215874042418e-05,
      "loss": 0.600164270401001,
      "memory(GiB)": 70.5,
      "step": 30355,
      "token_acc": 0.8787878787878788,
      "train_speed(iter/s)": 1.458643
    },
    {
      "epoch": 1.3007154791996915,
      "grad_norm": 4.584272384643555,
      "learning_rate": 8.421096648838728e-05,
      "loss": 0.4759012222290039,
      "memory(GiB)": 70.5,
      "step": 30360,
      "token_acc": 0.9236111111111112,
      "train_speed(iter/s)": 1.458649
    },
    {
      "epoch": 1.3009296945289406,
      "grad_norm": 8.29997730255127,
      "learning_rate": 8.420605831459285e-05,
      "loss": 0.5823267936706543,
      "memory(GiB)": 70.5,
      "step": 30365,
      "token_acc": 0.8918918918918919,
      "train_speed(iter/s)": 1.45868
    },
    {
      "epoch": 1.3011439098581894,
      "grad_norm": 2.0527522563934326,
      "learning_rate": 8.420114952112358e-05,
      "loss": 0.3540160655975342,
      "memory(GiB)": 70.5,
      "step": 30370,
      "token_acc": 0.9111969111969112,
      "train_speed(iter/s)": 1.45869
    },
    {
      "epoch": 1.3013581251874384,
      "grad_norm": 1.040458083152771,
      "learning_rate": 8.419624010806839e-05,
      "loss": 0.21936850547790526,
      "memory(GiB)": 70.5,
      "step": 30375,
      "token_acc": 0.9518900343642611,
      "train_speed(iter/s)": 1.4587
    },
    {
      "epoch": 1.3015723405166875,
      "grad_norm": 0.35792046785354614,
      "learning_rate": 8.419133007551626e-05,
      "loss": 0.5241628646850586,
      "memory(GiB)": 70.5,
      "step": 30380,
      "token_acc": 0.8543046357615894,
      "train_speed(iter/s)": 1.458686
    },
    {
      "epoch": 1.3017865558459363,
      "grad_norm": 5.423676013946533,
      "learning_rate": 8.418641942355608e-05,
      "loss": 0.5394115447998047,
      "memory(GiB)": 70.5,
      "step": 30385,
      "token_acc": 0.8915254237288136,
      "train_speed(iter/s)": 1.458677
    },
    {
      "epoch": 1.3020007711751853,
      "grad_norm": 1.758417010307312,
      "learning_rate": 8.418150815227686e-05,
      "loss": 0.4969788074493408,
      "memory(GiB)": 70.5,
      "step": 30390,
      "token_acc": 0.8888888888888888,
      "train_speed(iter/s)": 1.458673
    },
    {
      "epoch": 1.3022149865044343,
      "grad_norm": 4.46324348449707,
      "learning_rate": 8.417659626176754e-05,
      "loss": 0.6770334720611573,
      "memory(GiB)": 70.5,
      "step": 30395,
      "token_acc": 0.841726618705036,
      "train_speed(iter/s)": 1.458694
    },
    {
      "epoch": 1.3024292018336832,
      "grad_norm": 1.4313844442367554,
      "learning_rate": 8.417168375211713e-05,
      "loss": 0.37269864082336424,
      "memory(GiB)": 70.5,
      "step": 30400,
      "token_acc": 0.9261538461538461,
      "train_speed(iter/s)": 1.458728
    },
    {
      "epoch": 1.3026434171629322,
      "grad_norm": 4.043055057525635,
      "learning_rate": 8.41667706234146e-05,
      "loss": 0.48621292114257814,
      "memory(GiB)": 70.5,
      "step": 30405,
      "token_acc": 0.8922558922558923,
      "train_speed(iter/s)": 1.45875
    },
    {
      "epoch": 1.3028576324921812,
      "grad_norm": 3.5361063480377197,
      "learning_rate": 8.416185687574898e-05,
      "loss": 0.3554396629333496,
      "memory(GiB)": 70.5,
      "step": 30410,
      "token_acc": 0.9326241134751773,
      "train_speed(iter/s)": 1.458758
    },
    {
      "epoch": 1.30307184782143,
      "grad_norm": 2.7981958389282227,
      "learning_rate": 8.415694250920927e-05,
      "loss": 0.47729835510253904,
      "memory(GiB)": 70.5,
      "step": 30415,
      "token_acc": 0.8735632183908046,
      "train_speed(iter/s)": 1.458744
    },
    {
      "epoch": 1.303286063150679,
      "grad_norm": 4.137937068939209,
      "learning_rate": 8.415202752388451e-05,
      "loss": 0.3707114696502686,
      "memory(GiB)": 70.5,
      "step": 30420,
      "token_acc": 0.9158576051779935,
      "train_speed(iter/s)": 1.458761
    },
    {
      "epoch": 1.303500278479928,
      "grad_norm": 7.761385917663574,
      "learning_rate": 8.414711191986374e-05,
      "loss": 0.6717432975769043,
      "memory(GiB)": 70.5,
      "step": 30425,
      "token_acc": 0.8634686346863468,
      "train_speed(iter/s)": 1.458764
    },
    {
      "epoch": 1.303714493809177,
      "grad_norm": 9.8212890625,
      "learning_rate": 8.4142195697236e-05,
      "loss": 0.46683692932128906,
      "memory(GiB)": 70.5,
      "step": 30430,
      "token_acc": 0.8717948717948718,
      "train_speed(iter/s)": 1.458753
    },
    {
      "epoch": 1.303928709138426,
      "grad_norm": 1.6040866374969482,
      "learning_rate": 8.413727885609036e-05,
      "loss": 0.19434595108032227,
      "memory(GiB)": 70.5,
      "step": 30435,
      "token_acc": 0.9493670886075949,
      "train_speed(iter/s)": 1.458756
    },
    {
      "epoch": 1.304142924467675,
      "grad_norm": 2.940934181213379,
      "learning_rate": 8.413236139651588e-05,
      "loss": 0.6646674156188965,
      "memory(GiB)": 70.5,
      "step": 30440,
      "token_acc": 0.8469387755102041,
      "train_speed(iter/s)": 1.45878
    },
    {
      "epoch": 1.3043571397969238,
      "grad_norm": 4.450944900512695,
      "learning_rate": 8.412744331860167e-05,
      "loss": 0.5437392234802246,
      "memory(GiB)": 70.5,
      "step": 30445,
      "token_acc": 0.8673835125448028,
      "train_speed(iter/s)": 1.458785
    },
    {
      "epoch": 1.3045713551261728,
      "grad_norm": 2.9924278259277344,
      "learning_rate": 8.412252462243679e-05,
      "loss": 0.5618436336517334,
      "memory(GiB)": 70.5,
      "step": 30450,
      "token_acc": 0.8916083916083916,
      "train_speed(iter/s)": 1.458771
    },
    {
      "epoch": 1.3047855704554219,
      "grad_norm": 2.0216455459594727,
      "learning_rate": 8.411760530811038e-05,
      "loss": 0.16362122297286988,
      "memory(GiB)": 70.5,
      "step": 30455,
      "token_acc": 0.9553903345724907,
      "train_speed(iter/s)": 1.458767
    },
    {
      "epoch": 1.3049997857846707,
      "grad_norm": 4.945137023925781,
      "learning_rate": 8.411268537571154e-05,
      "loss": 0.47379121780395506,
      "memory(GiB)": 70.5,
      "step": 30460,
      "token_acc": 0.8765822784810127,
      "train_speed(iter/s)": 1.458793
    },
    {
      "epoch": 1.3052140011139197,
      "grad_norm": 4.6641058921813965,
      "learning_rate": 8.410776482532941e-05,
      "loss": 0.6435734748840332,
      "memory(GiB)": 70.5,
      "step": 30465,
      "token_acc": 0.8725761772853186,
      "train_speed(iter/s)": 1.458854
    },
    {
      "epoch": 1.3054282164431688,
      "grad_norm": 1.9916435480117798,
      "learning_rate": 8.410284365705311e-05,
      "loss": 0.32862350940704343,
      "memory(GiB)": 70.5,
      "step": 30470,
      "token_acc": 0.9191176470588235,
      "train_speed(iter/s)": 1.45885
    },
    {
      "epoch": 1.3056424317724176,
      "grad_norm": 1.024082064628601,
      "learning_rate": 8.409792187097183e-05,
      "loss": 0.3867784023284912,
      "memory(GiB)": 70.5,
      "step": 30475,
      "token_acc": 0.9161073825503355,
      "train_speed(iter/s)": 1.458853
    },
    {
      "epoch": 1.3058566471016666,
      "grad_norm": 3.5441548824310303,
      "learning_rate": 8.409299946717469e-05,
      "loss": 0.4745145797729492,
      "memory(GiB)": 70.5,
      "step": 30480,
      "token_acc": 0.9090909090909091,
      "train_speed(iter/s)": 1.458836
    },
    {
      "epoch": 1.3060708624309156,
      "grad_norm": 6.967602729797363,
      "learning_rate": 8.408807644575089e-05,
      "loss": 0.4131251335144043,
      "memory(GiB)": 70.5,
      "step": 30485,
      "token_acc": 0.9166666666666666,
      "train_speed(iter/s)": 1.458837
    },
    {
      "epoch": 1.3062850777601644,
      "grad_norm": 6.003180027008057,
      "learning_rate": 8.40831528067896e-05,
      "loss": 0.37790670394897463,
      "memory(GiB)": 70.5,
      "step": 30490,
      "token_acc": 0.8958333333333334,
      "train_speed(iter/s)": 1.458831
    },
    {
      "epoch": 1.3064992930894135,
      "grad_norm": 2.4738855361938477,
      "learning_rate": 8.407822855038004e-05,
      "loss": 0.3080177068710327,
      "memory(GiB)": 70.5,
      "step": 30495,
      "token_acc": 0.9341317365269461,
      "train_speed(iter/s)": 1.458828
    },
    {
      "epoch": 1.3067135084186625,
      "grad_norm": 3.8551712036132812,
      "learning_rate": 8.40733036766114e-05,
      "loss": 0.2368237018585205,
      "memory(GiB)": 70.5,
      "step": 30500,
      "token_acc": 0.9625468164794008,
      "train_speed(iter/s)": 1.458815
    },
    {
      "epoch": 1.3067135084186625,
      "eval_loss": 2.7180280685424805,
      "eval_runtime": 13.2681,
      "eval_samples_per_second": 7.537,
      "eval_steps_per_second": 7.537,
      "eval_token_acc": 0.41127922971114167,
      "step": 30500
    },
    {
      "epoch": 1.3069277237479113,
      "grad_norm": 0.2290612757205963,
      "learning_rate": 8.406837818557289e-05,
      "loss": 0.195368230342865,
      "memory(GiB)": 70.5,
      "step": 30505,
      "token_acc": 0.584045584045584,
      "train_speed(iter/s)": 1.457825
    },
    {
      "epoch": 1.3071419390771604,
      "grad_norm": 5.452404975891113,
      "learning_rate": 8.406345207735375e-05,
      "loss": 0.22805421352386473,
      "memory(GiB)": 70.5,
      "step": 30510,
      "token_acc": 0.9498327759197325,
      "train_speed(iter/s)": 1.457826
    },
    {
      "epoch": 1.3073561544064094,
      "grad_norm": 1.7528338432312012,
      "learning_rate": 8.405852535204323e-05,
      "loss": 0.42523751258850095,
      "memory(GiB)": 70.5,
      "step": 30515,
      "token_acc": 0.9098039215686274,
      "train_speed(iter/s)": 1.457827
    },
    {
      "epoch": 1.3075703697356582,
      "grad_norm": 3.702613115310669,
      "learning_rate": 8.405359800973056e-05,
      "loss": 0.5885271072387696,
      "memory(GiB)": 70.5,
      "step": 30520,
      "token_acc": 0.8731884057971014,
      "train_speed(iter/s)": 1.457828
    },
    {
      "epoch": 1.3077845850649072,
      "grad_norm": 2.2801413536071777,
      "learning_rate": 8.404867005050504e-05,
      "loss": 0.47568812370300295,
      "memory(GiB)": 70.5,
      "step": 30525,
      "token_acc": 0.9027777777777778,
      "train_speed(iter/s)": 1.457829
    },
    {
      "epoch": 1.3079988003941563,
      "grad_norm": 7.602977752685547,
      "learning_rate": 8.404374147445591e-05,
      "loss": 0.8110660552978516,
      "memory(GiB)": 70.5,
      "step": 30530,
      "token_acc": 0.8431372549019608,
      "train_speed(iter/s)": 1.457835
    },
    {
      "epoch": 1.308213015723405,
      "grad_norm": 4.43577241897583,
      "learning_rate": 8.403881228167245e-05,
      "loss": 0.3486222267150879,
      "memory(GiB)": 70.5,
      "step": 30535,
      "token_acc": 0.9429657794676806,
      "train_speed(iter/s)": 1.45788
    },
    {
      "epoch": 1.3084272310526541,
      "grad_norm": 7.934449672698975,
      "learning_rate": 8.4033882472244e-05,
      "loss": 0.21192939281463624,
      "memory(GiB)": 70.5,
      "step": 30540,
      "token_acc": 0.9577464788732394,
      "train_speed(iter/s)": 1.457885
    },
    {
      "epoch": 1.3086414463819032,
      "grad_norm": 3.385495662689209,
      "learning_rate": 8.402895204625982e-05,
      "loss": 0.5312220573425293,
      "memory(GiB)": 70.5,
      "step": 30545,
      "token_acc": 0.8971061093247589,
      "train_speed(iter/s)": 1.457896
    },
    {
      "epoch": 1.308855661711152,
      "grad_norm": 2.196964740753174,
      "learning_rate": 8.402402100380927e-05,
      "loss": 0.27678232192993163,
      "memory(GiB)": 70.5,
      "step": 30550,
      "token_acc": 0.9484536082474226,
      "train_speed(iter/s)": 1.457896
    },
    {
      "epoch": 1.309069877040401,
      "grad_norm": 0.5141097903251648,
      "learning_rate": 8.401908934498166e-05,
      "loss": 0.2499398708343506,
      "memory(GiB)": 70.5,
      "step": 30555,
      "token_acc": 0.9358490566037736,
      "train_speed(iter/s)": 1.4579
    },
    {
      "epoch": 1.30928409236965,
      "grad_norm": 4.675086498260498,
      "learning_rate": 8.401415706986634e-05,
      "loss": 0.5774421691894531,
      "memory(GiB)": 70.5,
      "step": 30560,
      "token_acc": 0.8821428571428571,
      "train_speed(iter/s)": 1.457918
    },
    {
      "epoch": 1.3094983076988989,
      "grad_norm": 2.5438196659088135,
      "learning_rate": 8.400922417855265e-05,
      "loss": 0.32752408981323244,
      "memory(GiB)": 70.5,
      "step": 30565,
      "token_acc": 0.9488188976377953,
      "train_speed(iter/s)": 1.457912
    },
    {
      "epoch": 1.309712523028148,
      "grad_norm": 4.085822105407715,
      "learning_rate": 8.400429067112996e-05,
      "loss": 0.5730610847473144,
      "memory(GiB)": 70.5,
      "step": 30570,
      "token_acc": 0.9049295774647887,
      "train_speed(iter/s)": 1.457901
    },
    {
      "epoch": 1.309926738357397,
      "grad_norm": 2.1819255352020264,
      "learning_rate": 8.399935654768765e-05,
      "loss": 0.33213019371032715,
      "memory(GiB)": 70.5,
      "step": 30575,
      "token_acc": 0.9335180055401662,
      "train_speed(iter/s)": 1.457908
    },
    {
      "epoch": 1.3101409536866457,
      "grad_norm": 1.7883703708648682,
      "learning_rate": 8.399442180831509e-05,
      "loss": 0.22753021717071534,
      "memory(GiB)": 70.5,
      "step": 30580,
      "token_acc": 0.9482758620689655,
      "train_speed(iter/s)": 1.457909
    },
    {
      "epoch": 1.3103551690158948,
      "grad_norm": 5.068688869476318,
      "learning_rate": 8.398948645310169e-05,
      "loss": 0.3215725183486938,
      "memory(GiB)": 70.5,
      "step": 30585,
      "token_acc": 0.948905109489051,
      "train_speed(iter/s)": 1.457912
    },
    {
      "epoch": 1.3105693843451438,
      "grad_norm": 1.910747766494751,
      "learning_rate": 8.398455048213687e-05,
      "loss": 0.46162939071655273,
      "memory(GiB)": 70.5,
      "step": 30590,
      "token_acc": 0.92,
      "train_speed(iter/s)": 1.457904
    },
    {
      "epoch": 1.3107835996743926,
      "grad_norm": 2.113567590713501,
      "learning_rate": 8.397961389551003e-05,
      "loss": 0.1303043007850647,
      "memory(GiB)": 70.5,
      "step": 30595,
      "token_acc": 0.9623824451410659,
      "train_speed(iter/s)": 1.457897
    },
    {
      "epoch": 1.3109978150036417,
      "grad_norm": 1.9809762239456177,
      "learning_rate": 8.39746766933106e-05,
      "loss": 0.4700284004211426,
      "memory(GiB)": 70.5,
      "step": 30600,
      "token_acc": 0.9323943661971831,
      "train_speed(iter/s)": 1.4579
    },
    {
      "epoch": 1.3112120303328907,
      "grad_norm": 2.181337833404541,
      "learning_rate": 8.396973887562806e-05,
      "loss": 0.5080564498901368,
      "memory(GiB)": 70.5,
      "step": 30605,
      "token_acc": 0.8847457627118644,
      "train_speed(iter/s)": 1.457922
    },
    {
      "epoch": 1.3114262456621395,
      "grad_norm": 2.1526846885681152,
      "learning_rate": 8.396480044255181e-05,
      "loss": 0.3235430955886841,
      "memory(GiB)": 70.5,
      "step": 30610,
      "token_acc": 0.9202453987730062,
      "train_speed(iter/s)": 1.457927
    },
    {
      "epoch": 1.3116404609913885,
      "grad_norm": 10.975157737731934,
      "learning_rate": 8.395986139417135e-05,
      "loss": 0.5667816638946533,
      "memory(GiB)": 70.5,
      "step": 30615,
      "token_acc": 0.8485804416403786,
      "train_speed(iter/s)": 1.457949
    },
    {
      "epoch": 1.3118546763206376,
      "grad_norm": 5.004209995269775,
      "learning_rate": 8.395492173057613e-05,
      "loss": 0.41092872619628906,
      "memory(GiB)": 70.5,
      "step": 30620,
      "token_acc": 0.9130434782608695,
      "train_speed(iter/s)": 1.457937
    },
    {
      "epoch": 1.3120688916498864,
      "grad_norm": 2.533482551574707,
      "learning_rate": 8.394998145185566e-05,
      "loss": 0.4664000511169434,
      "memory(GiB)": 70.5,
      "step": 30625,
      "token_acc": 0.9222222222222223,
      "train_speed(iter/s)": 1.457948
    },
    {
      "epoch": 1.3122831069791354,
      "grad_norm": 7.046419143676758,
      "learning_rate": 8.394504055809944e-05,
      "loss": 0.6424255847930909,
      "memory(GiB)": 70.5,
      "step": 30630,
      "token_acc": 0.8897058823529411,
      "train_speed(iter/s)": 1.457953
    },
    {
      "epoch": 1.3124973223083845,
      "grad_norm": 3.992307186126709,
      "learning_rate": 8.394009904939695e-05,
      "loss": 0.3167220115661621,
      "memory(GiB)": 70.5,
      "step": 30635,
      "token_acc": 0.9391025641025641,
      "train_speed(iter/s)": 1.457959
    },
    {
      "epoch": 1.3127115376376333,
      "grad_norm": 5.89705753326416,
      "learning_rate": 8.393515692583774e-05,
      "loss": 0.5647421836853027,
      "memory(GiB)": 70.5,
      "step": 30640,
      "token_acc": 0.8943661971830986,
      "train_speed(iter/s)": 1.457954
    },
    {
      "epoch": 1.3129257529668823,
      "grad_norm": 3.079371213912964,
      "learning_rate": 8.393021418751132e-05,
      "loss": 0.43929319381713866,
      "memory(GiB)": 70.5,
      "step": 30645,
      "token_acc": 0.9025974025974026,
      "train_speed(iter/s)": 1.457967
    },
    {
      "epoch": 1.3131399682961313,
      "grad_norm": 2.573155641555786,
      "learning_rate": 8.392527083450723e-05,
      "loss": 0.5921721458435059,
      "memory(GiB)": 70.5,
      "step": 30650,
      "token_acc": 0.8774193548387097,
      "train_speed(iter/s)": 1.457951
    },
    {
      "epoch": 1.3133541836253801,
      "grad_norm": 1.6000055074691772,
      "learning_rate": 8.392032686691504e-05,
      "loss": 0.44088406562805177,
      "memory(GiB)": 70.5,
      "step": 30655,
      "token_acc": 0.9060402684563759,
      "train_speed(iter/s)": 1.457973
    },
    {
      "epoch": 1.3135683989546292,
      "grad_norm": 2.0228655338287354,
      "learning_rate": 8.391538228482432e-05,
      "loss": 0.18300763368606568,
      "memory(GiB)": 70.5,
      "step": 30660,
      "token_acc": 0.9574468085106383,
      "train_speed(iter/s)": 1.457963
    },
    {
      "epoch": 1.3137826142838782,
      "grad_norm": 0.5937181115150452,
      "learning_rate": 8.391043708832463e-05,
      "loss": 0.38955249786376955,
      "memory(GiB)": 70.5,
      "step": 30665,
      "token_acc": 0.9241379310344827,
      "train_speed(iter/s)": 1.457986
    },
    {
      "epoch": 1.313996829613127,
      "grad_norm": 1.7209419012069702,
      "learning_rate": 8.390549127750558e-05,
      "loss": 0.4701199531555176,
      "memory(GiB)": 70.5,
      "step": 30670,
      "token_acc": 0.9033457249070632,
      "train_speed(iter/s)": 1.45798
    },
    {
      "epoch": 1.314211044942376,
      "grad_norm": 1.6279237270355225,
      "learning_rate": 8.390054485245672e-05,
      "loss": 0.33775112628936765,
      "memory(GiB)": 70.5,
      "step": 30675,
      "token_acc": 0.9228187919463087,
      "train_speed(iter/s)": 1.457975
    },
    {
      "epoch": 1.314425260271625,
      "grad_norm": 4.888917446136475,
      "learning_rate": 8.38955978132677e-05,
      "loss": 0.7157889366149902,
      "memory(GiB)": 70.5,
      "step": 30680,
      "token_acc": 0.8713826366559485,
      "train_speed(iter/s)": 1.457961
    },
    {
      "epoch": 1.314639475600874,
      "grad_norm": 2.5322399139404297,
      "learning_rate": 8.389065016002812e-05,
      "loss": 0.8392210960388183,
      "memory(GiB)": 70.5,
      "step": 30685,
      "token_acc": 0.8566775244299675,
      "train_speed(iter/s)": 1.457963
    },
    {
      "epoch": 1.314853690930123,
      "grad_norm": 3.339062213897705,
      "learning_rate": 8.388570189282765e-05,
      "loss": 0.3544142246246338,
      "memory(GiB)": 70.5,
      "step": 30690,
      "token_acc": 0.9172413793103448,
      "train_speed(iter/s)": 1.457971
    },
    {
      "epoch": 1.315067906259372,
      "grad_norm": 1.5267716646194458,
      "learning_rate": 8.388075301175586e-05,
      "loss": 0.2738867521286011,
      "memory(GiB)": 70.5,
      "step": 30695,
      "token_acc": 0.9377431906614786,
      "train_speed(iter/s)": 1.458011
    },
    {
      "epoch": 1.3152821215886208,
      "grad_norm": 1.2500563859939575,
      "learning_rate": 8.387580351690248e-05,
      "loss": 0.35848250389099123,
      "memory(GiB)": 70.5,
      "step": 30700,
      "token_acc": 0.9335664335664335,
      "train_speed(iter/s)": 1.45804
    },
    {
      "epoch": 1.3154963369178698,
      "grad_norm": 6.868077754974365,
      "learning_rate": 8.387085340835713e-05,
      "loss": 0.4126345157623291,
      "memory(GiB)": 70.5,
      "step": 30705,
      "token_acc": 0.8922413793103449,
      "train_speed(iter/s)": 1.458053
    },
    {
      "epoch": 1.3157105522471189,
      "grad_norm": 1.7125130891799927,
      "learning_rate": 8.38659026862095e-05,
      "loss": 0.3762622356414795,
      "memory(GiB)": 70.5,
      "step": 30710,
      "token_acc": 0.9325513196480938,
      "train_speed(iter/s)": 1.458057
    },
    {
      "epoch": 1.3159247675763677,
      "grad_norm": 2.1199522018432617,
      "learning_rate": 8.386095135054927e-05,
      "loss": 0.4955745220184326,
      "memory(GiB)": 70.5,
      "step": 30715,
      "token_acc": 0.8963210702341137,
      "train_speed(iter/s)": 1.458074
    },
    {
      "epoch": 1.3161389829056167,
      "grad_norm": 2.2059290409088135,
      "learning_rate": 8.385599940146613e-05,
      "loss": 0.4038558483123779,
      "memory(GiB)": 70.5,
      "step": 30720,
      "token_acc": 0.9267399267399268,
      "train_speed(iter/s)": 1.458072
    },
    {
      "epoch": 1.3163531982348657,
      "grad_norm": 2.4012398719787598,
      "learning_rate": 8.385104683904983e-05,
      "loss": 0.40550832748413085,
      "memory(GiB)": 70.5,
      "step": 30725,
      "token_acc": 0.9097472924187726,
      "train_speed(iter/s)": 1.458067
    },
    {
      "epoch": 1.3165674135641146,
      "grad_norm": 1.8482091426849365,
      "learning_rate": 8.384609366339003e-05,
      "loss": 0.2018254280090332,
      "memory(GiB)": 70.5,
      "step": 30730,
      "token_acc": 0.9563492063492064,
      "train_speed(iter/s)": 1.458066
    },
    {
      "epoch": 1.3167816288933636,
      "grad_norm": 2.3505613803863525,
      "learning_rate": 8.38411398745765e-05,
      "loss": 0.33086423873901366,
      "memory(GiB)": 70.5,
      "step": 30735,
      "token_acc": 0.9097222222222222,
      "train_speed(iter/s)": 1.458076
    },
    {
      "epoch": 1.3169958442226126,
      "grad_norm": 4.5795440673828125,
      "learning_rate": 8.383618547269901e-05,
      "loss": 0.6249231338500977,
      "memory(GiB)": 70.5,
      "step": 30740,
      "token_acc": 0.8536585365853658,
      "train_speed(iter/s)": 1.458099
    },
    {
      "epoch": 1.3172100595518614,
      "grad_norm": 1.5227638483047485,
      "learning_rate": 8.383123045784724e-05,
      "loss": 0.3347670555114746,
      "memory(GiB)": 70.5,
      "step": 30745,
      "token_acc": 0.9343283582089552,
      "train_speed(iter/s)": 1.458099
    },
    {
      "epoch": 1.3174242748811105,
      "grad_norm": 0.68864506483078,
      "learning_rate": 8.382627483011101e-05,
      "loss": 0.32859828472137453,
      "memory(GiB)": 70.5,
      "step": 30750,
      "token_acc": 0.9285714285714286,
      "train_speed(iter/s)": 1.458115
    },
    {
      "epoch": 1.3176384902103595,
      "grad_norm": 3.5946247577667236,
      "learning_rate": 8.382131858958009e-05,
      "loss": 0.3848949670791626,
      "memory(GiB)": 70.5,
      "step": 30755,
      "token_acc": 0.9050847457627119,
      "train_speed(iter/s)": 1.458131
    },
    {
      "epoch": 1.3178527055396083,
      "grad_norm": 3.2810187339782715,
      "learning_rate": 8.381636173634425e-05,
      "loss": 0.6838945388793946,
      "memory(GiB)": 70.5,
      "step": 30760,
      "token_acc": 0.8646153846153846,
      "train_speed(iter/s)": 1.458153
    },
    {
      "epoch": 1.3180669208688574,
      "grad_norm": 5.365682125091553,
      "learning_rate": 8.381140427049328e-05,
      "loss": 0.4156081199645996,
      "memory(GiB)": 70.5,
      "step": 30765,
      "token_acc": 0.9196141479099679,
      "train_speed(iter/s)": 1.458146
    },
    {
      "epoch": 1.3182811361981064,
      "grad_norm": 2.449557065963745,
      "learning_rate": 8.380644619211702e-05,
      "loss": 0.3608639478683472,
      "memory(GiB)": 70.5,
      "step": 30770,
      "token_acc": 0.9375,
      "train_speed(iter/s)": 1.458139
    },
    {
      "epoch": 1.3184953515273552,
      "grad_norm": 4.697730541229248,
      "learning_rate": 8.380148750130525e-05,
      "loss": 0.2753224611282349,
      "memory(GiB)": 70.5,
      "step": 30775,
      "token_acc": 0.9335548172757475,
      "train_speed(iter/s)": 1.458142
    },
    {
      "epoch": 1.3187095668566042,
      "grad_norm": 4.082615375518799,
      "learning_rate": 8.379652819814785e-05,
      "loss": 0.26561665534973145,
      "memory(GiB)": 70.5,
      "step": 30780,
      "token_acc": 0.9331103678929766,
      "train_speed(iter/s)": 1.458149
    },
    {
      "epoch": 1.3189237821858533,
      "grad_norm": 3.2127087116241455,
      "learning_rate": 8.379156828273463e-05,
      "loss": 0.2877392530441284,
      "memory(GiB)": 70.5,
      "step": 30785,
      "token_acc": 0.9387755102040817,
      "train_speed(iter/s)": 1.458139
    },
    {
      "epoch": 1.319137997515102,
      "grad_norm": 4.3650383949279785,
      "learning_rate": 8.378660775515546e-05,
      "loss": 0.5391834735870361,
      "memory(GiB)": 70.5,
      "step": 30790,
      "token_acc": 0.9047619047619048,
      "train_speed(iter/s)": 1.458163
    },
    {
      "epoch": 1.3193522128443511,
      "grad_norm": 5.907803058624268,
      "learning_rate": 8.378164661550019e-05,
      "loss": 0.4515474796295166,
      "memory(GiB)": 70.5,
      "step": 30795,
      "token_acc": 0.9148936170212766,
      "train_speed(iter/s)": 1.458186
    },
    {
      "epoch": 1.3195664281736001,
      "grad_norm": 5.914632797241211,
      "learning_rate": 8.37766848638587e-05,
      "loss": 0.6256268978118896,
      "memory(GiB)": 70.5,
      "step": 30800,
      "token_acc": 0.8675496688741722,
      "train_speed(iter/s)": 1.45819
    },
    {
      "epoch": 1.319780643502849,
      "grad_norm": 6.9973955154418945,
      "learning_rate": 8.377172250032086e-05,
      "loss": 0.7283639430999755,
      "memory(GiB)": 70.5,
      "step": 30805,
      "token_acc": 0.8657243816254417,
      "train_speed(iter/s)": 1.45817
    },
    {
      "epoch": 1.319994858832098,
      "grad_norm": 1.9494221210479736,
      "learning_rate": 8.376675952497661e-05,
      "loss": 0.4046614646911621,
      "memory(GiB)": 70.5,
      "step": 30810,
      "token_acc": 0.9185185185185185,
      "train_speed(iter/s)": 1.458178
    },
    {
      "epoch": 1.320209074161347,
      "grad_norm": 1.9118719100952148,
      "learning_rate": 8.376179593791585e-05,
      "loss": 0.33115034103393554,
      "memory(GiB)": 70.5,
      "step": 30815,
      "token_acc": 0.9313304721030042,
      "train_speed(iter/s)": 1.458214
    },
    {
      "epoch": 1.3204232894905958,
      "grad_norm": 8.964221000671387,
      "learning_rate": 8.375683173922846e-05,
      "loss": 0.3202383995056152,
      "memory(GiB)": 70.5,
      "step": 30820,
      "token_acc": 0.9240506329113924,
      "train_speed(iter/s)": 1.458226
    },
    {
      "epoch": 1.3206375048198449,
      "grad_norm": 3.874807357788086,
      "learning_rate": 8.37518669290044e-05,
      "loss": 0.5685357093811035,
      "memory(GiB)": 70.5,
      "step": 30825,
      "token_acc": 0.8918918918918919,
      "train_speed(iter/s)": 1.458221
    },
    {
      "epoch": 1.320851720149094,
      "grad_norm": 5.041698932647705,
      "learning_rate": 8.374690150733362e-05,
      "loss": 0.22869770526885985,
      "memory(GiB)": 70.5,
      "step": 30830,
      "token_acc": 0.949685534591195,
      "train_speed(iter/s)": 1.458239
    },
    {
      "epoch": 1.3210659354783427,
      "grad_norm": 5.513265609741211,
      "learning_rate": 8.374193547430605e-05,
      "loss": 0.46187586784362794,
      "memory(GiB)": 70.5,
      "step": 30835,
      "token_acc": 0.8902439024390244,
      "train_speed(iter/s)": 1.458242
    },
    {
      "epoch": 1.3212801508075918,
      "grad_norm": 0.31715497374534607,
      "learning_rate": 8.373696883001166e-05,
      "loss": 0.32266685962677,
      "memory(GiB)": 70.5,
      "step": 30840,
      "token_acc": 0.9385113268608414,
      "train_speed(iter/s)": 1.458242
    },
    {
      "epoch": 1.3214943661368408,
      "grad_norm": 4.98422384262085,
      "learning_rate": 8.373200157454044e-05,
      "loss": 0.4395422458648682,
      "memory(GiB)": 70.5,
      "step": 30845,
      "token_acc": 0.92,
      "train_speed(iter/s)": 1.458246
    },
    {
      "epoch": 1.3217085814660896,
      "grad_norm": 1.3079220056533813,
      "learning_rate": 8.372703370798239e-05,
      "loss": 0.4414348125457764,
      "memory(GiB)": 70.5,
      "step": 30850,
      "token_acc": 0.9163987138263665,
      "train_speed(iter/s)": 1.458257
    },
    {
      "epoch": 1.3219227967953386,
      "grad_norm": 2.9921865463256836,
      "learning_rate": 8.372206523042746e-05,
      "loss": 0.34229743480682373,
      "memory(GiB)": 70.5,
      "step": 30855,
      "token_acc": 0.9297124600638977,
      "train_speed(iter/s)": 1.458264
    },
    {
      "epoch": 1.3221370121245877,
      "grad_norm": 4.221546649932861,
      "learning_rate": 8.371709614196568e-05,
      "loss": 0.4637269973754883,
      "memory(GiB)": 70.5,
      "step": 30860,
      "token_acc": 0.9064748201438849,
      "train_speed(iter/s)": 1.458256
    },
    {
      "epoch": 1.3223512274538365,
      "grad_norm": 3.2667622566223145,
      "learning_rate": 8.371212644268709e-05,
      "loss": 0.5565732479095459,
      "memory(GiB)": 70.5,
      "step": 30865,
      "token_acc": 0.8687943262411347,
      "train_speed(iter/s)": 1.458255
    },
    {
      "epoch": 1.3225654427830855,
      "grad_norm": 5.440427303314209,
      "learning_rate": 8.370715613268171e-05,
      "loss": 0.31175923347473145,
      "memory(GiB)": 70.5,
      "step": 30870,
      "token_acc": 0.9221311475409836,
      "train_speed(iter/s)": 1.458262
    },
    {
      "epoch": 1.3227796581123346,
      "grad_norm": 2.585902452468872,
      "learning_rate": 8.370218521203956e-05,
      "loss": 0.3628865718841553,
      "memory(GiB)": 70.5,
      "step": 30875,
      "token_acc": 0.9360902255639098,
      "train_speed(iter/s)": 1.458277
    },
    {
      "epoch": 1.3229938734415834,
      "grad_norm": 0.5103923082351685,
      "learning_rate": 8.369721368085072e-05,
      "loss": 0.2007852554321289,
      "memory(GiB)": 70.5,
      "step": 30880,
      "token_acc": 0.9440559440559441,
      "train_speed(iter/s)": 1.458283
    },
    {
      "epoch": 1.3232080887708324,
      "grad_norm": 1.8377292156219482,
      "learning_rate": 8.369224153920523e-05,
      "loss": 0.4679257869720459,
      "memory(GiB)": 70.5,
      "step": 30885,
      "token_acc": 0.9049429657794676,
      "train_speed(iter/s)": 1.458338
    },
    {
      "epoch": 1.3234223041000814,
      "grad_norm": 3.2367069721221924,
      "learning_rate": 8.36872687871932e-05,
      "loss": 0.3671630859375,
      "memory(GiB)": 70.5,
      "step": 30890,
      "token_acc": 0.9228070175438596,
      "train_speed(iter/s)": 1.458343
    },
    {
      "epoch": 1.3236365194293302,
      "grad_norm": 0.22071129083633423,
      "learning_rate": 8.368229542490468e-05,
      "loss": 0.38025579452514646,
      "memory(GiB)": 70.5,
      "step": 30895,
      "token_acc": 0.9100346020761245,
      "train_speed(iter/s)": 1.458348
    },
    {
      "epoch": 1.3238507347585793,
      "grad_norm": 2.7525722980499268,
      "learning_rate": 8.36773214524298e-05,
      "loss": 0.38388690948486326,
      "memory(GiB)": 70.5,
      "step": 30900,
      "token_acc": 0.9003436426116839,
      "train_speed(iter/s)": 1.45837
    },
    {
      "epoch": 1.3240649500878283,
      "grad_norm": 9.98099422454834,
      "learning_rate": 8.367234686985862e-05,
      "loss": 0.4624149322509766,
      "memory(GiB)": 70.5,
      "step": 30905,
      "token_acc": 0.9053030303030303,
      "train_speed(iter/s)": 1.458398
    },
    {
      "epoch": 1.3242791654170771,
      "grad_norm": 6.414818286895752,
      "learning_rate": 8.366737167728132e-05,
      "loss": 0.49415788650512693,
      "memory(GiB)": 70.5,
      "step": 30910,
      "token_acc": 0.8826979472140762,
      "train_speed(iter/s)": 1.458392
    },
    {
      "epoch": 1.3244933807463262,
      "grad_norm": 0.5998333096504211,
      "learning_rate": 8.366239587478797e-05,
      "loss": 0.31247615814208984,
      "memory(GiB)": 70.5,
      "step": 30915,
      "token_acc": 0.926056338028169,
      "train_speed(iter/s)": 1.458396
    },
    {
      "epoch": 1.3247075960755752,
      "grad_norm": 1.994537115097046,
      "learning_rate": 8.365741946246875e-05,
      "loss": 0.3893040657043457,
      "memory(GiB)": 70.5,
      "step": 30920,
      "token_acc": 0.9106529209621993,
      "train_speed(iter/s)": 1.458403
    },
    {
      "epoch": 1.324921811404824,
      "grad_norm": 5.3230719566345215,
      "learning_rate": 8.365244244041382e-05,
      "loss": 0.6933044910430908,
      "memory(GiB)": 70.5,
      "step": 30925,
      "token_acc": 0.8705501618122977,
      "train_speed(iter/s)": 1.458435
    },
    {
      "epoch": 1.325136026734073,
      "grad_norm": 6.182384490966797,
      "learning_rate": 8.364746480871331e-05,
      "loss": 0.31999707221984863,
      "memory(GiB)": 70.5,
      "step": 30930,
      "token_acc": 0.9457364341085271,
      "train_speed(iter/s)": 1.458433
    },
    {
      "epoch": 1.325350242063322,
      "grad_norm": 2.2937557697296143,
      "learning_rate": 8.364248656745741e-05,
      "loss": 0.4266510963439941,
      "memory(GiB)": 70.5,
      "step": 30935,
      "token_acc": 0.8936170212765957,
      "train_speed(iter/s)": 1.458434
    },
    {
      "epoch": 1.325564457392571,
      "grad_norm": 3.4184892177581787,
      "learning_rate": 8.36375077167363e-05,
      "loss": 0.29435684680938723,
      "memory(GiB)": 70.5,
      "step": 30940,
      "token_acc": 0.9363957597173145,
      "train_speed(iter/s)": 1.458446
    },
    {
      "epoch": 1.32577867272182,
      "grad_norm": 6.2364397048950195,
      "learning_rate": 8.36325282566402e-05,
      "loss": 0.6456130981445313,
      "memory(GiB)": 70.5,
      "step": 30945,
      "token_acc": 0.883495145631068,
      "train_speed(iter/s)": 1.458472
    },
    {
      "epoch": 1.325992888051069,
      "grad_norm": 3.632054090499878,
      "learning_rate": 8.36275481872593e-05,
      "loss": 0.12550405263900757,
      "memory(GiB)": 70.5,
      "step": 30950,
      "token_acc": 0.9735849056603774,
      "train_speed(iter/s)": 1.458478
    },
    {
      "epoch": 1.3262071033803178,
      "grad_norm": 2.485821485519409,
      "learning_rate": 8.362256750868382e-05,
      "loss": 0.18398520946502686,
      "memory(GiB)": 70.5,
      "step": 30955,
      "token_acc": 0.9748201438848921,
      "train_speed(iter/s)": 1.458483
    },
    {
      "epoch": 1.3264213187095668,
      "grad_norm": 0.036505550146102905,
      "learning_rate": 8.361758622100399e-05,
      "loss": 0.38934500217437745,
      "memory(GiB)": 70.5,
      "step": 30960,
      "token_acc": 0.91875,
      "train_speed(iter/s)": 1.458499
    },
    {
      "epoch": 1.3266355340388158,
      "grad_norm": 3.1628026962280273,
      "learning_rate": 8.361260432431003e-05,
      "loss": 0.2537261962890625,
      "memory(GiB)": 70.5,
      "step": 30965,
      "token_acc": 0.933579335793358,
      "train_speed(iter/s)": 1.458501
    },
    {
      "epoch": 1.3268497493680647,
      "grad_norm": 5.105327129364014,
      "learning_rate": 8.360762181869224e-05,
      "loss": 0.7402002334594726,
      "memory(GiB)": 70.5,
      "step": 30970,
      "token_acc": 0.85625,
      "train_speed(iter/s)": 1.458518
    },
    {
      "epoch": 1.3270639646973137,
      "grad_norm": 5.838544845581055,
      "learning_rate": 8.360263870424083e-05,
      "loss": 0.4067881107330322,
      "memory(GiB)": 70.5,
      "step": 30975,
      "token_acc": 0.9148936170212766,
      "train_speed(iter/s)": 1.458518
    },
    {
      "epoch": 1.3272781800265627,
      "grad_norm": 3.496830940246582,
      "learning_rate": 8.359765498104612e-05,
      "loss": 0.3674940586090088,
      "memory(GiB)": 70.5,
      "step": 30980,
      "token_acc": 0.9316770186335404,
      "train_speed(iter/s)": 1.458514
    },
    {
      "epoch": 1.3274923953558115,
      "grad_norm": 3.0507278442382812,
      "learning_rate": 8.359267064919836e-05,
      "loss": 0.5726096153259277,
      "memory(GiB)": 70.5,
      "step": 30985,
      "token_acc": 0.9132075471698113,
      "train_speed(iter/s)": 1.458516
    },
    {
      "epoch": 1.3277066106850606,
      "grad_norm": 2.910489320755005,
      "learning_rate": 8.358768570878786e-05,
      "loss": 0.09157218933105468,
      "memory(GiB)": 70.5,
      "step": 30990,
      "token_acc": 0.9775280898876404,
      "train_speed(iter/s)": 1.458547
    },
    {
      "epoch": 1.3279208260143096,
      "grad_norm": 3.381350040435791,
      "learning_rate": 8.358270015990492e-05,
      "loss": 0.5638362407684326,
      "memory(GiB)": 70.5,
      "step": 30995,
      "token_acc": 0.8754098360655738,
      "train_speed(iter/s)": 1.458547
    },
    {
      "epoch": 1.3281350413435584,
      "grad_norm": 1.1046626567840576,
      "learning_rate": 8.357771400263988e-05,
      "loss": 0.5038112163543701,
      "memory(GiB)": 70.5,
      "step": 31000,
      "token_acc": 0.8803088803088803,
      "train_speed(iter/s)": 1.458551
    },
    {
      "epoch": 1.3281350413435584,
      "eval_loss": 2.7662265300750732,
      "eval_runtime": 13.1503,
      "eval_samples_per_second": 7.604,
      "eval_steps_per_second": 7.604,
      "eval_token_acc": 0.3953804347826087,
      "step": 31000
    },
    {
      "epoch": 1.3283492566728075,
      "grad_norm": 2.2119672298431396,
      "learning_rate": 8.357272723708303e-05,
      "loss": 0.3419873476028442,
      "memory(GiB)": 70.5,
      "step": 31005,
      "token_acc": 0.5401960784313725,
      "train_speed(iter/s)": 1.457622
    },
    {
      "epoch": 1.3285634720020565,
      "grad_norm": 2.207697868347168,
      "learning_rate": 8.356773986332475e-05,
      "loss": 0.2734371662139893,
      "memory(GiB)": 70.5,
      "step": 31010,
      "token_acc": 0.9532163742690059,
      "train_speed(iter/s)": 1.457619
    },
    {
      "epoch": 1.3287776873313053,
      "grad_norm": 4.529321670532227,
      "learning_rate": 8.356275188145537e-05,
      "loss": 0.5452449321746826,
      "memory(GiB)": 70.5,
      "step": 31015,
      "token_acc": 0.9019607843137255,
      "train_speed(iter/s)": 1.457601
    },
    {
      "epoch": 1.3289919026605543,
      "grad_norm": 3.078209638595581,
      "learning_rate": 8.355776329156525e-05,
      "loss": 0.3211393356323242,
      "memory(GiB)": 70.5,
      "step": 31020,
      "token_acc": 0.9368770764119602,
      "train_speed(iter/s)": 1.457593
    },
    {
      "epoch": 1.3292061179898034,
      "grad_norm": 3.767778158187866,
      "learning_rate": 8.355277409374477e-05,
      "loss": 0.4477419853210449,
      "memory(GiB)": 70.5,
      "step": 31025,
      "token_acc": 0.8970588235294118,
      "train_speed(iter/s)": 1.457619
    },
    {
      "epoch": 1.3294203333190522,
      "grad_norm": 6.755476474761963,
      "learning_rate": 8.354778428808431e-05,
      "loss": 0.5544904708862305,
      "memory(GiB)": 70.5,
      "step": 31030,
      "token_acc": 0.891566265060241,
      "train_speed(iter/s)": 1.457658
    },
    {
      "epoch": 1.3296345486483012,
      "grad_norm": 5.012375354766846,
      "learning_rate": 8.354279387467427e-05,
      "loss": 0.5890726089477539,
      "memory(GiB)": 70.5,
      "step": 31035,
      "token_acc": 0.8802588996763754,
      "train_speed(iter/s)": 1.457684
    },
    {
      "epoch": 1.3298487639775503,
      "grad_norm": 4.865383625030518,
      "learning_rate": 8.353780285360505e-05,
      "loss": 0.425032901763916,
      "memory(GiB)": 70.5,
      "step": 31040,
      "token_acc": 0.916955017301038,
      "train_speed(iter/s)": 1.457686
    },
    {
      "epoch": 1.330062979306799,
      "grad_norm": 2.505467653274536,
      "learning_rate": 8.353281122496708e-05,
      "loss": 0.26324920654296874,
      "memory(GiB)": 70.5,
      "step": 31045,
      "token_acc": 0.9501779359430605,
      "train_speed(iter/s)": 1.457681
    },
    {
      "epoch": 1.330277194636048,
      "grad_norm": 5.424981117248535,
      "learning_rate": 8.352781898885076e-05,
      "loss": 0.4077505111694336,
      "memory(GiB)": 70.5,
      "step": 31050,
      "token_acc": 0.9219858156028369,
      "train_speed(iter/s)": 1.457683
    },
    {
      "epoch": 1.3304914099652971,
      "grad_norm": 6.503383159637451,
      "learning_rate": 8.352282614534657e-05,
      "loss": 0.4809126377105713,
      "memory(GiB)": 70.5,
      "step": 31055,
      "token_acc": 0.896551724137931,
      "train_speed(iter/s)": 1.457706
    },
    {
      "epoch": 1.330705625294546,
      "grad_norm": 2.2178032398223877,
      "learning_rate": 8.351783269454493e-05,
      "loss": 0.2834794998168945,
      "memory(GiB)": 70.5,
      "step": 31060,
      "token_acc": 0.944954128440367,
      "train_speed(iter/s)": 1.457708
    },
    {
      "epoch": 1.330919840623795,
      "grad_norm": 2.656898021697998,
      "learning_rate": 8.35128386365363e-05,
      "loss": 0.37271573543548586,
      "memory(GiB)": 70.5,
      "step": 31065,
      "token_acc": 0.9184397163120568,
      "train_speed(iter/s)": 1.457711
    },
    {
      "epoch": 1.331134055953044,
      "grad_norm": 5.984844207763672,
      "learning_rate": 8.350784397141116e-05,
      "loss": 0.18597898483276368,
      "memory(GiB)": 70.5,
      "step": 31070,
      "token_acc": 0.968503937007874,
      "train_speed(iter/s)": 1.457711
    },
    {
      "epoch": 1.3313482712822928,
      "grad_norm": 1.086124062538147,
      "learning_rate": 8.350284869926e-05,
      "loss": 0.06085920333862305,
      "memory(GiB)": 70.5,
      "step": 31075,
      "token_acc": 0.9844236760124611,
      "train_speed(iter/s)": 1.457711
    },
    {
      "epoch": 1.3315624866115419,
      "grad_norm": 2.3821704387664795,
      "learning_rate": 8.349785282017332e-05,
      "loss": 0.8004261016845703,
      "memory(GiB)": 70.5,
      "step": 31080,
      "token_acc": 0.8117647058823529,
      "train_speed(iter/s)": 1.457749
    },
    {
      "epoch": 1.331776701940791,
      "grad_norm": 1.6684410572052002,
      "learning_rate": 8.34928563342416e-05,
      "loss": 0.16533632278442384,
      "memory(GiB)": 70.5,
      "step": 31085,
      "token_acc": 0.9665551839464883,
      "train_speed(iter/s)": 1.457754
    },
    {
      "epoch": 1.3319909172700397,
      "grad_norm": 4.104395866394043,
      "learning_rate": 8.348785924155536e-05,
      "loss": 0.3593613862991333,
      "memory(GiB)": 70.5,
      "step": 31090,
      "token_acc": 0.916058394160584,
      "train_speed(iter/s)": 1.457753
    },
    {
      "epoch": 1.3322051325992887,
      "grad_norm": 4.032218933105469,
      "learning_rate": 8.348286154220514e-05,
      "loss": 0.3442162275314331,
      "memory(GiB)": 70.5,
      "step": 31095,
      "token_acc": 0.9432314410480349,
      "train_speed(iter/s)": 1.457753
    },
    {
      "epoch": 1.3324193479285378,
      "grad_norm": 3.7357561588287354,
      "learning_rate": 8.347786323628149e-05,
      "loss": 0.225404691696167,
      "memory(GiB)": 70.5,
      "step": 31100,
      "token_acc": 0.950920245398773,
      "train_speed(iter/s)": 1.457767
    },
    {
      "epoch": 1.3326335632577866,
      "grad_norm": 4.419565200805664,
      "learning_rate": 8.347286432387493e-05,
      "loss": 0.5715919017791748,
      "memory(GiB)": 70.5,
      "step": 31105,
      "token_acc": 0.8710691823899371,
      "train_speed(iter/s)": 1.457755
    },
    {
      "epoch": 1.3328477785870356,
      "grad_norm": 2.893514394760132,
      "learning_rate": 8.346786480507603e-05,
      "loss": 0.38820934295654297,
      "memory(GiB)": 70.5,
      "step": 31110,
      "token_acc": 0.9395465994962217,
      "train_speed(iter/s)": 1.457744
    },
    {
      "epoch": 1.3330619939162847,
      "grad_norm": 1.741992712020874,
      "learning_rate": 8.346286467997536e-05,
      "loss": 0.10230168104171752,
      "memory(GiB)": 70.5,
      "step": 31115,
      "token_acc": 0.9734513274336283,
      "train_speed(iter/s)": 1.457769
    },
    {
      "epoch": 1.3332762092455335,
      "grad_norm": 2.6172544956207275,
      "learning_rate": 8.345786394866352e-05,
      "loss": 0.27806408405303956,
      "memory(GiB)": 70.5,
      "step": 31120,
      "token_acc": 0.9522184300341296,
      "train_speed(iter/s)": 1.457773
    },
    {
      "epoch": 1.3334904245747825,
      "grad_norm": 0.2575242519378662,
      "learning_rate": 8.345286261123108e-05,
      "loss": 0.20925917625427246,
      "memory(GiB)": 70.5,
      "step": 31125,
      "token_acc": 0.9634146341463414,
      "train_speed(iter/s)": 1.457802
    },
    {
      "epoch": 1.3337046399040315,
      "grad_norm": 1.6595304012298584,
      "learning_rate": 8.344786066776865e-05,
      "loss": 0.18914788961410522,
      "memory(GiB)": 70.5,
      "step": 31130,
      "token_acc": 0.9562043795620438,
      "train_speed(iter/s)": 1.457816
    },
    {
      "epoch": 1.3339188552332806,
      "grad_norm": 4.688130855560303,
      "learning_rate": 8.344285811836686e-05,
      "loss": 0.37704341411590575,
      "memory(GiB)": 70.5,
      "step": 31135,
      "token_acc": 0.9243986254295533,
      "train_speed(iter/s)": 1.457827
    },
    {
      "epoch": 1.3341330705625294,
      "grad_norm": 4.107277870178223,
      "learning_rate": 8.34378549631163e-05,
      "loss": 0.3210508108139038,
      "memory(GiB)": 70.5,
      "step": 31140,
      "token_acc": 0.9233576642335767,
      "train_speed(iter/s)": 1.457828
    },
    {
      "epoch": 1.3343472858917784,
      "grad_norm": 5.844002723693848,
      "learning_rate": 8.343285120210764e-05,
      "loss": 0.4314523696899414,
      "memory(GiB)": 70.5,
      "step": 31145,
      "token_acc": 0.9151515151515152,
      "train_speed(iter/s)": 1.457826
    },
    {
      "epoch": 1.3345615012210275,
      "grad_norm": 2.506340742111206,
      "learning_rate": 8.342784683543152e-05,
      "loss": 0.27683162689208984,
      "memory(GiB)": 70.5,
      "step": 31150,
      "token_acc": 0.9246031746031746,
      "train_speed(iter/s)": 1.457833
    },
    {
      "epoch": 1.3347757165502763,
      "grad_norm": 3.7729432582855225,
      "learning_rate": 8.342284186317862e-05,
      "loss": 0.4621148109436035,
      "memory(GiB)": 70.5,
      "step": 31155,
      "token_acc": 0.907258064516129,
      "train_speed(iter/s)": 1.457827
    },
    {
      "epoch": 1.3349899318795253,
      "grad_norm": 5.993578910827637,
      "learning_rate": 8.341783628543956e-05,
      "loss": 0.6883987426757813,
      "memory(GiB)": 70.5,
      "step": 31160,
      "token_acc": 0.8709677419354839,
      "train_speed(iter/s)": 1.457839
    },
    {
      "epoch": 1.3352041472087743,
      "grad_norm": 6.005300521850586,
      "learning_rate": 8.341283010230506e-05,
      "loss": 0.39380812644958496,
      "memory(GiB)": 70.5,
      "step": 31165,
      "token_acc": 0.9003831417624522,
      "train_speed(iter/s)": 1.457873
    },
    {
      "epoch": 1.3354183625380232,
      "grad_norm": 2.190178632736206,
      "learning_rate": 8.340782331386578e-05,
      "loss": 0.3699225425720215,
      "memory(GiB)": 70.5,
      "step": 31170,
      "token_acc": 0.911042944785276,
      "train_speed(iter/s)": 1.457873
    },
    {
      "epoch": 1.3356325778672722,
      "grad_norm": 2.6624016761779785,
      "learning_rate": 8.340281592021246e-05,
      "loss": 0.3809111833572388,
      "memory(GiB)": 70.5,
      "step": 31175,
      "token_acc": 0.9147286821705426,
      "train_speed(iter/s)": 1.457884
    },
    {
      "epoch": 1.3358467931965212,
      "grad_norm": 2.8840959072113037,
      "learning_rate": 8.339780792143578e-05,
      "loss": 0.40105252265930175,
      "memory(GiB)": 70.5,
      "step": 31180,
      "token_acc": 0.9090909090909091,
      "train_speed(iter/s)": 1.457872
    },
    {
      "epoch": 1.33606100852577,
      "grad_norm": 6.561142921447754,
      "learning_rate": 8.33927993176265e-05,
      "loss": 0.3412734031677246,
      "memory(GiB)": 70.5,
      "step": 31185,
      "token_acc": 0.9243421052631579,
      "train_speed(iter/s)": 1.457873
    },
    {
      "epoch": 1.336275223855019,
      "grad_norm": 2.5268890857696533,
      "learning_rate": 8.338779010887532e-05,
      "loss": 0.18282386064529418,
      "memory(GiB)": 70.5,
      "step": 31190,
      "token_acc": 0.9640287769784173,
      "train_speed(iter/s)": 1.457876
    },
    {
      "epoch": 1.336489439184268,
      "grad_norm": 4.930416584014893,
      "learning_rate": 8.3382780295273e-05,
      "loss": 0.3477349758148193,
      "memory(GiB)": 70.5,
      "step": 31195,
      "token_acc": 0.926530612244898,
      "train_speed(iter/s)": 1.457872
    },
    {
      "epoch": 1.336703654513517,
      "grad_norm": 1.3177157640457153,
      "learning_rate": 8.337776987691031e-05,
      "loss": 0.3792971134185791,
      "memory(GiB)": 70.5,
      "step": 31200,
      "token_acc": 0.916058394160584,
      "train_speed(iter/s)": 1.457876
    },
    {
      "epoch": 1.336917869842766,
      "grad_norm": 4.684971332550049,
      "learning_rate": 8.3372758853878e-05,
      "loss": 0.454222297668457,
      "memory(GiB)": 70.5,
      "step": 31205,
      "token_acc": 0.9236641221374046,
      "train_speed(iter/s)": 1.457913
    },
    {
      "epoch": 1.337132085172015,
      "grad_norm": 4.186781883239746,
      "learning_rate": 8.336774722626685e-05,
      "loss": 0.25101385116577146,
      "memory(GiB)": 70.5,
      "step": 31210,
      "token_acc": 0.9438202247191011,
      "train_speed(iter/s)": 1.457931
    },
    {
      "epoch": 1.3373463005012638,
      "grad_norm": 2.652313470840454,
      "learning_rate": 8.336273499416767e-05,
      "loss": 0.5430817127227783,
      "memory(GiB)": 70.5,
      "step": 31215,
      "token_acc": 0.8957528957528957,
      "train_speed(iter/s)": 1.457941
    },
    {
      "epoch": 1.3375605158305128,
      "grad_norm": 5.613762378692627,
      "learning_rate": 8.335772215767125e-05,
      "loss": 0.6481259346008301,
      "memory(GiB)": 70.5,
      "step": 31220,
      "token_acc": 0.8717948717948718,
      "train_speed(iter/s)": 1.45796
    },
    {
      "epoch": 1.3377747311597619,
      "grad_norm": 3.5432753562927246,
      "learning_rate": 8.33527087168684e-05,
      "loss": 0.41013035774230955,
      "memory(GiB)": 70.5,
      "step": 31225,
      "token_acc": 0.9273927392739274,
      "train_speed(iter/s)": 1.457953
    },
    {
      "epoch": 1.3379889464890107,
      "grad_norm": 3.396841049194336,
      "learning_rate": 8.334769467184992e-05,
      "loss": 0.3944345474243164,
      "memory(GiB)": 70.5,
      "step": 31230,
      "token_acc": 0.9372822299651568,
      "train_speed(iter/s)": 1.457982
    },
    {
      "epoch": 1.3382031618182597,
      "grad_norm": 1.5638725757598877,
      "learning_rate": 8.334268002270671e-05,
      "loss": 0.3274683475494385,
      "memory(GiB)": 70.5,
      "step": 31235,
      "token_acc": 0.9188311688311688,
      "train_speed(iter/s)": 1.458002
    },
    {
      "epoch": 1.3384173771475087,
      "grad_norm": 0.6727954745292664,
      "learning_rate": 8.333766476952955e-05,
      "loss": 0.14229387044906616,
      "memory(GiB)": 70.5,
      "step": 31240,
      "token_acc": 0.9528301886792453,
      "train_speed(iter/s)": 1.45801
    },
    {
      "epoch": 1.3386315924767576,
      "grad_norm": 4.660986423492432,
      "learning_rate": 8.333264891240933e-05,
      "loss": 0.47110638618469236,
      "memory(GiB)": 70.5,
      "step": 31245,
      "token_acc": 0.8961038961038961,
      "train_speed(iter/s)": 1.458011
    },
    {
      "epoch": 1.3388458078060066,
      "grad_norm": 7.255104064941406,
      "learning_rate": 8.33276324514369e-05,
      "loss": 0.47139577865600585,
      "memory(GiB)": 70.5,
      "step": 31250,
      "token_acc": 0.9067524115755627,
      "train_speed(iter/s)": 1.458042
    },
    {
      "epoch": 1.3390600231352556,
      "grad_norm": 2.8038973808288574,
      "learning_rate": 8.332261538670313e-05,
      "loss": 0.40904793739318845,
      "memory(GiB)": 70.5,
      "step": 31255,
      "token_acc": 0.9315960912052117,
      "train_speed(iter/s)": 1.45805
    },
    {
      "epoch": 1.3392742384645044,
      "grad_norm": 4.339719772338867,
      "learning_rate": 8.331759771829893e-05,
      "loss": 0.3278007507324219,
      "memory(GiB)": 70.5,
      "step": 31260,
      "token_acc": 0.9270833333333334,
      "train_speed(iter/s)": 1.458069
    },
    {
      "epoch": 1.3394884537937535,
      "grad_norm": 4.128951549530029,
      "learning_rate": 8.331257944631521e-05,
      "loss": 0.46600685119628904,
      "memory(GiB)": 70.5,
      "step": 31265,
      "token_acc": 0.9218241042345277,
      "train_speed(iter/s)": 1.458069
    },
    {
      "epoch": 1.3397026691230025,
      "grad_norm": 8.069190979003906,
      "learning_rate": 8.330756057084284e-05,
      "loss": 0.27997579574584963,
      "memory(GiB)": 70.5,
      "step": 31270,
      "token_acc": 0.956,
      "train_speed(iter/s)": 1.458059
    },
    {
      "epoch": 1.3399168844522513,
      "grad_norm": 4.666238784790039,
      "learning_rate": 8.330254109197279e-05,
      "loss": 0.4550352096557617,
      "memory(GiB)": 70.5,
      "step": 31275,
      "token_acc": 0.895910780669145,
      "train_speed(iter/s)": 1.458079
    },
    {
      "epoch": 1.3401310997815004,
      "grad_norm": 6.417453289031982,
      "learning_rate": 8.329752100979595e-05,
      "loss": 0.390762186050415,
      "memory(GiB)": 70.5,
      "step": 31280,
      "token_acc": 0.921146953405018,
      "train_speed(iter/s)": 1.458078
    },
    {
      "epoch": 1.3403453151107494,
      "grad_norm": 5.8136396408081055,
      "learning_rate": 8.329250032440329e-05,
      "loss": 0.5129222869873047,
      "memory(GiB)": 70.5,
      "step": 31285,
      "token_acc": 0.9003322259136213,
      "train_speed(iter/s)": 1.458089
    },
    {
      "epoch": 1.3405595304399982,
      "grad_norm": 2.4792592525482178,
      "learning_rate": 8.328747903588575e-05,
      "loss": 0.5206907272338868,
      "memory(GiB)": 70.5,
      "step": 31290,
      "token_acc": 0.9114391143911439,
      "train_speed(iter/s)": 1.458084
    },
    {
      "epoch": 1.3407737457692472,
      "grad_norm": 1.6315717697143555,
      "learning_rate": 8.32824571443343e-05,
      "loss": 0.21797757148742675,
      "memory(GiB)": 70.5,
      "step": 31295,
      "token_acc": 0.954225352112676,
      "train_speed(iter/s)": 1.458108
    },
    {
      "epoch": 1.3409879610984963,
      "grad_norm": 5.144736289978027,
      "learning_rate": 8.327743464983992e-05,
      "loss": 0.6422752857208252,
      "memory(GiB)": 70.5,
      "step": 31300,
      "token_acc": 0.8045602605863192,
      "train_speed(iter/s)": 1.458106
    },
    {
      "epoch": 1.3412021764277453,
      "grad_norm": 4.302720546722412,
      "learning_rate": 8.327241155249361e-05,
      "loss": 0.5841968536376954,
      "memory(GiB)": 70.5,
      "step": 31305,
      "token_acc": 0.875,
      "train_speed(iter/s)": 1.458102
    },
    {
      "epoch": 1.3414163917569941,
      "grad_norm": 6.465277671813965,
      "learning_rate": 8.326738785238633e-05,
      "loss": 0.3523401260375977,
      "memory(GiB)": 70.5,
      "step": 31310,
      "token_acc": 0.9246376811594202,
      "train_speed(iter/s)": 1.458105
    },
    {
      "epoch": 1.3416306070862432,
      "grad_norm": 2.071016311645508,
      "learning_rate": 8.326236354960912e-05,
      "loss": 0.3168393611907959,
      "memory(GiB)": 70.5,
      "step": 31315,
      "token_acc": 0.9275766016713092,
      "train_speed(iter/s)": 1.458102
    },
    {
      "epoch": 1.3418448224154922,
      "grad_norm": 3.1681230068206787,
      "learning_rate": 8.325733864425299e-05,
      "loss": 0.17941938638687133,
      "memory(GiB)": 70.5,
      "step": 31320,
      "token_acc": 0.9602888086642599,
      "train_speed(iter/s)": 1.4581
    },
    {
      "epoch": 1.342059037744741,
      "grad_norm": 2.9571008682250977,
      "learning_rate": 8.325231313640898e-05,
      "loss": 0.2989517688751221,
      "memory(GiB)": 70.5,
      "step": 31325,
      "token_acc": 0.9246987951807228,
      "train_speed(iter/s)": 1.458107
    },
    {
      "epoch": 1.34227325307399,
      "grad_norm": 2.9613218307495117,
      "learning_rate": 8.32472870261681e-05,
      "loss": 0.48579721450805663,
      "memory(GiB)": 70.5,
      "step": 31330,
      "token_acc": 0.8980263157894737,
      "train_speed(iter/s)": 1.458097
    },
    {
      "epoch": 1.342487468403239,
      "grad_norm": 3.142446756362915,
      "learning_rate": 8.324226031362146e-05,
      "loss": 0.4617640495300293,
      "memory(GiB)": 70.5,
      "step": 31335,
      "token_acc": 0.8953068592057761,
      "train_speed(iter/s)": 1.45813
    },
    {
      "epoch": 1.3427016837324879,
      "grad_norm": 5.625137805938721,
      "learning_rate": 8.323723299886008e-05,
      "loss": 0.5173349857330323,
      "memory(GiB)": 70.5,
      "step": 31340,
      "token_acc": 0.8675496688741722,
      "train_speed(iter/s)": 1.458137
    },
    {
      "epoch": 1.342915899061737,
      "grad_norm": 0.6058438420295715,
      "learning_rate": 8.323220508197505e-05,
      "loss": 0.18857717514038086,
      "memory(GiB)": 70.5,
      "step": 31345,
      "token_acc": 0.967948717948718,
      "train_speed(iter/s)": 1.458142
    },
    {
      "epoch": 1.343130114390986,
      "grad_norm": 1.8134223222732544,
      "learning_rate": 8.322717656305744e-05,
      "loss": 0.3202333927154541,
      "memory(GiB)": 70.5,
      "step": 31350,
      "token_acc": 0.9375,
      "train_speed(iter/s)": 1.458144
    },
    {
      "epoch": 1.3433443297202348,
      "grad_norm": 1.989943504333496,
      "learning_rate": 8.322214744219837e-05,
      "loss": 0.3360640048980713,
      "memory(GiB)": 70.5,
      "step": 31355,
      "token_acc": 0.9314079422382672,
      "train_speed(iter/s)": 1.458141
    },
    {
      "epoch": 1.3435585450494838,
      "grad_norm": 2.905843734741211,
      "learning_rate": 8.32171177194889e-05,
      "loss": 0.4420632362365723,
      "memory(GiB)": 70.5,
      "step": 31360,
      "token_acc": 0.8916967509025271,
      "train_speed(iter/s)": 1.458146
    },
    {
      "epoch": 1.3437727603787328,
      "grad_norm": 1.2550536394119263,
      "learning_rate": 8.32120873950202e-05,
      "loss": 0.3534934282302856,
      "memory(GiB)": 70.5,
      "step": 31365,
      "token_acc": 0.940149625935162,
      "train_speed(iter/s)": 1.458151
    },
    {
      "epoch": 1.3439869757079816,
      "grad_norm": 0.3865787386894226,
      "learning_rate": 8.320705646888341e-05,
      "loss": 0.13963112831115723,
      "memory(GiB)": 70.5,
      "step": 31370,
      "token_acc": 0.9764309764309764,
      "train_speed(iter/s)": 1.45815
    },
    {
      "epoch": 1.3442011910372307,
      "grad_norm": 0.6689972281455994,
      "learning_rate": 8.320202494116961e-05,
      "loss": 0.16998995542526246,
      "memory(GiB)": 70.5,
      "step": 31375,
      "token_acc": 0.9541284403669725,
      "train_speed(iter/s)": 1.458153
    },
    {
      "epoch": 1.3444154063664797,
      "grad_norm": 1.5665984153747559,
      "learning_rate": 8.319699281196999e-05,
      "loss": 0.5258900165557862,
      "memory(GiB)": 70.5,
      "step": 31380,
      "token_acc": 0.875,
      "train_speed(iter/s)": 1.45817
    },
    {
      "epoch": 1.3446296216957285,
      "grad_norm": 0.07869243621826172,
      "learning_rate": 8.319196008137571e-05,
      "loss": 0.26584973335266116,
      "memory(GiB)": 70.5,
      "step": 31385,
      "token_acc": 0.93359375,
      "train_speed(iter/s)": 1.458173
    },
    {
      "epoch": 1.3448438370249776,
      "grad_norm": 6.08672571182251,
      "learning_rate": 8.318692674947793e-05,
      "loss": 0.39982969760894777,
      "memory(GiB)": 70.5,
      "step": 31390,
      "token_acc": 0.9222614840989399,
      "train_speed(iter/s)": 1.458185
    },
    {
      "epoch": 1.3450580523542266,
      "grad_norm": 3.1844992637634277,
      "learning_rate": 8.318189281636784e-05,
      "loss": 0.3577871799468994,
      "memory(GiB)": 70.5,
      "step": 31395,
      "token_acc": 0.9181494661921709,
      "train_speed(iter/s)": 1.45818
    },
    {
      "epoch": 1.3452722676834754,
      "grad_norm": 4.300228595733643,
      "learning_rate": 8.317685828213664e-05,
      "loss": 0.40508365631103516,
      "memory(GiB)": 70.5,
      "step": 31400,
      "token_acc": 0.9178571428571428,
      "train_speed(iter/s)": 1.458213
    },
    {
      "epoch": 1.3454864830127244,
      "grad_norm": 2.142059326171875,
      "learning_rate": 8.317182314687551e-05,
      "loss": 0.5300819396972656,
      "memory(GiB)": 70.5,
      "step": 31405,
      "token_acc": 0.9039145907473309,
      "train_speed(iter/s)": 1.458226
    },
    {
      "epoch": 1.3457006983419735,
      "grad_norm": 4.371211528778076,
      "learning_rate": 8.316678741067571e-05,
      "loss": 0.3056309700012207,
      "memory(GiB)": 70.5,
      "step": 31410,
      "token_acc": 0.9384057971014492,
      "train_speed(iter/s)": 1.458244
    },
    {
      "epoch": 1.3459149136712223,
      "grad_norm": 4.26999044418335,
      "learning_rate": 8.316175107362842e-05,
      "loss": 0.2888308525085449,
      "memory(GiB)": 70.5,
      "step": 31415,
      "token_acc": 0.9363057324840764,
      "train_speed(iter/s)": 1.45824
    },
    {
      "epoch": 1.3461291290004713,
      "grad_norm": 1.964132308959961,
      "learning_rate": 8.315671413582493e-05,
      "loss": 0.22614424228668212,
      "memory(GiB)": 70.5,
      "step": 31420,
      "token_acc": 0.9447852760736196,
      "train_speed(iter/s)": 1.458241
    },
    {
      "epoch": 1.3463433443297204,
      "grad_norm": 1.5403454303741455,
      "learning_rate": 8.315167659735646e-05,
      "loss": 0.4862874984741211,
      "memory(GiB)": 70.5,
      "step": 31425,
      "token_acc": 0.9074733096085409,
      "train_speed(iter/s)": 1.458227
    },
    {
      "epoch": 1.3465575596589692,
      "grad_norm": 0.5216339230537415,
      "learning_rate": 8.314663845831425e-05,
      "loss": 0.2609166145324707,
      "memory(GiB)": 70.5,
      "step": 31430,
      "token_acc": 0.926829268292683,
      "train_speed(iter/s)": 1.458231
    },
    {
      "epoch": 1.3467717749882182,
      "grad_norm": 5.359578609466553,
      "learning_rate": 8.314159971878958e-05,
      "loss": 0.575745677947998,
      "memory(GiB)": 70.5,
      "step": 31435,
      "token_acc": 0.8754325259515571,
      "train_speed(iter/s)": 1.458259
    },
    {
      "epoch": 1.3469859903174672,
      "grad_norm": 4.854711055755615,
      "learning_rate": 8.313656037887377e-05,
      "loss": 0.575189733505249,
      "memory(GiB)": 70.5,
      "step": 31440,
      "token_acc": 0.8708609271523179,
      "train_speed(iter/s)": 1.458256
    },
    {
      "epoch": 1.347200205646716,
      "grad_norm": 6.071609973907471,
      "learning_rate": 8.313152043865806e-05,
      "loss": 0.6041620254516602,
      "memory(GiB)": 70.5,
      "step": 31445,
      "token_acc": 0.8666666666666667,
      "train_speed(iter/s)": 1.458272
    },
    {
      "epoch": 1.347414420975965,
      "grad_norm": 0.6513997316360474,
      "learning_rate": 8.312647989823379e-05,
      "loss": 0.2755934715270996,
      "memory(GiB)": 70.5,
      "step": 31450,
      "token_acc": 0.9424920127795527,
      "train_speed(iter/s)": 1.458301
    },
    {
      "epoch": 1.3476286363052141,
      "grad_norm": 0.27853065729141235,
      "learning_rate": 8.312143875769227e-05,
      "loss": 0.21753389835357667,
      "memory(GiB)": 70.5,
      "step": 31455,
      "token_acc": 0.9448529411764706,
      "train_speed(iter/s)": 1.458317
    },
    {
      "epoch": 1.347842851634463,
      "grad_norm": 5.064693927764893,
      "learning_rate": 8.31163970171248e-05,
      "loss": 0.3999814987182617,
      "memory(GiB)": 70.5,
      "step": 31460,
      "token_acc": 0.9044585987261147,
      "train_speed(iter/s)": 1.45835
    },
    {
      "epoch": 1.348057066963712,
      "grad_norm": 3.371999979019165,
      "learning_rate": 8.311135467662275e-05,
      "loss": 0.4224726676940918,
      "memory(GiB)": 70.5,
      "step": 31465,
      "token_acc": 0.8959731543624161,
      "train_speed(iter/s)": 1.458365
    },
    {
      "epoch": 1.348271282292961,
      "grad_norm": 2.594611883163452,
      "learning_rate": 8.310631173627743e-05,
      "loss": 0.4168051242828369,
      "memory(GiB)": 70.5,
      "step": 31470,
      "token_acc": 0.9193548387096774,
      "train_speed(iter/s)": 1.458377
    },
    {
      "epoch": 1.3484854976222098,
      "grad_norm": 4.097012996673584,
      "learning_rate": 8.310126819618023e-05,
      "loss": 0.33737137317657473,
      "memory(GiB)": 70.5,
      "step": 31475,
      "token_acc": 0.9283154121863799,
      "train_speed(iter/s)": 1.458384
    },
    {
      "epoch": 1.3486997129514589,
      "grad_norm": 3.00378155708313,
      "learning_rate": 8.30962240564225e-05,
      "loss": 0.3993062973022461,
      "memory(GiB)": 70.5,
      "step": 31480,
      "token_acc": 0.928030303030303,
      "train_speed(iter/s)": 1.45837
    },
    {
      "epoch": 1.3489139282807079,
      "grad_norm": 1.8676398992538452,
      "learning_rate": 8.309117931709563e-05,
      "loss": 0.3838521957397461,
      "memory(GiB)": 70.5,
      "step": 31485,
      "token_acc": 0.9134948096885813,
      "train_speed(iter/s)": 1.458385
    },
    {
      "epoch": 1.3491281436099567,
      "grad_norm": 1.0610096454620361,
      "learning_rate": 8.3086133978291e-05,
      "loss": 0.5443651676177979,
      "memory(GiB)": 70.5,
      "step": 31490,
      "token_acc": 0.9014598540145985,
      "train_speed(iter/s)": 1.458361
    },
    {
      "epoch": 1.3493423589392057,
      "grad_norm": 2.2066187858581543,
      "learning_rate": 8.308108804009999e-05,
      "loss": 0.3407717704772949,
      "memory(GiB)": 70.5,
      "step": 31495,
      "token_acc": 0.9328859060402684,
      "train_speed(iter/s)": 1.458356
    },
    {
      "epoch": 1.3495565742684548,
      "grad_norm": 2.3297457695007324,
      "learning_rate": 8.307604150261408e-05,
      "loss": 0.4819674491882324,
      "memory(GiB)": 70.5,
      "step": 31500,
      "token_acc": 0.9013157894736842,
      "train_speed(iter/s)": 1.458363
    },
    {
      "epoch": 1.3495565742684548,
      "eval_loss": 2.611281156539917,
      "eval_runtime": 13.214,
      "eval_samples_per_second": 7.568,
      "eval_steps_per_second": 7.568,
      "eval_token_acc": 0.40583554376657827,
      "step": 31500
    },
    {
      "epoch": 1.3497707895977036,
      "grad_norm": 5.228427886962891,
      "learning_rate": 8.307099436592463e-05,
      "loss": 0.48831920623779296,
      "memory(GiB)": 70.5,
      "step": 31505,
      "token_acc": 0.5429650613786591,
      "train_speed(iter/s)": 1.457402
    },
    {
      "epoch": 1.3499850049269526,
      "grad_norm": 1.4234580993652344,
      "learning_rate": 8.306594663012308e-05,
      "loss": 0.11884136199951172,
      "memory(GiB)": 70.5,
      "step": 31510,
      "token_acc": 0.972809667673716,
      "train_speed(iter/s)": 1.457401
    },
    {
      "epoch": 1.3501992202562016,
      "grad_norm": 3.767691135406494,
      "learning_rate": 8.306089829530092e-05,
      "loss": 0.29082186222076417,
      "memory(GiB)": 70.5,
      "step": 31515,
      "token_acc": 0.9357142857142857,
      "train_speed(iter/s)": 1.457406
    },
    {
      "epoch": 1.3504134355854505,
      "grad_norm": 3.699087381362915,
      "learning_rate": 8.305584936154956e-05,
      "loss": 0.46152620315551757,
      "memory(GiB)": 70.5,
      "step": 31520,
      "token_acc": 0.8846153846153846,
      "train_speed(iter/s)": 1.457414
    },
    {
      "epoch": 1.3506276509146995,
      "grad_norm": 0.24070784449577332,
      "learning_rate": 8.305079982896047e-05,
      "loss": 0.27644929885864256,
      "memory(GiB)": 70.5,
      "step": 31525,
      "token_acc": 0.9366197183098591,
      "train_speed(iter/s)": 1.457394
    },
    {
      "epoch": 1.3508418662439485,
      "grad_norm": 3.2839231491088867,
      "learning_rate": 8.304574969762515e-05,
      "loss": 0.33754887580871584,
      "memory(GiB)": 70.5,
      "step": 31530,
      "token_acc": 0.9283154121863799,
      "train_speed(iter/s)": 1.457398
    },
    {
      "epoch": 1.3510560815731973,
      "grad_norm": 2.043254852294922,
      "learning_rate": 8.304069896763506e-05,
      "loss": 0.2933093547821045,
      "memory(GiB)": 70.5,
      "step": 31535,
      "token_acc": 0.9221789883268483,
      "train_speed(iter/s)": 1.457405
    },
    {
      "epoch": 1.3512702969024464,
      "grad_norm": 2.2559332847595215,
      "learning_rate": 8.303564763908173e-05,
      "loss": 0.2991332054138184,
      "memory(GiB)": 70.5,
      "step": 31540,
      "token_acc": 0.9448818897637795,
      "train_speed(iter/s)": 1.45741
    },
    {
      "epoch": 1.3514845122316954,
      "grad_norm": 8.778142929077148,
      "learning_rate": 8.303059571205665e-05,
      "loss": 0.6723471641540527,
      "memory(GiB)": 70.5,
      "step": 31545,
      "token_acc": 0.8784722222222222,
      "train_speed(iter/s)": 1.457436
    },
    {
      "epoch": 1.3516987275609442,
      "grad_norm": 3.4278905391693115,
      "learning_rate": 8.302554318665135e-05,
      "loss": 0.31026382446289064,
      "memory(GiB)": 70.5,
      "step": 31550,
      "token_acc": 0.9335548172757475,
      "train_speed(iter/s)": 1.457463
    },
    {
      "epoch": 1.3519129428901933,
      "grad_norm": 0.6479233503341675,
      "learning_rate": 8.302049006295734e-05,
      "loss": 0.45173215866088867,
      "memory(GiB)": 70.5,
      "step": 31555,
      "token_acc": 0.8970099667774086,
      "train_speed(iter/s)": 1.45746
    },
    {
      "epoch": 1.3521271582194423,
      "grad_norm": 5.213809967041016,
      "learning_rate": 8.301543634106617e-05,
      "loss": 0.42549972534179686,
      "memory(GiB)": 70.5,
      "step": 31560,
      "token_acc": 0.9206798866855525,
      "train_speed(iter/s)": 1.45746
    },
    {
      "epoch": 1.352341373548691,
      "grad_norm": 3.4815118312835693,
      "learning_rate": 8.301038202106942e-05,
      "loss": 0.37028701305389405,
      "memory(GiB)": 70.5,
      "step": 31565,
      "token_acc": 0.9325842696629213,
      "train_speed(iter/s)": 1.457455
    },
    {
      "epoch": 1.3525555888779401,
      "grad_norm": 3.293849229812622,
      "learning_rate": 8.300532710305862e-05,
      "loss": 0.4224871635437012,
      "memory(GiB)": 70.5,
      "step": 31570,
      "token_acc": 0.9259259259259259,
      "train_speed(iter/s)": 1.457464
    },
    {
      "epoch": 1.3527698042071892,
      "grad_norm": 4.519466400146484,
      "learning_rate": 8.300027158712537e-05,
      "loss": 0.532077407836914,
      "memory(GiB)": 70.5,
      "step": 31575,
      "token_acc": 0.8857142857142857,
      "train_speed(iter/s)": 1.457482
    },
    {
      "epoch": 1.352984019536438,
      "grad_norm": 4.007935047149658,
      "learning_rate": 8.299521547336123e-05,
      "loss": 0.5078132629394532,
      "memory(GiB)": 70.5,
      "step": 31580,
      "token_acc": 0.8869257950530035,
      "train_speed(iter/s)": 1.457472
    },
    {
      "epoch": 1.353198234865687,
      "grad_norm": 5.995413303375244,
      "learning_rate": 8.299015876185782e-05,
      "loss": 0.6253188133239747,
      "memory(GiB)": 70.5,
      "step": 31585,
      "token_acc": 0.8641114982578397,
      "train_speed(iter/s)": 1.457462
    },
    {
      "epoch": 1.353412450194936,
      "grad_norm": 3.1256814002990723,
      "learning_rate": 8.298510145270673e-05,
      "loss": 0.268801212310791,
      "memory(GiB)": 70.5,
      "step": 31590,
      "token_acc": 0.9382239382239382,
      "train_speed(iter/s)": 1.457452
    },
    {
      "epoch": 1.3536266655241849,
      "grad_norm": 6.689597129821777,
      "learning_rate": 8.298004354599959e-05,
      "loss": 0.5257444381713867,
      "memory(GiB)": 70.5,
      "step": 31595,
      "token_acc": 0.8912280701754386,
      "train_speed(iter/s)": 1.457451
    },
    {
      "epoch": 1.353840880853434,
      "grad_norm": 4.428259372711182,
      "learning_rate": 8.297498504182802e-05,
      "loss": 0.18505666255950928,
      "memory(GiB)": 70.5,
      "step": 31600,
      "token_acc": 0.964,
      "train_speed(iter/s)": 1.457472
    },
    {
      "epoch": 1.354055096182683,
      "grad_norm": 1.1759752035140991,
      "learning_rate": 8.296992594028366e-05,
      "loss": 0.27304530143737793,
      "memory(GiB)": 70.5,
      "step": 31605,
      "token_acc": 0.9283489096573209,
      "train_speed(iter/s)": 1.457489
    },
    {
      "epoch": 1.3542693115119318,
      "grad_norm": 3.2038490772247314,
      "learning_rate": 8.296486624145819e-05,
      "loss": 0.6789849281311036,
      "memory(GiB)": 70.5,
      "step": 31610,
      "token_acc": 0.858433734939759,
      "train_speed(iter/s)": 1.457476
    },
    {
      "epoch": 1.3544835268411808,
      "grad_norm": 2.664546489715576,
      "learning_rate": 8.295980594544321e-05,
      "loss": 0.518758487701416,
      "memory(GiB)": 70.5,
      "step": 31615,
      "token_acc": 0.891156462585034,
      "train_speed(iter/s)": 1.45748
    },
    {
      "epoch": 1.3546977421704298,
      "grad_norm": 1.9108167886734009,
      "learning_rate": 8.295474505233042e-05,
      "loss": 0.24088516235351562,
      "memory(GiB)": 70.5,
      "step": 31620,
      "token_acc": 0.937037037037037,
      "train_speed(iter/s)": 1.457474
    },
    {
      "epoch": 1.3549119574996786,
      "grad_norm": 3.443537950515747,
      "learning_rate": 8.294968356221155e-05,
      "loss": 0.22837305068969727,
      "memory(GiB)": 70.5,
      "step": 31625,
      "token_acc": 0.9470198675496688,
      "train_speed(iter/s)": 1.457492
    },
    {
      "epoch": 1.3551261728289277,
      "grad_norm": 6.281049728393555,
      "learning_rate": 8.294462147517823e-05,
      "loss": 0.4173742294311523,
      "memory(GiB)": 70.5,
      "step": 31630,
      "token_acc": 0.9105960264900662,
      "train_speed(iter/s)": 1.4575
    },
    {
      "epoch": 1.3553403881581767,
      "grad_norm": 3.81531023979187,
      "learning_rate": 8.293955879132219e-05,
      "loss": 0.5457525253295898,
      "memory(GiB)": 70.5,
      "step": 31635,
      "token_acc": 0.8797250859106529,
      "train_speed(iter/s)": 1.457517
    },
    {
      "epoch": 1.3555546034874255,
      "grad_norm": 2.270087957382202,
      "learning_rate": 8.293449551073513e-05,
      "loss": 0.40015544891357424,
      "memory(GiB)": 70.5,
      "step": 31640,
      "token_acc": 0.9104477611940298,
      "train_speed(iter/s)": 1.457521
    },
    {
      "epoch": 1.3557688188166745,
      "grad_norm": 2.0096659660339355,
      "learning_rate": 8.29294316335088e-05,
      "loss": 0.537608528137207,
      "memory(GiB)": 70.5,
      "step": 31645,
      "token_acc": 0.907051282051282,
      "train_speed(iter/s)": 1.457508
    },
    {
      "epoch": 1.3559830341459236,
      "grad_norm": 5.371156215667725,
      "learning_rate": 8.292436715973493e-05,
      "loss": 0.3092637062072754,
      "memory(GiB)": 70.5,
      "step": 31650,
      "token_acc": 0.9166666666666666,
      "train_speed(iter/s)": 1.457542
    },
    {
      "epoch": 1.3561972494751724,
      "grad_norm": 5.551722049713135,
      "learning_rate": 8.291930208950525e-05,
      "loss": 0.3300652027130127,
      "memory(GiB)": 70.5,
      "step": 31655,
      "token_acc": 0.9369085173501577,
      "train_speed(iter/s)": 1.457539
    },
    {
      "epoch": 1.3564114648044214,
      "grad_norm": 4.3979997634887695,
      "learning_rate": 8.291423642291153e-05,
      "loss": 0.462493896484375,
      "memory(GiB)": 70.5,
      "step": 31660,
      "token_acc": 0.8880866425992779,
      "train_speed(iter/s)": 1.457542
    },
    {
      "epoch": 1.3566256801336705,
      "grad_norm": 1.6741498708724976,
      "learning_rate": 8.290917016004556e-05,
      "loss": 0.2721752882003784,
      "memory(GiB)": 70.5,
      "step": 31665,
      "token_acc": 0.9298245614035088,
      "train_speed(iter/s)": 1.457545
    },
    {
      "epoch": 1.3568398954629193,
      "grad_norm": 3.1074466705322266,
      "learning_rate": 8.29041033009991e-05,
      "loss": 0.3269950866699219,
      "memory(GiB)": 70.5,
      "step": 31670,
      "token_acc": 0.9166666666666666,
      "train_speed(iter/s)": 1.45758
    },
    {
      "epoch": 1.3570541107921683,
      "grad_norm": 5.817209720611572,
      "learning_rate": 8.289903584586394e-05,
      "loss": 0.4599153995513916,
      "memory(GiB)": 70.5,
      "step": 31675,
      "token_acc": 0.9,
      "train_speed(iter/s)": 1.457571
    },
    {
      "epoch": 1.3572683261214173,
      "grad_norm": 2.1849780082702637,
      "learning_rate": 8.289396779473188e-05,
      "loss": 0.3695369720458984,
      "memory(GiB)": 70.5,
      "step": 31680,
      "token_acc": 0.9205776173285198,
      "train_speed(iter/s)": 1.457552
    },
    {
      "epoch": 1.3574825414506662,
      "grad_norm": 2.574631690979004,
      "learning_rate": 8.288889914769473e-05,
      "loss": 0.4390693664550781,
      "memory(GiB)": 70.5,
      "step": 31685,
      "token_acc": 0.9106628242074928,
      "train_speed(iter/s)": 1.457551
    },
    {
      "epoch": 1.3576967567799152,
      "grad_norm": 3.294745683670044,
      "learning_rate": 8.288382990484432e-05,
      "loss": 0.45723567008972166,
      "memory(GiB)": 70.5,
      "step": 31690,
      "token_acc": 0.8741721854304636,
      "train_speed(iter/s)": 1.457569
    },
    {
      "epoch": 1.3579109721091642,
      "grad_norm": 1.9312301874160767,
      "learning_rate": 8.287876006627248e-05,
      "loss": 0.3131565570831299,
      "memory(GiB)": 70.5,
      "step": 31695,
      "token_acc": 0.9236111111111112,
      "train_speed(iter/s)": 1.457563
    },
    {
      "epoch": 1.358125187438413,
      "grad_norm": 1.923977017402649,
      "learning_rate": 8.287368963207107e-05,
      "loss": 0.5107987880706787,
      "memory(GiB)": 70.5,
      "step": 31700,
      "token_acc": 0.8865248226950354,
      "train_speed(iter/s)": 1.45757
    },
    {
      "epoch": 1.358339402767662,
      "grad_norm": 4.459475994110107,
      "learning_rate": 8.286861860233194e-05,
      "loss": 0.4275771141052246,
      "memory(GiB)": 70.5,
      "step": 31705,
      "token_acc": 0.919732441471572,
      "train_speed(iter/s)": 1.457563
    },
    {
      "epoch": 1.358553618096911,
      "grad_norm": 2.336400270462036,
      "learning_rate": 8.286354697714695e-05,
      "loss": 0.4818380355834961,
      "memory(GiB)": 70.5,
      "step": 31710,
      "token_acc": 0.8877551020408163,
      "train_speed(iter/s)": 1.457562
    },
    {
      "epoch": 1.35876783342616,
      "grad_norm": 5.0402960777282715,
      "learning_rate": 8.285847475660797e-05,
      "loss": 0.21220428943634034,
      "memory(GiB)": 70.5,
      "step": 31715,
      "token_acc": 0.9574468085106383,
      "train_speed(iter/s)": 1.45755
    },
    {
      "epoch": 1.358982048755409,
      "grad_norm": 3.147918939590454,
      "learning_rate": 8.285340194080688e-05,
      "loss": 0.5331828117370605,
      "memory(GiB)": 70.5,
      "step": 31720,
      "token_acc": 0.8618421052631579,
      "train_speed(iter/s)": 1.457539
    },
    {
      "epoch": 1.359196264084658,
      "grad_norm": 0.23215453326702118,
      "learning_rate": 8.284832852983562e-05,
      "loss": 0.2112562894821167,
      "memory(GiB)": 70.5,
      "step": 31725,
      "token_acc": 0.9572649572649573,
      "train_speed(iter/s)": 1.457554
    },
    {
      "epoch": 1.3594104794139068,
      "grad_norm": 0.9198223948478699,
      "learning_rate": 8.284325452378606e-05,
      "loss": 0.18191972970962525,
      "memory(GiB)": 70.5,
      "step": 31730,
      "token_acc": 0.9608540925266904,
      "train_speed(iter/s)": 1.457581
    },
    {
      "epoch": 1.3596246947431558,
      "grad_norm": 2.4925503730773926,
      "learning_rate": 8.283817992275014e-05,
      "loss": 0.3063460350036621,
      "memory(GiB)": 70.5,
      "step": 31735,
      "token_acc": 0.9191176470588235,
      "train_speed(iter/s)": 1.45759
    },
    {
      "epoch": 1.3598389100724049,
      "grad_norm": 0.47195398807525635,
      "learning_rate": 8.28331047268198e-05,
      "loss": 0.20419020652770997,
      "memory(GiB)": 70.5,
      "step": 31740,
      "token_acc": 0.9467213114754098,
      "train_speed(iter/s)": 1.457585
    },
    {
      "epoch": 1.3600531254016537,
      "grad_norm": 2.1890647411346436,
      "learning_rate": 8.282802893608694e-05,
      "loss": 0.20753872394561768,
      "memory(GiB)": 70.5,
      "step": 31745,
      "token_acc": 0.9548387096774194,
      "train_speed(iter/s)": 1.457579
    },
    {
      "epoch": 1.3602673407309027,
      "grad_norm": 6.001003742218018,
      "learning_rate": 8.282295255064356e-05,
      "loss": 0.5342288017272949,
      "memory(GiB)": 70.5,
      "step": 31750,
      "token_acc": 0.8952702702702703,
      "train_speed(iter/s)": 1.457593
    },
    {
      "epoch": 1.3604815560601518,
      "grad_norm": 2.137545585632324,
      "learning_rate": 8.28178755705816e-05,
      "loss": 0.5405715942382813,
      "memory(GiB)": 70.5,
      "step": 31755,
      "token_acc": 0.9039735099337748,
      "train_speed(iter/s)": 1.457588
    },
    {
      "epoch": 1.3606957713894006,
      "grad_norm": 5.605576992034912,
      "learning_rate": 8.281279799599303e-05,
      "loss": 0.4166828155517578,
      "memory(GiB)": 70.5,
      "step": 31760,
      "token_acc": 0.9215017064846417,
      "train_speed(iter/s)": 1.457583
    },
    {
      "epoch": 1.3609099867186496,
      "grad_norm": 0.8982571363449097,
      "learning_rate": 8.280771982696985e-05,
      "loss": 0.2926686525344849,
      "memory(GiB)": 70.5,
      "step": 31765,
      "token_acc": 0.9348659003831418,
      "train_speed(iter/s)": 1.457587
    },
    {
      "epoch": 1.3611242020478986,
      "grad_norm": 2.336404323577881,
      "learning_rate": 8.280264106360405e-05,
      "loss": 0.2748521327972412,
      "memory(GiB)": 70.5,
      "step": 31770,
      "token_acc": 0.9377431906614786,
      "train_speed(iter/s)": 1.457593
    },
    {
      "epoch": 1.3613384173771474,
      "grad_norm": 2.7605977058410645,
      "learning_rate": 8.279756170598764e-05,
      "loss": 0.2712565422058105,
      "memory(GiB)": 70.5,
      "step": 31775,
      "token_acc": 0.9418282548476454,
      "train_speed(iter/s)": 1.457599
    },
    {
      "epoch": 1.3615526327063965,
      "grad_norm": 3.5356578826904297,
      "learning_rate": 8.279248175421264e-05,
      "loss": 0.38242621421813966,
      "memory(GiB)": 70.5,
      "step": 31780,
      "token_acc": 0.9198606271777003,
      "train_speed(iter/s)": 1.45761
    },
    {
      "epoch": 1.3617668480356455,
      "grad_norm": 2.8994650840759277,
      "learning_rate": 8.278740120837106e-05,
      "loss": 0.2880394458770752,
      "memory(GiB)": 70.5,
      "step": 31785,
      "token_acc": 0.9422382671480144,
      "train_speed(iter/s)": 1.457608
    },
    {
      "epoch": 1.3619810633648943,
      "grad_norm": 4.904291152954102,
      "learning_rate": 8.278232006855495e-05,
      "loss": 0.5209952354431152,
      "memory(GiB)": 70.5,
      "step": 31790,
      "token_acc": 0.8860294117647058,
      "train_speed(iter/s)": 1.457622
    },
    {
      "epoch": 1.3621952786941434,
      "grad_norm": 7.806861400604248,
      "learning_rate": 8.277723833485635e-05,
      "loss": 0.5902299404144287,
      "memory(GiB)": 70.5,
      "step": 31795,
      "token_acc": 0.8775510204081632,
      "train_speed(iter/s)": 1.457617
    },
    {
      "epoch": 1.3624094940233924,
      "grad_norm": 1.4798176288604736,
      "learning_rate": 8.277215600736734e-05,
      "loss": 0.27154500484466554,
      "memory(GiB)": 70.5,
      "step": 31800,
      "token_acc": 0.9299363057324841,
      "train_speed(iter/s)": 1.457622
    },
    {
      "epoch": 1.3626237093526412,
      "grad_norm": 2.861999273300171,
      "learning_rate": 8.276707308617999e-05,
      "loss": 0.43672518730163573,
      "memory(GiB)": 70.5,
      "step": 31805,
      "token_acc": 0.9278688524590164,
      "train_speed(iter/s)": 1.457622
    },
    {
      "epoch": 1.3628379246818902,
      "grad_norm": 0.6378884315490723,
      "learning_rate": 8.276198957138636e-05,
      "loss": 0.2236936330795288,
      "memory(GiB)": 70.5,
      "step": 31810,
      "token_acc": 0.948051948051948,
      "train_speed(iter/s)": 1.457638
    },
    {
      "epoch": 1.3630521400111393,
      "grad_norm": 2.2827675342559814,
      "learning_rate": 8.275690546307854e-05,
      "loss": 0.42516460418701174,
      "memory(GiB)": 70.5,
      "step": 31815,
      "token_acc": 0.9088397790055248,
      "train_speed(iter/s)": 1.457644
    },
    {
      "epoch": 1.363266355340388,
      "grad_norm": 1.6200697422027588,
      "learning_rate": 8.275182076134869e-05,
      "loss": 0.4541475296020508,
      "memory(GiB)": 70.5,
      "step": 31820,
      "token_acc": 0.9029126213592233,
      "train_speed(iter/s)": 1.457686
    },
    {
      "epoch": 1.3634805706696371,
      "grad_norm": 5.8344950675964355,
      "learning_rate": 8.274673546628886e-05,
      "loss": 0.7373260021209717,
      "memory(GiB)": 70.5,
      "step": 31825,
      "token_acc": 0.8520710059171598,
      "train_speed(iter/s)": 1.457694
    },
    {
      "epoch": 1.3636947859988862,
      "grad_norm": 4.6076884269714355,
      "learning_rate": 8.27416495779912e-05,
      "loss": 0.39714808464050294,
      "memory(GiB)": 70.5,
      "step": 31830,
      "token_acc": 0.9036827195467422,
      "train_speed(iter/s)": 1.45769
    },
    {
      "epoch": 1.363909001328135,
      "grad_norm": 1.6688635349273682,
      "learning_rate": 8.273656309654785e-05,
      "loss": 0.29014604091644286,
      "memory(GiB)": 70.5,
      "step": 31835,
      "token_acc": 0.943217665615142,
      "train_speed(iter/s)": 1.457689
    },
    {
      "epoch": 1.364123216657384,
      "grad_norm": 6.867883682250977,
      "learning_rate": 8.273147602205094e-05,
      "loss": 0.1330750584602356,
      "memory(GiB)": 70.5,
      "step": 31840,
      "token_acc": 0.974025974025974,
      "train_speed(iter/s)": 1.457679
    },
    {
      "epoch": 1.364337431986633,
      "grad_norm": 2.486879587173462,
      "learning_rate": 8.272638835459263e-05,
      "loss": 0.4693158149719238,
      "memory(GiB)": 70.5,
      "step": 31845,
      "token_acc": 0.9,
      "train_speed(iter/s)": 1.457693
    },
    {
      "epoch": 1.3645516473158819,
      "grad_norm": 1.7542009353637695,
      "learning_rate": 8.272130009426511e-05,
      "loss": 0.49951767921447754,
      "memory(GiB)": 70.5,
      "step": 31850,
      "token_acc": 0.8780487804878049,
      "train_speed(iter/s)": 1.457729
    },
    {
      "epoch": 1.364765862645131,
      "grad_norm": 3.818143844604492,
      "learning_rate": 8.271621124116055e-05,
      "loss": 0.23757975101470946,
      "memory(GiB)": 70.5,
      "step": 31855,
      "token_acc": 0.9577922077922078,
      "train_speed(iter/s)": 1.457735
    },
    {
      "epoch": 1.36498007797438,
      "grad_norm": 3.4566218852996826,
      "learning_rate": 8.271112179537113e-05,
      "loss": 0.25226621627807616,
      "memory(GiB)": 70.5,
      "step": 31860,
      "token_acc": 0.9444444444444444,
      "train_speed(iter/s)": 1.457726
    },
    {
      "epoch": 1.3651942933036287,
      "grad_norm": 2.7064688205718994,
      "learning_rate": 8.270603175698904e-05,
      "loss": 0.2932211637496948,
      "memory(GiB)": 70.5,
      "step": 31865,
      "token_acc": 0.9260450160771704,
      "train_speed(iter/s)": 1.457706
    },
    {
      "epoch": 1.3654085086328778,
      "grad_norm": 5.313023090362549,
      "learning_rate": 8.270094112610651e-05,
      "loss": 0.33902697563171386,
      "memory(GiB)": 70.5,
      "step": 31870,
      "token_acc": 0.9340277777777778,
      "train_speed(iter/s)": 1.457695
    },
    {
      "epoch": 1.3656227239621268,
      "grad_norm": 4.478115081787109,
      "learning_rate": 8.269584990281575e-05,
      "loss": 0.36807637214660643,
      "memory(GiB)": 70.5,
      "step": 31875,
      "token_acc": 0.916955017301038,
      "train_speed(iter/s)": 1.457685
    },
    {
      "epoch": 1.3658369392913756,
      "grad_norm": 3.70460844039917,
      "learning_rate": 8.269075808720901e-05,
      "loss": 0.4497077941894531,
      "memory(GiB)": 70.5,
      "step": 31880,
      "token_acc": 0.8839285714285714,
      "train_speed(iter/s)": 1.457687
    },
    {
      "epoch": 1.3660511546206247,
      "grad_norm": 3.599642515182495,
      "learning_rate": 8.268566567937851e-05,
      "loss": 0.4753710746765137,
      "memory(GiB)": 70.5,
      "step": 31885,
      "token_acc": 0.9072463768115943,
      "train_speed(iter/s)": 1.457712
    },
    {
      "epoch": 1.3662653699498737,
      "grad_norm": 1.5511904954910278,
      "learning_rate": 8.268057267941652e-05,
      "loss": 0.22208127975463868,
      "memory(GiB)": 70.5,
      "step": 31890,
      "token_acc": 0.9537366548042705,
      "train_speed(iter/s)": 1.457707
    },
    {
      "epoch": 1.3664795852791225,
      "grad_norm": 0.3646186888217926,
      "learning_rate": 8.267547908741529e-05,
      "loss": 0.3991560459136963,
      "memory(GiB)": 70.5,
      "step": 31895,
      "token_acc": 0.9182389937106918,
      "train_speed(iter/s)": 1.45773
    },
    {
      "epoch": 1.3666938006083715,
      "grad_norm": 3.52769136428833,
      "learning_rate": 8.267038490346712e-05,
      "loss": 0.13142645359039307,
      "memory(GiB)": 70.5,
      "step": 31900,
      "token_acc": 0.9708333333333333,
      "train_speed(iter/s)": 1.45774
    },
    {
      "epoch": 1.3669080159376206,
      "grad_norm": 3.0482499599456787,
      "learning_rate": 8.266529012766428e-05,
      "loss": 0.30567524433135984,
      "memory(GiB)": 70.5,
      "step": 31905,
      "token_acc": 0.9348534201954397,
      "train_speed(iter/s)": 1.457751
    },
    {
      "epoch": 1.3671222312668694,
      "grad_norm": 1.7586435079574585,
      "learning_rate": 8.266019476009905e-05,
      "loss": 0.3112502574920654,
      "memory(GiB)": 70.5,
      "step": 31910,
      "token_acc": 0.9436619718309859,
      "train_speed(iter/s)": 1.457755
    },
    {
      "epoch": 1.3673364465961184,
      "grad_norm": 3.4042930603027344,
      "learning_rate": 8.265509880086376e-05,
      "loss": 0.5230031967163086,
      "memory(GiB)": 70.5,
      "step": 31915,
      "token_acc": 0.89937106918239,
      "train_speed(iter/s)": 1.457749
    },
    {
      "epoch": 1.3675506619253675,
      "grad_norm": 3.1301589012145996,
      "learning_rate": 8.265000225005073e-05,
      "loss": 0.3028783082962036,
      "memory(GiB)": 70.5,
      "step": 31920,
      "token_acc": 0.9235880398671097,
      "train_speed(iter/s)": 1.457746
    },
    {
      "epoch": 1.3677648772546163,
      "grad_norm": 3.2562994956970215,
      "learning_rate": 8.264490510775227e-05,
      "loss": 0.34783596992492677,
      "memory(GiB)": 70.5,
      "step": 31925,
      "token_acc": 0.9335548172757475,
      "train_speed(iter/s)": 1.457744
    },
    {
      "epoch": 1.3679790925838653,
      "grad_norm": 2.54302716255188,
      "learning_rate": 8.263980737406073e-05,
      "loss": 0.3944389343261719,
      "memory(GiB)": 70.5,
      "step": 31930,
      "token_acc": 0.9057239057239057,
      "train_speed(iter/s)": 1.457742
    },
    {
      "epoch": 1.3681933079131143,
      "grad_norm": 3.174320936203003,
      "learning_rate": 8.263470904906849e-05,
      "loss": 0.22257516384124756,
      "memory(GiB)": 70.5,
      "step": 31935,
      "token_acc": 0.9490445859872612,
      "train_speed(iter/s)": 1.457755
    },
    {
      "epoch": 1.3684075232423631,
      "grad_norm": 5.440356731414795,
      "learning_rate": 8.262961013286785e-05,
      "loss": 0.38632588386535643,
      "memory(GiB)": 70.5,
      "step": 31940,
      "token_acc": 0.9403341288782816,
      "train_speed(iter/s)": 1.457763
    },
    {
      "epoch": 1.3686217385716122,
      "grad_norm": 3.0923423767089844,
      "learning_rate": 8.262451062555123e-05,
      "loss": 0.34702956676483154,
      "memory(GiB)": 70.5,
      "step": 31945,
      "token_acc": 0.9154929577464789,
      "train_speed(iter/s)": 1.457757
    },
    {
      "epoch": 1.3688359539008612,
      "grad_norm": 4.387852191925049,
      "learning_rate": 8.261941052721098e-05,
      "loss": 0.5697942733764648,
      "memory(GiB)": 70.5,
      "step": 31950,
      "token_acc": 0.8717105263157895,
      "train_speed(iter/s)": 1.457748
    },
    {
      "epoch": 1.36905016923011,
      "grad_norm": 3.1159541606903076,
      "learning_rate": 8.261430983793952e-05,
      "loss": 0.3980264186859131,
      "memory(GiB)": 70.5,
      "step": 31955,
      "token_acc": 0.9018181818181819,
      "train_speed(iter/s)": 1.457778
    },
    {
      "epoch": 1.369264384559359,
      "grad_norm": 3.072955369949341,
      "learning_rate": 8.260920855782924e-05,
      "loss": 0.36126999855041503,
      "memory(GiB)": 70.5,
      "step": 31960,
      "token_acc": 0.9168975069252078,
      "train_speed(iter/s)": 1.457787
    },
    {
      "epoch": 1.369478599888608,
      "grad_norm": 4.613468647003174,
      "learning_rate": 8.260410668697255e-05,
      "loss": 0.2875772476196289,
      "memory(GiB)": 70.5,
      "step": 31965,
      "token_acc": 0.9230769230769231,
      "train_speed(iter/s)": 1.457842
    },
    {
      "epoch": 1.369692815217857,
      "grad_norm": 3.6807515621185303,
      "learning_rate": 8.25990042254619e-05,
      "loss": 0.5986684799194336,
      "memory(GiB)": 70.5,
      "step": 31970,
      "token_acc": 0.8910256410256411,
      "train_speed(iter/s)": 1.457825
    },
    {
      "epoch": 1.369907030547106,
      "grad_norm": 5.805131912231445,
      "learning_rate": 8.25939011733897e-05,
      "loss": 0.5248695373535156,
      "memory(GiB)": 70.5,
      "step": 31975,
      "token_acc": 0.9050847457627119,
      "train_speed(iter/s)": 1.45786
    },
    {
      "epoch": 1.370121245876355,
      "grad_norm": 5.289968967437744,
      "learning_rate": 8.25887975308484e-05,
      "loss": 0.37045552730560305,
      "memory(GiB)": 70.5,
      "step": 31980,
      "token_acc": 0.9185185185185185,
      "train_speed(iter/s)": 1.457874
    },
    {
      "epoch": 1.3703354612056038,
      "grad_norm": 4.060341835021973,
      "learning_rate": 8.258369329793046e-05,
      "loss": 0.3497091054916382,
      "memory(GiB)": 70.5,
      "step": 31985,
      "token_acc": 0.9152542372881356,
      "train_speed(iter/s)": 1.457892
    },
    {
      "epoch": 1.3705496765348528,
      "grad_norm": 7.005445957183838,
      "learning_rate": 8.257858847472836e-05,
      "loss": 0.7233686447143555,
      "memory(GiB)": 70.5,
      "step": 31990,
      "token_acc": 0.8518518518518519,
      "train_speed(iter/s)": 1.457889
    },
    {
      "epoch": 1.3707638918641019,
      "grad_norm": 2.3483924865722656,
      "learning_rate": 8.257348306133457e-05,
      "loss": 0.4229994297027588,
      "memory(GiB)": 70.5,
      "step": 31995,
      "token_acc": 0.9127272727272727,
      "train_speed(iter/s)": 1.457919
    },
    {
      "epoch": 1.3709781071933507,
      "grad_norm": 4.431223392486572,
      "learning_rate": 8.256837705784157e-05,
      "loss": 0.2819665431976318,
      "memory(GiB)": 70.5,
      "step": 32000,
      "token_acc": 0.9420849420849421,
      "train_speed(iter/s)": 1.457896
    },
    {
      "epoch": 1.3709781071933507,
      "eval_loss": 2.532160520553589,
      "eval_runtime": 13.176,
      "eval_samples_per_second": 7.59,
      "eval_steps_per_second": 7.59,
      "eval_token_acc": 0.44297082228116713,
      "step": 32000
    },
    {
      "epoch": 1.3711923225225997,
      "grad_norm": 2.0553698539733887,
      "learning_rate": 8.256327046434187e-05,
      "loss": 0.3000528812408447,
      "memory(GiB)": 70.5,
      "step": 32005,
      "token_acc": 0.5786407766990291,
      "train_speed(iter/s)": 1.45695
    },
    {
      "epoch": 1.3714065378518487,
      "grad_norm": 7.197695255279541,
      "learning_rate": 8.255816328092798e-05,
      "loss": 0.4443856716156006,
      "memory(GiB)": 70.5,
      "step": 32010,
      "token_acc": 0.8846153846153846,
      "train_speed(iter/s)": 1.456957
    },
    {
      "epoch": 1.3716207531810976,
      "grad_norm": 4.224639892578125,
      "learning_rate": 8.255305550769242e-05,
      "loss": 0.37266175746917723,
      "memory(GiB)": 70.5,
      "step": 32015,
      "token_acc": 0.9315068493150684,
      "train_speed(iter/s)": 1.456972
    },
    {
      "epoch": 1.3718349685103466,
      "grad_norm": 2.7306935787200928,
      "learning_rate": 8.254794714472771e-05,
      "loss": 0.4203244686126709,
      "memory(GiB)": 70.5,
      "step": 32020,
      "token_acc": 0.9155405405405406,
      "train_speed(iter/s)": 1.456969
    },
    {
      "epoch": 1.3720491838395956,
      "grad_norm": 1.7140921354293823,
      "learning_rate": 8.254283819212641e-05,
      "loss": 0.54891357421875,
      "memory(GiB)": 70.5,
      "step": 32025,
      "token_acc": 0.8659420289855072,
      "train_speed(iter/s)": 1.456969
    },
    {
      "epoch": 1.3722633991688444,
      "grad_norm": 2.77667498588562,
      "learning_rate": 8.253772864998108e-05,
      "loss": 0.1545766830444336,
      "memory(GiB)": 70.5,
      "step": 32030,
      "token_acc": 0.9612903225806452,
      "train_speed(iter/s)": 1.456994
    },
    {
      "epoch": 1.3724776144980935,
      "grad_norm": 7.833395004272461,
      "learning_rate": 8.253261851838426e-05,
      "loss": 0.5221186637878418,
      "memory(GiB)": 70.5,
      "step": 32035,
      "token_acc": 0.8958333333333334,
      "train_speed(iter/s)": 1.456986
    },
    {
      "epoch": 1.3726918298273425,
      "grad_norm": 6.054584980010986,
      "learning_rate": 8.252750779742855e-05,
      "loss": 0.33981420993804934,
      "memory(GiB)": 70.5,
      "step": 32040,
      "token_acc": 0.925,
      "train_speed(iter/s)": 1.45698
    },
    {
      "epoch": 1.3729060451565913,
      "grad_norm": 2.408048152923584,
      "learning_rate": 8.252239648720652e-05,
      "loss": 0.5078291416168212,
      "memory(GiB)": 70.5,
      "step": 32045,
      "token_acc": 0.9058171745152355,
      "train_speed(iter/s)": 1.456987
    },
    {
      "epoch": 1.3731202604858403,
      "grad_norm": 1.74077308177948,
      "learning_rate": 8.251728458781077e-05,
      "loss": 0.2731207609176636,
      "memory(GiB)": 70.5,
      "step": 32050,
      "token_acc": 0.9535714285714286,
      "train_speed(iter/s)": 1.457004
    },
    {
      "epoch": 1.3733344758150894,
      "grad_norm": 1.6594849824905396,
      "learning_rate": 8.25121720993339e-05,
      "loss": 0.1647382855415344,
      "memory(GiB)": 70.5,
      "step": 32055,
      "token_acc": 0.9667774086378738,
      "train_speed(iter/s)": 1.457033
    },
    {
      "epoch": 1.3735486911443382,
      "grad_norm": 2.4297006130218506,
      "learning_rate": 8.250705902186853e-05,
      "loss": 0.2204202175140381,
      "memory(GiB)": 70.5,
      "step": 32060,
      "token_acc": 0.958904109589041,
      "train_speed(iter/s)": 1.45704
    },
    {
      "epoch": 1.3737629064735872,
      "grad_norm": 3.165316343307495,
      "learning_rate": 8.250194535550731e-05,
      "loss": 0.7310371398925781,
      "memory(GiB)": 70.5,
      "step": 32065,
      "token_acc": 0.82421875,
      "train_speed(iter/s)": 1.457068
    },
    {
      "epoch": 1.3739771218028363,
      "grad_norm": 6.0668745040893555,
      "learning_rate": 8.249683110034283e-05,
      "loss": 0.2654466390609741,
      "memory(GiB)": 70.5,
      "step": 32070,
      "token_acc": 0.942652329749104,
      "train_speed(iter/s)": 1.457092
    },
    {
      "epoch": 1.374191337132085,
      "grad_norm": 0.18777452409267426,
      "learning_rate": 8.249171625646779e-05,
      "loss": 0.13462849855422973,
      "memory(GiB)": 70.5,
      "step": 32075,
      "token_acc": 0.9717514124293786,
      "train_speed(iter/s)": 1.457087
    },
    {
      "epoch": 1.3744055524613341,
      "grad_norm": 3.8863282203674316,
      "learning_rate": 8.248660082397484e-05,
      "loss": 0.26862483024597167,
      "memory(GiB)": 70.5,
      "step": 32080,
      "token_acc": 0.9384615384615385,
      "train_speed(iter/s)": 1.457091
    },
    {
      "epoch": 1.3746197677905831,
      "grad_norm": 2.524604558944702,
      "learning_rate": 8.248148480295662e-05,
      "loss": 0.21852569580078124,
      "memory(GiB)": 70.5,
      "step": 32085,
      "token_acc": 0.9594594594594594,
      "train_speed(iter/s)": 1.457087
    },
    {
      "epoch": 1.374833983119832,
      "grad_norm": 3.3840060234069824,
      "learning_rate": 8.247636819350584e-05,
      "loss": 0.37594149112701414,
      "memory(GiB)": 70.5,
      "step": 32090,
      "token_acc": 0.9347079037800687,
      "train_speed(iter/s)": 1.457083
    },
    {
      "epoch": 1.375048198449081,
      "grad_norm": 7.884053707122803,
      "learning_rate": 8.24712509957152e-05,
      "loss": 0.36580533981323243,
      "memory(GiB)": 70.5,
      "step": 32095,
      "token_acc": 0.9176829268292683,
      "train_speed(iter/s)": 1.457109
    },
    {
      "epoch": 1.37526241377833,
      "grad_norm": 1.3437950611114502,
      "learning_rate": 8.246613320967737e-05,
      "loss": 0.3781019687652588,
      "memory(GiB)": 70.5,
      "step": 32100,
      "token_acc": 0.9155844155844156,
      "train_speed(iter/s)": 1.457137
    },
    {
      "epoch": 1.3754766291075788,
      "grad_norm": 4.883720397949219,
      "learning_rate": 8.246101483548508e-05,
      "loss": 0.8176294326782226,
      "memory(GiB)": 70.5,
      "step": 32105,
      "token_acc": 0.8492647058823529,
      "train_speed(iter/s)": 1.457163
    },
    {
      "epoch": 1.3756908444368279,
      "grad_norm": 3.8525595664978027,
      "learning_rate": 8.245589587323106e-05,
      "loss": 0.5294348239898682,
      "memory(GiB)": 70.5,
      "step": 32110,
      "token_acc": 0.8925619834710744,
      "train_speed(iter/s)": 1.45717
    },
    {
      "epoch": 1.375905059766077,
      "grad_norm": 6.001770496368408,
      "learning_rate": 8.245077632300803e-05,
      "loss": 0.3820990562438965,
      "memory(GiB)": 70.5,
      "step": 32115,
      "token_acc": 0.9189944134078212,
      "train_speed(iter/s)": 1.457186
    },
    {
      "epoch": 1.3761192750953257,
      "grad_norm": 0.11563972383737564,
      "learning_rate": 8.244565618490876e-05,
      "loss": 0.23394761085510254,
      "memory(GiB)": 70.5,
      "step": 32120,
      "token_acc": 0.951048951048951,
      "train_speed(iter/s)": 1.457182
    },
    {
      "epoch": 1.3763334904245748,
      "grad_norm": 1.7527168989181519,
      "learning_rate": 8.2440535459026e-05,
      "loss": 0.3112152338027954,
      "memory(GiB)": 70.5,
      "step": 32125,
      "token_acc": 0.9244604316546763,
      "train_speed(iter/s)": 1.457176
    },
    {
      "epoch": 1.3765477057538238,
      "grad_norm": 3.780912399291992,
      "learning_rate": 8.24354141454525e-05,
      "loss": 0.31051657199859617,
      "memory(GiB)": 70.5,
      "step": 32130,
      "token_acc": 0.92018779342723,
      "train_speed(iter/s)": 1.457181
    },
    {
      "epoch": 1.3767619210830726,
      "grad_norm": 4.370469570159912,
      "learning_rate": 8.243029224428104e-05,
      "loss": 0.5296236991882324,
      "memory(GiB)": 70.5,
      "step": 32135,
      "token_acc": 0.8970189701897019,
      "train_speed(iter/s)": 1.457166
    },
    {
      "epoch": 1.3769761364123216,
      "grad_norm": 2.074307441711426,
      "learning_rate": 8.242516975560441e-05,
      "loss": 0.174199640750885,
      "memory(GiB)": 70.5,
      "step": 32140,
      "token_acc": 0.9373219373219374,
      "train_speed(iter/s)": 1.457153
    },
    {
      "epoch": 1.3771903517415707,
      "grad_norm": 5.273651599884033,
      "learning_rate": 8.242004667951542e-05,
      "loss": 0.6477722644805908,
      "memory(GiB)": 70.5,
      "step": 32145,
      "token_acc": 0.8717105263157895,
      "train_speed(iter/s)": 1.457156
    },
    {
      "epoch": 1.3774045670708195,
      "grad_norm": 1.6734651327133179,
      "learning_rate": 8.241492301610688e-05,
      "loss": 0.15907740592956543,
      "memory(GiB)": 70.5,
      "step": 32150,
      "token_acc": 0.9663299663299664,
      "train_speed(iter/s)": 1.457163
    },
    {
      "epoch": 1.3776187824000685,
      "grad_norm": 3.82840633392334,
      "learning_rate": 8.240979876547159e-05,
      "loss": 0.4010054588317871,
      "memory(GiB)": 70.5,
      "step": 32155,
      "token_acc": 0.9276729559748428,
      "train_speed(iter/s)": 1.457172
    },
    {
      "epoch": 1.3778329977293176,
      "grad_norm": 2.002253770828247,
      "learning_rate": 8.240467392770239e-05,
      "loss": 0.43529567718505857,
      "memory(GiB)": 70.5,
      "step": 32160,
      "token_acc": 0.8934707903780069,
      "train_speed(iter/s)": 1.45718
    },
    {
      "epoch": 1.3780472130585664,
      "grad_norm": 3.6323773860931396,
      "learning_rate": 8.239954850289215e-05,
      "loss": 0.3604447364807129,
      "memory(GiB)": 70.5,
      "step": 32165,
      "token_acc": 0.9074733096085409,
      "train_speed(iter/s)": 1.457194
    },
    {
      "epoch": 1.3782614283878154,
      "grad_norm": 3.106717586517334,
      "learning_rate": 8.239442249113366e-05,
      "loss": 0.6518895149230957,
      "memory(GiB)": 70.5,
      "step": 32170,
      "token_acc": 0.8515151515151516,
      "train_speed(iter/s)": 1.457175
    },
    {
      "epoch": 1.3784756437170644,
      "grad_norm": 2.947605609893799,
      "learning_rate": 8.238929589251984e-05,
      "loss": 0.4439565658569336,
      "memory(GiB)": 70.5,
      "step": 32175,
      "token_acc": 0.9221183800623053,
      "train_speed(iter/s)": 1.457179
    },
    {
      "epoch": 1.3786898590463132,
      "grad_norm": 2.819342613220215,
      "learning_rate": 8.238416870714354e-05,
      "loss": 0.28369951248168945,
      "memory(GiB)": 70.5,
      "step": 32180,
      "token_acc": 0.9351851851851852,
      "train_speed(iter/s)": 1.457191
    },
    {
      "epoch": 1.3789040743755623,
      "grad_norm": 1.3997077941894531,
      "learning_rate": 8.237904093509763e-05,
      "loss": 0.29419400691986086,
      "memory(GiB)": 70.5,
      "step": 32185,
      "token_acc": 0.9380281690140845,
      "train_speed(iter/s)": 1.45722
    },
    {
      "epoch": 1.3791182897048113,
      "grad_norm": 3.8012571334838867,
      "learning_rate": 8.237391257647503e-05,
      "loss": 0.5045494079589844,
      "memory(GiB)": 70.5,
      "step": 32190,
      "token_acc": 0.9047619047619048,
      "train_speed(iter/s)": 1.457228
    },
    {
      "epoch": 1.3793325050340601,
      "grad_norm": 4.8689351081848145,
      "learning_rate": 8.236878363136864e-05,
      "loss": 0.5186985015869141,
      "memory(GiB)": 70.5,
      "step": 32195,
      "token_acc": 0.8694158075601375,
      "train_speed(iter/s)": 1.45723
    },
    {
      "epoch": 1.3795467203633092,
      "grad_norm": 3.273545265197754,
      "learning_rate": 8.236365409987136e-05,
      "loss": 0.3814507484436035,
      "memory(GiB)": 70.5,
      "step": 32200,
      "token_acc": 0.9208860759493671,
      "train_speed(iter/s)": 1.457231
    },
    {
      "epoch": 1.3797609356925582,
      "grad_norm": 3.7436485290527344,
      "learning_rate": 8.235852398207613e-05,
      "loss": 0.2816474437713623,
      "memory(GiB)": 70.5,
      "step": 32205,
      "token_acc": 0.9261744966442953,
      "train_speed(iter/s)": 1.457248
    },
    {
      "epoch": 1.379975151021807,
      "grad_norm": 3.266841173171997,
      "learning_rate": 8.235339327807588e-05,
      "loss": 0.25040698051452637,
      "memory(GiB)": 70.5,
      "step": 32210,
      "token_acc": 0.9682539682539683,
      "train_speed(iter/s)": 1.457245
    },
    {
      "epoch": 1.380189366351056,
      "grad_norm": 2.162195920944214,
      "learning_rate": 8.234826198796357e-05,
      "loss": 0.3920745849609375,
      "memory(GiB)": 70.5,
      "step": 32215,
      "token_acc": 0.9260700389105059,
      "train_speed(iter/s)": 1.457249
    },
    {
      "epoch": 1.380403581680305,
      "grad_norm": 5.555407524108887,
      "learning_rate": 8.234313011183215e-05,
      "loss": 0.5098192691802979,
      "memory(GiB)": 70.5,
      "step": 32220,
      "token_acc": 0.8989169675090253,
      "train_speed(iter/s)": 1.457254
    },
    {
      "epoch": 1.380617797009554,
      "grad_norm": 5.773783206939697,
      "learning_rate": 8.233799764977457e-05,
      "loss": 0.38539412021636965,
      "memory(GiB)": 70.5,
      "step": 32225,
      "token_acc": 0.9219330855018587,
      "train_speed(iter/s)": 1.457269
    },
    {
      "epoch": 1.380832012338803,
      "grad_norm": 1.874683141708374,
      "learning_rate": 8.233286460188385e-05,
      "loss": 0.24951043128967285,
      "memory(GiB)": 70.5,
      "step": 32230,
      "token_acc": 0.94,
      "train_speed(iter/s)": 1.457269
    },
    {
      "epoch": 1.381046227668052,
      "grad_norm": 4.714671611785889,
      "learning_rate": 8.232773096825295e-05,
      "loss": 0.6903680801391602,
      "memory(GiB)": 70.5,
      "step": 32235,
      "token_acc": 0.8545454545454545,
      "train_speed(iter/s)": 1.457276
    },
    {
      "epoch": 1.3812604429973008,
      "grad_norm": 5.8517255783081055,
      "learning_rate": 8.232259674897486e-05,
      "loss": 0.4654864311218262,
      "memory(GiB)": 70.5,
      "step": 32240,
      "token_acc": 0.8803418803418803,
      "train_speed(iter/s)": 1.457321
    },
    {
      "epoch": 1.3814746583265498,
      "grad_norm": 2.907517433166504,
      "learning_rate": 8.231746194414262e-05,
      "loss": 0.4842668533325195,
      "memory(GiB)": 70.5,
      "step": 32245,
      "token_acc": 0.8949416342412452,
      "train_speed(iter/s)": 1.457315
    },
    {
      "epoch": 1.3816888736557988,
      "grad_norm": 2.86401629447937,
      "learning_rate": 8.231232655384924e-05,
      "loss": 0.2550722599029541,
      "memory(GiB)": 70.5,
      "step": 32250,
      "token_acc": 0.9395017793594306,
      "train_speed(iter/s)": 1.45731
    },
    {
      "epoch": 1.3819030889850477,
      "grad_norm": 0.7355995774269104,
      "learning_rate": 8.230719057818776e-05,
      "loss": 0.1644014835357666,
      "memory(GiB)": 70.5,
      "step": 32255,
      "token_acc": 0.966996699669967,
      "train_speed(iter/s)": 1.457322
    },
    {
      "epoch": 1.3821173043142967,
      "grad_norm": 2.1709253787994385,
      "learning_rate": 8.230205401725122e-05,
      "loss": 0.3010568141937256,
      "memory(GiB)": 70.5,
      "step": 32260,
      "token_acc": 0.9423868312757202,
      "train_speed(iter/s)": 1.45734
    },
    {
      "epoch": 1.3823315196435457,
      "grad_norm": 5.618229866027832,
      "learning_rate": 8.229691687113266e-05,
      "loss": 0.3503615379333496,
      "memory(GiB)": 70.5,
      "step": 32265,
      "token_acc": 0.9280575539568345,
      "train_speed(iter/s)": 1.457338
    },
    {
      "epoch": 1.3825457349727945,
      "grad_norm": 1.3078358173370361,
      "learning_rate": 8.229177913992515e-05,
      "loss": 0.2029940128326416,
      "memory(GiB)": 70.5,
      "step": 32270,
      "token_acc": 0.9517241379310345,
      "train_speed(iter/s)": 1.457339
    },
    {
      "epoch": 1.3827599503020436,
      "grad_norm": 2.388556957244873,
      "learning_rate": 8.228664082372177e-05,
      "loss": 0.31212592124938965,
      "memory(GiB)": 70.5,
      "step": 32275,
      "token_acc": 0.940959409594096,
      "train_speed(iter/s)": 1.45733
    },
    {
      "epoch": 1.3829741656312926,
      "grad_norm": 5.729292869567871,
      "learning_rate": 8.22815019226156e-05,
      "loss": 0.1592286705970764,
      "memory(GiB)": 70.5,
      "step": 32280,
      "token_acc": 0.9606299212598425,
      "train_speed(iter/s)": 1.457345
    },
    {
      "epoch": 1.3831883809605414,
      "grad_norm": 2.128621816635132,
      "learning_rate": 8.227636243669976e-05,
      "loss": 0.37635436058044436,
      "memory(GiB)": 70.5,
      "step": 32285,
      "token_acc": 0.9248366013071896,
      "train_speed(iter/s)": 1.45734
    },
    {
      "epoch": 1.3834025962897905,
      "grad_norm": 2.9642577171325684,
      "learning_rate": 8.227122236606733e-05,
      "loss": 0.6915351867675781,
      "memory(GiB)": 70.5,
      "step": 32290,
      "token_acc": 0.8745762711864407,
      "train_speed(iter/s)": 1.457333
    },
    {
      "epoch": 1.3836168116190395,
      "grad_norm": 2.712683916091919,
      "learning_rate": 8.226608171081143e-05,
      "loss": 0.24480268955230713,
      "memory(GiB)": 70.5,
      "step": 32295,
      "token_acc": 0.9393939393939394,
      "train_speed(iter/s)": 1.457342
    },
    {
      "epoch": 1.3838310269482883,
      "grad_norm": 4.460596084594727,
      "learning_rate": 8.22609404710252e-05,
      "loss": 0.6994988441467285,
      "memory(GiB)": 70.5,
      "step": 32300,
      "token_acc": 0.8127090301003345,
      "train_speed(iter/s)": 1.45738
    },
    {
      "epoch": 1.3840452422775373,
      "grad_norm": 5.2526373863220215,
      "learning_rate": 8.225579864680175e-05,
      "loss": 0.281787633895874,
      "memory(GiB)": 70.5,
      "step": 32305,
      "token_acc": 0.9471947194719472,
      "train_speed(iter/s)": 1.457437
    },
    {
      "epoch": 1.3842594576067864,
      "grad_norm": 4.060218811035156,
      "learning_rate": 8.225065623823427e-05,
      "loss": 0.31798791885375977,
      "memory(GiB)": 70.5,
      "step": 32310,
      "token_acc": 0.9264214046822743,
      "train_speed(iter/s)": 1.457446
    },
    {
      "epoch": 1.3844736729360352,
      "grad_norm": 3.5831298828125,
      "learning_rate": 8.224551324541588e-05,
      "loss": 0.3508453845977783,
      "memory(GiB)": 70.5,
      "step": 32315,
      "token_acc": 0.9131832797427653,
      "train_speed(iter/s)": 1.45745
    },
    {
      "epoch": 1.3846878882652842,
      "grad_norm": 5.700521945953369,
      "learning_rate": 8.224036966843978e-05,
      "loss": 0.8032633781433105,
      "memory(GiB)": 70.5,
      "step": 32320,
      "token_acc": 0.8576051779935275,
      "train_speed(iter/s)": 1.457456
    },
    {
      "epoch": 1.3849021035945333,
      "grad_norm": 3.8296563625335693,
      "learning_rate": 8.223522550739913e-05,
      "loss": 0.8110624313354492,
      "memory(GiB)": 70.5,
      "step": 32325,
      "token_acc": 0.8308823529411765,
      "train_speed(iter/s)": 1.457508
    },
    {
      "epoch": 1.385116318923782,
      "grad_norm": 2.8741486072540283,
      "learning_rate": 8.223008076238714e-05,
      "loss": 0.3082327127456665,
      "memory(GiB)": 70.5,
      "step": 32330,
      "token_acc": 0.9313432835820895,
      "train_speed(iter/s)": 1.457501
    },
    {
      "epoch": 1.385330534253031,
      "grad_norm": 1.2491176128387451,
      "learning_rate": 8.2224935433497e-05,
      "loss": 0.22350528240203857,
      "memory(GiB)": 70.5,
      "step": 32335,
      "token_acc": 0.9295774647887324,
      "train_speed(iter/s)": 1.457503
    },
    {
      "epoch": 1.3855447495822801,
      "grad_norm": 6.132023334503174,
      "learning_rate": 8.221978952082192e-05,
      "loss": 0.41538128852844236,
      "memory(GiB)": 70.5,
      "step": 32340,
      "token_acc": 0.9158249158249159,
      "train_speed(iter/s)": 1.457517
    },
    {
      "epoch": 1.385758964911529,
      "grad_norm": 2.58559513092041,
      "learning_rate": 8.221464302445514e-05,
      "loss": 0.45170011520385744,
      "memory(GiB)": 70.5,
      "step": 32345,
      "token_acc": 0.916058394160584,
      "train_speed(iter/s)": 1.457504
    },
    {
      "epoch": 1.385973180240778,
      "grad_norm": 0.6782761812210083,
      "learning_rate": 8.220949594448987e-05,
      "loss": 0.12675669193267822,
      "memory(GiB)": 70.5,
      "step": 32350,
      "token_acc": 0.9607250755287009,
      "train_speed(iter/s)": 1.457494
    },
    {
      "epoch": 1.386187395570027,
      "grad_norm": 7.788651466369629,
      "learning_rate": 8.220434828101937e-05,
      "loss": 0.3112801551818848,
      "memory(GiB)": 70.5,
      "step": 32355,
      "token_acc": 0.9335548172757475,
      "train_speed(iter/s)": 1.45751
    },
    {
      "epoch": 1.3864016108992758,
      "grad_norm": 1.8518377542495728,
      "learning_rate": 8.219920003413691e-05,
      "loss": 0.29560849666595457,
      "memory(GiB)": 70.5,
      "step": 32360,
      "token_acc": 0.9321428571428572,
      "train_speed(iter/s)": 1.457516
    },
    {
      "epoch": 1.3866158262285249,
      "grad_norm": 2.37375807762146,
      "learning_rate": 8.219405120393571e-05,
      "loss": 0.1750762939453125,
      "memory(GiB)": 70.5,
      "step": 32365,
      "token_acc": 0.962457337883959,
      "train_speed(iter/s)": 1.45752
    },
    {
      "epoch": 1.386830041557774,
      "grad_norm": 0.31941303610801697,
      "learning_rate": 8.218890179050908e-05,
      "loss": 0.16724418401718139,
      "memory(GiB)": 70.5,
      "step": 32370,
      "token_acc": 0.9664429530201343,
      "train_speed(iter/s)": 1.457516
    },
    {
      "epoch": 1.3870442568870227,
      "grad_norm": 4.626865386962891,
      "learning_rate": 8.21837517939503e-05,
      "loss": 0.32498321533203123,
      "memory(GiB)": 70.5,
      "step": 32375,
      "token_acc": 0.9266666666666666,
      "train_speed(iter/s)": 1.457513
    },
    {
      "epoch": 1.3872584722162717,
      "grad_norm": 5.046666145324707,
      "learning_rate": 8.217860121435267e-05,
      "loss": 0.6435388565063477,
      "memory(GiB)": 70.5,
      "step": 32380,
      "token_acc": 0.8662420382165605,
      "train_speed(iter/s)": 1.457515
    },
    {
      "epoch": 1.3874726875455208,
      "grad_norm": 2.330810546875,
      "learning_rate": 8.217345005180949e-05,
      "loss": 0.3567062854766846,
      "memory(GiB)": 70.5,
      "step": 32385,
      "token_acc": 0.9331476323119777,
      "train_speed(iter/s)": 1.457509
    },
    {
      "epoch": 1.3876869028747696,
      "grad_norm": 3.0437517166137695,
      "learning_rate": 8.216829830641408e-05,
      "loss": 0.2532304286956787,
      "memory(GiB)": 70.5,
      "step": 32390,
      "token_acc": 0.9513274336283186,
      "train_speed(iter/s)": 1.45752
    },
    {
      "epoch": 1.3879011182040186,
      "grad_norm": 1.2395830154418945,
      "learning_rate": 8.216314597825976e-05,
      "loss": 0.2379124641418457,
      "memory(GiB)": 70.5,
      "step": 32395,
      "token_acc": 0.948051948051948,
      "train_speed(iter/s)": 1.457539
    },
    {
      "epoch": 1.3881153335332677,
      "grad_norm": 0.2521931827068329,
      "learning_rate": 8.215799306743989e-05,
      "loss": 0.415833854675293,
      "memory(GiB)": 70.5,
      "step": 32400,
      "token_acc": 0.9024390243902439,
      "train_speed(iter/s)": 1.45754
    },
    {
      "epoch": 1.3883295488625165,
      "grad_norm": 5.775968074798584,
      "learning_rate": 8.21528395740478e-05,
      "loss": 0.3893868923187256,
      "memory(GiB)": 70.5,
      "step": 32405,
      "token_acc": 0.9111111111111111,
      "train_speed(iter/s)": 1.457548
    },
    {
      "epoch": 1.3885437641917655,
      "grad_norm": 2.998814582824707,
      "learning_rate": 8.214768549817687e-05,
      "loss": 0.25188887119293213,
      "memory(GiB)": 70.5,
      "step": 32410,
      "token_acc": 0.9536423841059603,
      "train_speed(iter/s)": 1.457566
    },
    {
      "epoch": 1.3887579795210145,
      "grad_norm": 1.9365471601486206,
      "learning_rate": 8.214253083992046e-05,
      "loss": 0.5819493770599365,
      "memory(GiB)": 70.5,
      "step": 32415,
      "token_acc": 0.8777173913043478,
      "train_speed(iter/s)": 1.457599
    },
    {
      "epoch": 1.3889721948502634,
      "grad_norm": 3.5333220958709717,
      "learning_rate": 8.213737559937195e-05,
      "loss": 0.18404618501663209,
      "memory(GiB)": 70.5,
      "step": 32420,
      "token_acc": 0.9616613418530351,
      "train_speed(iter/s)": 1.45761
    },
    {
      "epoch": 1.3891864101795124,
      "grad_norm": 3.850618600845337,
      "learning_rate": 8.213221977662473e-05,
      "loss": 0.5739490032196045,
      "memory(GiB)": 70.5,
      "step": 32425,
      "token_acc": 0.8721311475409836,
      "train_speed(iter/s)": 1.457646
    },
    {
      "epoch": 1.3894006255087614,
      "grad_norm": 3.344301700592041,
      "learning_rate": 8.212706337177221e-05,
      "loss": 0.4605151653289795,
      "memory(GiB)": 70.5,
      "step": 32430,
      "token_acc": 0.9230769230769231,
      "train_speed(iter/s)": 1.457663
    },
    {
      "epoch": 1.3896148408380102,
      "grad_norm": 0.8902029395103455,
      "learning_rate": 8.21219063849078e-05,
      "loss": 0.3421536207199097,
      "memory(GiB)": 70.5,
      "step": 32435,
      "token_acc": 0.9312714776632303,
      "train_speed(iter/s)": 1.45768
    },
    {
      "epoch": 1.3898290561672593,
      "grad_norm": 2.6746323108673096,
      "learning_rate": 8.211674881612492e-05,
      "loss": 0.33944244384765626,
      "memory(GiB)": 70.5,
      "step": 32440,
      "token_acc": 0.9343065693430657,
      "train_speed(iter/s)": 1.457688
    },
    {
      "epoch": 1.3900432714965083,
      "grad_norm": 0.15770979225635529,
      "learning_rate": 8.211159066551701e-05,
      "loss": 0.4866902828216553,
      "memory(GiB)": 70.5,
      "step": 32445,
      "token_acc": 0.8978328173374613,
      "train_speed(iter/s)": 1.457704
    },
    {
      "epoch": 1.3902574868257571,
      "grad_norm": 3.7505221366882324,
      "learning_rate": 8.210643193317751e-05,
      "loss": 0.3109349489212036,
      "memory(GiB)": 70.5,
      "step": 32450,
      "token_acc": 0.9245283018867925,
      "train_speed(iter/s)": 1.457717
    },
    {
      "epoch": 1.3904717021550062,
      "grad_norm": 2.0908260345458984,
      "learning_rate": 8.210127261919987e-05,
      "loss": 0.28436739444732667,
      "memory(GiB)": 70.5,
      "step": 32455,
      "token_acc": 0.9288888888888889,
      "train_speed(iter/s)": 1.457717
    },
    {
      "epoch": 1.3906859174842552,
      "grad_norm": 2.5882954597473145,
      "learning_rate": 8.209611272367758e-05,
      "loss": 0.2871634721755981,
      "memory(GiB)": 70.5,
      "step": 32460,
      "token_acc": 0.9491525423728814,
      "train_speed(iter/s)": 1.457705
    },
    {
      "epoch": 1.390900132813504,
      "grad_norm": 6.337554931640625,
      "learning_rate": 8.209095224670409e-05,
      "loss": 0.2924015522003174,
      "memory(GiB)": 70.5,
      "step": 32465,
      "token_acc": 0.9338235294117647,
      "train_speed(iter/s)": 1.457694
    },
    {
      "epoch": 1.391114348142753,
      "grad_norm": 3.0511271953582764,
      "learning_rate": 8.208579118837289e-05,
      "loss": 0.35691592693328855,
      "memory(GiB)": 70.5,
      "step": 32470,
      "token_acc": 0.9360902255639098,
      "train_speed(iter/s)": 1.457698
    },
    {
      "epoch": 1.391328563472002,
      "grad_norm": 2.0219345092773438,
      "learning_rate": 8.208062954877749e-05,
      "loss": 0.38450539112091064,
      "memory(GiB)": 70.5,
      "step": 32475,
      "token_acc": 0.9449152542372882,
      "train_speed(iter/s)": 1.457705
    },
    {
      "epoch": 1.3915427788012509,
      "grad_norm": 3.6567561626434326,
      "learning_rate": 8.207546732801139e-05,
      "loss": 0.1799038529396057,
      "memory(GiB)": 70.5,
      "step": 32480,
      "token_acc": 0.9615384615384616,
      "train_speed(iter/s)": 1.45771
    },
    {
      "epoch": 1.3917569941305,
      "grad_norm": 2.849738597869873,
      "learning_rate": 8.207030452616811e-05,
      "loss": 0.5542884349822998,
      "memory(GiB)": 70.5,
      "step": 32485,
      "token_acc": 0.873015873015873,
      "train_speed(iter/s)": 1.457722
    },
    {
      "epoch": 1.391971209459749,
      "grad_norm": 3.5457189083099365,
      "learning_rate": 8.206514114334119e-05,
      "loss": 0.5737681865692139,
      "memory(GiB)": 70.5,
      "step": 32490,
      "token_acc": 0.8851851851851852,
      "train_speed(iter/s)": 1.457713
    },
    {
      "epoch": 1.392185424788998,
      "grad_norm": 2.6888997554779053,
      "learning_rate": 8.205997717962415e-05,
      "loss": 0.344900107383728,
      "memory(GiB)": 70.5,
      "step": 32495,
      "token_acc": 0.9296875,
      "train_speed(iter/s)": 1.457716
    },
    {
      "epoch": 1.3923996401182468,
      "grad_norm": 4.539571762084961,
      "learning_rate": 8.205481263511054e-05,
      "loss": 0.4072887420654297,
      "memory(GiB)": 70.5,
      "step": 32500,
      "token_acc": 0.912751677852349,
      "train_speed(iter/s)": 1.457729
    },
    {
      "epoch": 1.3923996401182468,
      "eval_loss": 2.4475386142730713,
      "eval_runtime": 13.3317,
      "eval_samples_per_second": 7.501,
      "eval_steps_per_second": 7.501,
      "eval_token_acc": 0.4547945205479452,
      "step": 32500
    },
    {
      "epoch": 1.3926138554474958,
      "grad_norm": 2.547537088394165,
      "learning_rate": 8.204964750989393e-05,
      "loss": 0.3446155071258545,
      "memory(GiB)": 70.5,
      "step": 32505,
      "token_acc": 0.5884086444007859,
      "train_speed(iter/s)": 1.456829
    },
    {
      "epoch": 1.3928280707767449,
      "grad_norm": 2.6049139499664307,
      "learning_rate": 8.204448180406789e-05,
      "loss": 0.34813761711120605,
      "memory(GiB)": 70.5,
      "step": 32510,
      "token_acc": 0.9375,
      "train_speed(iter/s)": 1.456854
    },
    {
      "epoch": 1.3930422861059937,
      "grad_norm": 3.0669353008270264,
      "learning_rate": 8.203931551772602e-05,
      "loss": 0.5219156742095947,
      "memory(GiB)": 70.5,
      "step": 32515,
      "token_acc": 0.8780487804878049,
      "train_speed(iter/s)": 1.456856
    },
    {
      "epoch": 1.3932565014352427,
      "grad_norm": 1.457571029663086,
      "learning_rate": 8.203414865096188e-05,
      "loss": 0.7406195640563965,
      "memory(GiB)": 70.5,
      "step": 32520,
      "token_acc": 0.8715596330275229,
      "train_speed(iter/s)": 1.456862
    },
    {
      "epoch": 1.3934707167644917,
      "grad_norm": 4.963481903076172,
      "learning_rate": 8.20289812038691e-05,
      "loss": 0.33655457496643065,
      "memory(GiB)": 70.5,
      "step": 32525,
      "token_acc": 0.9294117647058824,
      "train_speed(iter/s)": 1.45689
    },
    {
      "epoch": 1.3936849320937406,
      "grad_norm": 3.9330601692199707,
      "learning_rate": 8.202381317654126e-05,
      "loss": 0.25961782932281496,
      "memory(GiB)": 70.5,
      "step": 32530,
      "token_acc": 0.9558823529411765,
      "train_speed(iter/s)": 1.456891
    },
    {
      "epoch": 1.3938991474229896,
      "grad_norm": 4.296410083770752,
      "learning_rate": 8.201864456907203e-05,
      "loss": 0.49450244903564455,
      "memory(GiB)": 70.5,
      "step": 32535,
      "token_acc": 0.8954703832752613,
      "train_speed(iter/s)": 1.456892
    },
    {
      "epoch": 1.3941133627522386,
      "grad_norm": 0.4593694508075714,
      "learning_rate": 8.201347538155499e-05,
      "loss": 0.3442013502120972,
      "memory(GiB)": 70.5,
      "step": 32540,
      "token_acc": 0.9310344827586207,
      "train_speed(iter/s)": 1.456874
    },
    {
      "epoch": 1.3943275780814874,
      "grad_norm": 2.6535565853118896,
      "learning_rate": 8.200830561408382e-05,
      "loss": 0.39291086196899416,
      "memory(GiB)": 70.5,
      "step": 32545,
      "token_acc": 0.9322033898305084,
      "train_speed(iter/s)": 1.456875
    },
    {
      "epoch": 1.3945417934107365,
      "grad_norm": 2.3668134212493896,
      "learning_rate": 8.200313526675218e-05,
      "loss": 0.2432154893875122,
      "memory(GiB)": 70.5,
      "step": 32550,
      "token_acc": 0.9462025316455697,
      "train_speed(iter/s)": 1.456875
    },
    {
      "epoch": 1.3947560087399855,
      "grad_norm": 2.0684783458709717,
      "learning_rate": 8.199796433965373e-05,
      "loss": 0.28412318229675293,
      "memory(GiB)": 70.5,
      "step": 32555,
      "token_acc": 0.921161825726141,
      "train_speed(iter/s)": 1.456883
    },
    {
      "epoch": 1.3949702240692343,
      "grad_norm": 3.1799514293670654,
      "learning_rate": 8.19927928328821e-05,
      "loss": 0.49066872596740724,
      "memory(GiB)": 70.5,
      "step": 32560,
      "token_acc": 0.8996655518394648,
      "train_speed(iter/s)": 1.456902
    },
    {
      "epoch": 1.3951844393984834,
      "grad_norm": 1.3796772956848145,
      "learning_rate": 8.198762074653104e-05,
      "loss": 0.24728062152862548,
      "memory(GiB)": 70.5,
      "step": 32565,
      "token_acc": 0.9464285714285714,
      "train_speed(iter/s)": 1.456903
    },
    {
      "epoch": 1.3953986547277324,
      "grad_norm": 3.4443199634552,
      "learning_rate": 8.198244808069424e-05,
      "loss": 0.5234926223754883,
      "memory(GiB)": 70.5,
      "step": 32570,
      "token_acc": 0.8806451612903226,
      "train_speed(iter/s)": 1.456899
    },
    {
      "epoch": 1.3956128700569812,
      "grad_norm": 1.9202876091003418,
      "learning_rate": 8.197727483546539e-05,
      "loss": 0.43076291084289553,
      "memory(GiB)": 70.5,
      "step": 32575,
      "token_acc": 0.9027355623100304,
      "train_speed(iter/s)": 1.456922
    },
    {
      "epoch": 1.3958270853862302,
      "grad_norm": 4.18393087387085,
      "learning_rate": 8.197210101093817e-05,
      "loss": 0.3352519989013672,
      "memory(GiB)": 70.5,
      "step": 32580,
      "token_acc": 0.9273927392739274,
      "train_speed(iter/s)": 1.456924
    },
    {
      "epoch": 1.3960413007154793,
      "grad_norm": 0.8290443420410156,
      "learning_rate": 8.196692660720638e-05,
      "loss": 0.2951753854751587,
      "memory(GiB)": 70.5,
      "step": 32585,
      "token_acc": 0.9272151898734177,
      "train_speed(iter/s)": 1.456946
    },
    {
      "epoch": 1.396255516044728,
      "grad_norm": 1.6768499612808228,
      "learning_rate": 8.196175162436371e-05,
      "loss": 0.4942878246307373,
      "memory(GiB)": 70.5,
      "step": 32590,
      "token_acc": 0.8982456140350877,
      "train_speed(iter/s)": 1.45696
    },
    {
      "epoch": 1.3964697313739771,
      "grad_norm": 4.803144931793213,
      "learning_rate": 8.195657606250393e-05,
      "loss": 0.290220308303833,
      "memory(GiB)": 70.5,
      "step": 32595,
      "token_acc": 0.9420731707317073,
      "train_speed(iter/s)": 1.456975
    },
    {
      "epoch": 1.3966839467032262,
      "grad_norm": 20.355358123779297,
      "learning_rate": 8.195139992172081e-05,
      "loss": 0.6406887531280517,
      "memory(GiB)": 70.5,
      "step": 32600,
      "token_acc": 0.8266666666666667,
      "train_speed(iter/s)": 1.456998
    },
    {
      "epoch": 1.396898162032475,
      "grad_norm": 1.9052033424377441,
      "learning_rate": 8.19462232021081e-05,
      "loss": 0.20948572158813478,
      "memory(GiB)": 70.5,
      "step": 32605,
      "token_acc": 0.9473684210526315,
      "train_speed(iter/s)": 1.457012
    },
    {
      "epoch": 1.397112377361724,
      "grad_norm": 2.730332374572754,
      "learning_rate": 8.19410459037596e-05,
      "loss": 0.425843334197998,
      "memory(GiB)": 70.5,
      "step": 32610,
      "token_acc": 0.9078947368421053,
      "train_speed(iter/s)": 1.457006
    },
    {
      "epoch": 1.397326592690973,
      "grad_norm": 0.7484063506126404,
      "learning_rate": 8.193586802676907e-05,
      "loss": 0.3086252689361572,
      "memory(GiB)": 70.5,
      "step": 32615,
      "token_acc": 0.926605504587156,
      "train_speed(iter/s)": 1.456999
    },
    {
      "epoch": 1.3975408080202218,
      "grad_norm": 0.9649738073348999,
      "learning_rate": 8.193068957123034e-05,
      "loss": 0.5715395450592041,
      "memory(GiB)": 70.5,
      "step": 32620,
      "token_acc": 0.8875379939209727,
      "train_speed(iter/s)": 1.456988
    },
    {
      "epoch": 1.3977550233494709,
      "grad_norm": 4.378729343414307,
      "learning_rate": 8.192551053723721e-05,
      "loss": 0.5624303817749023,
      "memory(GiB)": 70.5,
      "step": 32625,
      "token_acc": 0.8666666666666667,
      "train_speed(iter/s)": 1.456977
    },
    {
      "epoch": 1.39796923867872,
      "grad_norm": 2.1343581676483154,
      "learning_rate": 8.192033092488351e-05,
      "loss": 0.403475284576416,
      "memory(GiB)": 70.5,
      "step": 32630,
      "token_acc": 0.9022556390977443,
      "train_speed(iter/s)": 1.456981
    },
    {
      "epoch": 1.3981834540079687,
      "grad_norm": 2.8757150173187256,
      "learning_rate": 8.191515073426309e-05,
      "loss": 0.40824112892150877,
      "memory(GiB)": 70.5,
      "step": 32635,
      "token_acc": 0.9141104294478528,
      "train_speed(iter/s)": 1.456979
    },
    {
      "epoch": 1.3983976693372178,
      "grad_norm": 3.9283571243286133,
      "learning_rate": 8.190996996546975e-05,
      "loss": 0.3777120113372803,
      "memory(GiB)": 70.5,
      "step": 32640,
      "token_acc": 0.9124579124579124,
      "train_speed(iter/s)": 1.456973
    },
    {
      "epoch": 1.3986118846664668,
      "grad_norm": 3.996260404586792,
      "learning_rate": 8.19047886185974e-05,
      "loss": 0.5046377182006836,
      "memory(GiB)": 70.5,
      "step": 32645,
      "token_acc": 0.8975265017667845,
      "train_speed(iter/s)": 1.45698
    },
    {
      "epoch": 1.3988260999957156,
      "grad_norm": 4.874833583831787,
      "learning_rate": 8.189960669373987e-05,
      "loss": 0.4222135543823242,
      "memory(GiB)": 70.5,
      "step": 32650,
      "token_acc": 0.9053497942386831,
      "train_speed(iter/s)": 1.457007
    },
    {
      "epoch": 1.3990403153249646,
      "grad_norm": 3.726600170135498,
      "learning_rate": 8.189442419099101e-05,
      "loss": 0.8931366920471191,
      "memory(GiB)": 70.5,
      "step": 32655,
      "token_acc": 0.8311258278145696,
      "train_speed(iter/s)": 1.457024
    },
    {
      "epoch": 1.3992545306542137,
      "grad_norm": 1.6954745054244995,
      "learning_rate": 8.188924111044476e-05,
      "loss": 0.07632827758789062,
      "memory(GiB)": 70.5,
      "step": 32660,
      "token_acc": 0.9758064516129032,
      "train_speed(iter/s)": 1.457038
    },
    {
      "epoch": 1.3994687459834627,
      "grad_norm": 3.0792980194091797,
      "learning_rate": 8.188405745219498e-05,
      "loss": 0.34496588706970216,
      "memory(GiB)": 70.5,
      "step": 32665,
      "token_acc": 0.9216417910447762,
      "train_speed(iter/s)": 1.457018
    },
    {
      "epoch": 1.3996829613127115,
      "grad_norm": 6.477052688598633,
      "learning_rate": 8.18788732163356e-05,
      "loss": 0.25321207046508787,
      "memory(GiB)": 70.5,
      "step": 32670,
      "token_acc": 0.9327354260089686,
      "train_speed(iter/s)": 1.457026
    },
    {
      "epoch": 1.3998971766419606,
      "grad_norm": 2.38881516456604,
      "learning_rate": 8.187368840296052e-05,
      "loss": 0.3770682096481323,
      "memory(GiB)": 70.5,
      "step": 32675,
      "token_acc": 0.9101449275362319,
      "train_speed(iter/s)": 1.45703
    },
    {
      "epoch": 1.4001113919712096,
      "grad_norm": 0.14079424738883972,
      "learning_rate": 8.186850301216368e-05,
      "loss": 0.20249123573303224,
      "memory(GiB)": 70.5,
      "step": 32680,
      "token_acc": 0.9578544061302682,
      "train_speed(iter/s)": 1.457041
    },
    {
      "epoch": 1.4003256073004584,
      "grad_norm": 3.4032864570617676,
      "learning_rate": 8.186331704403902e-05,
      "loss": 0.4315175533294678,
      "memory(GiB)": 70.5,
      "step": 32685,
      "token_acc": 0.9140893470790378,
      "train_speed(iter/s)": 1.457041
    },
    {
      "epoch": 1.4005398226297074,
      "grad_norm": 1.13609778881073,
      "learning_rate": 8.185813049868045e-05,
      "loss": 0.23426132202148436,
      "memory(GiB)": 70.5,
      "step": 32690,
      "token_acc": 0.9450171821305842,
      "train_speed(iter/s)": 1.457065
    },
    {
      "epoch": 1.4007540379589565,
      "grad_norm": 1.9269152879714966,
      "learning_rate": 8.185294337618198e-05,
      "loss": 0.30211195945739744,
      "memory(GiB)": 70.5,
      "step": 32695,
      "token_acc": 0.9243986254295533,
      "train_speed(iter/s)": 1.457089
    },
    {
      "epoch": 1.4009682532882053,
      "grad_norm": 3.021683931350708,
      "learning_rate": 8.184775567663759e-05,
      "loss": 0.6100616931915284,
      "memory(GiB)": 70.5,
      "step": 32700,
      "token_acc": 0.8937007874015748,
      "train_speed(iter/s)": 1.457096
    },
    {
      "epoch": 1.4011824686174543,
      "grad_norm": 3.20383882522583,
      "learning_rate": 8.18425674001412e-05,
      "loss": 0.27007977962493895,
      "memory(GiB)": 70.5,
      "step": 32705,
      "token_acc": 0.9345238095238095,
      "train_speed(iter/s)": 1.45712
    },
    {
      "epoch": 1.4013966839467034,
      "grad_norm": 2.496783494949341,
      "learning_rate": 8.183737854678684e-05,
      "loss": 0.21017627716064452,
      "memory(GiB)": 70.5,
      "step": 32710,
      "token_acc": 0.9603960396039604,
      "train_speed(iter/s)": 1.457122
    },
    {
      "epoch": 1.4016108992759522,
      "grad_norm": 6.275294303894043,
      "learning_rate": 8.183218911666849e-05,
      "loss": 0.4323254585266113,
      "memory(GiB)": 70.5,
      "step": 32715,
      "token_acc": 0.9068825910931174,
      "train_speed(iter/s)": 1.457142
    },
    {
      "epoch": 1.4018251146052012,
      "grad_norm": 3.208155393600464,
      "learning_rate": 8.182699910988018e-05,
      "loss": 0.5796047687530518,
      "memory(GiB)": 70.5,
      "step": 32720,
      "token_acc": 0.8581081081081081,
      "train_speed(iter/s)": 1.457182
    },
    {
      "epoch": 1.4020393299344502,
      "grad_norm": 2.095874071121216,
      "learning_rate": 8.182180852651592e-05,
      "loss": 0.37890212535858153,
      "memory(GiB)": 70.5,
      "step": 32725,
      "token_acc": 0.9281914893617021,
      "train_speed(iter/s)": 1.457183
    },
    {
      "epoch": 1.402253545263699,
      "grad_norm": 4.813762187957764,
      "learning_rate": 8.181661736666974e-05,
      "loss": 0.4610123634338379,
      "memory(GiB)": 70.5,
      "step": 32730,
      "token_acc": 0.9033457249070632,
      "train_speed(iter/s)": 1.457204
    },
    {
      "epoch": 1.402467760592948,
      "grad_norm": 3.4712541103363037,
      "learning_rate": 8.181142563043572e-05,
      "loss": 0.3525123357772827,
      "memory(GiB)": 70.5,
      "step": 32735,
      "token_acc": 0.9224806201550387,
      "train_speed(iter/s)": 1.457202
    },
    {
      "epoch": 1.4026819759221971,
      "grad_norm": 4.331108093261719,
      "learning_rate": 8.180623331790785e-05,
      "loss": 0.42989673614501955,
      "memory(GiB)": 70.5,
      "step": 32740,
      "token_acc": 0.8975265017667845,
      "train_speed(iter/s)": 1.457224
    },
    {
      "epoch": 1.402896191251446,
      "grad_norm": 0.2908916473388672,
      "learning_rate": 8.180104042918025e-05,
      "loss": 0.4041594982147217,
      "memory(GiB)": 70.5,
      "step": 32745,
      "token_acc": 0.9230769230769231,
      "train_speed(iter/s)": 1.457226
    },
    {
      "epoch": 1.403110406580695,
      "grad_norm": 4.711930751800537,
      "learning_rate": 8.179584696434696e-05,
      "loss": 0.42483906745910643,
      "memory(GiB)": 70.5,
      "step": 32750,
      "token_acc": 0.9067164179104478,
      "train_speed(iter/s)": 1.457209
    },
    {
      "epoch": 1.403324621909944,
      "grad_norm": 2.454829216003418,
      "learning_rate": 8.179065292350208e-05,
      "loss": 0.29645090103149413,
      "memory(GiB)": 70.5,
      "step": 32755,
      "token_acc": 0.9365994236311239,
      "train_speed(iter/s)": 1.457214
    },
    {
      "epoch": 1.4035388372391928,
      "grad_norm": 2.4790024757385254,
      "learning_rate": 8.178545830673969e-05,
      "loss": 0.19789780378341676,
      "memory(GiB)": 70.5,
      "step": 32760,
      "token_acc": 0.9615384615384616,
      "train_speed(iter/s)": 1.457208
    },
    {
      "epoch": 1.4037530525684419,
      "grad_norm": 1.606726884841919,
      "learning_rate": 8.178026311415392e-05,
      "loss": 0.383199667930603,
      "memory(GiB)": 70.5,
      "step": 32765,
      "token_acc": 0.9241379310344827,
      "train_speed(iter/s)": 1.457213
    },
    {
      "epoch": 1.4039672678976909,
      "grad_norm": 2.795623779296875,
      "learning_rate": 8.177506734583886e-05,
      "loss": 0.21650247573852538,
      "memory(GiB)": 70.5,
      "step": 32770,
      "token_acc": 0.9396825396825397,
      "train_speed(iter/s)": 1.45722
    },
    {
      "epoch": 1.4041814832269397,
      "grad_norm": 3.936260223388672,
      "learning_rate": 8.176987100188865e-05,
      "loss": 0.6849263191223145,
      "memory(GiB)": 70.5,
      "step": 32775,
      "token_acc": 0.8766666666666667,
      "train_speed(iter/s)": 1.457232
    },
    {
      "epoch": 1.4043956985561887,
      "grad_norm": 3.421041965484619,
      "learning_rate": 8.176467408239743e-05,
      "loss": 0.3952858686447144,
      "memory(GiB)": 70.5,
      "step": 32780,
      "token_acc": 0.9210526315789473,
      "train_speed(iter/s)": 1.457224
    },
    {
      "epoch": 1.4046099138854378,
      "grad_norm": 4.288143634796143,
      "learning_rate": 8.175947658745934e-05,
      "loss": 0.35706090927124023,
      "memory(GiB)": 70.5,
      "step": 32785,
      "token_acc": 0.9104938271604939,
      "train_speed(iter/s)": 1.457221
    },
    {
      "epoch": 1.4048241292146866,
      "grad_norm": 6.147327899932861,
      "learning_rate": 8.175427851716855e-05,
      "loss": 0.6862931251525879,
      "memory(GiB)": 70.5,
      "step": 32790,
      "token_acc": 0.8494983277591973,
      "train_speed(iter/s)": 1.45724
    },
    {
      "epoch": 1.4050383445439356,
      "grad_norm": 3.724022626876831,
      "learning_rate": 8.17490798716192e-05,
      "loss": 0.5375057697296143,
      "memory(GiB)": 70.5,
      "step": 32795,
      "token_acc": 0.875,
      "train_speed(iter/s)": 1.457235
    },
    {
      "epoch": 1.4052525598731846,
      "grad_norm": 3.0461032390594482,
      "learning_rate": 8.174388065090548e-05,
      "loss": 0.5028678894042968,
      "memory(GiB)": 70.5,
      "step": 32800,
      "token_acc": 0.8745644599303136,
      "train_speed(iter/s)": 1.457257
    },
    {
      "epoch": 1.4054667752024335,
      "grad_norm": 2.680044174194336,
      "learning_rate": 8.17386808551216e-05,
      "loss": 0.2678628921508789,
      "memory(GiB)": 70.5,
      "step": 32805,
      "token_acc": 0.9364548494983278,
      "train_speed(iter/s)": 1.457253
    },
    {
      "epoch": 1.4056809905316825,
      "grad_norm": 4.957310199737549,
      "learning_rate": 8.173348048436174e-05,
      "loss": 0.39209814071655275,
      "memory(GiB)": 70.5,
      "step": 32810,
      "token_acc": 0.9212598425196851,
      "train_speed(iter/s)": 1.457245
    },
    {
      "epoch": 1.4058952058609315,
      "grad_norm": 2.253152847290039,
      "learning_rate": 8.17282795387201e-05,
      "loss": 0.2749802589416504,
      "memory(GiB)": 70.5,
      "step": 32815,
      "token_acc": 0.9377593360995851,
      "train_speed(iter/s)": 1.457244
    },
    {
      "epoch": 1.4061094211901803,
      "grad_norm": 1.0963762998580933,
      "learning_rate": 8.172307801829093e-05,
      "loss": 0.33878130912780763,
      "memory(GiB)": 70.5,
      "step": 32820,
      "token_acc": 0.9283276450511946,
      "train_speed(iter/s)": 1.457243
    },
    {
      "epoch": 1.4063236365194294,
      "grad_norm": 3.238893508911133,
      "learning_rate": 8.171787592316842e-05,
      "loss": 0.25013983249664307,
      "memory(GiB)": 70.5,
      "step": 32825,
      "token_acc": 0.9379310344827586,
      "train_speed(iter/s)": 1.457245
    },
    {
      "epoch": 1.4065378518486784,
      "grad_norm": 2.2937510013580322,
      "learning_rate": 8.171267325344685e-05,
      "loss": 0.46530561447143554,
      "memory(GiB)": 70.5,
      "step": 32830,
      "token_acc": 0.9212598425196851,
      "train_speed(iter/s)": 1.457254
    },
    {
      "epoch": 1.4067520671779272,
      "grad_norm": 3.8610758781433105,
      "learning_rate": 8.170747000922045e-05,
      "loss": 0.596051549911499,
      "memory(GiB)": 70.5,
      "step": 32835,
      "token_acc": 0.8657243816254417,
      "train_speed(iter/s)": 1.457237
    },
    {
      "epoch": 1.4069662825071763,
      "grad_norm": 1.3271775245666504,
      "learning_rate": 8.17022661905835e-05,
      "loss": 0.3353103160858154,
      "memory(GiB)": 70.5,
      "step": 32840,
      "token_acc": 0.9382352941176471,
      "train_speed(iter/s)": 1.457241
    },
    {
      "epoch": 1.4071804978364253,
      "grad_norm": 2.799544334411621,
      "learning_rate": 8.169706179763023e-05,
      "loss": 0.5643760204315186,
      "memory(GiB)": 70.5,
      "step": 32845,
      "token_acc": 0.8922558922558923,
      "train_speed(iter/s)": 1.457255
    },
    {
      "epoch": 1.407394713165674,
      "grad_norm": 4.37346076965332,
      "learning_rate": 8.169185683045498e-05,
      "loss": 0.471873140335083,
      "memory(GiB)": 70.5,
      "step": 32850,
      "token_acc": 0.8832684824902723,
      "train_speed(iter/s)": 1.457259
    },
    {
      "epoch": 1.4076089284949231,
      "grad_norm": 4.481375217437744,
      "learning_rate": 8.168665128915201e-05,
      "loss": 0.3180342197418213,
      "memory(GiB)": 70.5,
      "step": 32855,
      "token_acc": 0.918918918918919,
      "train_speed(iter/s)": 1.457257
    },
    {
      "epoch": 1.4078231438241722,
      "grad_norm": 2.1614296436309814,
      "learning_rate": 8.168144517381562e-05,
      "loss": 0.26809492111206057,
      "memory(GiB)": 70.5,
      "step": 32860,
      "token_acc": 0.9311594202898551,
      "train_speed(iter/s)": 1.457292
    },
    {
      "epoch": 1.408037359153421,
      "grad_norm": 0.4920479357242584,
      "learning_rate": 8.167623848454014e-05,
      "loss": 0.12593677043914794,
      "memory(GiB)": 70.5,
      "step": 32865,
      "token_acc": 0.9607142857142857,
      "train_speed(iter/s)": 1.457294
    },
    {
      "epoch": 1.40825157448267,
      "grad_norm": 3.4773716926574707,
      "learning_rate": 8.167103122141988e-05,
      "loss": 0.3188636064529419,
      "memory(GiB)": 70.5,
      "step": 32870,
      "token_acc": 0.9369627507163324,
      "train_speed(iter/s)": 1.457311
    },
    {
      "epoch": 1.408465789811919,
      "grad_norm": 2.781749963760376,
      "learning_rate": 8.166582338454917e-05,
      "loss": 0.3772738456726074,
      "memory(GiB)": 70.5,
      "step": 32875,
      "token_acc": 0.9218241042345277,
      "train_speed(iter/s)": 1.457307
    },
    {
      "epoch": 1.4086800051411679,
      "grad_norm": 0.3788779079914093,
      "learning_rate": 8.166061497402236e-05,
      "loss": 0.49984011650085447,
      "memory(GiB)": 70.5,
      "step": 32880,
      "token_acc": 0.89272030651341,
      "train_speed(iter/s)": 1.45733
    },
    {
      "epoch": 1.408894220470417,
      "grad_norm": 1.7798092365264893,
      "learning_rate": 8.165540598993383e-05,
      "loss": 0.36661269664764407,
      "memory(GiB)": 70.5,
      "step": 32885,
      "token_acc": 0.9097222222222222,
      "train_speed(iter/s)": 1.457315
    },
    {
      "epoch": 1.409108435799666,
      "grad_norm": 3.2622766494750977,
      "learning_rate": 8.165019643237792e-05,
      "loss": 0.36964504718780516,
      "memory(GiB)": 70.5,
      "step": 32890,
      "token_acc": 0.9383561643835616,
      "train_speed(iter/s)": 1.457327
    },
    {
      "epoch": 1.4093226511289147,
      "grad_norm": 5.36054801940918,
      "learning_rate": 8.164498630144901e-05,
      "loss": 0.3593886375427246,
      "memory(GiB)": 70.5,
      "step": 32895,
      "token_acc": 0.9036544850498339,
      "train_speed(iter/s)": 1.457317
    },
    {
      "epoch": 1.4095368664581638,
      "grad_norm": 4.430522441864014,
      "learning_rate": 8.163977559724147e-05,
      "loss": 0.341241455078125,
      "memory(GiB)": 70.5,
      "step": 32900,
      "token_acc": 0.9142857142857143,
      "train_speed(iter/s)": 1.457329
    },
    {
      "epoch": 1.4097510817874128,
      "grad_norm": 4.38557767868042,
      "learning_rate": 8.163456431984975e-05,
      "loss": 0.4161365985870361,
      "memory(GiB)": 70.5,
      "step": 32905,
      "token_acc": 0.9245901639344263,
      "train_speed(iter/s)": 1.457318
    },
    {
      "epoch": 1.4099652971166616,
      "grad_norm": 0.1920361965894699,
      "learning_rate": 8.162935246936819e-05,
      "loss": 0.16424822807312012,
      "memory(GiB)": 70.5,
      "step": 32910,
      "token_acc": 0.9806949806949807,
      "train_speed(iter/s)": 1.457324
    },
    {
      "epoch": 1.4101795124459107,
      "grad_norm": 6.170867919921875,
      "learning_rate": 8.162414004589126e-05,
      "loss": 0.39278039932250974,
      "memory(GiB)": 70.5,
      "step": 32915,
      "token_acc": 0.9018181818181819,
      "train_speed(iter/s)": 1.457318
    },
    {
      "epoch": 1.4103937277751597,
      "grad_norm": 0.5748429894447327,
      "learning_rate": 8.161892704951334e-05,
      "loss": 0.2674154996871948,
      "memory(GiB)": 70.5,
      "step": 32920,
      "token_acc": 0.9277566539923955,
      "train_speed(iter/s)": 1.457322
    },
    {
      "epoch": 1.4106079431044085,
      "grad_norm": 3.261650323867798,
      "learning_rate": 8.161371348032893e-05,
      "loss": 0.5922637462615967,
      "memory(GiB)": 70.5,
      "step": 32925,
      "token_acc": 0.8685258964143426,
      "train_speed(iter/s)": 1.45731
    },
    {
      "epoch": 1.4108221584336575,
      "grad_norm": 2.762840747833252,
      "learning_rate": 8.160849933843241e-05,
      "loss": 0.6604074954986572,
      "memory(GiB)": 70.5,
      "step": 32930,
      "token_acc": 0.8538205980066446,
      "train_speed(iter/s)": 1.457311
    },
    {
      "epoch": 1.4110363737629066,
      "grad_norm": 2.7803502082824707,
      "learning_rate": 8.16032846239183e-05,
      "loss": 0.5291987895965576,
      "memory(GiB)": 70.5,
      "step": 32935,
      "token_acc": 0.8869257950530035,
      "train_speed(iter/s)": 1.457314
    },
    {
      "epoch": 1.4112505890921554,
      "grad_norm": 3.3659377098083496,
      "learning_rate": 8.159806933688105e-05,
      "loss": 0.37460989952087403,
      "memory(GiB)": 70.5,
      "step": 32940,
      "token_acc": 0.9166666666666666,
      "train_speed(iter/s)": 1.457309
    },
    {
      "epoch": 1.4114648044214044,
      "grad_norm": 2.013261318206787,
      "learning_rate": 8.159285347741513e-05,
      "loss": 0.48163065910339353,
      "memory(GiB)": 70.5,
      "step": 32945,
      "token_acc": 0.9033232628398792,
      "train_speed(iter/s)": 1.457331
    },
    {
      "epoch": 1.4116790197506535,
      "grad_norm": 2.01153826713562,
      "learning_rate": 8.1587637045615e-05,
      "loss": 0.34597163200378417,
      "memory(GiB)": 70.5,
      "step": 32950,
      "token_acc": 0.9206896551724137,
      "train_speed(iter/s)": 1.457347
    },
    {
      "epoch": 1.4118932350799023,
      "grad_norm": 4.56410551071167,
      "learning_rate": 8.158242004157522e-05,
      "loss": 0.3247312784194946,
      "memory(GiB)": 70.5,
      "step": 32955,
      "token_acc": 0.9329073482428115,
      "train_speed(iter/s)": 1.457343
    },
    {
      "epoch": 1.4121074504091513,
      "grad_norm": 0.25424665212631226,
      "learning_rate": 8.157720246539026e-05,
      "loss": 0.6132190704345704,
      "memory(GiB)": 70.5,
      "step": 32960,
      "token_acc": 0.8770226537216829,
      "train_speed(iter/s)": 1.457344
    },
    {
      "epoch": 1.4123216657384003,
      "grad_norm": 0.7736417651176453,
      "learning_rate": 8.157198431715466e-05,
      "loss": 0.523277759552002,
      "memory(GiB)": 70.5,
      "step": 32965,
      "token_acc": 0.8928571428571429,
      "train_speed(iter/s)": 1.457337
    },
    {
      "epoch": 1.4125358810676492,
      "grad_norm": 2.38248872756958,
      "learning_rate": 8.156676559696294e-05,
      "loss": 0.4416013717651367,
      "memory(GiB)": 70.5,
      "step": 32970,
      "token_acc": 0.9297658862876255,
      "train_speed(iter/s)": 1.457333
    },
    {
      "epoch": 1.4127500963968982,
      "grad_norm": 2.447136163711548,
      "learning_rate": 8.156154630490968e-05,
      "loss": 0.35826570987701417,
      "memory(GiB)": 70.5,
      "step": 32975,
      "token_acc": 0.9219858156028369,
      "train_speed(iter/s)": 1.457344
    },
    {
      "epoch": 1.4129643117261472,
      "grad_norm": 2.8321547508239746,
      "learning_rate": 8.155632644108937e-05,
      "loss": 0.43501968383789064,
      "memory(GiB)": 70.5,
      "step": 32980,
      "token_acc": 0.9296875,
      "train_speed(iter/s)": 1.457349
    },
    {
      "epoch": 1.413178527055396,
      "grad_norm": 0.6830782294273376,
      "learning_rate": 8.155110600559661e-05,
      "loss": 0.17997997999191284,
      "memory(GiB)": 70.5,
      "step": 32985,
      "token_acc": 0.9556962025316456,
      "train_speed(iter/s)": 1.457358
    },
    {
      "epoch": 1.413392742384645,
      "grad_norm": 3.60085129737854,
      "learning_rate": 8.154588499852598e-05,
      "loss": 0.45759124755859376,
      "memory(GiB)": 70.5,
      "step": 32990,
      "token_acc": 0.9182389937106918,
      "train_speed(iter/s)": 1.457375
    },
    {
      "epoch": 1.413606957713894,
      "grad_norm": 3.2108826637268066,
      "learning_rate": 8.154066341997204e-05,
      "loss": 0.26685659885406493,
      "memory(GiB)": 70.5,
      "step": 32995,
      "token_acc": 0.9391304347826087,
      "train_speed(iter/s)": 1.457372
    },
    {
      "epoch": 1.413821173043143,
      "grad_norm": 2.6011962890625,
      "learning_rate": 8.15354412700294e-05,
      "loss": 0.2644827842712402,
      "memory(GiB)": 70.5,
      "step": 33000,
      "token_acc": 0.94140625,
      "train_speed(iter/s)": 1.457368
    },
    {
      "epoch": 1.413821173043143,
      "eval_loss": 2.6718151569366455,
      "eval_runtime": 13.4231,
      "eval_samples_per_second": 7.45,
      "eval_steps_per_second": 7.45,
      "eval_token_acc": 0.43631778058007564,
      "step": 33000
    },
    {
      "epoch": 1.414035388372392,
      "grad_norm": 2.6278209686279297,
      "learning_rate": 8.153021854879266e-05,
      "loss": 0.20426197052001954,
      "memory(GiB)": 70.5,
      "step": 33005,
      "token_acc": 0.5555555555555556,
      "train_speed(iter/s)": 1.456462
    },
    {
      "epoch": 1.414249603701641,
      "grad_norm": 4.254202365875244,
      "learning_rate": 8.152499525635643e-05,
      "loss": 0.8451970100402832,
      "memory(GiB)": 70.5,
      "step": 33010,
      "token_acc": 0.8474025974025974,
      "train_speed(iter/s)": 1.456459
    },
    {
      "epoch": 1.4144638190308898,
      "grad_norm": 3.861721992492676,
      "learning_rate": 8.151977139281534e-05,
      "loss": 0.560482120513916,
      "memory(GiB)": 70.5,
      "step": 33015,
      "token_acc": 0.8633093525179856,
      "train_speed(iter/s)": 1.456447
    },
    {
      "epoch": 1.4146780343601388,
      "grad_norm": 4.984864711761475,
      "learning_rate": 8.151454695826402e-05,
      "loss": 0.5471345901489257,
      "memory(GiB)": 70.5,
      "step": 33020,
      "token_acc": 0.8766666666666667,
      "train_speed(iter/s)": 1.456446
    },
    {
      "epoch": 1.4148922496893879,
      "grad_norm": 1.5953147411346436,
      "learning_rate": 8.150932195279711e-05,
      "loss": 0.2694020986557007,
      "memory(GiB)": 70.5,
      "step": 33025,
      "token_acc": 0.9446494464944649,
      "train_speed(iter/s)": 1.456456
    },
    {
      "epoch": 1.4151064650186367,
      "grad_norm": 1.8826793432235718,
      "learning_rate": 8.150409637650928e-05,
      "loss": 0.27998788356781007,
      "memory(GiB)": 70.5,
      "step": 33030,
      "token_acc": 0.9461279461279462,
      "train_speed(iter/s)": 1.45646
    },
    {
      "epoch": 1.4153206803478857,
      "grad_norm": 0.56926429271698,
      "learning_rate": 8.14988702294952e-05,
      "loss": 0.3492791414260864,
      "memory(GiB)": 70.5,
      "step": 33035,
      "token_acc": 0.92,
      "train_speed(iter/s)": 1.456458
    },
    {
      "epoch": 1.4155348956771348,
      "grad_norm": 2.54703426361084,
      "learning_rate": 8.149364351184953e-05,
      "loss": 0.42732667922973633,
      "memory(GiB)": 70.5,
      "step": 33040,
      "token_acc": 0.8958990536277602,
      "train_speed(iter/s)": 1.456448
    },
    {
      "epoch": 1.4157491110063836,
      "grad_norm": 0.4269501566886902,
      "learning_rate": 8.148841622366699e-05,
      "loss": 0.38133552074432375,
      "memory(GiB)": 70.5,
      "step": 33045,
      "token_acc": 0.9058441558441559,
      "train_speed(iter/s)": 1.45645
    },
    {
      "epoch": 1.4159633263356326,
      "grad_norm": 4.726733207702637,
      "learning_rate": 8.148318836504221e-05,
      "loss": 0.6491533279418945,
      "memory(GiB)": 70.5,
      "step": 33050,
      "token_acc": 0.8691275167785235,
      "train_speed(iter/s)": 1.456442
    },
    {
      "epoch": 1.4161775416648816,
      "grad_norm": 4.171665668487549,
      "learning_rate": 8.147795993606997e-05,
      "loss": 0.36583409309387205,
      "memory(GiB)": 70.5,
      "step": 33055,
      "token_acc": 0.9283018867924528,
      "train_speed(iter/s)": 1.456456
    },
    {
      "epoch": 1.4163917569941304,
      "grad_norm": 3.8137905597686768,
      "learning_rate": 8.147273093684493e-05,
      "loss": 0.5125202178955078,
      "memory(GiB)": 70.5,
      "step": 33060,
      "token_acc": 0.9003021148036254,
      "train_speed(iter/s)": 1.456466
    },
    {
      "epoch": 1.4166059723233795,
      "grad_norm": 3.9197323322296143,
      "learning_rate": 8.146750136746187e-05,
      "loss": 0.36158835887908936,
      "memory(GiB)": 70.5,
      "step": 33065,
      "token_acc": 0.9239543726235742,
      "train_speed(iter/s)": 1.456476
    },
    {
      "epoch": 1.4168201876526285,
      "grad_norm": 3.2603602409362793,
      "learning_rate": 8.14622712280155e-05,
      "loss": 0.28153579235076903,
      "memory(GiB)": 70.5,
      "step": 33070,
      "token_acc": 0.9362549800796812,
      "train_speed(iter/s)": 1.456495
    },
    {
      "epoch": 1.4170344029818773,
      "grad_norm": 4.496239185333252,
      "learning_rate": 8.145704051860056e-05,
      "loss": 0.5580110549926758,
      "memory(GiB)": 70.5,
      "step": 33075,
      "token_acc": 0.875,
      "train_speed(iter/s)": 1.456495
    },
    {
      "epoch": 1.4172486183111264,
      "grad_norm": 1.9401124715805054,
      "learning_rate": 8.145180923931184e-05,
      "loss": 0.3889272212982178,
      "memory(GiB)": 70.5,
      "step": 33080,
      "token_acc": 0.9299610894941635,
      "train_speed(iter/s)": 1.456511
    },
    {
      "epoch": 1.4174628336403754,
      "grad_norm": 3.6620824337005615,
      "learning_rate": 8.144657739024408e-05,
      "loss": 0.4959586143493652,
      "memory(GiB)": 70.5,
      "step": 33085,
      "token_acc": 0.9018867924528302,
      "train_speed(iter/s)": 1.456542
    },
    {
      "epoch": 1.4176770489696242,
      "grad_norm": 3.2700705528259277,
      "learning_rate": 8.144134497149207e-05,
      "loss": 0.1465437889099121,
      "memory(GiB)": 70.5,
      "step": 33090,
      "token_acc": 0.9710144927536232,
      "train_speed(iter/s)": 1.45654
    },
    {
      "epoch": 1.4178912642988732,
      "grad_norm": 4.308524131774902,
      "learning_rate": 8.14361119831506e-05,
      "loss": 0.31584725379943845,
      "memory(GiB)": 70.5,
      "step": 33095,
      "token_acc": 0.9261538461538461,
      "train_speed(iter/s)": 1.456532
    },
    {
      "epoch": 1.4181054796281223,
      "grad_norm": 5.512431621551514,
      "learning_rate": 8.143087842531447e-05,
      "loss": 0.41625151634216306,
      "memory(GiB)": 70.5,
      "step": 33100,
      "token_acc": 0.9190140845070423,
      "train_speed(iter/s)": 1.456558
    },
    {
      "epoch": 1.418319694957371,
      "grad_norm": 2.57415509223938,
      "learning_rate": 8.142564429807851e-05,
      "loss": 0.4085883617401123,
      "memory(GiB)": 70.5,
      "step": 33105,
      "token_acc": 0.9230769230769231,
      "train_speed(iter/s)": 1.456555
    },
    {
      "epoch": 1.4185339102866201,
      "grad_norm": 11.143917083740234,
      "learning_rate": 8.142040960153749e-05,
      "loss": 0.2902386665344238,
      "memory(GiB)": 70.5,
      "step": 33110,
      "token_acc": 0.9305019305019305,
      "train_speed(iter/s)": 1.456543
    },
    {
      "epoch": 1.4187481256158692,
      "grad_norm": 2.3700687885284424,
      "learning_rate": 8.141517433578632e-05,
      "loss": 0.4735823631286621,
      "memory(GiB)": 70.5,
      "step": 33115,
      "token_acc": 0.9074074074074074,
      "train_speed(iter/s)": 1.45655
    },
    {
      "epoch": 1.418962340945118,
      "grad_norm": 3.43365740776062,
      "learning_rate": 8.140993850091977e-05,
      "loss": 0.4420041084289551,
      "memory(GiB)": 70.5,
      "step": 33120,
      "token_acc": 0.9112627986348123,
      "train_speed(iter/s)": 1.456547
    },
    {
      "epoch": 1.419176556274367,
      "grad_norm": 5.041223049163818,
      "learning_rate": 8.140470209703273e-05,
      "loss": 0.24570038318634033,
      "memory(GiB)": 70.5,
      "step": 33125,
      "token_acc": 0.9523809523809523,
      "train_speed(iter/s)": 1.456568
    },
    {
      "epoch": 1.419390771603616,
      "grad_norm": 2.8809797763824463,
      "learning_rate": 8.139946512422003e-05,
      "loss": 0.4264055252075195,
      "memory(GiB)": 70.5,
      "step": 33130,
      "token_acc": 0.9198813056379822,
      "train_speed(iter/s)": 1.456561
    },
    {
      "epoch": 1.4196049869328649,
      "grad_norm": 1.9259886741638184,
      "learning_rate": 8.139422758257658e-05,
      "loss": 0.6078725337982178,
      "memory(GiB)": 70.5,
      "step": 33135,
      "token_acc": 0.8630952380952381,
      "train_speed(iter/s)": 1.456539
    },
    {
      "epoch": 1.4198192022621139,
      "grad_norm": 4.0213799476623535,
      "learning_rate": 8.138898947219724e-05,
      "loss": 0.44325838088989256,
      "memory(GiB)": 70.5,
      "step": 33140,
      "token_acc": 0.9115646258503401,
      "train_speed(iter/s)": 1.456543
    },
    {
      "epoch": 1.420033417591363,
      "grad_norm": 2.6651525497436523,
      "learning_rate": 8.138375079317693e-05,
      "loss": 0.3328728437423706,
      "memory(GiB)": 70.5,
      "step": 33145,
      "token_acc": 0.9527272727272728,
      "train_speed(iter/s)": 1.456537
    },
    {
      "epoch": 1.4202476329206117,
      "grad_norm": 1.1902437210083008,
      "learning_rate": 8.137851154561051e-05,
      "loss": 0.21490805149078368,
      "memory(GiB)": 70.5,
      "step": 33150,
      "token_acc": 0.9541666666666667,
      "train_speed(iter/s)": 1.456545
    },
    {
      "epoch": 1.4204618482498608,
      "grad_norm": 2.616215229034424,
      "learning_rate": 8.137327172959294e-05,
      "loss": 0.4864184379577637,
      "memory(GiB)": 70.5,
      "step": 33155,
      "token_acc": 0.8955223880597015,
      "train_speed(iter/s)": 1.456571
    },
    {
      "epoch": 1.4206760635791098,
      "grad_norm": 1.6101315021514893,
      "learning_rate": 8.136803134521912e-05,
      "loss": 0.4900513648986816,
      "memory(GiB)": 70.5,
      "step": 33160,
      "token_acc": 0.9163987138263665,
      "train_speed(iter/s)": 1.456566
    },
    {
      "epoch": 1.4208902789083586,
      "grad_norm": 2.3107597827911377,
      "learning_rate": 8.136279039258397e-05,
      "loss": 0.3838516712188721,
      "memory(GiB)": 70.5,
      "step": 33165,
      "token_acc": 0.8992805755395683,
      "train_speed(iter/s)": 1.456578
    },
    {
      "epoch": 1.4211044942376077,
      "grad_norm": 4.1138715744018555,
      "learning_rate": 8.135754887178246e-05,
      "loss": 0.6679475784301758,
      "memory(GiB)": 70.5,
      "step": 33170,
      "token_acc": 0.8185328185328186,
      "train_speed(iter/s)": 1.45661
    },
    {
      "epoch": 1.4213187095668567,
      "grad_norm": 4.796355247497559,
      "learning_rate": 8.135230678290953e-05,
      "loss": 0.42113866806030276,
      "memory(GiB)": 70.5,
      "step": 33175,
      "token_acc": 0.9153605015673981,
      "train_speed(iter/s)": 1.456603
    },
    {
      "epoch": 1.4215329248961055,
      "grad_norm": 2.813556671142578,
      "learning_rate": 8.134706412606014e-05,
      "loss": 0.35226848125457766,
      "memory(GiB)": 70.5,
      "step": 33180,
      "token_acc": 0.9128919860627178,
      "train_speed(iter/s)": 1.456598
    },
    {
      "epoch": 1.4217471402253545,
      "grad_norm": 2.6552600860595703,
      "learning_rate": 8.134182090132931e-05,
      "loss": 0.3917742490768433,
      "memory(GiB)": 70.5,
      "step": 33185,
      "token_acc": 0.9288256227758007,
      "train_speed(iter/s)": 1.456594
    },
    {
      "epoch": 1.4219613555546036,
      "grad_norm": 5.132579803466797,
      "learning_rate": 8.133657710881197e-05,
      "loss": 0.5608185291290283,
      "memory(GiB)": 70.5,
      "step": 33190,
      "token_acc": 0.8910505836575876,
      "train_speed(iter/s)": 1.456614
    },
    {
      "epoch": 1.4221755708838524,
      "grad_norm": 7.820512771606445,
      "learning_rate": 8.133133274860316e-05,
      "loss": 0.4693275451660156,
      "memory(GiB)": 70.5,
      "step": 33195,
      "token_acc": 0.8888888888888888,
      "train_speed(iter/s)": 1.456643
    },
    {
      "epoch": 1.4223897862131014,
      "grad_norm": 4.697415828704834,
      "learning_rate": 8.132608782079785e-05,
      "loss": 0.350005054473877,
      "memory(GiB)": 70.5,
      "step": 33200,
      "token_acc": 0.9188191881918819,
      "train_speed(iter/s)": 1.456648
    },
    {
      "epoch": 1.4226040015423504,
      "grad_norm": 1.7253355979919434,
      "learning_rate": 8.132084232549107e-05,
      "loss": 0.4151186466217041,
      "memory(GiB)": 70.5,
      "step": 33205,
      "token_acc": 0.8832116788321168,
      "train_speed(iter/s)": 1.456653
    },
    {
      "epoch": 1.4228182168715993,
      "grad_norm": 3.0471253395080566,
      "learning_rate": 8.131559626277784e-05,
      "loss": 0.4329203128814697,
      "memory(GiB)": 70.5,
      "step": 33210,
      "token_acc": 0.8944281524926686,
      "train_speed(iter/s)": 1.456668
    },
    {
      "epoch": 1.4230324322008483,
      "grad_norm": 4.059229850769043,
      "learning_rate": 8.131034963275324e-05,
      "loss": 0.4346205711364746,
      "memory(GiB)": 70.5,
      "step": 33215,
      "token_acc": 0.9147540983606557,
      "train_speed(iter/s)": 1.456668
    },
    {
      "epoch": 1.4232466475300973,
      "grad_norm": 0.4543757736682892,
      "learning_rate": 8.130510243551227e-05,
      "loss": 0.2613328218460083,
      "memory(GiB)": 70.5,
      "step": 33220,
      "token_acc": 0.9411764705882353,
      "train_speed(iter/s)": 1.456677
    },
    {
      "epoch": 1.4234608628593461,
      "grad_norm": 3.9995007514953613,
      "learning_rate": 8.129985467115e-05,
      "loss": 0.2922301054000854,
      "memory(GiB)": 70.5,
      "step": 33225,
      "token_acc": 0.9331210191082803,
      "train_speed(iter/s)": 1.456681
    },
    {
      "epoch": 1.4236750781885952,
      "grad_norm": 3.3030245304107666,
      "learning_rate": 8.12946063397615e-05,
      "loss": 0.33501811027526857,
      "memory(GiB)": 70.5,
      "step": 33230,
      "token_acc": 0.9244604316546763,
      "train_speed(iter/s)": 1.456703
    },
    {
      "epoch": 1.4238892935178442,
      "grad_norm": 2.9223225116729736,
      "learning_rate": 8.128935744144186e-05,
      "loss": 0.3627391576766968,
      "memory(GiB)": 70.5,
      "step": 33235,
      "token_acc": 0.9285714285714286,
      "train_speed(iter/s)": 1.456689
    },
    {
      "epoch": 1.424103508847093,
      "grad_norm": 4.958597183227539,
      "learning_rate": 8.128410797628615e-05,
      "loss": 0.4882349014282227,
      "memory(GiB)": 70.5,
      "step": 33240,
      "token_acc": 0.9020979020979021,
      "train_speed(iter/s)": 1.456687
    },
    {
      "epoch": 1.424317724176342,
      "grad_norm": 6.08347225189209,
      "learning_rate": 8.127885794438947e-05,
      "loss": 0.45880517959594724,
      "memory(GiB)": 70.5,
      "step": 33245,
      "token_acc": 0.9122807017543859,
      "train_speed(iter/s)": 1.456693
    },
    {
      "epoch": 1.424531939505591,
      "grad_norm": 3.7669527530670166,
      "learning_rate": 8.127360734584695e-05,
      "loss": 0.5617469787597656,
      "memory(GiB)": 70.5,
      "step": 33250,
      "token_acc": 0.881159420289855,
      "train_speed(iter/s)": 1.456688
    },
    {
      "epoch": 1.42474615483484,
      "grad_norm": 3.922896146774292,
      "learning_rate": 8.126835618075368e-05,
      "loss": 0.18497157096862793,
      "memory(GiB)": 70.5,
      "step": 33255,
      "token_acc": 0.9427609427609428,
      "train_speed(iter/s)": 1.456683
    },
    {
      "epoch": 1.424960370164089,
      "grad_norm": 1.4744842052459717,
      "learning_rate": 8.126310444920482e-05,
      "loss": 0.4293792724609375,
      "memory(GiB)": 70.5,
      "step": 33260,
      "token_acc": 0.9090909090909091,
      "train_speed(iter/s)": 1.456687
    },
    {
      "epoch": 1.425174585493338,
      "grad_norm": 3.2344110012054443,
      "learning_rate": 8.12578521512955e-05,
      "loss": 0.2593980312347412,
      "memory(GiB)": 70.5,
      "step": 33265,
      "token_acc": 0.9387096774193548,
      "train_speed(iter/s)": 1.456691
    },
    {
      "epoch": 1.4253888008225868,
      "grad_norm": 4.012906551361084,
      "learning_rate": 8.125259928712085e-05,
      "loss": 0.3547673225402832,
      "memory(GiB)": 70.5,
      "step": 33270,
      "token_acc": 0.9300411522633745,
      "train_speed(iter/s)": 1.456698
    },
    {
      "epoch": 1.4256030161518358,
      "grad_norm": 5.272249698638916,
      "learning_rate": 8.124734585677606e-05,
      "loss": 0.5169068336486816,
      "memory(GiB)": 70.5,
      "step": 33275,
      "token_acc": 0.8929663608562691,
      "train_speed(iter/s)": 1.456694
    },
    {
      "epoch": 1.4258172314810849,
      "grad_norm": 0.06140856444835663,
      "learning_rate": 8.124209186035627e-05,
      "loss": 0.3069688558578491,
      "memory(GiB)": 70.5,
      "step": 33280,
      "token_acc": 0.937984496124031,
      "train_speed(iter/s)": 1.456671
    },
    {
      "epoch": 1.4260314468103337,
      "grad_norm": 0.9538911581039429,
      "learning_rate": 8.12368372979567e-05,
      "loss": 0.32826344966888427,
      "memory(GiB)": 70.5,
      "step": 33285,
      "token_acc": 0.9254237288135593,
      "train_speed(iter/s)": 1.456661
    },
    {
      "epoch": 1.4262456621395827,
      "grad_norm": 0.8089777827262878,
      "learning_rate": 8.12315821696725e-05,
      "loss": 0.2702775001525879,
      "memory(GiB)": 70.5,
      "step": 33290,
      "token_acc": 0.9405204460966543,
      "train_speed(iter/s)": 1.456657
    },
    {
      "epoch": 1.4264598774688317,
      "grad_norm": 3.5258893966674805,
      "learning_rate": 8.122632647559891e-05,
      "loss": 0.3091012239456177,
      "memory(GiB)": 70.5,
      "step": 33295,
      "token_acc": 0.9305135951661632,
      "train_speed(iter/s)": 1.456654
    },
    {
      "epoch": 1.4266740927980806,
      "grad_norm": 3.185558795928955,
      "learning_rate": 8.122107021583112e-05,
      "loss": 0.498584508895874,
      "memory(GiB)": 70.5,
      "step": 33300,
      "token_acc": 0.8811881188118812,
      "train_speed(iter/s)": 1.456646
    },
    {
      "epoch": 1.4268883081273296,
      "grad_norm": 2.993779420852661,
      "learning_rate": 8.121581339046433e-05,
      "loss": 0.5780401229858398,
      "memory(GiB)": 70.5,
      "step": 33305,
      "token_acc": 0.8575949367088608,
      "train_speed(iter/s)": 1.456659
    },
    {
      "epoch": 1.4271025234565786,
      "grad_norm": 2.867169141769409,
      "learning_rate": 8.121055599959382e-05,
      "loss": 0.5301659584045411,
      "memory(GiB)": 70.5,
      "step": 33310,
      "token_acc": 0.8807017543859649,
      "train_speed(iter/s)": 1.456653
    },
    {
      "epoch": 1.4273167387858274,
      "grad_norm": 4.870437145233154,
      "learning_rate": 8.120529804331482e-05,
      "loss": 0.5494884490966797,
      "memory(GiB)": 70.5,
      "step": 33315,
      "token_acc": 0.8863636363636364,
      "train_speed(iter/s)": 1.456648
    },
    {
      "epoch": 1.4275309541150765,
      "grad_norm": 0.18666736781597137,
      "learning_rate": 8.120003952172255e-05,
      "loss": 0.14410074949264526,
      "memory(GiB)": 70.5,
      "step": 33320,
      "token_acc": 0.9715302491103203,
      "train_speed(iter/s)": 1.456649
    },
    {
      "epoch": 1.4277451694443255,
      "grad_norm": 3.3726439476013184,
      "learning_rate": 8.119478043491232e-05,
      "loss": 0.2851261138916016,
      "memory(GiB)": 70.5,
      "step": 33325,
      "token_acc": 0.933579335793358,
      "train_speed(iter/s)": 1.456639
    },
    {
      "epoch": 1.4279593847735743,
      "grad_norm": 5.166472911834717,
      "learning_rate": 8.118952078297936e-05,
      "loss": 0.443618631362915,
      "memory(GiB)": 70.5,
      "step": 33330,
      "token_acc": 0.9075144508670521,
      "train_speed(iter/s)": 1.456654
    },
    {
      "epoch": 1.4281736001028233,
      "grad_norm": 3.4901366233825684,
      "learning_rate": 8.118426056601897e-05,
      "loss": 0.5122519493103027,
      "memory(GiB)": 70.5,
      "step": 33335,
      "token_acc": 0.9003436426116839,
      "train_speed(iter/s)": 1.456647
    },
    {
      "epoch": 1.4283878154320724,
      "grad_norm": 3.2845053672790527,
      "learning_rate": 8.117899978412646e-05,
      "loss": 0.649764108657837,
      "memory(GiB)": 70.5,
      "step": 33340,
      "token_acc": 0.8607594936708861,
      "train_speed(iter/s)": 1.456673
    },
    {
      "epoch": 1.4286020307613212,
      "grad_norm": 8.528438568115234,
      "learning_rate": 8.11737384373971e-05,
      "loss": 0.2757920742034912,
      "memory(GiB)": 70.5,
      "step": 33345,
      "token_acc": 0.9477911646586346,
      "train_speed(iter/s)": 1.456668
    },
    {
      "epoch": 1.4288162460905702,
      "grad_norm": 2.513190984725952,
      "learning_rate": 8.116847652592626e-05,
      "loss": 0.2550288915634155,
      "memory(GiB)": 70.5,
      "step": 33350,
      "token_acc": 0.9491525423728814,
      "train_speed(iter/s)": 1.456673
    },
    {
      "epoch": 1.4290304614198193,
      "grad_norm": 4.860166549682617,
      "learning_rate": 8.11632140498092e-05,
      "loss": 0.541877555847168,
      "memory(GiB)": 70.5,
      "step": 33355,
      "token_acc": 0.8908450704225352,
      "train_speed(iter/s)": 1.456653
    },
    {
      "epoch": 1.429244676749068,
      "grad_norm": 4.662451267242432,
      "learning_rate": 8.115795100914129e-05,
      "loss": 0.424450159072876,
      "memory(GiB)": 70.5,
      "step": 33360,
      "token_acc": 0.9028776978417267,
      "train_speed(iter/s)": 1.456639
    },
    {
      "epoch": 1.4294588920783171,
      "grad_norm": 0.7202897667884827,
      "learning_rate": 8.115268740401787e-05,
      "loss": 0.33549063205718993,
      "memory(GiB)": 70.5,
      "step": 33365,
      "token_acc": 0.9293286219081273,
      "train_speed(iter/s)": 1.456627
    },
    {
      "epoch": 1.4296731074075661,
      "grad_norm": 4.812852382659912,
      "learning_rate": 8.114742323453431e-05,
      "loss": 0.3460377216339111,
      "memory(GiB)": 70.5,
      "step": 33370,
      "token_acc": 0.9163987138263665,
      "train_speed(iter/s)": 1.456629
    },
    {
      "epoch": 1.429887322736815,
      "grad_norm": 0.2262609899044037,
      "learning_rate": 8.114215850078595e-05,
      "loss": 0.35448408126831055,
      "memory(GiB)": 70.5,
      "step": 33375,
      "token_acc": 0.9186046511627907,
      "train_speed(iter/s)": 1.456639
    },
    {
      "epoch": 1.430101538066064,
      "grad_norm": 2.881704807281494,
      "learning_rate": 8.113689320286817e-05,
      "loss": 0.40473618507385256,
      "memory(GiB)": 70.5,
      "step": 33380,
      "token_acc": 0.9227642276422764,
      "train_speed(iter/s)": 1.456655
    },
    {
      "epoch": 1.430315753395313,
      "grad_norm": 3.7898647785186768,
      "learning_rate": 8.113162734087636e-05,
      "loss": 0.44742231369018554,
      "memory(GiB)": 70.5,
      "step": 33385,
      "token_acc": 0.8840579710144928,
      "train_speed(iter/s)": 1.456687
    },
    {
      "epoch": 1.4305299687245618,
      "grad_norm": 8.647343635559082,
      "learning_rate": 8.112636091490591e-05,
      "loss": 0.29366703033447267,
      "memory(GiB)": 70.5,
      "step": 33390,
      "token_acc": 0.9212121212121213,
      "train_speed(iter/s)": 1.456707
    },
    {
      "epoch": 1.4307441840538109,
      "grad_norm": 5.721720218658447,
      "learning_rate": 8.112109392505225e-05,
      "loss": 0.29133455753326415,
      "memory(GiB)": 70.5,
      "step": 33395,
      "token_acc": 0.9456521739130435,
      "train_speed(iter/s)": 1.45671
    },
    {
      "epoch": 1.43095839938306,
      "grad_norm": 2.0793070793151855,
      "learning_rate": 8.111582637141078e-05,
      "loss": 0.39633493423461913,
      "memory(GiB)": 70.5,
      "step": 33400,
      "token_acc": 0.926923076923077,
      "train_speed(iter/s)": 1.456724
    },
    {
      "epoch": 1.4311726147123087,
      "grad_norm": 3.1133646965026855,
      "learning_rate": 8.11105582540769e-05,
      "loss": 0.3854947090148926,
      "memory(GiB)": 70.5,
      "step": 33405,
      "token_acc": 0.9211356466876972,
      "train_speed(iter/s)": 1.456731
    },
    {
      "epoch": 1.4313868300415578,
      "grad_norm": 2.0668551921844482,
      "learning_rate": 8.11052895731461e-05,
      "loss": 0.2726698637008667,
      "memory(GiB)": 70.5,
      "step": 33410,
      "token_acc": 0.9475524475524476,
      "train_speed(iter/s)": 1.456749
    },
    {
      "epoch": 1.4316010453708068,
      "grad_norm": 4.300293445587158,
      "learning_rate": 8.11000203287138e-05,
      "loss": 0.265415358543396,
      "memory(GiB)": 70.5,
      "step": 33415,
      "token_acc": 0.9387096774193548,
      "train_speed(iter/s)": 1.456775
    },
    {
      "epoch": 1.4318152607000556,
      "grad_norm": 1.9050976037979126,
      "learning_rate": 8.109475052087543e-05,
      "loss": 0.3740545272827148,
      "memory(GiB)": 70.5,
      "step": 33420,
      "token_acc": 0.9175627240143369,
      "train_speed(iter/s)": 1.456781
    },
    {
      "epoch": 1.4320294760293046,
      "grad_norm": 5.535609245300293,
      "learning_rate": 8.108948014972652e-05,
      "loss": 0.6599618911743164,
      "memory(GiB)": 70.5,
      "step": 33425,
      "token_acc": 0.8582375478927203,
      "train_speed(iter/s)": 1.456788
    },
    {
      "epoch": 1.4322436913585537,
      "grad_norm": 2.5224719047546387,
      "learning_rate": 8.108420921536248e-05,
      "loss": 0.31258816719055177,
      "memory(GiB)": 70.5,
      "step": 33430,
      "token_acc": 0.934375,
      "train_speed(iter/s)": 1.456799
    },
    {
      "epoch": 1.4324579066878025,
      "grad_norm": 2.7757503986358643,
      "learning_rate": 8.107893771787885e-05,
      "loss": 0.2998582601547241,
      "memory(GiB)": 70.5,
      "step": 33435,
      "token_acc": 0.9287925696594427,
      "train_speed(iter/s)": 1.456804
    },
    {
      "epoch": 1.4326721220170515,
      "grad_norm": 2.9733505249023438,
      "learning_rate": 8.107366565737112e-05,
      "loss": 0.3693912267684937,
      "memory(GiB)": 70.5,
      "step": 33440,
      "token_acc": 0.9252336448598131,
      "train_speed(iter/s)": 1.456815
    },
    {
      "epoch": 1.4328863373463006,
      "grad_norm": 6.551183223724365,
      "learning_rate": 8.106839303393476e-05,
      "loss": 0.47687854766845705,
      "memory(GiB)": 70.5,
      "step": 33445,
      "token_acc": 0.8895522388059701,
      "train_speed(iter/s)": 1.456823
    },
    {
      "epoch": 1.4331005526755494,
      "grad_norm": 12.49964714050293,
      "learning_rate": 8.106311984766535e-05,
      "loss": 0.5982562065124511,
      "memory(GiB)": 70.5,
      "step": 33450,
      "token_acc": 0.8603174603174604,
      "train_speed(iter/s)": 1.45683
    },
    {
      "epoch": 1.4333147680047984,
      "grad_norm": 2.6840474605560303,
      "learning_rate": 8.105784609865835e-05,
      "loss": 0.3816049814224243,
      "memory(GiB)": 70.5,
      "step": 33455,
      "token_acc": 0.9157894736842105,
      "train_speed(iter/s)": 1.45683
    },
    {
      "epoch": 1.4335289833340474,
      "grad_norm": 3.297771692276001,
      "learning_rate": 8.105257178700935e-05,
      "loss": 0.2723667621612549,
      "memory(GiB)": 70.5,
      "step": 33460,
      "token_acc": 0.9430379746835443,
      "train_speed(iter/s)": 1.456837
    },
    {
      "epoch": 1.4337431986632962,
      "grad_norm": 0.8123674392700195,
      "learning_rate": 8.104729691281387e-05,
      "loss": 0.13467657566070557,
      "memory(GiB)": 70.5,
      "step": 33465,
      "token_acc": 0.9692982456140351,
      "train_speed(iter/s)": 1.456827
    },
    {
      "epoch": 1.4339574139925453,
      "grad_norm": 5.575889587402344,
      "learning_rate": 8.10420214761675e-05,
      "loss": 0.6048870086669922,
      "memory(GiB)": 70.5,
      "step": 33470,
      "token_acc": 0.8701298701298701,
      "train_speed(iter/s)": 1.456814
    },
    {
      "epoch": 1.4341716293217943,
      "grad_norm": 4.257656097412109,
      "learning_rate": 8.103674547716577e-05,
      "loss": 0.4463034152984619,
      "memory(GiB)": 70.5,
      "step": 33475,
      "token_acc": 0.9175257731958762,
      "train_speed(iter/s)": 1.456816
    },
    {
      "epoch": 1.4343858446510431,
      "grad_norm": 9.683680534362793,
      "learning_rate": 8.10314689159043e-05,
      "loss": 0.2747670650482178,
      "memory(GiB)": 70.5,
      "step": 33480,
      "token_acc": 0.9328358208955224,
      "train_speed(iter/s)": 1.456841
    },
    {
      "epoch": 1.4346000599802922,
      "grad_norm": 2.2066428661346436,
      "learning_rate": 8.102619179247866e-05,
      "loss": 0.2818820238113403,
      "memory(GiB)": 70.5,
      "step": 33485,
      "token_acc": 0.9533333333333334,
      "train_speed(iter/s)": 1.456846
    },
    {
      "epoch": 1.4348142753095412,
      "grad_norm": 3.746452808380127,
      "learning_rate": 8.102091410698445e-05,
      "loss": 0.5236235618591308,
      "memory(GiB)": 70.5,
      "step": 33490,
      "token_acc": 0.9064748201438849,
      "train_speed(iter/s)": 1.456861
    },
    {
      "epoch": 1.43502849063879,
      "grad_norm": 3.1337101459503174,
      "learning_rate": 8.101563585951728e-05,
      "loss": 0.4516003131866455,
      "memory(GiB)": 70.5,
      "step": 33495,
      "token_acc": 0.8962962962962963,
      "train_speed(iter/s)": 1.456873
    },
    {
      "epoch": 1.435242705968039,
      "grad_norm": 4.902766227722168,
      "learning_rate": 8.101035705017277e-05,
      "loss": 0.7123597145080567,
      "memory(GiB)": 70.5,
      "step": 33500,
      "token_acc": 0.8571428571428571,
      "train_speed(iter/s)": 1.456895
    },
    {
      "epoch": 1.435242705968039,
      "eval_loss": 2.7286128997802734,
      "eval_runtime": 13.505,
      "eval_samples_per_second": 7.405,
      "eval_steps_per_second": 7.405,
      "eval_token_acc": 0.42005813953488375,
      "step": 33500
    },
    {
      "epoch": 1.435456921297288,
      "grad_norm": 0.7341150045394897,
      "learning_rate": 8.100507767904653e-05,
      "loss": 0.24185795783996583,
      "memory(GiB)": 70.5,
      "step": 33505,
      "token_acc": 0.5766871165644172,
      "train_speed(iter/s)": 1.455999
    },
    {
      "epoch": 1.435671136626537,
      "grad_norm": 1.1361342668533325,
      "learning_rate": 8.099979774623425e-05,
      "loss": 0.22224001884460448,
      "memory(GiB)": 70.5,
      "step": 33510,
      "token_acc": 0.9377289377289377,
      "train_speed(iter/s)": 1.455997
    },
    {
      "epoch": 1.435885351955786,
      "grad_norm": 2.02335262298584,
      "learning_rate": 8.099451725183154e-05,
      "loss": 0.4811833381652832,
      "memory(GiB)": 70.5,
      "step": 33515,
      "token_acc": 0.8729508196721312,
      "train_speed(iter/s)": 1.456008
    },
    {
      "epoch": 1.436099567285035,
      "grad_norm": 5.73859167098999,
      "learning_rate": 8.098923619593409e-05,
      "loss": 0.35887322425842283,
      "memory(GiB)": 70.5,
      "step": 33520,
      "token_acc": 0.9388379204892966,
      "train_speed(iter/s)": 1.456002
    },
    {
      "epoch": 1.4363137826142838,
      "grad_norm": 6.555582046508789,
      "learning_rate": 8.098395457863755e-05,
      "loss": 0.7895328521728515,
      "memory(GiB)": 70.5,
      "step": 33525,
      "token_acc": 0.8498293515358362,
      "train_speed(iter/s)": 1.455996
    },
    {
      "epoch": 1.4365279979435328,
      "grad_norm": 6.1171770095825195,
      "learning_rate": 8.097867240003761e-05,
      "loss": 0.34111192226409914,
      "memory(GiB)": 70.5,
      "step": 33530,
      "token_acc": 0.9230769230769231,
      "train_speed(iter/s)": 1.456013
    },
    {
      "epoch": 1.4367422132727818,
      "grad_norm": 3.1095619201660156,
      "learning_rate": 8.097338966022993e-05,
      "loss": 0.27434310913085935,
      "memory(GiB)": 70.5,
      "step": 33535,
      "token_acc": 0.9564032697547684,
      "train_speed(iter/s)": 1.45601
    },
    {
      "epoch": 1.4369564286020307,
      "grad_norm": 3.659109354019165,
      "learning_rate": 8.096810635931026e-05,
      "loss": 0.20297684669494628,
      "memory(GiB)": 70.5,
      "step": 33540,
      "token_acc": 0.9508196721311475,
      "train_speed(iter/s)": 1.456012
    },
    {
      "epoch": 1.4371706439312797,
      "grad_norm": 2.7900099754333496,
      "learning_rate": 8.09628224973743e-05,
      "loss": 0.48868231773376464,
      "memory(GiB)": 70.5,
      "step": 33545,
      "token_acc": 0.9111111111111111,
      "train_speed(iter/s)": 1.45602
    },
    {
      "epoch": 1.4373848592605287,
      "grad_norm": 2.8152525424957275,
      "learning_rate": 8.095753807451777e-05,
      "loss": 0.28028852939605714,
      "memory(GiB)": 70.5,
      "step": 33550,
      "token_acc": 0.935251798561151,
      "train_speed(iter/s)": 1.456028
    },
    {
      "epoch": 1.4375990745897775,
      "grad_norm": 1.67078697681427,
      "learning_rate": 8.095225309083638e-05,
      "loss": 0.3844248533248901,
      "memory(GiB)": 70.5,
      "step": 33555,
      "token_acc": 0.920265780730897,
      "train_speed(iter/s)": 1.45603
    },
    {
      "epoch": 1.4378132899190266,
      "grad_norm": 1.7426589727401733,
      "learning_rate": 8.094696754642591e-05,
      "loss": 0.3112859487533569,
      "memory(GiB)": 70.5,
      "step": 33560,
      "token_acc": 0.9288025889967637,
      "train_speed(iter/s)": 1.456032
    },
    {
      "epoch": 1.4380275052482756,
      "grad_norm": 3.569446325302124,
      "learning_rate": 8.094168144138208e-05,
      "loss": 0.44565935134887696,
      "memory(GiB)": 70.5,
      "step": 33565,
      "token_acc": 0.8878205128205128,
      "train_speed(iter/s)": 1.456025
    },
    {
      "epoch": 1.4382417205775244,
      "grad_norm": 3.342331886291504,
      "learning_rate": 8.093639477580066e-05,
      "loss": 0.4537001132965088,
      "memory(GiB)": 70.5,
      "step": 33570,
      "token_acc": 0.8912280701754386,
      "train_speed(iter/s)": 1.456037
    },
    {
      "epoch": 1.4384559359067735,
      "grad_norm": 3.325000524520874,
      "learning_rate": 8.093110754977744e-05,
      "loss": 0.39541327953338623,
      "memory(GiB)": 70.5,
      "step": 33575,
      "token_acc": 0.9291044776119403,
      "train_speed(iter/s)": 1.456036
    },
    {
      "epoch": 1.4386701512360225,
      "grad_norm": 9.145515441894531,
      "learning_rate": 8.092581976340819e-05,
      "loss": 0.5258680820465088,
      "memory(GiB)": 70.5,
      "step": 33580,
      "token_acc": 0.8525641025641025,
      "train_speed(iter/s)": 1.456071
    },
    {
      "epoch": 1.4388843665652713,
      "grad_norm": 3.780531406402588,
      "learning_rate": 8.09205314167887e-05,
      "loss": 0.23837792873382568,
      "memory(GiB)": 70.5,
      "step": 33585,
      "token_acc": 0.9466666666666667,
      "train_speed(iter/s)": 1.456067
    },
    {
      "epoch": 1.4390985818945203,
      "grad_norm": 4.677660942077637,
      "learning_rate": 8.091524251001476e-05,
      "loss": 0.3866374731063843,
      "memory(GiB)": 70.5,
      "step": 33590,
      "token_acc": 0.9330708661417323,
      "train_speed(iter/s)": 1.456076
    },
    {
      "epoch": 1.4393127972237694,
      "grad_norm": 0.9472354650497437,
      "learning_rate": 8.090995304318224e-05,
      "loss": 0.2745575189590454,
      "memory(GiB)": 70.5,
      "step": 33595,
      "token_acc": 0.9501915708812261,
      "train_speed(iter/s)": 1.456076
    },
    {
      "epoch": 1.4395270125530182,
      "grad_norm": 3.2153518199920654,
      "learning_rate": 8.090466301638688e-05,
      "loss": 0.23937056064605713,
      "memory(GiB)": 70.5,
      "step": 33600,
      "token_acc": 0.953125,
      "train_speed(iter/s)": 1.456104
    },
    {
      "epoch": 1.4397412278822672,
      "grad_norm": 2.8721976280212402,
      "learning_rate": 8.089937242972459e-05,
      "loss": 0.27277967929840086,
      "memory(GiB)": 70.5,
      "step": 33605,
      "token_acc": 0.9363295880149812,
      "train_speed(iter/s)": 1.456107
    },
    {
      "epoch": 1.4399554432115163,
      "grad_norm": 3.668402671813965,
      "learning_rate": 8.089408128329118e-05,
      "loss": 0.22743620872497558,
      "memory(GiB)": 70.5,
      "step": 33610,
      "token_acc": 0.9336283185840708,
      "train_speed(iter/s)": 1.456099
    },
    {
      "epoch": 1.440169658540765,
      "grad_norm": 4.01747465133667,
      "learning_rate": 8.088878957718249e-05,
      "loss": 0.2968353509902954,
      "memory(GiB)": 70.5,
      "step": 33615,
      "token_acc": 0.945054945054945,
      "train_speed(iter/s)": 1.456098
    },
    {
      "epoch": 1.440383873870014,
      "grad_norm": 1.306504487991333,
      "learning_rate": 8.088349731149441e-05,
      "loss": 0.17838187217712403,
      "memory(GiB)": 70.5,
      "step": 33620,
      "token_acc": 0.9587020648967551,
      "train_speed(iter/s)": 1.456105
    },
    {
      "epoch": 1.4405980891992631,
      "grad_norm": 4.575624942779541,
      "learning_rate": 8.087820448632282e-05,
      "loss": 0.5588573455810547,
      "memory(GiB)": 70.5,
      "step": 33625,
      "token_acc": 0.8634686346863468,
      "train_speed(iter/s)": 1.456122
    },
    {
      "epoch": 1.440812304528512,
      "grad_norm": 5.0717573165893555,
      "learning_rate": 8.087291110176355e-05,
      "loss": 0.5713727951049805,
      "memory(GiB)": 70.5,
      "step": 33630,
      "token_acc": 0.8784722222222222,
      "train_speed(iter/s)": 1.456128
    },
    {
      "epoch": 1.441026519857761,
      "grad_norm": 0.8173125982284546,
      "learning_rate": 8.086761715791258e-05,
      "loss": 0.27412593364715576,
      "memory(GiB)": 70.5,
      "step": 33635,
      "token_acc": 0.9322709163346613,
      "train_speed(iter/s)": 1.45613
    },
    {
      "epoch": 1.44124073518701,
      "grad_norm": 2.2936458587646484,
      "learning_rate": 8.086232265486576e-05,
      "loss": 0.4175689220428467,
      "memory(GiB)": 70.5,
      "step": 33640,
      "token_acc": 0.9174917491749175,
      "train_speed(iter/s)": 1.456131
    },
    {
      "epoch": 1.4414549505162588,
      "grad_norm": 5.615164279937744,
      "learning_rate": 8.085702759271899e-05,
      "loss": 0.37200117111206055,
      "memory(GiB)": 70.5,
      "step": 33645,
      "token_acc": 0.9263157894736842,
      "train_speed(iter/s)": 1.456127
    },
    {
      "epoch": 1.4416691658455079,
      "grad_norm": 2.73396635055542,
      "learning_rate": 8.085173197156824e-05,
      "loss": 0.1378488063812256,
      "memory(GiB)": 70.5,
      "step": 33650,
      "token_acc": 0.965034965034965,
      "train_speed(iter/s)": 1.456125
    },
    {
      "epoch": 1.441883381174757,
      "grad_norm": 3.242422103881836,
      "learning_rate": 8.084643579150941e-05,
      "loss": 0.34174256324768065,
      "memory(GiB)": 70.5,
      "step": 33655,
      "token_acc": 0.9333333333333333,
      "train_speed(iter/s)": 1.456115
    },
    {
      "epoch": 1.4420975965040057,
      "grad_norm": 0.9703684449195862,
      "learning_rate": 8.084113905263846e-05,
      "loss": 0.6047898769378662,
      "memory(GiB)": 70.5,
      "step": 33660,
      "token_acc": 0.910394265232975,
      "train_speed(iter/s)": 1.456114
    },
    {
      "epoch": 1.4423118118332547,
      "grad_norm": 2.6682159900665283,
      "learning_rate": 8.083584175505134e-05,
      "loss": 0.37187535762786866,
      "memory(GiB)": 70.5,
      "step": 33665,
      "token_acc": 0.9440298507462687,
      "train_speed(iter/s)": 1.456139
    },
    {
      "epoch": 1.4425260271625038,
      "grad_norm": 4.066932201385498,
      "learning_rate": 8.083054389884405e-05,
      "loss": 0.3636352777481079,
      "memory(GiB)": 70.5,
      "step": 33670,
      "token_acc": 0.9399293286219081,
      "train_speed(iter/s)": 1.456177
    },
    {
      "epoch": 1.4427402424917526,
      "grad_norm": 1.84194815158844,
      "learning_rate": 8.082524548411252e-05,
      "loss": 0.16236608028411864,
      "memory(GiB)": 70.5,
      "step": 33675,
      "token_acc": 0.9674267100977199,
      "train_speed(iter/s)": 1.456177
    },
    {
      "epoch": 1.4429544578210016,
      "grad_norm": 1.6201813220977783,
      "learning_rate": 8.081994651095273e-05,
      "loss": 0.13873189687728882,
      "memory(GiB)": 70.5,
      "step": 33680,
      "token_acc": 0.9667774086378738,
      "train_speed(iter/s)": 1.456183
    },
    {
      "epoch": 1.4431686731502507,
      "grad_norm": 1.030038833618164,
      "learning_rate": 8.081464697946072e-05,
      "loss": 0.5362287998199463,
      "memory(GiB)": 70.5,
      "step": 33685,
      "token_acc": 0.8728323699421965,
      "train_speed(iter/s)": 1.456173
    },
    {
      "epoch": 1.4433828884794995,
      "grad_norm": 1.8253769874572754,
      "learning_rate": 8.080934688973248e-05,
      "loss": 0.24431936740875243,
      "memory(GiB)": 70.5,
      "step": 33690,
      "token_acc": 0.949685534591195,
      "train_speed(iter/s)": 1.456177
    },
    {
      "epoch": 1.4435971038087485,
      "grad_norm": 2.6905486583709717,
      "learning_rate": 8.0804046241864e-05,
      "loss": 0.4290763378143311,
      "memory(GiB)": 70.5,
      "step": 33695,
      "token_acc": 0.90234375,
      "train_speed(iter/s)": 1.456189
    },
    {
      "epoch": 1.4438113191379975,
      "grad_norm": 2.474961996078491,
      "learning_rate": 8.079874503595133e-05,
      "loss": 0.18717256784439087,
      "memory(GiB)": 70.5,
      "step": 33700,
      "token_acc": 0.9554896142433235,
      "train_speed(iter/s)": 1.456193
    },
    {
      "epoch": 1.4440255344672464,
      "grad_norm": 4.682316780090332,
      "learning_rate": 8.079344327209051e-05,
      "loss": 0.381260085105896,
      "memory(GiB)": 70.5,
      "step": 33705,
      "token_acc": 0.9235474006116208,
      "train_speed(iter/s)": 1.456194
    },
    {
      "epoch": 1.4442397497964954,
      "grad_norm": 5.860673904418945,
      "learning_rate": 8.078814095037758e-05,
      "loss": 0.38004865646362307,
      "memory(GiB)": 70.5,
      "step": 33710,
      "token_acc": 0.9283154121863799,
      "train_speed(iter/s)": 1.456201
    },
    {
      "epoch": 1.4444539651257444,
      "grad_norm": 3.749908208847046,
      "learning_rate": 8.078283807090858e-05,
      "loss": 0.4054743766784668,
      "memory(GiB)": 70.5,
      "step": 33715,
      "token_acc": 0.9185667752442996,
      "train_speed(iter/s)": 1.456211
    },
    {
      "epoch": 1.4446681804549932,
      "grad_norm": 8.038121223449707,
      "learning_rate": 8.077753463377962e-05,
      "loss": 0.586198091506958,
      "memory(GiB)": 70.5,
      "step": 33720,
      "token_acc": 0.8722044728434505,
      "train_speed(iter/s)": 1.456254
    },
    {
      "epoch": 1.4448823957842423,
      "grad_norm": 4.293758869171143,
      "learning_rate": 8.07722306390867e-05,
      "loss": 0.235148286819458,
      "memory(GiB)": 70.5,
      "step": 33725,
      "token_acc": 0.9438943894389439,
      "train_speed(iter/s)": 1.456257
    },
    {
      "epoch": 1.4450966111134913,
      "grad_norm": 2.3492302894592285,
      "learning_rate": 8.0766926086926e-05,
      "loss": 0.40038213729858396,
      "memory(GiB)": 70.5,
      "step": 33730,
      "token_acc": 0.912621359223301,
      "train_speed(iter/s)": 1.456254
    },
    {
      "epoch": 1.4453108264427401,
      "grad_norm": 3.4287564754486084,
      "learning_rate": 8.076162097739356e-05,
      "loss": 0.5315575122833252,
      "memory(GiB)": 70.5,
      "step": 33735,
      "token_acc": 0.9133333333333333,
      "train_speed(iter/s)": 1.456252
    },
    {
      "epoch": 1.4455250417719891,
      "grad_norm": 4.09869384765625,
      "learning_rate": 8.07563153105855e-05,
      "loss": 0.35046753883361814,
      "memory(GiB)": 70.5,
      "step": 33740,
      "token_acc": 0.9134615384615384,
      "train_speed(iter/s)": 1.456247
    },
    {
      "epoch": 1.4457392571012382,
      "grad_norm": 3.457951784133911,
      "learning_rate": 8.075100908659793e-05,
      "loss": 0.5925482749938965,
      "memory(GiB)": 70.5,
      "step": 33745,
      "token_acc": 0.9053030303030303,
      "train_speed(iter/s)": 1.456246
    },
    {
      "epoch": 1.445953472430487,
      "grad_norm": 4.101690292358398,
      "learning_rate": 8.074570230552698e-05,
      "loss": 0.41150741577148436,
      "memory(GiB)": 70.5,
      "step": 33750,
      "token_acc": 0.913312693498452,
      "train_speed(iter/s)": 1.45625
    },
    {
      "epoch": 1.446167687759736,
      "grad_norm": 4.513691425323486,
      "learning_rate": 8.074039496746881e-05,
      "loss": 0.3407751083374023,
      "memory(GiB)": 70.5,
      "step": 33755,
      "token_acc": 0.9148148148148149,
      "train_speed(iter/s)": 1.456278
    },
    {
      "epoch": 1.446381903088985,
      "grad_norm": 5.3126115798950195,
      "learning_rate": 8.073508707251953e-05,
      "loss": 0.2110121250152588,
      "memory(GiB)": 70.5,
      "step": 33760,
      "token_acc": 0.9511278195488722,
      "train_speed(iter/s)": 1.45628
    },
    {
      "epoch": 1.4465961184182339,
      "grad_norm": 5.123061656951904,
      "learning_rate": 8.072977862077532e-05,
      "loss": 0.3695167303085327,
      "memory(GiB)": 70.5,
      "step": 33765,
      "token_acc": 0.9182879377431906,
      "train_speed(iter/s)": 1.456267
    },
    {
      "epoch": 1.446810333747483,
      "grad_norm": 3.7912518978118896,
      "learning_rate": 8.072446961233236e-05,
      "loss": 0.2515966176986694,
      "memory(GiB)": 70.5,
      "step": 33770,
      "token_acc": 0.9456066945606695,
      "train_speed(iter/s)": 1.45626
    },
    {
      "epoch": 1.447024549076732,
      "grad_norm": 0.5082888007164001,
      "learning_rate": 8.07191600472868e-05,
      "loss": 0.47006540298461913,
      "memory(GiB)": 70.5,
      "step": 33775,
      "token_acc": 0.9106529209621993,
      "train_speed(iter/s)": 1.456283
    },
    {
      "epoch": 1.4472387644059808,
      "grad_norm": 0.20798468589782715,
      "learning_rate": 8.071384992573482e-05,
      "loss": 0.2752924919128418,
      "memory(GiB)": 70.5,
      "step": 33780,
      "token_acc": 0.9570200573065902,
      "train_speed(iter/s)": 1.456275
    },
    {
      "epoch": 1.4474529797352298,
      "grad_norm": 1.769346833229065,
      "learning_rate": 8.070853924777266e-05,
      "loss": 0.5852202415466309,
      "memory(GiB)": 70.5,
      "step": 33785,
      "token_acc": 0.8782287822878229,
      "train_speed(iter/s)": 1.456281
    },
    {
      "epoch": 1.4476671950644788,
      "grad_norm": 1.904242992401123,
      "learning_rate": 8.070322801349649e-05,
      "loss": 0.24972946643829347,
      "memory(GiB)": 70.5,
      "step": 33790,
      "token_acc": 0.9452054794520548,
      "train_speed(iter/s)": 1.456295
    },
    {
      "epoch": 1.4478814103937276,
      "grad_norm": 0.2259232997894287,
      "learning_rate": 8.069791622300255e-05,
      "loss": 0.31232903003692625,
      "memory(GiB)": 70.5,
      "step": 33795,
      "token_acc": 0.9470404984423676,
      "train_speed(iter/s)": 1.456289
    },
    {
      "epoch": 1.4480956257229767,
      "grad_norm": 1.5060168504714966,
      "learning_rate": 8.069260387638705e-05,
      "loss": 0.49539756774902344,
      "memory(GiB)": 70.5,
      "step": 33800,
      "token_acc": 0.896,
      "train_speed(iter/s)": 1.456278
    },
    {
      "epoch": 1.4483098410522257,
      "grad_norm": 3.077190637588501,
      "learning_rate": 8.068729097374626e-05,
      "loss": 0.1791548490524292,
      "memory(GiB)": 70.5,
      "step": 33805,
      "token_acc": 0.9635761589403974,
      "train_speed(iter/s)": 1.456282
    },
    {
      "epoch": 1.4485240563814745,
      "grad_norm": 1.4435697793960571,
      "learning_rate": 8.068197751517638e-05,
      "loss": 0.27458696365356444,
      "memory(GiB)": 70.5,
      "step": 33810,
      "token_acc": 0.93,
      "train_speed(iter/s)": 1.456291
    },
    {
      "epoch": 1.4487382717107236,
      "grad_norm": 6.262722015380859,
      "learning_rate": 8.067666350077372e-05,
      "loss": 0.6963133811950684,
      "memory(GiB)": 70.5,
      "step": 33815,
      "token_acc": 0.8611111111111112,
      "train_speed(iter/s)": 1.456289
    },
    {
      "epoch": 1.4489524870399726,
      "grad_norm": 6.317347526550293,
      "learning_rate": 8.067134893063452e-05,
      "loss": 0.5266135215759278,
      "memory(GiB)": 70.5,
      "step": 33820,
      "token_acc": 0.9016949152542373,
      "train_speed(iter/s)": 1.4563
    },
    {
      "epoch": 1.4491667023692214,
      "grad_norm": 4.713284015655518,
      "learning_rate": 8.066603380485505e-05,
      "loss": 0.47337779998779295,
      "memory(GiB)": 70.5,
      "step": 33825,
      "token_acc": 0.9069767441860465,
      "train_speed(iter/s)": 1.456319
    },
    {
      "epoch": 1.4493809176984704,
      "grad_norm": 2.6152102947235107,
      "learning_rate": 8.066071812353162e-05,
      "loss": 0.5634575366973877,
      "memory(GiB)": 70.5,
      "step": 33830,
      "token_acc": 0.8714285714285714,
      "train_speed(iter/s)": 1.456345
    },
    {
      "epoch": 1.4495951330277195,
      "grad_norm": 3.727640390396118,
      "learning_rate": 8.06554018867605e-05,
      "loss": 0.5154270172119141,
      "memory(GiB)": 70.5,
      "step": 33835,
      "token_acc": 0.8899082568807339,
      "train_speed(iter/s)": 1.456332
    },
    {
      "epoch": 1.4498093483569683,
      "grad_norm": 3.7586169242858887,
      "learning_rate": 8.065008509463805e-05,
      "loss": 0.5000697612762451,
      "memory(GiB)": 70.5,
      "step": 33840,
      "token_acc": 0.8825503355704698,
      "train_speed(iter/s)": 1.456323
    },
    {
      "epoch": 1.4500235636862173,
      "grad_norm": 6.398438930511475,
      "learning_rate": 8.064476774726054e-05,
      "loss": 0.24309883117675782,
      "memory(GiB)": 70.5,
      "step": 33845,
      "token_acc": 0.9473684210526315,
      "train_speed(iter/s)": 1.456353
    },
    {
      "epoch": 1.4502377790154664,
      "grad_norm": 2.481947183609009,
      "learning_rate": 8.063944984472431e-05,
      "loss": 0.35377686023712157,
      "memory(GiB)": 70.5,
      "step": 33850,
      "token_acc": 0.9145907473309609,
      "train_speed(iter/s)": 1.456356
    },
    {
      "epoch": 1.4504519943447154,
      "grad_norm": 2.986947536468506,
      "learning_rate": 8.063413138712572e-05,
      "loss": 0.44171648025512694,
      "memory(GiB)": 70.5,
      "step": 33855,
      "token_acc": 0.9133333333333333,
      "train_speed(iter/s)": 1.456377
    },
    {
      "epoch": 1.4506662096739642,
      "grad_norm": 2.8188722133636475,
      "learning_rate": 8.062881237456108e-05,
      "loss": 0.3406226634979248,
      "memory(GiB)": 70.5,
      "step": 33860,
      "token_acc": 0.9153846153846154,
      "train_speed(iter/s)": 1.45638
    },
    {
      "epoch": 1.4508804250032132,
      "grad_norm": 1.6642826795578003,
      "learning_rate": 8.06234928071268e-05,
      "loss": 0.34090945720672605,
      "memory(GiB)": 70.5,
      "step": 33865,
      "token_acc": 0.9403973509933775,
      "train_speed(iter/s)": 1.456382
    },
    {
      "epoch": 1.4510946403324623,
      "grad_norm": 4.7979512214660645,
      "learning_rate": 8.061817268491919e-05,
      "loss": 0.5060721397399902,
      "memory(GiB)": 70.5,
      "step": 33870,
      "token_acc": 0.8910256410256411,
      "train_speed(iter/s)": 1.456387
    },
    {
      "epoch": 1.451308855661711,
      "grad_norm": 1.118110179901123,
      "learning_rate": 8.061285200803467e-05,
      "loss": 0.13907543420791627,
      "memory(GiB)": 70.5,
      "step": 33875,
      "token_acc": 0.9739413680781759,
      "train_speed(iter/s)": 1.456389
    },
    {
      "epoch": 1.4515230709909601,
      "grad_norm": 3.856687068939209,
      "learning_rate": 8.060753077656964e-05,
      "loss": 0.21549863815307618,
      "memory(GiB)": 70.5,
      "step": 33880,
      "token_acc": 0.9429824561403509,
      "train_speed(iter/s)": 1.456398
    },
    {
      "epoch": 1.4517372863202092,
      "grad_norm": 3.5219266414642334,
      "learning_rate": 8.060220899062045e-05,
      "loss": 0.4658827781677246,
      "memory(GiB)": 70.5,
      "step": 33885,
      "token_acc": 0.9061371841155235,
      "train_speed(iter/s)": 1.456416
    },
    {
      "epoch": 1.451951501649458,
      "grad_norm": 3.036120653152466,
      "learning_rate": 8.059688665028355e-05,
      "loss": 0.48525371551513674,
      "memory(GiB)": 70.5,
      "step": 33890,
      "token_acc": 0.9122257053291536,
      "train_speed(iter/s)": 1.456436
    },
    {
      "epoch": 1.452165716978707,
      "grad_norm": 10.285018920898438,
      "learning_rate": 8.059156375565535e-05,
      "loss": 0.4781638145446777,
      "memory(GiB)": 70.5,
      "step": 33895,
      "token_acc": 0.8975265017667845,
      "train_speed(iter/s)": 1.45643
    },
    {
      "epoch": 1.452379932307956,
      "grad_norm": 1.9121507406234741,
      "learning_rate": 8.058624030683226e-05,
      "loss": 0.35310540199279783,
      "memory(GiB)": 70.5,
      "step": 33900,
      "token_acc": 0.92,
      "train_speed(iter/s)": 1.456428
    },
    {
      "epoch": 1.4525941476372048,
      "grad_norm": 2.0887839794158936,
      "learning_rate": 8.058091630391076e-05,
      "loss": 0.4727607250213623,
      "memory(GiB)": 70.5,
      "step": 33905,
      "token_acc": 0.900709219858156,
      "train_speed(iter/s)": 1.456435
    },
    {
      "epoch": 1.4528083629664539,
      "grad_norm": 2.384114980697632,
      "learning_rate": 8.057559174698725e-05,
      "loss": 0.22896895408630372,
      "memory(GiB)": 70.5,
      "step": 33910,
      "token_acc": 0.9504132231404959,
      "train_speed(iter/s)": 1.45645
    },
    {
      "epoch": 1.453022578295703,
      "grad_norm": 4.441871166229248,
      "learning_rate": 8.05702666361582e-05,
      "loss": 0.4489466190338135,
      "memory(GiB)": 70.5,
      "step": 33915,
      "token_acc": 0.8972222222222223,
      "train_speed(iter/s)": 1.45646
    },
    {
      "epoch": 1.4532367936249517,
      "grad_norm": 3.364086627960205,
      "learning_rate": 8.056494097152013e-05,
      "loss": 0.16212034225463867,
      "memory(GiB)": 70.5,
      "step": 33920,
      "token_acc": 0.9584487534626038,
      "train_speed(iter/s)": 1.456488
    },
    {
      "epoch": 1.4534510089542008,
      "grad_norm": 2.1551027297973633,
      "learning_rate": 8.055961475316947e-05,
      "loss": 0.32392706871032717,
      "memory(GiB)": 70.5,
      "step": 33925,
      "token_acc": 0.9252669039145908,
      "train_speed(iter/s)": 1.456504
    },
    {
      "epoch": 1.4536652242834498,
      "grad_norm": 3.1070685386657715,
      "learning_rate": 8.055428798120272e-05,
      "loss": 0.41553196907043455,
      "memory(GiB)": 70.5,
      "step": 33930,
      "token_acc": 0.9057377049180327,
      "train_speed(iter/s)": 1.456509
    },
    {
      "epoch": 1.4538794396126986,
      "grad_norm": 1.7730708122253418,
      "learning_rate": 8.054896065571638e-05,
      "loss": 0.41185603141784666,
      "memory(GiB)": 70.5,
      "step": 33935,
      "token_acc": 0.9149659863945578,
      "train_speed(iter/s)": 1.456502
    },
    {
      "epoch": 1.4540936549419476,
      "grad_norm": 3.3240432739257812,
      "learning_rate": 8.054363277680695e-05,
      "loss": 0.5764716625213623,
      "memory(GiB)": 70.5,
      "step": 33940,
      "token_acc": 0.8745387453874539,
      "train_speed(iter/s)": 1.456496
    },
    {
      "epoch": 1.4543078702711967,
      "grad_norm": 3.289592742919922,
      "learning_rate": 8.053830434457097e-05,
      "loss": 0.33661391735076907,
      "memory(GiB)": 70.5,
      "step": 33945,
      "token_acc": 0.929368029739777,
      "train_speed(iter/s)": 1.456499
    },
    {
      "epoch": 1.4545220856004455,
      "grad_norm": 1.9082207679748535,
      "learning_rate": 8.053297535910496e-05,
      "loss": 0.4861290454864502,
      "memory(GiB)": 70.5,
      "step": 33950,
      "token_acc": 0.8908554572271387,
      "train_speed(iter/s)": 1.456526
    },
    {
      "epoch": 1.4547363009296945,
      "grad_norm": 6.217767238616943,
      "learning_rate": 8.052764582050544e-05,
      "loss": 0.355702543258667,
      "memory(GiB)": 70.5,
      "step": 33955,
      "token_acc": 0.9300911854103343,
      "train_speed(iter/s)": 1.456546
    },
    {
      "epoch": 1.4549505162589436,
      "grad_norm": 0.4065174460411072,
      "learning_rate": 8.052231572886902e-05,
      "loss": 0.7254111289978027,
      "memory(GiB)": 70.5,
      "step": 33960,
      "token_acc": 0.8414239482200647,
      "train_speed(iter/s)": 1.45657
    },
    {
      "epoch": 1.4551647315881924,
      "grad_norm": 4.500709056854248,
      "learning_rate": 8.051698508429219e-05,
      "loss": 0.6248703479766846,
      "memory(GiB)": 70.5,
      "step": 33965,
      "token_acc": 0.8823529411764706,
      "train_speed(iter/s)": 1.456572
    },
    {
      "epoch": 1.4553789469174414,
      "grad_norm": 4.220986843109131,
      "learning_rate": 8.051165388687154e-05,
      "loss": 0.32059297561645506,
      "memory(GiB)": 70.5,
      "step": 33970,
      "token_acc": 0.9367088607594937,
      "train_speed(iter/s)": 1.456581
    },
    {
      "epoch": 1.4555931622466904,
      "grad_norm": 6.0977630615234375,
      "learning_rate": 8.050632213670368e-05,
      "loss": 0.3015800714492798,
      "memory(GiB)": 70.5,
      "step": 33975,
      "token_acc": 0.9291666666666667,
      "train_speed(iter/s)": 1.456578
    },
    {
      "epoch": 1.4558073775759393,
      "grad_norm": 3.6212270259857178,
      "learning_rate": 8.050098983388516e-05,
      "loss": 0.55916748046875,
      "memory(GiB)": 70.5,
      "step": 33980,
      "token_acc": 0.9027777777777778,
      "train_speed(iter/s)": 1.45659
    },
    {
      "epoch": 1.4560215929051883,
      "grad_norm": 2.174985885620117,
      "learning_rate": 8.04956569785126e-05,
      "loss": 0.4853366851806641,
      "memory(GiB)": 70.5,
      "step": 33985,
      "token_acc": 0.8875,
      "train_speed(iter/s)": 1.45658
    },
    {
      "epoch": 1.4562358082344373,
      "grad_norm": 2.618180274963379,
      "learning_rate": 8.049032357068263e-05,
      "loss": 0.2355872869491577,
      "memory(GiB)": 70.5,
      "step": 33990,
      "token_acc": 0.946236559139785,
      "train_speed(iter/s)": 1.456584
    },
    {
      "epoch": 1.4564500235636861,
      "grad_norm": 2.1335854530334473,
      "learning_rate": 8.048498961049182e-05,
      "loss": 0.3524254560470581,
      "memory(GiB)": 70.5,
      "step": 33995,
      "token_acc": 0.9323076923076923,
      "train_speed(iter/s)": 1.456597
    },
    {
      "epoch": 1.4566642388929352,
      "grad_norm": 1.0111279487609863,
      "learning_rate": 8.047965509803684e-05,
      "loss": 0.23416492938995362,
      "memory(GiB)": 70.5,
      "step": 34000,
      "token_acc": 0.9348659003831418,
      "train_speed(iter/s)": 1.456593
    },
    {
      "epoch": 1.4566642388929352,
      "eval_loss": 2.601572275161743,
      "eval_runtime": 13.9194,
      "eval_samples_per_second": 7.184,
      "eval_steps_per_second": 7.184,
      "eval_token_acc": 0.42913385826771655,
      "step": 34000
    },
    {
      "epoch": 1.4568784542221842,
      "grad_norm": 0.41749656200408936,
      "learning_rate": 8.04743200334143e-05,
      "loss": 0.17872778177261353,
      "memory(GiB)": 70.5,
      "step": 34005,
      "token_acc": 0.580765639589169,
      "train_speed(iter/s)": 1.455671
    },
    {
      "epoch": 1.457092669551433,
      "grad_norm": 3.2983219623565674,
      "learning_rate": 8.046898441672087e-05,
      "loss": 0.36252493858337403,
      "memory(GiB)": 70.5,
      "step": 34010,
      "token_acc": 0.914364640883978,
      "train_speed(iter/s)": 1.455672
    },
    {
      "epoch": 1.457306884880682,
      "grad_norm": 6.534317493438721,
      "learning_rate": 8.046364824805321e-05,
      "loss": 0.33112258911132814,
      "memory(GiB)": 70.5,
      "step": 34015,
      "token_acc": 0.9163987138263665,
      "train_speed(iter/s)": 1.455673
    },
    {
      "epoch": 1.457521100209931,
      "grad_norm": 0.44917964935302734,
      "learning_rate": 8.045831152750798e-05,
      "loss": 0.46323180198669434,
      "memory(GiB)": 70.5,
      "step": 34020,
      "token_acc": 0.8861209964412812,
      "train_speed(iter/s)": 1.455692
    },
    {
      "epoch": 1.4577353155391801,
      "grad_norm": 4.399231433868408,
      "learning_rate": 8.045297425518188e-05,
      "loss": 0.5865123748779297,
      "memory(GiB)": 70.5,
      "step": 34025,
      "token_acc": 0.8814229249011858,
      "train_speed(iter/s)": 1.455694
    },
    {
      "epoch": 1.457949530868429,
      "grad_norm": 3.736008882522583,
      "learning_rate": 8.044763643117157e-05,
      "loss": 0.5234577655792236,
      "memory(GiB)": 70.5,
      "step": 34030,
      "token_acc": 0.8774373259052924,
      "train_speed(iter/s)": 1.455691
    },
    {
      "epoch": 1.458163746197678,
      "grad_norm": 2.9257113933563232,
      "learning_rate": 8.044229805557377e-05,
      "loss": 0.29869282245635986,
      "memory(GiB)": 70.5,
      "step": 34035,
      "token_acc": 0.9533333333333334,
      "train_speed(iter/s)": 1.4557
    },
    {
      "epoch": 1.458377961526927,
      "grad_norm": 3.0756301879882812,
      "learning_rate": 8.043695912848517e-05,
      "loss": 0.1576961874961853,
      "memory(GiB)": 70.5,
      "step": 34040,
      "token_acc": 0.9685314685314685,
      "train_speed(iter/s)": 1.455703
    },
    {
      "epoch": 1.4585921768561758,
      "grad_norm": 1.9987317323684692,
      "learning_rate": 8.043161965000252e-05,
      "loss": 0.29141194820404054,
      "memory(GiB)": 70.5,
      "step": 34045,
      "token_acc": 0.9351535836177475,
      "train_speed(iter/s)": 1.455728
    },
    {
      "epoch": 1.4588063921854248,
      "grad_norm": 7.0272417068481445,
      "learning_rate": 8.042627962022252e-05,
      "loss": 0.23022122383117677,
      "memory(GiB)": 70.5,
      "step": 34050,
      "token_acc": 0.9568627450980393,
      "train_speed(iter/s)": 1.455728
    },
    {
      "epoch": 1.4590206075146739,
      "grad_norm": 2.486330509185791,
      "learning_rate": 8.042093903924193e-05,
      "loss": 0.4942915916442871,
      "memory(GiB)": 70.5,
      "step": 34055,
      "token_acc": 0.8949152542372881,
      "train_speed(iter/s)": 1.455739
    },
    {
      "epoch": 1.4592348228439227,
      "grad_norm": 1.610487937927246,
      "learning_rate": 8.04155979071575e-05,
      "loss": 0.1617902398109436,
      "memory(GiB)": 70.5,
      "step": 34060,
      "token_acc": 0.9522184300341296,
      "train_speed(iter/s)": 1.455739
    },
    {
      "epoch": 1.4594490381731717,
      "grad_norm": 3.2824339866638184,
      "learning_rate": 8.041025622406596e-05,
      "loss": 0.8372491836547852,
      "memory(GiB)": 70.5,
      "step": 34065,
      "token_acc": 0.8539325842696629,
      "train_speed(iter/s)": 1.455739
    },
    {
      "epoch": 1.4596632535024208,
      "grad_norm": 2.5210161209106445,
      "learning_rate": 8.040491399006412e-05,
      "loss": 0.35575523376464846,
      "memory(GiB)": 70.5,
      "step": 34070,
      "token_acc": 0.9145907473309609,
      "train_speed(iter/s)": 1.455741
    },
    {
      "epoch": 1.4598774688316696,
      "grad_norm": 4.050143241882324,
      "learning_rate": 8.039957120524872e-05,
      "loss": 0.6006979942321777,
      "memory(GiB)": 70.5,
      "step": 34075,
      "token_acc": 0.9066666666666666,
      "train_speed(iter/s)": 1.455758
    },
    {
      "epoch": 1.4600916841609186,
      "grad_norm": 2.5118024349212646,
      "learning_rate": 8.03942278697166e-05,
      "loss": 0.6056692123413085,
      "memory(GiB)": 70.5,
      "step": 34080,
      "token_acc": 0.8706896551724138,
      "train_speed(iter/s)": 1.455767
    },
    {
      "epoch": 1.4603058994901676,
      "grad_norm": 2.609204053878784,
      "learning_rate": 8.03888839835645e-05,
      "loss": 0.19291507005691527,
      "memory(GiB)": 70.5,
      "step": 34085,
      "token_acc": 0.9770114942528736,
      "train_speed(iter/s)": 1.455761
    },
    {
      "epoch": 1.4605201148194165,
      "grad_norm": 2.0175817012786865,
      "learning_rate": 8.038353954688928e-05,
      "loss": 0.33805534839630125,
      "memory(GiB)": 70.5,
      "step": 34090,
      "token_acc": 0.9235880398671097,
      "train_speed(iter/s)": 1.455758
    },
    {
      "epoch": 1.4607343301486655,
      "grad_norm": 3.790681838989258,
      "learning_rate": 8.037819455978774e-05,
      "loss": 0.2518023490905762,
      "memory(GiB)": 70.5,
      "step": 34095,
      "token_acc": 0.9328859060402684,
      "train_speed(iter/s)": 1.455754
    },
    {
      "epoch": 1.4609485454779145,
      "grad_norm": 3.736747980117798,
      "learning_rate": 8.037284902235669e-05,
      "loss": 0.5506904125213623,
      "memory(GiB)": 70.5,
      "step": 34100,
      "token_acc": 0.8930817610062893,
      "train_speed(iter/s)": 1.455752
    },
    {
      "epoch": 1.4611627608071633,
      "grad_norm": 1.6684175729751587,
      "learning_rate": 8.036750293469302e-05,
      "loss": 0.6316912174224854,
      "memory(GiB)": 70.5,
      "step": 34105,
      "token_acc": 0.8557046979865772,
      "train_speed(iter/s)": 1.455749
    },
    {
      "epoch": 1.4613769761364124,
      "grad_norm": 5.3617353439331055,
      "learning_rate": 8.036215629689352e-05,
      "loss": 0.4730494976043701,
      "memory(GiB)": 70.5,
      "step": 34110,
      "token_acc": 0.8726114649681529,
      "train_speed(iter/s)": 1.455746
    },
    {
      "epoch": 1.4615911914656614,
      "grad_norm": 5.4479827880859375,
      "learning_rate": 8.035680910905508e-05,
      "loss": 0.34221060276031495,
      "memory(GiB)": 70.5,
      "step": 34115,
      "token_acc": 0.9361022364217252,
      "train_speed(iter/s)": 1.455743
    },
    {
      "epoch": 1.4618054067949102,
      "grad_norm": 2.494231939315796,
      "learning_rate": 8.035146137127458e-05,
      "loss": 0.5201244354248047,
      "memory(GiB)": 70.5,
      "step": 34120,
      "token_acc": 0.8989169675090253,
      "train_speed(iter/s)": 1.45574
    },
    {
      "epoch": 1.4620196221241593,
      "grad_norm": 2.545955181121826,
      "learning_rate": 8.034611308364888e-05,
      "loss": 0.3916786670684814,
      "memory(GiB)": 70.5,
      "step": 34125,
      "token_acc": 0.9039735099337748,
      "train_speed(iter/s)": 1.455737
    },
    {
      "epoch": 1.4622338374534083,
      "grad_norm": 0.07731367647647858,
      "learning_rate": 8.034076424627486e-05,
      "loss": 0.4990840435028076,
      "memory(GiB)": 70.5,
      "step": 34130,
      "token_acc": 0.9184952978056427,
      "train_speed(iter/s)": 1.455733
    },
    {
      "epoch": 1.462448052782657,
      "grad_norm": 3.391986131668091,
      "learning_rate": 8.033541485924945e-05,
      "loss": 0.44433937072753904,
      "memory(GiB)": 70.5,
      "step": 34135,
      "token_acc": 0.9023569023569024,
      "train_speed(iter/s)": 1.455738
    },
    {
      "epoch": 1.4626622681119061,
      "grad_norm": 4.060154438018799,
      "learning_rate": 8.033006492266952e-05,
      "loss": 1.1214964866638184,
      "memory(GiB)": 70.5,
      "step": 34140,
      "token_acc": 0.7723880597014925,
      "train_speed(iter/s)": 1.455722
    },
    {
      "epoch": 1.4628764834411552,
      "grad_norm": 0.905083417892456,
      "learning_rate": 8.032471443663203e-05,
      "loss": 0.22432501316070558,
      "memory(GiB)": 70.5,
      "step": 34145,
      "token_acc": 0.9541984732824428,
      "train_speed(iter/s)": 1.455735
    },
    {
      "epoch": 1.463090698770404,
      "grad_norm": 2.68670916557312,
      "learning_rate": 8.03193634012339e-05,
      "loss": 0.3040745258331299,
      "memory(GiB)": 70.5,
      "step": 34150,
      "token_acc": 0.9222614840989399,
      "train_speed(iter/s)": 1.455736
    },
    {
      "epoch": 1.463304914099653,
      "grad_norm": 2.8615806102752686,
      "learning_rate": 8.031401181657206e-05,
      "loss": 0.45002002716064454,
      "memory(GiB)": 70.5,
      "step": 34155,
      "token_acc": 0.9090909090909091,
      "train_speed(iter/s)": 1.455756
    },
    {
      "epoch": 1.463519129428902,
      "grad_norm": 2.4223999977111816,
      "learning_rate": 8.030865968274344e-05,
      "loss": 0.26651768684387206,
      "memory(GiB)": 70.5,
      "step": 34160,
      "token_acc": 0.9377431906614786,
      "train_speed(iter/s)": 1.455738
    },
    {
      "epoch": 1.4637333447581509,
      "grad_norm": 2.721541404724121,
      "learning_rate": 8.030330699984503e-05,
      "loss": 0.39132323265075686,
      "memory(GiB)": 70.5,
      "step": 34165,
      "token_acc": 0.9383561643835616,
      "train_speed(iter/s)": 1.455738
    },
    {
      "epoch": 1.4639475600874,
      "grad_norm": 1.632399320602417,
      "learning_rate": 8.029795376797377e-05,
      "loss": 0.4704144954681396,
      "memory(GiB)": 70.5,
      "step": 34170,
      "token_acc": 0.8951612903225806,
      "train_speed(iter/s)": 1.455727
    },
    {
      "epoch": 1.464161775416649,
      "grad_norm": 6.5857038497924805,
      "learning_rate": 8.029259998722667e-05,
      "loss": 0.39681520462036135,
      "memory(GiB)": 70.5,
      "step": 34175,
      "token_acc": 0.9191176470588235,
      "train_speed(iter/s)": 1.455731
    },
    {
      "epoch": 1.4643759907458977,
      "grad_norm": 3.0407252311706543,
      "learning_rate": 8.028724565770071e-05,
      "loss": 0.1535636305809021,
      "memory(GiB)": 70.5,
      "step": 34180,
      "token_acc": 0.9618055555555556,
      "train_speed(iter/s)": 1.455754
    },
    {
      "epoch": 1.4645902060751468,
      "grad_norm": 2.4290568828582764,
      "learning_rate": 8.028189077949288e-05,
      "loss": 0.48316278457641604,
      "memory(GiB)": 70.5,
      "step": 34185,
      "token_acc": 0.902027027027027,
      "train_speed(iter/s)": 1.45575
    },
    {
      "epoch": 1.4648044214043958,
      "grad_norm": 3.5231173038482666,
      "learning_rate": 8.027653535270019e-05,
      "loss": 0.29424688816070554,
      "memory(GiB)": 70.5,
      "step": 34190,
      "token_acc": 0.9556451612903226,
      "train_speed(iter/s)": 1.455756
    },
    {
      "epoch": 1.4650186367336446,
      "grad_norm": 4.568315029144287,
      "learning_rate": 8.027117937741966e-05,
      "loss": 0.24543819427490235,
      "memory(GiB)": 70.5,
      "step": 34195,
      "token_acc": 0.9411764705882353,
      "train_speed(iter/s)": 1.455766
    },
    {
      "epoch": 1.4652328520628937,
      "grad_norm": 0.6251782178878784,
      "learning_rate": 8.026582285374832e-05,
      "loss": 0.13764736652374268,
      "memory(GiB)": 70.5,
      "step": 34200,
      "token_acc": 0.952191235059761,
      "train_speed(iter/s)": 1.45577
    },
    {
      "epoch": 1.4654470673921427,
      "grad_norm": 14.693560600280762,
      "learning_rate": 8.02604657817832e-05,
      "loss": 0.5181086540222168,
      "memory(GiB)": 70.5,
      "step": 34205,
      "token_acc": 0.884375,
      "train_speed(iter/s)": 1.455785
    },
    {
      "epoch": 1.4656612827213915,
      "grad_norm": 4.400154113769531,
      "learning_rate": 8.025510816162137e-05,
      "loss": 0.35047101974487305,
      "memory(GiB)": 70.5,
      "step": 34210,
      "token_acc": 0.9094650205761317,
      "train_speed(iter/s)": 1.455796
    },
    {
      "epoch": 1.4658754980506405,
      "grad_norm": 7.262684345245361,
      "learning_rate": 8.024974999335985e-05,
      "loss": 0.32107431888580323,
      "memory(GiB)": 70.5,
      "step": 34215,
      "token_acc": 0.9305135951661632,
      "train_speed(iter/s)": 1.455811
    },
    {
      "epoch": 1.4660897133798896,
      "grad_norm": 10.849763870239258,
      "learning_rate": 8.024439127709575e-05,
      "loss": 0.4774023056030273,
      "memory(GiB)": 70.5,
      "step": 34220,
      "token_acc": 0.88,
      "train_speed(iter/s)": 1.455826
    },
    {
      "epoch": 1.4663039287091384,
      "grad_norm": 4.269772052764893,
      "learning_rate": 8.023903201292613e-05,
      "loss": 0.437786340713501,
      "memory(GiB)": 70.5,
      "step": 34225,
      "token_acc": 0.9176029962546817,
      "train_speed(iter/s)": 1.455847
    },
    {
      "epoch": 1.4665181440383874,
      "grad_norm": 7.961014270782471,
      "learning_rate": 8.023367220094809e-05,
      "loss": 0.4049995422363281,
      "memory(GiB)": 70.5,
      "step": 34230,
      "token_acc": 0.8996138996138996,
      "train_speed(iter/s)": 1.45587
    },
    {
      "epoch": 1.4667323593676365,
      "grad_norm": 3.0303330421447754,
      "learning_rate": 8.02283118412587e-05,
      "loss": 0.23601167201995848,
      "memory(GiB)": 70.5,
      "step": 34235,
      "token_acc": 0.9512195121951219,
      "train_speed(iter/s)": 1.455875
    },
    {
      "epoch": 1.4669465746968853,
      "grad_norm": 3.911341667175293,
      "learning_rate": 8.022295093395509e-05,
      "loss": 0.27957513332366946,
      "memory(GiB)": 70.5,
      "step": 34240,
      "token_acc": 0.940959409594096,
      "train_speed(iter/s)": 1.455871
    },
    {
      "epoch": 1.4671607900261343,
      "grad_norm": 0.7173221111297607,
      "learning_rate": 8.021758947913436e-05,
      "loss": 0.24948368072509766,
      "memory(GiB)": 70.5,
      "step": 34245,
      "token_acc": 0.9420849420849421,
      "train_speed(iter/s)": 1.45587
    },
    {
      "epoch": 1.4673750053553833,
      "grad_norm": 4.11175012588501,
      "learning_rate": 8.021222747689367e-05,
      "loss": 0.3677948474884033,
      "memory(GiB)": 70.5,
      "step": 34250,
      "token_acc": 0.9460431654676259,
      "train_speed(iter/s)": 1.455883
    },
    {
      "epoch": 1.4675892206846322,
      "grad_norm": 4.071471691131592,
      "learning_rate": 8.020686492733011e-05,
      "loss": 0.5275938987731934,
      "memory(GiB)": 70.5,
      "step": 34255,
      "token_acc": 0.8817204301075269,
      "train_speed(iter/s)": 1.455899
    },
    {
      "epoch": 1.4678034360138812,
      "grad_norm": 4.465188980102539,
      "learning_rate": 8.02015018305409e-05,
      "loss": 0.41013541221618655,
      "memory(GiB)": 70.5,
      "step": 34260,
      "token_acc": 0.8974358974358975,
      "train_speed(iter/s)": 1.455913
    },
    {
      "epoch": 1.4680176513431302,
      "grad_norm": 2.4505345821380615,
      "learning_rate": 8.019613818662312e-05,
      "loss": 0.25667057037353513,
      "memory(GiB)": 70.5,
      "step": 34265,
      "token_acc": 0.9556313993174061,
      "train_speed(iter/s)": 1.455926
    },
    {
      "epoch": 1.468231866672379,
      "grad_norm": 2.071429491043091,
      "learning_rate": 8.019077399567398e-05,
      "loss": 0.5072190761566162,
      "memory(GiB)": 70.5,
      "step": 34270,
      "token_acc": 0.9111747851002865,
      "train_speed(iter/s)": 1.455941
    },
    {
      "epoch": 1.468446082001628,
      "grad_norm": 1.7226234674453735,
      "learning_rate": 8.018540925779064e-05,
      "loss": 0.19298069477081298,
      "memory(GiB)": 70.5,
      "step": 34275,
      "token_acc": 0.9615384615384616,
      "train_speed(iter/s)": 1.455939
    },
    {
      "epoch": 1.468660297330877,
      "grad_norm": 4.2554497718811035,
      "learning_rate": 8.018004397307031e-05,
      "loss": 0.5054027557373046,
      "memory(GiB)": 70.5,
      "step": 34280,
      "token_acc": 0.8865546218487395,
      "train_speed(iter/s)": 1.455947
    },
    {
      "epoch": 1.468874512660126,
      "grad_norm": 3.044149160385132,
      "learning_rate": 8.017467814161015e-05,
      "loss": 0.5528375625610351,
      "memory(GiB)": 70.5,
      "step": 34285,
      "token_acc": 0.8817204301075269,
      "train_speed(iter/s)": 1.455965
    },
    {
      "epoch": 1.469088727989375,
      "grad_norm": 2.327265739440918,
      "learning_rate": 8.016931176350741e-05,
      "loss": 0.4748426914215088,
      "memory(GiB)": 70.5,
      "step": 34290,
      "token_acc": 0.8961538461538462,
      "train_speed(iter/s)": 1.455976
    },
    {
      "epoch": 1.469302943318624,
      "grad_norm": 5.198019981384277,
      "learning_rate": 8.016394483885928e-05,
      "loss": 0.5041196823120118,
      "memory(GiB)": 70.5,
      "step": 34295,
      "token_acc": 0.8857142857142857,
      "train_speed(iter/s)": 1.455992
    },
    {
      "epoch": 1.4695171586478728,
      "grad_norm": 4.337114334106445,
      "learning_rate": 8.015857736776299e-05,
      "loss": 0.34467158317565916,
      "memory(GiB)": 70.5,
      "step": 34300,
      "token_acc": 0.9078014184397163,
      "train_speed(iter/s)": 1.455983
    },
    {
      "epoch": 1.4697313739771218,
      "grad_norm": 2.8301098346710205,
      "learning_rate": 8.015320935031579e-05,
      "loss": 0.26375856399536135,
      "memory(GiB)": 70.5,
      "step": 34305,
      "token_acc": 0.9486166007905138,
      "train_speed(iter/s)": 1.455987
    },
    {
      "epoch": 1.4699455893063709,
      "grad_norm": 3.719467878341675,
      "learning_rate": 8.014784078661491e-05,
      "loss": 0.43950886726379396,
      "memory(GiB)": 70.5,
      "step": 34310,
      "token_acc": 0.9130434782608695,
      "train_speed(iter/s)": 1.456015
    },
    {
      "epoch": 1.4701598046356197,
      "grad_norm": 2.125335693359375,
      "learning_rate": 8.01424716767576e-05,
      "loss": 0.43907828330993653,
      "memory(GiB)": 70.5,
      "step": 34315,
      "token_acc": 0.9203821656050956,
      "train_speed(iter/s)": 1.456017
    },
    {
      "epoch": 1.4703740199648687,
      "grad_norm": 5.201113700866699,
      "learning_rate": 8.013710202084115e-05,
      "loss": 0.17896703481674195,
      "memory(GiB)": 70.5,
      "step": 34320,
      "token_acc": 0.963855421686747,
      "train_speed(iter/s)": 1.456027
    },
    {
      "epoch": 1.4705882352941178,
      "grad_norm": 2.7227799892425537,
      "learning_rate": 8.013173181896283e-05,
      "loss": 0.31815528869628906,
      "memory(GiB)": 70.5,
      "step": 34325,
      "token_acc": 0.921875,
      "train_speed(iter/s)": 1.456047
    },
    {
      "epoch": 1.4708024506233666,
      "grad_norm": 4.75642204284668,
      "learning_rate": 8.012636107121992e-05,
      "loss": 0.715931510925293,
      "memory(GiB)": 70.5,
      "step": 34330,
      "token_acc": 0.8333333333333334,
      "train_speed(iter/s)": 1.456037
    },
    {
      "epoch": 1.4710166659526156,
      "grad_norm": 3.902169704437256,
      "learning_rate": 8.012098977770971e-05,
      "loss": 0.4021204948425293,
      "memory(GiB)": 70.5,
      "step": 34335,
      "token_acc": 0.919732441471572,
      "train_speed(iter/s)": 1.456042
    },
    {
      "epoch": 1.4712308812818646,
      "grad_norm": 4.6738691329956055,
      "learning_rate": 8.011561793852953e-05,
      "loss": 0.3668795585632324,
      "memory(GiB)": 70.5,
      "step": 34340,
      "token_acc": 0.9291044776119403,
      "train_speed(iter/s)": 1.456044
    },
    {
      "epoch": 1.4714450966111134,
      "grad_norm": 2.244853973388672,
      "learning_rate": 8.011024555377667e-05,
      "loss": 0.2986437797546387,
      "memory(GiB)": 70.5,
      "step": 34345,
      "token_acc": 0.9411764705882353,
      "train_speed(iter/s)": 1.456048
    },
    {
      "epoch": 1.4716593119403625,
      "grad_norm": 5.788876533508301,
      "learning_rate": 8.010487262354847e-05,
      "loss": 0.46922645568847654,
      "memory(GiB)": 70.5,
      "step": 34350,
      "token_acc": 0.903448275862069,
      "train_speed(iter/s)": 1.456066
    },
    {
      "epoch": 1.4718735272696115,
      "grad_norm": 4.036468982696533,
      "learning_rate": 8.009949914794226e-05,
      "loss": 0.3079704284667969,
      "memory(GiB)": 70.5,
      "step": 34355,
      "token_acc": 0.9362416107382551,
      "train_speed(iter/s)": 1.456079
    },
    {
      "epoch": 1.4720877425988603,
      "grad_norm": 1.7323062419891357,
      "learning_rate": 8.009412512705539e-05,
      "loss": 0.3098806858062744,
      "memory(GiB)": 70.5,
      "step": 34360,
      "token_acc": 0.9411764705882353,
      "train_speed(iter/s)": 1.456086
    },
    {
      "epoch": 1.4723019579281094,
      "grad_norm": 3.3007707595825195,
      "learning_rate": 8.00887505609852e-05,
      "loss": 0.3483920097351074,
      "memory(GiB)": 70.5,
      "step": 34365,
      "token_acc": 0.935361216730038,
      "train_speed(iter/s)": 1.45609
    },
    {
      "epoch": 1.4725161732573584,
      "grad_norm": 2.9709227085113525,
      "learning_rate": 8.008337544982909e-05,
      "loss": 0.4676970481872559,
      "memory(GiB)": 70.5,
      "step": 34370,
      "token_acc": 0.9219858156028369,
      "train_speed(iter/s)": 1.456091
    },
    {
      "epoch": 1.4727303885866072,
      "grad_norm": 5.496466636657715,
      "learning_rate": 8.00779997936844e-05,
      "loss": 0.4057310581207275,
      "memory(GiB)": 70.5,
      "step": 34375,
      "token_acc": 0.9178082191780822,
      "train_speed(iter/s)": 1.456083
    },
    {
      "epoch": 1.4729446039158562,
      "grad_norm": 5.1204657554626465,
      "learning_rate": 8.007262359264852e-05,
      "loss": 0.47240619659423827,
      "memory(GiB)": 70.5,
      "step": 34380,
      "token_acc": 0.8989547038327527,
      "train_speed(iter/s)": 1.456091
    },
    {
      "epoch": 1.4731588192451053,
      "grad_norm": 8.59643840789795,
      "learning_rate": 8.006724684681888e-05,
      "loss": 0.25269179344177245,
      "memory(GiB)": 70.5,
      "step": 34385,
      "token_acc": 0.9562289562289562,
      "train_speed(iter/s)": 1.456084
    },
    {
      "epoch": 1.473373034574354,
      "grad_norm": 5.346027851104736,
      "learning_rate": 8.006186955629282e-05,
      "loss": 0.2623694658279419,
      "memory(GiB)": 70.5,
      "step": 34390,
      "token_acc": 0.9561128526645768,
      "train_speed(iter/s)": 1.456074
    },
    {
      "epoch": 1.4735872499036031,
      "grad_norm": 3.726494789123535,
      "learning_rate": 8.005649172116782e-05,
      "loss": 0.2986262559890747,
      "memory(GiB)": 70.5,
      "step": 34395,
      "token_acc": 0.9411764705882353,
      "train_speed(iter/s)": 1.456077
    },
    {
      "epoch": 1.4738014652328522,
      "grad_norm": 2.894200325012207,
      "learning_rate": 8.005111334154127e-05,
      "loss": 0.334486198425293,
      "memory(GiB)": 70.5,
      "step": 34400,
      "token_acc": 0.9052287581699346,
      "train_speed(iter/s)": 1.456078
    },
    {
      "epoch": 1.474015680562101,
      "grad_norm": 1.852386474609375,
      "learning_rate": 8.004573441751062e-05,
      "loss": 0.3135518550872803,
      "memory(GiB)": 70.5,
      "step": 34405,
      "token_acc": 0.9375,
      "train_speed(iter/s)": 1.456082
    },
    {
      "epoch": 1.47422989589135,
      "grad_norm": 4.654975414276123,
      "learning_rate": 8.00403549491733e-05,
      "loss": 0.32889623641967775,
      "memory(GiB)": 70.5,
      "step": 34410,
      "token_acc": 0.9227799227799228,
      "train_speed(iter/s)": 1.456085
    },
    {
      "epoch": 1.474444111220599,
      "grad_norm": 2.6114704608917236,
      "learning_rate": 8.003497493662678e-05,
      "loss": 0.47225289344787597,
      "memory(GiB)": 70.5,
      "step": 34415,
      "token_acc": 0.8818181818181818,
      "train_speed(iter/s)": 1.45608
    },
    {
      "epoch": 1.4746583265498479,
      "grad_norm": 4.303999900817871,
      "learning_rate": 8.002959437996849e-05,
      "loss": 0.4675889015197754,
      "memory(GiB)": 70.5,
      "step": 34420,
      "token_acc": 0.9047619047619048,
      "train_speed(iter/s)": 1.456081
    },
    {
      "epoch": 1.4748725418790969,
      "grad_norm": 2.311577320098877,
      "learning_rate": 8.002421327929592e-05,
      "loss": 0.5382297515869141,
      "memory(GiB)": 70.5,
      "step": 34425,
      "token_acc": 0.8571428571428571,
      "train_speed(iter/s)": 1.45608
    },
    {
      "epoch": 1.475086757208346,
      "grad_norm": 3.1905484199523926,
      "learning_rate": 8.001883163470661e-05,
      "loss": 0.4651947975158691,
      "memory(GiB)": 70.5,
      "step": 34430,
      "token_acc": 0.8869047619047619,
      "train_speed(iter/s)": 1.456071
    },
    {
      "epoch": 1.4753009725375947,
      "grad_norm": 2.740889549255371,
      "learning_rate": 8.001344944629796e-05,
      "loss": 0.5708941459655762,
      "memory(GiB)": 70.5,
      "step": 34435,
      "token_acc": 0.871900826446281,
      "train_speed(iter/s)": 1.456073
    },
    {
      "epoch": 1.4755151878668438,
      "grad_norm": 1.6054861545562744,
      "learning_rate": 8.000806671416754e-05,
      "loss": 0.2751967430114746,
      "memory(GiB)": 70.5,
      "step": 34440,
      "token_acc": 0.9583333333333334,
      "train_speed(iter/s)": 1.456076
    },
    {
      "epoch": 1.4757294031960928,
      "grad_norm": 2.8797290325164795,
      "learning_rate": 8.000268343841283e-05,
      "loss": 0.7470288276672363,
      "memory(GiB)": 70.5,
      "step": 34445,
      "token_acc": 0.8481012658227848,
      "train_speed(iter/s)": 1.456071
    },
    {
      "epoch": 1.4759436185253416,
      "grad_norm": 3.1505727767944336,
      "learning_rate": 7.999729961913139e-05,
      "loss": 0.3576786518096924,
      "memory(GiB)": 70.5,
      "step": 34450,
      "token_acc": 0.9171974522292994,
      "train_speed(iter/s)": 1.456083
    },
    {
      "epoch": 1.4761578338545907,
      "grad_norm": 4.0858235359191895,
      "learning_rate": 7.999191525642069e-05,
      "loss": 0.42720851898193357,
      "memory(GiB)": 70.5,
      "step": 34455,
      "token_acc": 0.8984375,
      "train_speed(iter/s)": 1.456108
    },
    {
      "epoch": 1.4763720491838397,
      "grad_norm": 3.0896081924438477,
      "learning_rate": 7.998653035037834e-05,
      "loss": 0.3956362962722778,
      "memory(GiB)": 70.5,
      "step": 34460,
      "token_acc": 0.924812030075188,
      "train_speed(iter/s)": 1.456112
    },
    {
      "epoch": 1.4765862645130885,
      "grad_norm": 1.4863277673721313,
      "learning_rate": 7.998114490110185e-05,
      "loss": 0.4323300838470459,
      "memory(GiB)": 70.5,
      "step": 34465,
      "token_acc": 0.9177631578947368,
      "train_speed(iter/s)": 1.456113
    },
    {
      "epoch": 1.4768004798423375,
      "grad_norm": 1.2755409479141235,
      "learning_rate": 7.997575890868879e-05,
      "loss": 0.22938215732574463,
      "memory(GiB)": 70.5,
      "step": 34470,
      "token_acc": 0.9522058823529411,
      "train_speed(iter/s)": 1.456123
    },
    {
      "epoch": 1.4770146951715866,
      "grad_norm": 4.107542514801025,
      "learning_rate": 7.997037237323675e-05,
      "loss": 0.7939009666442871,
      "memory(GiB)": 70.5,
      "step": 34475,
      "token_acc": 0.8401253918495298,
      "train_speed(iter/s)": 1.456122
    },
    {
      "epoch": 1.4772289105008354,
      "grad_norm": 3.335815906524658,
      "learning_rate": 7.99649852948433e-05,
      "loss": 0.2630064249038696,
      "memory(GiB)": 70.5,
      "step": 34480,
      "token_acc": 0.9347826086956522,
      "train_speed(iter/s)": 1.456124
    },
    {
      "epoch": 1.4774431258300844,
      "grad_norm": 7.950351715087891,
      "learning_rate": 7.995959767360604e-05,
      "loss": 0.4760587215423584,
      "memory(GiB)": 70.5,
      "step": 34485,
      "token_acc": 0.8840125391849529,
      "train_speed(iter/s)": 1.456158
    },
    {
      "epoch": 1.4776573411593334,
      "grad_norm": 0.551179826259613,
      "learning_rate": 7.995420950962254e-05,
      "loss": 0.08005102276802063,
      "memory(GiB)": 70.5,
      "step": 34490,
      "token_acc": 0.9771241830065359,
      "train_speed(iter/s)": 1.456171
    },
    {
      "epoch": 1.4778715564885823,
      "grad_norm": 1.5179733037948608,
      "learning_rate": 7.994882080299044e-05,
      "loss": 0.258227801322937,
      "memory(GiB)": 70.5,
      "step": 34495,
      "token_acc": 0.9444444444444444,
      "train_speed(iter/s)": 1.45619
    },
    {
      "epoch": 1.4780857718178313,
      "grad_norm": 1.8089371919631958,
      "learning_rate": 7.994343155380737e-05,
      "loss": 0.19598482847213744,
      "memory(GiB)": 70.5,
      "step": 34500,
      "token_acc": 0.9563758389261745,
      "train_speed(iter/s)": 1.456182
    },
    {
      "epoch": 1.4780857718178313,
      "eval_loss": 2.572617292404175,
      "eval_runtime": 13.7902,
      "eval_samples_per_second": 7.252,
      "eval_steps_per_second": 7.252,
      "eval_token_acc": 0.4323962516733601,
      "step": 34500
    },
    {
      "epoch": 1.4782999871470803,
      "grad_norm": 3.152817726135254,
      "learning_rate": 7.993804176217093e-05,
      "loss": 0.30916714668273926,
      "memory(GiB)": 70.5,
      "step": 34505,
      "token_acc": 0.5600393700787402,
      "train_speed(iter/s)": 1.455306
    },
    {
      "epoch": 1.4785142024763291,
      "grad_norm": 2.332034111022949,
      "learning_rate": 7.993265142817881e-05,
      "loss": 0.23485217094421387,
      "memory(GiB)": 70.5,
      "step": 34510,
      "token_acc": 0.9491525423728814,
      "train_speed(iter/s)": 1.455306
    },
    {
      "epoch": 1.4787284178055782,
      "grad_norm": 2.7114343643188477,
      "learning_rate": 7.99272605519286e-05,
      "loss": 0.6535956382751464,
      "memory(GiB)": 70.5,
      "step": 34515,
      "token_acc": 0.8802816901408451,
      "train_speed(iter/s)": 1.455299
    },
    {
      "epoch": 1.4789426331348272,
      "grad_norm": 1.531501293182373,
      "learning_rate": 7.9921869133518e-05,
      "loss": 0.3484785079956055,
      "memory(GiB)": 70.5,
      "step": 34520,
      "token_acc": 0.9271356783919598,
      "train_speed(iter/s)": 1.455292
    },
    {
      "epoch": 1.479156848464076,
      "grad_norm": 7.195781230926514,
      "learning_rate": 7.991647717304467e-05,
      "loss": 0.5732417106628418,
      "memory(GiB)": 70.5,
      "step": 34525,
      "token_acc": 0.8839285714285714,
      "train_speed(iter/s)": 1.455299
    },
    {
      "epoch": 1.479371063793325,
      "grad_norm": 3.3123085498809814,
      "learning_rate": 7.99110846706063e-05,
      "loss": 0.34392752647399905,
      "memory(GiB)": 70.5,
      "step": 34530,
      "token_acc": 0.9326241134751773,
      "train_speed(iter/s)": 1.455305
    },
    {
      "epoch": 1.479585279122574,
      "grad_norm": 0.47233447432518005,
      "learning_rate": 7.990569162630057e-05,
      "loss": 0.4097888469696045,
      "memory(GiB)": 70.5,
      "step": 34535,
      "token_acc": 0.928030303030303,
      "train_speed(iter/s)": 1.455301
    },
    {
      "epoch": 1.479799494451823,
      "grad_norm": 10.455978393554688,
      "learning_rate": 7.990029804022518e-05,
      "loss": 0.4500273704528809,
      "memory(GiB)": 70.5,
      "step": 34540,
      "token_acc": 0.9015384615384615,
      "train_speed(iter/s)": 1.455317
    },
    {
      "epoch": 1.480013709781072,
      "grad_norm": 2.4203858375549316,
      "learning_rate": 7.989490391247784e-05,
      "loss": 0.502648401260376,
      "memory(GiB)": 70.5,
      "step": 34545,
      "token_acc": 0.920863309352518,
      "train_speed(iter/s)": 1.45533
    },
    {
      "epoch": 1.480227925110321,
      "grad_norm": 5.394595623016357,
      "learning_rate": 7.988950924315628e-05,
      "loss": 0.5659533977508545,
      "memory(GiB)": 70.5,
      "step": 34550,
      "token_acc": 0.9012738853503185,
      "train_speed(iter/s)": 1.45534
    },
    {
      "epoch": 1.4804421404395698,
      "grad_norm": 5.444210529327393,
      "learning_rate": 7.988411403235823e-05,
      "loss": 0.2576026439666748,
      "memory(GiB)": 70.5,
      "step": 34555,
      "token_acc": 0.939209726443769,
      "train_speed(iter/s)": 1.455343
    },
    {
      "epoch": 1.4806563557688188,
      "grad_norm": 4.045653343200684,
      "learning_rate": 7.987871828018141e-05,
      "loss": 0.2961733818054199,
      "memory(GiB)": 70.5,
      "step": 34560,
      "token_acc": 0.930921052631579,
      "train_speed(iter/s)": 1.455364
    },
    {
      "epoch": 1.4808705710980679,
      "grad_norm": 4.370522499084473,
      "learning_rate": 7.987332198672356e-05,
      "loss": 0.579848051071167,
      "memory(GiB)": 70.5,
      "step": 34565,
      "token_acc": 0.9013605442176871,
      "train_speed(iter/s)": 1.455367
    },
    {
      "epoch": 1.4810847864273167,
      "grad_norm": 2.1375274658203125,
      "learning_rate": 7.986792515208248e-05,
      "loss": 0.5427759170532227,
      "memory(GiB)": 70.5,
      "step": 34570,
      "token_acc": 0.8912280701754386,
      "train_speed(iter/s)": 1.455372
    },
    {
      "epoch": 1.4812990017565657,
      "grad_norm": 3.0748205184936523,
      "learning_rate": 7.986252777635592e-05,
      "loss": 0.2778775691986084,
      "memory(GiB)": 70.5,
      "step": 34575,
      "token_acc": 0.9395770392749244,
      "train_speed(iter/s)": 1.45537
    },
    {
      "epoch": 1.4815132170858147,
      "grad_norm": 2.057950019836426,
      "learning_rate": 7.985712985964164e-05,
      "loss": 0.21636452674865722,
      "memory(GiB)": 70.5,
      "step": 34580,
      "token_acc": 0.9525862068965517,
      "train_speed(iter/s)": 1.45537
    },
    {
      "epoch": 1.4817274324150636,
      "grad_norm": 2.962069034576416,
      "learning_rate": 7.985173140203745e-05,
      "loss": 0.32089412212371826,
      "memory(GiB)": 70.5,
      "step": 34585,
      "token_acc": 0.9457627118644067,
      "train_speed(iter/s)": 1.455358
    },
    {
      "epoch": 1.4819416477443126,
      "grad_norm": 2.8226966857910156,
      "learning_rate": 7.984633240364116e-05,
      "loss": 0.20073516368865968,
      "memory(GiB)": 70.5,
      "step": 34590,
      "token_acc": 0.9504950495049505,
      "train_speed(iter/s)": 1.455367
    },
    {
      "epoch": 1.4821558630735616,
      "grad_norm": 4.0740742683410645,
      "learning_rate": 7.984093286455055e-05,
      "loss": 0.39075565338134766,
      "memory(GiB)": 70.5,
      "step": 34595,
      "token_acc": 0.9169811320754717,
      "train_speed(iter/s)": 1.45537
    },
    {
      "epoch": 1.4823700784028104,
      "grad_norm": 7.664714336395264,
      "learning_rate": 7.983553278486344e-05,
      "loss": 0.26865553855895996,
      "memory(GiB)": 70.5,
      "step": 34600,
      "token_acc": 0.9483282674772037,
      "train_speed(iter/s)": 1.455372
    },
    {
      "epoch": 1.4825842937320595,
      "grad_norm": 2.8765006065368652,
      "learning_rate": 7.983013216467768e-05,
      "loss": 0.46701898574829104,
      "memory(GiB)": 70.5,
      "step": 34605,
      "token_acc": 0.9052287581699346,
      "train_speed(iter/s)": 1.455367
    },
    {
      "epoch": 1.4827985090613085,
      "grad_norm": 3.7161755561828613,
      "learning_rate": 7.982473100409107e-05,
      "loss": 0.43094382286071775,
      "memory(GiB)": 70.5,
      "step": 34610,
      "token_acc": 0.9191176470588235,
      "train_speed(iter/s)": 1.455365
    },
    {
      "epoch": 1.4830127243905573,
      "grad_norm": 5.613711357116699,
      "learning_rate": 7.981932930320149e-05,
      "loss": 0.7136321067810059,
      "memory(GiB)": 70.5,
      "step": 34615,
      "token_acc": 0.8797653958944281,
      "train_speed(iter/s)": 1.455356
    },
    {
      "epoch": 1.4832269397198063,
      "grad_norm": 9.230955123901367,
      "learning_rate": 7.98139270621068e-05,
      "loss": 0.3828678369522095,
      "memory(GiB)": 70.5,
      "step": 34620,
      "token_acc": 0.9176954732510288,
      "train_speed(iter/s)": 1.455364
    },
    {
      "epoch": 1.4834411550490554,
      "grad_norm": 5.9153900146484375,
      "learning_rate": 7.980852428090484e-05,
      "loss": 0.6031455039978028,
      "memory(GiB)": 70.5,
      "step": 34625,
      "token_acc": 0.887240356083086,
      "train_speed(iter/s)": 1.455364
    },
    {
      "epoch": 1.4836553703783042,
      "grad_norm": 2.6147186756134033,
      "learning_rate": 7.980312095969351e-05,
      "loss": 0.3120787858963013,
      "memory(GiB)": 70.5,
      "step": 34630,
      "token_acc": 0.9376770538243626,
      "train_speed(iter/s)": 1.455374
    },
    {
      "epoch": 1.4838695857075532,
      "grad_norm": 4.275772571563721,
      "learning_rate": 7.979771709857066e-05,
      "loss": 0.515981388092041,
      "memory(GiB)": 70.5,
      "step": 34635,
      "token_acc": 0.8875379939209727,
      "train_speed(iter/s)": 1.455381
    },
    {
      "epoch": 1.4840838010368023,
      "grad_norm": 3.9116296768188477,
      "learning_rate": 7.979231269763425e-05,
      "loss": 0.4480780601501465,
      "memory(GiB)": 70.5,
      "step": 34640,
      "token_acc": 0.9087301587301587,
      "train_speed(iter/s)": 1.455378
    },
    {
      "epoch": 1.484298016366051,
      "grad_norm": 3.784015655517578,
      "learning_rate": 7.978690775698213e-05,
      "loss": 0.31779568195343016,
      "memory(GiB)": 70.5,
      "step": 34645,
      "token_acc": 0.9246575342465754,
      "train_speed(iter/s)": 1.455377
    },
    {
      "epoch": 1.4845122316953,
      "grad_norm": 2.6359078884124756,
      "learning_rate": 7.978150227671223e-05,
      "loss": 0.2216705560684204,
      "memory(GiB)": 70.5,
      "step": 34650,
      "token_acc": 0.9425675675675675,
      "train_speed(iter/s)": 1.455368
    },
    {
      "epoch": 1.4847264470245491,
      "grad_norm": 1.6860268115997314,
      "learning_rate": 7.977609625692248e-05,
      "loss": 0.2877696990966797,
      "memory(GiB)": 70.5,
      "step": 34655,
      "token_acc": 0.935064935064935,
      "train_speed(iter/s)": 1.455372
    },
    {
      "epoch": 1.484940662353798,
      "grad_norm": 2.730039358139038,
      "learning_rate": 7.977068969771083e-05,
      "loss": 0.17357180118560792,
      "memory(GiB)": 70.5,
      "step": 34660,
      "token_acc": 0.9615384615384616,
      "train_speed(iter/s)": 1.455361
    },
    {
      "epoch": 1.485154877683047,
      "grad_norm": 3.5059573650360107,
      "learning_rate": 7.97652825991752e-05,
      "loss": 0.6232457160949707,
      "memory(GiB)": 70.5,
      "step": 34665,
      "token_acc": 0.85,
      "train_speed(iter/s)": 1.455353
    },
    {
      "epoch": 1.485369093012296,
      "grad_norm": 9.588077545166016,
      "learning_rate": 7.975987496141354e-05,
      "loss": 0.42986283302307127,
      "memory(GiB)": 70.5,
      "step": 34670,
      "token_acc": 0.9228187919463087,
      "train_speed(iter/s)": 1.455354
    },
    {
      "epoch": 1.4855833083415448,
      "grad_norm": 3.9572174549102783,
      "learning_rate": 7.975446678452384e-05,
      "loss": 0.5414800643920898,
      "memory(GiB)": 70.5,
      "step": 34675,
      "token_acc": 0.9056603773584906,
      "train_speed(iter/s)": 1.455359
    },
    {
      "epoch": 1.4857975236707939,
      "grad_norm": 1.549605131149292,
      "learning_rate": 7.974905806860407e-05,
      "loss": 0.4609567165374756,
      "memory(GiB)": 70.5,
      "step": 34680,
      "token_acc": 0.9244604316546763,
      "train_speed(iter/s)": 1.455363
    },
    {
      "epoch": 1.486011739000043,
      "grad_norm": 5.116684436798096,
      "learning_rate": 7.974364881375218e-05,
      "loss": 0.27497570514678954,
      "memory(GiB)": 70.5,
      "step": 34685,
      "token_acc": 0.9392712550607287,
      "train_speed(iter/s)": 1.455361
    },
    {
      "epoch": 1.4862259543292917,
      "grad_norm": 1.9800137281417847,
      "learning_rate": 7.97382390200662e-05,
      "loss": 0.3450393438339233,
      "memory(GiB)": 70.5,
      "step": 34690,
      "token_acc": 0.9060150375939849,
      "train_speed(iter/s)": 1.455354
    },
    {
      "epoch": 1.4864401696585408,
      "grad_norm": 1.7100807428359985,
      "learning_rate": 7.973282868764413e-05,
      "loss": 0.1449721336364746,
      "memory(GiB)": 70.5,
      "step": 34695,
      "token_acc": 0.9651898734177216,
      "train_speed(iter/s)": 1.455364
    },
    {
      "epoch": 1.4866543849877898,
      "grad_norm": 2.8473026752471924,
      "learning_rate": 7.972741781658399e-05,
      "loss": 0.3445319175720215,
      "memory(GiB)": 70.5,
      "step": 34700,
      "token_acc": 0.9254385964912281,
      "train_speed(iter/s)": 1.455393
    },
    {
      "epoch": 1.4868686003170386,
      "grad_norm": 1.7406667470932007,
      "learning_rate": 7.972200640698377e-05,
      "loss": 0.41650710105895994,
      "memory(GiB)": 70.5,
      "step": 34705,
      "token_acc": 0.9074733096085409,
      "train_speed(iter/s)": 1.455404
    },
    {
      "epoch": 1.4870828156462876,
      "grad_norm": 1.8872872591018677,
      "learning_rate": 7.971659445894152e-05,
      "loss": 0.4181836605072021,
      "memory(GiB)": 70.5,
      "step": 34710,
      "token_acc": 0.9067524115755627,
      "train_speed(iter/s)": 1.455433
    },
    {
      "epoch": 1.4872970309755367,
      "grad_norm": 1.21588933467865,
      "learning_rate": 7.97111819725553e-05,
      "loss": 0.48754420280456545,
      "memory(GiB)": 70.5,
      "step": 34715,
      "token_acc": 0.8909657320872274,
      "train_speed(iter/s)": 1.455439
    },
    {
      "epoch": 1.4875112463047855,
      "grad_norm": 1.6119019985198975,
      "learning_rate": 7.970576894792314e-05,
      "loss": 0.5611565589904786,
      "memory(GiB)": 70.5,
      "step": 34720,
      "token_acc": 0.9044368600682594,
      "train_speed(iter/s)": 1.455492
    },
    {
      "epoch": 1.4877254616340345,
      "grad_norm": 3.5177226066589355,
      "learning_rate": 7.97003553851431e-05,
      "loss": 0.29432153701782227,
      "memory(GiB)": 70.5,
      "step": 34725,
      "token_acc": 0.9403508771929825,
      "train_speed(iter/s)": 1.455496
    },
    {
      "epoch": 1.4879396769632836,
      "grad_norm": 6.4547648429870605,
      "learning_rate": 7.969494128431327e-05,
      "loss": 0.5225250244140625,
      "memory(GiB)": 70.5,
      "step": 34730,
      "token_acc": 0.8865979381443299,
      "train_speed(iter/s)": 1.455493
    },
    {
      "epoch": 1.4881538922925324,
      "grad_norm": 5.4001240730285645,
      "learning_rate": 7.968952664553172e-05,
      "loss": 0.416029691696167,
      "memory(GiB)": 70.5,
      "step": 34735,
      "token_acc": 0.9055374592833876,
      "train_speed(iter/s)": 1.455493
    },
    {
      "epoch": 1.4883681076217814,
      "grad_norm": 0.7814594507217407,
      "learning_rate": 7.968411146889656e-05,
      "loss": 0.18059191703796387,
      "memory(GiB)": 70.5,
      "step": 34740,
      "token_acc": 0.9506172839506173,
      "train_speed(iter/s)": 1.455499
    },
    {
      "epoch": 1.4885823229510304,
      "grad_norm": 2.5539026260375977,
      "learning_rate": 7.967869575450587e-05,
      "loss": 0.3254230260848999,
      "memory(GiB)": 70.5,
      "step": 34745,
      "token_acc": 0.9285714285714286,
      "train_speed(iter/s)": 1.4555
    },
    {
      "epoch": 1.4887965382802792,
      "grad_norm": 2.5035183429718018,
      "learning_rate": 7.967327950245775e-05,
      "loss": 0.3686449766159058,
      "memory(GiB)": 70.5,
      "step": 34750,
      "token_acc": 0.9065743944636678,
      "train_speed(iter/s)": 1.455523
    },
    {
      "epoch": 1.4890107536095283,
      "grad_norm": 4.379935264587402,
      "learning_rate": 7.966786271285034e-05,
      "loss": 0.3011446714401245,
      "memory(GiB)": 70.5,
      "step": 34755,
      "token_acc": 0.937037037037037,
      "train_speed(iter/s)": 1.455524
    },
    {
      "epoch": 1.4892249689387773,
      "grad_norm": 5.6381707191467285,
      "learning_rate": 7.966244538578177e-05,
      "loss": 0.37162957191467283,
      "memory(GiB)": 70.5,
      "step": 34760,
      "token_acc": 0.9311926605504587,
      "train_speed(iter/s)": 1.455542
    },
    {
      "epoch": 1.4894391842680261,
      "grad_norm": 3.1649868488311768,
      "learning_rate": 7.965702752135018e-05,
      "loss": 0.4054431438446045,
      "memory(GiB)": 70.5,
      "step": 34765,
      "token_acc": 0.9047619047619048,
      "train_speed(iter/s)": 1.45555
    },
    {
      "epoch": 1.4896533995972752,
      "grad_norm": 3.2943999767303467,
      "learning_rate": 7.965160911965371e-05,
      "loss": 0.2526509761810303,
      "memory(GiB)": 70.5,
      "step": 34770,
      "token_acc": 0.9453924914675768,
      "train_speed(iter/s)": 1.455578
    },
    {
      "epoch": 1.4898676149265242,
      "grad_norm": 2.593472957611084,
      "learning_rate": 7.964619018079054e-05,
      "loss": 0.19202609062194825,
      "memory(GiB)": 70.5,
      "step": 34775,
      "token_acc": 0.9615384615384616,
      "train_speed(iter/s)": 1.455597
    },
    {
      "epoch": 1.490081830255773,
      "grad_norm": 2.1867942810058594,
      "learning_rate": 7.964077070485881e-05,
      "loss": 0.3064500093460083,
      "memory(GiB)": 70.5,
      "step": 34780,
      "token_acc": 0.9365079365079365,
      "train_speed(iter/s)": 1.455591
    },
    {
      "epoch": 1.490296045585022,
      "grad_norm": 3.6007838249206543,
      "learning_rate": 7.963535069195671e-05,
      "loss": 0.6767500877380371,
      "memory(GiB)": 70.5,
      "step": 34785,
      "token_acc": 0.8840125391849529,
      "train_speed(iter/s)": 1.455595
    },
    {
      "epoch": 1.490510260914271,
      "grad_norm": 4.200218677520752,
      "learning_rate": 7.962993014218243e-05,
      "loss": 0.3755157709121704,
      "memory(GiB)": 70.5,
      "step": 34790,
      "token_acc": 0.9047619047619048,
      "train_speed(iter/s)": 1.45559
    },
    {
      "epoch": 1.49072447624352,
      "grad_norm": 2.2946081161499023,
      "learning_rate": 7.962450905563418e-05,
      "loss": 0.229477596282959,
      "memory(GiB)": 70.5,
      "step": 34795,
      "token_acc": 0.9446366782006921,
      "train_speed(iter/s)": 1.455596
    },
    {
      "epoch": 1.490938691572769,
      "grad_norm": 4.832059860229492,
      "learning_rate": 7.961908743241016e-05,
      "loss": 0.6557494163513183,
      "memory(GiB)": 70.5,
      "step": 34800,
      "token_acc": 0.8641509433962264,
      "train_speed(iter/s)": 1.455599
    },
    {
      "epoch": 1.491152906902018,
      "grad_norm": 2.223418951034546,
      "learning_rate": 7.961366527260858e-05,
      "loss": 0.41901235580444335,
      "memory(GiB)": 70.5,
      "step": 34805,
      "token_acc": 0.9090909090909091,
      "train_speed(iter/s)": 1.455605
    },
    {
      "epoch": 1.4913671222312668,
      "grad_norm": 2.4195876121520996,
      "learning_rate": 7.960824257632768e-05,
      "loss": 0.3150567770004272,
      "memory(GiB)": 70.5,
      "step": 34810,
      "token_acc": 0.9230769230769231,
      "train_speed(iter/s)": 1.455604
    },
    {
      "epoch": 1.4915813375605158,
      "grad_norm": 2.0361597537994385,
      "learning_rate": 7.960281934366568e-05,
      "loss": 0.37796289920806886,
      "memory(GiB)": 70.5,
      "step": 34815,
      "token_acc": 0.8929663608562691,
      "train_speed(iter/s)": 1.455594
    },
    {
      "epoch": 1.4917955528897648,
      "grad_norm": 3.4438858032226562,
      "learning_rate": 7.959739557472085e-05,
      "loss": 0.4256147384643555,
      "memory(GiB)": 70.5,
      "step": 34820,
      "token_acc": 0.902027027027027,
      "train_speed(iter/s)": 1.455587
    },
    {
      "epoch": 1.4920097682190137,
      "grad_norm": 3.8510522842407227,
      "learning_rate": 7.959197126959142e-05,
      "loss": 0.5506343364715576,
      "memory(GiB)": 70.5,
      "step": 34825,
      "token_acc": 0.8956228956228957,
      "train_speed(iter/s)": 1.455596
    },
    {
      "epoch": 1.4922239835482627,
      "grad_norm": 2.8670833110809326,
      "learning_rate": 7.958654642837569e-05,
      "loss": 0.31556239128112795,
      "memory(GiB)": 70.5,
      "step": 34830,
      "token_acc": 0.9411764705882353,
      "train_speed(iter/s)": 1.455619
    },
    {
      "epoch": 1.4924381988775117,
      "grad_norm": 2.105057716369629,
      "learning_rate": 7.95811210511719e-05,
      "loss": 0.2528392791748047,
      "memory(GiB)": 70.5,
      "step": 34835,
      "token_acc": 0.9343283582089552,
      "train_speed(iter/s)": 1.455637
    },
    {
      "epoch": 1.4926524142067605,
      "grad_norm": 8.94981575012207,
      "learning_rate": 7.957569513807836e-05,
      "loss": 0.35908732414245603,
      "memory(GiB)": 70.5,
      "step": 34840,
      "token_acc": 0.9025787965616046,
      "train_speed(iter/s)": 1.455636
    },
    {
      "epoch": 1.4928666295360096,
      "grad_norm": 0.24711477756500244,
      "learning_rate": 7.957026868919334e-05,
      "loss": 0.3258531093597412,
      "memory(GiB)": 70.5,
      "step": 34845,
      "token_acc": 0.9393939393939394,
      "train_speed(iter/s)": 1.455637
    },
    {
      "epoch": 1.4930808448652586,
      "grad_norm": 2.3716554641723633,
      "learning_rate": 7.95648417046152e-05,
      "loss": 0.3224760055541992,
      "memory(GiB)": 70.5,
      "step": 34850,
      "token_acc": 0.9274924471299094,
      "train_speed(iter/s)": 1.455638
    },
    {
      "epoch": 1.4932950601945074,
      "grad_norm": 3.5311226844787598,
      "learning_rate": 7.955941418444221e-05,
      "loss": 0.44638991355895996,
      "memory(GiB)": 70.5,
      "step": 34855,
      "token_acc": 0.9156626506024096,
      "train_speed(iter/s)": 1.455635
    },
    {
      "epoch": 1.4935092755237565,
      "grad_norm": 3.0320498943328857,
      "learning_rate": 7.955398612877269e-05,
      "loss": 0.4340227127075195,
      "memory(GiB)": 70.5,
      "step": 34860,
      "token_acc": 0.9067524115755627,
      "train_speed(iter/s)": 1.45564
    },
    {
      "epoch": 1.4937234908530055,
      "grad_norm": 3.836120843887329,
      "learning_rate": 7.954855753770499e-05,
      "loss": 0.36961755752563474,
      "memory(GiB)": 70.5,
      "step": 34865,
      "token_acc": 0.9305019305019305,
      "train_speed(iter/s)": 1.455651
    },
    {
      "epoch": 1.4939377061822543,
      "grad_norm": 1.972031593322754,
      "learning_rate": 7.954312841133744e-05,
      "loss": 0.20979886054992675,
      "memory(GiB)": 70.5,
      "step": 34870,
      "token_acc": 0.9593023255813954,
      "train_speed(iter/s)": 1.455643
    },
    {
      "epoch": 1.4941519215115033,
      "grad_norm": 4.425050258636475,
      "learning_rate": 7.953769874976842e-05,
      "loss": 0.4355788230895996,
      "memory(GiB)": 70.5,
      "step": 34875,
      "token_acc": 0.9028213166144201,
      "train_speed(iter/s)": 1.45565
    },
    {
      "epoch": 1.4943661368407524,
      "grad_norm": 2.626718521118164,
      "learning_rate": 7.953226855309628e-05,
      "loss": 0.37184414863586424,
      "memory(GiB)": 70.5,
      "step": 34880,
      "token_acc": 0.9361022364217252,
      "train_speed(iter/s)": 1.455654
    },
    {
      "epoch": 1.4945803521700012,
      "grad_norm": 5.104114055633545,
      "learning_rate": 7.952683782141939e-05,
      "loss": 0.29866900444030764,
      "memory(GiB)": 70.5,
      "step": 34885,
      "token_acc": 0.944078947368421,
      "train_speed(iter/s)": 1.455652
    },
    {
      "epoch": 1.4947945674992502,
      "grad_norm": 3.8287811279296875,
      "learning_rate": 7.952140655483613e-05,
      "loss": 0.5451876640319824,
      "memory(GiB)": 70.5,
      "step": 34890,
      "token_acc": 0.8888888888888888,
      "train_speed(iter/s)": 1.455673
    },
    {
      "epoch": 1.4950087828284992,
      "grad_norm": 1.4760717153549194,
      "learning_rate": 7.95159747534449e-05,
      "loss": 0.6439196586608886,
      "memory(GiB)": 70.5,
      "step": 34895,
      "token_acc": 0.8972602739726028,
      "train_speed(iter/s)": 1.4557
    },
    {
      "epoch": 1.495222998157748,
      "grad_norm": 4.603642463684082,
      "learning_rate": 7.95105424173441e-05,
      "loss": 0.12953004837036133,
      "memory(GiB)": 70.5,
      "step": 34900,
      "token_acc": 0.9680851063829787,
      "train_speed(iter/s)": 1.455703
    },
    {
      "epoch": 1.495437213486997,
      "grad_norm": 2.1553494930267334,
      "learning_rate": 7.950510954663213e-05,
      "loss": 0.28015623092651365,
      "memory(GiB)": 70.5,
      "step": 34905,
      "token_acc": 0.9539007092198581,
      "train_speed(iter/s)": 1.455702
    },
    {
      "epoch": 1.4956514288162461,
      "grad_norm": 1.8937830924987793,
      "learning_rate": 7.949967614140744e-05,
      "loss": 0.5176852226257325,
      "memory(GiB)": 70.5,
      "step": 34910,
      "token_acc": 0.8745387453874539,
      "train_speed(iter/s)": 1.455735
    },
    {
      "epoch": 1.495865644145495,
      "grad_norm": 2.214625120162964,
      "learning_rate": 7.949424220176843e-05,
      "loss": 0.42978787422180176,
      "memory(GiB)": 70.5,
      "step": 34915,
      "token_acc": 0.9212328767123288,
      "train_speed(iter/s)": 1.455731
    },
    {
      "epoch": 1.496079859474744,
      "grad_norm": 1.3858954906463623,
      "learning_rate": 7.948880772781356e-05,
      "loss": 0.7034565448760987,
      "memory(GiB)": 70.5,
      "step": 34920,
      "token_acc": 0.8819444444444444,
      "train_speed(iter/s)": 1.455762
    },
    {
      "epoch": 1.496294074803993,
      "grad_norm": 2.4119479656219482,
      "learning_rate": 7.948337271964128e-05,
      "loss": 0.3316943168640137,
      "memory(GiB)": 70.5,
      "step": 34925,
      "token_acc": 0.9242424242424242,
      "train_speed(iter/s)": 1.455774
    },
    {
      "epoch": 1.4965082901332418,
      "grad_norm": 3.018850326538086,
      "learning_rate": 7.947793717735003e-05,
      "loss": 0.2877993106842041,
      "memory(GiB)": 70.5,
      "step": 34930,
      "token_acc": 0.9201277955271565,
      "train_speed(iter/s)": 1.455771
    },
    {
      "epoch": 1.4967225054624909,
      "grad_norm": 3.9138572216033936,
      "learning_rate": 7.947250110103832e-05,
      "loss": 0.4417302131652832,
      "memory(GiB)": 70.5,
      "step": 34935,
      "token_acc": 0.9336099585062241,
      "train_speed(iter/s)": 1.455766
    },
    {
      "epoch": 1.49693672079174,
      "grad_norm": 0.16046546399593353,
      "learning_rate": 7.946706449080459e-05,
      "loss": 0.34991495609283446,
      "memory(GiB)": 70.5,
      "step": 34940,
      "token_acc": 0.9191919191919192,
      "train_speed(iter/s)": 1.455789
    },
    {
      "epoch": 1.4971509361209887,
      "grad_norm": 5.34853982925415,
      "learning_rate": 7.946162734674734e-05,
      "loss": 0.6305210590362549,
      "memory(GiB)": 70.5,
      "step": 34945,
      "token_acc": 0.8526315789473684,
      "train_speed(iter/s)": 1.455799
    },
    {
      "epoch": 1.4973651514502377,
      "grad_norm": 2.871464490890503,
      "learning_rate": 7.945618966896508e-05,
      "loss": 0.15445680618286134,
      "memory(GiB)": 70.5,
      "step": 34950,
      "token_acc": 0.975609756097561,
      "train_speed(iter/s)": 1.455793
    },
    {
      "epoch": 1.4975793667794868,
      "grad_norm": 2.802719831466675,
      "learning_rate": 7.945075145755632e-05,
      "loss": 0.4820714950561523,
      "memory(GiB)": 70.5,
      "step": 34955,
      "token_acc": 0.9041095890410958,
      "train_speed(iter/s)": 1.455804
    },
    {
      "epoch": 1.4977935821087356,
      "grad_norm": 7.055443286895752,
      "learning_rate": 7.944531271261955e-05,
      "loss": 0.30111088752746584,
      "memory(GiB)": 70.5,
      "step": 34960,
      "token_acc": 0.9534883720930233,
      "train_speed(iter/s)": 1.455823
    },
    {
      "epoch": 1.4980077974379846,
      "grad_norm": 5.359797954559326,
      "learning_rate": 7.943987343425335e-05,
      "loss": 0.6861623287200928,
      "memory(GiB)": 70.5,
      "step": 34965,
      "token_acc": 0.89272030651341,
      "train_speed(iter/s)": 1.455831
    },
    {
      "epoch": 1.4982220127672337,
      "grad_norm": 2.3562827110290527,
      "learning_rate": 7.94344336225562e-05,
      "loss": 0.31561856269836425,
      "memory(GiB)": 70.5,
      "step": 34970,
      "token_acc": 0.9207547169811321,
      "train_speed(iter/s)": 1.455845
    },
    {
      "epoch": 1.4984362280964825,
      "grad_norm": 1.470863938331604,
      "learning_rate": 7.942899327762668e-05,
      "loss": 0.33873226642608645,
      "memory(GiB)": 70.5,
      "step": 34975,
      "token_acc": 0.9326923076923077,
      "train_speed(iter/s)": 1.455842
    },
    {
      "epoch": 1.4986504434257315,
      "grad_norm": 5.859305381774902,
      "learning_rate": 7.942355239956332e-05,
      "loss": 0.25083630084991454,
      "memory(GiB)": 70.5,
      "step": 34980,
      "token_acc": 0.9506578947368421,
      "train_speed(iter/s)": 1.455832
    },
    {
      "epoch": 1.4988646587549805,
      "grad_norm": 1.2638671398162842,
      "learning_rate": 7.941811098846472e-05,
      "loss": 0.27797105312347414,
      "memory(GiB)": 70.5,
      "step": 34985,
      "token_acc": 0.9350180505415162,
      "train_speed(iter/s)": 1.455843
    },
    {
      "epoch": 1.4990788740842294,
      "grad_norm": 3.3670403957366943,
      "learning_rate": 7.941266904442945e-05,
      "loss": 0.38451566696166994,
      "memory(GiB)": 70.5,
      "step": 34990,
      "token_acc": 0.9053627760252366,
      "train_speed(iter/s)": 1.455846
    },
    {
      "epoch": 1.4992930894134784,
      "grad_norm": 3.5657553672790527,
      "learning_rate": 7.94072265675561e-05,
      "loss": 0.2448596477508545,
      "memory(GiB)": 70.5,
      "step": 34995,
      "token_acc": 0.9341085271317829,
      "train_speed(iter/s)": 1.455844
    },
    {
      "epoch": 1.4995073047427274,
      "grad_norm": 1.9308090209960938,
      "learning_rate": 7.940178355794324e-05,
      "loss": 0.33464617729187013,
      "memory(GiB)": 70.5,
      "step": 35000,
      "token_acc": 0.9227941176470589,
      "train_speed(iter/s)": 1.455838
    },
    {
      "epoch": 1.4995073047427274,
      "eval_loss": 2.6519699096679688,
      "eval_runtime": 13.0337,
      "eval_samples_per_second": 7.672,
      "eval_steps_per_second": 7.672,
      "eval_token_acc": 0.42160737812911725,
      "step": 35000
    },
    {
      "epoch": 1.4997215200719762,
      "grad_norm": 3.875047206878662,
      "learning_rate": 7.93963400156895e-05,
      "loss": 0.39771366119384766,
      "memory(GiB)": 70.5,
      "step": 35005,
      "token_acc": 0.5579847908745247,
      "train_speed(iter/s)": 1.455028
    },
    {
      "epoch": 1.4999357354012253,
      "grad_norm": 4.273797512054443,
      "learning_rate": 7.939089594089347e-05,
      "loss": 0.5219860076904297,
      "memory(GiB)": 70.5,
      "step": 35010,
      "token_acc": 0.8724035608308606,
      "train_speed(iter/s)": 1.455015
    },
    {
      "epoch": 1.5001499507304743,
      "grad_norm": 2.9751172065734863,
      "learning_rate": 7.93854513336538e-05,
      "loss": 0.5277973175048828,
      "memory(GiB)": 70.5,
      "step": 35015,
      "token_acc": 0.8816568047337278,
      "train_speed(iter/s)": 1.455014
    },
    {
      "epoch": 1.5003641660597231,
      "grad_norm": 5.770832061767578,
      "learning_rate": 7.93800061940691e-05,
      "loss": 0.28682751655578614,
      "memory(GiB)": 70.5,
      "step": 35020,
      "token_acc": 0.9303135888501742,
      "train_speed(iter/s)": 1.455063
    },
    {
      "epoch": 1.5005783813889721,
      "grad_norm": 3.4294238090515137,
      "learning_rate": 7.937456052223804e-05,
      "loss": 0.36414761543273927,
      "memory(GiB)": 70.5,
      "step": 35025,
      "token_acc": 0.9198473282442748,
      "train_speed(iter/s)": 1.455068
    },
    {
      "epoch": 1.5007925967182212,
      "grad_norm": 1.8764411211013794,
      "learning_rate": 7.936911431825926e-05,
      "loss": 0.5128159999847413,
      "memory(GiB)": 70.5,
      "step": 35030,
      "token_acc": 0.899641577060932,
      "train_speed(iter/s)": 1.455081
    },
    {
      "epoch": 1.50100681204747,
      "grad_norm": 3.0010619163513184,
      "learning_rate": 7.936366758223142e-05,
      "loss": 0.3104084014892578,
      "memory(GiB)": 70.5,
      "step": 35035,
      "token_acc": 0.9172185430463576,
      "train_speed(iter/s)": 1.455081
    },
    {
      "epoch": 1.501221027376719,
      "grad_norm": 2.6885361671447754,
      "learning_rate": 7.935822031425319e-05,
      "loss": 0.27163870334625245,
      "memory(GiB)": 70.5,
      "step": 35040,
      "token_acc": 0.9416342412451362,
      "train_speed(iter/s)": 1.455091
    },
    {
      "epoch": 1.501435242705968,
      "grad_norm": 1.3410334587097168,
      "learning_rate": 7.935277251442326e-05,
      "loss": 0.29900684356689455,
      "memory(GiB)": 70.5,
      "step": 35045,
      "token_acc": 0.9301470588235294,
      "train_speed(iter/s)": 1.455088
    },
    {
      "epoch": 1.5016494580352169,
      "grad_norm": 4.9979400634765625,
      "learning_rate": 7.934732418284035e-05,
      "loss": 0.667492151260376,
      "memory(GiB)": 70.5,
      "step": 35050,
      "token_acc": 0.8594771241830066,
      "train_speed(iter/s)": 1.455075
    },
    {
      "epoch": 1.501863673364466,
      "grad_norm": 3.8195979595184326,
      "learning_rate": 7.93418753196031e-05,
      "loss": 0.36385226249694824,
      "memory(GiB)": 70.5,
      "step": 35055,
      "token_acc": 0.9328621908127208,
      "train_speed(iter/s)": 1.455084
    },
    {
      "epoch": 1.502077888693715,
      "grad_norm": 5.3410868644714355,
      "learning_rate": 7.933642592481026e-05,
      "loss": 0.5010695934295655,
      "memory(GiB)": 70.5,
      "step": 35060,
      "token_acc": 0.90625,
      "train_speed(iter/s)": 1.455072
    },
    {
      "epoch": 1.5022921040229638,
      "grad_norm": 5.960295677185059,
      "learning_rate": 7.933097599856054e-05,
      "loss": 0.7856390953063965,
      "memory(GiB)": 70.5,
      "step": 35065,
      "token_acc": 0.8599348534201955,
      "train_speed(iter/s)": 1.455067
    },
    {
      "epoch": 1.5025063193522128,
      "grad_norm": 3.2431347370147705,
      "learning_rate": 7.932552554095268e-05,
      "loss": 0.3218043565750122,
      "memory(GiB)": 70.5,
      "step": 35070,
      "token_acc": 0.9259259259259259,
      "train_speed(iter/s)": 1.45506
    },
    {
      "epoch": 1.5027205346814618,
      "grad_norm": 0.7311701774597168,
      "learning_rate": 7.932007455208542e-05,
      "loss": 0.47867765426635744,
      "memory(GiB)": 70.5,
      "step": 35075,
      "token_acc": 0.8952380952380953,
      "train_speed(iter/s)": 1.455093
    },
    {
      "epoch": 1.5029347500107106,
      "grad_norm": 3.4093806743621826,
      "learning_rate": 7.93146230320575e-05,
      "loss": 0.24455370903015136,
      "memory(GiB)": 70.5,
      "step": 35080,
      "token_acc": 0.9459459459459459,
      "train_speed(iter/s)": 1.455095
    },
    {
      "epoch": 1.5031489653399597,
      "grad_norm": 3.133664608001709,
      "learning_rate": 7.93091709809677e-05,
      "loss": 0.5241455554962158,
      "memory(GiB)": 70.5,
      "step": 35085,
      "token_acc": 0.8713450292397661,
      "train_speed(iter/s)": 1.455095
    },
    {
      "epoch": 1.5033631806692087,
      "grad_norm": 4.236396789550781,
      "learning_rate": 7.930371839891475e-05,
      "loss": 0.3708005666732788,
      "memory(GiB)": 70.5,
      "step": 35090,
      "token_acc": 0.9294117647058824,
      "train_speed(iter/s)": 1.455079
    },
    {
      "epoch": 1.5035773959984575,
      "grad_norm": 6.616097450256348,
      "learning_rate": 7.929826528599746e-05,
      "loss": 0.5404676914215087,
      "memory(GiB)": 70.5,
      "step": 35095,
      "token_acc": 0.8923611111111112,
      "train_speed(iter/s)": 1.455083
    },
    {
      "epoch": 1.5037916113277066,
      "grad_norm": 0.6624740362167358,
      "learning_rate": 7.929281164231461e-05,
      "loss": 0.13406115770339966,
      "memory(GiB)": 70.5,
      "step": 35100,
      "token_acc": 0.956953642384106,
      "train_speed(iter/s)": 1.455084
    },
    {
      "epoch": 1.5040058266569556,
      "grad_norm": 2.599402904510498,
      "learning_rate": 7.928735746796501e-05,
      "loss": 0.36077821254730225,
      "memory(GiB)": 70.5,
      "step": 35105,
      "token_acc": 0.9292604501607717,
      "train_speed(iter/s)": 1.455092
    },
    {
      "epoch": 1.5042200419862044,
      "grad_norm": 3.0226314067840576,
      "learning_rate": 7.928190276304744e-05,
      "loss": 0.423538064956665,
      "memory(GiB)": 70.5,
      "step": 35110,
      "token_acc": 0.89171974522293,
      "train_speed(iter/s)": 1.455085
    },
    {
      "epoch": 1.5044342573154537,
      "grad_norm": 3.2212231159210205,
      "learning_rate": 7.927644752766074e-05,
      "loss": 0.2901317596435547,
      "memory(GiB)": 70.5,
      "step": 35115,
      "token_acc": 0.9373219373219374,
      "train_speed(iter/s)": 1.455081
    },
    {
      "epoch": 1.5046484726447025,
      "grad_norm": 6.285838603973389,
      "learning_rate": 7.927099176190374e-05,
      "loss": 0.4977982521057129,
      "memory(GiB)": 70.5,
      "step": 35120,
      "token_acc": 0.8875739644970414,
      "train_speed(iter/s)": 1.455084
    },
    {
      "epoch": 1.5048626879739513,
      "grad_norm": 3.065859079360962,
      "learning_rate": 7.926553546587525e-05,
      "loss": 0.2471409559249878,
      "memory(GiB)": 70.5,
      "step": 35125,
      "token_acc": 0.9530201342281879,
      "train_speed(iter/s)": 1.455106
    },
    {
      "epoch": 1.5050769033032005,
      "grad_norm": 5.862625598907471,
      "learning_rate": 7.926007863967413e-05,
      "loss": 0.9141420364379883,
      "memory(GiB)": 70.5,
      "step": 35130,
      "token_acc": 0.8495934959349594,
      "train_speed(iter/s)": 1.455133
    },
    {
      "epoch": 1.5052911186324494,
      "grad_norm": 5.510425567626953,
      "learning_rate": 7.925462128339925e-05,
      "loss": 0.6017920494079589,
      "memory(GiB)": 70.5,
      "step": 35135,
      "token_acc": 0.8489425981873112,
      "train_speed(iter/s)": 1.455164
    },
    {
      "epoch": 1.5055053339616982,
      "grad_norm": 2.6765687465667725,
      "learning_rate": 7.924916339714945e-05,
      "loss": 0.3271677255630493,
      "memory(GiB)": 70.5,
      "step": 35140,
      "token_acc": 0.9354838709677419,
      "train_speed(iter/s)": 1.455167
    },
    {
      "epoch": 1.5057195492909474,
      "grad_norm": 2.6980955600738525,
      "learning_rate": 7.924370498102363e-05,
      "loss": 0.12745318412780762,
      "memory(GiB)": 70.5,
      "step": 35145,
      "token_acc": 0.9752650176678446,
      "train_speed(iter/s)": 1.455179
    },
    {
      "epoch": 1.5059337646201962,
      "grad_norm": 5.171628952026367,
      "learning_rate": 7.923824603512065e-05,
      "loss": 0.3162405252456665,
      "memory(GiB)": 70.5,
      "step": 35150,
      "token_acc": 0.9288389513108615,
      "train_speed(iter/s)": 1.455179
    },
    {
      "epoch": 1.506147979949445,
      "grad_norm": 4.254791259765625,
      "learning_rate": 7.923278655953943e-05,
      "loss": 0.47292318344116213,
      "memory(GiB)": 70.5,
      "step": 35155,
      "token_acc": 0.8936170212765957,
      "train_speed(iter/s)": 1.455161
    },
    {
      "epoch": 1.5063621952786943,
      "grad_norm": 1.5798839330673218,
      "learning_rate": 7.922732655437884e-05,
      "loss": 0.34424710273742676,
      "memory(GiB)": 70.5,
      "step": 35160,
      "token_acc": 0.9387755102040817,
      "train_speed(iter/s)": 1.455145
    },
    {
      "epoch": 1.5065764106079431,
      "grad_norm": 4.43233060836792,
      "learning_rate": 7.922186601973782e-05,
      "loss": 0.2906650066375732,
      "memory(GiB)": 70.5,
      "step": 35165,
      "token_acc": 0.9049586776859504,
      "train_speed(iter/s)": 1.455148
    },
    {
      "epoch": 1.506790625937192,
      "grad_norm": 3.89077091217041,
      "learning_rate": 7.921640495571529e-05,
      "loss": 0.4097257137298584,
      "memory(GiB)": 70.5,
      "step": 35170,
      "token_acc": 0.9292604501607717,
      "train_speed(iter/s)": 1.455168
    },
    {
      "epoch": 1.5070048412664412,
      "grad_norm": 6.8977789878845215,
      "learning_rate": 7.921094336241017e-05,
      "loss": 0.35735454559326174,
      "memory(GiB)": 70.5,
      "step": 35175,
      "token_acc": 0.9301587301587302,
      "train_speed(iter/s)": 1.455163
    },
    {
      "epoch": 1.50721905659569,
      "grad_norm": 1.6764369010925293,
      "learning_rate": 7.920548123992142e-05,
      "loss": 0.6757354259490966,
      "memory(GiB)": 70.5,
      "step": 35180,
      "token_acc": 0.8383458646616542,
      "train_speed(iter/s)": 1.45515
    },
    {
      "epoch": 1.5074332719249388,
      "grad_norm": 4.542453765869141,
      "learning_rate": 7.920001858834796e-05,
      "loss": 0.4430511951446533,
      "memory(GiB)": 70.5,
      "step": 35185,
      "token_acc": 0.912751677852349,
      "train_speed(iter/s)": 1.455146
    },
    {
      "epoch": 1.507647487254188,
      "grad_norm": 3.901641607284546,
      "learning_rate": 7.91945554077888e-05,
      "loss": 0.6272119998931884,
      "memory(GiB)": 70.5,
      "step": 35190,
      "token_acc": 0.8370607028753994,
      "train_speed(iter/s)": 1.455147
    },
    {
      "epoch": 1.5078617025834369,
      "grad_norm": 7.588398456573486,
      "learning_rate": 7.918909169834285e-05,
      "loss": 0.3477802753448486,
      "memory(GiB)": 70.5,
      "step": 35195,
      "token_acc": 0.9127272727272727,
      "train_speed(iter/s)": 1.455132
    },
    {
      "epoch": 1.5080759179126857,
      "grad_norm": 0.2545609772205353,
      "learning_rate": 7.918362746010914e-05,
      "loss": 0.389675498008728,
      "memory(GiB)": 70.5,
      "step": 35200,
      "token_acc": 0.914396887159533,
      "train_speed(iter/s)": 1.455135
    },
    {
      "epoch": 1.508290133241935,
      "grad_norm": 7.011326313018799,
      "learning_rate": 7.917816269318665e-05,
      "loss": 0.7333412647247315,
      "memory(GiB)": 70.5,
      "step": 35205,
      "token_acc": 0.8464163822525598,
      "train_speed(iter/s)": 1.455138
    },
    {
      "epoch": 1.5085043485711838,
      "grad_norm": 2.0750815868377686,
      "learning_rate": 7.917269739767434e-05,
      "loss": 0.2329253911972046,
      "memory(GiB)": 70.5,
      "step": 35210,
      "token_acc": 0.9427609427609428,
      "train_speed(iter/s)": 1.455124
    },
    {
      "epoch": 1.5087185639004326,
      "grad_norm": 4.031038284301758,
      "learning_rate": 7.916723157367129e-05,
      "loss": 0.4592780590057373,
      "memory(GiB)": 70.5,
      "step": 35215,
      "token_acc": 0.895397489539749,
      "train_speed(iter/s)": 1.45513
    },
    {
      "epoch": 1.5089327792296818,
      "grad_norm": 5.118336200714111,
      "learning_rate": 7.916176522127645e-05,
      "loss": 0.29103913307189944,
      "memory(GiB)": 70.5,
      "step": 35220,
      "token_acc": 0.9440298507462687,
      "train_speed(iter/s)": 1.455125
    },
    {
      "epoch": 1.5091469945589306,
      "grad_norm": 4.378943920135498,
      "learning_rate": 7.91562983405889e-05,
      "loss": 0.3534574508666992,
      "memory(GiB)": 70.5,
      "step": 35225,
      "token_acc": 0.9326241134751773,
      "train_speed(iter/s)": 1.45512
    },
    {
      "epoch": 1.5093612098881795,
      "grad_norm": 2.923551321029663,
      "learning_rate": 7.915083093170764e-05,
      "loss": 0.4809094429016113,
      "memory(GiB)": 70.5,
      "step": 35230,
      "token_acc": 0.9107806691449815,
      "train_speed(iter/s)": 1.45512
    },
    {
      "epoch": 1.5095754252174287,
      "grad_norm": 1.2721339464187622,
      "learning_rate": 7.914536299473173e-05,
      "loss": 0.36352336406707764,
      "memory(GiB)": 70.5,
      "step": 35235,
      "token_acc": 0.9359430604982206,
      "train_speed(iter/s)": 1.455124
    },
    {
      "epoch": 1.5097896405466775,
      "grad_norm": 3.755457639694214,
      "learning_rate": 7.913989452976023e-05,
      "loss": 0.5431818008422852,
      "memory(GiB)": 70.5,
      "step": 35240,
      "token_acc": 0.8846153846153846,
      "train_speed(iter/s)": 1.455111
    },
    {
      "epoch": 1.5100038558759263,
      "grad_norm": 0.03166729584336281,
      "learning_rate": 7.913442553689221e-05,
      "loss": 0.12240279912948608,
      "memory(GiB)": 70.5,
      "step": 35245,
      "token_acc": 0.9792387543252595,
      "train_speed(iter/s)": 1.455114
    },
    {
      "epoch": 1.5102180712051756,
      "grad_norm": 3.718273401260376,
      "learning_rate": 7.912895601622675e-05,
      "loss": 0.3755930185317993,
      "memory(GiB)": 70.5,
      "step": 35250,
      "token_acc": 0.9185185185185185,
      "train_speed(iter/s)": 1.455132
    },
    {
      "epoch": 1.5104322865344244,
      "grad_norm": 2.8416459560394287,
      "learning_rate": 7.912348596786291e-05,
      "loss": 0.4017319202423096,
      "memory(GiB)": 70.5,
      "step": 35255,
      "token_acc": 0.9107142857142857,
      "train_speed(iter/s)": 1.455137
    },
    {
      "epoch": 1.5106465018636732,
      "grad_norm": 5.6943678855896,
      "learning_rate": 7.91180153918998e-05,
      "loss": 0.4003596305847168,
      "memory(GiB)": 70.5,
      "step": 35260,
      "token_acc": 0.9149560117302052,
      "train_speed(iter/s)": 1.455154
    },
    {
      "epoch": 1.5108607171929225,
      "grad_norm": 5.183603763580322,
      "learning_rate": 7.911254428843654e-05,
      "loss": 0.4677162170410156,
      "memory(GiB)": 70.5,
      "step": 35265,
      "token_acc": 0.8860294117647058,
      "train_speed(iter/s)": 1.455152
    },
    {
      "epoch": 1.5110749325221713,
      "grad_norm": 4.569490909576416,
      "learning_rate": 7.910707265757222e-05,
      "loss": 0.6049376964569092,
      "memory(GiB)": 70.5,
      "step": 35270,
      "token_acc": 0.8621908127208481,
      "train_speed(iter/s)": 1.455139
    },
    {
      "epoch": 1.51128914785142,
      "grad_norm": 0.1802099645137787,
      "learning_rate": 7.910160049940598e-05,
      "loss": 0.28168301582336425,
      "memory(GiB)": 70.5,
      "step": 35275,
      "token_acc": 0.9447852760736196,
      "train_speed(iter/s)": 1.455149
    },
    {
      "epoch": 1.5115033631806694,
      "grad_norm": 0.1856347769498825,
      "learning_rate": 7.909612781403695e-05,
      "loss": 0.19219032526016236,
      "memory(GiB)": 70.5,
      "step": 35280,
      "token_acc": 0.975975975975976,
      "train_speed(iter/s)": 1.455154
    },
    {
      "epoch": 1.5117175785099182,
      "grad_norm": 2.595827579498291,
      "learning_rate": 7.909065460156427e-05,
      "loss": 0.2370211362838745,
      "memory(GiB)": 70.5,
      "step": 35285,
      "token_acc": 0.9375,
      "train_speed(iter/s)": 1.45517
    },
    {
      "epoch": 1.511931793839167,
      "grad_norm": 4.154641151428223,
      "learning_rate": 7.90851808620871e-05,
      "loss": 0.47914953231811525,
      "memory(GiB)": 70.5,
      "step": 35290,
      "token_acc": 0.9056603773584906,
      "train_speed(iter/s)": 1.455162
    },
    {
      "epoch": 1.5121460091684162,
      "grad_norm": 8.493849754333496,
      "learning_rate": 7.907970659570457e-05,
      "loss": 0.2674244403839111,
      "memory(GiB)": 70.5,
      "step": 35295,
      "token_acc": 0.926829268292683,
      "train_speed(iter/s)": 1.455151
    },
    {
      "epoch": 1.512360224497665,
      "grad_norm": 2.3543434143066406,
      "learning_rate": 7.90742318025159e-05,
      "loss": 0.33461756706237794,
      "memory(GiB)": 70.5,
      "step": 35300,
      "token_acc": 0.9411764705882353,
      "train_speed(iter/s)": 1.455154
    },
    {
      "epoch": 1.5125744398269139,
      "grad_norm": 4.833373546600342,
      "learning_rate": 7.906875648262022e-05,
      "loss": 0.250572943687439,
      "memory(GiB)": 70.5,
      "step": 35305,
      "token_acc": 0.9446494464944649,
      "train_speed(iter/s)": 1.455161
    },
    {
      "epoch": 1.5127886551561631,
      "grad_norm": 0.799879789352417,
      "learning_rate": 7.906328063611677e-05,
      "loss": 0.32836503982543946,
      "memory(GiB)": 70.5,
      "step": 35310,
      "token_acc": 0.911864406779661,
      "train_speed(iter/s)": 1.455159
    },
    {
      "epoch": 1.513002870485412,
      "grad_norm": 3.6472413539886475,
      "learning_rate": 7.905780426310472e-05,
      "loss": 0.46687607765197753,
      "memory(GiB)": 70.5,
      "step": 35315,
      "token_acc": 0.8847736625514403,
      "train_speed(iter/s)": 1.455148
    },
    {
      "epoch": 1.5132170858146607,
      "grad_norm": 3.4826138019561768,
      "learning_rate": 7.905232736368328e-05,
      "loss": 0.3200789451599121,
      "memory(GiB)": 70.5,
      "step": 35320,
      "token_acc": 0.9325842696629213,
      "train_speed(iter/s)": 1.455167
    },
    {
      "epoch": 1.51343130114391,
      "grad_norm": 3.362610340118408,
      "learning_rate": 7.90468499379517e-05,
      "loss": 0.5096293449401855,
      "memory(GiB)": 70.5,
      "step": 35325,
      "token_acc": 0.8879781420765027,
      "train_speed(iter/s)": 1.455164
    },
    {
      "epoch": 1.5136455164731588,
      "grad_norm": 9.29800796508789,
      "learning_rate": 7.904137198600917e-05,
      "loss": 0.3758652687072754,
      "memory(GiB)": 70.5,
      "step": 35330,
      "token_acc": 0.8895705521472392,
      "train_speed(iter/s)": 1.455151
    },
    {
      "epoch": 1.5138597318024076,
      "grad_norm": 3.5959177017211914,
      "learning_rate": 7.903589350795495e-05,
      "loss": 0.36475019454956054,
      "memory(GiB)": 70.5,
      "step": 35335,
      "token_acc": 0.9253731343283582,
      "train_speed(iter/s)": 1.455151
    },
    {
      "epoch": 1.5140739471316569,
      "grad_norm": 5.585933685302734,
      "learning_rate": 7.903041450388828e-05,
      "loss": 0.2079242467880249,
      "memory(GiB)": 70.5,
      "step": 35340,
      "token_acc": 0.9448275862068966,
      "train_speed(iter/s)": 1.455152
    },
    {
      "epoch": 1.5142881624609057,
      "grad_norm": 5.9693603515625,
      "learning_rate": 7.902493497390842e-05,
      "loss": 0.30733940601348875,
      "memory(GiB)": 70.5,
      "step": 35345,
      "token_acc": 0.941747572815534,
      "train_speed(iter/s)": 1.455148
    },
    {
      "epoch": 1.5145023777901545,
      "grad_norm": 3.898280382156372,
      "learning_rate": 7.901945491811462e-05,
      "loss": 0.3990234375,
      "memory(GiB)": 70.5,
      "step": 35350,
      "token_acc": 0.9248366013071896,
      "train_speed(iter/s)": 1.455166
    },
    {
      "epoch": 1.5147165931194038,
      "grad_norm": 3.072967767715454,
      "learning_rate": 7.901397433660617e-05,
      "loss": 0.23954453468322753,
      "memory(GiB)": 70.5,
      "step": 35355,
      "token_acc": 0.9509433962264151,
      "train_speed(iter/s)": 1.45517
    },
    {
      "epoch": 1.5149308084486526,
      "grad_norm": 3.192047119140625,
      "learning_rate": 7.900849322948239e-05,
      "loss": 0.27290844917297363,
      "memory(GiB)": 70.5,
      "step": 35360,
      "token_acc": 0.9296636085626911,
      "train_speed(iter/s)": 1.455183
    },
    {
      "epoch": 1.5151450237779014,
      "grad_norm": 2.843644618988037,
      "learning_rate": 7.900301159684251e-05,
      "loss": 0.3199605464935303,
      "memory(GiB)": 70.5,
      "step": 35365,
      "token_acc": 0.9452054794520548,
      "train_speed(iter/s)": 1.45519
    },
    {
      "epoch": 1.5153592391071506,
      "grad_norm": 3.9578211307525635,
      "learning_rate": 7.899752943878589e-05,
      "loss": 0.2850840091705322,
      "memory(GiB)": 70.5,
      "step": 35370,
      "token_acc": 0.9528985507246377,
      "train_speed(iter/s)": 1.455188
    },
    {
      "epoch": 1.5155734544363995,
      "grad_norm": 0.17286980152130127,
      "learning_rate": 7.89920467554118e-05,
      "loss": 0.1774985671043396,
      "memory(GiB)": 70.5,
      "step": 35375,
      "token_acc": 0.9576271186440678,
      "train_speed(iter/s)": 1.455193
    },
    {
      "epoch": 1.5157876697656483,
      "grad_norm": 3.993929147720337,
      "learning_rate": 7.898656354681961e-05,
      "loss": 0.4229094982147217,
      "memory(GiB)": 70.5,
      "step": 35380,
      "token_acc": 0.9136212624584718,
      "train_speed(iter/s)": 1.455194
    },
    {
      "epoch": 1.5160018850948975,
      "grad_norm": 1.6528170108795166,
      "learning_rate": 7.89810798131086e-05,
      "loss": 0.05916541814804077,
      "memory(GiB)": 70.5,
      "step": 35385,
      "token_acc": 0.9766536964980544,
      "train_speed(iter/s)": 1.455213
    },
    {
      "epoch": 1.5162161004241463,
      "grad_norm": 4.6038336753845215,
      "learning_rate": 7.897559555437817e-05,
      "loss": 0.21145401000976563,
      "memory(GiB)": 70.5,
      "step": 35390,
      "token_acc": 0.9575163398692811,
      "train_speed(iter/s)": 1.455215
    },
    {
      "epoch": 1.5164303157533952,
      "grad_norm": 9.570601463317871,
      "learning_rate": 7.897011077072763e-05,
      "loss": 0.4185389518737793,
      "memory(GiB)": 70.5,
      "step": 35395,
      "token_acc": 0.9081632653061225,
      "train_speed(iter/s)": 1.455237
    },
    {
      "epoch": 1.5166445310826444,
      "grad_norm": 4.495016574859619,
      "learning_rate": 7.896462546225637e-05,
      "loss": 0.5254689693450928,
      "memory(GiB)": 70.5,
      "step": 35400,
      "token_acc": 0.8737201365187713,
      "train_speed(iter/s)": 1.455225
    },
    {
      "epoch": 1.5168587464118932,
      "grad_norm": 2.9343042373657227,
      "learning_rate": 7.895913962906374e-05,
      "loss": 0.2579438924789429,
      "memory(GiB)": 70.5,
      "step": 35405,
      "token_acc": 0.9518072289156626,
      "train_speed(iter/s)": 1.455224
    },
    {
      "epoch": 1.517072961741142,
      "grad_norm": 2.9900834560394287,
      "learning_rate": 7.895365327124912e-05,
      "loss": 0.2568881273269653,
      "memory(GiB)": 70.5,
      "step": 35410,
      "token_acc": 0.9430051813471503,
      "train_speed(iter/s)": 1.455231
    },
    {
      "epoch": 1.5172871770703913,
      "grad_norm": 3.561184883117676,
      "learning_rate": 7.894816638891194e-05,
      "loss": 0.441438627243042,
      "memory(GiB)": 70.5,
      "step": 35415,
      "token_acc": 0.9172185430463576,
      "train_speed(iter/s)": 1.455234
    },
    {
      "epoch": 1.51750139239964,
      "grad_norm": 1.9225085973739624,
      "learning_rate": 7.894267898215155e-05,
      "loss": 0.2996860980987549,
      "memory(GiB)": 70.5,
      "step": 35420,
      "token_acc": 0.9403973509933775,
      "train_speed(iter/s)": 1.455233
    },
    {
      "epoch": 1.517715607728889,
      "grad_norm": 4.6699676513671875,
      "learning_rate": 7.893719105106739e-05,
      "loss": 0.31643147468566896,
      "memory(GiB)": 70.5,
      "step": 35425,
      "token_acc": 0.934931506849315,
      "train_speed(iter/s)": 1.455227
    },
    {
      "epoch": 1.5179298230581382,
      "grad_norm": 4.843156337738037,
      "learning_rate": 7.893170259575886e-05,
      "loss": 0.38980774879455565,
      "memory(GiB)": 70.5,
      "step": 35430,
      "token_acc": 0.9106529209621993,
      "train_speed(iter/s)": 1.455219
    },
    {
      "epoch": 1.518144038387387,
      "grad_norm": 2.838552236557007,
      "learning_rate": 7.892621361632539e-05,
      "loss": 0.19291067123413086,
      "memory(GiB)": 70.5,
      "step": 35435,
      "token_acc": 0.9576923076923077,
      "train_speed(iter/s)": 1.455214
    },
    {
      "epoch": 1.5183582537166358,
      "grad_norm": 3.2316274642944336,
      "learning_rate": 7.892072411286644e-05,
      "loss": 0.35353827476501465,
      "memory(GiB)": 70.5,
      "step": 35440,
      "token_acc": 0.9047619047619048,
      "train_speed(iter/s)": 1.455232
    },
    {
      "epoch": 1.518572469045885,
      "grad_norm": 4.179715633392334,
      "learning_rate": 7.891523408548143e-05,
      "loss": 0.24557342529296874,
      "memory(GiB)": 70.5,
      "step": 35445,
      "token_acc": 0.9307359307359307,
      "train_speed(iter/s)": 1.455253
    },
    {
      "epoch": 1.5187866843751339,
      "grad_norm": 2.3284826278686523,
      "learning_rate": 7.890974353426984e-05,
      "loss": 0.4084358215332031,
      "memory(GiB)": 70.5,
      "step": 35450,
      "token_acc": 0.9198606271777003,
      "train_speed(iter/s)": 1.455264
    },
    {
      "epoch": 1.519000899704383,
      "grad_norm": 3.604797601699829,
      "learning_rate": 7.890425245933113e-05,
      "loss": 0.6232208728790283,
      "memory(GiB)": 70.5,
      "step": 35455,
      "token_acc": 0.8779661016949153,
      "train_speed(iter/s)": 1.455264
    },
    {
      "epoch": 1.519215115033632,
      "grad_norm": 4.275146007537842,
      "learning_rate": 7.889876086076475e-05,
      "loss": 0.4677189826965332,
      "memory(GiB)": 70.5,
      "step": 35460,
      "token_acc": 0.9243986254295533,
      "train_speed(iter/s)": 1.45526
    },
    {
      "epoch": 1.5194293303628807,
      "grad_norm": 2.002976417541504,
      "learning_rate": 7.889326873867022e-05,
      "loss": 0.2061852216720581,
      "memory(GiB)": 70.5,
      "step": 35465,
      "token_acc": 0.9440559440559441,
      "train_speed(iter/s)": 1.45526
    },
    {
      "epoch": 1.5196435456921298,
      "grad_norm": 6.290721416473389,
      "learning_rate": 7.888777609314704e-05,
      "loss": 0.5458513259887695,
      "memory(GiB)": 70.5,
      "step": 35470,
      "token_acc": 0.8896797153024911,
      "train_speed(iter/s)": 1.455255
    },
    {
      "epoch": 1.5198577610213788,
      "grad_norm": 2.611698865890503,
      "learning_rate": 7.888228292429468e-05,
      "loss": 0.23593780994415284,
      "memory(GiB)": 70.5,
      "step": 35475,
      "token_acc": 0.9337748344370861,
      "train_speed(iter/s)": 1.455276
    },
    {
      "epoch": 1.5200719763506276,
      "grad_norm": 3.377850294113159,
      "learning_rate": 7.887678923221267e-05,
      "loss": 0.39882447719573977,
      "memory(GiB)": 70.5,
      "step": 35480,
      "token_acc": 0.9176136363636364,
      "train_speed(iter/s)": 1.455281
    },
    {
      "epoch": 1.5202861916798767,
      "grad_norm": 5.842268466949463,
      "learning_rate": 7.887129501700055e-05,
      "loss": 0.31245424747467043,
      "memory(GiB)": 70.5,
      "step": 35485,
      "token_acc": 0.934984520123839,
      "train_speed(iter/s)": 1.455291
    },
    {
      "epoch": 1.5205004070091257,
      "grad_norm": 0.152810201048851,
      "learning_rate": 7.886580027875782e-05,
      "loss": 0.4031352519989014,
      "memory(GiB)": 70.5,
      "step": 35490,
      "token_acc": 0.9183673469387755,
      "train_speed(iter/s)": 1.455292
    },
    {
      "epoch": 1.5207146223383745,
      "grad_norm": 1.9831500053405762,
      "learning_rate": 7.886030501758404e-05,
      "loss": 0.2632662534713745,
      "memory(GiB)": 70.5,
      "step": 35495,
      "token_acc": 0.953307392996109,
      "train_speed(iter/s)": 1.455286
    },
    {
      "epoch": 1.5209288376676235,
      "grad_norm": 1.7557613849639893,
      "learning_rate": 7.885480923357878e-05,
      "loss": 0.2536567211151123,
      "memory(GiB)": 70.5,
      "step": 35500,
      "token_acc": 0.9574468085106383,
      "train_speed(iter/s)": 1.455285
    },
    {
      "epoch": 1.5209288376676235,
      "eval_loss": 2.5869197845458984,
      "eval_runtime": 13.8187,
      "eval_samples_per_second": 7.237,
      "eval_steps_per_second": 7.237,
      "eval_token_acc": 0.424,
      "step": 35500
    },
    {
      "epoch": 1.5211430529968726,
      "grad_norm": 1.7950143814086914,
      "learning_rate": 7.884931292684157e-05,
      "loss": 0.3926915884017944,
      "memory(GiB)": 70.5,
      "step": 35505,
      "token_acc": 0.5651769087523277,
      "train_speed(iter/s)": 1.454416
    },
    {
      "epoch": 1.5213572683261214,
      "grad_norm": 1.6639857292175293,
      "learning_rate": 7.884381609747198e-05,
      "loss": 0.419342565536499,
      "memory(GiB)": 70.5,
      "step": 35510,
      "token_acc": 0.9010238907849829,
      "train_speed(iter/s)": 1.454411
    },
    {
      "epoch": 1.5215714836553704,
      "grad_norm": 2.761254072189331,
      "learning_rate": 7.883831874556962e-05,
      "loss": 0.27197585105895994,
      "memory(GiB)": 70.5,
      "step": 35515,
      "token_acc": 0.9377289377289377,
      "train_speed(iter/s)": 1.454396
    },
    {
      "epoch": 1.5217856989846195,
      "grad_norm": 2.748790740966797,
      "learning_rate": 7.883282087123407e-05,
      "loss": 0.5017034530639648,
      "memory(GiB)": 70.5,
      "step": 35520,
      "token_acc": 0.89453125,
      "train_speed(iter/s)": 1.454324
    },
    {
      "epoch": 1.5219999143138683,
      "grad_norm": 0.2744179964065552,
      "learning_rate": 7.88273224745649e-05,
      "loss": 0.2637808322906494,
      "memory(GiB)": 70.5,
      "step": 35525,
      "token_acc": 0.9298892988929889,
      "train_speed(iter/s)": 1.45432
    },
    {
      "epoch": 1.5222141296431173,
      "grad_norm": 3.3327066898345947,
      "learning_rate": 7.882182355566177e-05,
      "loss": 0.3286318778991699,
      "memory(GiB)": 70.5,
      "step": 35530,
      "token_acc": 0.9076923076923077,
      "train_speed(iter/s)": 1.454321
    },
    {
      "epoch": 1.5224283449723663,
      "grad_norm": 2.2406444549560547,
      "learning_rate": 7.881632411462424e-05,
      "loss": 0.24324989318847656,
      "memory(GiB)": 70.5,
      "step": 35535,
      "token_acc": 0.9428571428571428,
      "train_speed(iter/s)": 1.454327
    },
    {
      "epoch": 1.5226425603016152,
      "grad_norm": 4.349251747131348,
      "learning_rate": 7.881082415155198e-05,
      "loss": 0.37428712844848633,
      "memory(GiB)": 70.5,
      "step": 35540,
      "token_acc": 0.9107692307692308,
      "train_speed(iter/s)": 1.454305
    },
    {
      "epoch": 1.5228567756308642,
      "grad_norm": 5.963205814361572,
      "learning_rate": 7.880532366654462e-05,
      "loss": 0.7305412769317627,
      "memory(GiB)": 70.5,
      "step": 35545,
      "token_acc": 0.8163265306122449,
      "train_speed(iter/s)": 1.454302
    },
    {
      "epoch": 1.5230709909601132,
      "grad_norm": 2.8718483448028564,
      "learning_rate": 7.879982265970178e-05,
      "loss": 0.3297011613845825,
      "memory(GiB)": 70.5,
      "step": 35550,
      "token_acc": 0.9427609427609428,
      "train_speed(iter/s)": 1.454317
    },
    {
      "epoch": 1.523285206289362,
      "grad_norm": 1.885535478591919,
      "learning_rate": 7.879432113112316e-05,
      "loss": 0.29150776863098143,
      "memory(GiB)": 70.5,
      "step": 35555,
      "token_acc": 0.9494584837545126,
      "train_speed(iter/s)": 1.454316
    },
    {
      "epoch": 1.523499421618611,
      "grad_norm": 5.392949104309082,
      "learning_rate": 7.87888190809084e-05,
      "loss": 0.6229614734649658,
      "memory(GiB)": 70.5,
      "step": 35560,
      "token_acc": 0.8732876712328768,
      "train_speed(iter/s)": 1.454308
    },
    {
      "epoch": 1.52371363694786,
      "grad_norm": 5.446480751037598,
      "learning_rate": 7.878331650915716e-05,
      "loss": 0.32566978931427004,
      "memory(GiB)": 70.5,
      "step": 35565,
      "token_acc": 0.9239130434782609,
      "train_speed(iter/s)": 1.454297
    },
    {
      "epoch": 1.523927852277109,
      "grad_norm": 3.696805715560913,
      "learning_rate": 7.877781341596915e-05,
      "loss": 0.4704679012298584,
      "memory(GiB)": 70.5,
      "step": 35570,
      "token_acc": 0.8977272727272727,
      "train_speed(iter/s)": 1.454307
    },
    {
      "epoch": 1.524142067606358,
      "grad_norm": 4.328130722045898,
      "learning_rate": 7.877230980144404e-05,
      "loss": 0.27168750762939453,
      "memory(GiB)": 70.5,
      "step": 35575,
      "token_acc": 0.9484126984126984,
      "train_speed(iter/s)": 1.454313
    },
    {
      "epoch": 1.524356282935607,
      "grad_norm": 3.516188621520996,
      "learning_rate": 7.876680566568157e-05,
      "loss": 0.4140778541564941,
      "memory(GiB)": 70.5,
      "step": 35580,
      "token_acc": 0.9087837837837838,
      "train_speed(iter/s)": 1.454308
    },
    {
      "epoch": 1.5245704982648558,
      "grad_norm": 1.8971318006515503,
      "learning_rate": 7.876130100878142e-05,
      "loss": 0.35277752876281737,
      "memory(GiB)": 70.5,
      "step": 35585,
      "token_acc": 0.9097222222222222,
      "train_speed(iter/s)": 1.454304
    },
    {
      "epoch": 1.5247847135941048,
      "grad_norm": 6.512512683868408,
      "learning_rate": 7.875579583084331e-05,
      "loss": 0.5542943000793457,
      "memory(GiB)": 70.5,
      "step": 35590,
      "token_acc": 0.9025974025974026,
      "train_speed(iter/s)": 1.454349
    },
    {
      "epoch": 1.5249989289233539,
      "grad_norm": 3.26126766204834,
      "learning_rate": 7.8750290131967e-05,
      "loss": 0.37936155796051024,
      "memory(GiB)": 70.5,
      "step": 35595,
      "token_acc": 0.9297658862876255,
      "train_speed(iter/s)": 1.454345
    },
    {
      "epoch": 1.5252131442526027,
      "grad_norm": 6.493283748626709,
      "learning_rate": 7.874478391225221e-05,
      "loss": 0.4745510101318359,
      "memory(GiB)": 70.5,
      "step": 35600,
      "token_acc": 0.8881118881118881,
      "train_speed(iter/s)": 1.454378
    },
    {
      "epoch": 1.5254273595818517,
      "grad_norm": 4.33941125869751,
      "learning_rate": 7.87392771717987e-05,
      "loss": 0.28192505836486814,
      "memory(GiB)": 70.5,
      "step": 35605,
      "token_acc": 0.941717791411043,
      "train_speed(iter/s)": 1.454382
    },
    {
      "epoch": 1.5256415749111008,
      "grad_norm": 2.306516647338867,
      "learning_rate": 7.873376991070623e-05,
      "loss": 0.29585824012756345,
      "memory(GiB)": 70.5,
      "step": 35610,
      "token_acc": 0.9296296296296296,
      "train_speed(iter/s)": 1.454403
    },
    {
      "epoch": 1.5258557902403496,
      "grad_norm": 6.04729700088501,
      "learning_rate": 7.872826212907453e-05,
      "loss": 0.4343556880950928,
      "memory(GiB)": 70.5,
      "step": 35615,
      "token_acc": 0.8976377952755905,
      "train_speed(iter/s)": 1.454408
    },
    {
      "epoch": 1.5260700055695986,
      "grad_norm": 3.8437130451202393,
      "learning_rate": 7.872275382700345e-05,
      "loss": 0.3954968214035034,
      "memory(GiB)": 70.5,
      "step": 35620,
      "token_acc": 0.9029126213592233,
      "train_speed(iter/s)": 1.454422
    },
    {
      "epoch": 1.5262842208988476,
      "grad_norm": 5.214289665222168,
      "learning_rate": 7.871724500459272e-05,
      "loss": 0.4889078617095947,
      "memory(GiB)": 70.5,
      "step": 35625,
      "token_acc": 0.8989547038327527,
      "train_speed(iter/s)": 1.454413
    },
    {
      "epoch": 1.5264984362280964,
      "grad_norm": 4.324461460113525,
      "learning_rate": 7.871173566194217e-05,
      "loss": 0.35028629302978515,
      "memory(GiB)": 70.5,
      "step": 35630,
      "token_acc": 0.946058091286307,
      "train_speed(iter/s)": 1.454419
    },
    {
      "epoch": 1.5267126515573455,
      "grad_norm": 2.2253122329711914,
      "learning_rate": 7.870622579915158e-05,
      "loss": 0.5961165428161621,
      "memory(GiB)": 70.5,
      "step": 35635,
      "token_acc": 0.8979591836734694,
      "train_speed(iter/s)": 1.454427
    },
    {
      "epoch": 1.5269268668865945,
      "grad_norm": 5.25931978225708,
      "learning_rate": 7.870071541632078e-05,
      "loss": 0.4913150787353516,
      "memory(GiB)": 70.5,
      "step": 35640,
      "token_acc": 0.9051724137931034,
      "train_speed(iter/s)": 1.454428
    },
    {
      "epoch": 1.5271410822158433,
      "grad_norm": 2.159656286239624,
      "learning_rate": 7.869520451354961e-05,
      "loss": 0.3891474962234497,
      "memory(GiB)": 70.5,
      "step": 35645,
      "token_acc": 0.9208860759493671,
      "train_speed(iter/s)": 1.454422
    },
    {
      "epoch": 1.5273552975450924,
      "grad_norm": 3.995546817779541,
      "learning_rate": 7.868969309093788e-05,
      "loss": 0.41381030082702636,
      "memory(GiB)": 70.5,
      "step": 35650,
      "token_acc": 0.9122137404580153,
      "train_speed(iter/s)": 1.454434
    },
    {
      "epoch": 1.5275695128743414,
      "grad_norm": 3.6339025497436523,
      "learning_rate": 7.868418114858545e-05,
      "loss": 0.32793848514556884,
      "memory(GiB)": 70.5,
      "step": 35655,
      "token_acc": 0.926530612244898,
      "train_speed(iter/s)": 1.454439
    },
    {
      "epoch": 1.5277837282035902,
      "grad_norm": 2.573699474334717,
      "learning_rate": 7.867866868659218e-05,
      "loss": 0.22508327960968016,
      "memory(GiB)": 70.5,
      "step": 35660,
      "token_acc": 0.9492753623188406,
      "train_speed(iter/s)": 1.454433
    },
    {
      "epoch": 1.5279979435328392,
      "grad_norm": 3.572819709777832,
      "learning_rate": 7.867315570505792e-05,
      "loss": 0.36694087982177737,
      "memory(GiB)": 70.5,
      "step": 35665,
      "token_acc": 0.9323529411764706,
      "train_speed(iter/s)": 1.454436
    },
    {
      "epoch": 1.5282121588620883,
      "grad_norm": 2.6973936557769775,
      "learning_rate": 7.866764220408255e-05,
      "loss": 0.5283097267150879,
      "memory(GiB)": 70.5,
      "step": 35670,
      "token_acc": 0.899390243902439,
      "train_speed(iter/s)": 1.454431
    },
    {
      "epoch": 1.528426374191337,
      "grad_norm": 2.6575043201446533,
      "learning_rate": 7.866212818376594e-05,
      "loss": 0.18520693778991698,
      "memory(GiB)": 70.5,
      "step": 35675,
      "token_acc": 0.9587155963302753,
      "train_speed(iter/s)": 1.454436
    },
    {
      "epoch": 1.5286405895205861,
      "grad_norm": 4.662832260131836,
      "learning_rate": 7.8656613644208e-05,
      "loss": 0.6513695240020752,
      "memory(GiB)": 70.5,
      "step": 35680,
      "token_acc": 0.890282131661442,
      "train_speed(iter/s)": 1.454472
    },
    {
      "epoch": 1.5288548048498352,
      "grad_norm": 3.538331985473633,
      "learning_rate": 7.865109858550862e-05,
      "loss": 0.5083042621612549,
      "memory(GiB)": 70.5,
      "step": 35685,
      "token_acc": 0.8813559322033898,
      "train_speed(iter/s)": 1.454495
    },
    {
      "epoch": 1.529069020179084,
      "grad_norm": 6.289170265197754,
      "learning_rate": 7.86455830077677e-05,
      "loss": 0.6487184047698975,
      "memory(GiB)": 70.5,
      "step": 35690,
      "token_acc": 0.8603174603174604,
      "train_speed(iter/s)": 1.454496
    },
    {
      "epoch": 1.529283235508333,
      "grad_norm": 1.8637338876724243,
      "learning_rate": 7.864006691108519e-05,
      "loss": 0.3687494516372681,
      "memory(GiB)": 70.5,
      "step": 35695,
      "token_acc": 0.921311475409836,
      "train_speed(iter/s)": 1.454497
    },
    {
      "epoch": 1.529497450837582,
      "grad_norm": 2.35659122467041,
      "learning_rate": 7.863455029556098e-05,
      "loss": 0.4288932800292969,
      "memory(GiB)": 70.5,
      "step": 35700,
      "token_acc": 0.8986928104575164,
      "train_speed(iter/s)": 1.454503
    },
    {
      "epoch": 1.5297116661668309,
      "grad_norm": 2.96008038520813,
      "learning_rate": 7.862903316129504e-05,
      "loss": 0.49300575256347656,
      "memory(GiB)": 70.5,
      "step": 35705,
      "token_acc": 0.9008264462809917,
      "train_speed(iter/s)": 1.454506
    },
    {
      "epoch": 1.5299258814960799,
      "grad_norm": 0.17014656960964203,
      "learning_rate": 7.862351550838732e-05,
      "loss": 0.5109248638153077,
      "memory(GiB)": 70.5,
      "step": 35710,
      "token_acc": 0.9127906976744186,
      "train_speed(iter/s)": 1.454513
    },
    {
      "epoch": 1.530140096825329,
      "grad_norm": 3.3138997554779053,
      "learning_rate": 7.861799733693775e-05,
      "loss": 0.2746044397354126,
      "memory(GiB)": 70.5,
      "step": 35715,
      "token_acc": 0.9379562043795621,
      "train_speed(iter/s)": 1.454498
    },
    {
      "epoch": 1.5303543121545777,
      "grad_norm": 6.1462483406066895,
      "learning_rate": 7.86124786470463e-05,
      "loss": 0.5388484954833984,
      "memory(GiB)": 70.5,
      "step": 35720,
      "token_acc": 0.8859934853420195,
      "train_speed(iter/s)": 1.454496
    },
    {
      "epoch": 1.5305685274838268,
      "grad_norm": 2.9319067001342773,
      "learning_rate": 7.8606959438813e-05,
      "loss": 0.12769680023193358,
      "memory(GiB)": 70.5,
      "step": 35725,
      "token_acc": 0.9761904761904762,
      "train_speed(iter/s)": 1.454501
    },
    {
      "epoch": 1.5307827428130758,
      "grad_norm": 2.3843541145324707,
      "learning_rate": 7.860143971233776e-05,
      "loss": 0.5081887245178223,
      "memory(GiB)": 70.5,
      "step": 35730,
      "token_acc": 0.8980392156862745,
      "train_speed(iter/s)": 1.454503
    },
    {
      "epoch": 1.5309969581423246,
      "grad_norm": 0.7897017598152161,
      "learning_rate": 7.859591946772062e-05,
      "loss": 0.22180466651916503,
      "memory(GiB)": 70.5,
      "step": 35735,
      "token_acc": 0.9587628865979382,
      "train_speed(iter/s)": 1.4545
    },
    {
      "epoch": 1.5312111734715736,
      "grad_norm": 2.0018341541290283,
      "learning_rate": 7.859039870506158e-05,
      "loss": 0.44312586784362795,
      "memory(GiB)": 70.5,
      "step": 35740,
      "token_acc": 0.9059561128526645,
      "train_speed(iter/s)": 1.454509
    },
    {
      "epoch": 1.5314253888008227,
      "grad_norm": 6.255533218383789,
      "learning_rate": 7.858487742446063e-05,
      "loss": 0.3016995429992676,
      "memory(GiB)": 70.5,
      "step": 35745,
      "token_acc": 0.9364548494983278,
      "train_speed(iter/s)": 1.454503
    },
    {
      "epoch": 1.5316396041300715,
      "grad_norm": 1.8422714471817017,
      "learning_rate": 7.857935562601783e-05,
      "loss": 0.6305891990661621,
      "memory(GiB)": 70.5,
      "step": 35750,
      "token_acc": 0.8716417910447761,
      "train_speed(iter/s)": 1.454522
    },
    {
      "epoch": 1.5318538194593205,
      "grad_norm": 3.7248027324676514,
      "learning_rate": 7.857383330983319e-05,
      "loss": 0.4698214054107666,
      "memory(GiB)": 70.5,
      "step": 35755,
      "token_acc": 0.9003436426116839,
      "train_speed(iter/s)": 1.454541
    },
    {
      "epoch": 1.5320680347885696,
      "grad_norm": 5.276378631591797,
      "learning_rate": 7.856831047600674e-05,
      "loss": 0.5537188529968262,
      "memory(GiB)": 70.5,
      "step": 35760,
      "token_acc": 0.9096989966555183,
      "train_speed(iter/s)": 1.454557
    },
    {
      "epoch": 1.5322822501178184,
      "grad_norm": 4.1958441734313965,
      "learning_rate": 7.856278712463856e-05,
      "loss": 0.44065265655517577,
      "memory(GiB)": 70.5,
      "step": 35765,
      "token_acc": 0.9123376623376623,
      "train_speed(iter/s)": 1.454558
    },
    {
      "epoch": 1.5324964654470674,
      "grad_norm": 1.812787413597107,
      "learning_rate": 7.855726325582869e-05,
      "loss": 0.342342734336853,
      "memory(GiB)": 70.5,
      "step": 35770,
      "token_acc": 0.9122137404580153,
      "train_speed(iter/s)": 1.454568
    },
    {
      "epoch": 1.5327106807763164,
      "grad_norm": 2.895254373550415,
      "learning_rate": 7.855173886967722e-05,
      "loss": 0.5885238170623779,
      "memory(GiB)": 70.5,
      "step": 35775,
      "token_acc": 0.8981818181818182,
      "train_speed(iter/s)": 1.454604
    },
    {
      "epoch": 1.5329248961055653,
      "grad_norm": 2.623488187789917,
      "learning_rate": 7.854621396628421e-05,
      "loss": 0.3065093994140625,
      "memory(GiB)": 70.5,
      "step": 35780,
      "token_acc": 0.9444444444444444,
      "train_speed(iter/s)": 1.454622
    },
    {
      "epoch": 1.5331391114348143,
      "grad_norm": 3.567392110824585,
      "learning_rate": 7.854068854574976e-05,
      "loss": 0.15203816890716554,
      "memory(GiB)": 70.5,
      "step": 35785,
      "token_acc": 0.9736842105263158,
      "train_speed(iter/s)": 1.454623
    },
    {
      "epoch": 1.5333533267640633,
      "grad_norm": 9.753863334655762,
      "learning_rate": 7.853516260817395e-05,
      "loss": 0.9470474243164062,
      "memory(GiB)": 70.5,
      "step": 35790,
      "token_acc": 0.7840236686390533,
      "train_speed(iter/s)": 1.454604
    },
    {
      "epoch": 1.5335675420933121,
      "grad_norm": 5.180292129516602,
      "learning_rate": 7.85296361536569e-05,
      "loss": 0.5246982574462891,
      "memory(GiB)": 70.5,
      "step": 35795,
      "token_acc": 0.8807692307692307,
      "train_speed(iter/s)": 1.454601
    },
    {
      "epoch": 1.5337817574225612,
      "grad_norm": 10.85864543914795,
      "learning_rate": 7.852410918229874e-05,
      "loss": 0.680355453491211,
      "memory(GiB)": 70.5,
      "step": 35800,
      "token_acc": 0.8600682593856656,
      "train_speed(iter/s)": 1.454614
    },
    {
      "epoch": 1.5339959727518102,
      "grad_norm": 2.3720128536224365,
      "learning_rate": 7.851858169419959e-05,
      "loss": 0.26025469303131105,
      "memory(GiB)": 70.5,
      "step": 35805,
      "token_acc": 0.9372822299651568,
      "train_speed(iter/s)": 1.454618
    },
    {
      "epoch": 1.534210188081059,
      "grad_norm": 8.34424877166748,
      "learning_rate": 7.851305368945956e-05,
      "loss": 0.47978363037109373,
      "memory(GiB)": 70.5,
      "step": 35810,
      "token_acc": 0.9078014184397163,
      "train_speed(iter/s)": 1.454637
    },
    {
      "epoch": 1.534424403410308,
      "grad_norm": 2.0183446407318115,
      "learning_rate": 7.850752516817883e-05,
      "loss": 0.25615825653076174,
      "memory(GiB)": 70.5,
      "step": 35815,
      "token_acc": 0.9427609427609428,
      "train_speed(iter/s)": 1.454642
    },
    {
      "epoch": 1.534638618739557,
      "grad_norm": 2.8009073734283447,
      "learning_rate": 7.850199613045754e-05,
      "loss": 0.3213240146636963,
      "memory(GiB)": 70.5,
      "step": 35820,
      "token_acc": 0.9207547169811321,
      "train_speed(iter/s)": 1.454654
    },
    {
      "epoch": 1.534852834068806,
      "grad_norm": 3.79608416557312,
      "learning_rate": 7.849646657639585e-05,
      "loss": 0.34736127853393556,
      "memory(GiB)": 70.5,
      "step": 35825,
      "token_acc": 0.9258160237388724,
      "train_speed(iter/s)": 1.454656
    },
    {
      "epoch": 1.535067049398055,
      "grad_norm": 5.199913501739502,
      "learning_rate": 7.849093650609392e-05,
      "loss": 0.478715181350708,
      "memory(GiB)": 70.5,
      "step": 35830,
      "token_acc": 0.9090909090909091,
      "train_speed(iter/s)": 1.454674
    },
    {
      "epoch": 1.535281264727304,
      "grad_norm": 3.6183464527130127,
      "learning_rate": 7.848540591965197e-05,
      "loss": 0.39489316940307617,
      "memory(GiB)": 70.5,
      "step": 35835,
      "token_acc": 0.9115384615384615,
      "train_speed(iter/s)": 1.454694
    },
    {
      "epoch": 1.5354954800565528,
      "grad_norm": 2.389488697052002,
      "learning_rate": 7.847987481717017e-05,
      "loss": 0.563099479675293,
      "memory(GiB)": 70.5,
      "step": 35840,
      "token_acc": 0.9012738853503185,
      "train_speed(iter/s)": 1.454703
    },
    {
      "epoch": 1.5357096953858018,
      "grad_norm": 4.252538204193115,
      "learning_rate": 7.847434319874871e-05,
      "loss": 0.6009092330932617,
      "memory(GiB)": 70.5,
      "step": 35845,
      "token_acc": 0.895910780669145,
      "train_speed(iter/s)": 1.454714
    },
    {
      "epoch": 1.5359239107150509,
      "grad_norm": 3.097358465194702,
      "learning_rate": 7.846881106448781e-05,
      "loss": 0.32625794410705566,
      "memory(GiB)": 70.5,
      "step": 35850,
      "token_acc": 0.9428571428571428,
      "train_speed(iter/s)": 1.454708
    },
    {
      "epoch": 1.5361381260442997,
      "grad_norm": 1.9700125455856323,
      "learning_rate": 7.846327841448771e-05,
      "loss": 0.23868610858917236,
      "memory(GiB)": 70.5,
      "step": 35855,
      "token_acc": 0.944078947368421,
      "train_speed(iter/s)": 1.45471
    },
    {
      "epoch": 1.5363523413735487,
      "grad_norm": 4.818068027496338,
      "learning_rate": 7.84577452488486e-05,
      "loss": 0.41489486694335936,
      "memory(GiB)": 70.5,
      "step": 35860,
      "token_acc": 0.889261744966443,
      "train_speed(iter/s)": 1.454712
    },
    {
      "epoch": 1.5365665567027977,
      "grad_norm": 2.347099542617798,
      "learning_rate": 7.845221156767076e-05,
      "loss": 0.15153591632843016,
      "memory(GiB)": 70.5,
      "step": 35865,
      "token_acc": 0.9576547231270358,
      "train_speed(iter/s)": 1.454724
    },
    {
      "epoch": 1.5367807720320465,
      "grad_norm": 2.6575143337249756,
      "learning_rate": 7.84466773710544e-05,
      "loss": 0.36276266574859617,
      "memory(GiB)": 70.5,
      "step": 35870,
      "token_acc": 0.9178571428571428,
      "train_speed(iter/s)": 1.45472
    },
    {
      "epoch": 1.5369949873612956,
      "grad_norm": 2.7446796894073486,
      "learning_rate": 7.844114265909979e-05,
      "loss": 0.5376415729522706,
      "memory(GiB)": 70.5,
      "step": 35875,
      "token_acc": 0.8936170212765957,
      "train_speed(iter/s)": 1.454725
    },
    {
      "epoch": 1.5372092026905446,
      "grad_norm": 0.6968674659729004,
      "learning_rate": 7.843560743190721e-05,
      "loss": 0.3510243892669678,
      "memory(GiB)": 70.5,
      "step": 35880,
      "token_acc": 0.9366666666666666,
      "train_speed(iter/s)": 1.454744
    },
    {
      "epoch": 1.5374234180197934,
      "grad_norm": 3.253208875656128,
      "learning_rate": 7.843007168957693e-05,
      "loss": 0.2683022737503052,
      "memory(GiB)": 70.5,
      "step": 35885,
      "token_acc": 0.9383561643835616,
      "train_speed(iter/s)": 1.454738
    },
    {
      "epoch": 1.5376376333490425,
      "grad_norm": 5.895941734313965,
      "learning_rate": 7.842453543220924e-05,
      "loss": 0.6346344470977783,
      "memory(GiB)": 70.5,
      "step": 35890,
      "token_acc": 0.8547008547008547,
      "train_speed(iter/s)": 1.45476
    },
    {
      "epoch": 1.5378518486782915,
      "grad_norm": 4.327568054199219,
      "learning_rate": 7.841899865990441e-05,
      "loss": 0.4758888244628906,
      "memory(GiB)": 70.5,
      "step": 35895,
      "token_acc": 0.9219653179190751,
      "train_speed(iter/s)": 1.454773
    },
    {
      "epoch": 1.5380660640075403,
      "grad_norm": 3.3087432384490967,
      "learning_rate": 7.841346137276276e-05,
      "loss": 0.27228970527648927,
      "memory(GiB)": 70.5,
      "step": 35900,
      "token_acc": 0.9243697478991597,
      "train_speed(iter/s)": 1.454767
    },
    {
      "epoch": 1.5382802793367893,
      "grad_norm": 0.46942636370658875,
      "learning_rate": 7.84079235708846e-05,
      "loss": 0.23606908321380615,
      "memory(GiB)": 70.5,
      "step": 35905,
      "token_acc": 0.9405940594059405,
      "train_speed(iter/s)": 1.454769
    },
    {
      "epoch": 1.5384944946660384,
      "grad_norm": 2.974081516265869,
      "learning_rate": 7.840238525437027e-05,
      "loss": 0.36043787002563477,
      "memory(GiB)": 70.5,
      "step": 35910,
      "token_acc": 0.9079497907949791,
      "train_speed(iter/s)": 1.454764
    },
    {
      "epoch": 1.5387087099952872,
      "grad_norm": 3.7242274284362793,
      "learning_rate": 7.839684642332008e-05,
      "loss": 0.3619387626647949,
      "memory(GiB)": 70.5,
      "step": 35915,
      "token_acc": 0.9054545454545454,
      "train_speed(iter/s)": 1.454757
    },
    {
      "epoch": 1.5389229253245362,
      "grad_norm": 0.4083687365055084,
      "learning_rate": 7.839130707783438e-05,
      "loss": 0.21530675888061523,
      "memory(GiB)": 70.5,
      "step": 35920,
      "token_acc": 0.952076677316294,
      "train_speed(iter/s)": 1.454761
    },
    {
      "epoch": 1.5391371406537853,
      "grad_norm": 6.69803524017334,
      "learning_rate": 7.838576721801351e-05,
      "loss": 0.38328778743743896,
      "memory(GiB)": 70.5,
      "step": 35925,
      "token_acc": 0.9405594405594405,
      "train_speed(iter/s)": 1.454758
    },
    {
      "epoch": 1.539351355983034,
      "grad_norm": 5.55518102645874,
      "learning_rate": 7.838022684395786e-05,
      "loss": 0.18129570484161378,
      "memory(GiB)": 70.5,
      "step": 35930,
      "token_acc": 0.9597069597069597,
      "train_speed(iter/s)": 1.454779
    },
    {
      "epoch": 1.539565571312283,
      "grad_norm": 1.131928563117981,
      "learning_rate": 7.837468595576777e-05,
      "loss": 0.3629601001739502,
      "memory(GiB)": 70.5,
      "step": 35935,
      "token_acc": 0.9272151898734177,
      "train_speed(iter/s)": 1.45478
    },
    {
      "epoch": 1.5397797866415321,
      "grad_norm": 2.2748425006866455,
      "learning_rate": 7.836914455354362e-05,
      "loss": 0.4428565979003906,
      "memory(GiB)": 70.5,
      "step": 35940,
      "token_acc": 0.896551724137931,
      "train_speed(iter/s)": 1.454775
    },
    {
      "epoch": 1.539994001970781,
      "grad_norm": 1.4993411302566528,
      "learning_rate": 7.83636026373858e-05,
      "loss": 0.5685799598693848,
      "memory(GiB)": 70.5,
      "step": 35945,
      "token_acc": 0.906832298136646,
      "train_speed(iter/s)": 1.454782
    },
    {
      "epoch": 1.54020821730003,
      "grad_norm": 3.3303754329681396,
      "learning_rate": 7.835806020739472e-05,
      "loss": 0.3156765937805176,
      "memory(GiB)": 70.5,
      "step": 35950,
      "token_acc": 0.9330985915492958,
      "train_speed(iter/s)": 1.454806
    },
    {
      "epoch": 1.540422432629279,
      "grad_norm": 7.6702494621276855,
      "learning_rate": 7.835251726367078e-05,
      "loss": 0.4070268630981445,
      "memory(GiB)": 70.5,
      "step": 35955,
      "token_acc": 0.9181034482758621,
      "train_speed(iter/s)": 1.454821
    },
    {
      "epoch": 1.5406366479585278,
      "grad_norm": 3.7111363410949707,
      "learning_rate": 7.834697380631438e-05,
      "loss": 0.27619335651397703,
      "memory(GiB)": 70.5,
      "step": 35960,
      "token_acc": 0.9329073482428115,
      "train_speed(iter/s)": 1.45483
    },
    {
      "epoch": 1.5408508632877769,
      "grad_norm": 0.3124500811100006,
      "learning_rate": 7.834142983542597e-05,
      "loss": 0.4045262336730957,
      "memory(GiB)": 70.5,
      "step": 35965,
      "token_acc": 0.8952380952380953,
      "train_speed(iter/s)": 1.454851
    },
    {
      "epoch": 1.541065078617026,
      "grad_norm": 3.3677101135253906,
      "learning_rate": 7.833588535110597e-05,
      "loss": 0.3124194622039795,
      "memory(GiB)": 70.5,
      "step": 35970,
      "token_acc": 0.9205020920502092,
      "train_speed(iter/s)": 1.45485
    },
    {
      "epoch": 1.5412792939462747,
      "grad_norm": 4.6144819259643555,
      "learning_rate": 7.833034035345483e-05,
      "loss": 0.6550428867340088,
      "memory(GiB)": 70.5,
      "step": 35975,
      "token_acc": 0.8615384615384616,
      "train_speed(iter/s)": 1.454849
    },
    {
      "epoch": 1.5414935092755238,
      "grad_norm": 3.0141894817352295,
      "learning_rate": 7.832479484257298e-05,
      "loss": 0.3450296878814697,
      "memory(GiB)": 70.5,
      "step": 35980,
      "token_acc": 0.9245901639344263,
      "train_speed(iter/s)": 1.454857
    },
    {
      "epoch": 1.5417077246047728,
      "grad_norm": 2.9122722148895264,
      "learning_rate": 7.831924881856092e-05,
      "loss": 0.3575387477874756,
      "memory(GiB)": 70.5,
      "step": 35985,
      "token_acc": 0.9292307692307692,
      "train_speed(iter/s)": 1.45484
    },
    {
      "epoch": 1.5419219399340216,
      "grad_norm": 3.3025293350219727,
      "learning_rate": 7.831370228151909e-05,
      "loss": 0.3050563812255859,
      "memory(GiB)": 70.5,
      "step": 35990,
      "token_acc": 0.9458483754512635,
      "train_speed(iter/s)": 1.454869
    },
    {
      "epoch": 1.5421361552632706,
      "grad_norm": 2.133110284805298,
      "learning_rate": 7.830815523154799e-05,
      "loss": 0.35400824546813964,
      "memory(GiB)": 70.5,
      "step": 35995,
      "token_acc": 0.9343283582089552,
      "train_speed(iter/s)": 1.454899
    },
    {
      "epoch": 1.5423503705925197,
      "grad_norm": 5.6972880363464355,
      "learning_rate": 7.83026076687481e-05,
      "loss": 0.4009350299835205,
      "memory(GiB)": 70.5,
      "step": 36000,
      "token_acc": 0.8861209964412812,
      "train_speed(iter/s)": 1.454904
    },
    {
      "epoch": 1.5423503705925197,
      "eval_loss": 2.6697757244110107,
      "eval_runtime": 13.9267,
      "eval_samples_per_second": 7.18,
      "eval_steps_per_second": 7.18,
      "eval_token_acc": 0.427307206068268,
      "step": 36000
    },
    {
      "epoch": 1.5425645859217685,
      "grad_norm": 5.239740371704102,
      "learning_rate": 7.829705959321993e-05,
      "loss": 0.5152445793151855,
      "memory(GiB)": 70.5,
      "step": 36005,
      "token_acc": 0.5663716814159292,
      "train_speed(iter/s)": 1.454014
    },
    {
      "epoch": 1.5427788012510175,
      "grad_norm": 2.935922145843506,
      "learning_rate": 7.829151100506396e-05,
      "loss": 0.3559565544128418,
      "memory(GiB)": 70.5,
      "step": 36010,
      "token_acc": 0.9037037037037037,
      "train_speed(iter/s)": 1.454014
    },
    {
      "epoch": 1.5429930165802666,
      "grad_norm": 9.57572078704834,
      "learning_rate": 7.828596190438075e-05,
      "loss": 0.3869513511657715,
      "memory(GiB)": 70.5,
      "step": 36015,
      "token_acc": 0.9042145593869731,
      "train_speed(iter/s)": 1.45406
    },
    {
      "epoch": 1.5432072319095154,
      "grad_norm": 9.264183044433594,
      "learning_rate": 7.828041229127079e-05,
      "loss": 0.24991273880004883,
      "memory(GiB)": 70.5,
      "step": 36020,
      "token_acc": 0.9385113268608414,
      "train_speed(iter/s)": 1.454082
    },
    {
      "epoch": 1.5434214472387644,
      "grad_norm": 1.2252815961837769,
      "learning_rate": 7.827486216583465e-05,
      "loss": 0.43653383255004885,
      "memory(GiB)": 70.5,
      "step": 36025,
      "token_acc": 0.9030303030303031,
      "train_speed(iter/s)": 1.454079
    },
    {
      "epoch": 1.5436356625680134,
      "grad_norm": 0.5626189112663269,
      "learning_rate": 7.826931152817283e-05,
      "loss": 0.10504354238510132,
      "memory(GiB)": 70.5,
      "step": 36030,
      "token_acc": 0.958041958041958,
      "train_speed(iter/s)": 1.454092
    },
    {
      "epoch": 1.5438498778972622,
      "grad_norm": 5.1091814041137695,
      "learning_rate": 7.826376037838594e-05,
      "loss": 0.28080196380615235,
      "memory(GiB)": 70.5,
      "step": 36035,
      "token_acc": 0.9341317365269461,
      "train_speed(iter/s)": 1.454103
    },
    {
      "epoch": 1.5440640932265113,
      "grad_norm": 4.632138252258301,
      "learning_rate": 7.82582087165745e-05,
      "loss": 0.6149715900421142,
      "memory(GiB)": 70.5,
      "step": 36040,
      "token_acc": 0.8557377049180328,
      "train_speed(iter/s)": 1.454124
    },
    {
      "epoch": 1.5442783085557603,
      "grad_norm": 4.848214149475098,
      "learning_rate": 7.82526565428391e-05,
      "loss": 0.487932014465332,
      "memory(GiB)": 70.5,
      "step": 36045,
      "token_acc": 0.915129151291513,
      "train_speed(iter/s)": 1.454126
    },
    {
      "epoch": 1.5444925238850091,
      "grad_norm": 4.0383501052856445,
      "learning_rate": 7.824710385728033e-05,
      "loss": 0.44413051605224607,
      "memory(GiB)": 70.5,
      "step": 36050,
      "token_acc": 0.910828025477707,
      "train_speed(iter/s)": 1.45412
    },
    {
      "epoch": 1.5447067392142582,
      "grad_norm": 14.12353801727295,
      "learning_rate": 7.824155065999879e-05,
      "loss": 0.6255293846130371,
      "memory(GiB)": 70.5,
      "step": 36055,
      "token_acc": 0.8659420289855072,
      "train_speed(iter/s)": 1.454141
    },
    {
      "epoch": 1.5449209545435072,
      "grad_norm": 1.7216993570327759,
      "learning_rate": 7.823599695109504e-05,
      "loss": 0.5278702735900879,
      "memory(GiB)": 70.5,
      "step": 36060,
      "token_acc": 0.8808664259927798,
      "train_speed(iter/s)": 1.454142
    },
    {
      "epoch": 1.545135169872756,
      "grad_norm": 7.22850227355957,
      "learning_rate": 7.823044273066975e-05,
      "loss": 0.7018226146697998,
      "memory(GiB)": 70.5,
      "step": 36065,
      "token_acc": 0.8295454545454546,
      "train_speed(iter/s)": 1.454156
    },
    {
      "epoch": 1.545349385202005,
      "grad_norm": 2.6711509227752686,
      "learning_rate": 7.822488799882348e-05,
      "loss": 0.3063040256500244,
      "memory(GiB)": 70.5,
      "step": 36070,
      "token_acc": 0.9400630914826499,
      "train_speed(iter/s)": 1.45416
    },
    {
      "epoch": 1.545563600531254,
      "grad_norm": 2.268249988555908,
      "learning_rate": 7.821933275565691e-05,
      "loss": 0.4234921455383301,
      "memory(GiB)": 70.5,
      "step": 36075,
      "token_acc": 0.9216300940438872,
      "train_speed(iter/s)": 1.454154
    },
    {
      "epoch": 1.545777815860503,
      "grad_norm": 4.090318202972412,
      "learning_rate": 7.821377700127063e-05,
      "loss": 0.5019046306610108,
      "memory(GiB)": 70.5,
      "step": 36080,
      "token_acc": 0.8857142857142857,
      "train_speed(iter/s)": 1.454152
    },
    {
      "epoch": 1.545992031189752,
      "grad_norm": 2.2411880493164062,
      "learning_rate": 7.820822073576534e-05,
      "loss": 0.2503363847732544,
      "memory(GiB)": 70.5,
      "step": 36085,
      "token_acc": 0.9363636363636364,
      "train_speed(iter/s)": 1.454138
    },
    {
      "epoch": 1.546206246519001,
      "grad_norm": 4.749850273132324,
      "learning_rate": 7.820266395924164e-05,
      "loss": 0.40471768379211426,
      "memory(GiB)": 70.5,
      "step": 36090,
      "token_acc": 0.9328859060402684,
      "train_speed(iter/s)": 1.454136
    },
    {
      "epoch": 1.5464204618482498,
      "grad_norm": 2.7579171657562256,
      "learning_rate": 7.819710667180024e-05,
      "loss": 0.2979117870330811,
      "memory(GiB)": 70.5,
      "step": 36095,
      "token_acc": 0.937888198757764,
      "train_speed(iter/s)": 1.454134
    },
    {
      "epoch": 1.5466346771774988,
      "grad_norm": 3.797621250152588,
      "learning_rate": 7.819154887354182e-05,
      "loss": 0.47805142402648926,
      "memory(GiB)": 70.5,
      "step": 36100,
      "token_acc": 0.8960244648318043,
      "train_speed(iter/s)": 1.454127
    },
    {
      "epoch": 1.5468488925067478,
      "grad_norm": 4.037912845611572,
      "learning_rate": 7.818599056456701e-05,
      "loss": 0.3473518371582031,
      "memory(GiB)": 70.5,
      "step": 36105,
      "token_acc": 0.9166666666666666,
      "train_speed(iter/s)": 1.454172
    },
    {
      "epoch": 1.5470631078359967,
      "grad_norm": 2.621657371520996,
      "learning_rate": 7.818043174497656e-05,
      "loss": 0.5513715744018555,
      "memory(GiB)": 70.5,
      "step": 36110,
      "token_acc": 0.8926174496644296,
      "train_speed(iter/s)": 1.454177
    },
    {
      "epoch": 1.5472773231652457,
      "grad_norm": 5.324483871459961,
      "learning_rate": 7.817487241487115e-05,
      "loss": 0.5657027721405029,
      "memory(GiB)": 70.5,
      "step": 36115,
      "token_acc": 0.8989547038327527,
      "train_speed(iter/s)": 1.454205
    },
    {
      "epoch": 1.5474915384944947,
      "grad_norm": 3.4712021350860596,
      "learning_rate": 7.816931257435151e-05,
      "loss": 0.4774474143981934,
      "memory(GiB)": 70.5,
      "step": 36120,
      "token_acc": 0.9191919191919192,
      "train_speed(iter/s)": 1.454207
    },
    {
      "epoch": 1.5477057538237435,
      "grad_norm": 5.096844673156738,
      "learning_rate": 7.816375222351833e-05,
      "loss": 0.46150927543640136,
      "memory(GiB)": 70.5,
      "step": 36125,
      "token_acc": 0.9302325581395349,
      "train_speed(iter/s)": 1.454225
    },
    {
      "epoch": 1.5479199691529926,
      "grad_norm": 2.1582937240600586,
      "learning_rate": 7.815819136247238e-05,
      "loss": 0.17468669414520263,
      "memory(GiB)": 70.5,
      "step": 36130,
      "token_acc": 0.946031746031746,
      "train_speed(iter/s)": 1.454226
    },
    {
      "epoch": 1.5481341844822416,
      "grad_norm": 2.23860764503479,
      "learning_rate": 7.815262999131436e-05,
      "loss": 0.26679871082305906,
      "memory(GiB)": 70.5,
      "step": 36135,
      "token_acc": 0.9471830985915493,
      "train_speed(iter/s)": 1.454231
    },
    {
      "epoch": 1.5483483998114904,
      "grad_norm": 2.96530818939209,
      "learning_rate": 7.814706811014504e-05,
      "loss": 0.7650543689727783,
      "memory(GiB)": 70.5,
      "step": 36140,
      "token_acc": 0.8554216867469879,
      "train_speed(iter/s)": 1.45424
    },
    {
      "epoch": 1.5485626151407395,
      "grad_norm": 1.6170456409454346,
      "learning_rate": 7.814150571906517e-05,
      "loss": 0.40576887130737305,
      "memory(GiB)": 70.5,
      "step": 36145,
      "token_acc": 0.9006622516556292,
      "train_speed(iter/s)": 1.454248
    },
    {
      "epoch": 1.5487768304699885,
      "grad_norm": 4.57145357131958,
      "learning_rate": 7.813594281817555e-05,
      "loss": 0.24271225929260254,
      "memory(GiB)": 70.5,
      "step": 36150,
      "token_acc": 0.928030303030303,
      "train_speed(iter/s)": 1.454259
    },
    {
      "epoch": 1.5489910457992373,
      "grad_norm": 4.674867630004883,
      "learning_rate": 7.813037940757692e-05,
      "loss": 0.6397357940673828,
      "memory(GiB)": 70.5,
      "step": 36155,
      "token_acc": 0.8721311475409836,
      "train_speed(iter/s)": 1.454255
    },
    {
      "epoch": 1.5492052611284863,
      "grad_norm": 3.404175043106079,
      "learning_rate": 7.812481548737007e-05,
      "loss": 0.5701194763183594,
      "memory(GiB)": 70.5,
      "step": 36160,
      "token_acc": 0.8803680981595092,
      "train_speed(iter/s)": 1.45426
    },
    {
      "epoch": 1.5494194764577354,
      "grad_norm": 2.87174391746521,
      "learning_rate": 7.811925105765581e-05,
      "loss": 0.43214855194091795,
      "memory(GiB)": 70.5,
      "step": 36165,
      "token_acc": 0.9265536723163842,
      "train_speed(iter/s)": 1.454262
    },
    {
      "epoch": 1.5496336917869842,
      "grad_norm": 8.763022422790527,
      "learning_rate": 7.811368611853493e-05,
      "loss": 0.3442173957824707,
      "memory(GiB)": 70.5,
      "step": 36170,
      "token_acc": 0.9180327868852459,
      "train_speed(iter/s)": 1.454262
    },
    {
      "epoch": 1.5498479071162332,
      "grad_norm": 6.462432861328125,
      "learning_rate": 7.810812067010827e-05,
      "loss": 0.47447566986083983,
      "memory(GiB)": 70.5,
      "step": 36175,
      "token_acc": 0.8904109589041096,
      "train_speed(iter/s)": 1.454283
    },
    {
      "epoch": 1.5500621224454822,
      "grad_norm": 4.167203426361084,
      "learning_rate": 7.810255471247663e-05,
      "loss": 0.6184118270874024,
      "memory(GiB)": 70.5,
      "step": 36180,
      "token_acc": 0.853035143769968,
      "train_speed(iter/s)": 1.454294
    },
    {
      "epoch": 1.550276337774731,
      "grad_norm": 2.9044504165649414,
      "learning_rate": 7.809698824574085e-05,
      "loss": 0.4331668853759766,
      "memory(GiB)": 70.5,
      "step": 36185,
      "token_acc": 0.9081967213114754,
      "train_speed(iter/s)": 1.454294
    },
    {
      "epoch": 1.55049055310398,
      "grad_norm": 2.5598108768463135,
      "learning_rate": 7.809142127000176e-05,
      "loss": 0.393706226348877,
      "memory(GiB)": 70.5,
      "step": 36190,
      "token_acc": 0.9002932551319648,
      "train_speed(iter/s)": 1.454289
    },
    {
      "epoch": 1.5507047684332291,
      "grad_norm": 2.5497894287109375,
      "learning_rate": 7.808585378536024e-05,
      "loss": 0.8420129776000976,
      "memory(GiB)": 70.5,
      "step": 36195,
      "token_acc": 0.839541547277937,
      "train_speed(iter/s)": 1.45431
    },
    {
      "epoch": 1.550918983762478,
      "grad_norm": 2.6351492404937744,
      "learning_rate": 7.808028579191711e-05,
      "loss": 0.44678621292114257,
      "memory(GiB)": 70.5,
      "step": 36200,
      "token_acc": 0.8882521489971347,
      "train_speed(iter/s)": 1.454322
    },
    {
      "epoch": 1.551133199091727,
      "grad_norm": 3.8940088748931885,
      "learning_rate": 7.807471728977327e-05,
      "loss": 0.3911684513092041,
      "memory(GiB)": 70.5,
      "step": 36205,
      "token_acc": 0.9157509157509157,
      "train_speed(iter/s)": 1.454319
    },
    {
      "epoch": 1.551347414420976,
      "grad_norm": 1.2570109367370605,
      "learning_rate": 7.80691482790296e-05,
      "loss": 0.29116158485412597,
      "memory(GiB)": 70.5,
      "step": 36210,
      "token_acc": 0.9522388059701492,
      "train_speed(iter/s)": 1.454338
    },
    {
      "epoch": 1.5515616297502248,
      "grad_norm": 3.4537084102630615,
      "learning_rate": 7.806357875978698e-05,
      "loss": 0.5447785377502441,
      "memory(GiB)": 70.5,
      "step": 36215,
      "token_acc": 0.9097222222222222,
      "train_speed(iter/s)": 1.454348
    },
    {
      "epoch": 1.5517758450794739,
      "grad_norm": 3.8484201431274414,
      "learning_rate": 7.805800873214628e-05,
      "loss": 0.4511068820953369,
      "memory(GiB)": 70.5,
      "step": 36220,
      "token_acc": 0.9238410596026491,
      "train_speed(iter/s)": 1.454356
    },
    {
      "epoch": 1.551990060408723,
      "grad_norm": 2.7567474842071533,
      "learning_rate": 7.805243819620845e-05,
      "loss": 0.3805284261703491,
      "memory(GiB)": 70.5,
      "step": 36225,
      "token_acc": 0.9317269076305221,
      "train_speed(iter/s)": 1.454361
    },
    {
      "epoch": 1.5522042757379717,
      "grad_norm": 3.567854642868042,
      "learning_rate": 7.80468671520744e-05,
      "loss": 0.5062446117401123,
      "memory(GiB)": 70.5,
      "step": 36230,
      "token_acc": 0.9333333333333333,
      "train_speed(iter/s)": 1.454372
    },
    {
      "epoch": 1.5524184910672207,
      "grad_norm": 4.975484848022461,
      "learning_rate": 7.804129559984501e-05,
      "loss": 0.4080010414123535,
      "memory(GiB)": 70.5,
      "step": 36235,
      "token_acc": 0.9285714285714286,
      "train_speed(iter/s)": 1.454371
    },
    {
      "epoch": 1.5526327063964698,
      "grad_norm": 3.11242938041687,
      "learning_rate": 7.803572353962126e-05,
      "loss": 0.43349604606628417,
      "memory(GiB)": 70.5,
      "step": 36240,
      "token_acc": 0.9144981412639405,
      "train_speed(iter/s)": 1.454369
    },
    {
      "epoch": 1.5528469217257186,
      "grad_norm": 1.9767661094665527,
      "learning_rate": 7.80301509715041e-05,
      "loss": 0.17776111364364625,
      "memory(GiB)": 70.5,
      "step": 36245,
      "token_acc": 0.9697986577181208,
      "train_speed(iter/s)": 1.454368
    },
    {
      "epoch": 1.5530611370549676,
      "grad_norm": 3.5211634635925293,
      "learning_rate": 7.802457789559443e-05,
      "loss": 0.41927084922790525,
      "memory(GiB)": 70.5,
      "step": 36250,
      "token_acc": 0.9016949152542373,
      "train_speed(iter/s)": 1.454399
    },
    {
      "epoch": 1.5532753523842167,
      "grad_norm": 4.1401214599609375,
      "learning_rate": 7.801900431199325e-05,
      "loss": 0.416552734375,
      "memory(GiB)": 70.5,
      "step": 36255,
      "token_acc": 0.9135802469135802,
      "train_speed(iter/s)": 1.454391
    },
    {
      "epoch": 1.5534895677134655,
      "grad_norm": 3.116847038269043,
      "learning_rate": 7.801343022080152e-05,
      "loss": 0.3938605546951294,
      "memory(GiB)": 70.5,
      "step": 36260,
      "token_acc": 0.932475884244373,
      "train_speed(iter/s)": 1.454396
    },
    {
      "epoch": 1.5537037830427145,
      "grad_norm": 3.276296615600586,
      "learning_rate": 7.800785562212025e-05,
      "loss": 0.3343381881713867,
      "memory(GiB)": 70.5,
      "step": 36265,
      "token_acc": 0.931899641577061,
      "train_speed(iter/s)": 1.454398
    },
    {
      "epoch": 1.5539179983719635,
      "grad_norm": 3.8224740028381348,
      "learning_rate": 7.800228051605036e-05,
      "loss": 0.23956751823425293,
      "memory(GiB)": 70.5,
      "step": 36270,
      "token_acc": 0.9442508710801394,
      "train_speed(iter/s)": 1.454392
    },
    {
      "epoch": 1.5541322137012124,
      "grad_norm": 1.5373085737228394,
      "learning_rate": 7.799670490269291e-05,
      "loss": 0.40029587745666506,
      "memory(GiB)": 70.5,
      "step": 36275,
      "token_acc": 0.9051094890510949,
      "train_speed(iter/s)": 1.454439
    },
    {
      "epoch": 1.5543464290304614,
      "grad_norm": 3.5768401622772217,
      "learning_rate": 7.799112878214889e-05,
      "loss": 0.3137021064758301,
      "memory(GiB)": 70.5,
      "step": 36280,
      "token_acc": 0.9260700389105059,
      "train_speed(iter/s)": 1.454439
    },
    {
      "epoch": 1.5545606443597104,
      "grad_norm": 3.3509116172790527,
      "learning_rate": 7.798555215451932e-05,
      "loss": 0.5813887596130372,
      "memory(GiB)": 70.5,
      "step": 36285,
      "token_acc": 0.8816793893129771,
      "train_speed(iter/s)": 1.454437
    },
    {
      "epoch": 1.5547748596889592,
      "grad_norm": 3.4941985607147217,
      "learning_rate": 7.797997501990522e-05,
      "loss": 0.36936259269714355,
      "memory(GiB)": 70.5,
      "step": 36290,
      "token_acc": 0.922360248447205,
      "train_speed(iter/s)": 1.454453
    },
    {
      "epoch": 1.5549890750182083,
      "grad_norm": 2.1556644439697266,
      "learning_rate": 7.797439737840761e-05,
      "loss": 0.2528573751449585,
      "memory(GiB)": 70.5,
      "step": 36295,
      "token_acc": 0.9418604651162791,
      "train_speed(iter/s)": 1.454474
    },
    {
      "epoch": 1.5552032903474573,
      "grad_norm": 2.60627818107605,
      "learning_rate": 7.796881923012755e-05,
      "loss": 0.32078597545623777,
      "memory(GiB)": 70.5,
      "step": 36300,
      "token_acc": 0.9236641221374046,
      "train_speed(iter/s)": 1.454478
    },
    {
      "epoch": 1.5554175056767061,
      "grad_norm": 1.8509081602096558,
      "learning_rate": 7.796324057516611e-05,
      "loss": 0.27310791015625,
      "memory(GiB)": 70.5,
      "step": 36305,
      "token_acc": 0.945859872611465,
      "train_speed(iter/s)": 1.454476
    },
    {
      "epoch": 1.5556317210059551,
      "grad_norm": 4.919260501861572,
      "learning_rate": 7.795766141362432e-05,
      "loss": 0.4655631065368652,
      "memory(GiB)": 70.5,
      "step": 36310,
      "token_acc": 0.9076923076923077,
      "train_speed(iter/s)": 1.45449
    },
    {
      "epoch": 1.5558459363352042,
      "grad_norm": 2.4618003368377686,
      "learning_rate": 7.795208174560326e-05,
      "loss": 0.3608003377914429,
      "memory(GiB)": 70.5,
      "step": 36315,
      "token_acc": 0.9058441558441559,
      "train_speed(iter/s)": 1.454499
    },
    {
      "epoch": 1.556060151664453,
      "grad_norm": 1.4996848106384277,
      "learning_rate": 7.794650157120405e-05,
      "loss": 0.42133469581604005,
      "memory(GiB)": 70.5,
      "step": 36320,
      "token_acc": 0.9058823529411765,
      "train_speed(iter/s)": 1.454494
    },
    {
      "epoch": 1.556274366993702,
      "grad_norm": 4.420621395111084,
      "learning_rate": 7.794092089052774e-05,
      "loss": 0.43471298217773435,
      "memory(GiB)": 70.5,
      "step": 36325,
      "token_acc": 0.9111111111111111,
      "train_speed(iter/s)": 1.454495
    },
    {
      "epoch": 1.556488582322951,
      "grad_norm": 0.7371699810028076,
      "learning_rate": 7.793533970367542e-05,
      "loss": 0.311870813369751,
      "memory(GiB)": 70.5,
      "step": 36330,
      "token_acc": 0.9377049180327869,
      "train_speed(iter/s)": 1.454519
    },
    {
      "epoch": 1.5567027976521999,
      "grad_norm": 2.631833076477051,
      "learning_rate": 7.792975801074822e-05,
      "loss": 0.4421239852905273,
      "memory(GiB)": 70.5,
      "step": 36335,
      "token_acc": 0.9087947882736156,
      "train_speed(iter/s)": 1.454525
    },
    {
      "epoch": 1.556917012981449,
      "grad_norm": 0.8346519470214844,
      "learning_rate": 7.792417581184725e-05,
      "loss": 0.3035343885421753,
      "memory(GiB)": 70.5,
      "step": 36340,
      "token_acc": 0.9452054794520548,
      "train_speed(iter/s)": 1.454535
    },
    {
      "epoch": 1.557131228310698,
      "grad_norm": 2.0706257820129395,
      "learning_rate": 7.791859310707366e-05,
      "loss": 0.43399686813354493,
      "memory(GiB)": 70.5,
      "step": 36345,
      "token_acc": 0.9147540983606557,
      "train_speed(iter/s)": 1.454552
    },
    {
      "epoch": 1.5573454436399468,
      "grad_norm": 3.8850839138031006,
      "learning_rate": 7.791300989652853e-05,
      "loss": 0.558219051361084,
      "memory(GiB)": 70.5,
      "step": 36350,
      "token_acc": 0.8923611111111112,
      "train_speed(iter/s)": 1.454551
    },
    {
      "epoch": 1.5575596589691958,
      "grad_norm": 3.017068386077881,
      "learning_rate": 7.790742618031307e-05,
      "loss": 0.2758305072784424,
      "memory(GiB)": 70.5,
      "step": 36355,
      "token_acc": 0.9510204081632653,
      "train_speed(iter/s)": 1.454556
    },
    {
      "epoch": 1.5577738742984448,
      "grad_norm": 1.3091943264007568,
      "learning_rate": 7.79018419585284e-05,
      "loss": 0.535820198059082,
      "memory(GiB)": 70.5,
      "step": 36360,
      "token_acc": 0.889261744966443,
      "train_speed(iter/s)": 1.454554
    },
    {
      "epoch": 1.5579880896276936,
      "grad_norm": 0.874298632144928,
      "learning_rate": 7.78962572312757e-05,
      "loss": 0.3848033666610718,
      "memory(GiB)": 70.5,
      "step": 36365,
      "token_acc": 0.9064516129032258,
      "train_speed(iter/s)": 1.454556
    },
    {
      "epoch": 1.5582023049569427,
      "grad_norm": 6.296496868133545,
      "learning_rate": 7.78906719986561e-05,
      "loss": 0.5448535919189453,
      "memory(GiB)": 70.5,
      "step": 36370,
      "token_acc": 0.8993288590604027,
      "train_speed(iter/s)": 1.454554
    },
    {
      "epoch": 1.5584165202861917,
      "grad_norm": 2.8890931606292725,
      "learning_rate": 7.788508626077084e-05,
      "loss": 0.41826977729797366,
      "memory(GiB)": 70.5,
      "step": 36375,
      "token_acc": 0.896414342629482,
      "train_speed(iter/s)": 1.454562
    },
    {
      "epoch": 1.5586307356154405,
      "grad_norm": 4.405234336853027,
      "learning_rate": 7.787950001772108e-05,
      "loss": 0.6959373950958252,
      "memory(GiB)": 70.5,
      "step": 36380,
      "token_acc": 0.8740740740740741,
      "train_speed(iter/s)": 1.454607
    },
    {
      "epoch": 1.5588449509446896,
      "grad_norm": 5.102669715881348,
      "learning_rate": 7.7873913269608e-05,
      "loss": 0.6946154117584229,
      "memory(GiB)": 70.5,
      "step": 36385,
      "token_acc": 0.8426573426573427,
      "train_speed(iter/s)": 1.454602
    },
    {
      "epoch": 1.5590591662739386,
      "grad_norm": 13.7695894241333,
      "learning_rate": 7.786832601653287e-05,
      "loss": 0.6742988586425781,
      "memory(GiB)": 70.5,
      "step": 36390,
      "token_acc": 0.8419452887537994,
      "train_speed(iter/s)": 1.454617
    },
    {
      "epoch": 1.5592733816031874,
      "grad_norm": 1.6646808385849,
      "learning_rate": 7.786273825859684e-05,
      "loss": 0.2737318515777588,
      "memory(GiB)": 70.5,
      "step": 36395,
      "token_acc": 0.9470198675496688,
      "train_speed(iter/s)": 1.454617
    },
    {
      "epoch": 1.5594875969324364,
      "grad_norm": 0.9568140506744385,
      "learning_rate": 7.78571499959012e-05,
      "loss": 0.33028061389923097,
      "memory(GiB)": 70.5,
      "step": 36400,
      "token_acc": 0.9154929577464789,
      "train_speed(iter/s)": 1.454615
    },
    {
      "epoch": 1.5597018122616855,
      "grad_norm": 2.8860816955566406,
      "learning_rate": 7.785156122854713e-05,
      "loss": 0.4498604774475098,
      "memory(GiB)": 70.5,
      "step": 36405,
      "token_acc": 0.8928571428571429,
      "train_speed(iter/s)": 1.454637
    },
    {
      "epoch": 1.5599160275909343,
      "grad_norm": 3.583556652069092,
      "learning_rate": 7.784597195663593e-05,
      "loss": 0.2724164485931396,
      "memory(GiB)": 70.5,
      "step": 36410,
      "token_acc": 0.9340659340659341,
      "train_speed(iter/s)": 1.454639
    },
    {
      "epoch": 1.5601302429201833,
      "grad_norm": 5.97880744934082,
      "learning_rate": 7.78403821802688e-05,
      "loss": 0.5229710578918457,
      "memory(GiB)": 70.5,
      "step": 36415,
      "token_acc": 0.8996655518394648,
      "train_speed(iter/s)": 1.454649
    },
    {
      "epoch": 1.5603444582494324,
      "grad_norm": 3.830686092376709,
      "learning_rate": 7.783479189954704e-05,
      "loss": 0.3746919631958008,
      "memory(GiB)": 70.5,
      "step": 36420,
      "token_acc": 0.9166666666666666,
      "train_speed(iter/s)": 1.454677
    },
    {
      "epoch": 1.5605586735786812,
      "grad_norm": 5.155292987823486,
      "learning_rate": 7.78292011145719e-05,
      "loss": 0.6791773319244385,
      "memory(GiB)": 70.5,
      "step": 36425,
      "token_acc": 0.8635014836795252,
      "train_speed(iter/s)": 1.454682
    },
    {
      "epoch": 1.5607728889079302,
      "grad_norm": 2.1027987003326416,
      "learning_rate": 7.782360982544469e-05,
      "loss": 0.14515501260757446,
      "memory(GiB)": 70.5,
      "step": 36430,
      "token_acc": 0.967032967032967,
      "train_speed(iter/s)": 1.454691
    },
    {
      "epoch": 1.5609871042371792,
      "grad_norm": 5.071035385131836,
      "learning_rate": 7.781801803226669e-05,
      "loss": 0.5013799667358398,
      "memory(GiB)": 70.5,
      "step": 36435,
      "token_acc": 0.9063545150501672,
      "train_speed(iter/s)": 1.454701
    },
    {
      "epoch": 1.561201319566428,
      "grad_norm": 3.096414804458618,
      "learning_rate": 7.781242573513918e-05,
      "loss": 0.19520857334136962,
      "memory(GiB)": 70.5,
      "step": 36440,
      "token_acc": 0.940959409594096,
      "train_speed(iter/s)": 1.454716
    },
    {
      "epoch": 1.561415534895677,
      "grad_norm": 3.6122395992279053,
      "learning_rate": 7.780683293416352e-05,
      "loss": 0.4689614295959473,
      "memory(GiB)": 70.5,
      "step": 36445,
      "token_acc": 0.9198473282442748,
      "train_speed(iter/s)": 1.454713
    },
    {
      "epoch": 1.5616297502249261,
      "grad_norm": 4.255952835083008,
      "learning_rate": 7.780123962944097e-05,
      "loss": 0.6169033050537109,
      "memory(GiB)": 70.5,
      "step": 36450,
      "token_acc": 0.8631578947368421,
      "train_speed(iter/s)": 1.454727
    },
    {
      "epoch": 1.561843965554175,
      "grad_norm": 0.5142369270324707,
      "learning_rate": 7.779564582107289e-05,
      "loss": 0.3948946237564087,
      "memory(GiB)": 70.5,
      "step": 36455,
      "token_acc": 0.9197080291970803,
      "train_speed(iter/s)": 1.454746
    },
    {
      "epoch": 1.562058180883424,
      "grad_norm": 5.285428047180176,
      "learning_rate": 7.779005150916061e-05,
      "loss": 0.4597489833831787,
      "memory(GiB)": 70.5,
      "step": 36460,
      "token_acc": 0.9087719298245615,
      "train_speed(iter/s)": 1.45476
    },
    {
      "epoch": 1.562272396212673,
      "grad_norm": 2.782583713531494,
      "learning_rate": 7.778445669380548e-05,
      "loss": 0.39028382301330566,
      "memory(GiB)": 70.5,
      "step": 36465,
      "token_acc": 0.9254237288135593,
      "train_speed(iter/s)": 1.454764
    },
    {
      "epoch": 1.5624866115419218,
      "grad_norm": 1.5237678289413452,
      "learning_rate": 7.777886137510885e-05,
      "loss": 0.3997316598892212,
      "memory(GiB)": 70.5,
      "step": 36470,
      "token_acc": 0.9177215189873418,
      "train_speed(iter/s)": 1.454756
    },
    {
      "epoch": 1.562700826871171,
      "grad_norm": 0.9177229404449463,
      "learning_rate": 7.777326555317209e-05,
      "loss": 0.16102582216262817,
      "memory(GiB)": 70.5,
      "step": 36475,
      "token_acc": 0.9531772575250836,
      "train_speed(iter/s)": 1.454765
    },
    {
      "epoch": 1.5629150422004199,
      "grad_norm": 2.8454699516296387,
      "learning_rate": 7.776766922809658e-05,
      "loss": 0.3524693489074707,
      "memory(GiB)": 70.5,
      "step": 36480,
      "token_acc": 0.9261744966442953,
      "train_speed(iter/s)": 1.454761
    },
    {
      "epoch": 1.5631292575296687,
      "grad_norm": 0.19773553311824799,
      "learning_rate": 7.776207239998368e-05,
      "loss": 0.35891284942626955,
      "memory(GiB)": 70.5,
      "step": 36485,
      "token_acc": 0.9185667752442996,
      "train_speed(iter/s)": 1.454792
    },
    {
      "epoch": 1.563343472858918,
      "grad_norm": 2.6666691303253174,
      "learning_rate": 7.775647506893481e-05,
      "loss": 0.21894803047180175,
      "memory(GiB)": 70.5,
      "step": 36490,
      "token_acc": 0.9504950495049505,
      "train_speed(iter/s)": 1.4548
    },
    {
      "epoch": 1.5635576881881668,
      "grad_norm": 4.044371128082275,
      "learning_rate": 7.775087723505133e-05,
      "loss": 0.2720160007476807,
      "memory(GiB)": 70.5,
      "step": 36495,
      "token_acc": 0.9554655870445344,
      "train_speed(iter/s)": 1.454807
    },
    {
      "epoch": 1.5637719035174156,
      "grad_norm": 2.738236427307129,
      "learning_rate": 7.774527889843471e-05,
      "loss": 0.155863356590271,
      "memory(GiB)": 70.5,
      "step": 36500,
      "token_acc": 0.9596273291925466,
      "train_speed(iter/s)": 1.454808
    },
    {
      "epoch": 1.5637719035174156,
      "eval_loss": 2.5543763637542725,
      "eval_runtime": 12.8001,
      "eval_samples_per_second": 7.812,
      "eval_steps_per_second": 7.812,
      "eval_token_acc": 0.42052023121387283,
      "step": 36500
    },
    {
      "epoch": 1.5639861188466648,
      "grad_norm": 4.420803546905518,
      "learning_rate": 7.773968005918631e-05,
      "loss": 0.3197226047515869,
      "memory(GiB)": 70.5,
      "step": 36505,
      "token_acc": 0.5788423153692615,
      "train_speed(iter/s)": 1.454006
    },
    {
      "epoch": 1.5642003341759136,
      "grad_norm": 3.495655059814453,
      "learning_rate": 7.77340807174076e-05,
      "loss": 0.5543100357055664,
      "memory(GiB)": 70.5,
      "step": 36510,
      "token_acc": 0.8943894389438944,
      "train_speed(iter/s)": 1.453997
    },
    {
      "epoch": 1.5644145495051625,
      "grad_norm": 4.529973983764648,
      "learning_rate": 7.77284808732e-05,
      "loss": 0.6035037040710449,
      "memory(GiB)": 70.5,
      "step": 36515,
      "token_acc": 0.8835616438356164,
      "train_speed(iter/s)": 1.454008
    },
    {
      "epoch": 1.5646287648344117,
      "grad_norm": 2.9526963233947754,
      "learning_rate": 7.772288052666494e-05,
      "loss": 0.2590616464614868,
      "memory(GiB)": 70.5,
      "step": 36520,
      "token_acc": 0.940983606557377,
      "train_speed(iter/s)": 1.454015
    },
    {
      "epoch": 1.5648429801636605,
      "grad_norm": 0.8661471605300903,
      "learning_rate": 7.771727967790393e-05,
      "loss": 0.37381136417388916,
      "memory(GiB)": 70.5,
      "step": 36525,
      "token_acc": 0.9035369774919614,
      "train_speed(iter/s)": 1.454036
    },
    {
      "epoch": 1.5650571954929093,
      "grad_norm": 2.957026958465576,
      "learning_rate": 7.771167832701835e-05,
      "loss": 0.4842185974121094,
      "memory(GiB)": 70.5,
      "step": 36530,
      "token_acc": 0.8885135135135135,
      "train_speed(iter/s)": 1.454033
    },
    {
      "epoch": 1.5652714108221586,
      "grad_norm": 4.008723258972168,
      "learning_rate": 7.770607647410975e-05,
      "loss": 0.281404447555542,
      "memory(GiB)": 70.5,
      "step": 36535,
      "token_acc": 0.9420289855072463,
      "train_speed(iter/s)": 1.454028
    },
    {
      "epoch": 1.5654856261514074,
      "grad_norm": 2.701366662979126,
      "learning_rate": 7.770047411927958e-05,
      "loss": 0.21988861560821532,
      "memory(GiB)": 70.5,
      "step": 36540,
      "token_acc": 0.9529411764705882,
      "train_speed(iter/s)": 1.454026
    },
    {
      "epoch": 1.5656998414806562,
      "grad_norm": 3.523251533508301,
      "learning_rate": 7.769487126262934e-05,
      "loss": 0.42205057144165037,
      "memory(GiB)": 70.5,
      "step": 36545,
      "token_acc": 0.9159663865546218,
      "train_speed(iter/s)": 1.454026
    },
    {
      "epoch": 1.5659140568099055,
      "grad_norm": 3.467878580093384,
      "learning_rate": 7.768926790426052e-05,
      "loss": 0.36420636177062987,
      "memory(GiB)": 70.5,
      "step": 36550,
      "token_acc": 0.9121621621621622,
      "train_speed(iter/s)": 1.454029
    },
    {
      "epoch": 1.5661282721391543,
      "grad_norm": 1.4716466665267944,
      "learning_rate": 7.768366404427464e-05,
      "loss": 0.32560033798217775,
      "memory(GiB)": 70.5,
      "step": 36555,
      "token_acc": 0.9253731343283582,
      "train_speed(iter/s)": 1.454048
    },
    {
      "epoch": 1.566342487468403,
      "grad_norm": 2.346137762069702,
      "learning_rate": 7.767805968277322e-05,
      "loss": 0.33389060497283934,
      "memory(GiB)": 70.5,
      "step": 36560,
      "token_acc": 0.9287749287749287,
      "train_speed(iter/s)": 1.454056
    },
    {
      "epoch": 1.5665567027976524,
      "grad_norm": 2.5806424617767334,
      "learning_rate": 7.767245481985777e-05,
      "loss": 0.4736124038696289,
      "memory(GiB)": 70.5,
      "step": 36565,
      "token_acc": 0.8970099667774086,
      "train_speed(iter/s)": 1.454053
    },
    {
      "epoch": 1.5667709181269012,
      "grad_norm": 3.8582937717437744,
      "learning_rate": 7.766684945562986e-05,
      "loss": 0.4689964771270752,
      "memory(GiB)": 70.5,
      "step": 36570,
      "token_acc": 0.9147540983606557,
      "train_speed(iter/s)": 1.454053
    },
    {
      "epoch": 1.56698513345615,
      "grad_norm": 1.568804383277893,
      "learning_rate": 7.7661243590191e-05,
      "loss": 0.27380564212799074,
      "memory(GiB)": 70.5,
      "step": 36575,
      "token_acc": 0.934984520123839,
      "train_speed(iter/s)": 1.454051
    },
    {
      "epoch": 1.5671993487853992,
      "grad_norm": 5.017545223236084,
      "learning_rate": 7.765563722364278e-05,
      "loss": 0.5468060970306396,
      "memory(GiB)": 70.5,
      "step": 36580,
      "token_acc": 0.8903225806451613,
      "train_speed(iter/s)": 1.45405
    },
    {
      "epoch": 1.567413564114648,
      "grad_norm": 1.9472720623016357,
      "learning_rate": 7.765003035608676e-05,
      "loss": 0.7502296924591064,
      "memory(GiB)": 70.5,
      "step": 36585,
      "token_acc": 0.8401162790697675,
      "train_speed(iter/s)": 1.454079
    },
    {
      "epoch": 1.5676277794438969,
      "grad_norm": 2.047034740447998,
      "learning_rate": 7.764442298762448e-05,
      "loss": 0.2969480514526367,
      "memory(GiB)": 70.5,
      "step": 36590,
      "token_acc": 0.9384057971014492,
      "train_speed(iter/s)": 1.454106
    },
    {
      "epoch": 1.5678419947731461,
      "grad_norm": 4.170193672180176,
      "learning_rate": 7.763881511835754e-05,
      "loss": 0.36360821723937986,
      "memory(GiB)": 70.5,
      "step": 36595,
      "token_acc": 0.9137380191693291,
      "train_speed(iter/s)": 1.454132
    },
    {
      "epoch": 1.568056210102395,
      "grad_norm": 3.6162683963775635,
      "learning_rate": 7.763320674838756e-05,
      "loss": 0.7616177558898926,
      "memory(GiB)": 70.5,
      "step": 36600,
      "token_acc": 0.839041095890411,
      "train_speed(iter/s)": 1.454134
    },
    {
      "epoch": 1.5682704254316437,
      "grad_norm": 4.194642066955566,
      "learning_rate": 7.76275978778161e-05,
      "loss": 0.3937236785888672,
      "memory(GiB)": 70.5,
      "step": 36605,
      "token_acc": 0.8838709677419355,
      "train_speed(iter/s)": 1.454135
    },
    {
      "epoch": 1.568484640760893,
      "grad_norm": 4.089443206787109,
      "learning_rate": 7.762198850674478e-05,
      "loss": 0.33149266242980957,
      "memory(GiB)": 70.5,
      "step": 36610,
      "token_acc": 0.9352750809061489,
      "train_speed(iter/s)": 1.454118
    },
    {
      "epoch": 1.5686988560901418,
      "grad_norm": 2.996403694152832,
      "learning_rate": 7.761637863527524e-05,
      "loss": 0.45551071166992185,
      "memory(GiB)": 70.5,
      "step": 36615,
      "token_acc": 0.9038461538461539,
      "train_speed(iter/s)": 1.454122
    },
    {
      "epoch": 1.5689130714193906,
      "grad_norm": 1.3688077926635742,
      "learning_rate": 7.761076826350911e-05,
      "loss": 0.18887970447540284,
      "memory(GiB)": 70.5,
      "step": 36620,
      "token_acc": 0.9608433734939759,
      "train_speed(iter/s)": 1.454126
    },
    {
      "epoch": 1.5691272867486399,
      "grad_norm": 3.3028149604797363,
      "learning_rate": 7.760515739154798e-05,
      "loss": 0.43480720520019533,
      "memory(GiB)": 70.5,
      "step": 36625,
      "token_acc": 0.9073482428115016,
      "train_speed(iter/s)": 1.454157
    },
    {
      "epoch": 1.5693415020778887,
      "grad_norm": 4.979658126831055,
      "learning_rate": 7.759954601949355e-05,
      "loss": 0.6113897323608398,
      "memory(GiB)": 70.5,
      "step": 36630,
      "token_acc": 0.8842975206611571,
      "train_speed(iter/s)": 1.454161
    },
    {
      "epoch": 1.5695557174071375,
      "grad_norm": 3.066324234008789,
      "learning_rate": 7.759393414744747e-05,
      "loss": 0.4681064605712891,
      "memory(GiB)": 70.5,
      "step": 36635,
      "token_acc": 0.9111111111111111,
      "train_speed(iter/s)": 1.45417
    },
    {
      "epoch": 1.5697699327363868,
      "grad_norm": 4.284884929656982,
      "learning_rate": 7.758832177551136e-05,
      "loss": 0.3060285568237305,
      "memory(GiB)": 70.5,
      "step": 36640,
      "token_acc": 0.9325842696629213,
      "train_speed(iter/s)": 1.454168
    },
    {
      "epoch": 1.5699841480656356,
      "grad_norm": 1.100051760673523,
      "learning_rate": 7.758270890378691e-05,
      "loss": 0.26844723224639894,
      "memory(GiB)": 70.5,
      "step": 36645,
      "token_acc": 0.9290540540540541,
      "train_speed(iter/s)": 1.454162
    },
    {
      "epoch": 1.5701983633948844,
      "grad_norm": 2.8638267517089844,
      "learning_rate": 7.757709553237584e-05,
      "loss": 0.483125114440918,
      "memory(GiB)": 70.5,
      "step": 36650,
      "token_acc": 0.882943143812709,
      "train_speed(iter/s)": 1.454179
    },
    {
      "epoch": 1.5704125787241336,
      "grad_norm": 0.3367224335670471,
      "learning_rate": 7.757148166137981e-05,
      "loss": 0.12546881437301635,
      "memory(GiB)": 70.5,
      "step": 36655,
      "token_acc": 0.9688715953307393,
      "train_speed(iter/s)": 1.454183
    },
    {
      "epoch": 1.5706267940533825,
      "grad_norm": 1.609082818031311,
      "learning_rate": 7.756586729090052e-05,
      "loss": 0.22737441062927247,
      "memory(GiB)": 70.5,
      "step": 36660,
      "token_acc": 0.9577039274924471,
      "train_speed(iter/s)": 1.454203
    },
    {
      "epoch": 1.5708410093826313,
      "grad_norm": 3.175541400909424,
      "learning_rate": 7.756025242103969e-05,
      "loss": 0.42074995040893554,
      "memory(GiB)": 70.5,
      "step": 36665,
      "token_acc": 0.9041533546325878,
      "train_speed(iter/s)": 1.45419
    },
    {
      "epoch": 1.5710552247118805,
      "grad_norm": 4.515352725982666,
      "learning_rate": 7.755463705189902e-05,
      "loss": 0.38086528778076173,
      "memory(GiB)": 70.5,
      "step": 36670,
      "token_acc": 0.9430604982206405,
      "train_speed(iter/s)": 1.454197
    },
    {
      "epoch": 1.5712694400411293,
      "grad_norm": 4.397727966308594,
      "learning_rate": 7.754902118358027e-05,
      "loss": 0.5132431507110595,
      "memory(GiB)": 70.5,
      "step": 36675,
      "token_acc": 0.8865248226950354,
      "train_speed(iter/s)": 1.4542
    },
    {
      "epoch": 1.5714836553703782,
      "grad_norm": 3.5554099082946777,
      "learning_rate": 7.754340481618514e-05,
      "loss": 0.48854818344116213,
      "memory(GiB)": 70.5,
      "step": 36680,
      "token_acc": 0.9061488673139159,
      "train_speed(iter/s)": 1.454225
    },
    {
      "epoch": 1.5716978706996274,
      "grad_norm": 0.835174024105072,
      "learning_rate": 7.753778794981541e-05,
      "loss": 0.3758122444152832,
      "memory(GiB)": 70.5,
      "step": 36685,
      "token_acc": 0.9103448275862069,
      "train_speed(iter/s)": 1.454269
    },
    {
      "epoch": 1.5719120860288762,
      "grad_norm": 2.2143070697784424,
      "learning_rate": 7.753217058457281e-05,
      "loss": 0.6729938507080078,
      "memory(GiB)": 70.5,
      "step": 36690,
      "token_acc": 0.8771929824561403,
      "train_speed(iter/s)": 1.454291
    },
    {
      "epoch": 1.572126301358125,
      "grad_norm": 5.808877944946289,
      "learning_rate": 7.75265527205591e-05,
      "loss": 0.4284354686737061,
      "memory(GiB)": 70.5,
      "step": 36695,
      "token_acc": 0.928082191780822,
      "train_speed(iter/s)": 1.4543
    },
    {
      "epoch": 1.5723405166873743,
      "grad_norm": 2.8686156272888184,
      "learning_rate": 7.752093435787611e-05,
      "loss": 0.27477684020996096,
      "memory(GiB)": 70.5,
      "step": 36700,
      "token_acc": 0.9433962264150944,
      "train_speed(iter/s)": 1.454326
    },
    {
      "epoch": 1.572554732016623,
      "grad_norm": 2.669867515563965,
      "learning_rate": 7.751531549662553e-05,
      "loss": 0.12873380184173583,
      "memory(GiB)": 70.5,
      "step": 36705,
      "token_acc": 0.9651567944250871,
      "train_speed(iter/s)": 1.454337
    },
    {
      "epoch": 1.572768947345872,
      "grad_norm": 5.601002216339111,
      "learning_rate": 7.750969613690923e-05,
      "loss": 0.46732702255249026,
      "memory(GiB)": 70.5,
      "step": 36710,
      "token_acc": 0.882943143812709,
      "train_speed(iter/s)": 1.454332
    },
    {
      "epoch": 1.5729831626751212,
      "grad_norm": 3.487166404724121,
      "learning_rate": 7.750407627882897e-05,
      "loss": 0.5069211006164551,
      "memory(GiB)": 70.5,
      "step": 36715,
      "token_acc": 0.9032258064516129,
      "train_speed(iter/s)": 1.454347
    },
    {
      "epoch": 1.57319737800437,
      "grad_norm": 2.4968149662017822,
      "learning_rate": 7.749845592248654e-05,
      "loss": 0.22866981029510497,
      "memory(GiB)": 70.5,
      "step": 36720,
      "token_acc": 0.9555555555555556,
      "train_speed(iter/s)": 1.454354
    },
    {
      "epoch": 1.5734115933336188,
      "grad_norm": 6.314023971557617,
      "learning_rate": 7.749283506798382e-05,
      "loss": 0.47907023429870604,
      "memory(GiB)": 70.5,
      "step": 36725,
      "token_acc": 0.8885017421602788,
      "train_speed(iter/s)": 1.45436
    },
    {
      "epoch": 1.573625808662868,
      "grad_norm": 3.5807621479034424,
      "learning_rate": 7.748721371542258e-05,
      "loss": 0.7759534358978272,
      "memory(GiB)": 70.5,
      "step": 36730,
      "token_acc": 0.8373702422145328,
      "train_speed(iter/s)": 1.454365
    },
    {
      "epoch": 1.5738400239921169,
      "grad_norm": 1.5508182048797607,
      "learning_rate": 7.748159186490469e-05,
      "loss": 0.6031177520751954,
      "memory(GiB)": 70.5,
      "step": 36735,
      "token_acc": 0.8932038834951457,
      "train_speed(iter/s)": 1.454393
    },
    {
      "epoch": 1.5740542393213657,
      "grad_norm": 5.0413079261779785,
      "learning_rate": 7.747596951653198e-05,
      "loss": 0.4092289924621582,
      "memory(GiB)": 70.5,
      "step": 36740,
      "token_acc": 0.9155405405405406,
      "train_speed(iter/s)": 1.454395
    },
    {
      "epoch": 1.574268454650615,
      "grad_norm": 9.61226749420166,
      "learning_rate": 7.747034667040632e-05,
      "loss": 0.3099703788757324,
      "memory(GiB)": 70.5,
      "step": 36745,
      "token_acc": 0.9331210191082803,
      "train_speed(iter/s)": 1.454388
    },
    {
      "epoch": 1.5744826699798637,
      "grad_norm": 4.7528557777404785,
      "learning_rate": 7.746472332662955e-05,
      "loss": 0.48466243743896487,
      "memory(GiB)": 70.5,
      "step": 36750,
      "token_acc": 0.8905660377358491,
      "train_speed(iter/s)": 1.454376
    },
    {
      "epoch": 1.5746968853091126,
      "grad_norm": 2.3106472492218018,
      "learning_rate": 7.745909948530355e-05,
      "loss": 0.3965918779373169,
      "memory(GiB)": 70.5,
      "step": 36755,
      "token_acc": 0.9133858267716536,
      "train_speed(iter/s)": 1.45439
    },
    {
      "epoch": 1.5749111006383618,
      "grad_norm": 4.704562664031982,
      "learning_rate": 7.745347514653021e-05,
      "loss": 0.5643089294433594,
      "memory(GiB)": 70.5,
      "step": 36760,
      "token_acc": 0.8926174496644296,
      "train_speed(iter/s)": 1.454394
    },
    {
      "epoch": 1.5751253159676106,
      "grad_norm": 6.662149906158447,
      "learning_rate": 7.74478503104114e-05,
      "loss": 0.4410027027130127,
      "memory(GiB)": 70.5,
      "step": 36765,
      "token_acc": 0.9210526315789473,
      "train_speed(iter/s)": 1.454403
    },
    {
      "epoch": 1.5753395312968594,
      "grad_norm": 1.7428761720657349,
      "learning_rate": 7.744222497704904e-05,
      "loss": 0.26643369197845457,
      "memory(GiB)": 70.5,
      "step": 36770,
      "token_acc": 0.927710843373494,
      "train_speed(iter/s)": 1.454402
    },
    {
      "epoch": 1.5755537466261087,
      "grad_norm": 1.1253341436386108,
      "learning_rate": 7.743659914654504e-05,
      "loss": 0.4179983615875244,
      "memory(GiB)": 70.5,
      "step": 36775,
      "token_acc": 0.9230769230769231,
      "train_speed(iter/s)": 1.454449
    },
    {
      "epoch": 1.5757679619553575,
      "grad_norm": 3.26057505607605,
      "learning_rate": 7.743097281900131e-05,
      "loss": 0.30688393115997314,
      "memory(GiB)": 70.5,
      "step": 36780,
      "token_acc": 0.9316239316239316,
      "train_speed(iter/s)": 1.45445
    },
    {
      "epoch": 1.5759821772846063,
      "grad_norm": 4.82668924331665,
      "learning_rate": 7.742534599451978e-05,
      "loss": 0.4580327033996582,
      "memory(GiB)": 70.5,
      "step": 36785,
      "token_acc": 0.9059561128526645,
      "train_speed(iter/s)": 1.454451
    },
    {
      "epoch": 1.5761963926138556,
      "grad_norm": 8.320390701293945,
      "learning_rate": 7.741971867320237e-05,
      "loss": 0.3194576740264893,
      "memory(GiB)": 70.5,
      "step": 36790,
      "token_acc": 0.9291044776119403,
      "train_speed(iter/s)": 1.454461
    },
    {
      "epoch": 1.5764106079431044,
      "grad_norm": 3.0592775344848633,
      "learning_rate": 7.741409085515103e-05,
      "loss": 0.4348561763763428,
      "memory(GiB)": 70.5,
      "step": 36795,
      "token_acc": 0.9195046439628483,
      "train_speed(iter/s)": 1.454484
    },
    {
      "epoch": 1.5766248232723532,
      "grad_norm": 5.863743305206299,
      "learning_rate": 7.740846254046772e-05,
      "loss": 0.46227273941040037,
      "memory(GiB)": 70.5,
      "step": 36800,
      "token_acc": 0.885558583106267,
      "train_speed(iter/s)": 1.45448
    },
    {
      "epoch": 1.5768390386016025,
      "grad_norm": 3.1722664833068848,
      "learning_rate": 7.74028337292544e-05,
      "loss": 0.3443412780761719,
      "memory(GiB)": 70.5,
      "step": 36805,
      "token_acc": 0.9105691056910569,
      "train_speed(iter/s)": 1.454504
    },
    {
      "epoch": 1.5770532539308513,
      "grad_norm": 2.0868642330169678,
      "learning_rate": 7.739720442161305e-05,
      "loss": 0.3294799566268921,
      "memory(GiB)": 70.5,
      "step": 36810,
      "token_acc": 0.9416666666666667,
      "train_speed(iter/s)": 1.454505
    },
    {
      "epoch": 1.5772674692601003,
      "grad_norm": 2.3819057941436768,
      "learning_rate": 7.739157461764564e-05,
      "loss": 0.3276965618133545,
      "memory(GiB)": 70.5,
      "step": 36815,
      "token_acc": 0.9249146757679181,
      "train_speed(iter/s)": 1.454499
    },
    {
      "epoch": 1.5774816845893493,
      "grad_norm": 2.577277421951294,
      "learning_rate": 7.738594431745415e-05,
      "loss": 0.4886923313140869,
      "memory(GiB)": 70.5,
      "step": 36820,
      "token_acc": 0.9,
      "train_speed(iter/s)": 1.45449
    },
    {
      "epoch": 1.5776958999185982,
      "grad_norm": 2.4339098930358887,
      "learning_rate": 7.738031352114059e-05,
      "loss": 0.29069504737854,
      "memory(GiB)": 70.5,
      "step": 36825,
      "token_acc": 0.9409722222222222,
      "train_speed(iter/s)": 1.454492
    },
    {
      "epoch": 1.5779101152478472,
      "grad_norm": 1.9424128532409668,
      "learning_rate": 7.737468222880697e-05,
      "loss": 0.3784750461578369,
      "memory(GiB)": 70.5,
      "step": 36830,
      "token_acc": 0.9379562043795621,
      "train_speed(iter/s)": 1.454505
    },
    {
      "epoch": 1.5781243305770962,
      "grad_norm": 2.704270601272583,
      "learning_rate": 7.736905044055531e-05,
      "loss": 0.5383882999420166,
      "memory(GiB)": 70.5,
      "step": 36835,
      "token_acc": 0.8810975609756098,
      "train_speed(iter/s)": 1.454507
    },
    {
      "epoch": 1.578338545906345,
      "grad_norm": 2.080890417098999,
      "learning_rate": 7.736341815648761e-05,
      "loss": 0.5548263549804687,
      "memory(GiB)": 70.5,
      "step": 36840,
      "token_acc": 0.8862876254180602,
      "train_speed(iter/s)": 1.454517
    },
    {
      "epoch": 1.578552761235594,
      "grad_norm": 4.558860778808594,
      "learning_rate": 7.735778537670594e-05,
      "loss": 0.23902630805969238,
      "memory(GiB)": 70.5,
      "step": 36845,
      "token_acc": 0.9464882943143813,
      "train_speed(iter/s)": 1.454497
    },
    {
      "epoch": 1.578766976564843,
      "grad_norm": 1.6771494150161743,
      "learning_rate": 7.73521521013123e-05,
      "loss": 0.4006399631500244,
      "memory(GiB)": 70.5,
      "step": 36850,
      "token_acc": 0.9225589225589226,
      "train_speed(iter/s)": 1.454502
    },
    {
      "epoch": 1.578981191894092,
      "grad_norm": 4.552356719970703,
      "learning_rate": 7.734651833040879e-05,
      "loss": 0.5575076103210449,
      "memory(GiB)": 70.5,
      "step": 36855,
      "token_acc": 0.8844765342960289,
      "train_speed(iter/s)": 1.454504
    },
    {
      "epoch": 1.579195407223341,
      "grad_norm": 0.39587974548339844,
      "learning_rate": 7.734088406409744e-05,
      "loss": 0.2517223596572876,
      "memory(GiB)": 70.5,
      "step": 36860,
      "token_acc": 0.9421487603305785,
      "train_speed(iter/s)": 1.454495
    },
    {
      "epoch": 1.57940962255259,
      "grad_norm": 2.313175916671753,
      "learning_rate": 7.733524930248032e-05,
      "loss": 0.37199270725250244,
      "memory(GiB)": 70.5,
      "step": 36865,
      "token_acc": 0.9186046511627907,
      "train_speed(iter/s)": 1.454488
    },
    {
      "epoch": 1.5796238378818388,
      "grad_norm": 5.152317523956299,
      "learning_rate": 7.732961404565953e-05,
      "loss": 0.5372009754180909,
      "memory(GiB)": 70.5,
      "step": 36870,
      "token_acc": 0.8875,
      "train_speed(iter/s)": 1.454515
    },
    {
      "epoch": 1.5798380532110878,
      "grad_norm": 3.4797351360321045,
      "learning_rate": 7.732397829373713e-05,
      "loss": 0.32226197719573973,
      "memory(GiB)": 70.5,
      "step": 36875,
      "token_acc": 0.9276315789473685,
      "train_speed(iter/s)": 1.45451
    },
    {
      "epoch": 1.5800522685403369,
      "grad_norm": 5.358000755310059,
      "learning_rate": 7.731834204681522e-05,
      "loss": 0.45491971969604494,
      "memory(GiB)": 70.5,
      "step": 36880,
      "token_acc": 0.8908450704225352,
      "train_speed(iter/s)": 1.454493
    },
    {
      "epoch": 1.5802664838695857,
      "grad_norm": 1.3006434440612793,
      "learning_rate": 7.731270530499595e-05,
      "loss": 0.3652102708816528,
      "memory(GiB)": 70.5,
      "step": 36885,
      "token_acc": 0.9277456647398844,
      "train_speed(iter/s)": 1.45453
    },
    {
      "epoch": 1.5804806991988347,
      "grad_norm": 3.3118090629577637,
      "learning_rate": 7.73070680683814e-05,
      "loss": 0.28890693187713623,
      "memory(GiB)": 70.5,
      "step": 36890,
      "token_acc": 0.9460431654676259,
      "train_speed(iter/s)": 1.45454
    },
    {
      "epoch": 1.5806949145280837,
      "grad_norm": 7.370466709136963,
      "learning_rate": 7.730143033707367e-05,
      "loss": 0.32303605079650877,
      "memory(GiB)": 70.5,
      "step": 36895,
      "token_acc": 0.9367088607594937,
      "train_speed(iter/s)": 1.454543
    },
    {
      "epoch": 1.5809091298573326,
      "grad_norm": 2.6381149291992188,
      "learning_rate": 7.729579211117492e-05,
      "loss": 0.7614893436431884,
      "memory(GiB)": 70.5,
      "step": 36900,
      "token_acc": 0.8629629629629629,
      "train_speed(iter/s)": 1.454546
    },
    {
      "epoch": 1.5811233451865816,
      "grad_norm": 5.104997634887695,
      "learning_rate": 7.729015339078731e-05,
      "loss": 0.6287915229797363,
      "memory(GiB)": 70.5,
      "step": 36905,
      "token_acc": 0.8643533123028391,
      "train_speed(iter/s)": 1.454538
    },
    {
      "epoch": 1.5813375605158306,
      "grad_norm": 2.2143518924713135,
      "learning_rate": 7.728451417601297e-05,
      "loss": 0.34490416049957273,
      "memory(GiB)": 70.5,
      "step": 36910,
      "token_acc": 0.9388489208633094,
      "train_speed(iter/s)": 1.454537
    },
    {
      "epoch": 1.5815517758450794,
      "grad_norm": 3.0949225425720215,
      "learning_rate": 7.727887446695405e-05,
      "loss": 0.38772077560424806,
      "memory(GiB)": 70.5,
      "step": 36915,
      "token_acc": 0.921146953405018,
      "train_speed(iter/s)": 1.454546
    },
    {
      "epoch": 1.5817659911743285,
      "grad_norm": 2.3842453956604004,
      "learning_rate": 7.727323426371272e-05,
      "loss": 0.4028726577758789,
      "memory(GiB)": 70.5,
      "step": 36920,
      "token_acc": 0.8968253968253969,
      "train_speed(iter/s)": 1.454548
    },
    {
      "epoch": 1.5819802065035775,
      "grad_norm": 3.6364121437072754,
      "learning_rate": 7.726759356639119e-05,
      "loss": 0.4171422004699707,
      "memory(GiB)": 70.5,
      "step": 36925,
      "token_acc": 0.9143835616438356,
      "train_speed(iter/s)": 1.454555
    },
    {
      "epoch": 1.5821944218328263,
      "grad_norm": 1.8620144128799438,
      "learning_rate": 7.726195237509162e-05,
      "loss": 0.249276065826416,
      "memory(GiB)": 70.5,
      "step": 36930,
      "token_acc": 0.9342560553633218,
      "train_speed(iter/s)": 1.454578
    },
    {
      "epoch": 1.5824086371620754,
      "grad_norm": 2.4810047149658203,
      "learning_rate": 7.725631068991618e-05,
      "loss": 0.20338354110717774,
      "memory(GiB)": 70.5,
      "step": 36935,
      "token_acc": 0.9503105590062112,
      "train_speed(iter/s)": 1.454583
    },
    {
      "epoch": 1.5826228524913244,
      "grad_norm": 1.6666045188903809,
      "learning_rate": 7.725066851096714e-05,
      "loss": 0.30616815090179444,
      "memory(GiB)": 70.5,
      "step": 36940,
      "token_acc": 0.9597069597069597,
      "train_speed(iter/s)": 1.454593
    },
    {
      "epoch": 1.5828370678205732,
      "grad_norm": 0.5798658728599548,
      "learning_rate": 7.724502583834665e-05,
      "loss": 0.24896905422210694,
      "memory(GiB)": 70.5,
      "step": 36945,
      "token_acc": 0.9517241379310345,
      "train_speed(iter/s)": 1.454599
    },
    {
      "epoch": 1.5830512831498222,
      "grad_norm": 3.920891761779785,
      "learning_rate": 7.723938267215698e-05,
      "loss": 0.36342692375183105,
      "memory(GiB)": 70.5,
      "step": 36950,
      "token_acc": 0.9228295819935691,
      "train_speed(iter/s)": 1.454614
    },
    {
      "epoch": 1.5832654984790713,
      "grad_norm": 4.433283805847168,
      "learning_rate": 7.723373901250032e-05,
      "loss": 0.3037583827972412,
      "memory(GiB)": 70.5,
      "step": 36955,
      "token_acc": 0.9452554744525548,
      "train_speed(iter/s)": 1.454613
    },
    {
      "epoch": 1.58347971380832,
      "grad_norm": 2.499624013900757,
      "learning_rate": 7.722809485947895e-05,
      "loss": 0.1523704171180725,
      "memory(GiB)": 70.5,
      "step": 36960,
      "token_acc": 0.9652777777777778,
      "train_speed(iter/s)": 1.454659
    },
    {
      "epoch": 1.5836939291375691,
      "grad_norm": 2.7976315021514893,
      "learning_rate": 7.72224502131951e-05,
      "loss": 0.26560053825378416,
      "memory(GiB)": 70.5,
      "step": 36965,
      "token_acc": 0.9375,
      "train_speed(iter/s)": 1.454668
    },
    {
      "epoch": 1.5839081444668182,
      "grad_norm": 3.803255796432495,
      "learning_rate": 7.721680507375102e-05,
      "loss": 0.2537947654724121,
      "memory(GiB)": 70.5,
      "step": 36970,
      "token_acc": 0.930379746835443,
      "train_speed(iter/s)": 1.45468
    },
    {
      "epoch": 1.584122359796067,
      "grad_norm": 2.0332295894622803,
      "learning_rate": 7.721115944124897e-05,
      "loss": 0.4416079521179199,
      "memory(GiB)": 70.5,
      "step": 36975,
      "token_acc": 0.9127272727272727,
      "train_speed(iter/s)": 1.454695
    },
    {
      "epoch": 1.584336575125316,
      "grad_norm": 5.381776332855225,
      "learning_rate": 7.720551331579126e-05,
      "loss": 0.6436289310455322,
      "memory(GiB)": 70.5,
      "step": 36980,
      "token_acc": 0.8707482993197279,
      "train_speed(iter/s)": 1.454703
    },
    {
      "epoch": 1.584550790454565,
      "grad_norm": 1.9788399934768677,
      "learning_rate": 7.719986669748013e-05,
      "loss": 0.2776284694671631,
      "memory(GiB)": 70.5,
      "step": 36985,
      "token_acc": 0.9178571428571428,
      "train_speed(iter/s)": 1.454708
    },
    {
      "epoch": 1.5847650057838139,
      "grad_norm": 1.8548954725265503,
      "learning_rate": 7.719421958641794e-05,
      "loss": 0.4675287246704102,
      "memory(GiB)": 70.5,
      "step": 36990,
      "token_acc": 0.8961937716262975,
      "train_speed(iter/s)": 1.454716
    },
    {
      "epoch": 1.5849792211130629,
      "grad_norm": 2.8586103916168213,
      "learning_rate": 7.718857198270692e-05,
      "loss": 0.16915388107299806,
      "memory(GiB)": 70.5,
      "step": 36995,
      "token_acc": 0.9692307692307692,
      "train_speed(iter/s)": 1.454722
    },
    {
      "epoch": 1.585193436442312,
      "grad_norm": 0.18709133565425873,
      "learning_rate": 7.718292388644943e-05,
      "loss": 0.21957578659057617,
      "memory(GiB)": 70.5,
      "step": 37000,
      "token_acc": 0.9442508710801394,
      "train_speed(iter/s)": 1.454718
    },
    {
      "epoch": 1.585193436442312,
      "eval_loss": 2.5093507766723633,
      "eval_runtime": 13.8314,
      "eval_samples_per_second": 7.23,
      "eval_steps_per_second": 7.23,
      "eval_token_acc": 0.4493333333333333,
      "step": 37000
    },
    {
      "epoch": 1.5854076517715607,
      "grad_norm": 2.6122567653656006,
      "learning_rate": 7.717727529774777e-05,
      "loss": 0.2959511518478394,
      "memory(GiB)": 70.5,
      "step": 37005,
      "token_acc": 0.5853423336547734,
      "train_speed(iter/s)": 1.453879
    },
    {
      "epoch": 1.5856218671008098,
      "grad_norm": 3.06193470954895,
      "learning_rate": 7.717162621670427e-05,
      "loss": 0.5425867080688477,
      "memory(GiB)": 70.5,
      "step": 37010,
      "token_acc": 0.8745519713261649,
      "train_speed(iter/s)": 1.453884
    },
    {
      "epoch": 1.5858360824300588,
      "grad_norm": 2.145775318145752,
      "learning_rate": 7.716597664342127e-05,
      "loss": 0.37511434555053713,
      "memory(GiB)": 70.5,
      "step": 37015,
      "token_acc": 0.9194029850746268,
      "train_speed(iter/s)": 1.45389
    },
    {
      "epoch": 1.5860502977593076,
      "grad_norm": 3.736370325088501,
      "learning_rate": 7.716032657800113e-05,
      "loss": 0.3960052251815796,
      "memory(GiB)": 70.5,
      "step": 37020,
      "token_acc": 0.9133333333333333,
      "train_speed(iter/s)": 1.453924
    },
    {
      "epoch": 1.5862645130885566,
      "grad_norm": 4.411503791809082,
      "learning_rate": 7.715467602054618e-05,
      "loss": 0.5068892955780029,
      "memory(GiB)": 70.5,
      "step": 37025,
      "token_acc": 0.9100719424460432,
      "train_speed(iter/s)": 1.453947
    },
    {
      "epoch": 1.5864787284178057,
      "grad_norm": 2.059856414794922,
      "learning_rate": 7.714902497115881e-05,
      "loss": 0.14202333688735963,
      "memory(GiB)": 70.5,
      "step": 37030,
      "token_acc": 0.9733333333333334,
      "train_speed(iter/s)": 1.453964
    },
    {
      "epoch": 1.5866929437470545,
      "grad_norm": 5.056396961212158,
      "learning_rate": 7.714337342994139e-05,
      "loss": 0.23669066429138183,
      "memory(GiB)": 70.5,
      "step": 37035,
      "token_acc": 0.9546827794561934,
      "train_speed(iter/s)": 1.453992
    },
    {
      "epoch": 1.5869071590763035,
      "grad_norm": 4.887988090515137,
      "learning_rate": 7.71377213969963e-05,
      "loss": 0.37900686264038086,
      "memory(GiB)": 70.5,
      "step": 37040,
      "token_acc": 0.9217687074829932,
      "train_speed(iter/s)": 1.45401
    },
    {
      "epoch": 1.5871213744055526,
      "grad_norm": 6.060805320739746,
      "learning_rate": 7.713206887242592e-05,
      "loss": 0.36185245513916015,
      "memory(GiB)": 70.5,
      "step": 37045,
      "token_acc": 0.9289940828402367,
      "train_speed(iter/s)": 1.454006
    },
    {
      "epoch": 1.5873355897348014,
      "grad_norm": 2.791309118270874,
      "learning_rate": 7.712641585633265e-05,
      "loss": 0.267950177192688,
      "memory(GiB)": 70.5,
      "step": 37050,
      "token_acc": 0.9508771929824561,
      "train_speed(iter/s)": 1.454008
    },
    {
      "epoch": 1.5875498050640504,
      "grad_norm": 3.1183907985687256,
      "learning_rate": 7.712076234881893e-05,
      "loss": 0.176956844329834,
      "memory(GiB)": 70.5,
      "step": 37055,
      "token_acc": 0.9559322033898305,
      "train_speed(iter/s)": 1.454012
    },
    {
      "epoch": 1.5877640203932994,
      "grad_norm": 4.314916610717773,
      "learning_rate": 7.711510834998714e-05,
      "loss": 0.34834673404693606,
      "memory(GiB)": 70.5,
      "step": 37060,
      "token_acc": 0.9138576779026217,
      "train_speed(iter/s)": 1.454007
    },
    {
      "epoch": 1.5879782357225483,
      "grad_norm": 2.7228939533233643,
      "learning_rate": 7.710945385993975e-05,
      "loss": 0.32642488479614257,
      "memory(GiB)": 70.5,
      "step": 37065,
      "token_acc": 0.9285714285714286,
      "train_speed(iter/s)": 1.454016
    },
    {
      "epoch": 1.5881924510517973,
      "grad_norm": 1.983752965927124,
      "learning_rate": 7.710379887877917e-05,
      "loss": 0.4358389854431152,
      "memory(GiB)": 70.5,
      "step": 37070,
      "token_acc": 0.9096774193548387,
      "train_speed(iter/s)": 1.454054
    },
    {
      "epoch": 1.5884066663810463,
      "grad_norm": 2.470871925354004,
      "learning_rate": 7.709814340660784e-05,
      "loss": 0.3816145181655884,
      "memory(GiB)": 70.5,
      "step": 37075,
      "token_acc": 0.9133333333333333,
      "train_speed(iter/s)": 1.454056
    },
    {
      "epoch": 1.5886208817102951,
      "grad_norm": 2.412447452545166,
      "learning_rate": 7.709248744352822e-05,
      "loss": 0.22291176319122313,
      "memory(GiB)": 70.5,
      "step": 37080,
      "token_acc": 0.9531914893617022,
      "train_speed(iter/s)": 1.454054
    },
    {
      "epoch": 1.5888350970395442,
      "grad_norm": 4.94849967956543,
      "learning_rate": 7.708683098964275e-05,
      "loss": 0.4905003547668457,
      "memory(GiB)": 70.5,
      "step": 37085,
      "token_acc": 0.9240924092409241,
      "train_speed(iter/s)": 1.454074
    },
    {
      "epoch": 1.5890493123687932,
      "grad_norm": 3.166104793548584,
      "learning_rate": 7.708117404505397e-05,
      "loss": 0.33607795238494875,
      "memory(GiB)": 70.5,
      "step": 37090,
      "token_acc": 0.9394904458598726,
      "train_speed(iter/s)": 1.454081
    },
    {
      "epoch": 1.589263527698042,
      "grad_norm": 0.1753639280796051,
      "learning_rate": 7.707551660986429e-05,
      "loss": 0.5423746585845948,
      "memory(GiB)": 70.5,
      "step": 37095,
      "token_acc": 0.89419795221843,
      "train_speed(iter/s)": 1.454102
    },
    {
      "epoch": 1.589477743027291,
      "grad_norm": 10.513298034667969,
      "learning_rate": 7.706985868417624e-05,
      "loss": 0.277066707611084,
      "memory(GiB)": 70.5,
      "step": 37100,
      "token_acc": 0.9407894736842105,
      "train_speed(iter/s)": 1.454127
    },
    {
      "epoch": 1.58969195835654,
      "grad_norm": 4.092499256134033,
      "learning_rate": 7.706420026809232e-05,
      "loss": 0.4056910514831543,
      "memory(GiB)": 70.5,
      "step": 37105,
      "token_acc": 0.9078947368421053,
      "train_speed(iter/s)": 1.454125
    },
    {
      "epoch": 1.589906173685789,
      "grad_norm": 3.348649263381958,
      "learning_rate": 7.7058541361715e-05,
      "loss": 0.367364239692688,
      "memory(GiB)": 70.5,
      "step": 37110,
      "token_acc": 0.9409937888198758,
      "train_speed(iter/s)": 1.454125
    },
    {
      "epoch": 1.590120389015038,
      "grad_norm": 1.697424054145813,
      "learning_rate": 7.705288196514682e-05,
      "loss": 0.33192944526672363,
      "memory(GiB)": 70.5,
      "step": 37115,
      "token_acc": 0.9335664335664335,
      "train_speed(iter/s)": 1.454135
    },
    {
      "epoch": 1.590334604344287,
      "grad_norm": 2.2756450176239014,
      "learning_rate": 7.70472220784903e-05,
      "loss": 0.26935040950775146,
      "memory(GiB)": 70.5,
      "step": 37120,
      "token_acc": 0.939297124600639,
      "train_speed(iter/s)": 1.454118
    },
    {
      "epoch": 1.5905488196735358,
      "grad_norm": 6.034268856048584,
      "learning_rate": 7.704156170184801e-05,
      "loss": 0.22858881950378418,
      "memory(GiB)": 70.5,
      "step": 37125,
      "token_acc": 0.9623287671232876,
      "train_speed(iter/s)": 1.454114
    },
    {
      "epoch": 1.5907630350027848,
      "grad_norm": 0.08892310410737991,
      "learning_rate": 7.703590083532244e-05,
      "loss": 0.1931756019592285,
      "memory(GiB)": 70.5,
      "step": 37130,
      "token_acc": 0.9602649006622517,
      "train_speed(iter/s)": 1.454116
    },
    {
      "epoch": 1.5909772503320339,
      "grad_norm": 2.9974923133850098,
      "learning_rate": 7.703023947901618e-05,
      "loss": 0.4670853137969971,
      "memory(GiB)": 70.5,
      "step": 37135,
      "token_acc": 0.8768115942028986,
      "train_speed(iter/s)": 1.454127
    },
    {
      "epoch": 1.5911914656612827,
      "grad_norm": 5.887843608856201,
      "learning_rate": 7.702457763303177e-05,
      "loss": 0.4195298671722412,
      "memory(GiB)": 70.5,
      "step": 37140,
      "token_acc": 0.9314641744548287,
      "train_speed(iter/s)": 1.454146
    },
    {
      "epoch": 1.5914056809905317,
      "grad_norm": 1.0789650678634644,
      "learning_rate": 7.701891529747178e-05,
      "loss": 0.348801326751709,
      "memory(GiB)": 70.5,
      "step": 37145,
      "token_acc": 0.9140127388535032,
      "train_speed(iter/s)": 1.454176
    },
    {
      "epoch": 1.5916198963197807,
      "grad_norm": 2.101348876953125,
      "learning_rate": 7.70132524724388e-05,
      "loss": 0.5561594486236572,
      "memory(GiB)": 70.5,
      "step": 37150,
      "token_acc": 0.8914473684210527,
      "train_speed(iter/s)": 1.454183
    },
    {
      "epoch": 1.5918341116490295,
      "grad_norm": 3.0121443271636963,
      "learning_rate": 7.70075891580354e-05,
      "loss": 0.46001472473144533,
      "memory(GiB)": 70.5,
      "step": 37155,
      "token_acc": 0.8993288590604027,
      "train_speed(iter/s)": 1.454206
    },
    {
      "epoch": 1.5920483269782786,
      "grad_norm": 7.537271022796631,
      "learning_rate": 7.70019253543642e-05,
      "loss": 0.4933182716369629,
      "memory(GiB)": 70.5,
      "step": 37160,
      "token_acc": 0.8901515151515151,
      "train_speed(iter/s)": 1.454203
    },
    {
      "epoch": 1.5922625423075276,
      "grad_norm": 4.990788459777832,
      "learning_rate": 7.699626106152778e-05,
      "loss": 0.5775738716125488,
      "memory(GiB)": 70.5,
      "step": 37165,
      "token_acc": 0.8731343283582089,
      "train_speed(iter/s)": 1.45422
    },
    {
      "epoch": 1.5924767576367764,
      "grad_norm": 3.4840259552001953,
      "learning_rate": 7.699059627962877e-05,
      "loss": 0.29656119346618653,
      "memory(GiB)": 70.5,
      "step": 37170,
      "token_acc": 0.9381443298969072,
      "train_speed(iter/s)": 1.454219
    },
    {
      "epoch": 1.5926909729660255,
      "grad_norm": 5.0967631340026855,
      "learning_rate": 7.698493100876979e-05,
      "loss": 0.27429900169372556,
      "memory(GiB)": 70.5,
      "step": 37175,
      "token_acc": 0.932806324110672,
      "train_speed(iter/s)": 1.45424
    },
    {
      "epoch": 1.5929051882952745,
      "grad_norm": 5.554698467254639,
      "learning_rate": 7.697926524905348e-05,
      "loss": 0.4832024097442627,
      "memory(GiB)": 70.5,
      "step": 37180,
      "token_acc": 0.9042553191489362,
      "train_speed(iter/s)": 1.454261
    },
    {
      "epoch": 1.5931194036245233,
      "grad_norm": 4.62334680557251,
      "learning_rate": 7.697359900058245e-05,
      "loss": 0.4683672904968262,
      "memory(GiB)": 70.5,
      "step": 37185,
      "token_acc": 0.9053627760252366,
      "train_speed(iter/s)": 1.454251
    },
    {
      "epoch": 1.5933336189537723,
      "grad_norm": 1.493914246559143,
      "learning_rate": 7.696793226345939e-05,
      "loss": 0.33725364208221437,
      "memory(GiB)": 70.5,
      "step": 37190,
      "token_acc": 0.9400630914826499,
      "train_speed(iter/s)": 1.454255
    },
    {
      "epoch": 1.5935478342830214,
      "grad_norm": 4.738956451416016,
      "learning_rate": 7.696226503778694e-05,
      "loss": 0.3871596097946167,
      "memory(GiB)": 70.5,
      "step": 37195,
      "token_acc": 0.9051094890510949,
      "train_speed(iter/s)": 1.454256
    },
    {
      "epoch": 1.5937620496122702,
      "grad_norm": 4.814446926116943,
      "learning_rate": 7.695659732366774e-05,
      "loss": 0.38423259258270265,
      "memory(GiB)": 70.5,
      "step": 37200,
      "token_acc": 0.9134948096885813,
      "train_speed(iter/s)": 1.454247
    },
    {
      "epoch": 1.5939762649415192,
      "grad_norm": 2.7234976291656494,
      "learning_rate": 7.695092912120452e-05,
      "loss": 0.37540245056152344,
      "memory(GiB)": 70.5,
      "step": 37205,
      "token_acc": 0.9130434782608695,
      "train_speed(iter/s)": 1.454239
    },
    {
      "epoch": 1.5941904802707683,
      "grad_norm": 0.10289990156888962,
      "learning_rate": 7.694526043049995e-05,
      "loss": 0.27220566272735597,
      "memory(GiB)": 70.5,
      "step": 37210,
      "token_acc": 0.9456521739130435,
      "train_speed(iter/s)": 1.454244
    },
    {
      "epoch": 1.594404695600017,
      "grad_norm": 2.6588332653045654,
      "learning_rate": 7.693959125165666e-05,
      "loss": 0.3108238458633423,
      "memory(GiB)": 70.5,
      "step": 37215,
      "token_acc": 0.9492753623188406,
      "train_speed(iter/s)": 1.454246
    },
    {
      "epoch": 1.594618910929266,
      "grad_norm": 5.351898193359375,
      "learning_rate": 7.693392158477745e-05,
      "loss": 0.43889904022216797,
      "memory(GiB)": 70.5,
      "step": 37220,
      "token_acc": 0.9208860759493671,
      "train_speed(iter/s)": 1.454257
    },
    {
      "epoch": 1.5948331262585151,
      "grad_norm": 2.3978075981140137,
      "learning_rate": 7.692825142996498e-05,
      "loss": 0.45203776359558107,
      "memory(GiB)": 70.5,
      "step": 37225,
      "token_acc": 0.9124087591240876,
      "train_speed(iter/s)": 1.454259
    },
    {
      "epoch": 1.595047341587764,
      "grad_norm": 3.464595079421997,
      "learning_rate": 7.692258078732196e-05,
      "loss": 0.5638110160827636,
      "memory(GiB)": 70.5,
      "step": 37230,
      "token_acc": 0.8742138364779874,
      "train_speed(iter/s)": 1.454266
    },
    {
      "epoch": 1.595261556917013,
      "grad_norm": 5.012094020843506,
      "learning_rate": 7.69169096569511e-05,
      "loss": 0.22778966426849365,
      "memory(GiB)": 70.5,
      "step": 37235,
      "token_acc": 0.9434628975265018,
      "train_speed(iter/s)": 1.454264
    },
    {
      "epoch": 1.595475772246262,
      "grad_norm": 2.4361305236816406,
      "learning_rate": 7.691123803895523e-05,
      "loss": 0.39712700843811033,
      "memory(GiB)": 70.5,
      "step": 37240,
      "token_acc": 0.9262820512820513,
      "train_speed(iter/s)": 1.454269
    },
    {
      "epoch": 1.5956899875755108,
      "grad_norm": 4.067086219787598,
      "learning_rate": 7.6905565933437e-05,
      "loss": 0.5266332149505615,
      "memory(GiB)": 70.5,
      "step": 37245,
      "token_acc": 0.8910505836575876,
      "train_speed(iter/s)": 1.45427
    },
    {
      "epoch": 1.5959042029047599,
      "grad_norm": 1.1261216402053833,
      "learning_rate": 7.689989334049923e-05,
      "loss": 0.32628684043884276,
      "memory(GiB)": 70.5,
      "step": 37250,
      "token_acc": 0.934156378600823,
      "train_speed(iter/s)": 1.454299
    },
    {
      "epoch": 1.596118418234009,
      "grad_norm": 4.933315753936768,
      "learning_rate": 7.689422026024464e-05,
      "loss": 0.40663795471191405,
      "memory(GiB)": 70.5,
      "step": 37255,
      "token_acc": 0.928030303030303,
      "train_speed(iter/s)": 1.454305
    },
    {
      "epoch": 1.5963326335632577,
      "grad_norm": 2.1603317260742188,
      "learning_rate": 7.688854669277604e-05,
      "loss": 0.3903364896774292,
      "memory(GiB)": 70.5,
      "step": 37260,
      "token_acc": 0.9191176470588235,
      "train_speed(iter/s)": 1.45433
    },
    {
      "epoch": 1.5965468488925068,
      "grad_norm": 4.590950012207031,
      "learning_rate": 7.688287263819617e-05,
      "loss": 0.5727517604827881,
      "memory(GiB)": 70.5,
      "step": 37265,
      "token_acc": 0.8938356164383562,
      "train_speed(iter/s)": 1.454363
    },
    {
      "epoch": 1.5967610642217558,
      "grad_norm": 3.752255439758301,
      "learning_rate": 7.687719809660785e-05,
      "loss": 0.5431558609008789,
      "memory(GiB)": 70.5,
      "step": 37270,
      "token_acc": 0.8865979381443299,
      "train_speed(iter/s)": 1.454354
    },
    {
      "epoch": 1.5969752795510046,
      "grad_norm": 3.580660343170166,
      "learning_rate": 7.687152306811388e-05,
      "loss": 0.48426337242126466,
      "memory(GiB)": 70.5,
      "step": 37275,
      "token_acc": 0.895910780669145,
      "train_speed(iter/s)": 1.454345
    },
    {
      "epoch": 1.5971894948802536,
      "grad_norm": 8.552793502807617,
      "learning_rate": 7.686584755281708e-05,
      "loss": 0.3983913421630859,
      "memory(GiB)": 70.5,
      "step": 37280,
      "token_acc": 0.9186046511627907,
      "train_speed(iter/s)": 1.454346
    },
    {
      "epoch": 1.5974037102095027,
      "grad_norm": 3.9192192554473877,
      "learning_rate": 7.686017155082021e-05,
      "loss": 0.44617486000061035,
      "memory(GiB)": 70.5,
      "step": 37285,
      "token_acc": 0.8885017421602788,
      "train_speed(iter/s)": 1.454343
    },
    {
      "epoch": 1.5976179255387515,
      "grad_norm": 2.3547403812408447,
      "learning_rate": 7.685449506222616e-05,
      "loss": 0.32305049896240234,
      "memory(GiB)": 70.5,
      "step": 37290,
      "token_acc": 0.9304029304029304,
      "train_speed(iter/s)": 1.454341
    },
    {
      "epoch": 1.5978321408680005,
      "grad_norm": 0.7786230444908142,
      "learning_rate": 7.684881808713774e-05,
      "loss": 0.28272984027862547,
      "memory(GiB)": 70.5,
      "step": 37295,
      "token_acc": 0.9507042253521126,
      "train_speed(iter/s)": 1.454347
    },
    {
      "epoch": 1.5980463561972496,
      "grad_norm": 6.493716716766357,
      "learning_rate": 7.684314062565779e-05,
      "loss": 0.41569061279296876,
      "memory(GiB)": 70.5,
      "step": 37300,
      "token_acc": 0.9129032258064517,
      "train_speed(iter/s)": 1.454352
    },
    {
      "epoch": 1.5982605715264984,
      "grad_norm": 3.0482430458068848,
      "learning_rate": 7.683746267788916e-05,
      "loss": 0.2121281623840332,
      "memory(GiB)": 70.5,
      "step": 37305,
      "token_acc": 0.9266409266409267,
      "train_speed(iter/s)": 1.454358
    },
    {
      "epoch": 1.5984747868557474,
      "grad_norm": 4.170345306396484,
      "learning_rate": 7.683178424393472e-05,
      "loss": 0.4609241962432861,
      "memory(GiB)": 70.5,
      "step": 37310,
      "token_acc": 0.91015625,
      "train_speed(iter/s)": 1.454362
    },
    {
      "epoch": 1.5986890021849964,
      "grad_norm": 6.205911159515381,
      "learning_rate": 7.682610532389734e-05,
      "loss": 0.343643045425415,
      "memory(GiB)": 70.5,
      "step": 37315,
      "token_acc": 0.9455128205128205,
      "train_speed(iter/s)": 1.454398
    },
    {
      "epoch": 1.5989032175142452,
      "grad_norm": 5.0939178466796875,
      "learning_rate": 7.68204259178799e-05,
      "loss": 0.6013216018676758,
      "memory(GiB)": 70.5,
      "step": 37320,
      "token_acc": 0.8506944444444444,
      "train_speed(iter/s)": 1.454416
    },
    {
      "epoch": 1.5991174328434943,
      "grad_norm": 3.3394062519073486,
      "learning_rate": 7.681474602598529e-05,
      "loss": 0.6271971702575684,
      "memory(GiB)": 70.5,
      "step": 37325,
      "token_acc": 0.8923076923076924,
      "train_speed(iter/s)": 1.454425
    },
    {
      "epoch": 1.5993316481727433,
      "grad_norm": 2.4549131393432617,
      "learning_rate": 7.68090656483164e-05,
      "loss": 0.4400663375854492,
      "memory(GiB)": 70.5,
      "step": 37330,
      "token_acc": 0.9218241042345277,
      "train_speed(iter/s)": 1.45443
    },
    {
      "epoch": 1.5995458635019921,
      "grad_norm": 3.73154878616333,
      "learning_rate": 7.680338478497613e-05,
      "loss": 0.29880218505859374,
      "memory(GiB)": 70.5,
      "step": 37335,
      "token_acc": 0.9294478527607362,
      "train_speed(iter/s)": 1.454427
    },
    {
      "epoch": 1.5997600788312412,
      "grad_norm": 5.750152111053467,
      "learning_rate": 7.679770343606741e-05,
      "loss": 0.35526208877563475,
      "memory(GiB)": 70.5,
      "step": 37340,
      "token_acc": 0.9233576642335767,
      "train_speed(iter/s)": 1.45443
    },
    {
      "epoch": 1.5999742941604902,
      "grad_norm": 4.6616435050964355,
      "learning_rate": 7.679202160169314e-05,
      "loss": 0.4279648780822754,
      "memory(GiB)": 70.5,
      "step": 37345,
      "token_acc": 0.9227799227799228,
      "train_speed(iter/s)": 1.454437
    },
    {
      "epoch": 1.600188509489739,
      "grad_norm": 4.141043663024902,
      "learning_rate": 7.678633928195628e-05,
      "loss": 0.39908905029296876,
      "memory(GiB)": 70.5,
      "step": 37350,
      "token_acc": 0.9316770186335404,
      "train_speed(iter/s)": 1.454439
    },
    {
      "epoch": 1.600402724818988,
      "grad_norm": 5.180839538574219,
      "learning_rate": 7.678065647695975e-05,
      "loss": 0.24632973670959474,
      "memory(GiB)": 70.5,
      "step": 37355,
      "token_acc": 0.9592476489028213,
      "train_speed(iter/s)": 1.454446
    },
    {
      "epoch": 1.600616940148237,
      "grad_norm": 6.219354629516602,
      "learning_rate": 7.67749731868065e-05,
      "loss": 0.27548387050628664,
      "memory(GiB)": 70.5,
      "step": 37360,
      "token_acc": 0.930379746835443,
      "train_speed(iter/s)": 1.454452
    },
    {
      "epoch": 1.600831155477486,
      "grad_norm": 1.9620840549468994,
      "learning_rate": 7.676928941159951e-05,
      "loss": 0.1831890821456909,
      "memory(GiB)": 70.5,
      "step": 37365,
      "token_acc": 0.9739413680781759,
      "train_speed(iter/s)": 1.454451
    },
    {
      "epoch": 1.601045370806735,
      "grad_norm": 5.080473899841309,
      "learning_rate": 7.676360515144172e-05,
      "loss": 0.44533228874206543,
      "memory(GiB)": 70.5,
      "step": 37370,
      "token_acc": 0.9181286549707602,
      "train_speed(iter/s)": 1.454457
    },
    {
      "epoch": 1.601259586135984,
      "grad_norm": 8.502824783325195,
      "learning_rate": 7.675792040643611e-05,
      "loss": 0.4102786064147949,
      "memory(GiB)": 70.5,
      "step": 37375,
      "token_acc": 0.895910780669145,
      "train_speed(iter/s)": 1.454469
    },
    {
      "epoch": 1.6014738014652328,
      "grad_norm": 3.133580446243286,
      "learning_rate": 7.675223517668569e-05,
      "loss": 0.26208689212799074,
      "memory(GiB)": 70.5,
      "step": 37380,
      "token_acc": 0.9533333333333334,
      "train_speed(iter/s)": 1.454492
    },
    {
      "epoch": 1.6016880167944818,
      "grad_norm": 0.38771048188209534,
      "learning_rate": 7.67465494622934e-05,
      "loss": 0.338036036491394,
      "memory(GiB)": 70.5,
      "step": 37385,
      "token_acc": 0.9161290322580645,
      "train_speed(iter/s)": 1.454487
    },
    {
      "epoch": 1.6019022321237308,
      "grad_norm": 7.811864376068115,
      "learning_rate": 7.67408632633623e-05,
      "loss": 0.5765791893005371,
      "memory(GiB)": 70.5,
      "step": 37390,
      "token_acc": 0.89419795221843,
      "train_speed(iter/s)": 1.4545
    },
    {
      "epoch": 1.6021164474529797,
      "grad_norm": 0.1598006933927536,
      "learning_rate": 7.673517657999538e-05,
      "loss": 0.3441760540008545,
      "memory(GiB)": 70.5,
      "step": 37395,
      "token_acc": 0.9418604651162791,
      "train_speed(iter/s)": 1.454516
    },
    {
      "epoch": 1.6023306627822287,
      "grad_norm": 5.082267761230469,
      "learning_rate": 7.672948941229565e-05,
      "loss": 0.3922961950302124,
      "memory(GiB)": 70.5,
      "step": 37400,
      "token_acc": 0.9411764705882353,
      "train_speed(iter/s)": 1.454517
    },
    {
      "epoch": 1.6025448781114777,
      "grad_norm": 5.969120502471924,
      "learning_rate": 7.672380176036615e-05,
      "loss": 0.3394594430923462,
      "memory(GiB)": 70.5,
      "step": 37405,
      "token_acc": 0.9252669039145908,
      "train_speed(iter/s)": 1.454529
    },
    {
      "epoch": 1.6027590934407265,
      "grad_norm": 9.667455673217773,
      "learning_rate": 7.671811362430992e-05,
      "loss": 0.8676422119140625,
      "memory(GiB)": 70.5,
      "step": 37410,
      "token_acc": 0.8,
      "train_speed(iter/s)": 1.454565
    },
    {
      "epoch": 1.6029733087699756,
      "grad_norm": 4.427768707275391,
      "learning_rate": 7.671242500422998e-05,
      "loss": 0.48247947692871096,
      "memory(GiB)": 70.5,
      "step": 37415,
      "token_acc": 0.8968481375358166,
      "train_speed(iter/s)": 1.454582
    },
    {
      "epoch": 1.6031875240992246,
      "grad_norm": 1.385407567024231,
      "learning_rate": 7.670673590022939e-05,
      "loss": 0.3051556825637817,
      "memory(GiB)": 70.5,
      "step": 37420,
      "token_acc": 0.9319727891156463,
      "train_speed(iter/s)": 1.454597
    },
    {
      "epoch": 1.6034017394284734,
      "grad_norm": 3.5645432472229004,
      "learning_rate": 7.670104631241126e-05,
      "loss": 0.3544075727462769,
      "memory(GiB)": 70.5,
      "step": 37425,
      "token_acc": 0.9069767441860465,
      "train_speed(iter/s)": 1.4546
    },
    {
      "epoch": 1.6036159547577225,
      "grad_norm": 0.09369220584630966,
      "learning_rate": 7.66953562408786e-05,
      "loss": 0.22742824554443358,
      "memory(GiB)": 70.5,
      "step": 37430,
      "token_acc": 0.94140625,
      "train_speed(iter/s)": 1.454595
    },
    {
      "epoch": 1.6038301700869715,
      "grad_norm": 3.3523478507995605,
      "learning_rate": 7.668966568573455e-05,
      "loss": 0.44794559478759766,
      "memory(GiB)": 70.5,
      "step": 37435,
      "token_acc": 0.9161073825503355,
      "train_speed(iter/s)": 1.454594
    },
    {
      "epoch": 1.6040443854162203,
      "grad_norm": 5.034569263458252,
      "learning_rate": 7.668397464708214e-05,
      "loss": 0.40445985794067385,
      "memory(GiB)": 70.5,
      "step": 37440,
      "token_acc": 0.9502762430939227,
      "train_speed(iter/s)": 1.454602
    },
    {
      "epoch": 1.6042586007454693,
      "grad_norm": 6.4519243240356445,
      "learning_rate": 7.667828312502452e-05,
      "loss": 0.6108265876770019,
      "memory(GiB)": 70.5,
      "step": 37445,
      "token_acc": 0.8765957446808511,
      "train_speed(iter/s)": 1.454612
    },
    {
      "epoch": 1.6044728160747184,
      "grad_norm": 3.4254605770111084,
      "learning_rate": 7.667259111966476e-05,
      "loss": 0.3674298286437988,
      "memory(GiB)": 70.5,
      "step": 37450,
      "token_acc": 0.9207920792079208,
      "train_speed(iter/s)": 1.454624
    },
    {
      "epoch": 1.6046870314039672,
      "grad_norm": 1.9440044164657593,
      "learning_rate": 7.6666898631106e-05,
      "loss": 0.7334197044372559,
      "memory(GiB)": 70.5,
      "step": 37455,
      "token_acc": 0.8544891640866873,
      "train_speed(iter/s)": 1.454634
    },
    {
      "epoch": 1.6049012467332162,
      "grad_norm": 5.247393608093262,
      "learning_rate": 7.666120565945135e-05,
      "loss": 0.521531629562378,
      "memory(GiB)": 70.5,
      "step": 37460,
      "token_acc": 0.9163763066202091,
      "train_speed(iter/s)": 1.454643
    },
    {
      "epoch": 1.6051154620624652,
      "grad_norm": 2.6927545070648193,
      "learning_rate": 7.665551220480395e-05,
      "loss": 0.20566399097442628,
      "memory(GiB)": 70.5,
      "step": 37465,
      "token_acc": 0.9603960396039604,
      "train_speed(iter/s)": 1.454645
    },
    {
      "epoch": 1.605329677391714,
      "grad_norm": 4.854351997375488,
      "learning_rate": 7.664981826726695e-05,
      "loss": 0.41524429321289064,
      "memory(GiB)": 70.5,
      "step": 37470,
      "token_acc": 0.9273927392739274,
      "train_speed(iter/s)": 1.454634
    },
    {
      "epoch": 1.605543892720963,
      "grad_norm": 0.1138262078166008,
      "learning_rate": 7.664412384694348e-05,
      "loss": 0.37047591209411623,
      "memory(GiB)": 70.5,
      "step": 37475,
      "token_acc": 0.9337979094076655,
      "train_speed(iter/s)": 1.454631
    },
    {
      "epoch": 1.6057581080502121,
      "grad_norm": 4.108814239501953,
      "learning_rate": 7.663842894393672e-05,
      "loss": 0.5383580207824707,
      "memory(GiB)": 70.5,
      "step": 37480,
      "token_acc": 0.8833922261484098,
      "train_speed(iter/s)": 1.454623
    },
    {
      "epoch": 1.605972323379461,
      "grad_norm": 3.2910053730010986,
      "learning_rate": 7.663273355834984e-05,
      "loss": 0.27167391777038574,
      "memory(GiB)": 70.5,
      "step": 37485,
      "token_acc": 0.9482758620689655,
      "train_speed(iter/s)": 1.45462
    },
    {
      "epoch": 1.60618653870871,
      "grad_norm": 3.665292263031006,
      "learning_rate": 7.662703769028599e-05,
      "loss": 0.350124454498291,
      "memory(GiB)": 70.5,
      "step": 37490,
      "token_acc": 0.9206349206349206,
      "train_speed(iter/s)": 1.454638
    },
    {
      "epoch": 1.606400754037959,
      "grad_norm": 3.441387891769409,
      "learning_rate": 7.662134133984838e-05,
      "loss": 0.4553953170776367,
      "memory(GiB)": 70.5,
      "step": 37495,
      "token_acc": 0.8928571428571429,
      "train_speed(iter/s)": 1.454658
    },
    {
      "epoch": 1.6066149693672078,
      "grad_norm": 1.9772539138793945,
      "learning_rate": 7.66156445071402e-05,
      "loss": 0.28888707160949706,
      "memory(GiB)": 70.5,
      "step": 37500,
      "token_acc": 0.9427480916030534,
      "train_speed(iter/s)": 1.454664
    },
    {
      "epoch": 1.6066149693672078,
      "eval_loss": 2.6213738918304443,
      "eval_runtime": 13.2501,
      "eval_samples_per_second": 7.547,
      "eval_steps_per_second": 7.547,
      "eval_token_acc": 0.4352112676056338,
      "step": 37500
    },
    {
      "epoch": 1.6068291846964569,
      "grad_norm": 3.7117514610290527,
      "learning_rate": 7.660994719226464e-05,
      "loss": 0.14478888511657714,
      "memory(GiB)": 70.5,
      "step": 37505,
      "token_acc": 0.5845070422535211,
      "train_speed(iter/s)": 1.45387
    },
    {
      "epoch": 1.607043400025706,
      "grad_norm": 7.208720684051514,
      "learning_rate": 7.660424939532494e-05,
      "loss": 0.5574752807617187,
      "memory(GiB)": 70.5,
      "step": 37510,
      "token_acc": 0.8847457627118644,
      "train_speed(iter/s)": 1.453872
    },
    {
      "epoch": 1.6072576153549547,
      "grad_norm": 2.2574856281280518,
      "learning_rate": 7.65985511164243e-05,
      "loss": 0.5612183570861816,
      "memory(GiB)": 70.5,
      "step": 37515,
      "token_acc": 0.8984962406015038,
      "train_speed(iter/s)": 1.453885
    },
    {
      "epoch": 1.6074718306842037,
      "grad_norm": 3.9117438793182373,
      "learning_rate": 7.659285235566596e-05,
      "loss": 0.41473846435546874,
      "memory(GiB)": 70.5,
      "step": 37520,
      "token_acc": 0.9024390243902439,
      "train_speed(iter/s)": 1.453913
    },
    {
      "epoch": 1.6076860460134528,
      "grad_norm": 5.201493263244629,
      "learning_rate": 7.658715311315314e-05,
      "loss": 0.4456812381744385,
      "memory(GiB)": 70.5,
      "step": 37525,
      "token_acc": 0.9003436426116839,
      "train_speed(iter/s)": 1.453955
    },
    {
      "epoch": 1.6079002613427016,
      "grad_norm": 3.9496724605560303,
      "learning_rate": 7.658145338898912e-05,
      "loss": 0.34386818408966063,
      "memory(GiB)": 70.5,
      "step": 37530,
      "token_acc": 0.9324324324324325,
      "train_speed(iter/s)": 1.453964
    },
    {
      "epoch": 1.6081144766719506,
      "grad_norm": 3.0138895511627197,
      "learning_rate": 7.657575318327712e-05,
      "loss": 0.2972557067871094,
      "memory(GiB)": 70.5,
      "step": 37535,
      "token_acc": 0.9356223175965666,
      "train_speed(iter/s)": 1.453967
    },
    {
      "epoch": 1.6083286920011997,
      "grad_norm": 3.788080930709839,
      "learning_rate": 7.657005249612044e-05,
      "loss": 0.4375565528869629,
      "memory(GiB)": 70.5,
      "step": 37540,
      "token_acc": 0.9053254437869822,
      "train_speed(iter/s)": 1.453976
    },
    {
      "epoch": 1.6085429073304485,
      "grad_norm": 1.9006835222244263,
      "learning_rate": 7.65643513276223e-05,
      "loss": 0.3102485418319702,
      "memory(GiB)": 70.5,
      "step": 37545,
      "token_acc": 0.9138461538461539,
      "train_speed(iter/s)": 1.453978
    },
    {
      "epoch": 1.6087571226596975,
      "grad_norm": 0.6651418209075928,
      "learning_rate": 7.655864967788605e-05,
      "loss": 0.4542214870452881,
      "memory(GiB)": 70.5,
      "step": 37550,
      "token_acc": 0.9019073569482289,
      "train_speed(iter/s)": 1.453971
    },
    {
      "epoch": 1.6089713379889465,
      "grad_norm": 11.028507232666016,
      "learning_rate": 7.655294754701494e-05,
      "loss": 0.40111703872680665,
      "memory(GiB)": 70.5,
      "step": 37555,
      "token_acc": 0.9073033707865169,
      "train_speed(iter/s)": 1.453975
    },
    {
      "epoch": 1.6091855533181953,
      "grad_norm": 5.319486618041992,
      "learning_rate": 7.654724493511227e-05,
      "loss": 0.4236593246459961,
      "memory(GiB)": 70.5,
      "step": 37560,
      "token_acc": 0.9033457249070632,
      "train_speed(iter/s)": 1.453971
    },
    {
      "epoch": 1.6093997686474444,
      "grad_norm": 1.9395896196365356,
      "learning_rate": 7.654154184228137e-05,
      "loss": 0.2471756935119629,
      "memory(GiB)": 70.5,
      "step": 37565,
      "token_acc": 0.9554655870445344,
      "train_speed(iter/s)": 1.453972
    },
    {
      "epoch": 1.6096139839766934,
      "grad_norm": 3.991408109664917,
      "learning_rate": 7.653583826862552e-05,
      "loss": 0.8429314613342285,
      "memory(GiB)": 70.5,
      "step": 37570,
      "token_acc": 0.8159340659340659,
      "train_speed(iter/s)": 1.45398
    },
    {
      "epoch": 1.6098281993059422,
      "grad_norm": 2.3975439071655273,
      "learning_rate": 7.653013421424806e-05,
      "loss": 0.2887016773223877,
      "memory(GiB)": 70.5,
      "step": 37575,
      "token_acc": 0.9323308270676691,
      "train_speed(iter/s)": 1.453976
    },
    {
      "epoch": 1.6100424146351913,
      "grad_norm": 4.1680707931518555,
      "learning_rate": 7.652442967925236e-05,
      "loss": 0.38659398555755614,
      "memory(GiB)": 70.5,
      "step": 37580,
      "token_acc": 0.9137254901960784,
      "train_speed(iter/s)": 1.453961
    },
    {
      "epoch": 1.6102566299644403,
      "grad_norm": 3.391021966934204,
      "learning_rate": 7.651872466374172e-05,
      "loss": 0.31133222579956055,
      "memory(GiB)": 70.5,
      "step": 37585,
      "token_acc": 0.9333333333333333,
      "train_speed(iter/s)": 1.453964
    },
    {
      "epoch": 1.6104708452936891,
      "grad_norm": 1.452420949935913,
      "learning_rate": 7.65130191678195e-05,
      "loss": 0.27758288383483887,
      "memory(GiB)": 70.5,
      "step": 37590,
      "token_acc": 0.9298245614035088,
      "train_speed(iter/s)": 1.453956
    },
    {
      "epoch": 1.6106850606229381,
      "grad_norm": 2.9681694507598877,
      "learning_rate": 7.650731319158908e-05,
      "loss": 0.23826954364776612,
      "memory(GiB)": 70.5,
      "step": 37595,
      "token_acc": 0.9460431654676259,
      "train_speed(iter/s)": 1.453953
    },
    {
      "epoch": 1.6108992759521872,
      "grad_norm": 3.7478830814361572,
      "learning_rate": 7.650160673515381e-05,
      "loss": 0.35993428230285646,
      "memory(GiB)": 70.5,
      "step": 37600,
      "token_acc": 0.9043478260869565,
      "train_speed(iter/s)": 1.453969
    },
    {
      "epoch": 1.611113491281436,
      "grad_norm": 1.8884690999984741,
      "learning_rate": 7.649589979861706e-05,
      "loss": 0.3835011005401611,
      "memory(GiB)": 70.5,
      "step": 37605,
      "token_acc": 0.908284023668639,
      "train_speed(iter/s)": 1.453965
    },
    {
      "epoch": 1.611327706610685,
      "grad_norm": 0.15771430730819702,
      "learning_rate": 7.649019238208226e-05,
      "loss": 0.5206642150878906,
      "memory(GiB)": 70.5,
      "step": 37610,
      "token_acc": 0.8802228412256268,
      "train_speed(iter/s)": 1.453984
    },
    {
      "epoch": 1.611541921939934,
      "grad_norm": 2.891481876373291,
      "learning_rate": 7.648448448565275e-05,
      "loss": 0.3461515188217163,
      "memory(GiB)": 70.5,
      "step": 37615,
      "token_acc": 0.9266666666666666,
      "train_speed(iter/s)": 1.453991
    },
    {
      "epoch": 1.6117561372691829,
      "grad_norm": 2.160290479660034,
      "learning_rate": 7.647877610943197e-05,
      "loss": 0.4433790683746338,
      "memory(GiB)": 70.5,
      "step": 37620,
      "token_acc": 0.9257950530035336,
      "train_speed(iter/s)": 1.454001
    },
    {
      "epoch": 1.611970352598432,
      "grad_norm": 4.0464677810668945,
      "learning_rate": 7.647306725352332e-05,
      "loss": 0.7809590816497802,
      "memory(GiB)": 70.5,
      "step": 37625,
      "token_acc": 0.8501529051987767,
      "train_speed(iter/s)": 1.454002
    },
    {
      "epoch": 1.612184567927681,
      "grad_norm": 5.028346538543701,
      "learning_rate": 7.646735791803024e-05,
      "loss": 0.4439197540283203,
      "memory(GiB)": 70.5,
      "step": 37630,
      "token_acc": 0.9105691056910569,
      "train_speed(iter/s)": 1.454042
    },
    {
      "epoch": 1.6123987832569298,
      "grad_norm": 0.2830718159675598,
      "learning_rate": 7.646164810305611e-05,
      "loss": 0.24535493850708007,
      "memory(GiB)": 70.5,
      "step": 37635,
      "token_acc": 0.9310344827586207,
      "train_speed(iter/s)": 1.454063
    },
    {
      "epoch": 1.6126129985861788,
      "grad_norm": 4.4128098487854,
      "learning_rate": 7.645593780870442e-05,
      "loss": 0.2245401620864868,
      "memory(GiB)": 70.5,
      "step": 37640,
      "token_acc": 0.9403973509933775,
      "train_speed(iter/s)": 1.454063
    },
    {
      "epoch": 1.6128272139154278,
      "grad_norm": 1.551724910736084,
      "learning_rate": 7.645022703507858e-05,
      "loss": 0.2268974542617798,
      "memory(GiB)": 70.5,
      "step": 37645,
      "token_acc": 0.9587628865979382,
      "train_speed(iter/s)": 1.454071
    },
    {
      "epoch": 1.6130414292446766,
      "grad_norm": 2.3517956733703613,
      "learning_rate": 7.64445157822821e-05,
      "loss": 0.3146965026855469,
      "memory(GiB)": 70.5,
      "step": 37650,
      "token_acc": 0.9195402298850575,
      "train_speed(iter/s)": 1.454063
    },
    {
      "epoch": 1.6132556445739257,
      "grad_norm": 3.532388925552368,
      "learning_rate": 7.643880405041838e-05,
      "loss": 0.576822566986084,
      "memory(GiB)": 70.5,
      "step": 37655,
      "token_acc": 0.8976897689768977,
      "train_speed(iter/s)": 1.454067
    },
    {
      "epoch": 1.6134698599031747,
      "grad_norm": 2.6905925273895264,
      "learning_rate": 7.643309183959094e-05,
      "loss": 0.3704824924468994,
      "memory(GiB)": 70.5,
      "step": 37660,
      "token_acc": 0.9148264984227129,
      "train_speed(iter/s)": 1.454072
    },
    {
      "epoch": 1.6136840752324235,
      "grad_norm": 2.3528013229370117,
      "learning_rate": 7.642737914990324e-05,
      "loss": 0.2914103984832764,
      "memory(GiB)": 70.5,
      "step": 37665,
      "token_acc": 0.9498432601880877,
      "train_speed(iter/s)": 1.454075
    },
    {
      "epoch": 1.6138982905616726,
      "grad_norm": 4.881906986236572,
      "learning_rate": 7.642166598145876e-05,
      "loss": 0.4254015922546387,
      "memory(GiB)": 70.5,
      "step": 37670,
      "token_acc": 0.9175627240143369,
      "train_speed(iter/s)": 1.454095
    },
    {
      "epoch": 1.6141125058909216,
      "grad_norm": 4.1083760261535645,
      "learning_rate": 7.641595233436104e-05,
      "loss": 0.5240877628326416,
      "memory(GiB)": 70.5,
      "step": 37675,
      "token_acc": 0.8620689655172413,
      "train_speed(iter/s)": 1.454093
    },
    {
      "epoch": 1.6143267212201704,
      "grad_norm": 2.2683796882629395,
      "learning_rate": 7.641023820871353e-05,
      "loss": 0.36909098625183107,
      "memory(GiB)": 70.5,
      "step": 37680,
      "token_acc": 0.902027027027027,
      "train_speed(iter/s)": 1.454103
    },
    {
      "epoch": 1.6145409365494194,
      "grad_norm": 5.482154846191406,
      "learning_rate": 7.640452360461982e-05,
      "loss": 0.2244722843170166,
      "memory(GiB)": 70.5,
      "step": 37685,
      "token_acc": 0.9567567567567568,
      "train_speed(iter/s)": 1.454094
    },
    {
      "epoch": 1.6147551518786685,
      "grad_norm": 4.067728519439697,
      "learning_rate": 7.639880852218338e-05,
      "loss": 0.7357173442840577,
      "memory(GiB)": 70.5,
      "step": 37690,
      "token_acc": 0.8786885245901639,
      "train_speed(iter/s)": 1.45409
    },
    {
      "epoch": 1.6149693672079173,
      "grad_norm": 0.21969729661941528,
      "learning_rate": 7.639309296150775e-05,
      "loss": 0.2428257703781128,
      "memory(GiB)": 70.5,
      "step": 37695,
      "token_acc": 0.9435215946843853,
      "train_speed(iter/s)": 1.454098
    },
    {
      "epoch": 1.6151835825371663,
      "grad_norm": 2.1986746788024902,
      "learning_rate": 7.638737692269649e-05,
      "loss": 0.331666374206543,
      "memory(GiB)": 70.5,
      "step": 37700,
      "token_acc": 0.9251968503937008,
      "train_speed(iter/s)": 1.454103
    },
    {
      "epoch": 1.6153977978664154,
      "grad_norm": 4.583387851715088,
      "learning_rate": 7.638166040585314e-05,
      "loss": 0.3511821746826172,
      "memory(GiB)": 70.5,
      "step": 37705,
      "token_acc": 0.921146953405018,
      "train_speed(iter/s)": 1.454085
    },
    {
      "epoch": 1.6156120131956642,
      "grad_norm": 4.342747688293457,
      "learning_rate": 7.637594341108127e-05,
      "loss": 0.36246724128723146,
      "memory(GiB)": 70.5,
      "step": 37710,
      "token_acc": 0.9305993690851735,
      "train_speed(iter/s)": 1.454073
    },
    {
      "epoch": 1.6158262285249132,
      "grad_norm": 3.4778549671173096,
      "learning_rate": 7.637022593848444e-05,
      "loss": 0.25449771881103517,
      "memory(GiB)": 70.5,
      "step": 37715,
      "token_acc": 0.9528619528619529,
      "train_speed(iter/s)": 1.454077
    },
    {
      "epoch": 1.6160404438541622,
      "grad_norm": 1.70010244846344,
      "learning_rate": 7.636450798816624e-05,
      "loss": 0.8022019386291503,
      "memory(GiB)": 70.5,
      "step": 37720,
      "token_acc": 0.823170731707317,
      "train_speed(iter/s)": 1.454084
    },
    {
      "epoch": 1.616254659183411,
      "grad_norm": 3.1738128662109375,
      "learning_rate": 7.635878956023023e-05,
      "loss": 0.4699068546295166,
      "memory(GiB)": 70.5,
      "step": 37725,
      "token_acc": 0.9023746701846965,
      "train_speed(iter/s)": 1.45409
    },
    {
      "epoch": 1.61646887451266,
      "grad_norm": 3.142544984817505,
      "learning_rate": 7.635307065478003e-05,
      "loss": 0.6921768665313721,
      "memory(GiB)": 70.5,
      "step": 37730,
      "token_acc": 0.89,
      "train_speed(iter/s)": 1.454089
    },
    {
      "epoch": 1.6166830898419091,
      "grad_norm": 3.6165707111358643,
      "learning_rate": 7.634735127191922e-05,
      "loss": 0.2899024963378906,
      "memory(GiB)": 70.5,
      "step": 37735,
      "token_acc": 0.937984496124031,
      "train_speed(iter/s)": 1.454086
    },
    {
      "epoch": 1.616897305171158,
      "grad_norm": 2.9155468940734863,
      "learning_rate": 7.634163141175144e-05,
      "loss": 0.44092841148376466,
      "memory(GiB)": 70.5,
      "step": 37740,
      "token_acc": 0.9206896551724137,
      "train_speed(iter/s)": 1.454101
    },
    {
      "epoch": 1.617111520500407,
      "grad_norm": 4.961300373077393,
      "learning_rate": 7.633591107438029e-05,
      "loss": 0.5979938983917237,
      "memory(GiB)": 70.5,
      "step": 37745,
      "token_acc": 0.8586206896551725,
      "train_speed(iter/s)": 1.454129
    },
    {
      "epoch": 1.617325735829656,
      "grad_norm": 2.0657103061676025,
      "learning_rate": 7.63301902599094e-05,
      "loss": 0.33704380989074706,
      "memory(GiB)": 70.5,
      "step": 37750,
      "token_acc": 0.9292604501607717,
      "train_speed(iter/s)": 1.454129
    },
    {
      "epoch": 1.6175399511589048,
      "grad_norm": 3.163822650909424,
      "learning_rate": 7.632446896844243e-05,
      "loss": 0.452362585067749,
      "memory(GiB)": 70.5,
      "step": 37755,
      "token_acc": 0.9215017064846417,
      "train_speed(iter/s)": 1.454149
    },
    {
      "epoch": 1.6177541664881538,
      "grad_norm": 0.16533279418945312,
      "learning_rate": 7.631874720008301e-05,
      "loss": 0.28867924213409424,
      "memory(GiB)": 70.5,
      "step": 37760,
      "token_acc": 0.9380530973451328,
      "train_speed(iter/s)": 1.454157
    },
    {
      "epoch": 1.6179683818174029,
      "grad_norm": 4.522668838500977,
      "learning_rate": 7.631302495493478e-05,
      "loss": 0.7350180149078369,
      "memory(GiB)": 70.5,
      "step": 37765,
      "token_acc": 0.8671328671328671,
      "train_speed(iter/s)": 1.454188
    },
    {
      "epoch": 1.6181825971466517,
      "grad_norm": 2.720524311065674,
      "learning_rate": 7.630730223310143e-05,
      "loss": 0.48704843521118163,
      "memory(GiB)": 70.5,
      "step": 37770,
      "token_acc": 0.8709677419354839,
      "train_speed(iter/s)": 1.454187
    },
    {
      "epoch": 1.6183968124759007,
      "grad_norm": 19.10087013244629,
      "learning_rate": 7.630157903468663e-05,
      "loss": 0.4147953510284424,
      "memory(GiB)": 70.5,
      "step": 37775,
      "token_acc": 0.9274809160305344,
      "train_speed(iter/s)": 1.454185
    },
    {
      "epoch": 1.6186110278051498,
      "grad_norm": 2.6473727226257324,
      "learning_rate": 7.629585535979402e-05,
      "loss": 0.3544682741165161,
      "memory(GiB)": 70.5,
      "step": 37780,
      "token_acc": 0.8958333333333334,
      "train_speed(iter/s)": 1.454178
    },
    {
      "epoch": 1.6188252431343986,
      "grad_norm": 5.14130973815918,
      "learning_rate": 7.629013120852736e-05,
      "loss": 0.3449560642242432,
      "memory(GiB)": 70.5,
      "step": 37785,
      "token_acc": 0.9402390438247012,
      "train_speed(iter/s)": 1.454189
    },
    {
      "epoch": 1.6190394584636476,
      "grad_norm": 0.42839938402175903,
      "learning_rate": 7.628440658099029e-05,
      "loss": 0.3175839900970459,
      "memory(GiB)": 70.5,
      "step": 37790,
      "token_acc": 0.9317269076305221,
      "train_speed(iter/s)": 1.454184
    },
    {
      "epoch": 1.6192536737928966,
      "grad_norm": 4.656126976013184,
      "learning_rate": 7.627868147728654e-05,
      "loss": 0.355401611328125,
      "memory(GiB)": 70.5,
      "step": 37795,
      "token_acc": 0.9133858267716536,
      "train_speed(iter/s)": 1.454187
    },
    {
      "epoch": 1.6194678891221455,
      "grad_norm": 3.5066802501678467,
      "learning_rate": 7.627295589751982e-05,
      "loss": 0.32614750862121583,
      "memory(GiB)": 70.5,
      "step": 37800,
      "token_acc": 0.934931506849315,
      "train_speed(iter/s)": 1.454194
    },
    {
      "epoch": 1.6196821044513945,
      "grad_norm": 3.358826160430908,
      "learning_rate": 7.626722984179387e-05,
      "loss": 0.6405954837799073,
      "memory(GiB)": 70.5,
      "step": 37805,
      "token_acc": 0.8653061224489796,
      "train_speed(iter/s)": 1.454193
    },
    {
      "epoch": 1.6198963197806435,
      "grad_norm": 3.051621913909912,
      "learning_rate": 7.62615033102124e-05,
      "loss": 0.42200260162353515,
      "memory(GiB)": 70.5,
      "step": 37810,
      "token_acc": 0.89272030651341,
      "train_speed(iter/s)": 1.45423
    },
    {
      "epoch": 1.6201105351098923,
      "grad_norm": 7.306730270385742,
      "learning_rate": 7.625577630287918e-05,
      "loss": 0.5019565105438233,
      "memory(GiB)": 70.5,
      "step": 37815,
      "token_acc": 0.9006622516556292,
      "train_speed(iter/s)": 1.454239
    },
    {
      "epoch": 1.6203247504391414,
      "grad_norm": 4.179375648498535,
      "learning_rate": 7.625004881989792e-05,
      "loss": 0.35704717636108396,
      "memory(GiB)": 70.5,
      "step": 37820,
      "token_acc": 0.9282868525896414,
      "train_speed(iter/s)": 1.45426
    },
    {
      "epoch": 1.6205389657683904,
      "grad_norm": 5.639708042144775,
      "learning_rate": 7.624432086137241e-05,
      "loss": 0.2504983901977539,
      "memory(GiB)": 70.5,
      "step": 37825,
      "token_acc": 0.9438202247191011,
      "train_speed(iter/s)": 1.454254
    },
    {
      "epoch": 1.6207531810976392,
      "grad_norm": 0.4896070957183838,
      "learning_rate": 7.623859242740642e-05,
      "loss": 0.20821313858032225,
      "memory(GiB)": 70.5,
      "step": 37830,
      "token_acc": 0.9326923076923077,
      "train_speed(iter/s)": 1.454275
    },
    {
      "epoch": 1.6209673964268885,
      "grad_norm": 4.1158294677734375,
      "learning_rate": 7.62328635181037e-05,
      "loss": 0.6273265838623047,
      "memory(GiB)": 70.5,
      "step": 37835,
      "token_acc": 0.8664383561643836,
      "train_speed(iter/s)": 1.454285
    },
    {
      "epoch": 1.6211816117561373,
      "grad_norm": 3.9534482955932617,
      "learning_rate": 7.622713413356806e-05,
      "loss": 0.3820387601852417,
      "memory(GiB)": 70.5,
      "step": 37840,
      "token_acc": 0.9290780141843972,
      "train_speed(iter/s)": 1.454278
    },
    {
      "epoch": 1.621395827085386,
      "grad_norm": 2.231717586517334,
      "learning_rate": 7.622140427390327e-05,
      "loss": 0.12245986461639405,
      "memory(GiB)": 70.5,
      "step": 37845,
      "token_acc": 0.963265306122449,
      "train_speed(iter/s)": 1.45428
    },
    {
      "epoch": 1.6216100424146354,
      "grad_norm": 6.779424667358398,
      "learning_rate": 7.621567393921315e-05,
      "loss": 0.49419193267822265,
      "memory(GiB)": 70.5,
      "step": 37850,
      "token_acc": 0.89568345323741,
      "train_speed(iter/s)": 1.454311
    },
    {
      "epoch": 1.6218242577438842,
      "grad_norm": 3.227741003036499,
      "learning_rate": 7.62099431296015e-05,
      "loss": 0.5980219364166259,
      "memory(GiB)": 70.5,
      "step": 37855,
      "token_acc": 0.8757961783439491,
      "train_speed(iter/s)": 1.454349
    },
    {
      "epoch": 1.622038473073133,
      "grad_norm": 4.2890801429748535,
      "learning_rate": 7.620421184517216e-05,
      "loss": 0.37161931991577146,
      "memory(GiB)": 70.5,
      "step": 37860,
      "token_acc": 0.9126506024096386,
      "train_speed(iter/s)": 1.454343
    },
    {
      "epoch": 1.6222526884023822,
      "grad_norm": 3.4675405025482178,
      "learning_rate": 7.61984800860289e-05,
      "loss": 0.33632922172546387,
      "memory(GiB)": 70.5,
      "step": 37865,
      "token_acc": 0.9384615384615385,
      "train_speed(iter/s)": 1.454343
    },
    {
      "epoch": 1.622466903731631,
      "grad_norm": 3.4323666095733643,
      "learning_rate": 7.619274785227564e-05,
      "loss": 0.660981559753418,
      "memory(GiB)": 70.5,
      "step": 37870,
      "token_acc": 0.8844765342960289,
      "train_speed(iter/s)": 1.45435
    },
    {
      "epoch": 1.6226811190608799,
      "grad_norm": 3.46372652053833,
      "learning_rate": 7.618701514401618e-05,
      "loss": 0.3125059366226196,
      "memory(GiB)": 70.5,
      "step": 37875,
      "token_acc": 0.931899641577061,
      "train_speed(iter/s)": 1.454352
    },
    {
      "epoch": 1.6228953343901291,
      "grad_norm": 1.7139395475387573,
      "learning_rate": 7.618128196135435e-05,
      "loss": 0.4035337448120117,
      "memory(GiB)": 70.5,
      "step": 37880,
      "token_acc": 0.916923076923077,
      "train_speed(iter/s)": 1.454352
    },
    {
      "epoch": 1.623109549719378,
      "grad_norm": 7.536229610443115,
      "learning_rate": 7.617554830439406e-05,
      "loss": 0.46647844314575193,
      "memory(GiB)": 70.5,
      "step": 37885,
      "token_acc": 0.9136690647482014,
      "train_speed(iter/s)": 1.454347
    },
    {
      "epoch": 1.6233237650486267,
      "grad_norm": 2.5002620220184326,
      "learning_rate": 7.616981417323914e-05,
      "loss": 0.3683753490447998,
      "memory(GiB)": 70.5,
      "step": 37890,
      "token_acc": 0.9126984126984127,
      "train_speed(iter/s)": 1.454332
    },
    {
      "epoch": 1.623537980377876,
      "grad_norm": 0.1116921454668045,
      "learning_rate": 7.61640795679935e-05,
      "loss": 0.1374591112136841,
      "memory(GiB)": 70.5,
      "step": 37895,
      "token_acc": 0.972027972027972,
      "train_speed(iter/s)": 1.454327
    },
    {
      "epoch": 1.6237521957071248,
      "grad_norm": 5.157870769500732,
      "learning_rate": 7.6158344488761e-05,
      "loss": 0.574320650100708,
      "memory(GiB)": 70.5,
      "step": 37900,
      "token_acc": 0.8788732394366198,
      "train_speed(iter/s)": 1.454357
    },
    {
      "epoch": 1.6239664110363736,
      "grad_norm": 4.687005519866943,
      "learning_rate": 7.615260893564556e-05,
      "loss": 0.24017701148986817,
      "memory(GiB)": 70.5,
      "step": 37905,
      "token_acc": 0.9655172413793104,
      "train_speed(iter/s)": 1.454383
    },
    {
      "epoch": 1.6241806263656229,
      "grad_norm": 5.2685418128967285,
      "learning_rate": 7.614687290875107e-05,
      "loss": 0.4989461898803711,
      "memory(GiB)": 70.5,
      "step": 37910,
      "token_acc": 0.9163636363636364,
      "train_speed(iter/s)": 1.45438
    },
    {
      "epoch": 1.6243948416948717,
      "grad_norm": 0.45512935519218445,
      "learning_rate": 7.614113640818145e-05,
      "loss": 0.5065241813659668,
      "memory(GiB)": 70.5,
      "step": 37915,
      "token_acc": 0.889589905362776,
      "train_speed(iter/s)": 1.454401
    },
    {
      "epoch": 1.6246090570241205,
      "grad_norm": 2.1794214248657227,
      "learning_rate": 7.613539943404064e-05,
      "loss": 0.3726815223693848,
      "memory(GiB)": 70.5,
      "step": 37920,
      "token_acc": 0.8884892086330936,
      "train_speed(iter/s)": 1.454437
    },
    {
      "epoch": 1.6248232723533698,
      "grad_norm": 1.9052610397338867,
      "learning_rate": 7.612966198643254e-05,
      "loss": 0.23051273822784424,
      "memory(GiB)": 70.5,
      "step": 37925,
      "token_acc": 0.9476923076923077,
      "train_speed(iter/s)": 1.454425
    },
    {
      "epoch": 1.6250374876826186,
      "grad_norm": 4.108259677886963,
      "learning_rate": 7.612392406546109e-05,
      "loss": 0.3285454273223877,
      "memory(GiB)": 70.5,
      "step": 37930,
      "token_acc": 0.909433962264151,
      "train_speed(iter/s)": 1.454419
    },
    {
      "epoch": 1.6252517030118674,
      "grad_norm": 5.586935997009277,
      "learning_rate": 7.611818567123025e-05,
      "loss": 0.6497061729431153,
      "memory(GiB)": 70.5,
      "step": 37935,
      "token_acc": 0.8975155279503105,
      "train_speed(iter/s)": 1.454425
    },
    {
      "epoch": 1.6254659183411166,
      "grad_norm": 1.969165563583374,
      "learning_rate": 7.6112446803844e-05,
      "loss": 0.5042243480682373,
      "memory(GiB)": 70.5,
      "step": 37940,
      "token_acc": 0.8945686900958466,
      "train_speed(iter/s)": 1.454422
    },
    {
      "epoch": 1.6256801336703655,
      "grad_norm": 7.697597980499268,
      "learning_rate": 7.610670746340626e-05,
      "loss": 0.6519233703613281,
      "memory(GiB)": 70.5,
      "step": 37945,
      "token_acc": 0.8868613138686131,
      "train_speed(iter/s)": 1.454428
    },
    {
      "epoch": 1.6258943489996143,
      "grad_norm": 4.097588062286377,
      "learning_rate": 7.610096765002104e-05,
      "loss": 0.536610460281372,
      "memory(GiB)": 70.5,
      "step": 37950,
      "token_acc": 0.8985507246376812,
      "train_speed(iter/s)": 1.454421
    },
    {
      "epoch": 1.6261085643288635,
      "grad_norm": 2.0949721336364746,
      "learning_rate": 7.609522736379229e-05,
      "loss": 0.18149760961532593,
      "memory(GiB)": 70.5,
      "step": 37955,
      "token_acc": 0.9521739130434783,
      "train_speed(iter/s)": 1.454452
    },
    {
      "epoch": 1.6263227796581123,
      "grad_norm": 1.2974863052368164,
      "learning_rate": 7.608948660482403e-05,
      "loss": 0.09434347748756408,
      "memory(GiB)": 70.5,
      "step": 37960,
      "token_acc": 0.9758064516129032,
      "train_speed(iter/s)": 1.454451
    },
    {
      "epoch": 1.6265369949873612,
      "grad_norm": 1.9426285028457642,
      "learning_rate": 7.608374537322024e-05,
      "loss": 0.4842409133911133,
      "memory(GiB)": 70.5,
      "step": 37965,
      "token_acc": 0.893687707641196,
      "train_speed(iter/s)": 1.454475
    },
    {
      "epoch": 1.6267512103166104,
      "grad_norm": 3.198206663131714,
      "learning_rate": 7.607800366908493e-05,
      "loss": 0.25907316207885744,
      "memory(GiB)": 70.5,
      "step": 37970,
      "token_acc": 0.9336099585062241,
      "train_speed(iter/s)": 1.454487
    },
    {
      "epoch": 1.6269654256458592,
      "grad_norm": 3.8946285247802734,
      "learning_rate": 7.607226149252212e-05,
      "loss": 0.6782419681549072,
      "memory(GiB)": 70.5,
      "step": 37975,
      "token_acc": 0.8771331058020477,
      "train_speed(iter/s)": 1.454495
    },
    {
      "epoch": 1.627179640975108,
      "grad_norm": 8.331330299377441,
      "learning_rate": 7.606651884363585e-05,
      "loss": 0.48900723457336426,
      "memory(GiB)": 70.5,
      "step": 37980,
      "token_acc": 0.909433962264151,
      "train_speed(iter/s)": 1.454499
    },
    {
      "epoch": 1.6273938563043573,
      "grad_norm": 5.281151294708252,
      "learning_rate": 7.606077572253012e-05,
      "loss": 0.3269219875335693,
      "memory(GiB)": 70.5,
      "step": 37985,
      "token_acc": 0.9291666666666667,
      "train_speed(iter/s)": 1.454501
    },
    {
      "epoch": 1.627608071633606,
      "grad_norm": 5.23884391784668,
      "learning_rate": 7.6055032129309e-05,
      "loss": 0.4917795658111572,
      "memory(GiB)": 70.5,
      "step": 37990,
      "token_acc": 0.9033149171270718,
      "train_speed(iter/s)": 1.454508
    },
    {
      "epoch": 1.627822286962855,
      "grad_norm": 5.504274845123291,
      "learning_rate": 7.604928806407654e-05,
      "loss": 0.6063360691070556,
      "memory(GiB)": 70.5,
      "step": 37995,
      "token_acc": 0.8724137931034482,
      "train_speed(iter/s)": 1.454512
    },
    {
      "epoch": 1.6280365022921042,
      "grad_norm": 1.2238829135894775,
      "learning_rate": 7.604354352693677e-05,
      "loss": 0.26202094554901123,
      "memory(GiB)": 70.5,
      "step": 38000,
      "token_acc": 0.935361216730038,
      "train_speed(iter/s)": 1.454512
    },
    {
      "epoch": 1.6280365022921042,
      "eval_loss": 2.618666172027588,
      "eval_runtime": 13.8293,
      "eval_samples_per_second": 7.231,
      "eval_steps_per_second": 7.231,
      "eval_token_acc": 0.46808510638297873,
      "step": 38000
    },
    {
      "epoch": 1.628250717621353,
      "grad_norm": 3.164980173110962,
      "learning_rate": 7.60377985179938e-05,
      "loss": 0.818605613708496,
      "memory(GiB)": 70.5,
      "step": 38005,
      "token_acc": 0.5677233429394812,
      "train_speed(iter/s)": 1.453687
    },
    {
      "epoch": 1.6284649329506018,
      "grad_norm": 2.563304901123047,
      "learning_rate": 7.603205303735166e-05,
      "loss": 0.27171764373779295,
      "memory(GiB)": 70.5,
      "step": 38010,
      "token_acc": 0.9351535836177475,
      "train_speed(iter/s)": 1.453702
    },
    {
      "epoch": 1.628679148279851,
      "grad_norm": 5.925216197967529,
      "learning_rate": 7.602630708511448e-05,
      "loss": 0.5393668174743652,
      "memory(GiB)": 70.5,
      "step": 38015,
      "token_acc": 0.8911764705882353,
      "train_speed(iter/s)": 1.453725
    },
    {
      "epoch": 1.6288933636090999,
      "grad_norm": 3.6248176097869873,
      "learning_rate": 7.602056066138633e-05,
      "loss": 0.38050169944763185,
      "memory(GiB)": 70.5,
      "step": 38020,
      "token_acc": 0.9246861924686193,
      "train_speed(iter/s)": 1.453741
    },
    {
      "epoch": 1.6291075789383487,
      "grad_norm": 1.3170783519744873,
      "learning_rate": 7.601481376627131e-05,
      "loss": 0.217291522026062,
      "memory(GiB)": 70.5,
      "step": 38025,
      "token_acc": 0.9620689655172414,
      "train_speed(iter/s)": 1.453745
    },
    {
      "epoch": 1.629321794267598,
      "grad_norm": 4.660367965698242,
      "learning_rate": 7.600906639987352e-05,
      "loss": 0.5121158599853516,
      "memory(GiB)": 70.5,
      "step": 38030,
      "token_acc": 0.9003322259136213,
      "train_speed(iter/s)": 1.453742
    },
    {
      "epoch": 1.6295360095968467,
      "grad_norm": 3.4207565784454346,
      "learning_rate": 7.600331856229712e-05,
      "loss": 0.17249406576156617,
      "memory(GiB)": 70.5,
      "step": 38035,
      "token_acc": 0.9609375,
      "train_speed(iter/s)": 1.453752
    },
    {
      "epoch": 1.6297502249260956,
      "grad_norm": 3.5987019538879395,
      "learning_rate": 7.59975702536462e-05,
      "loss": 0.2819300889968872,
      "memory(GiB)": 70.5,
      "step": 38040,
      "token_acc": 0.9337979094076655,
      "train_speed(iter/s)": 1.453767
    },
    {
      "epoch": 1.6299644402553448,
      "grad_norm": 3.6765236854553223,
      "learning_rate": 7.599182147402491e-05,
      "loss": 0.593369436264038,
      "memory(GiB)": 70.5,
      "step": 38045,
      "token_acc": 0.8963210702341137,
      "train_speed(iter/s)": 1.453773
    },
    {
      "epoch": 1.6301786555845936,
      "grad_norm": 3.010119915008545,
      "learning_rate": 7.598607222353739e-05,
      "loss": 0.3234145402908325,
      "memory(GiB)": 70.5,
      "step": 38050,
      "token_acc": 0.9142857142857143,
      "train_speed(iter/s)": 1.453779
    },
    {
      "epoch": 1.6303928709138424,
      "grad_norm": 3.272035837173462,
      "learning_rate": 7.598032250228779e-05,
      "loss": 0.2442007303237915,
      "memory(GiB)": 70.5,
      "step": 38055,
      "token_acc": 0.9439252336448598,
      "train_speed(iter/s)": 1.453784
    },
    {
      "epoch": 1.6306070862430917,
      "grad_norm": 2.553511619567871,
      "learning_rate": 7.597457231038028e-05,
      "loss": 0.18855559825897217,
      "memory(GiB)": 70.5,
      "step": 38060,
      "token_acc": 0.973568281938326,
      "train_speed(iter/s)": 1.45379
    },
    {
      "epoch": 1.6308213015723405,
      "grad_norm": 0.6616986393928528,
      "learning_rate": 7.596882164791903e-05,
      "loss": 0.18458636999130248,
      "memory(GiB)": 70.5,
      "step": 38065,
      "token_acc": 0.9669421487603306,
      "train_speed(iter/s)": 1.453793
    },
    {
      "epoch": 1.6310355169015893,
      "grad_norm": 3.753936767578125,
      "learning_rate": 7.596307051500821e-05,
      "loss": 0.47066287994384765,
      "memory(GiB)": 70.5,
      "step": 38070,
      "token_acc": 0.9111111111111111,
      "train_speed(iter/s)": 1.4538
    },
    {
      "epoch": 1.6312497322308386,
      "grad_norm": 5.636535167694092,
      "learning_rate": 7.595731891175202e-05,
      "loss": 0.4342973232269287,
      "memory(GiB)": 70.5,
      "step": 38075,
      "token_acc": 0.92,
      "train_speed(iter/s)": 1.453794
    },
    {
      "epoch": 1.6314639475600874,
      "grad_norm": 3.2227559089660645,
      "learning_rate": 7.595156683825463e-05,
      "loss": 0.4038394927978516,
      "memory(GiB)": 70.5,
      "step": 38080,
      "token_acc": 0.9158878504672897,
      "train_speed(iter/s)": 1.453789
    },
    {
      "epoch": 1.6316781628893362,
      "grad_norm": 1.570601224899292,
      "learning_rate": 7.594581429462026e-05,
      "loss": 0.5166860103607178,
      "memory(GiB)": 70.5,
      "step": 38085,
      "token_acc": 0.9180327868852459,
      "train_speed(iter/s)": 1.453801
    },
    {
      "epoch": 1.6318923782185855,
      "grad_norm": 2.6652562618255615,
      "learning_rate": 7.594006128095314e-05,
      "loss": 0.44013190269470215,
      "memory(GiB)": 70.5,
      "step": 38090,
      "token_acc": 0.9090909090909091,
      "train_speed(iter/s)": 1.453833
    },
    {
      "epoch": 1.6321065935478343,
      "grad_norm": 4.828022003173828,
      "learning_rate": 7.593430779735749e-05,
      "loss": 0.4906179904937744,
      "memory(GiB)": 70.5,
      "step": 38095,
      "token_acc": 0.9035369774919614,
      "train_speed(iter/s)": 1.453835
    },
    {
      "epoch": 1.632320808877083,
      "grad_norm": 2.2190043926239014,
      "learning_rate": 7.592855384393752e-05,
      "loss": 0.2931745290756226,
      "memory(GiB)": 70.5,
      "step": 38100,
      "token_acc": 0.9453125,
      "train_speed(iter/s)": 1.45383
    },
    {
      "epoch": 1.6325350242063323,
      "grad_norm": 2.9868898391723633,
      "learning_rate": 7.592279942079746e-05,
      "loss": 0.48761844635009766,
      "memory(GiB)": 70.5,
      "step": 38105,
      "token_acc": 0.9169811320754717,
      "train_speed(iter/s)": 1.453844
    },
    {
      "epoch": 1.6327492395355812,
      "grad_norm": 1.0777318477630615,
      "learning_rate": 7.591704452804157e-05,
      "loss": 0.3800934314727783,
      "memory(GiB)": 70.5,
      "step": 38110,
      "token_acc": 0.9307958477508651,
      "train_speed(iter/s)": 1.45384
    },
    {
      "epoch": 1.63296345486483,
      "grad_norm": 3.789748430252075,
      "learning_rate": 7.591128916577412e-05,
      "loss": 0.2737541198730469,
      "memory(GiB)": 70.5,
      "step": 38115,
      "token_acc": 0.9442379182156134,
      "train_speed(iter/s)": 1.453849
    },
    {
      "epoch": 1.6331776701940792,
      "grad_norm": 2.705845832824707,
      "learning_rate": 7.590553333409934e-05,
      "loss": 0.3847815990447998,
      "memory(GiB)": 70.5,
      "step": 38120,
      "token_acc": 0.8915254237288136,
      "train_speed(iter/s)": 1.453848
    },
    {
      "epoch": 1.633391885523328,
      "grad_norm": 8.308585166931152,
      "learning_rate": 7.589977703312152e-05,
      "loss": 0.3806962490081787,
      "memory(GiB)": 70.5,
      "step": 38125,
      "token_acc": 0.9203187250996016,
      "train_speed(iter/s)": 1.453874
    },
    {
      "epoch": 1.6336061008525768,
      "grad_norm": 3.8529138565063477,
      "learning_rate": 7.589402026294497e-05,
      "loss": 0.4840544700622559,
      "memory(GiB)": 70.5,
      "step": 38130,
      "token_acc": 0.8888888888888888,
      "train_speed(iter/s)": 1.453908
    },
    {
      "epoch": 1.633820316181826,
      "grad_norm": 3.728288412094116,
      "learning_rate": 7.588826302367394e-05,
      "loss": 0.45669145584106446,
      "memory(GiB)": 70.5,
      "step": 38135,
      "token_acc": 0.889589905362776,
      "train_speed(iter/s)": 1.45391
    },
    {
      "epoch": 1.634034531511075,
      "grad_norm": 0.3206925094127655,
      "learning_rate": 7.588250531541274e-05,
      "loss": 0.673977279663086,
      "memory(GiB)": 70.5,
      "step": 38140,
      "token_acc": 0.8651685393258427,
      "train_speed(iter/s)": 1.45391
    },
    {
      "epoch": 1.6342487468403237,
      "grad_norm": 2.3020901679992676,
      "learning_rate": 7.587674713826567e-05,
      "loss": 0.2534902811050415,
      "memory(GiB)": 70.5,
      "step": 38145,
      "token_acc": 0.9444444444444444,
      "train_speed(iter/s)": 1.453908
    },
    {
      "epoch": 1.634462962169573,
      "grad_norm": 2.828505754470825,
      "learning_rate": 7.587098849233707e-05,
      "loss": 0.7244701385498047,
      "memory(GiB)": 70.5,
      "step": 38150,
      "token_acc": 0.8703703703703703,
      "train_speed(iter/s)": 1.453927
    },
    {
      "epoch": 1.6346771774988218,
      "grad_norm": 3.583791732788086,
      "learning_rate": 7.586522937773123e-05,
      "loss": 0.35256237983703614,
      "memory(GiB)": 70.5,
      "step": 38155,
      "token_acc": 0.9184397163120568,
      "train_speed(iter/s)": 1.453922
    },
    {
      "epoch": 1.6348913928280706,
      "grad_norm": 4.189933776855469,
      "learning_rate": 7.58594697945525e-05,
      "loss": 0.41320204734802246,
      "memory(GiB)": 70.5,
      "step": 38160,
      "token_acc": 0.9076433121019108,
      "train_speed(iter/s)": 1.453922
    },
    {
      "epoch": 1.6351056081573199,
      "grad_norm": 2.0813405513763428,
      "learning_rate": 7.585370974290521e-05,
      "loss": 0.6524993419647217,
      "memory(GiB)": 70.5,
      "step": 38165,
      "token_acc": 0.8664383561643836,
      "train_speed(iter/s)": 1.453918
    },
    {
      "epoch": 1.6353198234865687,
      "grad_norm": 2.727020502090454,
      "learning_rate": 7.584794922289371e-05,
      "loss": 0.38351917266845703,
      "memory(GiB)": 70.5,
      "step": 38170,
      "token_acc": 0.9070631970260223,
      "train_speed(iter/s)": 1.453921
    },
    {
      "epoch": 1.6355340388158177,
      "grad_norm": 2.9053800106048584,
      "learning_rate": 7.584218823462238e-05,
      "loss": 0.43259191513061523,
      "memory(GiB)": 70.5,
      "step": 38175,
      "token_acc": 0.8933333333333333,
      "train_speed(iter/s)": 1.453908
    },
    {
      "epoch": 1.6357482541450667,
      "grad_norm": 3.180591106414795,
      "learning_rate": 7.583642677819557e-05,
      "loss": 0.6998558044433594,
      "memory(GiB)": 70.5,
      "step": 38180,
      "token_acc": 0.8384615384615385,
      "train_speed(iter/s)": 1.453907
    },
    {
      "epoch": 1.6359624694743156,
      "grad_norm": 2.307499885559082,
      "learning_rate": 7.583066485371764e-05,
      "loss": 0.4517496585845947,
      "memory(GiB)": 70.5,
      "step": 38185,
      "token_acc": 0.8827586206896552,
      "train_speed(iter/s)": 1.453912
    },
    {
      "epoch": 1.6361766848035646,
      "grad_norm": 6.725872993469238,
      "learning_rate": 7.582490246129299e-05,
      "loss": 0.5836194515228271,
      "memory(GiB)": 70.5,
      "step": 38190,
      "token_acc": 0.8597122302158273,
      "train_speed(iter/s)": 1.453953
    },
    {
      "epoch": 1.6363909001328136,
      "grad_norm": 2.1687161922454834,
      "learning_rate": 7.5819139601026e-05,
      "loss": 0.4989126205444336,
      "memory(GiB)": 70.5,
      "step": 38195,
      "token_acc": 0.8804347826086957,
      "train_speed(iter/s)": 1.453955
    },
    {
      "epoch": 1.6366051154620624,
      "grad_norm": 1.3478420972824097,
      "learning_rate": 7.581337627302107e-05,
      "loss": 0.36559062004089354,
      "memory(GiB)": 70.5,
      "step": 38200,
      "token_acc": 0.9172661870503597,
      "train_speed(iter/s)": 1.453971
    },
    {
      "epoch": 1.6368193307913115,
      "grad_norm": 1.8576080799102783,
      "learning_rate": 7.580761247738264e-05,
      "loss": 0.342420768737793,
      "memory(GiB)": 70.5,
      "step": 38205,
      "token_acc": 0.9329073482428115,
      "train_speed(iter/s)": 1.453985
    },
    {
      "epoch": 1.6370335461205605,
      "grad_norm": 1.905734658241272,
      "learning_rate": 7.580184821421508e-05,
      "loss": 0.3409430980682373,
      "memory(GiB)": 70.5,
      "step": 38210,
      "token_acc": 0.9322033898305084,
      "train_speed(iter/s)": 1.453979
    },
    {
      "epoch": 1.6372477614498093,
      "grad_norm": 2.799816131591797,
      "learning_rate": 7.579608348362284e-05,
      "loss": 0.2954440116882324,
      "memory(GiB)": 70.5,
      "step": 38215,
      "token_acc": 0.932475884244373,
      "train_speed(iter/s)": 1.453979
    },
    {
      "epoch": 1.6374619767790584,
      "grad_norm": 2.233968496322632,
      "learning_rate": 7.579031828571035e-05,
      "loss": 0.5467352390289306,
      "memory(GiB)": 70.5,
      "step": 38220,
      "token_acc": 0.8933333333333333,
      "train_speed(iter/s)": 1.453972
    },
    {
      "epoch": 1.6376761921083074,
      "grad_norm": 1.777005672454834,
      "learning_rate": 7.578455262058204e-05,
      "loss": 0.3842761754989624,
      "memory(GiB)": 70.5,
      "step": 38225,
      "token_acc": 0.935374149659864,
      "train_speed(iter/s)": 1.454001
    },
    {
      "epoch": 1.6378904074375562,
      "grad_norm": 0.8787346482276917,
      "learning_rate": 7.577878648834241e-05,
      "loss": 0.14938100576400756,
      "memory(GiB)": 70.5,
      "step": 38230,
      "token_acc": 0.9594594594594594,
      "train_speed(iter/s)": 1.45401
    },
    {
      "epoch": 1.6381046227668052,
      "grad_norm": 0.13895325362682343,
      "learning_rate": 7.577301988909583e-05,
      "loss": 0.41216015815734863,
      "memory(GiB)": 70.5,
      "step": 38235,
      "token_acc": 0.925531914893617,
      "train_speed(iter/s)": 1.454008
    },
    {
      "epoch": 1.6383188380960543,
      "grad_norm": 2.844888687133789,
      "learning_rate": 7.576725282294683e-05,
      "loss": 0.185227370262146,
      "memory(GiB)": 70.5,
      "step": 38240,
      "token_acc": 0.9461538461538461,
      "train_speed(iter/s)": 1.454004
    },
    {
      "epoch": 1.638533053425303,
      "grad_norm": 3.494873523712158,
      "learning_rate": 7.576148528999989e-05,
      "loss": 0.40305075645446775,
      "memory(GiB)": 70.5,
      "step": 38245,
      "token_acc": 0.9171122994652406,
      "train_speed(iter/s)": 1.453998
    },
    {
      "epoch": 1.6387472687545521,
      "grad_norm": 5.101650238037109,
      "learning_rate": 7.575571729035948e-05,
      "loss": 0.747618293762207,
      "memory(GiB)": 70.5,
      "step": 38250,
      "token_acc": 0.8314285714285714,
      "train_speed(iter/s)": 1.454005
    },
    {
      "epoch": 1.6389614840838012,
      "grad_norm": 0.36021658778190613,
      "learning_rate": 7.574994882413007e-05,
      "loss": 0.175684916973114,
      "memory(GiB)": 70.5,
      "step": 38255,
      "token_acc": 0.9572368421052632,
      "train_speed(iter/s)": 1.454005
    },
    {
      "epoch": 1.63917569941305,
      "grad_norm": 2.51971697807312,
      "learning_rate": 7.57441798914162e-05,
      "loss": 0.2797213077545166,
      "memory(GiB)": 70.5,
      "step": 38260,
      "token_acc": 0.9418181818181818,
      "train_speed(iter/s)": 1.454012
    },
    {
      "epoch": 1.639389914742299,
      "grad_norm": 5.283199787139893,
      "learning_rate": 7.573841049232236e-05,
      "loss": 0.2378298282623291,
      "memory(GiB)": 70.5,
      "step": 38265,
      "token_acc": 0.9498207885304659,
      "train_speed(iter/s)": 1.454021
    },
    {
      "epoch": 1.639604130071548,
      "grad_norm": 10.811509132385254,
      "learning_rate": 7.573264062695304e-05,
      "loss": 0.566251564025879,
      "memory(GiB)": 70.5,
      "step": 38270,
      "token_acc": 0.889763779527559,
      "train_speed(iter/s)": 1.454044
    },
    {
      "epoch": 1.6398183454007969,
      "grad_norm": 5.619171142578125,
      "learning_rate": 7.572687029541283e-05,
      "loss": 0.6572329521179199,
      "memory(GiB)": 70.5,
      "step": 38275,
      "token_acc": 0.867595818815331,
      "train_speed(iter/s)": 1.454061
    },
    {
      "epoch": 1.6400325607300459,
      "grad_norm": 0.7863997220993042,
      "learning_rate": 7.572109949780624e-05,
      "loss": 0.3620820283889771,
      "memory(GiB)": 70.5,
      "step": 38280,
      "token_acc": 0.9325842696629213,
      "train_speed(iter/s)": 1.454056
    },
    {
      "epoch": 1.640246776059295,
      "grad_norm": 0.7230288982391357,
      "learning_rate": 7.571532823423777e-05,
      "loss": 0.31575038433074953,
      "memory(GiB)": 70.5,
      "step": 38285,
      "token_acc": 0.9294117647058824,
      "train_speed(iter/s)": 1.454053
    },
    {
      "epoch": 1.6404609913885437,
      "grad_norm": 4.259191036224365,
      "learning_rate": 7.570955650481202e-05,
      "loss": 0.3459575653076172,
      "memory(GiB)": 70.5,
      "step": 38290,
      "token_acc": 0.9585798816568047,
      "train_speed(iter/s)": 1.454067
    },
    {
      "epoch": 1.6406752067177928,
      "grad_norm": 2.842249870300293,
      "learning_rate": 7.570378430963355e-05,
      "loss": 0.5846884250640869,
      "memory(GiB)": 70.5,
      "step": 38295,
      "token_acc": 0.8770491803278688,
      "train_speed(iter/s)": 1.454092
    },
    {
      "epoch": 1.6408894220470418,
      "grad_norm": 2.0601823329925537,
      "learning_rate": 7.56980116488069e-05,
      "loss": 0.2235400676727295,
      "memory(GiB)": 70.5,
      "step": 38300,
      "token_acc": 0.956989247311828,
      "train_speed(iter/s)": 1.454096
    },
    {
      "epoch": 1.6411036373762906,
      "grad_norm": 4.43905782699585,
      "learning_rate": 7.569223852243666e-05,
      "loss": 0.4106001853942871,
      "memory(GiB)": 70.5,
      "step": 38305,
      "token_acc": 0.8978723404255319,
      "train_speed(iter/s)": 1.4541
    },
    {
      "epoch": 1.6413178527055396,
      "grad_norm": 4.102894306182861,
      "learning_rate": 7.568646493062742e-05,
      "loss": 0.308023476600647,
      "memory(GiB)": 70.5,
      "step": 38310,
      "token_acc": 0.9401709401709402,
      "train_speed(iter/s)": 1.454112
    },
    {
      "epoch": 1.6415320680347887,
      "grad_norm": 2.173065423965454,
      "learning_rate": 7.568069087348377e-05,
      "loss": 0.47310519218444824,
      "memory(GiB)": 70.5,
      "step": 38315,
      "token_acc": 0.9044585987261147,
      "train_speed(iter/s)": 1.454111
    },
    {
      "epoch": 1.6417462833640375,
      "grad_norm": 7.0421600341796875,
      "learning_rate": 7.567491635111033e-05,
      "loss": 0.3369940757751465,
      "memory(GiB)": 70.5,
      "step": 38320,
      "token_acc": 0.9419354838709677,
      "train_speed(iter/s)": 1.454136
    },
    {
      "epoch": 1.6419604986932865,
      "grad_norm": 4.985114574432373,
      "learning_rate": 7.566914136361168e-05,
      "loss": 0.5918572902679443,
      "memory(GiB)": 70.5,
      "step": 38325,
      "token_acc": 0.8924302788844621,
      "train_speed(iter/s)": 1.454166
    },
    {
      "epoch": 1.6421747140225356,
      "grad_norm": 3.9462966918945312,
      "learning_rate": 7.566336591109245e-05,
      "loss": 0.3606222629547119,
      "memory(GiB)": 70.5,
      "step": 38330,
      "token_acc": 0.9217687074829932,
      "train_speed(iter/s)": 1.454179
    },
    {
      "epoch": 1.6423889293517844,
      "grad_norm": 0.7937378287315369,
      "learning_rate": 7.565758999365728e-05,
      "loss": 0.30115694999694825,
      "memory(GiB)": 70.5,
      "step": 38335,
      "token_acc": 0.9419795221843004,
      "train_speed(iter/s)": 1.454173
    },
    {
      "epoch": 1.6426031446810334,
      "grad_norm": 3.567183017730713,
      "learning_rate": 7.56518136114108e-05,
      "loss": 0.453032112121582,
      "memory(GiB)": 70.5,
      "step": 38340,
      "token_acc": 0.9009009009009009,
      "train_speed(iter/s)": 1.454185
    },
    {
      "epoch": 1.6428173600102824,
      "grad_norm": 5.3094072341918945,
      "learning_rate": 7.564603676445765e-05,
      "loss": 0.42542123794555664,
      "memory(GiB)": 70.5,
      "step": 38345,
      "token_acc": 0.9070631970260223,
      "train_speed(iter/s)": 1.454188
    },
    {
      "epoch": 1.6430315753395313,
      "grad_norm": 3.874988079071045,
      "learning_rate": 7.56402594529025e-05,
      "loss": 0.5836525917053222,
      "memory(GiB)": 70.5,
      "step": 38350,
      "token_acc": 0.8761609907120743,
      "train_speed(iter/s)": 1.45419
    },
    {
      "epoch": 1.6432457906687803,
      "grad_norm": 1.0546319484710693,
      "learning_rate": 7.563448167684996e-05,
      "loss": 0.297449517250061,
      "memory(GiB)": 70.5,
      "step": 38355,
      "token_acc": 0.9302325581395349,
      "train_speed(iter/s)": 1.454189
    },
    {
      "epoch": 1.6434600059980293,
      "grad_norm": 3.3667306900024414,
      "learning_rate": 7.562870343640478e-05,
      "loss": 0.40724549293518064,
      "memory(GiB)": 70.5,
      "step": 38360,
      "token_acc": 0.9127272727272727,
      "train_speed(iter/s)": 1.454192
    },
    {
      "epoch": 1.6436742213272781,
      "grad_norm": 2.8190903663635254,
      "learning_rate": 7.562292473167158e-05,
      "loss": 0.3946200132369995,
      "memory(GiB)": 70.5,
      "step": 38365,
      "token_acc": 0.9,
      "train_speed(iter/s)": 1.454187
    },
    {
      "epoch": 1.6438884366565272,
      "grad_norm": 4.701895236968994,
      "learning_rate": 7.561714556275505e-05,
      "loss": 0.2959238052368164,
      "memory(GiB)": 70.5,
      "step": 38370,
      "token_acc": 0.9205298013245033,
      "train_speed(iter/s)": 1.454194
    },
    {
      "epoch": 1.6441026519857762,
      "grad_norm": 3.545989513397217,
      "learning_rate": 7.561136592975993e-05,
      "loss": 0.3039505958557129,
      "memory(GiB)": 70.5,
      "step": 38375,
      "token_acc": 0.9215017064846417,
      "train_speed(iter/s)": 1.454197
    },
    {
      "epoch": 1.644316867315025,
      "grad_norm": 0.4073001742362976,
      "learning_rate": 7.560558583279085e-05,
      "loss": 0.47083077430725095,
      "memory(GiB)": 70.5,
      "step": 38380,
      "token_acc": 0.9238410596026491,
      "train_speed(iter/s)": 1.454212
    },
    {
      "epoch": 1.644531082644274,
      "grad_norm": 2.973123073577881,
      "learning_rate": 7.559980527195259e-05,
      "loss": 0.42217416763305665,
      "memory(GiB)": 70.5,
      "step": 38385,
      "token_acc": 0.907185628742515,
      "train_speed(iter/s)": 1.454224
    },
    {
      "epoch": 1.644745297973523,
      "grad_norm": 3.4900007247924805,
      "learning_rate": 7.559402424734982e-05,
      "loss": 0.5608039379119873,
      "memory(GiB)": 70.5,
      "step": 38390,
      "token_acc": 0.8843283582089553,
      "train_speed(iter/s)": 1.454225
    },
    {
      "epoch": 1.644959513302772,
      "grad_norm": 2.3944942951202393,
      "learning_rate": 7.558824275908732e-05,
      "loss": 0.35646567344665525,
      "memory(GiB)": 70.5,
      "step": 38395,
      "token_acc": 0.9196428571428571,
      "train_speed(iter/s)": 1.454225
    },
    {
      "epoch": 1.645173728632021,
      "grad_norm": 1.4959086179733276,
      "learning_rate": 7.558246080726978e-05,
      "loss": 0.6009365081787109,
      "memory(GiB)": 70.5,
      "step": 38400,
      "token_acc": 0.8780487804878049,
      "train_speed(iter/s)": 1.454214
    },
    {
      "epoch": 1.64538794396127,
      "grad_norm": 6.791683673858643,
      "learning_rate": 7.557667839200198e-05,
      "loss": 0.401853609085083,
      "memory(GiB)": 70.5,
      "step": 38405,
      "token_acc": 0.9214285714285714,
      "train_speed(iter/s)": 1.454214
    },
    {
      "epoch": 1.6456021592905188,
      "grad_norm": 1.759587049484253,
      "learning_rate": 7.557089551338865e-05,
      "loss": 0.48642721176147463,
      "memory(GiB)": 70.5,
      "step": 38410,
      "token_acc": 0.8927444794952681,
      "train_speed(iter/s)": 1.454231
    },
    {
      "epoch": 1.6458163746197678,
      "grad_norm": 5.766465187072754,
      "learning_rate": 7.556511217153455e-05,
      "loss": 0.35099310874938966,
      "memory(GiB)": 70.5,
      "step": 38415,
      "token_acc": 0.9508771929824561,
      "train_speed(iter/s)": 1.45424
    },
    {
      "epoch": 1.6460305899490169,
      "grad_norm": 3.5238499641418457,
      "learning_rate": 7.555932836654447e-05,
      "loss": 0.3429140090942383,
      "memory(GiB)": 70.5,
      "step": 38420,
      "token_acc": 0.9256198347107438,
      "train_speed(iter/s)": 1.454252
    },
    {
      "epoch": 1.6462448052782657,
      "grad_norm": 1.2856647968292236,
      "learning_rate": 7.555354409852318e-05,
      "loss": 0.3364109992980957,
      "memory(GiB)": 70.5,
      "step": 38425,
      "token_acc": 0.9377162629757786,
      "train_speed(iter/s)": 1.454268
    },
    {
      "epoch": 1.6464590206075147,
      "grad_norm": 3.1325929164886475,
      "learning_rate": 7.554775936757545e-05,
      "loss": 0.35254631042480467,
      "memory(GiB)": 70.5,
      "step": 38430,
      "token_acc": 0.9259259259259259,
      "train_speed(iter/s)": 1.45427
    },
    {
      "epoch": 1.6466732359367637,
      "grad_norm": 1.4733004570007324,
      "learning_rate": 7.554197417380613e-05,
      "loss": 0.19906388521194457,
      "memory(GiB)": 70.5,
      "step": 38435,
      "token_acc": 0.9590443686006825,
      "train_speed(iter/s)": 1.454268
    },
    {
      "epoch": 1.6468874512660125,
      "grad_norm": 3.4945132732391357,
      "learning_rate": 7.553618851731996e-05,
      "loss": 0.19119019508361818,
      "memory(GiB)": 70.5,
      "step": 38440,
      "token_acc": 0.9550561797752809,
      "train_speed(iter/s)": 1.454273
    },
    {
      "epoch": 1.6471016665952616,
      "grad_norm": 3.0398356914520264,
      "learning_rate": 7.553040239822179e-05,
      "loss": 0.6341733932495117,
      "memory(GiB)": 70.5,
      "step": 38445,
      "token_acc": 0.8592057761732852,
      "train_speed(iter/s)": 1.454277
    },
    {
      "epoch": 1.6473158819245106,
      "grad_norm": 2.800849676132202,
      "learning_rate": 7.552461581661643e-05,
      "loss": 0.33096773624420167,
      "memory(GiB)": 70.5,
      "step": 38450,
      "token_acc": 0.9116465863453815,
      "train_speed(iter/s)": 1.454272
    },
    {
      "epoch": 1.6475300972537594,
      "grad_norm": 2.305391788482666,
      "learning_rate": 7.55188287726087e-05,
      "loss": 0.549852705001831,
      "memory(GiB)": 70.5,
      "step": 38455,
      "token_acc": 0.8927335640138409,
      "train_speed(iter/s)": 1.454268
    },
    {
      "epoch": 1.6477443125830085,
      "grad_norm": 7.325887680053711,
      "learning_rate": 7.551304126630345e-05,
      "loss": 0.18303894996643066,
      "memory(GiB)": 70.5,
      "step": 38460,
      "token_acc": 0.9574468085106383,
      "train_speed(iter/s)": 1.454288
    },
    {
      "epoch": 1.6479585279122575,
      "grad_norm": 5.319623947143555,
      "learning_rate": 7.550725329780555e-05,
      "loss": 0.6041553497314454,
      "memory(GiB)": 70.5,
      "step": 38465,
      "token_acc": 0.8768115942028986,
      "train_speed(iter/s)": 1.454286
    },
    {
      "epoch": 1.6481727432415063,
      "grad_norm": 4.5755181312561035,
      "learning_rate": 7.550146486721981e-05,
      "loss": 0.5711180210113526,
      "memory(GiB)": 70.5,
      "step": 38470,
      "token_acc": 0.8935361216730038,
      "train_speed(iter/s)": 1.454303
    },
    {
      "epoch": 1.6483869585707553,
      "grad_norm": 3.156907796859741,
      "learning_rate": 7.54956759746511e-05,
      "loss": 0.32408857345581055,
      "memory(GiB)": 70.5,
      "step": 38475,
      "token_acc": 0.9206349206349206,
      "train_speed(iter/s)": 1.454306
    },
    {
      "epoch": 1.6486011739000044,
      "grad_norm": 2.298086404800415,
      "learning_rate": 7.548988662020433e-05,
      "loss": 0.2526059627532959,
      "memory(GiB)": 70.5,
      "step": 38480,
      "token_acc": 0.9463087248322147,
      "train_speed(iter/s)": 1.454301
    },
    {
      "epoch": 1.6488153892292532,
      "grad_norm": 4.067742347717285,
      "learning_rate": 7.548409680398433e-05,
      "loss": 0.38907537460327146,
      "memory(GiB)": 70.5,
      "step": 38485,
      "token_acc": 0.9252669039145908,
      "train_speed(iter/s)": 1.454294
    },
    {
      "epoch": 1.6490296045585022,
      "grad_norm": 4.530467987060547,
      "learning_rate": 7.547830652609601e-05,
      "loss": 0.2087712049484253,
      "memory(GiB)": 70.5,
      "step": 38490,
      "token_acc": 0.959866220735786,
      "train_speed(iter/s)": 1.454294
    },
    {
      "epoch": 1.6492438198877513,
      "grad_norm": 4.858787536621094,
      "learning_rate": 7.547251578664427e-05,
      "loss": 0.4739786148071289,
      "memory(GiB)": 70.5,
      "step": 38495,
      "token_acc": 0.9090909090909091,
      "train_speed(iter/s)": 1.454285
    },
    {
      "epoch": 1.649458035217,
      "grad_norm": 2.6708269119262695,
      "learning_rate": 7.546672458573402e-05,
      "loss": 0.2591583490371704,
      "memory(GiB)": 70.5,
      "step": 38500,
      "token_acc": 0.9307958477508651,
      "train_speed(iter/s)": 1.454288
    },
    {
      "epoch": 1.649458035217,
      "eval_loss": 2.3321945667266846,
      "eval_runtime": 13.408,
      "eval_samples_per_second": 7.458,
      "eval_steps_per_second": 7.458,
      "eval_token_acc": 0.4635854341736695,
      "step": 38500
    },
    {
      "epoch": 1.649672250546249,
      "grad_norm": 4.68212366104126,
      "learning_rate": 7.546093292347016e-05,
      "loss": 0.5445551872253418,
      "memory(GiB)": 70.5,
      "step": 38505,
      "token_acc": 0.5928085519922255,
      "train_speed(iter/s)": 1.453511
    },
    {
      "epoch": 1.6498864658754981,
      "grad_norm": 2.6649184226989746,
      "learning_rate": 7.545514079995762e-05,
      "loss": 0.2340101718902588,
      "memory(GiB)": 70.5,
      "step": 38510,
      "token_acc": 0.9537953795379538,
      "train_speed(iter/s)": 1.453504
    },
    {
      "epoch": 1.650100681204747,
      "grad_norm": 5.1951680183410645,
      "learning_rate": 7.544934821530132e-05,
      "loss": 0.8254538536071777,
      "memory(GiB)": 70.5,
      "step": 38515,
      "token_acc": 0.8305555555555556,
      "train_speed(iter/s)": 1.453499
    },
    {
      "epoch": 1.650314896533996,
      "grad_norm": 4.127137184143066,
      "learning_rate": 7.544355516960621e-05,
      "loss": 0.1590348482131958,
      "memory(GiB)": 70.5,
      "step": 38520,
      "token_acc": 0.9621848739495799,
      "train_speed(iter/s)": 1.453492
    },
    {
      "epoch": 1.650529111863245,
      "grad_norm": 0.4799747169017792,
      "learning_rate": 7.543776166297723e-05,
      "loss": 0.19725366830825805,
      "memory(GiB)": 70.5,
      "step": 38525,
      "token_acc": 0.9512195121951219,
      "train_speed(iter/s)": 1.453495
    },
    {
      "epoch": 1.6507433271924938,
      "grad_norm": 0.6031202077865601,
      "learning_rate": 7.543196769551931e-05,
      "loss": 0.22146286964416503,
      "memory(GiB)": 70.5,
      "step": 38530,
      "token_acc": 0.9518518518518518,
      "train_speed(iter/s)": 1.453517
    },
    {
      "epoch": 1.6509575425217429,
      "grad_norm": 4.103658676147461,
      "learning_rate": 7.542617326733747e-05,
      "loss": 0.44726061820983887,
      "memory(GiB)": 70.5,
      "step": 38535,
      "token_acc": 0.9256756756756757,
      "train_speed(iter/s)": 1.45352
    },
    {
      "epoch": 1.651171757850992,
      "grad_norm": 3.1850693225860596,
      "learning_rate": 7.542037837853664e-05,
      "loss": 0.5195112228393555,
      "memory(GiB)": 70.5,
      "step": 38540,
      "token_acc": 0.8745387453874539,
      "train_speed(iter/s)": 1.453523
    },
    {
      "epoch": 1.6513859731802407,
      "grad_norm": 3.854196310043335,
      "learning_rate": 7.541458302922179e-05,
      "loss": 0.32059330940246583,
      "memory(GiB)": 70.5,
      "step": 38545,
      "token_acc": 0.9310344827586207,
      "train_speed(iter/s)": 1.453515
    },
    {
      "epoch": 1.6516001885094898,
      "grad_norm": 0.5097566246986389,
      "learning_rate": 7.540878721949796e-05,
      "loss": 0.2844571113586426,
      "memory(GiB)": 70.5,
      "step": 38550,
      "token_acc": 0.9329268292682927,
      "train_speed(iter/s)": 1.453504
    },
    {
      "epoch": 1.6518144038387388,
      "grad_norm": 0.2812715172767639,
      "learning_rate": 7.54029909494701e-05,
      "loss": 0.2984903573989868,
      "memory(GiB)": 70.5,
      "step": 38555,
      "token_acc": 0.9528619528619529,
      "train_speed(iter/s)": 1.453513
    },
    {
      "epoch": 1.6520286191679876,
      "grad_norm": 3.417607307434082,
      "learning_rate": 7.539719421924322e-05,
      "loss": 0.16840600967407227,
      "memory(GiB)": 70.5,
      "step": 38560,
      "token_acc": 0.9745222929936306,
      "train_speed(iter/s)": 1.453515
    },
    {
      "epoch": 1.6522428344972366,
      "grad_norm": 1.0868128538131714,
      "learning_rate": 7.539139702892235e-05,
      "loss": 0.5110331535339355,
      "memory(GiB)": 70.5,
      "step": 38565,
      "token_acc": 0.9195402298850575,
      "train_speed(iter/s)": 1.453516
    },
    {
      "epoch": 1.6524570498264857,
      "grad_norm": 4.273051738739014,
      "learning_rate": 7.538559937861251e-05,
      "loss": 0.4871467113494873,
      "memory(GiB)": 70.5,
      "step": 38570,
      "token_acc": 0.9245283018867925,
      "train_speed(iter/s)": 1.453509
    },
    {
      "epoch": 1.6526712651557345,
      "grad_norm": 2.8501720428466797,
      "learning_rate": 7.53798012684187e-05,
      "loss": 0.3508581638336182,
      "memory(GiB)": 70.5,
      "step": 38575,
      "token_acc": 0.9221556886227545,
      "train_speed(iter/s)": 1.453554
    },
    {
      "epoch": 1.6528854804849835,
      "grad_norm": 0.5452368259429932,
      "learning_rate": 7.537400269844601e-05,
      "loss": 0.6056573390960693,
      "memory(GiB)": 70.5,
      "step": 38580,
      "token_acc": 0.8701298701298701,
      "train_speed(iter/s)": 1.453548
    },
    {
      "epoch": 1.6530996958142326,
      "grad_norm": 2.897977828979492,
      "learning_rate": 7.536820366879946e-05,
      "loss": 0.4371019840240479,
      "memory(GiB)": 70.5,
      "step": 38585,
      "token_acc": 0.9148936170212766,
      "train_speed(iter/s)": 1.453546
    },
    {
      "epoch": 1.6533139111434814,
      "grad_norm": 5.757652282714844,
      "learning_rate": 7.536240417958409e-05,
      "loss": 0.8579480171203613,
      "memory(GiB)": 70.5,
      "step": 38590,
      "token_acc": 0.8221574344023324,
      "train_speed(iter/s)": 1.453567
    },
    {
      "epoch": 1.6535281264727304,
      "grad_norm": 1.4865413904190063,
      "learning_rate": 7.535660423090498e-05,
      "loss": 0.21690652370452881,
      "memory(GiB)": 70.5,
      "step": 38595,
      "token_acc": 0.9495798319327731,
      "train_speed(iter/s)": 1.453586
    },
    {
      "epoch": 1.6537423418019794,
      "grad_norm": 5.762242794036865,
      "learning_rate": 7.535080382286718e-05,
      "loss": 0.8427379608154297,
      "memory(GiB)": 70.5,
      "step": 38600,
      "token_acc": 0.8216374269005848,
      "train_speed(iter/s)": 1.453587
    },
    {
      "epoch": 1.6539565571312282,
      "grad_norm": 2.9482669830322266,
      "learning_rate": 7.534500295557581e-05,
      "loss": 0.3367419958114624,
      "memory(GiB)": 70.5,
      "step": 38605,
      "token_acc": 0.9203187250996016,
      "train_speed(iter/s)": 1.453596
    },
    {
      "epoch": 1.6541707724604773,
      "grad_norm": 4.330409526824951,
      "learning_rate": 7.533920162913592e-05,
      "loss": 0.5594541549682617,
      "memory(GiB)": 70.5,
      "step": 38610,
      "token_acc": 0.8776758409785933,
      "train_speed(iter/s)": 1.453597
    },
    {
      "epoch": 1.6543849877897263,
      "grad_norm": 4.750876426696777,
      "learning_rate": 7.533339984365265e-05,
      "loss": 0.1747591257095337,
      "memory(GiB)": 70.5,
      "step": 38615,
      "token_acc": 0.9522184300341296,
      "train_speed(iter/s)": 1.453609
    },
    {
      "epoch": 1.6545992031189751,
      "grad_norm": 0.10537248104810715,
      "learning_rate": 7.532759759923105e-05,
      "loss": 0.3384012460708618,
      "memory(GiB)": 70.5,
      "step": 38620,
      "token_acc": 0.9045801526717557,
      "train_speed(iter/s)": 1.453617
    },
    {
      "epoch": 1.6548134184482242,
      "grad_norm": 0.6922722458839417,
      "learning_rate": 7.532179489597626e-05,
      "loss": 0.3148325443267822,
      "memory(GiB)": 70.5,
      "step": 38625,
      "token_acc": 0.9230769230769231,
      "train_speed(iter/s)": 1.453635
    },
    {
      "epoch": 1.6550276337774732,
      "grad_norm": 4.000414848327637,
      "learning_rate": 7.531599173399342e-05,
      "loss": 0.5421735763549804,
      "memory(GiB)": 70.5,
      "step": 38630,
      "token_acc": 0.8868613138686131,
      "train_speed(iter/s)": 1.45364
    },
    {
      "epoch": 1.655241849106722,
      "grad_norm": 4.181220054626465,
      "learning_rate": 7.531018811338764e-05,
      "loss": 0.21601476669311523,
      "memory(GiB)": 70.5,
      "step": 38635,
      "token_acc": 0.9554140127388535,
      "train_speed(iter/s)": 1.453683
    },
    {
      "epoch": 1.655456064435971,
      "grad_norm": 1.908170223236084,
      "learning_rate": 7.530438403426403e-05,
      "loss": 0.3450536966323853,
      "memory(GiB)": 70.5,
      "step": 38640,
      "token_acc": 0.9233333333333333,
      "train_speed(iter/s)": 1.453691
    },
    {
      "epoch": 1.65567027976522,
      "grad_norm": 3.4259235858917236,
      "learning_rate": 7.529857949672778e-05,
      "loss": 0.4013663291931152,
      "memory(GiB)": 70.5,
      "step": 38645,
      "token_acc": 0.9320388349514563,
      "train_speed(iter/s)": 1.453689
    },
    {
      "epoch": 1.6558844950944689,
      "grad_norm": 4.786943435668945,
      "learning_rate": 7.529277450088405e-05,
      "loss": 0.39964559078216555,
      "memory(GiB)": 70.5,
      "step": 38650,
      "token_acc": 0.9174603174603174,
      "train_speed(iter/s)": 1.453691
    },
    {
      "epoch": 1.656098710423718,
      "grad_norm": 10.099268913269043,
      "learning_rate": 7.528696904683797e-05,
      "loss": 0.32553131580352784,
      "memory(GiB)": 70.5,
      "step": 38655,
      "token_acc": 0.9361702127659575,
      "train_speed(iter/s)": 1.453707
    },
    {
      "epoch": 1.656312925752967,
      "grad_norm": 5.135870456695557,
      "learning_rate": 7.528116313469473e-05,
      "loss": 0.5264992713928223,
      "memory(GiB)": 70.5,
      "step": 38660,
      "token_acc": 0.8952380952380953,
      "train_speed(iter/s)": 1.453718
    },
    {
      "epoch": 1.6565271410822158,
      "grad_norm": 3.052278995513916,
      "learning_rate": 7.52753567645595e-05,
      "loss": 0.5625455856323243,
      "memory(GiB)": 70.5,
      "step": 38665,
      "token_acc": 0.9037900874635568,
      "train_speed(iter/s)": 1.45372
    },
    {
      "epoch": 1.6567413564114648,
      "grad_norm": 3.7880072593688965,
      "learning_rate": 7.526954993653747e-05,
      "loss": 0.4740262508392334,
      "memory(GiB)": 70.5,
      "step": 38670,
      "token_acc": 0.9111842105263158,
      "train_speed(iter/s)": 1.453747
    },
    {
      "epoch": 1.6569555717407138,
      "grad_norm": 3.2718188762664795,
      "learning_rate": 7.526374265073384e-05,
      "loss": 0.40797224044799807,
      "memory(GiB)": 70.5,
      "step": 38675,
      "token_acc": 0.9046052631578947,
      "train_speed(iter/s)": 1.453758
    },
    {
      "epoch": 1.6571697870699627,
      "grad_norm": 0.848301351070404,
      "learning_rate": 7.525793490725381e-05,
      "loss": 0.37417576313018797,
      "memory(GiB)": 70.5,
      "step": 38680,
      "token_acc": 0.925,
      "train_speed(iter/s)": 1.453752
    },
    {
      "epoch": 1.6573840023992117,
      "grad_norm": 3.583139181137085,
      "learning_rate": 7.525212670620261e-05,
      "loss": 0.32303447723388673,
      "memory(GiB)": 70.5,
      "step": 38685,
      "token_acc": 0.9362549800796812,
      "train_speed(iter/s)": 1.453757
    },
    {
      "epoch": 1.6575982177284607,
      "grad_norm": 2.5477402210235596,
      "learning_rate": 7.524631804768543e-05,
      "loss": 0.3436806440353394,
      "memory(GiB)": 70.5,
      "step": 38690,
      "token_acc": 0.9233716475095786,
      "train_speed(iter/s)": 1.453753
    },
    {
      "epoch": 1.6578124330577095,
      "grad_norm": 1.208693027496338,
      "learning_rate": 7.524050893180752e-05,
      "loss": 0.18663153648376465,
      "memory(GiB)": 70.5,
      "step": 38695,
      "token_acc": 0.9605263157894737,
      "train_speed(iter/s)": 1.453753
    },
    {
      "epoch": 1.6580266483869586,
      "grad_norm": 7.315008640289307,
      "learning_rate": 7.523469935867411e-05,
      "loss": 0.3595290184020996,
      "memory(GiB)": 70.5,
      "step": 38700,
      "token_acc": 0.910828025477707,
      "train_speed(iter/s)": 1.453749
    },
    {
      "epoch": 1.6582408637162076,
      "grad_norm": 0.033851224929094315,
      "learning_rate": 7.522888932839045e-05,
      "loss": 0.3448637962341309,
      "memory(GiB)": 70.5,
      "step": 38705,
      "token_acc": 0.9340659340659341,
      "train_speed(iter/s)": 1.453772
    },
    {
      "epoch": 1.6584550790454564,
      "grad_norm": 0.713729739189148,
      "learning_rate": 7.52230788410618e-05,
      "loss": 0.4341418266296387,
      "memory(GiB)": 70.5,
      "step": 38710,
      "token_acc": 0.9006622516556292,
      "train_speed(iter/s)": 1.453786
    },
    {
      "epoch": 1.6586692943747054,
      "grad_norm": 2.0917844772338867,
      "learning_rate": 7.52172678967934e-05,
      "loss": 0.39523792266845703,
      "memory(GiB)": 70.5,
      "step": 38715,
      "token_acc": 0.9009009009009009,
      "train_speed(iter/s)": 1.453788
    },
    {
      "epoch": 1.6588835097039545,
      "grad_norm": 1.0861198902130127,
      "learning_rate": 7.521145649569054e-05,
      "loss": 0.435145902633667,
      "memory(GiB)": 70.5,
      "step": 38720,
      "token_acc": 0.922509225092251,
      "train_speed(iter/s)": 1.453812
    },
    {
      "epoch": 1.6590977250332033,
      "grad_norm": 4.323198318481445,
      "learning_rate": 7.520564463785851e-05,
      "loss": 0.44858102798461913,
      "memory(GiB)": 70.5,
      "step": 38725,
      "token_acc": 0.8970588235294118,
      "train_speed(iter/s)": 1.453821
    },
    {
      "epoch": 1.6593119403624523,
      "grad_norm": 2.486497640609741,
      "learning_rate": 7.519983232340258e-05,
      "loss": 0.44878296852111815,
      "memory(GiB)": 70.5,
      "step": 38730,
      "token_acc": 0.9111969111969112,
      "train_speed(iter/s)": 1.45381
    },
    {
      "epoch": 1.6595261556917014,
      "grad_norm": 4.549025058746338,
      "learning_rate": 7.519401955242803e-05,
      "loss": 0.47341384887695315,
      "memory(GiB)": 70.5,
      "step": 38735,
      "token_acc": 0.9118541033434651,
      "train_speed(iter/s)": 1.45382
    },
    {
      "epoch": 1.6597403710209502,
      "grad_norm": 3.384404182434082,
      "learning_rate": 7.518820632504021e-05,
      "loss": 0.8117670059204102,
      "memory(GiB)": 70.5,
      "step": 38740,
      "token_acc": 0.8338658146964856,
      "train_speed(iter/s)": 1.453836
    },
    {
      "epoch": 1.6599545863501992,
      "grad_norm": 4.9207658767700195,
      "learning_rate": 7.518239264134439e-05,
      "loss": 0.6647111892700195,
      "memory(GiB)": 70.5,
      "step": 38745,
      "token_acc": 0.8618421052631579,
      "train_speed(iter/s)": 1.45385
    },
    {
      "epoch": 1.6601688016794482,
      "grad_norm": 5.026841163635254,
      "learning_rate": 7.51765785014459e-05,
      "loss": 0.38076305389404297,
      "memory(GiB)": 70.5,
      "step": 38750,
      "token_acc": 0.9104477611940298,
      "train_speed(iter/s)": 1.453839
    },
    {
      "epoch": 1.660383017008697,
      "grad_norm": 2.2934048175811768,
      "learning_rate": 7.517076390545007e-05,
      "loss": 0.3756966829299927,
      "memory(GiB)": 70.5,
      "step": 38755,
      "token_acc": 0.9270833333333334,
      "train_speed(iter/s)": 1.453845
    },
    {
      "epoch": 1.660597232337946,
      "grad_norm": 4.30295467376709,
      "learning_rate": 7.516494885346223e-05,
      "loss": 0.4604618072509766,
      "memory(GiB)": 70.5,
      "step": 38760,
      "token_acc": 0.90234375,
      "train_speed(iter/s)": 1.453852
    },
    {
      "epoch": 1.6608114476671951,
      "grad_norm": 3.5741310119628906,
      "learning_rate": 7.515913334558778e-05,
      "loss": 0.2389530658721924,
      "memory(GiB)": 70.5,
      "step": 38765,
      "token_acc": 0.9603174603174603,
      "train_speed(iter/s)": 1.453842
    },
    {
      "epoch": 1.661025662996444,
      "grad_norm": 1.6019359827041626,
      "learning_rate": 7.515331738193199e-05,
      "loss": 0.3282909870147705,
      "memory(GiB)": 70.5,
      "step": 38770,
      "token_acc": 0.9222972972972973,
      "train_speed(iter/s)": 1.45384
    },
    {
      "epoch": 1.661239878325693,
      "grad_norm": 6.546706676483154,
      "learning_rate": 7.514750096260026e-05,
      "loss": 0.4659979820251465,
      "memory(GiB)": 70.5,
      "step": 38775,
      "token_acc": 0.9038461538461539,
      "train_speed(iter/s)": 1.453848
    },
    {
      "epoch": 1.661454093654942,
      "grad_norm": 17.345909118652344,
      "learning_rate": 7.514168408769798e-05,
      "loss": 0.45112180709838867,
      "memory(GiB)": 70.5,
      "step": 38780,
      "token_acc": 0.9283387622149837,
      "train_speed(iter/s)": 1.453869
    },
    {
      "epoch": 1.6616683089841908,
      "grad_norm": 5.541643142700195,
      "learning_rate": 7.513586675733049e-05,
      "loss": 0.22703137397766113,
      "memory(GiB)": 70.5,
      "step": 38785,
      "token_acc": 0.9543568464730291,
      "train_speed(iter/s)": 1.453865
    },
    {
      "epoch": 1.6618825243134399,
      "grad_norm": 4.856726169586182,
      "learning_rate": 7.51300489716032e-05,
      "loss": 0.3588895082473755,
      "memory(GiB)": 70.5,
      "step": 38790,
      "token_acc": 0.9129032258064517,
      "train_speed(iter/s)": 1.453858
    },
    {
      "epoch": 1.662096739642689,
      "grad_norm": 2.6571197509765625,
      "learning_rate": 7.51242307306215e-05,
      "loss": 0.40015287399291993,
      "memory(GiB)": 70.5,
      "step": 38795,
      "token_acc": 0.9198717948717948,
      "train_speed(iter/s)": 1.453867
    },
    {
      "epoch": 1.6623109549719377,
      "grad_norm": 3.580622434616089,
      "learning_rate": 7.511841203449079e-05,
      "loss": 0.5351943016052246,
      "memory(GiB)": 70.5,
      "step": 38800,
      "token_acc": 0.8863636363636364,
      "train_speed(iter/s)": 1.453864
    },
    {
      "epoch": 1.6625251703011867,
      "grad_norm": 3.4387123584747314,
      "learning_rate": 7.511259288331649e-05,
      "loss": 0.4170957088470459,
      "memory(GiB)": 70.5,
      "step": 38805,
      "token_acc": 0.9101123595505618,
      "train_speed(iter/s)": 1.453852
    },
    {
      "epoch": 1.6627393856304358,
      "grad_norm": 5.506420612335205,
      "learning_rate": 7.510677327720401e-05,
      "loss": 0.5638983726501465,
      "memory(GiB)": 70.5,
      "step": 38810,
      "token_acc": 0.8882521489971347,
      "train_speed(iter/s)": 1.453859
    },
    {
      "epoch": 1.6629536009596846,
      "grad_norm": 0.7646521925926208,
      "learning_rate": 7.510095321625878e-05,
      "loss": 0.4073202610015869,
      "memory(GiB)": 70.5,
      "step": 38815,
      "token_acc": 0.92,
      "train_speed(iter/s)": 1.453888
    },
    {
      "epoch": 1.6631678162889336,
      "grad_norm": 6.763670444488525,
      "learning_rate": 7.509513270058624e-05,
      "loss": 0.3360013008117676,
      "memory(GiB)": 70.5,
      "step": 38820,
      "token_acc": 0.9175627240143369,
      "train_speed(iter/s)": 1.453916
    },
    {
      "epoch": 1.6633820316181827,
      "grad_norm": 2.165602922439575,
      "learning_rate": 7.50893117302918e-05,
      "loss": 0.3527958631515503,
      "memory(GiB)": 70.5,
      "step": 38825,
      "token_acc": 0.9230769230769231,
      "train_speed(iter/s)": 1.453913
    },
    {
      "epoch": 1.6635962469474315,
      "grad_norm": 2.403409957885742,
      "learning_rate": 7.508349030548099e-05,
      "loss": 0.680927848815918,
      "memory(GiB)": 70.5,
      "step": 38830,
      "token_acc": 0.8639240506329114,
      "train_speed(iter/s)": 1.453908
    },
    {
      "epoch": 1.6638104622766805,
      "grad_norm": 2.5226809978485107,
      "learning_rate": 7.507766842625918e-05,
      "loss": 0.18951188325881957,
      "memory(GiB)": 70.5,
      "step": 38835,
      "token_acc": 0.9444444444444444,
      "train_speed(iter/s)": 1.453912
    },
    {
      "epoch": 1.6640246776059295,
      "grad_norm": 2.142721176147461,
      "learning_rate": 7.50718460927319e-05,
      "loss": 0.23062634468078613,
      "memory(GiB)": 70.5,
      "step": 38840,
      "token_acc": 0.9577464788732394,
      "train_speed(iter/s)": 1.453911
    },
    {
      "epoch": 1.6642388929351783,
      "grad_norm": 0.7766073942184448,
      "learning_rate": 7.506602330500462e-05,
      "loss": 0.3739809513092041,
      "memory(GiB)": 70.5,
      "step": 38845,
      "token_acc": 0.9264214046822743,
      "train_speed(iter/s)": 1.453924
    },
    {
      "epoch": 1.6644531082644274,
      "grad_norm": 5.874261856079102,
      "learning_rate": 7.506020006318279e-05,
      "loss": 0.18852248191833496,
      "memory(GiB)": 70.5,
      "step": 38850,
      "token_acc": 0.9442508710801394,
      "train_speed(iter/s)": 1.453926
    },
    {
      "epoch": 1.6646673235936764,
      "grad_norm": 2.336003541946411,
      "learning_rate": 7.505437636737196e-05,
      "loss": 0.27014381885528566,
      "memory(GiB)": 70.5,
      "step": 38855,
      "token_acc": 0.9407665505226481,
      "train_speed(iter/s)": 1.453925
    },
    {
      "epoch": 1.6648815389229252,
      "grad_norm": 4.5091376304626465,
      "learning_rate": 7.504855221767757e-05,
      "loss": 0.592491626739502,
      "memory(GiB)": 70.5,
      "step": 38860,
      "token_acc": 0.8745874587458746,
      "train_speed(iter/s)": 1.453927
    },
    {
      "epoch": 1.6650957542521743,
      "grad_norm": 3.8419971466064453,
      "learning_rate": 7.504272761420517e-05,
      "loss": 0.36207945346832277,
      "memory(GiB)": 70.5,
      "step": 38865,
      "token_acc": 0.9283276450511946,
      "train_speed(iter/s)": 1.453926
    },
    {
      "epoch": 1.6653099695814233,
      "grad_norm": 2.734929084777832,
      "learning_rate": 7.503690255706026e-05,
      "loss": 0.4039429187774658,
      "memory(GiB)": 70.5,
      "step": 38870,
      "token_acc": 0.9130434782608695,
      "train_speed(iter/s)": 1.453927
    },
    {
      "epoch": 1.6655241849106721,
      "grad_norm": 4.514584064483643,
      "learning_rate": 7.503107704634838e-05,
      "loss": 0.5432223320007324,
      "memory(GiB)": 70.5,
      "step": 38875,
      "token_acc": 0.8862275449101796,
      "train_speed(iter/s)": 1.453932
    },
    {
      "epoch": 1.6657384002399211,
      "grad_norm": 0.04410155117511749,
      "learning_rate": 7.502525108217506e-05,
      "loss": 0.4591036796569824,
      "memory(GiB)": 70.5,
      "step": 38880,
      "token_acc": 0.930327868852459,
      "train_speed(iter/s)": 1.453955
    },
    {
      "epoch": 1.6659526155691702,
      "grad_norm": 1.4571642875671387,
      "learning_rate": 7.501942466464584e-05,
      "loss": 0.22933506965637207,
      "memory(GiB)": 70.5,
      "step": 38885,
      "token_acc": 0.9482758620689655,
      "train_speed(iter/s)": 1.453958
    },
    {
      "epoch": 1.666166830898419,
      "grad_norm": 2.247299909591675,
      "learning_rate": 7.501359779386627e-05,
      "loss": 0.4754020690917969,
      "memory(GiB)": 70.5,
      "step": 38890,
      "token_acc": 0.8801498127340824,
      "train_speed(iter/s)": 1.453961
    },
    {
      "epoch": 1.666381046227668,
      "grad_norm": 1.7490583658218384,
      "learning_rate": 7.500777046994192e-05,
      "loss": 0.35605993270874026,
      "memory(GiB)": 70.5,
      "step": 38895,
      "token_acc": 0.9356913183279743,
      "train_speed(iter/s)": 1.453969
    },
    {
      "epoch": 1.666595261556917,
      "grad_norm": 5.637236595153809,
      "learning_rate": 7.500194269297833e-05,
      "loss": 0.32269964218139646,
      "memory(GiB)": 70.5,
      "step": 38900,
      "token_acc": 0.9359430604982206,
      "train_speed(iter/s)": 1.453968
    },
    {
      "epoch": 1.6668094768861659,
      "grad_norm": 1.5545852184295654,
      "learning_rate": 7.49961144630811e-05,
      "loss": 0.527290678024292,
      "memory(GiB)": 70.5,
      "step": 38905,
      "token_acc": 0.8900343642611683,
      "train_speed(iter/s)": 1.453962
    },
    {
      "epoch": 1.667023692215415,
      "grad_norm": 1.4292106628417969,
      "learning_rate": 7.499028578035581e-05,
      "loss": 0.33984692096710206,
      "memory(GiB)": 70.5,
      "step": 38910,
      "token_acc": 0.9379084967320261,
      "train_speed(iter/s)": 1.453963
    },
    {
      "epoch": 1.667237907544664,
      "grad_norm": 5.771944046020508,
      "learning_rate": 7.498445664490807e-05,
      "loss": 0.49729170799255373,
      "memory(GiB)": 70.5,
      "step": 38915,
      "token_acc": 0.9028213166144201,
      "train_speed(iter/s)": 1.453982
    },
    {
      "epoch": 1.6674521228739128,
      "grad_norm": 1.9439548254013062,
      "learning_rate": 7.497862705684345e-05,
      "loss": 0.24865286350250243,
      "memory(GiB)": 70.5,
      "step": 38920,
      "token_acc": 0.9395973154362416,
      "train_speed(iter/s)": 1.453987
    },
    {
      "epoch": 1.6676663382031618,
      "grad_norm": 4.031322956085205,
      "learning_rate": 7.497279701626756e-05,
      "loss": 0.2507979393005371,
      "memory(GiB)": 70.5,
      "step": 38925,
      "token_acc": 0.9283018867924528,
      "train_speed(iter/s)": 1.453987
    },
    {
      "epoch": 1.6678805535324108,
      "grad_norm": 1.2504323720932007,
      "learning_rate": 7.496696652328603e-05,
      "loss": 0.3519754886627197,
      "memory(GiB)": 70.5,
      "step": 38930,
      "token_acc": 0.9096774193548387,
      "train_speed(iter/s)": 1.453975
    },
    {
      "epoch": 1.6680947688616596,
      "grad_norm": 0.18572726845741272,
      "learning_rate": 7.496113557800446e-05,
      "loss": 0.23576593399047852,
      "memory(GiB)": 70.5,
      "step": 38935,
      "token_acc": 0.9419795221843004,
      "train_speed(iter/s)": 1.453989
    },
    {
      "epoch": 1.6683089841909087,
      "grad_norm": 5.557038307189941,
      "learning_rate": 7.495530418052855e-05,
      "loss": 0.2639147758483887,
      "memory(GiB)": 70.5,
      "step": 38940,
      "token_acc": 0.9291044776119403,
      "train_speed(iter/s)": 1.453992
    },
    {
      "epoch": 1.6685231995201577,
      "grad_norm": 2.786146879196167,
      "learning_rate": 7.494947233096385e-05,
      "loss": 0.3865020990371704,
      "memory(GiB)": 70.5,
      "step": 38945,
      "token_acc": 0.9178082191780822,
      "train_speed(iter/s)": 1.454007
    },
    {
      "epoch": 1.6687374148494065,
      "grad_norm": 3.198312520980835,
      "learning_rate": 7.494364002941608e-05,
      "loss": 0.3998744010925293,
      "memory(GiB)": 70.5,
      "step": 38950,
      "token_acc": 0.9326923076923077,
      "train_speed(iter/s)": 1.454005
    },
    {
      "epoch": 1.6689516301786556,
      "grad_norm": 1.382652997970581,
      "learning_rate": 7.493780727599086e-05,
      "loss": 0.5028648376464844,
      "memory(GiB)": 70.5,
      "step": 38955,
      "token_acc": 0.8719723183391004,
      "train_speed(iter/s)": 1.454012
    },
    {
      "epoch": 1.6691658455079046,
      "grad_norm": 8.177180290222168,
      "learning_rate": 7.493197407079389e-05,
      "loss": 0.5266335487365723,
      "memory(GiB)": 70.5,
      "step": 38960,
      "token_acc": 0.871875,
      "train_speed(iter/s)": 1.453998
    },
    {
      "epoch": 1.6693800608371534,
      "grad_norm": 3.4273643493652344,
      "learning_rate": 7.492614041393079e-05,
      "loss": 0.4031225204467773,
      "memory(GiB)": 70.5,
      "step": 38965,
      "token_acc": 0.9087136929460581,
      "train_speed(iter/s)": 1.453983
    },
    {
      "epoch": 1.6695942761664024,
      "grad_norm": 1.431535005569458,
      "learning_rate": 7.492030630550728e-05,
      "loss": 0.42275471687316896,
      "memory(GiB)": 70.5,
      "step": 38970,
      "token_acc": 0.915068493150685,
      "train_speed(iter/s)": 1.453996
    },
    {
      "epoch": 1.6698084914956515,
      "grad_norm": 3.804105281829834,
      "learning_rate": 7.491447174562906e-05,
      "loss": 0.38226981163024903,
      "memory(GiB)": 70.5,
      "step": 38975,
      "token_acc": 0.9192825112107623,
      "train_speed(iter/s)": 1.45403
    },
    {
      "epoch": 1.6700227068249003,
      "grad_norm": 3.4452786445617676,
      "learning_rate": 7.49086367344018e-05,
      "loss": 0.39681105613708495,
      "memory(GiB)": 70.5,
      "step": 38980,
      "token_acc": 0.8977272727272727,
      "train_speed(iter/s)": 1.454035
    },
    {
      "epoch": 1.6702369221541493,
      "grad_norm": 2.6674563884735107,
      "learning_rate": 7.490280127193122e-05,
      "loss": 0.3235613346099854,
      "memory(GiB)": 70.5,
      "step": 38985,
      "token_acc": 0.9378531073446328,
      "train_speed(iter/s)": 1.454024
    },
    {
      "epoch": 1.6704511374833984,
      "grad_norm": 5.0682878494262695,
      "learning_rate": 7.489696535832305e-05,
      "loss": 0.18958487510681152,
      "memory(GiB)": 70.5,
      "step": 38990,
      "token_acc": 0.959409594095941,
      "train_speed(iter/s)": 1.454032
    },
    {
      "epoch": 1.6706653528126472,
      "grad_norm": 4.926344871520996,
      "learning_rate": 7.489112899368298e-05,
      "loss": 0.8912738800048828,
      "memory(GiB)": 70.5,
      "step": 38995,
      "token_acc": 0.793939393939394,
      "train_speed(iter/s)": 1.454054
    },
    {
      "epoch": 1.6708795681418962,
      "grad_norm": 2.4149560928344727,
      "learning_rate": 7.488529217811676e-05,
      "loss": 0.24499359130859374,
      "memory(GiB)": 70.5,
      "step": 39000,
      "token_acc": 0.9529780564263323,
      "train_speed(iter/s)": 1.454077
    },
    {
      "epoch": 1.6708795681418962,
      "eval_loss": 2.7255446910858154,
      "eval_runtime": 13.6809,
      "eval_samples_per_second": 7.309,
      "eval_steps_per_second": 7.309,
      "eval_token_acc": 0.4157441574415744,
      "step": 39000
    },
    {
      "epoch": 1.6710937834711452,
      "grad_norm": 0.18652161955833435,
      "learning_rate": 7.487945491173012e-05,
      "loss": 0.4250608444213867,
      "memory(GiB)": 70.5,
      "step": 39005,
      "token_acc": 0.5471014492753623,
      "train_speed(iter/s)": 1.453282
    },
    {
      "epoch": 1.671307998800394,
      "grad_norm": 1.8253540992736816,
      "learning_rate": 7.487361719462883e-05,
      "loss": 0.38498940467834475,
      "memory(GiB)": 70.5,
      "step": 39010,
      "token_acc": 0.9263157894736842,
      "train_speed(iter/s)": 1.453288
    },
    {
      "epoch": 1.671522214129643,
      "grad_norm": 7.587583541870117,
      "learning_rate": 7.486777902691864e-05,
      "loss": 0.46563873291015623,
      "memory(GiB)": 70.5,
      "step": 39015,
      "token_acc": 0.8849315068493151,
      "train_speed(iter/s)": 1.453302
    },
    {
      "epoch": 1.6717364294588921,
      "grad_norm": 2.021646499633789,
      "learning_rate": 7.48619404087053e-05,
      "loss": 0.30240283012390134,
      "memory(GiB)": 70.5,
      "step": 39020,
      "token_acc": 0.9227642276422764,
      "train_speed(iter/s)": 1.45331
    },
    {
      "epoch": 1.671950644788141,
      "grad_norm": 4.101499557495117,
      "learning_rate": 7.485610134009458e-05,
      "loss": 0.5715813636779785,
      "memory(GiB)": 70.5,
      "step": 39025,
      "token_acc": 0.8687258687258688,
      "train_speed(iter/s)": 1.453329
    },
    {
      "epoch": 1.67216486011739,
      "grad_norm": 1.5441930294036865,
      "learning_rate": 7.485026182119225e-05,
      "loss": 0.3116016864776611,
      "memory(GiB)": 70.5,
      "step": 39030,
      "token_acc": 0.928082191780822,
      "train_speed(iter/s)": 1.453321
    },
    {
      "epoch": 1.672379075446639,
      "grad_norm": 2.8982908725738525,
      "learning_rate": 7.484442185210414e-05,
      "loss": 0.281200647354126,
      "memory(GiB)": 70.5,
      "step": 39035,
      "token_acc": 0.9518900343642611,
      "train_speed(iter/s)": 1.453309
    },
    {
      "epoch": 1.6725932907758878,
      "grad_norm": 2.913484811782837,
      "learning_rate": 7.483858143293602e-05,
      "loss": 0.5732311725616455,
      "memory(GiB)": 70.5,
      "step": 39040,
      "token_acc": 0.8876712328767123,
      "train_speed(iter/s)": 1.453306
    },
    {
      "epoch": 1.6728075061051368,
      "grad_norm": 2.2026970386505127,
      "learning_rate": 7.483274056379368e-05,
      "loss": 0.4163971900939941,
      "memory(GiB)": 70.5,
      "step": 39045,
      "token_acc": 0.9180887372013652,
      "train_speed(iter/s)": 1.453317
    },
    {
      "epoch": 1.6730217214343859,
      "grad_norm": 6.1174516677856445,
      "learning_rate": 7.482689924478297e-05,
      "loss": 0.3163867235183716,
      "memory(GiB)": 70.5,
      "step": 39050,
      "token_acc": 0.928030303030303,
      "train_speed(iter/s)": 1.453317
    },
    {
      "epoch": 1.6732359367636347,
      "grad_norm": 4.481912612915039,
      "learning_rate": 7.482105747600968e-05,
      "loss": 0.4177393913269043,
      "memory(GiB)": 70.5,
      "step": 39055,
      "token_acc": 0.9148936170212766,
      "train_speed(iter/s)": 1.45333
    },
    {
      "epoch": 1.6734501520928837,
      "grad_norm": 4.711408615112305,
      "learning_rate": 7.481521525757966e-05,
      "loss": 0.4736626148223877,
      "memory(GiB)": 70.5,
      "step": 39060,
      "token_acc": 0.9006211180124224,
      "train_speed(iter/s)": 1.453352
    },
    {
      "epoch": 1.6736643674221328,
      "grad_norm": 4.550480842590332,
      "learning_rate": 7.480937258959872e-05,
      "loss": 0.3201404333114624,
      "memory(GiB)": 70.5,
      "step": 39065,
      "token_acc": 0.9517241379310345,
      "train_speed(iter/s)": 1.453352
    },
    {
      "epoch": 1.6738785827513816,
      "grad_norm": 2.9967703819274902,
      "learning_rate": 7.480352947217274e-05,
      "loss": 0.27299392223358154,
      "memory(GiB)": 70.5,
      "step": 39070,
      "token_acc": 0.9405940594059405,
      "train_speed(iter/s)": 1.453353
    },
    {
      "epoch": 1.6740927980806306,
      "grad_norm": 2.473414659500122,
      "learning_rate": 7.479768590540755e-05,
      "loss": 0.578348970413208,
      "memory(GiB)": 70.5,
      "step": 39075,
      "token_acc": 0.8825503355704698,
      "train_speed(iter/s)": 1.453374
    },
    {
      "epoch": 1.6743070134098796,
      "grad_norm": 1.2777820825576782,
      "learning_rate": 7.479184188940901e-05,
      "loss": 0.1531907558441162,
      "memory(GiB)": 70.5,
      "step": 39080,
      "token_acc": 0.9652777777777778,
      "train_speed(iter/s)": 1.453379
    },
    {
      "epoch": 1.6745212287391285,
      "grad_norm": 1.6519969701766968,
      "learning_rate": 7.4785997424283e-05,
      "loss": 0.5900639533996582,
      "memory(GiB)": 70.5,
      "step": 39085,
      "token_acc": 0.8316151202749141,
      "train_speed(iter/s)": 1.453389
    },
    {
      "epoch": 1.6747354440683775,
      "grad_norm": 1.1631139516830444,
      "learning_rate": 7.47801525101354e-05,
      "loss": 0.3736544370651245,
      "memory(GiB)": 70.5,
      "step": 39090,
      "token_acc": 0.9175257731958762,
      "train_speed(iter/s)": 1.453387
    },
    {
      "epoch": 1.6749496593976265,
      "grad_norm": 3.04616641998291,
      "learning_rate": 7.477430714707208e-05,
      "loss": 0.5009597778320313,
      "memory(GiB)": 70.5,
      "step": 39095,
      "token_acc": 0.9010238907849829,
      "train_speed(iter/s)": 1.45339
    },
    {
      "epoch": 1.6751638747268753,
      "grad_norm": 5.149415969848633,
      "learning_rate": 7.476846133519896e-05,
      "loss": 0.5274594783782959,
      "memory(GiB)": 70.5,
      "step": 39100,
      "token_acc": 0.9080882352941176,
      "train_speed(iter/s)": 1.453414
    },
    {
      "epoch": 1.6753780900561244,
      "grad_norm": 2.807962656021118,
      "learning_rate": 7.476261507462194e-05,
      "loss": 0.3642343282699585,
      "memory(GiB)": 70.5,
      "step": 39105,
      "token_acc": 0.9236947791164659,
      "train_speed(iter/s)": 1.453412
    },
    {
      "epoch": 1.6755923053853734,
      "grad_norm": 5.102998733520508,
      "learning_rate": 7.47567683654469e-05,
      "loss": 0.31098480224609376,
      "memory(GiB)": 70.5,
      "step": 39110,
      "token_acc": 0.9357429718875502,
      "train_speed(iter/s)": 1.453429
    },
    {
      "epoch": 1.6758065207146222,
      "grad_norm": 2.0566043853759766,
      "learning_rate": 7.475092120777978e-05,
      "loss": 0.38287081718444826,
      "memory(GiB)": 70.5,
      "step": 39115,
      "token_acc": 0.9316239316239316,
      "train_speed(iter/s)": 1.453441
    },
    {
      "epoch": 1.6760207360438713,
      "grad_norm": 3.6876673698425293,
      "learning_rate": 7.47450736017265e-05,
      "loss": 0.4461972236633301,
      "memory(GiB)": 70.5,
      "step": 39120,
      "token_acc": 0.9222972972972973,
      "train_speed(iter/s)": 1.453439
    },
    {
      "epoch": 1.6762349513731203,
      "grad_norm": 0.7607577443122864,
      "learning_rate": 7.4739225547393e-05,
      "loss": 0.2663120746612549,
      "memory(GiB)": 70.5,
      "step": 39125,
      "token_acc": 0.9383561643835616,
      "train_speed(iter/s)": 1.453446
    },
    {
      "epoch": 1.676449166702369,
      "grad_norm": 2.4050633907318115,
      "learning_rate": 7.473337704488523e-05,
      "loss": 0.4499367237091064,
      "memory(GiB)": 70.5,
      "step": 39130,
      "token_acc": 0.918918918918919,
      "train_speed(iter/s)": 1.453427
    },
    {
      "epoch": 1.6766633820316181,
      "grad_norm": 2.2471706867218018,
      "learning_rate": 7.472752809430913e-05,
      "loss": 0.6266918182373047,
      "memory(GiB)": 70.5,
      "step": 39135,
      "token_acc": 0.8765432098765432,
      "train_speed(iter/s)": 1.453422
    },
    {
      "epoch": 1.6768775973608672,
      "grad_norm": 2.6011922359466553,
      "learning_rate": 7.472167869577066e-05,
      "loss": 0.4197732925415039,
      "memory(GiB)": 70.5,
      "step": 39140,
      "token_acc": 0.9252669039145908,
      "train_speed(iter/s)": 1.453426
    },
    {
      "epoch": 1.677091812690116,
      "grad_norm": 2.811494827270508,
      "learning_rate": 7.471582884937579e-05,
      "loss": 0.44982032775878905,
      "memory(GiB)": 70.5,
      "step": 39145,
      "token_acc": 0.9054441260744985,
      "train_speed(iter/s)": 1.453466
    },
    {
      "epoch": 1.677306028019365,
      "grad_norm": 4.256427764892578,
      "learning_rate": 7.470997855523049e-05,
      "loss": 0.4517363548278809,
      "memory(GiB)": 70.5,
      "step": 39150,
      "token_acc": 0.9050632911392406,
      "train_speed(iter/s)": 1.453467
    },
    {
      "epoch": 1.677520243348614,
      "grad_norm": 3.073030948638916,
      "learning_rate": 7.470412781344075e-05,
      "loss": 0.36068058013916016,
      "memory(GiB)": 70.5,
      "step": 39155,
      "token_acc": 0.9228187919463087,
      "train_speed(iter/s)": 1.453481
    },
    {
      "epoch": 1.6777344586778629,
      "grad_norm": 1.2666654586791992,
      "learning_rate": 7.469827662411257e-05,
      "loss": 0.3710102796554565,
      "memory(GiB)": 70.5,
      "step": 39160,
      "token_acc": 0.9305555555555556,
      "train_speed(iter/s)": 1.453492
    },
    {
      "epoch": 1.677948674007112,
      "grad_norm": 5.577808856964111,
      "learning_rate": 7.469242498735193e-05,
      "loss": 0.4367549419403076,
      "memory(GiB)": 70.5,
      "step": 39165,
      "token_acc": 0.9047619047619048,
      "train_speed(iter/s)": 1.453491
    },
    {
      "epoch": 1.678162889336361,
      "grad_norm": 7.909582138061523,
      "learning_rate": 7.468657290326486e-05,
      "loss": 0.5910032272338868,
      "memory(GiB)": 70.5,
      "step": 39170,
      "token_acc": 0.8852459016393442,
      "train_speed(iter/s)": 1.453503
    },
    {
      "epoch": 1.6783771046656097,
      "grad_norm": 1.100648045539856,
      "learning_rate": 7.468072037195735e-05,
      "loss": 0.33699545860290525,
      "memory(GiB)": 70.5,
      "step": 39175,
      "token_acc": 0.9136690647482014,
      "train_speed(iter/s)": 1.4535
    },
    {
      "epoch": 1.6785913199948588,
      "grad_norm": 4.490677356719971,
      "learning_rate": 7.467486739353545e-05,
      "loss": 0.4786252021789551,
      "memory(GiB)": 70.5,
      "step": 39180,
      "token_acc": 0.9122137404580153,
      "train_speed(iter/s)": 1.453504
    },
    {
      "epoch": 1.6788055353241078,
      "grad_norm": 5.275033950805664,
      "learning_rate": 7.466901396810517e-05,
      "loss": 0.2973208427429199,
      "memory(GiB)": 70.5,
      "step": 39185,
      "token_acc": 0.9405204460966543,
      "train_speed(iter/s)": 1.453492
    },
    {
      "epoch": 1.6790197506533566,
      "grad_norm": 7.088995933532715,
      "learning_rate": 7.466316009577258e-05,
      "loss": 0.5301689147949219,
      "memory(GiB)": 70.5,
      "step": 39190,
      "token_acc": 0.8917910447761194,
      "train_speed(iter/s)": 1.453485
    },
    {
      "epoch": 1.6792339659826059,
      "grad_norm": 3.319906711578369,
      "learning_rate": 7.465730577664368e-05,
      "loss": 0.4136033058166504,
      "memory(GiB)": 70.5,
      "step": 39195,
      "token_acc": 0.8926380368098159,
      "train_speed(iter/s)": 1.453467
    },
    {
      "epoch": 1.6794481813118547,
      "grad_norm": 1.5990879535675049,
      "learning_rate": 7.465145101082458e-05,
      "loss": 0.4620302677154541,
      "memory(GiB)": 70.5,
      "step": 39200,
      "token_acc": 0.8990825688073395,
      "train_speed(iter/s)": 1.453466
    },
    {
      "epoch": 1.6796623966411035,
      "grad_norm": 3.863457441329956,
      "learning_rate": 7.464559579842132e-05,
      "loss": 0.3371325969696045,
      "memory(GiB)": 70.5,
      "step": 39205,
      "token_acc": 0.9335443037974683,
      "train_speed(iter/s)": 1.453482
    },
    {
      "epoch": 1.6798766119703528,
      "grad_norm": 4.019735336303711,
      "learning_rate": 7.463974013953995e-05,
      "loss": 0.5343682765960693,
      "memory(GiB)": 70.5,
      "step": 39210,
      "token_acc": 0.8947368421052632,
      "train_speed(iter/s)": 1.45348
    },
    {
      "epoch": 1.6800908272996016,
      "grad_norm": 3.2902777194976807,
      "learning_rate": 7.463388403428659e-05,
      "loss": 0.5971166610717773,
      "memory(GiB)": 70.5,
      "step": 39215,
      "token_acc": 0.8970588235294118,
      "train_speed(iter/s)": 1.453499
    },
    {
      "epoch": 1.6803050426288504,
      "grad_norm": 4.3085618019104,
      "learning_rate": 7.46280274827673e-05,
      "loss": 0.4954718589782715,
      "memory(GiB)": 70.5,
      "step": 39220,
      "token_acc": 0.9073359073359073,
      "train_speed(iter/s)": 1.453498
    },
    {
      "epoch": 1.6805192579580996,
      "grad_norm": 4.862689971923828,
      "learning_rate": 7.46221704850882e-05,
      "loss": 0.2961777448654175,
      "memory(GiB)": 70.5,
      "step": 39225,
      "token_acc": 0.9250814332247557,
      "train_speed(iter/s)": 1.453495
    },
    {
      "epoch": 1.6807334732873485,
      "grad_norm": 7.628137588500977,
      "learning_rate": 7.461631304135538e-05,
      "loss": 0.6630476951599121,
      "memory(GiB)": 70.5,
      "step": 39230,
      "token_acc": 0.875,
      "train_speed(iter/s)": 1.453507
    },
    {
      "epoch": 1.6809476886165973,
      "grad_norm": 1.9827187061309814,
      "learning_rate": 7.461045515167497e-05,
      "loss": 0.6108921051025391,
      "memory(GiB)": 70.5,
      "step": 39235,
      "token_acc": 0.8805970149253731,
      "train_speed(iter/s)": 1.453531
    },
    {
      "epoch": 1.6811619039458465,
      "grad_norm": 1.0328272581100464,
      "learning_rate": 7.460459681615305e-05,
      "loss": 0.35951335430145265,
      "memory(GiB)": 70.5,
      "step": 39240,
      "token_acc": 0.9061371841155235,
      "train_speed(iter/s)": 1.453551
    },
    {
      "epoch": 1.6813761192750953,
      "grad_norm": 4.144232749938965,
      "learning_rate": 7.45987380348958e-05,
      "loss": 0.386875057220459,
      "memory(GiB)": 70.5,
      "step": 39245,
      "token_acc": 0.9135802469135802,
      "train_speed(iter/s)": 1.453575
    },
    {
      "epoch": 1.6815903346043442,
      "grad_norm": 3.2281792163848877,
      "learning_rate": 7.459287880800933e-05,
      "loss": 0.5085355281829834,
      "memory(GiB)": 70.5,
      "step": 39250,
      "token_acc": 0.9151943462897526,
      "train_speed(iter/s)": 1.453605
    },
    {
      "epoch": 1.6818045499335934,
      "grad_norm": 1.9063239097595215,
      "learning_rate": 7.458701913559978e-05,
      "loss": 0.36411266326904296,
      "memory(GiB)": 70.5,
      "step": 39255,
      "token_acc": 0.9217171717171717,
      "train_speed(iter/s)": 1.453602
    },
    {
      "epoch": 1.6820187652628422,
      "grad_norm": 3.2494068145751953,
      "learning_rate": 7.458115901777334e-05,
      "loss": 0.35272836685180664,
      "memory(GiB)": 70.5,
      "step": 39260,
      "token_acc": 0.9204152249134948,
      "train_speed(iter/s)": 1.453612
    },
    {
      "epoch": 1.682232980592091,
      "grad_norm": 2.0854570865631104,
      "learning_rate": 7.457529845463612e-05,
      "loss": 0.3392197132110596,
      "memory(GiB)": 70.5,
      "step": 39265,
      "token_acc": 0.9163498098859315,
      "train_speed(iter/s)": 1.453626
    },
    {
      "epoch": 1.6824471959213403,
      "grad_norm": 4.085208415985107,
      "learning_rate": 7.456943744629433e-05,
      "loss": 0.41049861907958984,
      "memory(GiB)": 70.5,
      "step": 39270,
      "token_acc": 0.9163636363636364,
      "train_speed(iter/s)": 1.453631
    },
    {
      "epoch": 1.682661411250589,
      "grad_norm": 3.076906442642212,
      "learning_rate": 7.456357599285413e-05,
      "loss": 0.4479008674621582,
      "memory(GiB)": 70.5,
      "step": 39275,
      "token_acc": 0.9034090909090909,
      "train_speed(iter/s)": 1.453642
    },
    {
      "epoch": 1.682875626579838,
      "grad_norm": 3.33467960357666,
      "learning_rate": 7.455771409442171e-05,
      "loss": 0.5907634735107422,
      "memory(GiB)": 70.5,
      "step": 39280,
      "token_acc": 0.8868613138686131,
      "train_speed(iter/s)": 1.453652
    },
    {
      "epoch": 1.6830898419090872,
      "grad_norm": 0.07366061955690384,
      "learning_rate": 7.455185175110325e-05,
      "loss": 0.35550885200500487,
      "memory(GiB)": 70.5,
      "step": 39285,
      "token_acc": 0.9290540540540541,
      "train_speed(iter/s)": 1.45366
    },
    {
      "epoch": 1.683304057238336,
      "grad_norm": 3.096719980239868,
      "learning_rate": 7.454598896300498e-05,
      "loss": 0.1438979148864746,
      "memory(GiB)": 70.5,
      "step": 39290,
      "token_acc": 0.9700996677740864,
      "train_speed(iter/s)": 1.453677
    },
    {
      "epoch": 1.6835182725675848,
      "grad_norm": 4.366148948669434,
      "learning_rate": 7.454012573023308e-05,
      "loss": 0.5419706344604492,
      "memory(GiB)": 70.5,
      "step": 39295,
      "token_acc": 0.8860294117647058,
      "train_speed(iter/s)": 1.453684
    },
    {
      "epoch": 1.683732487896834,
      "grad_norm": 3.1833105087280273,
      "learning_rate": 7.453426205289379e-05,
      "loss": 0.5459502220153809,
      "memory(GiB)": 70.5,
      "step": 39300,
      "token_acc": 0.8876811594202898,
      "train_speed(iter/s)": 1.453712
    },
    {
      "epoch": 1.6839467032260829,
      "grad_norm": 1.692571997642517,
      "learning_rate": 7.452839793109332e-05,
      "loss": 0.3134181976318359,
      "memory(GiB)": 70.5,
      "step": 39305,
      "token_acc": 0.9402985074626866,
      "train_speed(iter/s)": 1.45374
    },
    {
      "epoch": 1.6841609185553317,
      "grad_norm": 3.9829318523406982,
      "learning_rate": 7.452253336493791e-05,
      "loss": 0.30823550224304197,
      "memory(GiB)": 70.5,
      "step": 39310,
      "token_acc": 0.9383116883116883,
      "train_speed(iter/s)": 1.453744
    },
    {
      "epoch": 1.684375133884581,
      "grad_norm": 4.201863765716553,
      "learning_rate": 7.451666835453382e-05,
      "loss": 0.4910627841949463,
      "memory(GiB)": 70.5,
      "step": 39315,
      "token_acc": 0.9039145907473309,
      "train_speed(iter/s)": 1.453737
    },
    {
      "epoch": 1.6845893492138297,
      "grad_norm": 4.115212917327881,
      "learning_rate": 7.451080289998729e-05,
      "loss": 0.6057473182678222,
      "memory(GiB)": 70.5,
      "step": 39320,
      "token_acc": 0.8933333333333333,
      "train_speed(iter/s)": 1.453736
    },
    {
      "epoch": 1.6848035645430786,
      "grad_norm": 4.390686511993408,
      "learning_rate": 7.450493700140454e-05,
      "loss": 0.4732190132141113,
      "memory(GiB)": 70.5,
      "step": 39325,
      "token_acc": 0.9042904290429042,
      "train_speed(iter/s)": 1.453748
    },
    {
      "epoch": 1.6850177798723278,
      "grad_norm": 3.7310924530029297,
      "learning_rate": 7.44990706588919e-05,
      "loss": 0.32591967582702636,
      "memory(GiB)": 70.5,
      "step": 39330,
      "token_acc": 0.9184952978056427,
      "train_speed(iter/s)": 1.453775
    },
    {
      "epoch": 1.6852319952015766,
      "grad_norm": 0.26358890533447266,
      "learning_rate": 7.44932038725556e-05,
      "loss": 0.42298226356506347,
      "memory(GiB)": 70.5,
      "step": 39335,
      "token_acc": 0.9105960264900662,
      "train_speed(iter/s)": 1.453783
    },
    {
      "epoch": 1.6854462105308254,
      "grad_norm": 0.08083267509937286,
      "learning_rate": 7.448733664250191e-05,
      "loss": 0.2973008394241333,
      "memory(GiB)": 70.5,
      "step": 39340,
      "token_acc": 0.9348534201954397,
      "train_speed(iter/s)": 1.453791
    },
    {
      "epoch": 1.6856604258600747,
      "grad_norm": 0.7274655699729919,
      "learning_rate": 7.448146896883719e-05,
      "loss": 0.1812673807144165,
      "memory(GiB)": 70.5,
      "step": 39345,
      "token_acc": 0.9606986899563319,
      "train_speed(iter/s)": 1.453791
    },
    {
      "epoch": 1.6858746411893235,
      "grad_norm": 2.2656431198120117,
      "learning_rate": 7.447560085166768e-05,
      "loss": 0.493457555770874,
      "memory(GiB)": 70.5,
      "step": 39350,
      "token_acc": 0.8925925925925926,
      "train_speed(iter/s)": 1.453796
    },
    {
      "epoch": 1.6860888565185723,
      "grad_norm": 4.0561652183532715,
      "learning_rate": 7.446973229109969e-05,
      "loss": 0.7436046123504638,
      "memory(GiB)": 70.5,
      "step": 39355,
      "token_acc": 0.8565217391304348,
      "train_speed(iter/s)": 1.453808
    },
    {
      "epoch": 1.6863030718478216,
      "grad_norm": 5.254225730895996,
      "learning_rate": 7.446386328723955e-05,
      "loss": 0.38333725929260254,
      "memory(GiB)": 70.5,
      "step": 39360,
      "token_acc": 0.9192307692307692,
      "train_speed(iter/s)": 1.453802
    },
    {
      "epoch": 1.6865172871770704,
      "grad_norm": 2.7551751136779785,
      "learning_rate": 7.445799384019358e-05,
      "loss": 0.3114474773406982,
      "memory(GiB)": 70.5,
      "step": 39365,
      "token_acc": 0.9424920127795527,
      "train_speed(iter/s)": 1.453804
    },
    {
      "epoch": 1.6867315025063192,
      "grad_norm": 2.132268190383911,
      "learning_rate": 7.44521239500681e-05,
      "loss": 0.2530024290084839,
      "memory(GiB)": 70.5,
      "step": 39370,
      "token_acc": 0.9416342412451362,
      "train_speed(iter/s)": 1.453811
    },
    {
      "epoch": 1.6869457178355685,
      "grad_norm": 2.8480935096740723,
      "learning_rate": 7.444625361696948e-05,
      "loss": 0.4387578010559082,
      "memory(GiB)": 70.5,
      "step": 39375,
      "token_acc": 0.9084745762711864,
      "train_speed(iter/s)": 1.453806
    },
    {
      "epoch": 1.6871599331648173,
      "grad_norm": 1.5193346738815308,
      "learning_rate": 7.444038284100401e-05,
      "loss": 0.3233656406402588,
      "memory(GiB)": 70.5,
      "step": 39380,
      "token_acc": 0.9347826086956522,
      "train_speed(iter/s)": 1.453813
    },
    {
      "epoch": 1.687374148494066,
      "grad_norm": 1.696535587310791,
      "learning_rate": 7.44345116222781e-05,
      "loss": 0.2985325813293457,
      "memory(GiB)": 70.5,
      "step": 39385,
      "token_acc": 0.9320388349514563,
      "train_speed(iter/s)": 1.453825
    },
    {
      "epoch": 1.6875883638233153,
      "grad_norm": 2.9630465507507324,
      "learning_rate": 7.442863996089809e-05,
      "loss": 0.27475039958953856,
      "memory(GiB)": 70.5,
      "step": 39390,
      "token_acc": 0.9540983606557377,
      "train_speed(iter/s)": 1.453832
    },
    {
      "epoch": 1.6878025791525642,
      "grad_norm": 0.8186569213867188,
      "learning_rate": 7.442276785697035e-05,
      "loss": 0.28530886173248293,
      "memory(GiB)": 70.5,
      "step": 39395,
      "token_acc": 0.939622641509434,
      "train_speed(iter/s)": 1.453835
    },
    {
      "epoch": 1.688016794481813,
      "grad_norm": 2.3991196155548096,
      "learning_rate": 7.441689531060125e-05,
      "loss": 0.4431631565093994,
      "memory(GiB)": 70.5,
      "step": 39400,
      "token_acc": 0.897119341563786,
      "train_speed(iter/s)": 1.453849
    },
    {
      "epoch": 1.6882310098110622,
      "grad_norm": 2.882767915725708,
      "learning_rate": 7.441102232189721e-05,
      "loss": 0.41167435646057127,
      "memory(GiB)": 70.5,
      "step": 39405,
      "token_acc": 0.9147286821705426,
      "train_speed(iter/s)": 1.453856
    },
    {
      "epoch": 1.688445225140311,
      "grad_norm": 3.3137733936309814,
      "learning_rate": 7.440514889096457e-05,
      "loss": 0.3560910224914551,
      "memory(GiB)": 70.5,
      "step": 39410,
      "token_acc": 0.9032258064516129,
      "train_speed(iter/s)": 1.453865
    },
    {
      "epoch": 1.6886594404695598,
      "grad_norm": 4.3923749923706055,
      "learning_rate": 7.439927501790978e-05,
      "loss": 0.6875655174255371,
      "memory(GiB)": 70.5,
      "step": 39415,
      "token_acc": 0.8346153846153846,
      "train_speed(iter/s)": 1.453859
    },
    {
      "epoch": 1.688873655798809,
      "grad_norm": 2.249577522277832,
      "learning_rate": 7.439340070283923e-05,
      "loss": 0.29154417514801023,
      "memory(GiB)": 70.5,
      "step": 39420,
      "token_acc": 0.9276315789473685,
      "train_speed(iter/s)": 1.453867
    },
    {
      "epoch": 1.689087871128058,
      "grad_norm": 0.641918957233429,
      "learning_rate": 7.438752594585935e-05,
      "loss": 0.2288520574569702,
      "memory(GiB)": 70.5,
      "step": 39425,
      "token_acc": 0.9295154185022027,
      "train_speed(iter/s)": 1.453864
    },
    {
      "epoch": 1.6893020864573067,
      "grad_norm": 2.885976791381836,
      "learning_rate": 7.438165074707655e-05,
      "loss": 0.33098981380462644,
      "memory(GiB)": 70.5,
      "step": 39430,
      "token_acc": 0.933993399339934,
      "train_speed(iter/s)": 1.453877
    },
    {
      "epoch": 1.689516301786556,
      "grad_norm": 4.120304584503174,
      "learning_rate": 7.437577510659729e-05,
      "loss": 0.5590179920196533,
      "memory(GiB)": 70.5,
      "step": 39435,
      "token_acc": 0.8773946360153256,
      "train_speed(iter/s)": 1.453894
    },
    {
      "epoch": 1.6897305171158048,
      "grad_norm": 6.189676761627197,
      "learning_rate": 7.436989902452798e-05,
      "loss": 0.45163555145263673,
      "memory(GiB)": 70.5,
      "step": 39440,
      "token_acc": 0.8964285714285715,
      "train_speed(iter/s)": 1.45391
    },
    {
      "epoch": 1.6899447324450536,
      "grad_norm": 1.2433191537857056,
      "learning_rate": 7.43640225009751e-05,
      "loss": 0.461668062210083,
      "memory(GiB)": 70.5,
      "step": 39445,
      "token_acc": 0.8940677966101694,
      "train_speed(iter/s)": 1.453929
    },
    {
      "epoch": 1.6901589477743029,
      "grad_norm": 2.3357009887695312,
      "learning_rate": 7.43581455360451e-05,
      "loss": 0.31682634353637695,
      "memory(GiB)": 70.5,
      "step": 39450,
      "token_acc": 0.9344262295081968,
      "train_speed(iter/s)": 1.453929
    },
    {
      "epoch": 1.6903731631035517,
      "grad_norm": 2.1324923038482666,
      "learning_rate": 7.435226812984443e-05,
      "loss": 0.39417898654937744,
      "memory(GiB)": 70.5,
      "step": 39455,
      "token_acc": 0.9344262295081968,
      "train_speed(iter/s)": 1.453931
    },
    {
      "epoch": 1.6905873784328005,
      "grad_norm": 6.436469078063965,
      "learning_rate": 7.434639028247959e-05,
      "loss": 0.6245346546173096,
      "memory(GiB)": 70.5,
      "step": 39460,
      "token_acc": 0.8766233766233766,
      "train_speed(iter/s)": 1.45395
    },
    {
      "epoch": 1.6908015937620497,
      "grad_norm": 4.043915748596191,
      "learning_rate": 7.434051199405705e-05,
      "loss": 0.426737642288208,
      "memory(GiB)": 70.5,
      "step": 39465,
      "token_acc": 0.916058394160584,
      "train_speed(iter/s)": 1.453961
    },
    {
      "epoch": 1.6910158090912986,
      "grad_norm": 4.237301826477051,
      "learning_rate": 7.43346332646833e-05,
      "loss": 0.4572641849517822,
      "memory(GiB)": 70.5,
      "step": 39470,
      "token_acc": 0.9088050314465409,
      "train_speed(iter/s)": 1.453964
    },
    {
      "epoch": 1.6912300244205474,
      "grad_norm": 3.2054364681243896,
      "learning_rate": 7.432875409446483e-05,
      "loss": 0.4971658706665039,
      "memory(GiB)": 70.5,
      "step": 39475,
      "token_acc": 0.8827160493827161,
      "train_speed(iter/s)": 1.453968
    },
    {
      "epoch": 1.6914442397497966,
      "grad_norm": 0.9760488271713257,
      "learning_rate": 7.432287448350819e-05,
      "loss": 0.20381858348846435,
      "memory(GiB)": 70.5,
      "step": 39480,
      "token_acc": 0.948220064724919,
      "train_speed(iter/s)": 1.453974
    },
    {
      "epoch": 1.6916584550790454,
      "grad_norm": 1.940956473350525,
      "learning_rate": 7.431699443191982e-05,
      "loss": 0.31040225028991697,
      "memory(GiB)": 70.5,
      "step": 39485,
      "token_acc": 0.9283489096573209,
      "train_speed(iter/s)": 1.453977
    },
    {
      "epoch": 1.6918726704082943,
      "grad_norm": 3.9587314128875732,
      "learning_rate": 7.431111393980631e-05,
      "loss": 0.4365867614746094,
      "memory(GiB)": 70.5,
      "step": 39490,
      "token_acc": 0.9262536873156342,
      "train_speed(iter/s)": 1.453971
    },
    {
      "epoch": 1.6920868857375435,
      "grad_norm": 0.16576997935771942,
      "learning_rate": 7.430523300727416e-05,
      "loss": 0.5477306365966796,
      "memory(GiB)": 70.5,
      "step": 39495,
      "token_acc": 0.8893280632411067,
      "train_speed(iter/s)": 1.453992
    },
    {
      "epoch": 1.6923011010667923,
      "grad_norm": 3.175525188446045,
      "learning_rate": 7.429935163442991e-05,
      "loss": 0.1810485005378723,
      "memory(GiB)": 70.5,
      "step": 39500,
      "token_acc": 0.9621993127147767,
      "train_speed(iter/s)": 1.454007
    },
    {
      "epoch": 1.6923011010667923,
      "eval_loss": 2.4277913570404053,
      "eval_runtime": 13.348,
      "eval_samples_per_second": 7.492,
      "eval_steps_per_second": 7.492,
      "eval_token_acc": 0.4665757162346521,
      "step": 39500
    },
    {
      "epoch": 1.6925153163960411,
      "grad_norm": 6.847656726837158,
      "learning_rate": 7.429346982138013e-05,
      "loss": 0.6738387107849121,
      "memory(GiB)": 70.5,
      "step": 39505,
      "token_acc": 0.5905292479108635,
      "train_speed(iter/s)": 1.453256
    },
    {
      "epoch": 1.6927295317252904,
      "grad_norm": 3.5379340648651123,
      "learning_rate": 7.428758756823134e-05,
      "loss": 0.528270673751831,
      "memory(GiB)": 70.5,
      "step": 39510,
      "token_acc": 0.8918918918918919,
      "train_speed(iter/s)": 1.453259
    },
    {
      "epoch": 1.6929437470545392,
      "grad_norm": 0.06027791276574135,
      "learning_rate": 7.42817048750901e-05,
      "loss": 0.19927074909210205,
      "memory(GiB)": 70.5,
      "step": 39515,
      "token_acc": 0.9547169811320755,
      "train_speed(iter/s)": 1.453275
    },
    {
      "epoch": 1.693157962383788,
      "grad_norm": 1.699671745300293,
      "learning_rate": 7.427582174206303e-05,
      "loss": 0.48091773986816405,
      "memory(GiB)": 70.5,
      "step": 39520,
      "token_acc": 0.8976109215017065,
      "train_speed(iter/s)": 1.453274
    },
    {
      "epoch": 1.6933721777130373,
      "grad_norm": 3.7019312381744385,
      "learning_rate": 7.426993816925665e-05,
      "loss": 0.2232785701751709,
      "memory(GiB)": 70.5,
      "step": 39525,
      "token_acc": 0.9352941176470588,
      "train_speed(iter/s)": 1.453276
    },
    {
      "epoch": 1.693586393042286,
      "grad_norm": 3.2981677055358887,
      "learning_rate": 7.426405415677758e-05,
      "loss": 0.6087026596069336,
      "memory(GiB)": 70.5,
      "step": 39530,
      "token_acc": 0.8922558922558923,
      "train_speed(iter/s)": 1.453288
    },
    {
      "epoch": 1.6938006083715351,
      "grad_norm": 1.7985786199569702,
      "learning_rate": 7.425816970473241e-05,
      "loss": 0.37131471633911134,
      "memory(GiB)": 70.5,
      "step": 39535,
      "token_acc": 0.9405940594059405,
      "train_speed(iter/s)": 1.453288
    },
    {
      "epoch": 1.6940148237007842,
      "grad_norm": 2.9293789863586426,
      "learning_rate": 7.425228481322775e-05,
      "loss": 0.518099594116211,
      "memory(GiB)": 70.5,
      "step": 39540,
      "token_acc": 0.8981132075471698,
      "train_speed(iter/s)": 1.453288
    },
    {
      "epoch": 1.694229039030033,
      "grad_norm": 1.6029047966003418,
      "learning_rate": 7.424639948237019e-05,
      "loss": 0.47744436264038087,
      "memory(GiB)": 70.5,
      "step": 39545,
      "token_acc": 0.8943894389438944,
      "train_speed(iter/s)": 1.453279
    },
    {
      "epoch": 1.694443254359282,
      "grad_norm": 3.4541280269622803,
      "learning_rate": 7.424051371226636e-05,
      "loss": 0.4991215705871582,
      "memory(GiB)": 70.5,
      "step": 39550,
      "token_acc": 0.9008746355685131,
      "train_speed(iter/s)": 1.453278
    },
    {
      "epoch": 1.694657469688531,
      "grad_norm": 2.0251386165618896,
      "learning_rate": 7.423462750302289e-05,
      "loss": 0.4405148983001709,
      "memory(GiB)": 70.5,
      "step": 39555,
      "token_acc": 0.8922558922558923,
      "train_speed(iter/s)": 1.453306
    },
    {
      "epoch": 1.6948716850177798,
      "grad_norm": 4.645370006561279,
      "learning_rate": 7.42287408547464e-05,
      "loss": 0.4061575412750244,
      "memory(GiB)": 70.5,
      "step": 39560,
      "token_acc": 0.9206349206349206,
      "train_speed(iter/s)": 1.453338
    },
    {
      "epoch": 1.6950859003470289,
      "grad_norm": 5.8109636306762695,
      "learning_rate": 7.422285376754354e-05,
      "loss": 0.3941459655761719,
      "memory(GiB)": 70.5,
      "step": 39565,
      "token_acc": 0.9147982062780269,
      "train_speed(iter/s)": 1.453336
    },
    {
      "epoch": 1.695300115676278,
      "grad_norm": 3.1488802433013916,
      "learning_rate": 7.421696624152098e-05,
      "loss": 0.15615925788879395,
      "memory(GiB)": 70.5,
      "step": 39570,
      "token_acc": 0.9681274900398407,
      "train_speed(iter/s)": 1.453344
    },
    {
      "epoch": 1.6955143310055267,
      "grad_norm": 10.813016891479492,
      "learning_rate": 7.421107827678533e-05,
      "loss": 0.7244872093200684,
      "memory(GiB)": 70.5,
      "step": 39575,
      "token_acc": 0.8436363636363636,
      "train_speed(iter/s)": 1.45334
    },
    {
      "epoch": 1.6957285463347758,
      "grad_norm": 6.663282871246338,
      "learning_rate": 7.420518987344331e-05,
      "loss": 0.48666629791259763,
      "memory(GiB)": 70.5,
      "step": 39580,
      "token_acc": 0.8945454545454545,
      "train_speed(iter/s)": 1.453338
    },
    {
      "epoch": 1.6959427616640248,
      "grad_norm": 3.5082290172576904,
      "learning_rate": 7.419930103160155e-05,
      "loss": 0.4343743324279785,
      "memory(GiB)": 70.5,
      "step": 39585,
      "token_acc": 0.9192982456140351,
      "train_speed(iter/s)": 1.453342
    },
    {
      "epoch": 1.6961569769932736,
      "grad_norm": 4.364416122436523,
      "learning_rate": 7.419341175136677e-05,
      "loss": 0.3516599893569946,
      "memory(GiB)": 70.5,
      "step": 39590,
      "token_acc": 0.915129151291513,
      "train_speed(iter/s)": 1.453339
    },
    {
      "epoch": 1.6963711923225226,
      "grad_norm": 4.954138278961182,
      "learning_rate": 7.418752203284563e-05,
      "loss": 0.43683204650878904,
      "memory(GiB)": 70.5,
      "step": 39595,
      "token_acc": 0.9159159159159159,
      "train_speed(iter/s)": 1.45335
    },
    {
      "epoch": 1.6965854076517717,
      "grad_norm": 7.349950313568115,
      "learning_rate": 7.418163187614485e-05,
      "loss": 0.26599276065826416,
      "memory(GiB)": 70.5,
      "step": 39600,
      "token_acc": 0.9306569343065694,
      "train_speed(iter/s)": 1.453351
    },
    {
      "epoch": 1.6967996229810205,
      "grad_norm": 2.046761989593506,
      "learning_rate": 7.41757412813711e-05,
      "loss": 0.36175649166107177,
      "memory(GiB)": 70.5,
      "step": 39605,
      "token_acc": 0.9006622516556292,
      "train_speed(iter/s)": 1.453355
    },
    {
      "epoch": 1.6970138383102695,
      "grad_norm": 4.17209005355835,
      "learning_rate": 7.416985024863115e-05,
      "loss": 0.4988722324371338,
      "memory(GiB)": 70.5,
      "step": 39610,
      "token_acc": 0.8828125,
      "train_speed(iter/s)": 1.453351
    },
    {
      "epoch": 1.6972280536395186,
      "grad_norm": 4.518965721130371,
      "learning_rate": 7.416395877803166e-05,
      "loss": 0.3137868165969849,
      "memory(GiB)": 70.5,
      "step": 39615,
      "token_acc": 0.9442379182156134,
      "train_speed(iter/s)": 1.453358
    },
    {
      "epoch": 1.6974422689687674,
      "grad_norm": 2.072848320007324,
      "learning_rate": 7.415806686967941e-05,
      "loss": 0.3316534996032715,
      "memory(GiB)": 70.5,
      "step": 39620,
      "token_acc": 0.9233333333333333,
      "train_speed(iter/s)": 1.453358
    },
    {
      "epoch": 1.6976564842980164,
      "grad_norm": 2.0106027126312256,
      "learning_rate": 7.41521745236811e-05,
      "loss": 0.5722187042236329,
      "memory(GiB)": 70.5,
      "step": 39625,
      "token_acc": 0.8745980707395499,
      "train_speed(iter/s)": 1.453371
    },
    {
      "epoch": 1.6978706996272654,
      "grad_norm": 5.31198787689209,
      "learning_rate": 7.414628174014351e-05,
      "loss": 0.38184027671813964,
      "memory(GiB)": 70.5,
      "step": 39630,
      "token_acc": 0.9172661870503597,
      "train_speed(iter/s)": 1.453392
    },
    {
      "epoch": 1.6980849149565143,
      "grad_norm": 1.0502800941467285,
      "learning_rate": 7.414038851917335e-05,
      "loss": 0.2318826675415039,
      "memory(GiB)": 70.5,
      "step": 39635,
      "token_acc": 0.9377431906614786,
      "train_speed(iter/s)": 1.453385
    },
    {
      "epoch": 1.6982991302857633,
      "grad_norm": 3.5061192512512207,
      "learning_rate": 7.413449486087742e-05,
      "loss": 0.2777836322784424,
      "memory(GiB)": 70.5,
      "step": 39640,
      "token_acc": 0.9276595744680851,
      "train_speed(iter/s)": 1.453439
    },
    {
      "epoch": 1.6985133456150123,
      "grad_norm": 10.078221321105957,
      "learning_rate": 7.412860076536247e-05,
      "loss": 0.3857893943786621,
      "memory(GiB)": 70.5,
      "step": 39645,
      "token_acc": 0.9214876033057852,
      "train_speed(iter/s)": 1.45345
    },
    {
      "epoch": 1.6987275609442611,
      "grad_norm": 1.1167449951171875,
      "learning_rate": 7.41227062327353e-05,
      "loss": 0.3161031246185303,
      "memory(GiB)": 70.5,
      "step": 39650,
      "token_acc": 0.9218241042345277,
      "train_speed(iter/s)": 1.453436
    },
    {
      "epoch": 1.6989417762735102,
      "grad_norm": 4.202400207519531,
      "learning_rate": 7.411681126310268e-05,
      "loss": 0.6033103466033936,
      "memory(GiB)": 70.5,
      "step": 39655,
      "token_acc": 0.8630573248407644,
      "train_speed(iter/s)": 1.453426
    },
    {
      "epoch": 1.6991559916027592,
      "grad_norm": 3.0862536430358887,
      "learning_rate": 7.411091585657139e-05,
      "loss": 0.4504354476928711,
      "memory(GiB)": 70.5,
      "step": 39660,
      "token_acc": 0.8914473684210527,
      "train_speed(iter/s)": 1.453423
    },
    {
      "epoch": 1.699370206932008,
      "grad_norm": 2.1973953247070312,
      "learning_rate": 7.410502001324824e-05,
      "loss": 0.43562917709350585,
      "memory(GiB)": 70.5,
      "step": 39665,
      "token_acc": 0.9141104294478528,
      "train_speed(iter/s)": 1.453428
    },
    {
      "epoch": 1.699584422261257,
      "grad_norm": 4.871042251586914,
      "learning_rate": 7.409912373324003e-05,
      "loss": 0.37212185859680175,
      "memory(GiB)": 70.5,
      "step": 39670,
      "token_acc": 0.9164086687306502,
      "train_speed(iter/s)": 1.453457
    },
    {
      "epoch": 1.699798637590506,
      "grad_norm": 3.4923312664031982,
      "learning_rate": 7.409322701665359e-05,
      "loss": 0.5081354141235351,
      "memory(GiB)": 70.5,
      "step": 39675,
      "token_acc": 0.8768115942028986,
      "train_speed(iter/s)": 1.453465
    },
    {
      "epoch": 1.700012852919755,
      "grad_norm": 1.3322924375534058,
      "learning_rate": 7.408732986359576e-05,
      "loss": 0.22161543369293213,
      "memory(GiB)": 70.5,
      "step": 39680,
      "token_acc": 0.9523809523809523,
      "train_speed(iter/s)": 1.453463
    },
    {
      "epoch": 1.700227068249004,
      "grad_norm": 2.2100770473480225,
      "learning_rate": 7.408143227417334e-05,
      "loss": 0.34739949703216555,
      "memory(GiB)": 70.5,
      "step": 39685,
      "token_acc": 0.922360248447205,
      "train_speed(iter/s)": 1.453473
    },
    {
      "epoch": 1.700441283578253,
      "grad_norm": 2.2044146060943604,
      "learning_rate": 7.407553424849318e-05,
      "loss": 0.41053457260131837,
      "memory(GiB)": 70.5,
      "step": 39690,
      "token_acc": 0.9190283400809717,
      "train_speed(iter/s)": 1.45347
    },
    {
      "epoch": 1.7006554989075018,
      "grad_norm": 5.500365734100342,
      "learning_rate": 7.406963578666214e-05,
      "loss": 0.43144936561584474,
      "memory(GiB)": 70.5,
      "step": 39695,
      "token_acc": 0.9125874125874126,
      "train_speed(iter/s)": 1.453477
    },
    {
      "epoch": 1.7008697142367508,
      "grad_norm": 5.909147262573242,
      "learning_rate": 7.406373688878706e-05,
      "loss": 0.3650266170501709,
      "memory(GiB)": 70.5,
      "step": 39700,
      "token_acc": 0.9312977099236641,
      "train_speed(iter/s)": 1.453481
    },
    {
      "epoch": 1.7010839295659999,
      "grad_norm": 5.929091930389404,
      "learning_rate": 7.405783755497482e-05,
      "loss": 0.8873443603515625,
      "memory(GiB)": 70.5,
      "step": 39705,
      "token_acc": 0.8304093567251462,
      "train_speed(iter/s)": 1.453499
    },
    {
      "epoch": 1.7012981448952487,
      "grad_norm": 2.3058664798736572,
      "learning_rate": 7.405193778533229e-05,
      "loss": 0.33358030319213866,
      "memory(GiB)": 70.5,
      "step": 39710,
      "token_acc": 0.9233226837060703,
      "train_speed(iter/s)": 1.453495
    },
    {
      "epoch": 1.7015123602244977,
      "grad_norm": 2.8444371223449707,
      "learning_rate": 7.404603757996634e-05,
      "loss": 0.3866913080215454,
      "memory(GiB)": 70.5,
      "step": 39715,
      "token_acc": 0.9110320284697508,
      "train_speed(iter/s)": 1.453493
    },
    {
      "epoch": 1.7017265755537467,
      "grad_norm": 4.6373677253723145,
      "learning_rate": 7.404013693898385e-05,
      "loss": 0.7098280906677246,
      "memory(GiB)": 70.5,
      "step": 39720,
      "token_acc": 0.8571428571428571,
      "train_speed(iter/s)": 1.453511
    },
    {
      "epoch": 1.7019407908829955,
      "grad_norm": 4.468612194061279,
      "learning_rate": 7.403423586249174e-05,
      "loss": 0.4826189041137695,
      "memory(GiB)": 70.5,
      "step": 39725,
      "token_acc": 0.9013605442176871,
      "train_speed(iter/s)": 1.453502
    },
    {
      "epoch": 1.7021550062122446,
      "grad_norm": 6.562770366668701,
      "learning_rate": 7.402833435059691e-05,
      "loss": 0.4107752799987793,
      "memory(GiB)": 70.5,
      "step": 39730,
      "token_acc": 0.9063670411985019,
      "train_speed(iter/s)": 1.453501
    },
    {
      "epoch": 1.7023692215414936,
      "grad_norm": 2.0124118328094482,
      "learning_rate": 7.402243240340624e-05,
      "loss": 0.41216888427734377,
      "memory(GiB)": 70.5,
      "step": 39735,
      "token_acc": 0.9108527131782945,
      "train_speed(iter/s)": 1.453528
    },
    {
      "epoch": 1.7025834368707424,
      "grad_norm": 3.5274059772491455,
      "learning_rate": 7.401653002102669e-05,
      "loss": 0.17669813632965087,
      "memory(GiB)": 70.5,
      "step": 39740,
      "token_acc": 0.959731543624161,
      "train_speed(iter/s)": 1.453522
    },
    {
      "epoch": 1.7027976521999915,
      "grad_norm": 1.7960559129714966,
      "learning_rate": 7.401062720356516e-05,
      "loss": 0.5387727737426757,
      "memory(GiB)": 70.5,
      "step": 39745,
      "token_acc": 0.8895027624309392,
      "train_speed(iter/s)": 1.453525
    },
    {
      "epoch": 1.7030118675292405,
      "grad_norm": 2.642179250717163,
      "learning_rate": 7.400472395112861e-05,
      "loss": 0.48280348777771,
      "memory(GiB)": 70.5,
      "step": 39750,
      "token_acc": 0.8895522388059701,
      "train_speed(iter/s)": 1.453541
    },
    {
      "epoch": 1.7032260828584893,
      "grad_norm": 1.4964817762374878,
      "learning_rate": 7.399882026382395e-05,
      "loss": 0.5389759540557861,
      "memory(GiB)": 70.5,
      "step": 39755,
      "token_acc": 0.8872832369942196,
      "train_speed(iter/s)": 1.453544
    },
    {
      "epoch": 1.7034402981877383,
      "grad_norm": 1.653286099433899,
      "learning_rate": 7.399291614175815e-05,
      "loss": 0.29520258903503416,
      "memory(GiB)": 70.5,
      "step": 39760,
      "token_acc": 0.9426751592356688,
      "train_speed(iter/s)": 1.453547
    },
    {
      "epoch": 1.7036545135169874,
      "grad_norm": 5.932728290557861,
      "learning_rate": 7.398701158503818e-05,
      "loss": 0.3504958152770996,
      "memory(GiB)": 70.5,
      "step": 39765,
      "token_acc": 0.9216300940438872,
      "train_speed(iter/s)": 1.453572
    },
    {
      "epoch": 1.7038687288462362,
      "grad_norm": 4.66813325881958,
      "learning_rate": 7.398110659377098e-05,
      "loss": 0.6130581378936768,
      "memory(GiB)": 70.5,
      "step": 39770,
      "token_acc": 0.8793650793650793,
      "train_speed(iter/s)": 1.453577
    },
    {
      "epoch": 1.7040829441754852,
      "grad_norm": 3.807218551635742,
      "learning_rate": 7.397520116806354e-05,
      "loss": 0.44211502075195314,
      "memory(GiB)": 70.5,
      "step": 39775,
      "token_acc": 0.9263157894736842,
      "train_speed(iter/s)": 1.453574
    },
    {
      "epoch": 1.7042971595047343,
      "grad_norm": 7.327968597412109,
      "learning_rate": 7.396929530802286e-05,
      "loss": 0.2837367534637451,
      "memory(GiB)": 70.5,
      "step": 39780,
      "token_acc": 0.935064935064935,
      "train_speed(iter/s)": 1.453582
    },
    {
      "epoch": 1.704511374833983,
      "grad_norm": 1.8006559610366821,
      "learning_rate": 7.396338901375588e-05,
      "loss": 0.606471586227417,
      "memory(GiB)": 70.5,
      "step": 39785,
      "token_acc": 0.8688524590163934,
      "train_speed(iter/s)": 1.453582
    },
    {
      "epoch": 1.704725590163232,
      "grad_norm": 1.4814585447311401,
      "learning_rate": 7.395748228536964e-05,
      "loss": 0.22670974731445312,
      "memory(GiB)": 70.5,
      "step": 39790,
      "token_acc": 0.9560117302052786,
      "train_speed(iter/s)": 1.453582
    },
    {
      "epoch": 1.7049398054924811,
      "grad_norm": 0.11664406955242157,
      "learning_rate": 7.395157512297114e-05,
      "loss": 0.3097347021102905,
      "memory(GiB)": 70.5,
      "step": 39795,
      "token_acc": 0.9383561643835616,
      "train_speed(iter/s)": 1.453604
    },
    {
      "epoch": 1.70515402082173,
      "grad_norm": 6.697225093841553,
      "learning_rate": 7.394566752666739e-05,
      "loss": 0.42646331787109376,
      "memory(GiB)": 70.5,
      "step": 39800,
      "token_acc": 0.9003690036900369,
      "train_speed(iter/s)": 1.453607
    },
    {
      "epoch": 1.705368236150979,
      "grad_norm": 2.87565279006958,
      "learning_rate": 7.39397594965654e-05,
      "loss": 0.5181509017944336,
      "memory(GiB)": 70.5,
      "step": 39805,
      "token_acc": 0.9120521172638436,
      "train_speed(iter/s)": 1.453612
    },
    {
      "epoch": 1.705582451480228,
      "grad_norm": 0.18971221148967743,
      "learning_rate": 7.393385103277222e-05,
      "loss": 0.16731547117233275,
      "memory(GiB)": 70.5,
      "step": 39810,
      "token_acc": 0.9553903345724907,
      "train_speed(iter/s)": 1.453624
    },
    {
      "epoch": 1.7057966668094768,
      "grad_norm": 2.24284029006958,
      "learning_rate": 7.392794213539486e-05,
      "loss": 0.31624279022216795,
      "memory(GiB)": 70.5,
      "step": 39815,
      "token_acc": 0.9271255060728745,
      "train_speed(iter/s)": 1.453638
    },
    {
      "epoch": 1.7060108821387259,
      "grad_norm": 2.3621318340301514,
      "learning_rate": 7.392203280454039e-05,
      "loss": 0.5615414619445801,
      "memory(GiB)": 70.5,
      "step": 39820,
      "token_acc": 0.8697068403908795,
      "train_speed(iter/s)": 1.453634
    },
    {
      "epoch": 1.706225097467975,
      "grad_norm": 2.8982651233673096,
      "learning_rate": 7.391612304031585e-05,
      "loss": 0.39543824195861815,
      "memory(GiB)": 70.5,
      "step": 39825,
      "token_acc": 0.9311475409836065,
      "train_speed(iter/s)": 1.453642
    },
    {
      "epoch": 1.7064393127972237,
      "grad_norm": 4.82472038269043,
      "learning_rate": 7.391021284282833e-05,
      "loss": 0.6706676483154297,
      "memory(GiB)": 70.5,
      "step": 39830,
      "token_acc": 0.8513513513513513,
      "train_speed(iter/s)": 1.453636
    },
    {
      "epoch": 1.7066535281264728,
      "grad_norm": 4.396647930145264,
      "learning_rate": 7.390430221218485e-05,
      "loss": 0.2966156482696533,
      "memory(GiB)": 70.5,
      "step": 39835,
      "token_acc": 0.9380530973451328,
      "train_speed(iter/s)": 1.453645
    },
    {
      "epoch": 1.7068677434557218,
      "grad_norm": 4.492462635040283,
      "learning_rate": 7.389839114849253e-05,
      "loss": 0.3112152099609375,
      "memory(GiB)": 70.5,
      "step": 39840,
      "token_acc": 0.925,
      "train_speed(iter/s)": 1.453644
    },
    {
      "epoch": 1.7070819587849706,
      "grad_norm": 4.217214584350586,
      "learning_rate": 7.389247965185841e-05,
      "loss": 0.4428996562957764,
      "memory(GiB)": 70.5,
      "step": 39845,
      "token_acc": 0.9113149847094801,
      "train_speed(iter/s)": 1.45364
    },
    {
      "epoch": 1.7072961741142196,
      "grad_norm": 3.912961721420288,
      "learning_rate": 7.388656772238964e-05,
      "loss": 0.5370938777923584,
      "memory(GiB)": 70.5,
      "step": 39850,
      "token_acc": 0.889937106918239,
      "train_speed(iter/s)": 1.45364
    },
    {
      "epoch": 1.7075103894434687,
      "grad_norm": 3.5605461597442627,
      "learning_rate": 7.388065536019327e-05,
      "loss": 0.7068113327026367,
      "memory(GiB)": 70.5,
      "step": 39855,
      "token_acc": 0.8503184713375797,
      "train_speed(iter/s)": 1.453623
    },
    {
      "epoch": 1.7077246047727175,
      "grad_norm": 1.6122169494628906,
      "learning_rate": 7.387474256537642e-05,
      "loss": 0.3290520668029785,
      "memory(GiB)": 70.5,
      "step": 39860,
      "token_acc": 0.9377162629757786,
      "train_speed(iter/s)": 1.453624
    },
    {
      "epoch": 1.7079388201019665,
      "grad_norm": 3.3263192176818848,
      "learning_rate": 7.386882933804621e-05,
      "loss": 0.5449754238128662,
      "memory(GiB)": 70.5,
      "step": 39865,
      "token_acc": 0.8970588235294118,
      "train_speed(iter/s)": 1.453619
    },
    {
      "epoch": 1.7081530354312155,
      "grad_norm": 1.114397644996643,
      "learning_rate": 7.386291567830978e-05,
      "loss": 0.1982872724533081,
      "memory(GiB)": 70.5,
      "step": 39870,
      "token_acc": 0.9605263157894737,
      "train_speed(iter/s)": 1.453636
    },
    {
      "epoch": 1.7083672507604644,
      "grad_norm": 2.9174795150756836,
      "learning_rate": 7.385700158627424e-05,
      "loss": 0.36777381896972655,
      "memory(GiB)": 70.5,
      "step": 39875,
      "token_acc": 0.921146953405018,
      "train_speed(iter/s)": 1.453632
    },
    {
      "epoch": 1.7085814660897134,
      "grad_norm": 2.2404842376708984,
      "learning_rate": 7.385108706204675e-05,
      "loss": 0.578748369216919,
      "memory(GiB)": 70.5,
      "step": 39880,
      "token_acc": 0.8802588996763754,
      "train_speed(iter/s)": 1.453636
    },
    {
      "epoch": 1.7087956814189624,
      "grad_norm": 5.900612831115723,
      "learning_rate": 7.384517210573444e-05,
      "loss": 0.6765610694885253,
      "memory(GiB)": 70.5,
      "step": 39885,
      "token_acc": 0.8633333333333333,
      "train_speed(iter/s)": 1.45365
    },
    {
      "epoch": 1.7090098967482112,
      "grad_norm": 5.01853084564209,
      "learning_rate": 7.383925671744446e-05,
      "loss": 0.33933405876159667,
      "memory(GiB)": 70.5,
      "step": 39890,
      "token_acc": 0.9203980099502488,
      "train_speed(iter/s)": 1.453681
    },
    {
      "epoch": 1.7092241120774603,
      "grad_norm": 4.088042259216309,
      "learning_rate": 7.383334089728398e-05,
      "loss": 0.6002077102661133,
      "memory(GiB)": 70.5,
      "step": 39895,
      "token_acc": 0.8620689655172413,
      "train_speed(iter/s)": 1.453687
    },
    {
      "epoch": 1.7094383274067093,
      "grad_norm": 1.980559229850769,
      "learning_rate": 7.382742464536017e-05,
      "loss": 0.36275572776794435,
      "memory(GiB)": 70.5,
      "step": 39900,
      "token_acc": 0.9076923076923077,
      "train_speed(iter/s)": 1.453731
    },
    {
      "epoch": 1.7096525427359581,
      "grad_norm": 2.0722663402557373,
      "learning_rate": 7.382150796178022e-05,
      "loss": 0.2503673791885376,
      "memory(GiB)": 70.5,
      "step": 39905,
      "token_acc": 0.9305135951661632,
      "train_speed(iter/s)": 1.45374
    },
    {
      "epoch": 1.7098667580652072,
      "grad_norm": 2.238386392593384,
      "learning_rate": 7.38155908466513e-05,
      "loss": 0.2872618198394775,
      "memory(GiB)": 70.5,
      "step": 39910,
      "token_acc": 0.9330985915492958,
      "train_speed(iter/s)": 1.453759
    },
    {
      "epoch": 1.7100809733944562,
      "grad_norm": 2.973771810531616,
      "learning_rate": 7.380967330008063e-05,
      "loss": 0.17315187454223632,
      "memory(GiB)": 70.5,
      "step": 39915,
      "token_acc": 0.9530201342281879,
      "train_speed(iter/s)": 1.453745
    },
    {
      "epoch": 1.710295188723705,
      "grad_norm": 2.130073308944702,
      "learning_rate": 7.380375532217537e-05,
      "loss": 0.3906387805938721,
      "memory(GiB)": 70.5,
      "step": 39920,
      "token_acc": 0.9228295819935691,
      "train_speed(iter/s)": 1.453743
    },
    {
      "epoch": 1.710509404052954,
      "grad_norm": 7.174804210662842,
      "learning_rate": 7.379783691304276e-05,
      "loss": 0.5717191696166992,
      "memory(GiB)": 70.5,
      "step": 39925,
      "token_acc": 0.8593155893536122,
      "train_speed(iter/s)": 1.45373
    },
    {
      "epoch": 1.710723619382203,
      "grad_norm": 2.804737091064453,
      "learning_rate": 7.379191807279002e-05,
      "loss": 0.3589658498764038,
      "memory(GiB)": 70.5,
      "step": 39930,
      "token_acc": 0.91701244813278,
      "train_speed(iter/s)": 1.453743
    },
    {
      "epoch": 1.7109378347114519,
      "grad_norm": 1.4279381036758423,
      "learning_rate": 7.378599880152434e-05,
      "loss": 0.44177865982055664,
      "memory(GiB)": 70.5,
      "step": 39935,
      "token_acc": 0.9046242774566474,
      "train_speed(iter/s)": 1.453745
    },
    {
      "epoch": 1.711152050040701,
      "grad_norm": 5.142737865447998,
      "learning_rate": 7.3780079099353e-05,
      "loss": 0.5519931793212891,
      "memory(GiB)": 70.5,
      "step": 39940,
      "token_acc": 0.9050847457627119,
      "train_speed(iter/s)": 1.453738
    },
    {
      "epoch": 1.71136626536995,
      "grad_norm": 1.8219811916351318,
      "learning_rate": 7.377415896638322e-05,
      "loss": 0.24969334602355958,
      "memory(GiB)": 70.5,
      "step": 39945,
      "token_acc": 0.9538461538461539,
      "train_speed(iter/s)": 1.453733
    },
    {
      "epoch": 1.7115804806991988,
      "grad_norm": 4.7654619216918945,
      "learning_rate": 7.376823840272224e-05,
      "loss": 0.7671055793762207,
      "memory(GiB)": 70.5,
      "step": 39950,
      "token_acc": 0.8305555555555556,
      "train_speed(iter/s)": 1.453728
    },
    {
      "epoch": 1.7117946960284478,
      "grad_norm": 1.3879125118255615,
      "learning_rate": 7.376231740847734e-05,
      "loss": 0.1832043170928955,
      "memory(GiB)": 70.5,
      "step": 39955,
      "token_acc": 0.9541284403669725,
      "train_speed(iter/s)": 1.453742
    },
    {
      "epoch": 1.7120089113576968,
      "grad_norm": 1.6608667373657227,
      "learning_rate": 7.375639598375574e-05,
      "loss": 0.3524176120758057,
      "memory(GiB)": 70.5,
      "step": 39960,
      "token_acc": 0.9422382671480144,
      "train_speed(iter/s)": 1.45374
    },
    {
      "epoch": 1.7122231266869457,
      "grad_norm": 6.806647300720215,
      "learning_rate": 7.375047412866476e-05,
      "loss": 0.3468447208404541,
      "memory(GiB)": 70.5,
      "step": 39965,
      "token_acc": 0.9377431906614786,
      "train_speed(iter/s)": 1.453738
    },
    {
      "epoch": 1.7124373420161947,
      "grad_norm": 3.251248836517334,
      "learning_rate": 7.374455184331167e-05,
      "loss": 0.4272147178649902,
      "memory(GiB)": 70.5,
      "step": 39970,
      "token_acc": 0.9008620689655172,
      "train_speed(iter/s)": 1.453735
    },
    {
      "epoch": 1.7126515573454437,
      "grad_norm": 4.939101696014404,
      "learning_rate": 7.373862912780373e-05,
      "loss": 0.29285976886749265,
      "memory(GiB)": 70.5,
      "step": 39975,
      "token_acc": 0.9335548172757475,
      "train_speed(iter/s)": 1.453747
    },
    {
      "epoch": 1.7128657726746925,
      "grad_norm": 3.0331406593322754,
      "learning_rate": 7.373270598224827e-05,
      "loss": 0.4797659873962402,
      "memory(GiB)": 70.5,
      "step": 39980,
      "token_acc": 0.9015873015873016,
      "train_speed(iter/s)": 1.453746
    },
    {
      "epoch": 1.7130799880039416,
      "grad_norm": 4.906414985656738,
      "learning_rate": 7.372678240675256e-05,
      "loss": 0.15132291316986085,
      "memory(GiB)": 70.5,
      "step": 39985,
      "token_acc": 0.9691119691119691,
      "train_speed(iter/s)": 1.453764
    },
    {
      "epoch": 1.7132942033331906,
      "grad_norm": 3.2881481647491455,
      "learning_rate": 7.372085840142394e-05,
      "loss": 0.34013614654541013,
      "memory(GiB)": 70.5,
      "step": 39990,
      "token_acc": 0.9415204678362573,
      "train_speed(iter/s)": 1.453766
    },
    {
      "epoch": 1.7135084186624394,
      "grad_norm": 1.8002043962478638,
      "learning_rate": 7.371493396636973e-05,
      "loss": 0.24905917644500733,
      "memory(GiB)": 70.5,
      "step": 39995,
      "token_acc": 0.952247191011236,
      "train_speed(iter/s)": 1.453769
    },
    {
      "epoch": 1.7137226339916884,
      "grad_norm": 3.570923089981079,
      "learning_rate": 7.370900910169723e-05,
      "loss": 0.2509594917297363,
      "memory(GiB)": 70.5,
      "step": 40000,
      "token_acc": 0.9345238095238095,
      "train_speed(iter/s)": 1.453774
    },
    {
      "epoch": 1.7137226339916884,
      "eval_loss": 2.294095039367676,
      "eval_runtime": 13.0536,
      "eval_samples_per_second": 7.661,
      "eval_steps_per_second": 7.661,
      "eval_token_acc": 0.4421965317919075,
      "step": 40000
    },
    {
      "epoch": 1.7139368493209375,
      "grad_norm": 6.318020820617676,
      "learning_rate": 7.370308380751378e-05,
      "loss": 0.7445897102355957,
      "memory(GiB)": 70.5,
      "step": 40005,
      "token_acc": 0.5689320388349515,
      "train_speed(iter/s)": 1.453041
    },
    {
      "epoch": 1.7141510646501863,
      "grad_norm": 1.8453130722045898,
      "learning_rate": 7.369715808392675e-05,
      "loss": 0.18822838068008424,
      "memory(GiB)": 70.5,
      "step": 40010,
      "token_acc": 0.9566787003610109,
      "train_speed(iter/s)": 1.453052
    },
    {
      "epoch": 1.7143652799794353,
      "grad_norm": 7.220891952514648,
      "learning_rate": 7.369123193104347e-05,
      "loss": 0.6752798557281494,
      "memory(GiB)": 70.5,
      "step": 40015,
      "token_acc": 0.8847457627118644,
      "train_speed(iter/s)": 1.453052
    },
    {
      "epoch": 1.7145794953086844,
      "grad_norm": 3.4730148315429688,
      "learning_rate": 7.368530534897128e-05,
      "loss": 0.6098117828369141,
      "memory(GiB)": 70.5,
      "step": 40020,
      "token_acc": 0.8625954198473282,
      "train_speed(iter/s)": 1.45305
    },
    {
      "epoch": 1.7147937106379332,
      "grad_norm": 0.39719921350479126,
      "learning_rate": 7.36793783378176e-05,
      "loss": 0.24991161823272706,
      "memory(GiB)": 70.5,
      "step": 40025,
      "token_acc": 0.9354838709677419,
      "train_speed(iter/s)": 1.453058
    },
    {
      "epoch": 1.7150079259671822,
      "grad_norm": 3.5211613178253174,
      "learning_rate": 7.367345089768976e-05,
      "loss": 0.25710110664367675,
      "memory(GiB)": 70.5,
      "step": 40030,
      "token_acc": 0.9580645161290322,
      "train_speed(iter/s)": 1.453058
    },
    {
      "epoch": 1.7152221412964312,
      "grad_norm": 2.2936787605285645,
      "learning_rate": 7.366752302869513e-05,
      "loss": 0.4603695869445801,
      "memory(GiB)": 70.5,
      "step": 40035,
      "token_acc": 0.8761904761904762,
      "train_speed(iter/s)": 1.453051
    },
    {
      "epoch": 1.71543635662568,
      "grad_norm": 2.1816041469573975,
      "learning_rate": 7.366159473094112e-05,
      "loss": 0.36108386516571045,
      "memory(GiB)": 70.5,
      "step": 40040,
      "token_acc": 0.9400749063670412,
      "train_speed(iter/s)": 1.453076
    },
    {
      "epoch": 1.715650571954929,
      "grad_norm": 3.6904640197753906,
      "learning_rate": 7.365566600453513e-05,
      "loss": 0.3421593427658081,
      "memory(GiB)": 70.5,
      "step": 40045,
      "token_acc": 0.9181494661921709,
      "train_speed(iter/s)": 1.45308
    },
    {
      "epoch": 1.7158647872841781,
      "grad_norm": 5.137673377990723,
      "learning_rate": 7.364973684958456e-05,
      "loss": 0.5656716346740722,
      "memory(GiB)": 70.5,
      "step": 40050,
      "token_acc": 0.8782287822878229,
      "train_speed(iter/s)": 1.453065
    },
    {
      "epoch": 1.716079002613427,
      "grad_norm": 1.327527642250061,
      "learning_rate": 7.364380726619681e-05,
      "loss": 0.3794901371002197,
      "memory(GiB)": 70.5,
      "step": 40055,
      "token_acc": 0.9112426035502958,
      "train_speed(iter/s)": 1.453085
    },
    {
      "epoch": 1.716293217942676,
      "grad_norm": 2.97070574760437,
      "learning_rate": 7.363787725447935e-05,
      "loss": 0.42485966682434084,
      "memory(GiB)": 70.5,
      "step": 40060,
      "token_acc": 0.9177215189873418,
      "train_speed(iter/s)": 1.453084
    },
    {
      "epoch": 1.716507433271925,
      "grad_norm": 2.3106179237365723,
      "learning_rate": 7.363194681453953e-05,
      "loss": 0.39740848541259766,
      "memory(GiB)": 70.5,
      "step": 40065,
      "token_acc": 0.9111111111111111,
      "train_speed(iter/s)": 1.453092
    },
    {
      "epoch": 1.7167216486011738,
      "grad_norm": 0.5247345566749573,
      "learning_rate": 7.362601594648484e-05,
      "loss": 0.5045602798461915,
      "memory(GiB)": 70.5,
      "step": 40070,
      "token_acc": 0.8888888888888888,
      "train_speed(iter/s)": 1.453109
    },
    {
      "epoch": 1.7169358639304229,
      "grad_norm": 4.344967842102051,
      "learning_rate": 7.36200846504227e-05,
      "loss": 0.4804414749145508,
      "memory(GiB)": 70.5,
      "step": 40075,
      "token_acc": 0.9314079422382672,
      "train_speed(iter/s)": 1.453111
    },
    {
      "epoch": 1.717150079259672,
      "grad_norm": 4.591266632080078,
      "learning_rate": 7.361415292646057e-05,
      "loss": 0.3370544195175171,
      "memory(GiB)": 70.5,
      "step": 40080,
      "token_acc": 0.9314516129032258,
      "train_speed(iter/s)": 1.453112
    },
    {
      "epoch": 1.7173642945889207,
      "grad_norm": 3.957625150680542,
      "learning_rate": 7.360822077470592e-05,
      "loss": 0.598933219909668,
      "memory(GiB)": 70.5,
      "step": 40085,
      "token_acc": 0.8786127167630058,
      "train_speed(iter/s)": 1.453133
    },
    {
      "epoch": 1.7175785099181697,
      "grad_norm": 3.1562070846557617,
      "learning_rate": 7.360228819526621e-05,
      "loss": 0.3233060836791992,
      "memory(GiB)": 70.5,
      "step": 40090,
      "token_acc": 0.9233449477351916,
      "train_speed(iter/s)": 1.453139
    },
    {
      "epoch": 1.7177927252474188,
      "grad_norm": 2.9212331771850586,
      "learning_rate": 7.35963551882489e-05,
      "loss": 0.3382901906967163,
      "memory(GiB)": 70.5,
      "step": 40095,
      "token_acc": 0.9409448818897638,
      "train_speed(iter/s)": 1.453139
    },
    {
      "epoch": 1.7180069405766676,
      "grad_norm": 0.7904892563819885,
      "learning_rate": 7.359042175376148e-05,
      "loss": 0.29409942626953123,
      "memory(GiB)": 70.5,
      "step": 40100,
      "token_acc": 0.9471830985915493,
      "train_speed(iter/s)": 1.453136
    },
    {
      "epoch": 1.7182211559059166,
      "grad_norm": 4.559720516204834,
      "learning_rate": 7.358448789191142e-05,
      "loss": 0.5519734859466553,
      "memory(GiB)": 70.5,
      "step": 40105,
      "token_acc": 0.8790849673202614,
      "train_speed(iter/s)": 1.453129
    },
    {
      "epoch": 1.7184353712351657,
      "grad_norm": 4.2336602210998535,
      "learning_rate": 7.357855360280626e-05,
      "loss": 0.20005688667297364,
      "memory(GiB)": 70.5,
      "step": 40110,
      "token_acc": 0.950530035335689,
      "train_speed(iter/s)": 1.453126
    },
    {
      "epoch": 1.7186495865644145,
      "grad_norm": 0.7095297574996948,
      "learning_rate": 7.357261888655349e-05,
      "loss": 0.3711925745010376,
      "memory(GiB)": 70.5,
      "step": 40115,
      "token_acc": 0.9298245614035088,
      "train_speed(iter/s)": 1.453115
    },
    {
      "epoch": 1.7188638018936635,
      "grad_norm": 2.1976704597473145,
      "learning_rate": 7.35666837432606e-05,
      "loss": 0.29005942344665525,
      "memory(GiB)": 70.5,
      "step": 40120,
      "token_acc": 0.935374149659864,
      "train_speed(iter/s)": 1.453127
    },
    {
      "epoch": 1.7190780172229125,
      "grad_norm": 3.3036117553710938,
      "learning_rate": 7.356074817303513e-05,
      "loss": 0.39294216632843015,
      "memory(GiB)": 70.5,
      "step": 40125,
      "token_acc": 0.9272030651340997,
      "train_speed(iter/s)": 1.453137
    },
    {
      "epoch": 1.7192922325521613,
      "grad_norm": 1.949184536933899,
      "learning_rate": 7.355481217598461e-05,
      "loss": 0.1665647506713867,
      "memory(GiB)": 70.5,
      "step": 40130,
      "token_acc": 0.9668508287292817,
      "train_speed(iter/s)": 1.453148
    },
    {
      "epoch": 1.7195064478814104,
      "grad_norm": 4.6507673263549805,
      "learning_rate": 7.354887575221656e-05,
      "loss": 0.37160024642944334,
      "memory(GiB)": 70.5,
      "step": 40135,
      "token_acc": 0.9345794392523364,
      "train_speed(iter/s)": 1.45315
    },
    {
      "epoch": 1.7197206632106594,
      "grad_norm": 4.823300361633301,
      "learning_rate": 7.354293890183854e-05,
      "loss": 0.409254264831543,
      "memory(GiB)": 70.5,
      "step": 40140,
      "token_acc": 0.9076923076923077,
      "train_speed(iter/s)": 1.453155
    },
    {
      "epoch": 1.7199348785399082,
      "grad_norm": 1.444100260734558,
      "learning_rate": 7.353700162495811e-05,
      "loss": 0.3086298704147339,
      "memory(GiB)": 70.5,
      "step": 40145,
      "token_acc": 0.936,
      "train_speed(iter/s)": 1.453153
    },
    {
      "epoch": 1.7201490938691573,
      "grad_norm": 5.9218668937683105,
      "learning_rate": 7.35310639216828e-05,
      "loss": 0.5112557888031006,
      "memory(GiB)": 70.5,
      "step": 40150,
      "token_acc": 0.8986013986013986,
      "train_speed(iter/s)": 1.45317
    },
    {
      "epoch": 1.7203633091984063,
      "grad_norm": 2.5478289127349854,
      "learning_rate": 7.35251257921202e-05,
      "loss": 0.1282513380050659,
      "memory(GiB)": 70.5,
      "step": 40155,
      "token_acc": 0.9752650176678446,
      "train_speed(iter/s)": 1.453166
    },
    {
      "epoch": 1.7205775245276551,
      "grad_norm": 4.938320636749268,
      "learning_rate": 7.351918723637788e-05,
      "loss": 0.5451516151428223,
      "memory(GiB)": 70.5,
      "step": 40160,
      "token_acc": 0.9078014184397163,
      "train_speed(iter/s)": 1.453192
    },
    {
      "epoch": 1.7207917398569041,
      "grad_norm": 6.41141414642334,
      "learning_rate": 7.35132482545634e-05,
      "loss": 0.39808359146118166,
      "memory(GiB)": 70.5,
      "step": 40165,
      "token_acc": 0.9141104294478528,
      "train_speed(iter/s)": 1.453184
    },
    {
      "epoch": 1.7210059551861532,
      "grad_norm": 3.418522357940674,
      "learning_rate": 7.350730884678441e-05,
      "loss": 0.6259201526641845,
      "memory(GiB)": 70.5,
      "step": 40170,
      "token_acc": 0.8791946308724832,
      "train_speed(iter/s)": 1.453194
    },
    {
      "epoch": 1.721220170515402,
      "grad_norm": 4.051334381103516,
      "learning_rate": 7.350136901314845e-05,
      "loss": 0.26037890911102296,
      "memory(GiB)": 70.5,
      "step": 40175,
      "token_acc": 0.9498327759197325,
      "train_speed(iter/s)": 1.453203
    },
    {
      "epoch": 1.721434385844651,
      "grad_norm": 4.875328063964844,
      "learning_rate": 7.349542875376312e-05,
      "loss": 0.9502505302429199,
      "memory(GiB)": 70.5,
      "step": 40180,
      "token_acc": 0.8156028368794326,
      "train_speed(iter/s)": 1.453227
    },
    {
      "epoch": 1.7216486011739,
      "grad_norm": 5.61622428894043,
      "learning_rate": 7.348948806873609e-05,
      "loss": 0.44144444465637206,
      "memory(GiB)": 70.5,
      "step": 40185,
      "token_acc": 0.9281045751633987,
      "train_speed(iter/s)": 1.453249
    },
    {
      "epoch": 1.7218628165031489,
      "grad_norm": 4.245009899139404,
      "learning_rate": 7.348354695817493e-05,
      "loss": 0.16372921466827392,
      "memory(GiB)": 70.5,
      "step": 40190,
      "token_acc": 0.9621212121212122,
      "train_speed(iter/s)": 1.453247
    },
    {
      "epoch": 1.722077031832398,
      "grad_norm": 3.1303248405456543,
      "learning_rate": 7.347760542218729e-05,
      "loss": 0.39597363471984864,
      "memory(GiB)": 70.5,
      "step": 40195,
      "token_acc": 0.9176829268292683,
      "train_speed(iter/s)": 1.453249
    },
    {
      "epoch": 1.722291247161647,
      "grad_norm": 4.359979629516602,
      "learning_rate": 7.347166346088081e-05,
      "loss": 0.879051399230957,
      "memory(GiB)": 70.5,
      "step": 40200,
      "token_acc": 0.8074074074074075,
      "train_speed(iter/s)": 1.453307
    },
    {
      "epoch": 1.7225054624908958,
      "grad_norm": 0.4837651252746582,
      "learning_rate": 7.346572107436313e-05,
      "loss": 0.4395142078399658,
      "memory(GiB)": 70.5,
      "step": 40205,
      "token_acc": 0.9053030303030303,
      "train_speed(iter/s)": 1.453315
    },
    {
      "epoch": 1.7227196778201448,
      "grad_norm": 2.898780584335327,
      "learning_rate": 7.345977826274189e-05,
      "loss": 0.7224379062652588,
      "memory(GiB)": 70.5,
      "step": 40210,
      "token_acc": 0.8878205128205128,
      "train_speed(iter/s)": 1.453331
    },
    {
      "epoch": 1.7229338931493938,
      "grad_norm": 2.8262717723846436,
      "learning_rate": 7.345383502612477e-05,
      "loss": 0.16394083499908446,
      "memory(GiB)": 70.5,
      "step": 40215,
      "token_acc": 0.9492753623188406,
      "train_speed(iter/s)": 1.45332
    },
    {
      "epoch": 1.7231481084786426,
      "grad_norm": 4.460483551025391,
      "learning_rate": 7.344789136461942e-05,
      "loss": 0.4113733768463135,
      "memory(GiB)": 70.5,
      "step": 40220,
      "token_acc": 0.9036544850498339,
      "train_speed(iter/s)": 1.453318
    },
    {
      "epoch": 1.7233623238078917,
      "grad_norm": 6.099575996398926,
      "learning_rate": 7.344194727833354e-05,
      "loss": 0.17746372222900392,
      "memory(GiB)": 70.5,
      "step": 40225,
      "token_acc": 0.9607142857142857,
      "train_speed(iter/s)": 1.453315
    },
    {
      "epoch": 1.7235765391371407,
      "grad_norm": 2.972721576690674,
      "learning_rate": 7.343600276737477e-05,
      "loss": 0.49957799911499023,
      "memory(GiB)": 70.5,
      "step": 40230,
      "token_acc": 0.9071207430340558,
      "train_speed(iter/s)": 1.453318
    },
    {
      "epoch": 1.7237907544663895,
      "grad_norm": 1.6001838445663452,
      "learning_rate": 7.343005783185085e-05,
      "loss": 0.23803446292877198,
      "memory(GiB)": 70.5,
      "step": 40235,
      "token_acc": 0.946236559139785,
      "train_speed(iter/s)": 1.453318
    },
    {
      "epoch": 1.7240049697956386,
      "grad_norm": 5.1008710861206055,
      "learning_rate": 7.342411247186942e-05,
      "loss": 0.46133909225463865,
      "memory(GiB)": 70.5,
      "step": 40240,
      "token_acc": 0.8951310861423221,
      "train_speed(iter/s)": 1.453327
    },
    {
      "epoch": 1.7242191851248876,
      "grad_norm": 5.470424652099609,
      "learning_rate": 7.341816668753825e-05,
      "loss": 0.4276398181915283,
      "memory(GiB)": 70.5,
      "step": 40245,
      "token_acc": 0.9166666666666666,
      "train_speed(iter/s)": 1.453339
    },
    {
      "epoch": 1.7244334004541364,
      "grad_norm": 2.0748584270477295,
      "learning_rate": 7.341222047896501e-05,
      "loss": 0.5194760799407959,
      "memory(GiB)": 70.5,
      "step": 40250,
      "token_acc": 0.8794788273615635,
      "train_speed(iter/s)": 1.453366
    },
    {
      "epoch": 1.7246476157833854,
      "grad_norm": 1.9538187980651855,
      "learning_rate": 7.340627384625743e-05,
      "loss": 0.43518266677856443,
      "memory(GiB)": 70.5,
      "step": 40255,
      "token_acc": 0.9120521172638436,
      "train_speed(iter/s)": 1.453371
    },
    {
      "epoch": 1.7248618311126345,
      "grad_norm": 6.657334327697754,
      "learning_rate": 7.340032678952325e-05,
      "loss": 0.5976600170135498,
      "memory(GiB)": 70.5,
      "step": 40260,
      "token_acc": 0.8990825688073395,
      "train_speed(iter/s)": 1.453382
    },
    {
      "epoch": 1.7250760464418833,
      "grad_norm": 2.3538126945495605,
      "learning_rate": 7.339437930887018e-05,
      "loss": 0.45953822135925293,
      "memory(GiB)": 70.5,
      "step": 40265,
      "token_acc": 0.905982905982906,
      "train_speed(iter/s)": 1.453405
    },
    {
      "epoch": 1.7252902617711323,
      "grad_norm": 3.4689881801605225,
      "learning_rate": 7.338843140440601e-05,
      "loss": 0.2318148136138916,
      "memory(GiB)": 70.5,
      "step": 40270,
      "token_acc": 0.9535714285714286,
      "train_speed(iter/s)": 1.453413
    },
    {
      "epoch": 1.7255044771003814,
      "grad_norm": 5.176538467407227,
      "learning_rate": 7.338248307623844e-05,
      "loss": 0.43714194297790526,
      "memory(GiB)": 70.5,
      "step": 40275,
      "token_acc": 0.9411764705882353,
      "train_speed(iter/s)": 1.453403
    },
    {
      "epoch": 1.7257186924296302,
      "grad_norm": 2.829555034637451,
      "learning_rate": 7.337653432447527e-05,
      "loss": 0.32476885318756105,
      "memory(GiB)": 70.5,
      "step": 40280,
      "token_acc": 0.9300291545189504,
      "train_speed(iter/s)": 1.453404
    },
    {
      "epoch": 1.7259329077588792,
      "grad_norm": 8.71096420288086,
      "learning_rate": 7.337058514922425e-05,
      "loss": 0.3032036542892456,
      "memory(GiB)": 70.5,
      "step": 40285,
      "token_acc": 0.9352750809061489,
      "train_speed(iter/s)": 1.453397
    },
    {
      "epoch": 1.7261471230881282,
      "grad_norm": 1.4137799739837646,
      "learning_rate": 7.336463555059316e-05,
      "loss": 0.3239565849304199,
      "memory(GiB)": 70.5,
      "step": 40290,
      "token_acc": 0.9301587301587302,
      "train_speed(iter/s)": 1.453393
    },
    {
      "epoch": 1.726361338417377,
      "grad_norm": 3.086643934249878,
      "learning_rate": 7.335868552868979e-05,
      "loss": 0.22927119731903076,
      "memory(GiB)": 70.5,
      "step": 40295,
      "token_acc": 0.9411764705882353,
      "train_speed(iter/s)": 1.453402
    },
    {
      "epoch": 1.726575553746626,
      "grad_norm": 5.989239692687988,
      "learning_rate": 7.335273508362189e-05,
      "loss": 0.2359870433807373,
      "memory(GiB)": 70.5,
      "step": 40300,
      "token_acc": 0.952,
      "train_speed(iter/s)": 1.453404
    },
    {
      "epoch": 1.7267897690758751,
      "grad_norm": 1.2615348100662231,
      "learning_rate": 7.334678421549731e-05,
      "loss": 0.5597031116485596,
      "memory(GiB)": 70.5,
      "step": 40305,
      "token_acc": 0.8707482993197279,
      "train_speed(iter/s)": 1.453429
    },
    {
      "epoch": 1.727003984405124,
      "grad_norm": 2.650519371032715,
      "learning_rate": 7.334083292442382e-05,
      "loss": 0.16431413888931273,
      "memory(GiB)": 70.5,
      "step": 40310,
      "token_acc": 0.9611307420494699,
      "train_speed(iter/s)": 1.453429
    },
    {
      "epoch": 1.727218199734373,
      "grad_norm": 2.8968324661254883,
      "learning_rate": 7.333488121050925e-05,
      "loss": 0.47839603424072263,
      "memory(GiB)": 70.5,
      "step": 40315,
      "token_acc": 0.9050632911392406,
      "train_speed(iter/s)": 1.453445
    },
    {
      "epoch": 1.727432415063622,
      "grad_norm": 5.528570175170898,
      "learning_rate": 7.332892907386142e-05,
      "loss": 0.4668393135070801,
      "memory(GiB)": 70.5,
      "step": 40320,
      "token_acc": 0.9105058365758755,
      "train_speed(iter/s)": 1.453439
    },
    {
      "epoch": 1.7276466303928708,
      "grad_norm": 3.461344003677368,
      "learning_rate": 7.332297651458815e-05,
      "loss": 0.3131478548049927,
      "memory(GiB)": 70.5,
      "step": 40325,
      "token_acc": 0.9215686274509803,
      "train_speed(iter/s)": 1.453452
    },
    {
      "epoch": 1.7278608457221198,
      "grad_norm": 1.7028754949569702,
      "learning_rate": 7.33170235327973e-05,
      "loss": 0.13053436279296876,
      "memory(GiB)": 70.5,
      "step": 40330,
      "token_acc": 0.9787234042553191,
      "train_speed(iter/s)": 1.453465
    },
    {
      "epoch": 1.7280750610513689,
      "grad_norm": 9.164621353149414,
      "learning_rate": 7.331107012859667e-05,
      "loss": 0.5375349521636963,
      "memory(GiB)": 70.5,
      "step": 40335,
      "token_acc": 0.8784722222222222,
      "train_speed(iter/s)": 1.453458
    },
    {
      "epoch": 1.7282892763806177,
      "grad_norm": 2.2134335041046143,
      "learning_rate": 7.330511630209414e-05,
      "loss": 0.2543428897857666,
      "memory(GiB)": 70.5,
      "step": 40340,
      "token_acc": 0.9504950495049505,
      "train_speed(iter/s)": 1.453476
    },
    {
      "epoch": 1.7285034917098667,
      "grad_norm": 2.8980443477630615,
      "learning_rate": 7.329916205339757e-05,
      "loss": 0.3455937385559082,
      "memory(GiB)": 70.5,
      "step": 40345,
      "token_acc": 0.9245283018867925,
      "train_speed(iter/s)": 1.453475
    },
    {
      "epoch": 1.7287177070391158,
      "grad_norm": 2.9655704498291016,
      "learning_rate": 7.329320738261484e-05,
      "loss": 0.36616714000701905,
      "memory(GiB)": 70.5,
      "step": 40350,
      "token_acc": 0.921875,
      "train_speed(iter/s)": 1.453468
    },
    {
      "epoch": 1.7289319223683646,
      "grad_norm": 6.28439998626709,
      "learning_rate": 7.32872522898538e-05,
      "loss": 0.30898633003234866,
      "memory(GiB)": 70.5,
      "step": 40355,
      "token_acc": 0.9442231075697212,
      "train_speed(iter/s)": 1.453492
    },
    {
      "epoch": 1.7291461376976136,
      "grad_norm": 4.036338806152344,
      "learning_rate": 7.328129677522234e-05,
      "loss": 0.3040364503860474,
      "memory(GiB)": 70.5,
      "step": 40360,
      "token_acc": 0.9319148936170213,
      "train_speed(iter/s)": 1.453506
    },
    {
      "epoch": 1.7293603530268626,
      "grad_norm": 4.1497883796691895,
      "learning_rate": 7.327534083882832e-05,
      "loss": 0.6322391510009766,
      "memory(GiB)": 70.5,
      "step": 40365,
      "token_acc": 0.8776223776223776,
      "train_speed(iter/s)": 1.453499
    },
    {
      "epoch": 1.7295745683561115,
      "grad_norm": 12.136799812316895,
      "learning_rate": 7.32693844807797e-05,
      "loss": 0.2776843786239624,
      "memory(GiB)": 70.5,
      "step": 40370,
      "token_acc": 0.9338842975206612,
      "train_speed(iter/s)": 1.453493
    },
    {
      "epoch": 1.7297887836853605,
      "grad_norm": 1.4480987787246704,
      "learning_rate": 7.326342770118434e-05,
      "loss": 0.3408064603805542,
      "memory(GiB)": 70.5,
      "step": 40375,
      "token_acc": 0.937007874015748,
      "train_speed(iter/s)": 1.453492
    },
    {
      "epoch": 1.7300029990146095,
      "grad_norm": 0.5587754249572754,
      "learning_rate": 7.325747050015017e-05,
      "loss": 0.25330343246459963,
      "memory(GiB)": 70.5,
      "step": 40380,
      "token_acc": 0.931899641577061,
      "train_speed(iter/s)": 1.453496
    },
    {
      "epoch": 1.7302172143438583,
      "grad_norm": 5.598374843597412,
      "learning_rate": 7.325151287778509e-05,
      "loss": 0.48800172805786135,
      "memory(GiB)": 70.5,
      "step": 40385,
      "token_acc": 0.8916666666666667,
      "train_speed(iter/s)": 1.453489
    },
    {
      "epoch": 1.7304314296731074,
      "grad_norm": 0.8687006831169128,
      "learning_rate": 7.324555483419707e-05,
      "loss": 0.3292912244796753,
      "memory(GiB)": 70.5,
      "step": 40390,
      "token_acc": 0.9319727891156463,
      "train_speed(iter/s)": 1.453492
    },
    {
      "epoch": 1.7306456450023564,
      "grad_norm": 2.4780118465423584,
      "learning_rate": 7.323959636949398e-05,
      "loss": 0.3728486061096191,
      "memory(GiB)": 70.5,
      "step": 40395,
      "token_acc": 0.9201277955271565,
      "train_speed(iter/s)": 1.453528
    },
    {
      "epoch": 1.7308598603316052,
      "grad_norm": 4.887020587921143,
      "learning_rate": 7.323363748378384e-05,
      "loss": 0.6591782569885254,
      "memory(GiB)": 70.5,
      "step": 40400,
      "token_acc": 0.8697318007662835,
      "train_speed(iter/s)": 1.453527
    },
    {
      "epoch": 1.7310740756608543,
      "grad_norm": 6.556215763092041,
      "learning_rate": 7.322767817717454e-05,
      "loss": 0.30317959785461424,
      "memory(GiB)": 70.5,
      "step": 40405,
      "token_acc": 0.9351535836177475,
      "train_speed(iter/s)": 1.453544
    },
    {
      "epoch": 1.7312882909901033,
      "grad_norm": 2.807382106781006,
      "learning_rate": 7.322171844977407e-05,
      "loss": 0.25700578689575193,
      "memory(GiB)": 70.5,
      "step": 40410,
      "token_acc": 0.9460431654676259,
      "train_speed(iter/s)": 1.453542
    },
    {
      "epoch": 1.731502506319352,
      "grad_norm": 4.6388702392578125,
      "learning_rate": 7.321575830169037e-05,
      "loss": 0.3501457929611206,
      "memory(GiB)": 70.5,
      "step": 40415,
      "token_acc": 0.9218241042345277,
      "train_speed(iter/s)": 1.453567
    },
    {
      "epoch": 1.7317167216486011,
      "grad_norm": 3.61609148979187,
      "learning_rate": 7.320979773303144e-05,
      "loss": 0.3680567264556885,
      "memory(GiB)": 70.5,
      "step": 40420,
      "token_acc": 0.9133574007220217,
      "train_speed(iter/s)": 1.453563
    },
    {
      "epoch": 1.7319309369778502,
      "grad_norm": 4.854184150695801,
      "learning_rate": 7.320383674390525e-05,
      "loss": 0.2546211242675781,
      "memory(GiB)": 70.5,
      "step": 40425,
      "token_acc": 0.9341317365269461,
      "train_speed(iter/s)": 1.453564
    },
    {
      "epoch": 1.732145152307099,
      "grad_norm": 1.7105958461761475,
      "learning_rate": 7.319787533441981e-05,
      "loss": 0.22917232513427735,
      "memory(GiB)": 70.5,
      "step": 40430,
      "token_acc": 0.9450171821305842,
      "train_speed(iter/s)": 1.453575
    },
    {
      "epoch": 1.732359367636348,
      "grad_norm": 2.8602757453918457,
      "learning_rate": 7.319191350468308e-05,
      "loss": 0.5305458068847656,
      "memory(GiB)": 70.5,
      "step": 40435,
      "token_acc": 0.8987854251012146,
      "train_speed(iter/s)": 1.453581
    },
    {
      "epoch": 1.732573582965597,
      "grad_norm": 3.025681257247925,
      "learning_rate": 7.318595125480308e-05,
      "loss": 0.33367042541503905,
      "memory(GiB)": 70.5,
      "step": 40440,
      "token_acc": 0.932475884244373,
      "train_speed(iter/s)": 1.453579
    },
    {
      "epoch": 1.7327877982948459,
      "grad_norm": 1.4105027914047241,
      "learning_rate": 7.317998858488783e-05,
      "loss": 0.4479053020477295,
      "memory(GiB)": 70.5,
      "step": 40445,
      "token_acc": 0.9058823529411765,
      "train_speed(iter/s)": 1.453562
    },
    {
      "epoch": 1.733002013624095,
      "grad_norm": 6.473011493682861,
      "learning_rate": 7.317402549504533e-05,
      "loss": 0.6790610313415527,
      "memory(GiB)": 70.5,
      "step": 40450,
      "token_acc": 0.8204419889502762,
      "train_speed(iter/s)": 1.453552
    },
    {
      "epoch": 1.733216228953344,
      "grad_norm": 4.027694225311279,
      "learning_rate": 7.316806198538362e-05,
      "loss": 0.24476776123046876,
      "memory(GiB)": 70.5,
      "step": 40455,
      "token_acc": 0.9543973941368078,
      "train_speed(iter/s)": 1.453553
    },
    {
      "epoch": 1.7334304442825927,
      "grad_norm": 8.912589073181152,
      "learning_rate": 7.316209805601074e-05,
      "loss": 0.5841786384582519,
      "memory(GiB)": 70.5,
      "step": 40460,
      "token_acc": 0.8979591836734694,
      "train_speed(iter/s)": 1.453552
    },
    {
      "epoch": 1.7336446596118418,
      "grad_norm": 3.0817153453826904,
      "learning_rate": 7.315613370703473e-05,
      "loss": 0.4031072616577148,
      "memory(GiB)": 70.5,
      "step": 40465,
      "token_acc": 0.9122257053291536,
      "train_speed(iter/s)": 1.45357
    },
    {
      "epoch": 1.7338588749410908,
      "grad_norm": 3.7713842391967773,
      "learning_rate": 7.315016893856363e-05,
      "loss": 0.22853851318359375,
      "memory(GiB)": 70.5,
      "step": 40470,
      "token_acc": 0.9341692789968652,
      "train_speed(iter/s)": 1.453565
    },
    {
      "epoch": 1.7340730902703396,
      "grad_norm": 1.3660703897476196,
      "learning_rate": 7.31442037507055e-05,
      "loss": 0.2651691436767578,
      "memory(GiB)": 70.5,
      "step": 40475,
      "token_acc": 0.9383116883116883,
      "train_speed(iter/s)": 1.45357
    },
    {
      "epoch": 1.7342873055995887,
      "grad_norm": 3.8537590503692627,
      "learning_rate": 7.313823814356841e-05,
      "loss": 0.3478795051574707,
      "memory(GiB)": 70.5,
      "step": 40480,
      "token_acc": 0.9358108108108109,
      "train_speed(iter/s)": 1.453567
    },
    {
      "epoch": 1.7345015209288377,
      "grad_norm": 1.9890464544296265,
      "learning_rate": 7.313227211726044e-05,
      "loss": 0.3220844745635986,
      "memory(GiB)": 70.5,
      "step": 40485,
      "token_acc": 0.9346938775510204,
      "train_speed(iter/s)": 1.453566
    },
    {
      "epoch": 1.7347157362580865,
      "grad_norm": 1.706761121749878,
      "learning_rate": 7.312630567188965e-05,
      "loss": 0.41495494842529296,
      "memory(GiB)": 70.5,
      "step": 40490,
      "token_acc": 0.9248366013071896,
      "train_speed(iter/s)": 1.453574
    },
    {
      "epoch": 1.7349299515873355,
      "grad_norm": 1.9631283283233643,
      "learning_rate": 7.312033880756415e-05,
      "loss": 0.3844139575958252,
      "memory(GiB)": 70.5,
      "step": 40495,
      "token_acc": 0.9172932330827067,
      "train_speed(iter/s)": 1.453576
    },
    {
      "epoch": 1.7351441669165846,
      "grad_norm": 3.704627513885498,
      "learning_rate": 7.311437152439201e-05,
      "loss": 0.5987714290618896,
      "memory(GiB)": 70.5,
      "step": 40500,
      "token_acc": 0.8659420289855072,
      "train_speed(iter/s)": 1.453599
    },
    {
      "epoch": 1.7351441669165846,
      "eval_loss": 2.33716082572937,
      "eval_runtime": 13.5146,
      "eval_samples_per_second": 7.399,
      "eval_steps_per_second": 7.399,
      "eval_token_acc": 0.4471428571428571,
      "step": 40500
    },
    {
      "epoch": 1.7353583822458334,
      "grad_norm": 0.07064919173717499,
      "learning_rate": 7.310840382248136e-05,
      "loss": 0.26027989387512207,
      "memory(GiB)": 70.5,
      "step": 40505,
      "token_acc": 0.5966135458167331,
      "train_speed(iter/s)": 1.452866
    },
    {
      "epoch": 1.7355725975750824,
      "grad_norm": 2.661994457244873,
      "learning_rate": 7.310243570194029e-05,
      "loss": 0.5104427814483643,
      "memory(GiB)": 70.5,
      "step": 40510,
      "token_acc": 0.8831168831168831,
      "train_speed(iter/s)": 1.452905
    },
    {
      "epoch": 1.7357868129043315,
      "grad_norm": 10.782179832458496,
      "learning_rate": 7.309646716287692e-05,
      "loss": 0.5881637573242188,
      "memory(GiB)": 70.5,
      "step": 40515,
      "token_acc": 0.8856209150326797,
      "train_speed(iter/s)": 1.452902
    },
    {
      "epoch": 1.7360010282335803,
      "grad_norm": 1.6604477167129517,
      "learning_rate": 7.30904982053994e-05,
      "loss": 0.36104109287261965,
      "memory(GiB)": 70.5,
      "step": 40520,
      "token_acc": 0.9059233449477352,
      "train_speed(iter/s)": 1.452898
    },
    {
      "epoch": 1.7362152435628293,
      "grad_norm": 8.41551399230957,
      "learning_rate": 7.308452882961582e-05,
      "loss": 0.36159591674804686,
      "memory(GiB)": 70.5,
      "step": 40525,
      "token_acc": 0.9288702928870293,
      "train_speed(iter/s)": 1.45292
    },
    {
      "epoch": 1.7364294588920783,
      "grad_norm": 4.889471054077148,
      "learning_rate": 7.307855903563435e-05,
      "loss": 0.3300872802734375,
      "memory(GiB)": 70.5,
      "step": 40530,
      "token_acc": 0.9290322580645162,
      "train_speed(iter/s)": 1.452918
    },
    {
      "epoch": 1.7366436742213271,
      "grad_norm": 4.843908786773682,
      "learning_rate": 7.307258882356314e-05,
      "loss": 0.40898666381835935,
      "memory(GiB)": 70.5,
      "step": 40535,
      "token_acc": 0.9203187250996016,
      "train_speed(iter/s)": 1.452917
    },
    {
      "epoch": 1.7368578895505762,
      "grad_norm": 4.538218021392822,
      "learning_rate": 7.306661819351033e-05,
      "loss": 0.4643255233764648,
      "memory(GiB)": 70.5,
      "step": 40540,
      "token_acc": 0.8954703832752613,
      "train_speed(iter/s)": 1.452915
    },
    {
      "epoch": 1.7370721048798252,
      "grad_norm": 1.6358081102371216,
      "learning_rate": 7.306064714558412e-05,
      "loss": 0.15880756378173827,
      "memory(GiB)": 70.5,
      "step": 40545,
      "token_acc": 0.9562043795620438,
      "train_speed(iter/s)": 1.452918
    },
    {
      "epoch": 1.737286320209074,
      "grad_norm": 1.8680380582809448,
      "learning_rate": 7.305467567989263e-05,
      "loss": 0.2928775310516357,
      "memory(GiB)": 70.5,
      "step": 40550,
      "token_acc": 0.9423076923076923,
      "train_speed(iter/s)": 1.452921
    },
    {
      "epoch": 1.7375005355383233,
      "grad_norm": 3.192169427871704,
      "learning_rate": 7.304870379654407e-05,
      "loss": 0.564995002746582,
      "memory(GiB)": 70.5,
      "step": 40555,
      "token_acc": 0.8753993610223643,
      "train_speed(iter/s)": 1.452944
    },
    {
      "epoch": 1.737714750867572,
      "grad_norm": 5.397185325622559,
      "learning_rate": 7.304273149564662e-05,
      "loss": 0.43779377937316893,
      "memory(GiB)": 70.5,
      "step": 40560,
      "token_acc": 0.9090909090909091,
      "train_speed(iter/s)": 1.452951
    },
    {
      "epoch": 1.737928966196821,
      "grad_norm": 0.1232997328042984,
      "learning_rate": 7.303675877730848e-05,
      "loss": 0.17093877792358397,
      "memory(GiB)": 70.5,
      "step": 40565,
      "token_acc": 0.9769452449567724,
      "train_speed(iter/s)": 1.452952
    },
    {
      "epoch": 1.7381431815260702,
      "grad_norm": 5.2372589111328125,
      "learning_rate": 7.303078564163783e-05,
      "loss": 0.41280155181884765,
      "memory(GiB)": 70.5,
      "step": 40570,
      "token_acc": 0.9057239057239057,
      "train_speed(iter/s)": 1.452968
    },
    {
      "epoch": 1.738357396855319,
      "grad_norm": 6.204864501953125,
      "learning_rate": 7.30248120887429e-05,
      "loss": 0.4576852321624756,
      "memory(GiB)": 70.5,
      "step": 40575,
      "token_acc": 0.9195402298850575,
      "train_speed(iter/s)": 1.452978
    },
    {
      "epoch": 1.7385716121845678,
      "grad_norm": 6.345576763153076,
      "learning_rate": 7.301883811873191e-05,
      "loss": 0.881580924987793,
      "memory(GiB)": 70.5,
      "step": 40580,
      "token_acc": 0.8249158249158249,
      "train_speed(iter/s)": 1.452981
    },
    {
      "epoch": 1.738785827513817,
      "grad_norm": 3.455521821975708,
      "learning_rate": 7.301286373171305e-05,
      "loss": 0.2755561351776123,
      "memory(GiB)": 70.5,
      "step": 40585,
      "token_acc": 0.9421768707482994,
      "train_speed(iter/s)": 1.452969
    },
    {
      "epoch": 1.7390000428430659,
      "grad_norm": 5.835824489593506,
      "learning_rate": 7.30068889277946e-05,
      "loss": 0.3859124183654785,
      "memory(GiB)": 70.5,
      "step": 40590,
      "token_acc": 0.9180327868852459,
      "train_speed(iter/s)": 1.452975
    },
    {
      "epoch": 1.7392142581723147,
      "grad_norm": 4.032382965087891,
      "learning_rate": 7.300091370708476e-05,
      "loss": 0.46831231117248534,
      "memory(GiB)": 70.5,
      "step": 40595,
      "token_acc": 0.8779661016949153,
      "train_speed(iter/s)": 1.452983
    },
    {
      "epoch": 1.739428473501564,
      "grad_norm": 2.330599784851074,
      "learning_rate": 7.29949380696918e-05,
      "loss": 0.4776790142059326,
      "memory(GiB)": 70.5,
      "step": 40600,
      "token_acc": 0.9020771513353115,
      "train_speed(iter/s)": 1.452986
    },
    {
      "epoch": 1.7396426888308127,
      "grad_norm": 7.4780497550964355,
      "learning_rate": 7.298896201572396e-05,
      "loss": 0.4204780101776123,
      "memory(GiB)": 70.5,
      "step": 40605,
      "token_acc": 0.9034749034749034,
      "train_speed(iter/s)": 1.452998
    },
    {
      "epoch": 1.7398569041600616,
      "grad_norm": 6.385276794433594,
      "learning_rate": 7.298298554528952e-05,
      "loss": 0.24161434173583984,
      "memory(GiB)": 70.5,
      "step": 40610,
      "token_acc": 0.9333333333333333,
      "train_speed(iter/s)": 1.452996
    },
    {
      "epoch": 1.7400711194893108,
      "grad_norm": 7.364758014678955,
      "learning_rate": 7.297700865849672e-05,
      "loss": 0.4819455146789551,
      "memory(GiB)": 70.5,
      "step": 40615,
      "token_acc": 0.8913738019169329,
      "train_speed(iter/s)": 1.452993
    },
    {
      "epoch": 1.7402853348185596,
      "grad_norm": 4.143052101135254,
      "learning_rate": 7.297103135545387e-05,
      "loss": 0.262390661239624,
      "memory(GiB)": 70.5,
      "step": 40620,
      "token_acc": 0.9456521739130435,
      "train_speed(iter/s)": 1.452996
    },
    {
      "epoch": 1.7404995501478084,
      "grad_norm": 2.0601418018341064,
      "learning_rate": 7.296505363626922e-05,
      "loss": 0.21121621131896973,
      "memory(GiB)": 70.5,
      "step": 40625,
      "token_acc": 0.9583333333333334,
      "train_speed(iter/s)": 1.452988
    },
    {
      "epoch": 1.7407137654770577,
      "grad_norm": 0.2994835078716278,
      "learning_rate": 7.29590755010511e-05,
      "loss": 0.4806956768035889,
      "memory(GiB)": 70.5,
      "step": 40630,
      "token_acc": 0.907185628742515,
      "train_speed(iter/s)": 1.452986
    },
    {
      "epoch": 1.7409279808063065,
      "grad_norm": 4.082507610321045,
      "learning_rate": 7.295309694990777e-05,
      "loss": 0.30594072341918943,
      "memory(GiB)": 70.5,
      "step": 40635,
      "token_acc": 0.9343629343629344,
      "train_speed(iter/s)": 1.45298
    },
    {
      "epoch": 1.7411421961355553,
      "grad_norm": 0.960518479347229,
      "learning_rate": 7.294711798294758e-05,
      "loss": 0.34610891342163086,
      "memory(GiB)": 70.5,
      "step": 40640,
      "token_acc": 0.9172661870503597,
      "train_speed(iter/s)": 1.452977
    },
    {
      "epoch": 1.7413564114648046,
      "grad_norm": 4.852276802062988,
      "learning_rate": 7.29411386002788e-05,
      "loss": 0.40949373245239257,
      "memory(GiB)": 70.5,
      "step": 40645,
      "token_acc": 0.9224489795918367,
      "train_speed(iter/s)": 1.452988
    },
    {
      "epoch": 1.7415706267940534,
      "grad_norm": 3.09836483001709,
      "learning_rate": 7.293515880200978e-05,
      "loss": 0.5801135063171386,
      "memory(GiB)": 70.5,
      "step": 40650,
      "token_acc": 0.869281045751634,
      "train_speed(iter/s)": 1.452983
    },
    {
      "epoch": 1.7417848421233022,
      "grad_norm": 3.351820945739746,
      "learning_rate": 7.292917858824885e-05,
      "loss": 0.31097328662872314,
      "memory(GiB)": 70.5,
      "step": 40655,
      "token_acc": 0.9323843416370107,
      "train_speed(iter/s)": 1.452994
    },
    {
      "epoch": 1.7419990574525515,
      "grad_norm": 3.29121994972229,
      "learning_rate": 7.292319795910434e-05,
      "loss": 0.3393620729446411,
      "memory(GiB)": 70.5,
      "step": 40660,
      "token_acc": 0.9311594202898551,
      "train_speed(iter/s)": 1.452991
    },
    {
      "epoch": 1.7422132727818003,
      "grad_norm": 4.875582218170166,
      "learning_rate": 7.29172169146846e-05,
      "loss": 0.3006559133529663,
      "memory(GiB)": 70.5,
      "step": 40665,
      "token_acc": 0.935251798561151,
      "train_speed(iter/s)": 1.453008
    },
    {
      "epoch": 1.742427488111049,
      "grad_norm": 3.0932137966156006,
      "learning_rate": 7.291123545509796e-05,
      "loss": 0.26564242839813235,
      "memory(GiB)": 70.5,
      "step": 40670,
      "token_acc": 0.9508771929824561,
      "train_speed(iter/s)": 1.453013
    },
    {
      "epoch": 1.7426417034402983,
      "grad_norm": 3.8461363315582275,
      "learning_rate": 7.290525358045279e-05,
      "loss": 0.5034307479858399,
      "memory(GiB)": 70.5,
      "step": 40675,
      "token_acc": 0.8913043478260869,
      "train_speed(iter/s)": 1.453011
    },
    {
      "epoch": 1.7428559187695472,
      "grad_norm": 2.4869813919067383,
      "learning_rate": 7.289927129085749e-05,
      "loss": 0.42221660614013673,
      "memory(GiB)": 70.5,
      "step": 40680,
      "token_acc": 0.908745247148289,
      "train_speed(iter/s)": 1.453027
    },
    {
      "epoch": 1.743070134098796,
      "grad_norm": 4.8197150230407715,
      "learning_rate": 7.28932885864204e-05,
      "loss": 0.2974228382110596,
      "memory(GiB)": 70.5,
      "step": 40685,
      "token_acc": 0.928125,
      "train_speed(iter/s)": 1.453037
    },
    {
      "epoch": 1.7432843494280452,
      "grad_norm": 0.1921384334564209,
      "learning_rate": 7.28873054672499e-05,
      "loss": 0.43068294525146483,
      "memory(GiB)": 70.5,
      "step": 40690,
      "token_acc": 0.9198717948717948,
      "train_speed(iter/s)": 1.453038
    },
    {
      "epoch": 1.743498564757294,
      "grad_norm": 3.450421094894409,
      "learning_rate": 7.288132193345443e-05,
      "loss": 0.28315718173980714,
      "memory(GiB)": 70.5,
      "step": 40695,
      "token_acc": 0.9411764705882353,
      "train_speed(iter/s)": 1.453048
    },
    {
      "epoch": 1.7437127800865428,
      "grad_norm": 3.3086929321289062,
      "learning_rate": 7.287533798514231e-05,
      "loss": 0.40976772308349607,
      "memory(GiB)": 70.5,
      "step": 40700,
      "token_acc": 0.9128919860627178,
      "train_speed(iter/s)": 1.453055
    },
    {
      "epoch": 1.743926995415792,
      "grad_norm": 5.562314510345459,
      "learning_rate": 7.2869353622422e-05,
      "loss": 0.33507046699523924,
      "memory(GiB)": 70.5,
      "step": 40705,
      "token_acc": 0.9216417910447762,
      "train_speed(iter/s)": 1.453081
    },
    {
      "epoch": 1.744141210745041,
      "grad_norm": 4.698585510253906,
      "learning_rate": 7.286336884540189e-05,
      "loss": 0.3638323783874512,
      "memory(GiB)": 70.5,
      "step": 40710,
      "token_acc": 0.9461279461279462,
      "train_speed(iter/s)": 1.453086
    },
    {
      "epoch": 1.7443554260742897,
      "grad_norm": 0.099254310131073,
      "learning_rate": 7.28573836541904e-05,
      "loss": 0.24344930648803711,
      "memory(GiB)": 70.5,
      "step": 40715,
      "token_acc": 0.9466666666666667,
      "train_speed(iter/s)": 1.453087
    },
    {
      "epoch": 1.744569641403539,
      "grad_norm": 1.6918498277664185,
      "learning_rate": 7.285139804889598e-05,
      "loss": 0.2743523359298706,
      "memory(GiB)": 70.5,
      "step": 40720,
      "token_acc": 0.9285714285714286,
      "train_speed(iter/s)": 1.453086
    },
    {
      "epoch": 1.7447838567327878,
      "grad_norm": 5.153543949127197,
      "learning_rate": 7.284541202962704e-05,
      "loss": 0.6083207607269288,
      "memory(GiB)": 70.5,
      "step": 40725,
      "token_acc": 0.8582089552238806,
      "train_speed(iter/s)": 1.453086
    },
    {
      "epoch": 1.7449980720620366,
      "grad_norm": 0.4476706087589264,
      "learning_rate": 7.283942559649202e-05,
      "loss": 0.7240954399108886,
      "memory(GiB)": 70.5,
      "step": 40730,
      "token_acc": 0.832258064516129,
      "train_speed(iter/s)": 1.453085
    },
    {
      "epoch": 1.7452122873912859,
      "grad_norm": 2.9159669876098633,
      "learning_rate": 7.283343874959941e-05,
      "loss": 0.42104291915893555,
      "memory(GiB)": 70.5,
      "step": 40735,
      "token_acc": 0.9047619047619048,
      "train_speed(iter/s)": 1.453082
    },
    {
      "epoch": 1.7454265027205347,
      "grad_norm": 1.4918889999389648,
      "learning_rate": 7.282745148905759e-05,
      "loss": 0.22633006572723388,
      "memory(GiB)": 70.5,
      "step": 40740,
      "token_acc": 0.9571984435797666,
      "train_speed(iter/s)": 1.453092
    },
    {
      "epoch": 1.7456407180497835,
      "grad_norm": 9.360455513000488,
      "learning_rate": 7.28214638149751e-05,
      "loss": 0.8529887199401855,
      "memory(GiB)": 70.5,
      "step": 40745,
      "token_acc": 0.8152492668621701,
      "train_speed(iter/s)": 1.453086
    },
    {
      "epoch": 1.7458549333790327,
      "grad_norm": 4.623678684234619,
      "learning_rate": 7.28154757274604e-05,
      "loss": 0.3026554107666016,
      "memory(GiB)": 70.5,
      "step": 40750,
      "token_acc": 0.9288702928870293,
      "train_speed(iter/s)": 1.453091
    },
    {
      "epoch": 1.7460691487082816,
      "grad_norm": 2.1090574264526367,
      "learning_rate": 7.280948722662194e-05,
      "loss": 0.4811709880828857,
      "memory(GiB)": 70.5,
      "step": 40755,
      "token_acc": 0.9191919191919192,
      "train_speed(iter/s)": 1.453109
    },
    {
      "epoch": 1.7462833640375304,
      "grad_norm": 3.807640314102173,
      "learning_rate": 7.280349831256821e-05,
      "loss": 0.4716053009033203,
      "memory(GiB)": 70.5,
      "step": 40760,
      "token_acc": 0.9161073825503355,
      "train_speed(iter/s)": 1.453111
    },
    {
      "epoch": 1.7464975793667796,
      "grad_norm": 2.35546612739563,
      "learning_rate": 7.279750898540774e-05,
      "loss": 0.43348302841186526,
      "memory(GiB)": 70.5,
      "step": 40765,
      "token_acc": 0.9090909090909091,
      "train_speed(iter/s)": 1.453112
    },
    {
      "epoch": 1.7467117946960284,
      "grad_norm": 4.922080039978027,
      "learning_rate": 7.279151924524899e-05,
      "loss": 0.4353238582611084,
      "memory(GiB)": 70.5,
      "step": 40770,
      "token_acc": 0.9042553191489362,
      "train_speed(iter/s)": 1.453113
    },
    {
      "epoch": 1.7469260100252773,
      "grad_norm": 3.4945731163024902,
      "learning_rate": 7.278552909220049e-05,
      "loss": 0.25947568416595457,
      "memory(GiB)": 70.5,
      "step": 40775,
      "token_acc": 0.9420731707317073,
      "train_speed(iter/s)": 1.453112
    },
    {
      "epoch": 1.7471402253545265,
      "grad_norm": 5.045832633972168,
      "learning_rate": 7.277953852637076e-05,
      "loss": 0.41231064796447753,
      "memory(GiB)": 70.5,
      "step": 40780,
      "token_acc": 0.9226361031518625,
      "train_speed(iter/s)": 1.453116
    },
    {
      "epoch": 1.7473544406837753,
      "grad_norm": 4.837140083312988,
      "learning_rate": 7.277354754786832e-05,
      "loss": 0.415160608291626,
      "memory(GiB)": 70.5,
      "step": 40785,
      "token_acc": 0.8958333333333334,
      "train_speed(iter/s)": 1.453118
    },
    {
      "epoch": 1.7475686560130241,
      "grad_norm": 2.2664923667907715,
      "learning_rate": 7.27675561568017e-05,
      "loss": 0.35213661193847656,
      "memory(GiB)": 70.5,
      "step": 40790,
      "token_acc": 0.9124579124579124,
      "train_speed(iter/s)": 1.453106
    },
    {
      "epoch": 1.7477828713422734,
      "grad_norm": 1.8868213891983032,
      "learning_rate": 7.276156435327946e-05,
      "loss": 0.27673959732055664,
      "memory(GiB)": 70.5,
      "step": 40795,
      "token_acc": 0.9296296296296296,
      "train_speed(iter/s)": 1.453118
    },
    {
      "epoch": 1.7479970866715222,
      "grad_norm": 2.552107572555542,
      "learning_rate": 7.27555721374101e-05,
      "loss": 0.6800847530364991,
      "memory(GiB)": 70.5,
      "step": 40800,
      "token_acc": 0.8576779026217228,
      "train_speed(iter/s)": 1.453123
    },
    {
      "epoch": 1.748211302000771,
      "grad_norm": 6.529347896575928,
      "learning_rate": 7.274957950930223e-05,
      "loss": 0.38958823680877686,
      "memory(GiB)": 70.5,
      "step": 40805,
      "token_acc": 0.9352750809061489,
      "train_speed(iter/s)": 1.453137
    },
    {
      "epoch": 1.7484255173300203,
      "grad_norm": 2.7900595664978027,
      "learning_rate": 7.274358646906438e-05,
      "loss": 0.28809499740600586,
      "memory(GiB)": 70.5,
      "step": 40810,
      "token_acc": 0.9455782312925171,
      "train_speed(iter/s)": 1.453133
    },
    {
      "epoch": 1.748639732659269,
      "grad_norm": 1.6108241081237793,
      "learning_rate": 7.273759301680511e-05,
      "loss": 0.3899667501449585,
      "memory(GiB)": 70.5,
      "step": 40815,
      "token_acc": 0.9253731343283582,
      "train_speed(iter/s)": 1.453155
    },
    {
      "epoch": 1.748853947988518,
      "grad_norm": 0.10849565267562866,
      "learning_rate": 7.273159915263303e-05,
      "loss": 0.29034316539764404,
      "memory(GiB)": 70.5,
      "step": 40820,
      "token_acc": 0.946236559139785,
      "train_speed(iter/s)": 1.453158
    },
    {
      "epoch": 1.7490681633177672,
      "grad_norm": 2.147810220718384,
      "learning_rate": 7.27256048766567e-05,
      "loss": 0.42934865951538087,
      "memory(GiB)": 70.5,
      "step": 40825,
      "token_acc": 0.9036144578313253,
      "train_speed(iter/s)": 1.453154
    },
    {
      "epoch": 1.749282378647016,
      "grad_norm": 3.0041043758392334,
      "learning_rate": 7.271961018898473e-05,
      "loss": 0.4525859832763672,
      "memory(GiB)": 70.5,
      "step": 40830,
      "token_acc": 0.9116719242902208,
      "train_speed(iter/s)": 1.453135
    },
    {
      "epoch": 1.7494965939762648,
      "grad_norm": 2.9597883224487305,
      "learning_rate": 7.27136150897257e-05,
      "loss": 0.42850165367126464,
      "memory(GiB)": 70.5,
      "step": 40835,
      "token_acc": 0.9047619047619048,
      "train_speed(iter/s)": 1.453149
    },
    {
      "epoch": 1.749710809305514,
      "grad_norm": 2.5466487407684326,
      "learning_rate": 7.270761957898823e-05,
      "loss": 0.28571457862854005,
      "memory(GiB)": 70.5,
      "step": 40840,
      "token_acc": 0.9372693726937269,
      "train_speed(iter/s)": 1.453152
    },
    {
      "epoch": 1.7499250246347628,
      "grad_norm": 1.4057806730270386,
      "learning_rate": 7.270162365688092e-05,
      "loss": 0.269247841835022,
      "memory(GiB)": 70.5,
      "step": 40845,
      "token_acc": 0.9238410596026491,
      "train_speed(iter/s)": 1.45315
    },
    {
      "epoch": 1.7501392399640117,
      "grad_norm": 1.6270804405212402,
      "learning_rate": 7.269562732351241e-05,
      "loss": 0.23981738090515137,
      "memory(GiB)": 70.5,
      "step": 40850,
      "token_acc": 0.9411764705882353,
      "train_speed(iter/s)": 1.45316
    },
    {
      "epoch": 1.750353455293261,
      "grad_norm": 1.473235845565796,
      "learning_rate": 7.268963057899132e-05,
      "loss": 0.26083710193634035,
      "memory(GiB)": 70.5,
      "step": 40855,
      "token_acc": 0.9261992619926199,
      "train_speed(iter/s)": 1.453164
    },
    {
      "epoch": 1.7505676706225097,
      "grad_norm": 4.992797374725342,
      "learning_rate": 7.268363342342628e-05,
      "loss": 0.43131556510925295,
      "memory(GiB)": 70.5,
      "step": 40860,
      "token_acc": 0.9178082191780822,
      "train_speed(iter/s)": 1.453164
    },
    {
      "epoch": 1.7507818859517585,
      "grad_norm": 2.9769480228424072,
      "learning_rate": 7.267763585692595e-05,
      "loss": 0.5087237358093262,
      "memory(GiB)": 70.5,
      "step": 40865,
      "token_acc": 0.8793650793650793,
      "train_speed(iter/s)": 1.453178
    },
    {
      "epoch": 1.7509961012810078,
      "grad_norm": 2.3940391540527344,
      "learning_rate": 7.267163787959898e-05,
      "loss": 0.30297625064849854,
      "memory(GiB)": 70.5,
      "step": 40870,
      "token_acc": 0.9423728813559322,
      "train_speed(iter/s)": 1.453182
    },
    {
      "epoch": 1.7512103166102566,
      "grad_norm": 4.439852714538574,
      "learning_rate": 7.2665639491554e-05,
      "loss": 0.39026408195495604,
      "memory(GiB)": 70.5,
      "step": 40875,
      "token_acc": 0.9337748344370861,
      "train_speed(iter/s)": 1.453192
    },
    {
      "epoch": 1.7514245319395054,
      "grad_norm": 4.124843120574951,
      "learning_rate": 7.265964069289972e-05,
      "loss": 0.3926650047302246,
      "memory(GiB)": 70.5,
      "step": 40880,
      "token_acc": 0.908745247148289,
      "train_speed(iter/s)": 1.453209
    },
    {
      "epoch": 1.7516387472687547,
      "grad_norm": 4.541670322418213,
      "learning_rate": 7.265364148374478e-05,
      "loss": 0.35043118000030515,
      "memory(GiB)": 70.5,
      "step": 40885,
      "token_acc": 0.9375,
      "train_speed(iter/s)": 1.453206
    },
    {
      "epoch": 1.7518529625980035,
      "grad_norm": 4.933161735534668,
      "learning_rate": 7.264764186419788e-05,
      "loss": 0.5608706951141358,
      "memory(GiB)": 70.5,
      "step": 40890,
      "token_acc": 0.8745762711864407,
      "train_speed(iter/s)": 1.453226
    },
    {
      "epoch": 1.7520671779272525,
      "grad_norm": 6.352331638336182,
      "learning_rate": 7.26416418343677e-05,
      "loss": 0.5528499126434326,
      "memory(GiB)": 70.5,
      "step": 40895,
      "token_acc": 0.8888888888888888,
      "train_speed(iter/s)": 1.453232
    },
    {
      "epoch": 1.7522813932565016,
      "grad_norm": 2.2126429080963135,
      "learning_rate": 7.263564139436294e-05,
      "loss": 0.3685596942901611,
      "memory(GiB)": 70.5,
      "step": 40900,
      "token_acc": 0.9102990033222591,
      "train_speed(iter/s)": 1.45324
    },
    {
      "epoch": 1.7524956085857504,
      "grad_norm": 2.434467077255249,
      "learning_rate": 7.26296405442923e-05,
      "loss": 0.4165768623352051,
      "memory(GiB)": 70.5,
      "step": 40905,
      "token_acc": 0.9122807017543859,
      "train_speed(iter/s)": 1.453248
    },
    {
      "epoch": 1.7527098239149994,
      "grad_norm": 3.7179665565490723,
      "learning_rate": 7.26236392842645e-05,
      "loss": 0.4770782470703125,
      "memory(GiB)": 70.5,
      "step": 40910,
      "token_acc": 0.9105960264900662,
      "train_speed(iter/s)": 1.453256
    },
    {
      "epoch": 1.7529240392442484,
      "grad_norm": 4.1798481941223145,
      "learning_rate": 7.261763761438824e-05,
      "loss": 0.28473820686340334,
      "memory(GiB)": 70.5,
      "step": 40915,
      "token_acc": 0.9453376205787781,
      "train_speed(iter/s)": 1.453259
    },
    {
      "epoch": 1.7531382545734973,
      "grad_norm": 5.098208427429199,
      "learning_rate": 7.261163553477226e-05,
      "loss": 0.5231746673583985,
      "memory(GiB)": 70.5,
      "step": 40920,
      "token_acc": 0.8704318936877077,
      "train_speed(iter/s)": 1.453263
    },
    {
      "epoch": 1.7533524699027463,
      "grad_norm": 2.399217367172241,
      "learning_rate": 7.26056330455253e-05,
      "loss": 0.3960615634918213,
      "memory(GiB)": 70.5,
      "step": 40925,
      "token_acc": 0.9169329073482428,
      "train_speed(iter/s)": 1.453277
    },
    {
      "epoch": 1.7535666852319953,
      "grad_norm": 1.1981902122497559,
      "learning_rate": 7.259963014675608e-05,
      "loss": 0.3803962230682373,
      "memory(GiB)": 70.5,
      "step": 40930,
      "token_acc": 0.9207920792079208,
      "train_speed(iter/s)": 1.45329
    },
    {
      "epoch": 1.7537809005612441,
      "grad_norm": 3.081566095352173,
      "learning_rate": 7.259362683857336e-05,
      "loss": 0.26850271224975586,
      "memory(GiB)": 70.5,
      "step": 40935,
      "token_acc": 0.94,
      "train_speed(iter/s)": 1.453288
    },
    {
      "epoch": 1.7539951158904932,
      "grad_norm": 2.4820210933685303,
      "learning_rate": 7.258762312108591e-05,
      "loss": 0.39460906982421873,
      "memory(GiB)": 70.5,
      "step": 40940,
      "token_acc": 0.9144981412639405,
      "train_speed(iter/s)": 1.453295
    },
    {
      "epoch": 1.7542093312197422,
      "grad_norm": 5.445715427398682,
      "learning_rate": 7.258161899440246e-05,
      "loss": 0.45780577659606936,
      "memory(GiB)": 70.5,
      "step": 40945,
      "token_acc": 0.89568345323741,
      "train_speed(iter/s)": 1.453299
    },
    {
      "epoch": 1.754423546548991,
      "grad_norm": 2.9772329330444336,
      "learning_rate": 7.257561445863182e-05,
      "loss": 0.3631184816360474,
      "memory(GiB)": 70.5,
      "step": 40950,
      "token_acc": 0.9172661870503597,
      "train_speed(iter/s)": 1.453307
    },
    {
      "epoch": 1.75463776187824,
      "grad_norm": 11.598746299743652,
      "learning_rate": 7.256960951388274e-05,
      "loss": 0.5940025329589844,
      "memory(GiB)": 70.5,
      "step": 40955,
      "token_acc": 0.8727272727272727,
      "train_speed(iter/s)": 1.45334
    },
    {
      "epoch": 1.754851977207489,
      "grad_norm": 0.49305713176727295,
      "learning_rate": 7.2563604160264e-05,
      "loss": 0.2509725332260132,
      "memory(GiB)": 70.5,
      "step": 40960,
      "token_acc": 0.9454545454545454,
      "train_speed(iter/s)": 1.45335
    },
    {
      "epoch": 1.755066192536738,
      "grad_norm": 3.2446513175964355,
      "learning_rate": 7.25575983978844e-05,
      "loss": 0.4974111557006836,
      "memory(GiB)": 70.5,
      "step": 40965,
      "token_acc": 0.8858024691358025,
      "train_speed(iter/s)": 1.453348
    },
    {
      "epoch": 1.755280407865987,
      "grad_norm": 4.666252613067627,
      "learning_rate": 7.255159222685277e-05,
      "loss": 0.5157023429870605,
      "memory(GiB)": 70.5,
      "step": 40970,
      "token_acc": 0.887719298245614,
      "train_speed(iter/s)": 1.453358
    },
    {
      "epoch": 1.755494623195236,
      "grad_norm": 0.7634987235069275,
      "learning_rate": 7.254558564727786e-05,
      "loss": 0.1651094913482666,
      "memory(GiB)": 70.5,
      "step": 40975,
      "token_acc": 0.9607843137254902,
      "train_speed(iter/s)": 1.453359
    },
    {
      "epoch": 1.7557088385244848,
      "grad_norm": 5.184378623962402,
      "learning_rate": 7.253957865926854e-05,
      "loss": 0.4339774131774902,
      "memory(GiB)": 70.5,
      "step": 40980,
      "token_acc": 0.8928571428571429,
      "train_speed(iter/s)": 1.453365
    },
    {
      "epoch": 1.7559230538537338,
      "grad_norm": 2.9403975009918213,
      "learning_rate": 7.253357126293361e-05,
      "loss": 0.42200322151184083,
      "memory(GiB)": 70.5,
      "step": 40985,
      "token_acc": 0.9090909090909091,
      "train_speed(iter/s)": 1.45337
    },
    {
      "epoch": 1.7561372691829829,
      "grad_norm": 1.2198090553283691,
      "learning_rate": 7.252756345838187e-05,
      "loss": 0.31290631294250487,
      "memory(GiB)": 70.5,
      "step": 40990,
      "token_acc": 0.9372693726937269,
      "train_speed(iter/s)": 1.453384
    },
    {
      "epoch": 1.7563514845122317,
      "grad_norm": 5.100419044494629,
      "learning_rate": 7.252155524572222e-05,
      "loss": 0.4370081424713135,
      "memory(GiB)": 70.5,
      "step": 40995,
      "token_acc": 0.8996138996138996,
      "train_speed(iter/s)": 1.453397
    },
    {
      "epoch": 1.7565656998414807,
      "grad_norm": 6.65383768081665,
      "learning_rate": 7.251554662506346e-05,
      "loss": 0.5046916484832764,
      "memory(GiB)": 70.5,
      "step": 41000,
      "token_acc": 0.901060070671378,
      "train_speed(iter/s)": 1.453408
    },
    {
      "epoch": 1.7565656998414807,
      "eval_loss": 2.603668451309204,
      "eval_runtime": 13.3284,
      "eval_samples_per_second": 7.503,
      "eval_steps_per_second": 7.503,
      "eval_token_acc": 0.4312977099236641,
      "step": 41000
    },
    {
      "epoch": 1.7567799151707297,
      "grad_norm": 3.31339955329895,
      "learning_rate": 7.250953759651443e-05,
      "loss": 0.3109133720397949,
      "memory(GiB)": 70.5,
      "step": 41005,
      "token_acc": 0.572744014732965,
      "train_speed(iter/s)": 1.452661
    },
    {
      "epoch": 1.7569941304999785,
      "grad_norm": 2.4698262214660645,
      "learning_rate": 7.250352816018402e-05,
      "loss": 0.35180437564849854,
      "memory(GiB)": 70.5,
      "step": 41010,
      "token_acc": 0.9300291545189504,
      "train_speed(iter/s)": 1.452661
    },
    {
      "epoch": 1.7572083458292276,
      "grad_norm": 3.29483962059021,
      "learning_rate": 7.24975183161811e-05,
      "loss": 0.35736660957336425,
      "memory(GiB)": 70.5,
      "step": 41015,
      "token_acc": 0.9236641221374046,
      "train_speed(iter/s)": 1.45267
    },
    {
      "epoch": 1.7574225611584766,
      "grad_norm": 1.4938533306121826,
      "learning_rate": 7.249150806461453e-05,
      "loss": 0.30640997886657717,
      "memory(GiB)": 70.5,
      "step": 41020,
      "token_acc": 0.9397590361445783,
      "train_speed(iter/s)": 1.452679
    },
    {
      "epoch": 1.7576367764877254,
      "grad_norm": 6.070269584655762,
      "learning_rate": 7.248549740559319e-05,
      "loss": 0.31871671676635743,
      "memory(GiB)": 70.5,
      "step": 41025,
      "token_acc": 0.9390681003584229,
      "train_speed(iter/s)": 1.452691
    },
    {
      "epoch": 1.7578509918169745,
      "grad_norm": 3.522376775741577,
      "learning_rate": 7.247948633922597e-05,
      "loss": 0.1601046919822693,
      "memory(GiB)": 70.5,
      "step": 41030,
      "token_acc": 0.96,
      "train_speed(iter/s)": 1.452701
    },
    {
      "epoch": 1.7580652071462235,
      "grad_norm": 2.3011045455932617,
      "learning_rate": 7.247347486562177e-05,
      "loss": 0.3048996925354004,
      "memory(GiB)": 70.5,
      "step": 41035,
      "token_acc": 0.9446254071661238,
      "train_speed(iter/s)": 1.452704
    },
    {
      "epoch": 1.7582794224754723,
      "grad_norm": 6.582056045532227,
      "learning_rate": 7.246746298488949e-05,
      "loss": 0.29910922050476074,
      "memory(GiB)": 70.5,
      "step": 41040,
      "token_acc": 0.9205298013245033,
      "train_speed(iter/s)": 1.452698
    },
    {
      "epoch": 1.7584936378047213,
      "grad_norm": 2.395578384399414,
      "learning_rate": 7.246145069713804e-05,
      "loss": 0.6105207920074462,
      "memory(GiB)": 70.5,
      "step": 41045,
      "token_acc": 0.8828337874659401,
      "train_speed(iter/s)": 1.452712
    },
    {
      "epoch": 1.7587078531339704,
      "grad_norm": 2.3796844482421875,
      "learning_rate": 7.245543800247634e-05,
      "loss": 0.2757678747177124,
      "memory(GiB)": 70.5,
      "step": 41050,
      "token_acc": 0.95,
      "train_speed(iter/s)": 1.452717
    },
    {
      "epoch": 1.7589220684632192,
      "grad_norm": 0.48376592993736267,
      "learning_rate": 7.244942490101332e-05,
      "loss": 0.22827811241149903,
      "memory(GiB)": 70.5,
      "step": 41055,
      "token_acc": 0.9381818181818182,
      "train_speed(iter/s)": 1.452725
    },
    {
      "epoch": 1.7591362837924682,
      "grad_norm": 3.3915927410125732,
      "learning_rate": 7.24434113928579e-05,
      "loss": 0.2759871959686279,
      "memory(GiB)": 70.5,
      "step": 41060,
      "token_acc": 0.9356060606060606,
      "train_speed(iter/s)": 1.452729
    },
    {
      "epoch": 1.7593504991217173,
      "grad_norm": 2.938312292098999,
      "learning_rate": 7.243739747811903e-05,
      "loss": 0.3097441911697388,
      "memory(GiB)": 70.5,
      "step": 41065,
      "token_acc": 0.93125,
      "train_speed(iter/s)": 1.45274
    },
    {
      "epoch": 1.759564714450966,
      "grad_norm": 2.621328830718994,
      "learning_rate": 7.243138315690567e-05,
      "loss": 0.6350876808166503,
      "memory(GiB)": 70.5,
      "step": 41070,
      "token_acc": 0.8920454545454546,
      "train_speed(iter/s)": 1.452756
    },
    {
      "epoch": 1.759778929780215,
      "grad_norm": 0.6046125292778015,
      "learning_rate": 7.242536842932675e-05,
      "loss": 0.37547600269317627,
      "memory(GiB)": 70.5,
      "step": 41075,
      "token_acc": 0.9119496855345912,
      "train_speed(iter/s)": 1.452761
    },
    {
      "epoch": 1.7599931451094641,
      "grad_norm": 3.093473434448242,
      "learning_rate": 7.241935329549125e-05,
      "loss": 0.5883667469024658,
      "memory(GiB)": 70.5,
      "step": 41080,
      "token_acc": 0.873015873015873,
      "train_speed(iter/s)": 1.452768
    },
    {
      "epoch": 1.760207360438713,
      "grad_norm": 1.5587327480316162,
      "learning_rate": 7.241333775550813e-05,
      "loss": 0.3041940212249756,
      "memory(GiB)": 70.5,
      "step": 41085,
      "token_acc": 0.9375,
      "train_speed(iter/s)": 1.452768
    },
    {
      "epoch": 1.760421575767962,
      "grad_norm": 5.337957859039307,
      "learning_rate": 7.240732180948637e-05,
      "loss": 0.4924555778503418,
      "memory(GiB)": 70.5,
      "step": 41090,
      "token_acc": 0.8892128279883382,
      "train_speed(iter/s)": 1.452761
    },
    {
      "epoch": 1.760635791097211,
      "grad_norm": 1.9050015211105347,
      "learning_rate": 7.240130545753496e-05,
      "loss": 0.16079612970352172,
      "memory(GiB)": 70.5,
      "step": 41095,
      "token_acc": 0.9482758620689655,
      "train_speed(iter/s)": 1.452761
    },
    {
      "epoch": 1.7608500064264598,
      "grad_norm": 8.75805950164795,
      "learning_rate": 7.239528869976288e-05,
      "loss": 0.31352553367614744,
      "memory(GiB)": 70.5,
      "step": 41100,
      "token_acc": 0.9157088122605364,
      "train_speed(iter/s)": 1.452783
    },
    {
      "epoch": 1.7610642217557089,
      "grad_norm": 3.6870477199554443,
      "learning_rate": 7.238927153627914e-05,
      "loss": 0.3976861238479614,
      "memory(GiB)": 70.5,
      "step": 41105,
      "token_acc": 0.912751677852349,
      "train_speed(iter/s)": 1.452792
    },
    {
      "epoch": 1.761278437084958,
      "grad_norm": 0.8606336116790771,
      "learning_rate": 7.238325396719275e-05,
      "loss": 0.18741439580917357,
      "memory(GiB)": 70.5,
      "step": 41110,
      "token_acc": 0.9598393574297188,
      "train_speed(iter/s)": 1.452787
    },
    {
      "epoch": 1.7614926524142067,
      "grad_norm": 2.733031988143921,
      "learning_rate": 7.23772359926127e-05,
      "loss": 0.2287053346633911,
      "memory(GiB)": 70.5,
      "step": 41115,
      "token_acc": 0.940959409594096,
      "train_speed(iter/s)": 1.452787
    },
    {
      "epoch": 1.7617068677434558,
      "grad_norm": 4.862912178039551,
      "learning_rate": 7.237121761264805e-05,
      "loss": 0.31458892822265627,
      "memory(GiB)": 70.5,
      "step": 41120,
      "token_acc": 0.9462025316455697,
      "train_speed(iter/s)": 1.45279
    },
    {
      "epoch": 1.7619210830727048,
      "grad_norm": 3.1095755100250244,
      "learning_rate": 7.23651988274078e-05,
      "loss": 0.40685153007507324,
      "memory(GiB)": 70.5,
      "step": 41125,
      "token_acc": 0.9134948096885813,
      "train_speed(iter/s)": 1.452805
    },
    {
      "epoch": 1.7621352984019536,
      "grad_norm": 3.329308271408081,
      "learning_rate": 7.235917963700098e-05,
      "loss": 0.3863210916519165,
      "memory(GiB)": 70.5,
      "step": 41130,
      "token_acc": 0.9144542772861357,
      "train_speed(iter/s)": 1.4528
    },
    {
      "epoch": 1.7623495137312026,
      "grad_norm": 2.0961430072784424,
      "learning_rate": 7.235316004153667e-05,
      "loss": 0.28809328079223634,
      "memory(GiB)": 70.5,
      "step": 41135,
      "token_acc": 0.951417004048583,
      "train_speed(iter/s)": 1.45282
    },
    {
      "epoch": 1.7625637290604517,
      "grad_norm": 3.8429512977600098,
      "learning_rate": 7.234714004112388e-05,
      "loss": 0.46563191413879396,
      "memory(GiB)": 70.5,
      "step": 41140,
      "token_acc": 0.9116022099447514,
      "train_speed(iter/s)": 1.452855
    },
    {
      "epoch": 1.7627779443897005,
      "grad_norm": 3.0166778564453125,
      "learning_rate": 7.234111963587169e-05,
      "loss": 0.631031847000122,
      "memory(GiB)": 70.5,
      "step": 41145,
      "token_acc": 0.8745387453874539,
      "train_speed(iter/s)": 1.452869
    },
    {
      "epoch": 1.7629921597189495,
      "grad_norm": 3.727104663848877,
      "learning_rate": 7.233509882588914e-05,
      "loss": 0.49788408279418944,
      "memory(GiB)": 70.5,
      "step": 41150,
      "token_acc": 0.9154078549848943,
      "train_speed(iter/s)": 1.452861
    },
    {
      "epoch": 1.7632063750481985,
      "grad_norm": 2.56402587890625,
      "learning_rate": 7.232907761128535e-05,
      "loss": 0.37325661182403563,
      "memory(GiB)": 70.5,
      "step": 41155,
      "token_acc": 0.9352941176470588,
      "train_speed(iter/s)": 1.452853
    },
    {
      "epoch": 1.7634205903774474,
      "grad_norm": 5.494442462921143,
      "learning_rate": 7.232305599216938e-05,
      "loss": 0.3952138900756836,
      "memory(GiB)": 70.5,
      "step": 41160,
      "token_acc": 0.925,
      "train_speed(iter/s)": 1.452852
    },
    {
      "epoch": 1.7636348057066964,
      "grad_norm": 3.6450657844543457,
      "learning_rate": 7.231703396865029e-05,
      "loss": 0.490583610534668,
      "memory(GiB)": 70.5,
      "step": 41165,
      "token_acc": 0.8854166666666666,
      "train_speed(iter/s)": 1.452855
    },
    {
      "epoch": 1.7638490210359454,
      "grad_norm": 2.6768405437469482,
      "learning_rate": 7.23110115408372e-05,
      "loss": 0.5055151462554932,
      "memory(GiB)": 70.5,
      "step": 41170,
      "token_acc": 0.8927536231884058,
      "train_speed(iter/s)": 1.452856
    },
    {
      "epoch": 1.7640632363651942,
      "grad_norm": 0.3030024766921997,
      "learning_rate": 7.23049887088392e-05,
      "loss": 0.2724770069122314,
      "memory(GiB)": 70.5,
      "step": 41175,
      "token_acc": 0.9290322580645162,
      "train_speed(iter/s)": 1.452844
    },
    {
      "epoch": 1.7642774516944433,
      "grad_norm": 7.130879878997803,
      "learning_rate": 7.22989654727654e-05,
      "loss": 0.5667361259460449,
      "memory(GiB)": 70.5,
      "step": 41180,
      "token_acc": 0.8835616438356164,
      "train_speed(iter/s)": 1.452817
    },
    {
      "epoch": 1.7644916670236923,
      "grad_norm": 1.6673266887664795,
      "learning_rate": 7.229294183272495e-05,
      "loss": 0.3254960775375366,
      "memory(GiB)": 70.5,
      "step": 41185,
      "token_acc": 0.9263456090651558,
      "train_speed(iter/s)": 1.452835
    },
    {
      "epoch": 1.7647058823529411,
      "grad_norm": 7.426810264587402,
      "learning_rate": 7.228691778882693e-05,
      "loss": 0.4558091163635254,
      "memory(GiB)": 70.5,
      "step": 41190,
      "token_acc": 0.9099378881987578,
      "train_speed(iter/s)": 1.452826
    },
    {
      "epoch": 1.7649200976821902,
      "grad_norm": 2.7840681076049805,
      "learning_rate": 7.228089334118047e-05,
      "loss": 0.5959766864776611,
      "memory(GiB)": 70.5,
      "step": 41195,
      "token_acc": 0.8673139158576052,
      "train_speed(iter/s)": 1.45281
    },
    {
      "epoch": 1.7651343130114392,
      "grad_norm": 1.611932635307312,
      "learning_rate": 7.227486848989475e-05,
      "loss": 0.1892843246459961,
      "memory(GiB)": 70.5,
      "step": 41200,
      "token_acc": 0.9561128526645768,
      "train_speed(iter/s)": 1.45282
    },
    {
      "epoch": 1.765348528340688,
      "grad_norm": 3.0349535942077637,
      "learning_rate": 7.226884323507887e-05,
      "loss": 0.2915960788726807,
      "memory(GiB)": 70.5,
      "step": 41205,
      "token_acc": 0.9460431654676259,
      "train_speed(iter/s)": 1.452837
    },
    {
      "epoch": 1.765562743669937,
      "grad_norm": 0.9498533606529236,
      "learning_rate": 7.226281757684204e-05,
      "loss": 0.2170416831970215,
      "memory(GiB)": 70.5,
      "step": 41210,
      "token_acc": 0.9405204460966543,
      "train_speed(iter/s)": 1.452838
    },
    {
      "epoch": 1.765776958999186,
      "grad_norm": 3.915473461151123,
      "learning_rate": 7.225679151529337e-05,
      "loss": 0.4935890197753906,
      "memory(GiB)": 70.5,
      "step": 41215,
      "token_acc": 0.8979591836734694,
      "train_speed(iter/s)": 1.452845
    },
    {
      "epoch": 1.7659911743284349,
      "grad_norm": 4.237518310546875,
      "learning_rate": 7.225076505054202e-05,
      "loss": 0.29362921714782714,
      "memory(GiB)": 70.5,
      "step": 41220,
      "token_acc": 0.9163763066202091,
      "train_speed(iter/s)": 1.45285
    },
    {
      "epoch": 1.766205389657684,
      "grad_norm": 4.8768181800842285,
      "learning_rate": 7.224473818269721e-05,
      "loss": 0.6589579582214355,
      "memory(GiB)": 70.5,
      "step": 41225,
      "token_acc": 0.8858131487889274,
      "train_speed(iter/s)": 1.452853
    },
    {
      "epoch": 1.766419604986933,
      "grad_norm": 3.9340415000915527,
      "learning_rate": 7.22387109118681e-05,
      "loss": 0.16175860166549683,
      "memory(GiB)": 70.5,
      "step": 41230,
      "token_acc": 0.9607142857142857,
      "train_speed(iter/s)": 1.452852
    },
    {
      "epoch": 1.7666338203161818,
      "grad_norm": 0.2864367961883545,
      "learning_rate": 7.223268323816386e-05,
      "loss": 0.1626768946647644,
      "memory(GiB)": 70.5,
      "step": 41235,
      "token_acc": 0.9626168224299065,
      "train_speed(iter/s)": 1.452858
    },
    {
      "epoch": 1.7668480356454308,
      "grad_norm": 0.35499247908592224,
      "learning_rate": 7.222665516169373e-05,
      "loss": 0.3365834951400757,
      "memory(GiB)": 70.5,
      "step": 41240,
      "token_acc": 0.9146757679180887,
      "train_speed(iter/s)": 1.452858
    },
    {
      "epoch": 1.7670622509746798,
      "grad_norm": 0.41101446747779846,
      "learning_rate": 7.22206266825669e-05,
      "loss": 0.35205085277557374,
      "memory(GiB)": 70.5,
      "step": 41245,
      "token_acc": 0.9455782312925171,
      "train_speed(iter/s)": 1.452858
    },
    {
      "epoch": 1.7672764663039287,
      "grad_norm": 3.7186596393585205,
      "learning_rate": 7.221459780089255e-05,
      "loss": 0.42997050285339355,
      "memory(GiB)": 70.5,
      "step": 41250,
      "token_acc": 0.9324894514767933,
      "train_speed(iter/s)": 1.452856
    },
    {
      "epoch": 1.7674906816331777,
      "grad_norm": 0.3590008318424225,
      "learning_rate": 7.220856851677994e-05,
      "loss": 0.2460613489151001,
      "memory(GiB)": 70.5,
      "step": 41255,
      "token_acc": 0.9453125,
      "train_speed(iter/s)": 1.452879
    },
    {
      "epoch": 1.7677048969624267,
      "grad_norm": 2.4097659587860107,
      "learning_rate": 7.220253883033827e-05,
      "loss": 0.18610965013504027,
      "memory(GiB)": 70.5,
      "step": 41260,
      "token_acc": 0.9452554744525548,
      "train_speed(iter/s)": 1.452873
    },
    {
      "epoch": 1.7679191122916755,
      "grad_norm": 1.2449893951416016,
      "learning_rate": 7.219650874167675e-05,
      "loss": 0.13523296117782593,
      "memory(GiB)": 70.5,
      "step": 41265,
      "token_acc": 0.973421926910299,
      "train_speed(iter/s)": 1.452871
    },
    {
      "epoch": 1.7681333276209246,
      "grad_norm": 0.33486151695251465,
      "learning_rate": 7.21904782509047e-05,
      "loss": 0.49457383155822754,
      "memory(GiB)": 70.5,
      "step": 41270,
      "token_acc": 0.8714859437751004,
      "train_speed(iter/s)": 1.452892
    },
    {
      "epoch": 1.7683475429501736,
      "grad_norm": 2.2274856567382812,
      "learning_rate": 7.218444735813132e-05,
      "loss": 0.6664272308349609,
      "memory(GiB)": 70.5,
      "step": 41275,
      "token_acc": 0.8461538461538461,
      "train_speed(iter/s)": 1.452911
    },
    {
      "epoch": 1.7685617582794224,
      "grad_norm": 2.394951820373535,
      "learning_rate": 7.217841606346584e-05,
      "loss": 0.3863740205764771,
      "memory(GiB)": 70.5,
      "step": 41280,
      "token_acc": 0.898989898989899,
      "train_speed(iter/s)": 1.452916
    },
    {
      "epoch": 1.7687759736086714,
      "grad_norm": 2.1818506717681885,
      "learning_rate": 7.217238436701756e-05,
      "loss": 0.26508588790893556,
      "memory(GiB)": 70.5,
      "step": 41285,
      "token_acc": 0.9318181818181818,
      "train_speed(iter/s)": 1.452921
    },
    {
      "epoch": 1.7689901889379205,
      "grad_norm": 1.127026915550232,
      "learning_rate": 7.216635226889572e-05,
      "loss": 0.3133701324462891,
      "memory(GiB)": 70.5,
      "step": 41290,
      "token_acc": 0.926923076923077,
      "train_speed(iter/s)": 1.452934
    },
    {
      "epoch": 1.7692044042671693,
      "grad_norm": 0.4185769855976105,
      "learning_rate": 7.216031976920963e-05,
      "loss": 0.28543407917022706,
      "memory(GiB)": 70.5,
      "step": 41295,
      "token_acc": 0.9446153846153846,
      "train_speed(iter/s)": 1.452933
    },
    {
      "epoch": 1.7694186195964183,
      "grad_norm": 4.294552803039551,
      "learning_rate": 7.215428686806855e-05,
      "loss": 0.4969793796539307,
      "memory(GiB)": 70.5,
      "step": 41300,
      "token_acc": 0.8922558922558923,
      "train_speed(iter/s)": 1.45296
    },
    {
      "epoch": 1.7696328349256674,
      "grad_norm": 3.090672016143799,
      "learning_rate": 7.214825356558181e-05,
      "loss": 0.24506075382232667,
      "memory(GiB)": 70.5,
      "step": 41305,
      "token_acc": 0.9384057971014492,
      "train_speed(iter/s)": 1.452975
    },
    {
      "epoch": 1.7698470502549162,
      "grad_norm": 3.7169671058654785,
      "learning_rate": 7.214221986185865e-05,
      "loss": 0.4202686309814453,
      "memory(GiB)": 70.5,
      "step": 41310,
      "token_acc": 0.9192982456140351,
      "train_speed(iter/s)": 1.452987
    },
    {
      "epoch": 1.7700612655841652,
      "grad_norm": 9.178520202636719,
      "learning_rate": 7.213618575700841e-05,
      "loss": 0.5521541118621827,
      "memory(GiB)": 70.5,
      "step": 41315,
      "token_acc": 0.8912280701754386,
      "train_speed(iter/s)": 1.452994
    },
    {
      "epoch": 1.7702754809134142,
      "grad_norm": 5.616382122039795,
      "learning_rate": 7.21301512511404e-05,
      "loss": 0.24986093044281005,
      "memory(GiB)": 70.5,
      "step": 41320,
      "token_acc": 0.9537815126050421,
      "train_speed(iter/s)": 1.452985
    },
    {
      "epoch": 1.770489696242663,
      "grad_norm": 5.162546157836914,
      "learning_rate": 7.212411634436396e-05,
      "loss": 0.21298224925994874,
      "memory(GiB)": 70.5,
      "step": 41325,
      "token_acc": 0.9537953795379538,
      "train_speed(iter/s)": 1.452986
    },
    {
      "epoch": 1.770703911571912,
      "grad_norm": 2.2828938961029053,
      "learning_rate": 7.21180810367884e-05,
      "loss": 0.47084383964538573,
      "memory(GiB)": 70.5,
      "step": 41330,
      "token_acc": 0.9055944055944056,
      "train_speed(iter/s)": 1.452978
    },
    {
      "epoch": 1.7709181269011611,
      "grad_norm": 0.646457314491272,
      "learning_rate": 7.211204532852302e-05,
      "loss": 0.3310267686843872,
      "memory(GiB)": 70.5,
      "step": 41335,
      "token_acc": 0.9276729559748428,
      "train_speed(iter/s)": 1.452968
    },
    {
      "epoch": 1.77113234223041,
      "grad_norm": 3.956108570098877,
      "learning_rate": 7.21060092196772e-05,
      "loss": 0.4591982364654541,
      "memory(GiB)": 70.5,
      "step": 41340,
      "token_acc": 0.887719298245614,
      "train_speed(iter/s)": 1.452958
    },
    {
      "epoch": 1.771346557559659,
      "grad_norm": 2.772745370864868,
      "learning_rate": 7.209997271036031e-05,
      "loss": 0.44019575119018556,
      "memory(GiB)": 70.5,
      "step": 41345,
      "token_acc": 0.9201388888888888,
      "train_speed(iter/s)": 1.45298
    },
    {
      "epoch": 1.771560772888908,
      "grad_norm": 4.233997344970703,
      "learning_rate": 7.209393580068167e-05,
      "loss": 0.5285609245300293,
      "memory(GiB)": 70.5,
      "step": 41350,
      "token_acc": 0.903448275862069,
      "train_speed(iter/s)": 1.45298
    },
    {
      "epoch": 1.7717749882181568,
      "grad_norm": 4.8051838874816895,
      "learning_rate": 7.208789849075065e-05,
      "loss": 0.27902750968933104,
      "memory(GiB)": 70.5,
      "step": 41355,
      "token_acc": 0.9428571428571428,
      "train_speed(iter/s)": 1.453015
    },
    {
      "epoch": 1.7719892035474059,
      "grad_norm": 4.295307159423828,
      "learning_rate": 7.208186078067665e-05,
      "loss": 0.32774176597595217,
      "memory(GiB)": 70.5,
      "step": 41360,
      "token_acc": 0.932,
      "train_speed(iter/s)": 1.453011
    },
    {
      "epoch": 1.772203418876655,
      "grad_norm": 5.009275436401367,
      "learning_rate": 7.2075822670569e-05,
      "loss": 0.5556405544281006,
      "memory(GiB)": 70.5,
      "step": 41365,
      "token_acc": 0.8955223880597015,
      "train_speed(iter/s)": 1.453022
    },
    {
      "epoch": 1.7724176342059037,
      "grad_norm": 2.56170654296875,
      "learning_rate": 7.206978416053714e-05,
      "loss": 0.4283571243286133,
      "memory(GiB)": 70.5,
      "step": 41370,
      "token_acc": 0.9430604982206405,
      "train_speed(iter/s)": 1.453026
    },
    {
      "epoch": 1.7726318495351527,
      "grad_norm": 2.9119014739990234,
      "learning_rate": 7.206374525069041e-05,
      "loss": 0.7609982967376709,
      "memory(GiB)": 70.5,
      "step": 41375,
      "token_acc": 0.8321917808219178,
      "train_speed(iter/s)": 1.453032
    },
    {
      "epoch": 1.7728460648644018,
      "grad_norm": 0.7543812394142151,
      "learning_rate": 7.205770594113826e-05,
      "loss": 0.35111179351806643,
      "memory(GiB)": 70.5,
      "step": 41380,
      "token_acc": 0.9228070175438596,
      "train_speed(iter/s)": 1.453044
    },
    {
      "epoch": 1.7730602801936506,
      "grad_norm": 5.138831615447998,
      "learning_rate": 7.205166623199007e-05,
      "loss": 0.375387978553772,
      "memory(GiB)": 70.5,
      "step": 41385,
      "token_acc": 0.920265780730897,
      "train_speed(iter/s)": 1.453042
    },
    {
      "epoch": 1.7732744955228996,
      "grad_norm": 3.6627020835876465,
      "learning_rate": 7.204562612335526e-05,
      "loss": 0.6042525768280029,
      "memory(GiB)": 70.5,
      "step": 41390,
      "token_acc": 0.8664122137404581,
      "train_speed(iter/s)": 1.453045
    },
    {
      "epoch": 1.7734887108521487,
      "grad_norm": 2.537858724594116,
      "learning_rate": 7.203958561534324e-05,
      "loss": 0.3185742378234863,
      "memory(GiB)": 70.5,
      "step": 41395,
      "token_acc": 0.926984126984127,
      "train_speed(iter/s)": 1.453046
    },
    {
      "epoch": 1.7737029261813975,
      "grad_norm": 7.243795871734619,
      "learning_rate": 7.203354470806348e-05,
      "loss": 0.8281095504760743,
      "memory(GiB)": 70.5,
      "step": 41400,
      "token_acc": 0.8447653429602888,
      "train_speed(iter/s)": 1.453067
    },
    {
      "epoch": 1.7739171415106465,
      "grad_norm": 2.1824707984924316,
      "learning_rate": 7.202750340162536e-05,
      "loss": 0.4002987384796143,
      "memory(GiB)": 70.5,
      "step": 41405,
      "token_acc": 0.9186746987951807,
      "train_speed(iter/s)": 1.45308
    },
    {
      "epoch": 1.7741313568398955,
      "grad_norm": 3.6355738639831543,
      "learning_rate": 7.202146169613835e-05,
      "loss": 0.31203112602233884,
      "memory(GiB)": 70.5,
      "step": 41410,
      "token_acc": 0.9478527607361963,
      "train_speed(iter/s)": 1.453077
    },
    {
      "epoch": 1.7743455721691443,
      "grad_norm": 6.529365539550781,
      "learning_rate": 7.201541959171191e-05,
      "loss": 0.45801429748535155,
      "memory(GiB)": 70.5,
      "step": 41415,
      "token_acc": 0.8901960784313725,
      "train_speed(iter/s)": 1.453082
    },
    {
      "epoch": 1.7745597874983934,
      "grad_norm": 2.582127332687378,
      "learning_rate": 7.200937708845552e-05,
      "loss": 0.36723182201385496,
      "memory(GiB)": 70.5,
      "step": 41420,
      "token_acc": 0.9290540540540541,
      "train_speed(iter/s)": 1.453083
    },
    {
      "epoch": 1.7747740028276424,
      "grad_norm": 2.0308640003204346,
      "learning_rate": 7.200333418647859e-05,
      "loss": 0.37702014446258547,
      "memory(GiB)": 70.5,
      "step": 41425,
      "token_acc": 0.9391891891891891,
      "train_speed(iter/s)": 1.453081
    },
    {
      "epoch": 1.7749882181568912,
      "grad_norm": 3.162593364715576,
      "learning_rate": 7.199729088589063e-05,
      "loss": 0.3166424989700317,
      "memory(GiB)": 70.5,
      "step": 41430,
      "token_acc": 0.9320754716981132,
      "train_speed(iter/s)": 1.453074
    },
    {
      "epoch": 1.7752024334861403,
      "grad_norm": 5.350160121917725,
      "learning_rate": 7.199124718680111e-05,
      "loss": 0.4613516330718994,
      "memory(GiB)": 70.5,
      "step": 41435,
      "token_acc": 0.916955017301038,
      "train_speed(iter/s)": 1.453075
    },
    {
      "epoch": 1.7754166488153893,
      "grad_norm": 10.224472999572754,
      "learning_rate": 7.198520308931951e-05,
      "loss": 0.23155601024627687,
      "memory(GiB)": 70.5,
      "step": 41440,
      "token_acc": 0.9398496240601504,
      "train_speed(iter/s)": 1.453089
    },
    {
      "epoch": 1.775630864144638,
      "grad_norm": 3.448495626449585,
      "learning_rate": 7.197915859355534e-05,
      "loss": 0.2562771558761597,
      "memory(GiB)": 70.5,
      "step": 41445,
      "token_acc": 0.9401408450704225,
      "train_speed(iter/s)": 1.453097
    },
    {
      "epoch": 1.7758450794738871,
      "grad_norm": 5.086706161499023,
      "learning_rate": 7.197311369961809e-05,
      "loss": 0.4031463623046875,
      "memory(GiB)": 70.5,
      "step": 41450,
      "token_acc": 0.9177631578947368,
      "train_speed(iter/s)": 1.453096
    },
    {
      "epoch": 1.7760592948031362,
      "grad_norm": 9.589238166809082,
      "learning_rate": 7.196706840761727e-05,
      "loss": 0.48363347053527833,
      "memory(GiB)": 70.5,
      "step": 41455,
      "token_acc": 0.8993055555555556,
      "train_speed(iter/s)": 1.4531
    },
    {
      "epoch": 1.776273510132385,
      "grad_norm": 3.3067073822021484,
      "learning_rate": 7.196102271766241e-05,
      "loss": 0.3596835136413574,
      "memory(GiB)": 70.5,
      "step": 41460,
      "token_acc": 0.9074733096085409,
      "train_speed(iter/s)": 1.453087
    },
    {
      "epoch": 1.776487725461634,
      "grad_norm": 2.564406633377075,
      "learning_rate": 7.1954976629863e-05,
      "loss": 0.21811344623565673,
      "memory(GiB)": 70.5,
      "step": 41465,
      "token_acc": 0.9516129032258065,
      "train_speed(iter/s)": 1.453093
    },
    {
      "epoch": 1.776701940790883,
      "grad_norm": 4.551553726196289,
      "learning_rate": 7.194893014432862e-05,
      "loss": 0.41861696243286134,
      "memory(GiB)": 70.5,
      "step": 41470,
      "token_acc": 0.9114583333333334,
      "train_speed(iter/s)": 1.453101
    },
    {
      "epoch": 1.7769161561201319,
      "grad_norm": 4.2792253494262695,
      "learning_rate": 7.194288326116876e-05,
      "loss": 0.5820718765258789,
      "memory(GiB)": 70.5,
      "step": 41475,
      "token_acc": 0.890728476821192,
      "train_speed(iter/s)": 1.453126
    },
    {
      "epoch": 1.777130371449381,
      "grad_norm": 1.1184718608856201,
      "learning_rate": 7.1936835980493e-05,
      "loss": 0.3248513460159302,
      "memory(GiB)": 70.5,
      "step": 41480,
      "token_acc": 0.9218241042345277,
      "train_speed(iter/s)": 1.453122
    },
    {
      "epoch": 1.77734458677863,
      "grad_norm": 5.430880546569824,
      "learning_rate": 7.193078830241087e-05,
      "loss": 0.40962491035461424,
      "memory(GiB)": 70.5,
      "step": 41485,
      "token_acc": 0.9190283400809717,
      "train_speed(iter/s)": 1.453132
    },
    {
      "epoch": 1.7775588021078788,
      "grad_norm": 1.150283932685852,
      "learning_rate": 7.192474022703194e-05,
      "loss": 0.3690898656845093,
      "memory(GiB)": 70.5,
      "step": 41490,
      "token_acc": 0.9304029304029304,
      "train_speed(iter/s)": 1.453125
    },
    {
      "epoch": 1.7777730174371278,
      "grad_norm": 8.743621826171875,
      "learning_rate": 7.191869175446576e-05,
      "loss": 0.49982495307922364,
      "memory(GiB)": 70.5,
      "step": 41495,
      "token_acc": 0.8865248226950354,
      "train_speed(iter/s)": 1.453126
    },
    {
      "epoch": 1.7779872327663768,
      "grad_norm": 7.160375118255615,
      "learning_rate": 7.191264288482194e-05,
      "loss": 0.7466540336608887,
      "memory(GiB)": 70.5,
      "step": 41500,
      "token_acc": 0.8456973293768546,
      "train_speed(iter/s)": 1.453128
    },
    {
      "epoch": 1.7779872327663768,
      "eval_loss": 2.6776578426361084,
      "eval_runtime": 13.2735,
      "eval_samples_per_second": 7.534,
      "eval_steps_per_second": 7.534,
      "eval_token_acc": 0.44919786096256686,
      "step": 41500
    },
    {
      "epoch": 1.7782014480956256,
      "grad_norm": 3.6390750408172607,
      "learning_rate": 7.190659361821003e-05,
      "loss": 0.4067963123321533,
      "memory(GiB)": 70.5,
      "step": 41505,
      "token_acc": 0.5819750719079578,
      "train_speed(iter/s)": 1.452427
    },
    {
      "epoch": 1.7784156634248747,
      "grad_norm": 3.490949869155884,
      "learning_rate": 7.190054395473962e-05,
      "loss": 0.5561655044555665,
      "memory(GiB)": 70.5,
      "step": 41510,
      "token_acc": 0.8832116788321168,
      "train_speed(iter/s)": 1.452438
    },
    {
      "epoch": 1.7786298787541237,
      "grad_norm": 4.318096160888672,
      "learning_rate": 7.189449389452032e-05,
      "loss": 0.20571882724761964,
      "memory(GiB)": 70.5,
      "step": 41515,
      "token_acc": 0.9448275862068966,
      "train_speed(iter/s)": 1.452453
    },
    {
      "epoch": 1.7788440940833725,
      "grad_norm": 3.8933684825897217,
      "learning_rate": 7.188844343766173e-05,
      "loss": 0.462283992767334,
      "memory(GiB)": 70.5,
      "step": 41520,
      "token_acc": 0.915625,
      "train_speed(iter/s)": 1.452453
    },
    {
      "epoch": 1.7790583094126216,
      "grad_norm": 5.40664005279541,
      "learning_rate": 7.188239258427343e-05,
      "loss": 0.5017581939697265,
      "memory(GiB)": 70.5,
      "step": 41525,
      "token_acc": 0.8787878787878788,
      "train_speed(iter/s)": 1.452444
    },
    {
      "epoch": 1.7792725247418706,
      "grad_norm": 1.5541529655456543,
      "learning_rate": 7.187634133446507e-05,
      "loss": 0.4353282928466797,
      "memory(GiB)": 70.5,
      "step": 41530,
      "token_acc": 0.8866279069767442,
      "train_speed(iter/s)": 1.452467
    },
    {
      "epoch": 1.7794867400711194,
      "grad_norm": 2.190575361251831,
      "learning_rate": 7.18702896883463e-05,
      "loss": 0.32464070320129396,
      "memory(GiB)": 70.5,
      "step": 41535,
      "token_acc": 0.9363057324840764,
      "train_speed(iter/s)": 1.45247
    },
    {
      "epoch": 1.7797009554003684,
      "grad_norm": 2.414029836654663,
      "learning_rate": 7.186423764602668e-05,
      "loss": 0.1896358847618103,
      "memory(GiB)": 70.5,
      "step": 41540,
      "token_acc": 0.9440298507462687,
      "train_speed(iter/s)": 1.452472
    },
    {
      "epoch": 1.7799151707296175,
      "grad_norm": 1.1820380687713623,
      "learning_rate": 7.185818520761589e-05,
      "loss": 0.3909574031829834,
      "memory(GiB)": 70.5,
      "step": 41545,
      "token_acc": 0.9213483146067416,
      "train_speed(iter/s)": 1.452485
    },
    {
      "epoch": 1.7801293860588663,
      "grad_norm": 5.020418167114258,
      "learning_rate": 7.185213237322358e-05,
      "loss": 0.5392949104309082,
      "memory(GiB)": 70.5,
      "step": 41550,
      "token_acc": 0.8961937716262975,
      "train_speed(iter/s)": 1.452492
    },
    {
      "epoch": 1.7803436013881153,
      "grad_norm": 2.4443938732147217,
      "learning_rate": 7.184607914295937e-05,
      "loss": 0.2896125316619873,
      "memory(GiB)": 70.5,
      "step": 41555,
      "token_acc": 0.9407407407407408,
      "train_speed(iter/s)": 1.452497
    },
    {
      "epoch": 1.7805578167173644,
      "grad_norm": 5.058330535888672,
      "learning_rate": 7.184002551693296e-05,
      "loss": 0.3719912052154541,
      "memory(GiB)": 70.5,
      "step": 41560,
      "token_acc": 0.9128630705394191,
      "train_speed(iter/s)": 1.452494
    },
    {
      "epoch": 1.7807720320466132,
      "grad_norm": 3.879171848297119,
      "learning_rate": 7.183397149525401e-05,
      "loss": 0.4213155746459961,
      "memory(GiB)": 70.5,
      "step": 41565,
      "token_acc": 0.920863309352518,
      "train_speed(iter/s)": 1.452509
    },
    {
      "epoch": 1.7809862473758622,
      "grad_norm": 4.1328253746032715,
      "learning_rate": 7.182791707803216e-05,
      "loss": 0.3800839900970459,
      "memory(GiB)": 70.5,
      "step": 41570,
      "token_acc": 0.9221902017291066,
      "train_speed(iter/s)": 1.45252
    },
    {
      "epoch": 1.7812004627051112,
      "grad_norm": 2.478199005126953,
      "learning_rate": 7.182186226537714e-05,
      "loss": 0.46788859367370605,
      "memory(GiB)": 70.5,
      "step": 41575,
      "token_acc": 0.8992248062015504,
      "train_speed(iter/s)": 1.452529
    },
    {
      "epoch": 1.78141467803436,
      "grad_norm": 3.183281660079956,
      "learning_rate": 7.18158070573986e-05,
      "loss": 0.3930633068084717,
      "memory(GiB)": 70.5,
      "step": 41580,
      "token_acc": 0.9209621993127147,
      "train_speed(iter/s)": 1.452532
    },
    {
      "epoch": 1.781628893363609,
      "grad_norm": 2.9466147422790527,
      "learning_rate": 7.180975145420625e-05,
      "loss": 0.4732706546783447,
      "memory(GiB)": 70.5,
      "step": 41585,
      "token_acc": 0.896551724137931,
      "train_speed(iter/s)": 1.45254
    },
    {
      "epoch": 1.7818431086928581,
      "grad_norm": 2.240945816040039,
      "learning_rate": 7.180369545590981e-05,
      "loss": 0.26071193218231203,
      "memory(GiB)": 70.5,
      "step": 41590,
      "token_acc": 0.9251968503937008,
      "train_speed(iter/s)": 1.452558
    },
    {
      "epoch": 1.782057324022107,
      "grad_norm": 3.285740613937378,
      "learning_rate": 7.179763906261896e-05,
      "loss": 0.37091004848480225,
      "memory(GiB)": 70.5,
      "step": 41595,
      "token_acc": 0.9133858267716536,
      "train_speed(iter/s)": 1.45256
    },
    {
      "epoch": 1.782271539351356,
      "grad_norm": 4.988839626312256,
      "learning_rate": 7.179158227444343e-05,
      "loss": 0.5772286415100097,
      "memory(GiB)": 70.5,
      "step": 41600,
      "token_acc": 0.853125,
      "train_speed(iter/s)": 1.452553
    },
    {
      "epoch": 1.782485754680605,
      "grad_norm": 5.906022548675537,
      "learning_rate": 7.178552509149294e-05,
      "loss": 0.24827198982238768,
      "memory(GiB)": 70.5,
      "step": 41605,
      "token_acc": 0.9278996865203761,
      "train_speed(iter/s)": 1.452572
    },
    {
      "epoch": 1.7826999700098538,
      "grad_norm": 2.589186429977417,
      "learning_rate": 7.177946751387723e-05,
      "loss": 0.38198180198669435,
      "memory(GiB)": 70.5,
      "step": 41610,
      "token_acc": 0.8993506493506493,
      "train_speed(iter/s)": 1.452574
    },
    {
      "epoch": 1.7829141853391028,
      "grad_norm": 2.611095428466797,
      "learning_rate": 7.177340954170604e-05,
      "loss": 0.2936186552047729,
      "memory(GiB)": 70.5,
      "step": 41615,
      "token_acc": 0.9555555555555556,
      "train_speed(iter/s)": 1.452582
    },
    {
      "epoch": 1.7831284006683519,
      "grad_norm": 1.2993764877319336,
      "learning_rate": 7.176735117508911e-05,
      "loss": 0.4656956672668457,
      "memory(GiB)": 70.5,
      "step": 41620,
      "token_acc": 0.9072164948453608,
      "train_speed(iter/s)": 1.45258
    },
    {
      "epoch": 1.7833426159976007,
      "grad_norm": 3.5509111881256104,
      "learning_rate": 7.176129241413619e-05,
      "loss": 0.5044883728027344,
      "memory(GiB)": 70.5,
      "step": 41625,
      "token_acc": 0.8961937716262975,
      "train_speed(iter/s)": 1.452592
    },
    {
      "epoch": 1.7835568313268497,
      "grad_norm": 3.1214377880096436,
      "learning_rate": 7.175523325895705e-05,
      "loss": 0.33735659122467043,
      "memory(GiB)": 70.5,
      "step": 41630,
      "token_acc": 0.9166666666666666,
      "train_speed(iter/s)": 1.452586
    },
    {
      "epoch": 1.7837710466560988,
      "grad_norm": 1.707295536994934,
      "learning_rate": 7.174917370966145e-05,
      "loss": 0.14683088064193725,
      "memory(GiB)": 70.5,
      "step": 41635,
      "token_acc": 0.9713261648745519,
      "train_speed(iter/s)": 1.452588
    },
    {
      "epoch": 1.7839852619853476,
      "grad_norm": 6.989225387573242,
      "learning_rate": 7.174311376635916e-05,
      "loss": 0.5271139144897461,
      "memory(GiB)": 70.5,
      "step": 41640,
      "token_acc": 0.8956228956228957,
      "train_speed(iter/s)": 1.45258
    },
    {
      "epoch": 1.7841994773145966,
      "grad_norm": 4.759068489074707,
      "learning_rate": 7.173705342915998e-05,
      "loss": 0.2794996976852417,
      "memory(GiB)": 70.5,
      "step": 41645,
      "token_acc": 0.9260869565217391,
      "train_speed(iter/s)": 1.452581
    },
    {
      "epoch": 1.7844136926438456,
      "grad_norm": 4.040140151977539,
      "learning_rate": 7.173099269817368e-05,
      "loss": 0.5090903282165528,
      "memory(GiB)": 70.5,
      "step": 41650,
      "token_acc": 0.9037037037037037,
      "train_speed(iter/s)": 1.452595
    },
    {
      "epoch": 1.7846279079730945,
      "grad_norm": 2.400664806365967,
      "learning_rate": 7.172493157351006e-05,
      "loss": 0.32577242851257326,
      "memory(GiB)": 70.5,
      "step": 41655,
      "token_acc": 0.9301470588235294,
      "train_speed(iter/s)": 1.452604
    },
    {
      "epoch": 1.7848421233023435,
      "grad_norm": 2.9351751804351807,
      "learning_rate": 7.171887005527893e-05,
      "loss": 0.42700862884521484,
      "memory(GiB)": 70.5,
      "step": 41660,
      "token_acc": 0.9129129129129129,
      "train_speed(iter/s)": 1.452614
    },
    {
      "epoch": 1.7850563386315925,
      "grad_norm": 2.4743094444274902,
      "learning_rate": 7.17128081435901e-05,
      "loss": 0.3455036163330078,
      "memory(GiB)": 70.5,
      "step": 41665,
      "token_acc": 0.9415584415584416,
      "train_speed(iter/s)": 1.452613
    },
    {
      "epoch": 1.7852705539608413,
      "grad_norm": 3.853506326675415,
      "learning_rate": 7.170674583855335e-05,
      "loss": 0.5326683044433593,
      "memory(GiB)": 70.5,
      "step": 41670,
      "token_acc": 0.8873239436619719,
      "train_speed(iter/s)": 1.45263
    },
    {
      "epoch": 1.7854847692900904,
      "grad_norm": 3.5439486503601074,
      "learning_rate": 7.170068314027855e-05,
      "loss": 0.3239924669265747,
      "memory(GiB)": 70.5,
      "step": 41675,
      "token_acc": 0.9285714285714286,
      "train_speed(iter/s)": 1.452629
    },
    {
      "epoch": 1.7856989846193394,
      "grad_norm": 5.2498555183410645,
      "learning_rate": 7.169462004887555e-05,
      "loss": 0.6093085765838623,
      "memory(GiB)": 70.5,
      "step": 41680,
      "token_acc": 0.8724137931034482,
      "train_speed(iter/s)": 1.452626
    },
    {
      "epoch": 1.7859131999485882,
      "grad_norm": 1.7252758741378784,
      "learning_rate": 7.168855656445412e-05,
      "loss": 0.357589054107666,
      "memory(GiB)": 70.5,
      "step": 41685,
      "token_acc": 0.9105691056910569,
      "train_speed(iter/s)": 1.452653
    },
    {
      "epoch": 1.7861274152778372,
      "grad_norm": 0.07961058616638184,
      "learning_rate": 7.168249268712415e-05,
      "loss": 0.15448522567749023,
      "memory(GiB)": 70.5,
      "step": 41690,
      "token_acc": 0.9669117647058824,
      "train_speed(iter/s)": 1.452657
    },
    {
      "epoch": 1.7863416306070863,
      "grad_norm": 1.257407784461975,
      "learning_rate": 7.16764284169955e-05,
      "loss": 0.42643041610717775,
      "memory(GiB)": 70.5,
      "step": 41695,
      "token_acc": 0.9011406844106464,
      "train_speed(iter/s)": 1.452672
    },
    {
      "epoch": 1.786555845936335,
      "grad_norm": 1.402803659439087,
      "learning_rate": 7.167036375417801e-05,
      "loss": 0.4138291835784912,
      "memory(GiB)": 70.5,
      "step": 41700,
      "token_acc": 0.9123867069486404,
      "train_speed(iter/s)": 1.452671
    },
    {
      "epoch": 1.7867700612655841,
      "grad_norm": 3.4554617404937744,
      "learning_rate": 7.166429869878154e-05,
      "loss": 0.5070513725280762,
      "memory(GiB)": 70.5,
      "step": 41705,
      "token_acc": 0.9065155807365439,
      "train_speed(iter/s)": 1.452702
    },
    {
      "epoch": 1.7869842765948332,
      "grad_norm": 2.4076223373413086,
      "learning_rate": 7.165823325091599e-05,
      "loss": 0.4426224708557129,
      "memory(GiB)": 70.5,
      "step": 41710,
      "token_acc": 0.9363636363636364,
      "train_speed(iter/s)": 1.452715
    },
    {
      "epoch": 1.787198491924082,
      "grad_norm": 4.969460487365723,
      "learning_rate": 7.165216741069122e-05,
      "loss": 0.33766679763793944,
      "memory(GiB)": 70.5,
      "step": 41715,
      "token_acc": 0.9407114624505929,
      "train_speed(iter/s)": 1.452714
    },
    {
      "epoch": 1.787412707253331,
      "grad_norm": 5.144708633422852,
      "learning_rate": 7.164610117821713e-05,
      "loss": 0.20754942893981934,
      "memory(GiB)": 70.5,
      "step": 41720,
      "token_acc": 0.9589552238805971,
      "train_speed(iter/s)": 1.452719
    },
    {
      "epoch": 1.78762692258258,
      "grad_norm": 4.356907844543457,
      "learning_rate": 7.16400345536036e-05,
      "loss": 0.5454702377319336,
      "memory(GiB)": 70.5,
      "step": 41725,
      "token_acc": 0.8872727272727273,
      "train_speed(iter/s)": 1.452718
    },
    {
      "epoch": 1.7878411379118289,
      "grad_norm": 1.6419849395751953,
      "learning_rate": 7.163396753696057e-05,
      "loss": 0.19260450601577758,
      "memory(GiB)": 70.5,
      "step": 41730,
      "token_acc": 0.9646302250803859,
      "train_speed(iter/s)": 1.452716
    },
    {
      "epoch": 1.788055353241078,
      "grad_norm": 8.095528602600098,
      "learning_rate": 7.162790012839791e-05,
      "loss": 0.6324310779571534,
      "memory(GiB)": 70.5,
      "step": 41735,
      "token_acc": 0.8697183098591549,
      "train_speed(iter/s)": 1.45273
    },
    {
      "epoch": 1.788269568570327,
      "grad_norm": 3.6482903957366943,
      "learning_rate": 7.162183232802554e-05,
      "loss": 0.38828697204589846,
      "memory(GiB)": 70.5,
      "step": 41740,
      "token_acc": 0.9185667752442996,
      "train_speed(iter/s)": 1.452718
    },
    {
      "epoch": 1.7884837838995757,
      "grad_norm": 2.1134817600250244,
      "learning_rate": 7.161576413595339e-05,
      "loss": 0.351927661895752,
      "memory(GiB)": 70.5,
      "step": 41745,
      "token_acc": 0.927007299270073,
      "train_speed(iter/s)": 1.452718
    },
    {
      "epoch": 1.7886979992288248,
      "grad_norm": 3.061795949935913,
      "learning_rate": 7.160969555229142e-05,
      "loss": 0.27180984020233157,
      "memory(GiB)": 70.5,
      "step": 41750,
      "token_acc": 0.9438943894389439,
      "train_speed(iter/s)": 1.452731
    },
    {
      "epoch": 1.7889122145580738,
      "grad_norm": 2.6900794506073,
      "learning_rate": 7.160362657714953e-05,
      "loss": 0.4605147361755371,
      "memory(GiB)": 70.5,
      "step": 41755,
      "token_acc": 0.884375,
      "train_speed(iter/s)": 1.452742
    },
    {
      "epoch": 1.7891264298873226,
      "grad_norm": 6.8613762855529785,
      "learning_rate": 7.159755721063768e-05,
      "loss": 0.628001070022583,
      "memory(GiB)": 70.5,
      "step": 41760,
      "token_acc": 0.8650519031141869,
      "train_speed(iter/s)": 1.452724
    },
    {
      "epoch": 1.7893406452165717,
      "grad_norm": 4.955134391784668,
      "learning_rate": 7.159148745286582e-05,
      "loss": 0.45148553848266604,
      "memory(GiB)": 70.5,
      "step": 41765,
      "token_acc": 0.9058823529411765,
      "train_speed(iter/s)": 1.452726
    },
    {
      "epoch": 1.7895548605458207,
      "grad_norm": 2.6849594116210938,
      "learning_rate": 7.158541730394391e-05,
      "loss": 0.23024826049804686,
      "memory(GiB)": 70.5,
      "step": 41770,
      "token_acc": 0.9424920127795527,
      "train_speed(iter/s)": 1.452714
    },
    {
      "epoch": 1.7897690758750695,
      "grad_norm": 3.193829298019409,
      "learning_rate": 7.157934676398192e-05,
      "loss": 0.5030865669250488,
      "memory(GiB)": 70.5,
      "step": 41775,
      "token_acc": 0.8916666666666667,
      "train_speed(iter/s)": 1.452713
    },
    {
      "epoch": 1.7899832912043185,
      "grad_norm": 4.285099983215332,
      "learning_rate": 7.157327583308981e-05,
      "loss": 0.2993576765060425,
      "memory(GiB)": 70.5,
      "step": 41780,
      "token_acc": 0.9450980392156862,
      "train_speed(iter/s)": 1.452704
    },
    {
      "epoch": 1.7901975065335676,
      "grad_norm": 2.075598955154419,
      "learning_rate": 7.156720451137759e-05,
      "loss": 0.3701626777648926,
      "memory(GiB)": 70.5,
      "step": 41785,
      "token_acc": 0.9320754716981132,
      "train_speed(iter/s)": 1.452707
    },
    {
      "epoch": 1.7904117218628164,
      "grad_norm": 4.710295677185059,
      "learning_rate": 7.156113279895522e-05,
      "loss": 0.38420305252075193,
      "memory(GiB)": 70.5,
      "step": 41790,
      "token_acc": 0.9209486166007905,
      "train_speed(iter/s)": 1.452737
    },
    {
      "epoch": 1.7906259371920654,
      "grad_norm": 1.8919997215270996,
      "learning_rate": 7.15550606959327e-05,
      "loss": 0.2748755693435669,
      "memory(GiB)": 70.5,
      "step": 41795,
      "token_acc": 0.9446254071661238,
      "train_speed(iter/s)": 1.452738
    },
    {
      "epoch": 1.7908401525213145,
      "grad_norm": 1.980763554573059,
      "learning_rate": 7.154898820242003e-05,
      "loss": 0.2558917045593262,
      "memory(GiB)": 70.5,
      "step": 41800,
      "token_acc": 0.9488054607508533,
      "train_speed(iter/s)": 1.452743
    },
    {
      "epoch": 1.7910543678505633,
      "grad_norm": 4.460105895996094,
      "learning_rate": 7.154291531852723e-05,
      "loss": 0.33253729343414307,
      "memory(GiB)": 70.5,
      "step": 41805,
      "token_acc": 0.9045801526717557,
      "train_speed(iter/s)": 1.452749
    },
    {
      "epoch": 1.7912685831798123,
      "grad_norm": 3.794426918029785,
      "learning_rate": 7.153684204436433e-05,
      "loss": 0.39499309062957766,
      "memory(GiB)": 70.5,
      "step": 41810,
      "token_acc": 0.9023569023569024,
      "train_speed(iter/s)": 1.452769
    },
    {
      "epoch": 1.7914827985090613,
      "grad_norm": 3.365703582763672,
      "learning_rate": 7.153076838004129e-05,
      "loss": 0.3562678337097168,
      "memory(GiB)": 70.5,
      "step": 41815,
      "token_acc": 0.9292604501607717,
      "train_speed(iter/s)": 1.45278
    },
    {
      "epoch": 1.7916970138383101,
      "grad_norm": 8.906434059143066,
      "learning_rate": 7.152469432566822e-05,
      "loss": 0.5658807754516602,
      "memory(GiB)": 70.5,
      "step": 41820,
      "token_acc": 0.8924418604651163,
      "train_speed(iter/s)": 1.452783
    },
    {
      "epoch": 1.7919112291675592,
      "grad_norm": 4.518669605255127,
      "learning_rate": 7.151861988135511e-05,
      "loss": 0.6101918697357178,
      "memory(GiB)": 70.5,
      "step": 41825,
      "token_acc": 0.8828828828828829,
      "train_speed(iter/s)": 1.452787
    },
    {
      "epoch": 1.7921254444968082,
      "grad_norm": 4.2581281661987305,
      "learning_rate": 7.151254504721201e-05,
      "loss": 0.5990650177001953,
      "memory(GiB)": 70.5,
      "step": 41830,
      "token_acc": 0.87248322147651,
      "train_speed(iter/s)": 1.452796
    },
    {
      "epoch": 1.792339659826057,
      "grad_norm": 1.5400680303573608,
      "learning_rate": 7.150646982334897e-05,
      "loss": 0.3497078657150269,
      "memory(GiB)": 70.5,
      "step": 41835,
      "token_acc": 0.9315960912052117,
      "train_speed(iter/s)": 1.452806
    },
    {
      "epoch": 1.792553875155306,
      "grad_norm": 2.2721991539001465,
      "learning_rate": 7.150039420987606e-05,
      "loss": 0.41789731979370115,
      "memory(GiB)": 70.5,
      "step": 41840,
      "token_acc": 0.9121212121212121,
      "train_speed(iter/s)": 1.452839
    },
    {
      "epoch": 1.792768090484555,
      "grad_norm": 2.981149196624756,
      "learning_rate": 7.149431820690335e-05,
      "loss": 0.39328575134277344,
      "memory(GiB)": 70.5,
      "step": 41845,
      "token_acc": 0.916058394160584,
      "train_speed(iter/s)": 1.452851
    },
    {
      "epoch": 1.792982305813804,
      "grad_norm": 4.964023113250732,
      "learning_rate": 7.14882418145409e-05,
      "loss": 0.35712347030639646,
      "memory(GiB)": 70.5,
      "step": 41850,
      "token_acc": 0.9230769230769231,
      "train_speed(iter/s)": 1.452864
    },
    {
      "epoch": 1.793196521143053,
      "grad_norm": 2.8138160705566406,
      "learning_rate": 7.148216503289878e-05,
      "loss": 0.42259368896484373,
      "memory(GiB)": 70.5,
      "step": 41855,
      "token_acc": 0.9166666666666666,
      "train_speed(iter/s)": 1.45288
    },
    {
      "epoch": 1.793410736472302,
      "grad_norm": 2.4861464500427246,
      "learning_rate": 7.147608786208709e-05,
      "loss": 0.3145188093185425,
      "memory(GiB)": 70.5,
      "step": 41860,
      "token_acc": 0.9326241134751773,
      "train_speed(iter/s)": 1.452895
    },
    {
      "epoch": 1.7936249518015508,
      "grad_norm": 3.7854998111724854,
      "learning_rate": 7.147001030221594e-05,
      "loss": 0.15920451879501343,
      "memory(GiB)": 70.5,
      "step": 41865,
      "token_acc": 0.9622641509433962,
      "train_speed(iter/s)": 1.452902
    },
    {
      "epoch": 1.7938391671307998,
      "grad_norm": 5.665269374847412,
      "learning_rate": 7.146393235339539e-05,
      "loss": 0.6304004192352295,
      "memory(GiB)": 70.5,
      "step": 41870,
      "token_acc": 0.8726114649681529,
      "train_speed(iter/s)": 1.452891
    },
    {
      "epoch": 1.7940533824600489,
      "grad_norm": 3.0816917419433594,
      "learning_rate": 7.145785401573559e-05,
      "loss": 0.3627488136291504,
      "memory(GiB)": 70.5,
      "step": 41875,
      "token_acc": 0.9235668789808917,
      "train_speed(iter/s)": 1.452885
    },
    {
      "epoch": 1.7942675977892977,
      "grad_norm": 2.736788511276245,
      "learning_rate": 7.145177528934663e-05,
      "loss": 0.24887516498565673,
      "memory(GiB)": 70.5,
      "step": 41880,
      "token_acc": 0.9385665529010239,
      "train_speed(iter/s)": 1.452896
    },
    {
      "epoch": 1.7944818131185467,
      "grad_norm": 4.89387845993042,
      "learning_rate": 7.144569617433863e-05,
      "loss": 0.45538835525512694,
      "memory(GiB)": 70.5,
      "step": 41885,
      "token_acc": 0.9041095890410958,
      "train_speed(iter/s)": 1.452916
    },
    {
      "epoch": 1.7946960284477957,
      "grad_norm": 0.2610904276371002,
      "learning_rate": 7.143961667082173e-05,
      "loss": 0.326352858543396,
      "memory(GiB)": 70.5,
      "step": 41890,
      "token_acc": 0.9473684210526315,
      "train_speed(iter/s)": 1.452916
    },
    {
      "epoch": 1.7949102437770446,
      "grad_norm": 3.17948842048645,
      "learning_rate": 7.143353677890607e-05,
      "loss": 0.35785095691680907,
      "memory(GiB)": 70.5,
      "step": 41895,
      "token_acc": 0.9299363057324841,
      "train_speed(iter/s)": 1.452922
    },
    {
      "epoch": 1.7951244591062938,
      "grad_norm": 3.1745495796203613,
      "learning_rate": 7.142745649870177e-05,
      "loss": 0.42084426879882814,
      "memory(GiB)": 70.5,
      "step": 41900,
      "token_acc": 0.9265734265734266,
      "train_speed(iter/s)": 1.452929
    },
    {
      "epoch": 1.7953386744355426,
      "grad_norm": 1.0376875400543213,
      "learning_rate": 7.142137583031901e-05,
      "loss": 0.30988345146179197,
      "memory(GiB)": 70.5,
      "step": 41905,
      "token_acc": 0.9272727272727272,
      "train_speed(iter/s)": 1.452949
    },
    {
      "epoch": 1.7955528897647914,
      "grad_norm": 5.0907511711120605,
      "learning_rate": 7.141529477386792e-05,
      "loss": 0.40573558807373045,
      "memory(GiB)": 70.5,
      "step": 41910,
      "token_acc": 0.8991228070175439,
      "train_speed(iter/s)": 1.452951
    },
    {
      "epoch": 1.7957671050940407,
      "grad_norm": 2.453829050064087,
      "learning_rate": 7.140921332945868e-05,
      "loss": 0.297459077835083,
      "memory(GiB)": 70.5,
      "step": 41915,
      "token_acc": 0.940983606557377,
      "train_speed(iter/s)": 1.452981
    },
    {
      "epoch": 1.7959813204232895,
      "grad_norm": 2.6994574069976807,
      "learning_rate": 7.140313149720145e-05,
      "loss": 0.5889752864837646,
      "memory(GiB)": 70.5,
      "step": 41920,
      "token_acc": 0.910828025477707,
      "train_speed(iter/s)": 1.452992
    },
    {
      "epoch": 1.7961955357525383,
      "grad_norm": 4.96846342086792,
      "learning_rate": 7.139704927720644e-05,
      "loss": 0.3171527862548828,
      "memory(GiB)": 70.5,
      "step": 41925,
      "token_acc": 0.9471830985915493,
      "train_speed(iter/s)": 1.45302
    },
    {
      "epoch": 1.7964097510817876,
      "grad_norm": 2.8398513793945312,
      "learning_rate": 7.139096666958378e-05,
      "loss": 0.32324748039245604,
      "memory(GiB)": 70.5,
      "step": 41930,
      "token_acc": 0.9285714285714286,
      "train_speed(iter/s)": 1.453021
    },
    {
      "epoch": 1.7966239664110364,
      "grad_norm": 4.390688419342041,
      "learning_rate": 7.13848836744437e-05,
      "loss": 0.5740853309631347,
      "memory(GiB)": 70.5,
      "step": 41935,
      "token_acc": 0.8892988929889298,
      "train_speed(iter/s)": 1.453034
    },
    {
      "epoch": 1.7968381817402852,
      "grad_norm": 5.333402633666992,
      "learning_rate": 7.137880029189641e-05,
      "loss": 0.41851134300231935,
      "memory(GiB)": 70.5,
      "step": 41940,
      "token_acc": 0.9296296296296296,
      "train_speed(iter/s)": 1.453034
    },
    {
      "epoch": 1.7970523970695345,
      "grad_norm": 3.6801247596740723,
      "learning_rate": 7.137271652205208e-05,
      "loss": 0.6245378494262696,
      "memory(GiB)": 70.5,
      "step": 41945,
      "token_acc": 0.8746081504702194,
      "train_speed(iter/s)": 1.453043
    },
    {
      "epoch": 1.7972666123987833,
      "grad_norm": 0.21482005715370178,
      "learning_rate": 7.136663236502095e-05,
      "loss": 0.366714334487915,
      "memory(GiB)": 70.5,
      "step": 41950,
      "token_acc": 0.9084745762711864,
      "train_speed(iter/s)": 1.453054
    },
    {
      "epoch": 1.797480827728032,
      "grad_norm": 1.8663514852523804,
      "learning_rate": 7.136054782091322e-05,
      "loss": 0.43352975845336916,
      "memory(GiB)": 70.5,
      "step": 41955,
      "token_acc": 0.900398406374502,
      "train_speed(iter/s)": 1.453053
    },
    {
      "epoch": 1.7976950430572813,
      "grad_norm": 1.8394652605056763,
      "learning_rate": 7.135446288983914e-05,
      "loss": 0.13456997871398926,
      "memory(GiB)": 70.5,
      "step": 41960,
      "token_acc": 0.9682539682539683,
      "train_speed(iter/s)": 1.453046
    },
    {
      "epoch": 1.7979092583865302,
      "grad_norm": 2.1299643516540527,
      "learning_rate": 7.134837757190891e-05,
      "loss": 0.39633593559265134,
      "memory(GiB)": 70.5,
      "step": 41965,
      "token_acc": 0.9129129129129129,
      "train_speed(iter/s)": 1.453031
    },
    {
      "epoch": 1.798123473715779,
      "grad_norm": 2.3081653118133545,
      "learning_rate": 7.134229186723282e-05,
      "loss": 0.19673519134521483,
      "memory(GiB)": 70.5,
      "step": 41970,
      "token_acc": 0.9595588235294118,
      "train_speed(iter/s)": 1.453021
    },
    {
      "epoch": 1.7983376890450282,
      "grad_norm": 2.4200539588928223,
      "learning_rate": 7.133620577592108e-05,
      "loss": 0.31533222198486327,
      "memory(GiB)": 70.5,
      "step": 41975,
      "token_acc": 0.930379746835443,
      "train_speed(iter/s)": 1.453012
    },
    {
      "epoch": 1.798551904374277,
      "grad_norm": 3.0603978633880615,
      "learning_rate": 7.133011929808398e-05,
      "loss": 0.19516438245773315,
      "memory(GiB)": 70.5,
      "step": 41980,
      "token_acc": 0.9535714285714286,
      "train_speed(iter/s)": 1.453024
    },
    {
      "epoch": 1.7987661197035258,
      "grad_norm": 1.0239856243133545,
      "learning_rate": 7.132403243383173e-05,
      "loss": 0.18945075273513795,
      "memory(GiB)": 70.5,
      "step": 41985,
      "token_acc": 0.9647887323943662,
      "train_speed(iter/s)": 1.453034
    },
    {
      "epoch": 1.798980335032775,
      "grad_norm": 3.358395576477051,
      "learning_rate": 7.131794518327463e-05,
      "loss": 0.25840535163879397,
      "memory(GiB)": 70.5,
      "step": 41990,
      "token_acc": 0.9273927392739274,
      "train_speed(iter/s)": 1.453026
    },
    {
      "epoch": 1.799194550362024,
      "grad_norm": 1.8083140850067139,
      "learning_rate": 7.131185754652299e-05,
      "loss": 0.227734375,
      "memory(GiB)": 70.5,
      "step": 41995,
      "token_acc": 0.9484126984126984,
      "train_speed(iter/s)": 1.453025
    },
    {
      "epoch": 1.7994087656912727,
      "grad_norm": 2.173149824142456,
      "learning_rate": 7.130576952368701e-05,
      "loss": 0.21593520641326905,
      "memory(GiB)": 70.5,
      "step": 42000,
      "token_acc": 0.9195402298850575,
      "train_speed(iter/s)": 1.453015
    },
    {
      "epoch": 1.7994087656912727,
      "eval_loss": 2.709421396255493,
      "eval_runtime": 13.7083,
      "eval_samples_per_second": 7.295,
      "eval_steps_per_second": 7.295,
      "eval_token_acc": 0.4126984126984127,
      "step": 42000
    },
    {
      "epoch": 1.799622981020522,
      "grad_norm": 2.1826319694519043,
      "learning_rate": 7.129968111487706e-05,
      "loss": 0.3111643075942993,
      "memory(GiB)": 70.5,
      "step": 42005,
      "token_acc": 0.5580985915492958,
      "train_speed(iter/s)": 1.452278
    },
    {
      "epoch": 1.7998371963497708,
      "grad_norm": 4.5063796043396,
      "learning_rate": 7.12935923202034e-05,
      "loss": 0.8829240798950195,
      "memory(GiB)": 70.5,
      "step": 42010,
      "token_acc": 0.7986798679867987,
      "train_speed(iter/s)": 1.452279
    },
    {
      "epoch": 1.8000514116790196,
      "grad_norm": 5.52262020111084,
      "learning_rate": 7.128750313977633e-05,
      "loss": 0.4713892936706543,
      "memory(GiB)": 70.5,
      "step": 42015,
      "token_acc": 0.9169675090252708,
      "train_speed(iter/s)": 1.452299
    },
    {
      "epoch": 1.8002656270082689,
      "grad_norm": 3.360215425491333,
      "learning_rate": 7.128141357370618e-05,
      "loss": 0.2589277744293213,
      "memory(GiB)": 70.5,
      "step": 42020,
      "token_acc": 0.9353932584269663,
      "train_speed(iter/s)": 1.452305
    },
    {
      "epoch": 1.8004798423375177,
      "grad_norm": 3.2414164543151855,
      "learning_rate": 7.127532362210327e-05,
      "loss": 0.2671512126922607,
      "memory(GiB)": 70.5,
      "step": 42025,
      "token_acc": 0.9427480916030534,
      "train_speed(iter/s)": 1.452303
    },
    {
      "epoch": 1.8006940576667665,
      "grad_norm": 4.351088047027588,
      "learning_rate": 7.12692332850779e-05,
      "loss": 0.8586606025695801,
      "memory(GiB)": 70.5,
      "step": 42030,
      "token_acc": 0.8673740053050398,
      "train_speed(iter/s)": 1.45231
    },
    {
      "epoch": 1.8009082729960157,
      "grad_norm": 3.6430435180664062,
      "learning_rate": 7.126314256274042e-05,
      "loss": 0.6846446990966797,
      "memory(GiB)": 70.5,
      "step": 42035,
      "token_acc": 0.8464566929133859,
      "train_speed(iter/s)": 1.452318
    },
    {
      "epoch": 1.8011224883252646,
      "grad_norm": 1.781693458557129,
      "learning_rate": 7.125705145520117e-05,
      "loss": 0.5172185897827148,
      "memory(GiB)": 70.5,
      "step": 42040,
      "token_acc": 0.8786764705882353,
      "train_speed(iter/s)": 1.452328
    },
    {
      "epoch": 1.8013367036545134,
      "grad_norm": 0.23058313131332397,
      "learning_rate": 7.125095996257048e-05,
      "loss": 0.26462841033935547,
      "memory(GiB)": 70.5,
      "step": 42045,
      "token_acc": 0.9375,
      "train_speed(iter/s)": 1.452323
    },
    {
      "epoch": 1.8015509189837626,
      "grad_norm": 2.8295786380767822,
      "learning_rate": 7.124486808495873e-05,
      "loss": 0.4166316032409668,
      "memory(GiB)": 70.5,
      "step": 42050,
      "token_acc": 0.9141914191419142,
      "train_speed(iter/s)": 1.452325
    },
    {
      "epoch": 1.8017651343130114,
      "grad_norm": 5.929265975952148,
      "learning_rate": 7.123877582247626e-05,
      "loss": 0.6116162300109863,
      "memory(GiB)": 70.5,
      "step": 42055,
      "token_acc": 0.8949152542372881,
      "train_speed(iter/s)": 1.452323
    },
    {
      "epoch": 1.8019793496422603,
      "grad_norm": 1.7793787717819214,
      "learning_rate": 7.123268317523344e-05,
      "loss": 0.30252666473388673,
      "memory(GiB)": 70.5,
      "step": 42060,
      "token_acc": 0.9290540540540541,
      "train_speed(iter/s)": 1.452312
    },
    {
      "epoch": 1.8021935649715095,
      "grad_norm": 5.879805088043213,
      "learning_rate": 7.122659014334065e-05,
      "loss": 0.423005199432373,
      "memory(GiB)": 70.5,
      "step": 42065,
      "token_acc": 0.9040247678018576,
      "train_speed(iter/s)": 1.452337
    },
    {
      "epoch": 1.8024077803007583,
      "grad_norm": 6.4032063484191895,
      "learning_rate": 7.122049672690828e-05,
      "loss": 0.5568048000335694,
      "memory(GiB)": 70.5,
      "step": 42070,
      "token_acc": 0.8963210702341137,
      "train_speed(iter/s)": 1.452347
    },
    {
      "epoch": 1.8026219956300071,
      "grad_norm": 2.982900619506836,
      "learning_rate": 7.121440292604667e-05,
      "loss": 0.2628678798675537,
      "memory(GiB)": 70.5,
      "step": 42075,
      "token_acc": 0.9488054607508533,
      "train_speed(iter/s)": 1.452349
    },
    {
      "epoch": 1.8028362109592564,
      "grad_norm": 2.5495381355285645,
      "learning_rate": 7.120830874086627e-05,
      "loss": 0.30063481330871583,
      "memory(GiB)": 70.5,
      "step": 42080,
      "token_acc": 0.9314516129032258,
      "train_speed(iter/s)": 1.452354
    },
    {
      "epoch": 1.8030504262885052,
      "grad_norm": 3.907656669616699,
      "learning_rate": 7.120221417147747e-05,
      "loss": 0.3681309938430786,
      "memory(GiB)": 70.5,
      "step": 42085,
      "token_acc": 0.9311475409836065,
      "train_speed(iter/s)": 1.452352
    },
    {
      "epoch": 1.803264641617754,
      "grad_norm": 2.7240686416625977,
      "learning_rate": 7.119611921799065e-05,
      "loss": 0.22327961921691894,
      "memory(GiB)": 70.5,
      "step": 42090,
      "token_acc": 0.941358024691358,
      "train_speed(iter/s)": 1.452356
    },
    {
      "epoch": 1.8034788569470033,
      "grad_norm": 1.3352652788162231,
      "learning_rate": 7.119002388051627e-05,
      "loss": 0.318222713470459,
      "memory(GiB)": 70.5,
      "step": 42095,
      "token_acc": 0.9407894736842105,
      "train_speed(iter/s)": 1.452375
    },
    {
      "epoch": 1.803693072276252,
      "grad_norm": 2.9939873218536377,
      "learning_rate": 7.118392815916472e-05,
      "loss": 0.20417180061340331,
      "memory(GiB)": 70.5,
      "step": 42100,
      "token_acc": 0.9494584837545126,
      "train_speed(iter/s)": 1.452363
    },
    {
      "epoch": 1.803907287605501,
      "grad_norm": 3.5503742694854736,
      "learning_rate": 7.117783205404644e-05,
      "loss": 0.5174329280853271,
      "memory(GiB)": 70.5,
      "step": 42105,
      "token_acc": 0.9026845637583892,
      "train_speed(iter/s)": 1.452393
    },
    {
      "epoch": 1.8041215029347502,
      "grad_norm": 4.12925386428833,
      "learning_rate": 7.117173556527187e-05,
      "loss": 0.3832792520523071,
      "memory(GiB)": 70.5,
      "step": 42110,
      "token_acc": 0.9172185430463576,
      "train_speed(iter/s)": 1.452395
    },
    {
      "epoch": 1.804335718263999,
      "grad_norm": 3.1932175159454346,
      "learning_rate": 7.116563869295145e-05,
      "loss": 0.3819037199020386,
      "memory(GiB)": 70.5,
      "step": 42115,
      "token_acc": 0.9084249084249084,
      "train_speed(iter/s)": 1.452403
    },
    {
      "epoch": 1.8045499335932478,
      "grad_norm": 1.5898545980453491,
      "learning_rate": 7.11595414371956e-05,
      "loss": 0.20027048587799073,
      "memory(GiB)": 70.5,
      "step": 42120,
      "token_acc": 0.9556213017751479,
      "train_speed(iter/s)": 1.452394
    },
    {
      "epoch": 1.804764148922497,
      "grad_norm": 4.166143894195557,
      "learning_rate": 7.115344379811485e-05,
      "loss": 0.29294095039367674,
      "memory(GiB)": 70.5,
      "step": 42125,
      "token_acc": 0.9357142857142857,
      "train_speed(iter/s)": 1.452393
    },
    {
      "epoch": 1.8049783642517458,
      "grad_norm": 1.7356730699539185,
      "learning_rate": 7.11473457758196e-05,
      "loss": 0.3470311641693115,
      "memory(GiB)": 70.5,
      "step": 42130,
      "token_acc": 0.8973509933774835,
      "train_speed(iter/s)": 1.452383
    },
    {
      "epoch": 1.8051925795809947,
      "grad_norm": 3.5033891201019287,
      "learning_rate": 7.114124737042035e-05,
      "loss": 0.5549688816070557,
      "memory(GiB)": 70.5,
      "step": 42135,
      "token_acc": 0.8923611111111112,
      "train_speed(iter/s)": 1.452387
    },
    {
      "epoch": 1.805406794910244,
      "grad_norm": 0.6526398062705994,
      "learning_rate": 7.113514858202758e-05,
      "loss": 0.3809556722640991,
      "memory(GiB)": 70.5,
      "step": 42140,
      "token_acc": 0.9255663430420712,
      "train_speed(iter/s)": 1.452394
    },
    {
      "epoch": 1.8056210102394927,
      "grad_norm": 2.4092133045196533,
      "learning_rate": 7.112904941075175e-05,
      "loss": 0.5492062568664551,
      "memory(GiB)": 70.5,
      "step": 42145,
      "token_acc": 0.8706896551724138,
      "train_speed(iter/s)": 1.452401
    },
    {
      "epoch": 1.8058352255687415,
      "grad_norm": 2.669748544692993,
      "learning_rate": 7.112294985670337e-05,
      "loss": 0.3030374765396118,
      "memory(GiB)": 70.5,
      "step": 42150,
      "token_acc": 0.9444444444444444,
      "train_speed(iter/s)": 1.452403
    },
    {
      "epoch": 1.8060494408979908,
      "grad_norm": 0.5268579721450806,
      "learning_rate": 7.111684991999295e-05,
      "loss": 0.290040111541748,
      "memory(GiB)": 70.5,
      "step": 42155,
      "token_acc": 0.9440298507462687,
      "train_speed(iter/s)": 1.4524
    },
    {
      "epoch": 1.8062636562272396,
      "grad_norm": 2.7226617336273193,
      "learning_rate": 7.111074960073098e-05,
      "loss": 0.4143199920654297,
      "memory(GiB)": 70.5,
      "step": 42160,
      "token_acc": 0.8768115942028986,
      "train_speed(iter/s)": 1.452394
    },
    {
      "epoch": 1.8064778715564884,
      "grad_norm": 5.478462219238281,
      "learning_rate": 7.110464889902796e-05,
      "loss": 0.5359173774719238,
      "memory(GiB)": 70.5,
      "step": 42165,
      "token_acc": 0.9074733096085409,
      "train_speed(iter/s)": 1.4524
    },
    {
      "epoch": 1.8066920868857377,
      "grad_norm": 2.614807605743408,
      "learning_rate": 7.109854781499446e-05,
      "loss": 0.44916467666625975,
      "memory(GiB)": 70.5,
      "step": 42170,
      "token_acc": 0.9051724137931034,
      "train_speed(iter/s)": 1.452415
    },
    {
      "epoch": 1.8069063022149865,
      "grad_norm": 3.172013998031616,
      "learning_rate": 7.109244634874096e-05,
      "loss": 0.46584339141845704,
      "memory(GiB)": 70.5,
      "step": 42175,
      "token_acc": 0.9244604316546763,
      "train_speed(iter/s)": 1.452416
    },
    {
      "epoch": 1.8071205175442353,
      "grad_norm": 3.069183588027954,
      "learning_rate": 7.108634450037802e-05,
      "loss": 0.3977344512939453,
      "memory(GiB)": 70.5,
      "step": 42180,
      "token_acc": 0.9340277777777778,
      "train_speed(iter/s)": 1.45242
    },
    {
      "epoch": 1.8073347328734846,
      "grad_norm": 2.205812454223633,
      "learning_rate": 7.108024227001615e-05,
      "loss": 0.35320773124694826,
      "memory(GiB)": 70.5,
      "step": 42185,
      "token_acc": 0.9296296296296296,
      "train_speed(iter/s)": 1.452448
    },
    {
      "epoch": 1.8075489482027334,
      "grad_norm": 2.679020643234253,
      "learning_rate": 7.10741396577659e-05,
      "loss": 0.2957797050476074,
      "memory(GiB)": 70.5,
      "step": 42190,
      "token_acc": 0.9395973154362416,
      "train_speed(iter/s)": 1.45245
    },
    {
      "epoch": 1.8077631635319822,
      "grad_norm": 2.9036808013916016,
      "learning_rate": 7.106803666373787e-05,
      "loss": 0.49407367706298827,
      "memory(GiB)": 70.5,
      "step": 42195,
      "token_acc": 0.9035714285714286,
      "train_speed(iter/s)": 1.452452
    },
    {
      "epoch": 1.8079773788612314,
      "grad_norm": 2.932349920272827,
      "learning_rate": 7.10619332880426e-05,
      "loss": 0.27759289741516113,
      "memory(GiB)": 70.5,
      "step": 42200,
      "token_acc": 0.935361216730038,
      "train_speed(iter/s)": 1.452446
    },
    {
      "epoch": 1.8081915941904803,
      "grad_norm": 0.058626689016819,
      "learning_rate": 7.105582953079063e-05,
      "loss": 0.463405704498291,
      "memory(GiB)": 70.5,
      "step": 42205,
      "token_acc": 0.9122137404580153,
      "train_speed(iter/s)": 1.452441
    },
    {
      "epoch": 1.808405809519729,
      "grad_norm": 0.01821625977754593,
      "learning_rate": 7.104972539209256e-05,
      "loss": 0.18241850137710572,
      "memory(GiB)": 70.5,
      "step": 42210,
      "token_acc": 0.9591194968553459,
      "train_speed(iter/s)": 1.452438
    },
    {
      "epoch": 1.8086200248489783,
      "grad_norm": 3.2004926204681396,
      "learning_rate": 7.104362087205898e-05,
      "loss": 0.29882068634033204,
      "memory(GiB)": 70.5,
      "step": 42215,
      "token_acc": 0.9369369369369369,
      "train_speed(iter/s)": 1.452437
    },
    {
      "epoch": 1.8088342401782271,
      "grad_norm": 4.402462482452393,
      "learning_rate": 7.103751597080045e-05,
      "loss": 0.43909664154052735,
      "memory(GiB)": 70.5,
      "step": 42220,
      "token_acc": 0.9007352941176471,
      "train_speed(iter/s)": 1.452442
    },
    {
      "epoch": 1.809048455507476,
      "grad_norm": 0.7546576261520386,
      "learning_rate": 7.103141068842759e-05,
      "loss": 0.13279091119766234,
      "memory(GiB)": 70.5,
      "step": 42225,
      "token_acc": 0.9755244755244755,
      "train_speed(iter/s)": 1.452442
    },
    {
      "epoch": 1.8092626708367252,
      "grad_norm": 2.77581787109375,
      "learning_rate": 7.1025305025051e-05,
      "loss": 0.21057751178741455,
      "memory(GiB)": 70.5,
      "step": 42230,
      "token_acc": 0.9490909090909091,
      "train_speed(iter/s)": 1.45245
    },
    {
      "epoch": 1.809476886165974,
      "grad_norm": 3.3327431678771973,
      "learning_rate": 7.101919898078128e-05,
      "loss": 0.6211094856262207,
      "memory(GiB)": 70.5,
      "step": 42235,
      "token_acc": 0.8660130718954249,
      "train_speed(iter/s)": 1.45246
    },
    {
      "epoch": 1.809691101495223,
      "grad_norm": 4.172296047210693,
      "learning_rate": 7.101309255572905e-05,
      "loss": 0.3082176446914673,
      "memory(GiB)": 70.5,
      "step": 42240,
      "token_acc": 0.9403409090909091,
      "train_speed(iter/s)": 1.452476
    },
    {
      "epoch": 1.809905316824472,
      "grad_norm": 3.0685300827026367,
      "learning_rate": 7.100698575000496e-05,
      "loss": 0.37961182594299314,
      "memory(GiB)": 70.5,
      "step": 42245,
      "token_acc": 0.9166666666666666,
      "train_speed(iter/s)": 1.45248
    },
    {
      "epoch": 1.810119532153721,
      "grad_norm": 3.7708911895751953,
      "learning_rate": 7.10008785637196e-05,
      "loss": 0.6803537368774414,
      "memory(GiB)": 70.5,
      "step": 42250,
      "token_acc": 0.8493589743589743,
      "train_speed(iter/s)": 1.452473
    },
    {
      "epoch": 1.81033374748297,
      "grad_norm": 6.248483180999756,
      "learning_rate": 7.099477099698361e-05,
      "loss": 0.5071362495422364,
      "memory(GiB)": 70.5,
      "step": 42255,
      "token_acc": 0.8941605839416058,
      "train_speed(iter/s)": 1.452476
    },
    {
      "epoch": 1.810547962812219,
      "grad_norm": 2.193427085876465,
      "learning_rate": 7.098866304990767e-05,
      "loss": 0.2722414493560791,
      "memory(GiB)": 70.5,
      "step": 42260,
      "token_acc": 0.9288537549407114,
      "train_speed(iter/s)": 1.452482
    },
    {
      "epoch": 1.8107621781414678,
      "grad_norm": 1.227735996246338,
      "learning_rate": 7.09825547226024e-05,
      "loss": 0.20759820938110352,
      "memory(GiB)": 70.5,
      "step": 42265,
      "token_acc": 0.9528619528619529,
      "train_speed(iter/s)": 1.452481
    },
    {
      "epoch": 1.8109763934707168,
      "grad_norm": 5.455148220062256,
      "learning_rate": 7.097644601517848e-05,
      "loss": 0.4202564239501953,
      "memory(GiB)": 70.5,
      "step": 42270,
      "token_acc": 0.9022556390977443,
      "train_speed(iter/s)": 1.452489
    },
    {
      "epoch": 1.8111906087999659,
      "grad_norm": 3.845583438873291,
      "learning_rate": 7.097033692774653e-05,
      "loss": 0.3647459030151367,
      "memory(GiB)": 70.5,
      "step": 42275,
      "token_acc": 0.9113475177304965,
      "train_speed(iter/s)": 1.452491
    },
    {
      "epoch": 1.8114048241292147,
      "grad_norm": 3.4427649974823,
      "learning_rate": 7.09642274604173e-05,
      "loss": 0.4606820583343506,
      "memory(GiB)": 70.5,
      "step": 42280,
      "token_acc": 0.906832298136646,
      "train_speed(iter/s)": 1.452494
    },
    {
      "epoch": 1.8116190394584637,
      "grad_norm": 2.940770149230957,
      "learning_rate": 7.09581176133014e-05,
      "loss": 0.3147725582122803,
      "memory(GiB)": 70.5,
      "step": 42285,
      "token_acc": 0.927710843373494,
      "train_speed(iter/s)": 1.452504
    },
    {
      "epoch": 1.8118332547877127,
      "grad_norm": 3.8532373905181885,
      "learning_rate": 7.095200738650953e-05,
      "loss": 0.37131805419921876,
      "memory(GiB)": 70.5,
      "step": 42290,
      "token_acc": 0.9310344827586207,
      "train_speed(iter/s)": 1.452491
    },
    {
      "epoch": 1.8120474701169615,
      "grad_norm": 6.948325157165527,
      "learning_rate": 7.094589678015242e-05,
      "loss": 0.33642170429229734,
      "memory(GiB)": 70.5,
      "step": 42295,
      "token_acc": 0.937037037037037,
      "train_speed(iter/s)": 1.452493
    },
    {
      "epoch": 1.8122616854462106,
      "grad_norm": 3.8843586444854736,
      "learning_rate": 7.093978579434072e-05,
      "loss": 0.4418639183044434,
      "memory(GiB)": 70.5,
      "step": 42300,
      "token_acc": 0.9135802469135802,
      "train_speed(iter/s)": 1.452495
    },
    {
      "epoch": 1.8124759007754596,
      "grad_norm": 3.197378158569336,
      "learning_rate": 7.093367442918515e-05,
      "loss": 0.2782602310180664,
      "memory(GiB)": 70.5,
      "step": 42305,
      "token_acc": 0.924187725631769,
      "train_speed(iter/s)": 1.452503
    },
    {
      "epoch": 1.8126901161047084,
      "grad_norm": 2.6837127208709717,
      "learning_rate": 7.092756268479646e-05,
      "loss": 0.3206287145614624,
      "memory(GiB)": 70.5,
      "step": 42310,
      "token_acc": 0.9230769230769231,
      "train_speed(iter/s)": 1.452505
    },
    {
      "epoch": 1.8129043314339575,
      "grad_norm": 0.9694409966468811,
      "learning_rate": 7.092145056128532e-05,
      "loss": 0.16878424882888793,
      "memory(GiB)": 70.5,
      "step": 42315,
      "token_acc": 0.9645390070921985,
      "train_speed(iter/s)": 1.452508
    },
    {
      "epoch": 1.8131185467632065,
      "grad_norm": 1.9273813962936401,
      "learning_rate": 7.091533805876247e-05,
      "loss": 0.34309566020965576,
      "memory(GiB)": 70.5,
      "step": 42320,
      "token_acc": 0.9097222222222222,
      "train_speed(iter/s)": 1.452504
    },
    {
      "epoch": 1.8133327620924553,
      "grad_norm": 3.144162893295288,
      "learning_rate": 7.090922517733867e-05,
      "loss": 0.4297780990600586,
      "memory(GiB)": 70.5,
      "step": 42325,
      "token_acc": 0.9163879598662207,
      "train_speed(iter/s)": 1.452498
    },
    {
      "epoch": 1.8135469774217043,
      "grad_norm": 2.5421316623687744,
      "learning_rate": 7.090311191712464e-05,
      "loss": 0.38542191982269286,
      "memory(GiB)": 70.5,
      "step": 42330,
      "token_acc": 0.921146953405018,
      "train_speed(iter/s)": 1.452507
    },
    {
      "epoch": 1.8137611927509534,
      "grad_norm": 2.1265807151794434,
      "learning_rate": 7.08969982782311e-05,
      "loss": 0.17894819974899293,
      "memory(GiB)": 70.5,
      "step": 42335,
      "token_acc": 0.9525547445255474,
      "train_speed(iter/s)": 1.452502
    },
    {
      "epoch": 1.8139754080802022,
      "grad_norm": 4.4751739501953125,
      "learning_rate": 7.089088426076885e-05,
      "loss": 0.5594378471374511,
      "memory(GiB)": 70.5,
      "step": 42340,
      "token_acc": 0.8774193548387097,
      "train_speed(iter/s)": 1.452503
    },
    {
      "epoch": 1.8141896234094512,
      "grad_norm": 18.869426727294922,
      "learning_rate": 7.088476986484865e-05,
      "loss": 0.39328436851501464,
      "memory(GiB)": 70.5,
      "step": 42345,
      "token_acc": 0.89568345323741,
      "train_speed(iter/s)": 1.452521
    },
    {
      "epoch": 1.8144038387387003,
      "grad_norm": 2.695847511291504,
      "learning_rate": 7.087865509058124e-05,
      "loss": 0.30458357334136965,
      "memory(GiB)": 70.5,
      "step": 42350,
      "token_acc": 0.922360248447205,
      "train_speed(iter/s)": 1.452518
    },
    {
      "epoch": 1.814618054067949,
      "grad_norm": 1.98494291305542,
      "learning_rate": 7.087253993807741e-05,
      "loss": 0.29515173435211184,
      "memory(GiB)": 70.5,
      "step": 42355,
      "token_acc": 0.9233716475095786,
      "train_speed(iter/s)": 1.452515
    },
    {
      "epoch": 1.814832269397198,
      "grad_norm": 2.6460719108581543,
      "learning_rate": 7.086642440744794e-05,
      "loss": 0.39136788845062254,
      "memory(GiB)": 70.5,
      "step": 42360,
      "token_acc": 0.9245283018867925,
      "train_speed(iter/s)": 1.452525
    },
    {
      "epoch": 1.8150464847264471,
      "grad_norm": 2.663468360900879,
      "learning_rate": 7.08603084988036e-05,
      "loss": 0.3996147632598877,
      "memory(GiB)": 70.5,
      "step": 42365,
      "token_acc": 0.9277566539923955,
      "train_speed(iter/s)": 1.452525
    },
    {
      "epoch": 1.815260700055696,
      "grad_norm": 2.643157958984375,
      "learning_rate": 7.085419221225522e-05,
      "loss": 0.48468265533447263,
      "memory(GiB)": 70.5,
      "step": 42370,
      "token_acc": 0.9181818181818182,
      "train_speed(iter/s)": 1.452529
    },
    {
      "epoch": 1.815474915384945,
      "grad_norm": 2.645188808441162,
      "learning_rate": 7.084807554791358e-05,
      "loss": 0.6819581031799317,
      "memory(GiB)": 70.5,
      "step": 42375,
      "token_acc": 0.8882175226586103,
      "train_speed(iter/s)": 1.452568
    },
    {
      "epoch": 1.815689130714194,
      "grad_norm": 7.454162120819092,
      "learning_rate": 7.08419585058895e-05,
      "loss": 0.30049381256103513,
      "memory(GiB)": 70.5,
      "step": 42380,
      "token_acc": 0.9341085271317829,
      "train_speed(iter/s)": 1.452591
    },
    {
      "epoch": 1.8159033460434428,
      "grad_norm": 2.0261175632476807,
      "learning_rate": 7.083584108629379e-05,
      "loss": 0.5482788562774659,
      "memory(GiB)": 70.5,
      "step": 42385,
      "token_acc": 0.8871595330739299,
      "train_speed(iter/s)": 1.452602
    },
    {
      "epoch": 1.8161175613726919,
      "grad_norm": 5.208925724029541,
      "learning_rate": 7.082972328923726e-05,
      "loss": 0.6029400825500488,
      "memory(GiB)": 70.5,
      "step": 42390,
      "token_acc": 0.8673469387755102,
      "train_speed(iter/s)": 1.452604
    },
    {
      "epoch": 1.816331776701941,
      "grad_norm": 9.171188354492188,
      "learning_rate": 7.082360511483077e-05,
      "loss": 0.49738402366638185,
      "memory(GiB)": 70.5,
      "step": 42395,
      "token_acc": 0.8895705521472392,
      "train_speed(iter/s)": 1.452621
    },
    {
      "epoch": 1.8165459920311897,
      "grad_norm": 2.4890575408935547,
      "learning_rate": 7.081748656318514e-05,
      "loss": 0.12147742509841919,
      "memory(GiB)": 70.5,
      "step": 42400,
      "token_acc": 0.9612403100775194,
      "train_speed(iter/s)": 1.452621
    },
    {
      "epoch": 1.8167602073604388,
      "grad_norm": 3.120859384536743,
      "learning_rate": 7.081136763441119e-05,
      "loss": 0.3972614049911499,
      "memory(GiB)": 70.5,
      "step": 42405,
      "token_acc": 0.8938906752411575,
      "train_speed(iter/s)": 1.452611
    },
    {
      "epoch": 1.8169744226896878,
      "grad_norm": 3.899550676345825,
      "learning_rate": 7.080524832861982e-05,
      "loss": 0.45512542724609373,
      "memory(GiB)": 70.5,
      "step": 42410,
      "token_acc": 0.9097472924187726,
      "train_speed(iter/s)": 1.452616
    },
    {
      "epoch": 1.8171886380189366,
      "grad_norm": 0.3878963589668274,
      "learning_rate": 7.079912864592185e-05,
      "loss": 0.39560756683349607,
      "memory(GiB)": 70.5,
      "step": 42415,
      "token_acc": 0.9216417910447762,
      "train_speed(iter/s)": 1.452604
    },
    {
      "epoch": 1.8174028533481856,
      "grad_norm": 6.961048603057861,
      "learning_rate": 7.079300858642814e-05,
      "loss": 0.4498088836669922,
      "memory(GiB)": 70.5,
      "step": 42420,
      "token_acc": 0.9035369774919614,
      "train_speed(iter/s)": 1.452616
    },
    {
      "epoch": 1.8176170686774347,
      "grad_norm": 3.776576519012451,
      "learning_rate": 7.078688815024959e-05,
      "loss": 0.47626509666442873,
      "memory(GiB)": 70.5,
      "step": 42425,
      "token_acc": 0.9192307692307692,
      "train_speed(iter/s)": 1.452636
    },
    {
      "epoch": 1.8178312840066835,
      "grad_norm": 6.330057144165039,
      "learning_rate": 7.078076733749706e-05,
      "loss": 0.7195763111114502,
      "memory(GiB)": 70.5,
      "step": 42430,
      "token_acc": 0.8643067846607669,
      "train_speed(iter/s)": 1.45265
    },
    {
      "epoch": 1.8180454993359325,
      "grad_norm": 2.9207701683044434,
      "learning_rate": 7.077464614828142e-05,
      "loss": 0.5300133705139161,
      "memory(GiB)": 70.5,
      "step": 42435,
      "token_acc": 0.9041095890410958,
      "train_speed(iter/s)": 1.452663
    },
    {
      "epoch": 1.8182597146651815,
      "grad_norm": 3.0599265098571777,
      "learning_rate": 7.07685245827136e-05,
      "loss": 0.4404360294342041,
      "memory(GiB)": 70.5,
      "step": 42440,
      "token_acc": 0.8974358974358975,
      "train_speed(iter/s)": 1.452672
    },
    {
      "epoch": 1.8184739299944304,
      "grad_norm": 2.1618499755859375,
      "learning_rate": 7.076240264090446e-05,
      "loss": 0.32312617301940916,
      "memory(GiB)": 70.5,
      "step": 42445,
      "token_acc": 0.9384615384615385,
      "train_speed(iter/s)": 1.452683
    },
    {
      "epoch": 1.8186881453236794,
      "grad_norm": 5.8692755699157715,
      "learning_rate": 7.075628032296491e-05,
      "loss": 0.3496082782745361,
      "memory(GiB)": 70.5,
      "step": 42450,
      "token_acc": 0.9174603174603174,
      "train_speed(iter/s)": 1.452698
    },
    {
      "epoch": 1.8189023606529284,
      "grad_norm": 4.6050639152526855,
      "learning_rate": 7.07501576290059e-05,
      "loss": 0.34130191802978516,
      "memory(GiB)": 70.5,
      "step": 42455,
      "token_acc": 0.9337979094076655,
      "train_speed(iter/s)": 1.452691
    },
    {
      "epoch": 1.8191165759821772,
      "grad_norm": 3.2310307025909424,
      "learning_rate": 7.074403455913829e-05,
      "loss": 0.47139930725097656,
      "memory(GiB)": 70.5,
      "step": 42460,
      "token_acc": 0.9030470914127424,
      "train_speed(iter/s)": 1.452699
    },
    {
      "epoch": 1.8193307913114263,
      "grad_norm": 14.109204292297363,
      "learning_rate": 7.073791111347305e-05,
      "loss": 0.459945011138916,
      "memory(GiB)": 70.5,
      "step": 42465,
      "token_acc": 0.9090909090909091,
      "train_speed(iter/s)": 1.452721
    },
    {
      "epoch": 1.8195450066406753,
      "grad_norm": 3.7010347843170166,
      "learning_rate": 7.07317872921211e-05,
      "loss": 0.395068359375,
      "memory(GiB)": 70.5,
      "step": 42470,
      "token_acc": 0.8977272727272727,
      "train_speed(iter/s)": 1.452718
    },
    {
      "epoch": 1.8197592219699241,
      "grad_norm": 2.446230888366699,
      "learning_rate": 7.072566309519338e-05,
      "loss": 0.19378007650375367,
      "memory(GiB)": 70.5,
      "step": 42475,
      "token_acc": 0.948936170212766,
      "train_speed(iter/s)": 1.452725
    },
    {
      "epoch": 1.8199734372991732,
      "grad_norm": 2.7153282165527344,
      "learning_rate": 7.071953852280081e-05,
      "loss": 0.19645072221755983,
      "memory(GiB)": 70.5,
      "step": 42480,
      "token_acc": 0.9628252788104089,
      "train_speed(iter/s)": 1.45274
    },
    {
      "epoch": 1.8201876526284222,
      "grad_norm": 4.69265604019165,
      "learning_rate": 7.071341357505437e-05,
      "loss": 0.4528674125671387,
      "memory(GiB)": 70.5,
      "step": 42485,
      "token_acc": 0.8996282527881041,
      "train_speed(iter/s)": 1.452742
    },
    {
      "epoch": 1.820401867957671,
      "grad_norm": 0.6030561923980713,
      "learning_rate": 7.070728825206501e-05,
      "loss": 0.3079576015472412,
      "memory(GiB)": 70.5,
      "step": 42490,
      "token_acc": 0.9198473282442748,
      "train_speed(iter/s)": 1.452742
    },
    {
      "epoch": 1.82061608328692,
      "grad_norm": 2.840162515640259,
      "learning_rate": 7.070116255394371e-05,
      "loss": 0.5368343830108643,
      "memory(GiB)": 70.5,
      "step": 42495,
      "token_acc": 0.8898809523809523,
      "train_speed(iter/s)": 1.452746
    },
    {
      "epoch": 1.820830298616169,
      "grad_norm": 4.303774833679199,
      "learning_rate": 7.069503648080143e-05,
      "loss": 0.277114725112915,
      "memory(GiB)": 70.5,
      "step": 42500,
      "token_acc": 0.9240924092409241,
      "train_speed(iter/s)": 1.452742
    },
    {
      "epoch": 1.820830298616169,
      "eval_loss": 2.5561394691467285,
      "eval_runtime": 13.4668,
      "eval_samples_per_second": 7.426,
      "eval_steps_per_second": 7.426,
      "eval_token_acc": 0.4337194337194337,
      "step": 42500
    },
    {
      "epoch": 1.8210445139454179,
      "grad_norm": 3.501460552215576,
      "learning_rate": 7.068891003274915e-05,
      "loss": 0.21883187294006348,
      "memory(GiB)": 70.5,
      "step": 42505,
      "token_acc": 0.5658914728682171,
      "train_speed(iter/s)": 1.452033
    },
    {
      "epoch": 1.821258729274667,
      "grad_norm": 1.4700156450271606,
      "learning_rate": 7.068278320989785e-05,
      "loss": 0.19363255500793458,
      "memory(GiB)": 70.5,
      "step": 42510,
      "token_acc": 0.9456521739130435,
      "train_speed(iter/s)": 1.452041
    },
    {
      "epoch": 1.821472944603916,
      "grad_norm": 5.665672779083252,
      "learning_rate": 7.067665601235853e-05,
      "loss": 0.3859058380126953,
      "memory(GiB)": 70.5,
      "step": 42515,
      "token_acc": 0.915057915057915,
      "train_speed(iter/s)": 1.452035
    },
    {
      "epoch": 1.8216871599331648,
      "grad_norm": 4.800632476806641,
      "learning_rate": 7.067052844024219e-05,
      "loss": 0.2698251485824585,
      "memory(GiB)": 70.5,
      "step": 42520,
      "token_acc": 0.9333333333333333,
      "train_speed(iter/s)": 1.452024
    },
    {
      "epoch": 1.8219013752624138,
      "grad_norm": 4.062705039978027,
      "learning_rate": 7.066440049365983e-05,
      "loss": 0.527443790435791,
      "memory(GiB)": 70.5,
      "step": 42525,
      "token_acc": 0.8827586206896552,
      "train_speed(iter/s)": 1.452018
    },
    {
      "epoch": 1.8221155905916628,
      "grad_norm": 2.816516399383545,
      "learning_rate": 7.06582721727225e-05,
      "loss": 0.3765134334564209,
      "memory(GiB)": 70.5,
      "step": 42530,
      "token_acc": 0.9153225806451613,
      "train_speed(iter/s)": 1.452023
    },
    {
      "epoch": 1.8223298059209116,
      "grad_norm": 3.577683448791504,
      "learning_rate": 7.065214347754115e-05,
      "loss": 0.32967305183410645,
      "memory(GiB)": 70.5,
      "step": 42535,
      "token_acc": 0.9249146757679181,
      "train_speed(iter/s)": 1.452018
    },
    {
      "epoch": 1.8225440212501607,
      "grad_norm": 5.057351589202881,
      "learning_rate": 7.064601440822688e-05,
      "loss": 0.09779543876647949,
      "memory(GiB)": 70.5,
      "step": 42540,
      "token_acc": 0.9759450171821306,
      "train_speed(iter/s)": 1.452008
    },
    {
      "epoch": 1.8227582365794097,
      "grad_norm": 2.1147522926330566,
      "learning_rate": 7.063988496489067e-05,
      "loss": 0.591908597946167,
      "memory(GiB)": 70.5,
      "step": 42545,
      "token_acc": 0.8859649122807017,
      "train_speed(iter/s)": 1.452033
    },
    {
      "epoch": 1.8229724519086585,
      "grad_norm": 5.1204938888549805,
      "learning_rate": 7.06337551476436e-05,
      "loss": 0.4653663635253906,
      "memory(GiB)": 70.5,
      "step": 42550,
      "token_acc": 0.8934169278996865,
      "train_speed(iter/s)": 1.452043
    },
    {
      "epoch": 1.8231866672379076,
      "grad_norm": 4.464017868041992,
      "learning_rate": 7.062762495659669e-05,
      "loss": 0.1456344723701477,
      "memory(GiB)": 70.5,
      "step": 42555,
      "token_acc": 0.9663299663299664,
      "train_speed(iter/s)": 1.452041
    },
    {
      "epoch": 1.8234008825671566,
      "grad_norm": 0.43220576643943787,
      "learning_rate": 7.062149439186101e-05,
      "loss": 0.30295934677124026,
      "memory(GiB)": 70.5,
      "step": 42560,
      "token_acc": 0.9384615384615385,
      "train_speed(iter/s)": 1.452044
    },
    {
      "epoch": 1.8236150978964054,
      "grad_norm": 2.4799208641052246,
      "learning_rate": 7.06153634535476e-05,
      "loss": 0.24780383110046386,
      "memory(GiB)": 70.5,
      "step": 42565,
      "token_acc": 0.9446254071661238,
      "train_speed(iter/s)": 1.452037
    },
    {
      "epoch": 1.8238293132256544,
      "grad_norm": 2.082418203353882,
      "learning_rate": 7.060923214176756e-05,
      "loss": 0.24977493286132812,
      "memory(GiB)": 70.5,
      "step": 42570,
      "token_acc": 0.9399293286219081,
      "train_speed(iter/s)": 1.452039
    },
    {
      "epoch": 1.8240435285549035,
      "grad_norm": 3.3669331073760986,
      "learning_rate": 7.060310045663193e-05,
      "loss": 0.504559850692749,
      "memory(GiB)": 70.5,
      "step": 42575,
      "token_acc": 0.8964285714285715,
      "train_speed(iter/s)": 1.452071
    },
    {
      "epoch": 1.8242577438841523,
      "grad_norm": 1.3270509243011475,
      "learning_rate": 7.059696839825182e-05,
      "loss": 0.2889647245407104,
      "memory(GiB)": 70.5,
      "step": 42580,
      "token_acc": 0.9475806451612904,
      "train_speed(iter/s)": 1.452079
    },
    {
      "epoch": 1.8244719592134013,
      "grad_norm": 3.4456491470336914,
      "learning_rate": 7.05908359667383e-05,
      "loss": 0.5256254196166992,
      "memory(GiB)": 70.5,
      "step": 42585,
      "token_acc": 0.8837920489296636,
      "train_speed(iter/s)": 1.452082
    },
    {
      "epoch": 1.8246861745426504,
      "grad_norm": 5.40407133102417,
      "learning_rate": 7.058470316220248e-05,
      "loss": 0.4330785274505615,
      "memory(GiB)": 70.5,
      "step": 42590,
      "token_acc": 0.9038461538461539,
      "train_speed(iter/s)": 1.452093
    },
    {
      "epoch": 1.8249003898718992,
      "grad_norm": 2.2225611209869385,
      "learning_rate": 7.057856998475543e-05,
      "loss": 0.39080142974853516,
      "memory(GiB)": 70.5,
      "step": 42595,
      "token_acc": 0.9385665529010239,
      "train_speed(iter/s)": 1.452087
    },
    {
      "epoch": 1.8251146052011482,
      "grad_norm": 0.19693033397197723,
      "learning_rate": 7.05724364345083e-05,
      "loss": 0.4129174709320068,
      "memory(GiB)": 70.5,
      "step": 42600,
      "token_acc": 0.9262820512820513,
      "train_speed(iter/s)": 1.45209
    },
    {
      "epoch": 1.8253288205303972,
      "grad_norm": 3.9716742038726807,
      "learning_rate": 7.056630251157219e-05,
      "loss": 0.2712222099304199,
      "memory(GiB)": 70.5,
      "step": 42605,
      "token_acc": 0.941358024691358,
      "train_speed(iter/s)": 1.452088
    },
    {
      "epoch": 1.825543035859646,
      "grad_norm": 3.7778191566467285,
      "learning_rate": 7.05601682160582e-05,
      "loss": 0.14079880714416504,
      "memory(GiB)": 70.5,
      "step": 42610,
      "token_acc": 0.9806949806949807,
      "train_speed(iter/s)": 1.452103
    },
    {
      "epoch": 1.825757251188895,
      "grad_norm": 0.5728937983512878,
      "learning_rate": 7.055403354807749e-05,
      "loss": 0.3030005216598511,
      "memory(GiB)": 70.5,
      "step": 42615,
      "token_acc": 0.935251798561151,
      "train_speed(iter/s)": 1.452093
    },
    {
      "epoch": 1.8259714665181441,
      "grad_norm": 2.2669339179992676,
      "learning_rate": 7.054789850774118e-05,
      "loss": 0.29581642150878906,
      "memory(GiB)": 70.5,
      "step": 42620,
      "token_acc": 0.9207547169811321,
      "train_speed(iter/s)": 1.452106
    },
    {
      "epoch": 1.826185681847393,
      "grad_norm": 5.552096366882324,
      "learning_rate": 7.054176309516041e-05,
      "loss": 0.9240379333496094,
      "memory(GiB)": 70.5,
      "step": 42625,
      "token_acc": 0.8376068376068376,
      "train_speed(iter/s)": 1.452115
    },
    {
      "epoch": 1.826399897176642,
      "grad_norm": 6.165074825286865,
      "learning_rate": 7.053562731044632e-05,
      "loss": 0.35542032718658445,
      "memory(GiB)": 70.5,
      "step": 42630,
      "token_acc": 0.9169435215946844,
      "train_speed(iter/s)": 1.452156
    },
    {
      "epoch": 1.826614112505891,
      "grad_norm": 1.0480998754501343,
      "learning_rate": 7.05294911537101e-05,
      "loss": 0.32143187522888184,
      "memory(GiB)": 70.5,
      "step": 42635,
      "token_acc": 0.9333333333333333,
      "train_speed(iter/s)": 1.45219
    },
    {
      "epoch": 1.8268283278351398,
      "grad_norm": 4.206269264221191,
      "learning_rate": 7.052335462506285e-05,
      "loss": 0.4819530487060547,
      "memory(GiB)": 70.5,
      "step": 42640,
      "token_acc": 0.8963414634146342,
      "train_speed(iter/s)": 1.452179
    },
    {
      "epoch": 1.8270425431643889,
      "grad_norm": 3.270240545272827,
      "learning_rate": 7.051721772461582e-05,
      "loss": 0.4516347885131836,
      "memory(GiB)": 70.5,
      "step": 42645,
      "token_acc": 0.9204152249134948,
      "train_speed(iter/s)": 1.452175
    },
    {
      "epoch": 1.827256758493638,
      "grad_norm": 5.379746913909912,
      "learning_rate": 7.051108045248014e-05,
      "loss": 0.19847395420074462,
      "memory(GiB)": 70.5,
      "step": 42650,
      "token_acc": 0.9512195121951219,
      "train_speed(iter/s)": 1.452174
    },
    {
      "epoch": 1.8274709738228867,
      "grad_norm": 5.589035987854004,
      "learning_rate": 7.050494280876697e-05,
      "loss": 0.793037223815918,
      "memory(GiB)": 70.5,
      "step": 42655,
      "token_acc": 0.8384146341463414,
      "train_speed(iter/s)": 1.452169
    },
    {
      "epoch": 1.8276851891521357,
      "grad_norm": 4.776634693145752,
      "learning_rate": 7.049880479358754e-05,
      "loss": 0.4490814208984375,
      "memory(GiB)": 70.5,
      "step": 42660,
      "token_acc": 0.8975265017667845,
      "train_speed(iter/s)": 1.452186
    },
    {
      "epoch": 1.8278994044813848,
      "grad_norm": 5.228368759155273,
      "learning_rate": 7.049266640705304e-05,
      "loss": 0.4671604156494141,
      "memory(GiB)": 70.5,
      "step": 42665,
      "token_acc": 0.9100719424460432,
      "train_speed(iter/s)": 1.452183
    },
    {
      "epoch": 1.8281136198106336,
      "grad_norm": 8.377272605895996,
      "learning_rate": 7.048652764927466e-05,
      "loss": 0.34523801803588866,
      "memory(GiB)": 70.5,
      "step": 42670,
      "token_acc": 0.9444444444444444,
      "train_speed(iter/s)": 1.452181
    },
    {
      "epoch": 1.8283278351398826,
      "grad_norm": 4.249256134033203,
      "learning_rate": 7.04803885203636e-05,
      "loss": 0.3373737812042236,
      "memory(GiB)": 70.5,
      "step": 42675,
      "token_acc": 0.9340659340659341,
      "train_speed(iter/s)": 1.452181
    },
    {
      "epoch": 1.8285420504691317,
      "grad_norm": 2.650662899017334,
      "learning_rate": 7.047424902043111e-05,
      "loss": 0.3512780427932739,
      "memory(GiB)": 70.5,
      "step": 42680,
      "token_acc": 0.9114391143911439,
      "train_speed(iter/s)": 1.452183
    },
    {
      "epoch": 1.8287562657983805,
      "grad_norm": 4.093042850494385,
      "learning_rate": 7.046810914958839e-05,
      "loss": 0.317500376701355,
      "memory(GiB)": 70.5,
      "step": 42685,
      "token_acc": 0.9195402298850575,
      "train_speed(iter/s)": 1.452184
    },
    {
      "epoch": 1.8289704811276295,
      "grad_norm": 1.25660240650177,
      "learning_rate": 7.046196890794666e-05,
      "loss": 0.5863771438598633,
      "memory(GiB)": 70.5,
      "step": 42690,
      "token_acc": 0.8857142857142857,
      "train_speed(iter/s)": 1.452186
    },
    {
      "epoch": 1.8291846964568785,
      "grad_norm": 4.7878336906433105,
      "learning_rate": 7.045582829561718e-05,
      "loss": 0.3611738681793213,
      "memory(GiB)": 70.5,
      "step": 42695,
      "token_acc": 0.9103448275862069,
      "train_speed(iter/s)": 1.452185
    },
    {
      "epoch": 1.8293989117861273,
      "grad_norm": 2.535947322845459,
      "learning_rate": 7.044968731271118e-05,
      "loss": 0.4894257545471191,
      "memory(GiB)": 70.5,
      "step": 42700,
      "token_acc": 0.8913043478260869,
      "train_speed(iter/s)": 1.452185
    },
    {
      "epoch": 1.8296131271153764,
      "grad_norm": 3.859196901321411,
      "learning_rate": 7.04435459593399e-05,
      "loss": 0.5130582809448242,
      "memory(GiB)": 70.5,
      "step": 42705,
      "token_acc": 0.8976897689768977,
      "train_speed(iter/s)": 1.45219
    },
    {
      "epoch": 1.8298273424446254,
      "grad_norm": 3.051485061645508,
      "learning_rate": 7.04374042356146e-05,
      "loss": 0.32922213077545165,
      "memory(GiB)": 70.5,
      "step": 42710,
      "token_acc": 0.9192307692307692,
      "train_speed(iter/s)": 1.452187
    },
    {
      "epoch": 1.8300415577738742,
      "grad_norm": 4.161774158477783,
      "learning_rate": 7.043126214164657e-05,
      "loss": 0.5018106460571289,
      "memory(GiB)": 70.5,
      "step": 42715,
      "token_acc": 0.8766666666666667,
      "train_speed(iter/s)": 1.452208
    },
    {
      "epoch": 1.8302557731031233,
      "grad_norm": 1.9345529079437256,
      "learning_rate": 7.042511967754707e-05,
      "loss": 0.3667482852935791,
      "memory(GiB)": 70.5,
      "step": 42720,
      "token_acc": 0.9247311827956989,
      "train_speed(iter/s)": 1.452211
    },
    {
      "epoch": 1.8304699884323723,
      "grad_norm": 3.0200681686401367,
      "learning_rate": 7.041897684342734e-05,
      "loss": 0.3110856533050537,
      "memory(GiB)": 70.5,
      "step": 42725,
      "token_acc": 0.924924924924925,
      "train_speed(iter/s)": 1.452203
    },
    {
      "epoch": 1.830684203761621,
      "grad_norm": 4.637816905975342,
      "learning_rate": 7.04128336393987e-05,
      "loss": 0.20720069408416747,
      "memory(GiB)": 70.5,
      "step": 42730,
      "token_acc": 0.9463087248322147,
      "train_speed(iter/s)": 1.452207
    },
    {
      "epoch": 1.8308984190908701,
      "grad_norm": 7.448917388916016,
      "learning_rate": 7.040669006557245e-05,
      "loss": 0.5092107772827148,
      "memory(GiB)": 70.5,
      "step": 42735,
      "token_acc": 0.9113149847094801,
      "train_speed(iter/s)": 1.452217
    },
    {
      "epoch": 1.8311126344201192,
      "grad_norm": 3.5731375217437744,
      "learning_rate": 7.040054612205982e-05,
      "loss": 0.31483845710754393,
      "memory(GiB)": 70.5,
      "step": 42740,
      "token_acc": 0.9496644295302014,
      "train_speed(iter/s)": 1.452221
    },
    {
      "epoch": 1.831326849749368,
      "grad_norm": 2.481987237930298,
      "learning_rate": 7.03944018089722e-05,
      "loss": 0.23277430534362792,
      "memory(GiB)": 70.5,
      "step": 42745,
      "token_acc": 0.940809968847352,
      "train_speed(iter/s)": 1.452222
    },
    {
      "epoch": 1.831541065078617,
      "grad_norm": 2.130659818649292,
      "learning_rate": 7.038825712642085e-05,
      "loss": 0.5124423980712891,
      "memory(GiB)": 70.5,
      "step": 42750,
      "token_acc": 0.9037656903765691,
      "train_speed(iter/s)": 1.452233
    },
    {
      "epoch": 1.831755280407866,
      "grad_norm": 3.6477346420288086,
      "learning_rate": 7.03821120745171e-05,
      "loss": 0.3556635618209839,
      "memory(GiB)": 70.5,
      "step": 42755,
      "token_acc": 0.9236947791164659,
      "train_speed(iter/s)": 1.452223
    },
    {
      "epoch": 1.8319694957371149,
      "grad_norm": 1.5227099657058716,
      "learning_rate": 7.037596665337226e-05,
      "loss": 0.41545805931091306,
      "memory(GiB)": 70.5,
      "step": 42760,
      "token_acc": 0.9003322259136213,
      "train_speed(iter/s)": 1.452226
    },
    {
      "epoch": 1.832183711066364,
      "grad_norm": 2.5857083797454834,
      "learning_rate": 7.036982086309769e-05,
      "loss": 0.3780375957489014,
      "memory(GiB)": 70.5,
      "step": 42765,
      "token_acc": 0.9252669039145908,
      "train_speed(iter/s)": 1.452233
    },
    {
      "epoch": 1.832397926395613,
      "grad_norm": 6.2473225593566895,
      "learning_rate": 7.036367470380467e-05,
      "loss": 0.22647955417633056,
      "memory(GiB)": 70.5,
      "step": 42770,
      "token_acc": 0.946058091286307,
      "train_speed(iter/s)": 1.452237
    },
    {
      "epoch": 1.8326121417248618,
      "grad_norm": 4.223305702209473,
      "learning_rate": 7.03575281756046e-05,
      "loss": 0.3459761142730713,
      "memory(GiB)": 70.5,
      "step": 42775,
      "token_acc": 0.9326599326599326,
      "train_speed(iter/s)": 1.452236
    },
    {
      "epoch": 1.8328263570541108,
      "grad_norm": 4.1624531745910645,
      "learning_rate": 7.03513812786088e-05,
      "loss": 0.4928587913513184,
      "memory(GiB)": 70.5,
      "step": 42780,
      "token_acc": 0.9115853658536586,
      "train_speed(iter/s)": 1.452236
    },
    {
      "epoch": 1.8330405723833598,
      "grad_norm": 2.470017671585083,
      "learning_rate": 7.034523401292866e-05,
      "loss": 0.2901711702346802,
      "memory(GiB)": 70.5,
      "step": 42785,
      "token_acc": 0.935064935064935,
      "train_speed(iter/s)": 1.452251
    },
    {
      "epoch": 1.8332547877126086,
      "grad_norm": 1.4304897785186768,
      "learning_rate": 7.03390863786755e-05,
      "loss": 0.5824021816253662,
      "memory(GiB)": 70.5,
      "step": 42790,
      "token_acc": 0.8509933774834437,
      "train_speed(iter/s)": 1.452261
    },
    {
      "epoch": 1.8334690030418577,
      "grad_norm": 3.2496635913848877,
      "learning_rate": 7.033293837596073e-05,
      "loss": 0.23654301166534425,
      "memory(GiB)": 70.5,
      "step": 42795,
      "token_acc": 0.9571984435797666,
      "train_speed(iter/s)": 1.452285
    },
    {
      "epoch": 1.8336832183711067,
      "grad_norm": 3.9505650997161865,
      "learning_rate": 7.032679000489568e-05,
      "loss": 0.4777482032775879,
      "memory(GiB)": 70.5,
      "step": 42800,
      "token_acc": 0.8954423592493298,
      "train_speed(iter/s)": 1.452298
    },
    {
      "epoch": 1.8338974337003555,
      "grad_norm": 4.160984516143799,
      "learning_rate": 7.032064126559179e-05,
      "loss": 0.3130008697509766,
      "memory(GiB)": 70.5,
      "step": 42805,
      "token_acc": 0.930635838150289,
      "train_speed(iter/s)": 1.452303
    },
    {
      "epoch": 1.8341116490296046,
      "grad_norm": 4.672788143157959,
      "learning_rate": 7.031449215816041e-05,
      "loss": 0.3550281047821045,
      "memory(GiB)": 70.5,
      "step": 42810,
      "token_acc": 0.9169960474308301,
      "train_speed(iter/s)": 1.452301
    },
    {
      "epoch": 1.8343258643588536,
      "grad_norm": 2.550250768661499,
      "learning_rate": 7.030834268271294e-05,
      "loss": 0.46448574066162107,
      "memory(GiB)": 70.5,
      "step": 42815,
      "token_acc": 0.899390243902439,
      "train_speed(iter/s)": 1.45229
    },
    {
      "epoch": 1.8345400796881024,
      "grad_norm": 1.913807988166809,
      "learning_rate": 7.030219283936079e-05,
      "loss": 0.33357198238372804,
      "memory(GiB)": 70.5,
      "step": 42820,
      "token_acc": 0.9257950530035336,
      "train_speed(iter/s)": 1.452287
    },
    {
      "epoch": 1.8347542950173514,
      "grad_norm": 7.18216609954834,
      "learning_rate": 7.029604262821539e-05,
      "loss": 0.2829891204833984,
      "memory(GiB)": 70.5,
      "step": 42825,
      "token_acc": 0.9397163120567376,
      "train_speed(iter/s)": 1.452288
    },
    {
      "epoch": 1.8349685103466005,
      "grad_norm": 4.143774032592773,
      "learning_rate": 7.028989204938812e-05,
      "loss": 0.153847074508667,
      "memory(GiB)": 70.5,
      "step": 42830,
      "token_acc": 0.9630872483221476,
      "train_speed(iter/s)": 1.452312
    },
    {
      "epoch": 1.8351827256758493,
      "grad_norm": 3.9531195163726807,
      "learning_rate": 7.028374110299044e-05,
      "loss": 0.30200240612030027,
      "memory(GiB)": 70.5,
      "step": 42835,
      "token_acc": 0.9494949494949495,
      "train_speed(iter/s)": 1.452316
    },
    {
      "epoch": 1.8353969410050983,
      "grad_norm": 10.92807674407959,
      "learning_rate": 7.027758978913374e-05,
      "loss": 0.5135953426361084,
      "memory(GiB)": 70.5,
      "step": 42840,
      "token_acc": 0.8590078328981723,
      "train_speed(iter/s)": 1.452309
    },
    {
      "epoch": 1.8356111563343473,
      "grad_norm": 3.8236083984375,
      "learning_rate": 7.02714381079295e-05,
      "loss": 0.38279540538787843,
      "memory(GiB)": 70.5,
      "step": 42845,
      "token_acc": 0.9066265060240963,
      "train_speed(iter/s)": 1.452332
    },
    {
      "epoch": 1.8358253716635962,
      "grad_norm": 2.426063299179077,
      "learning_rate": 7.026528605948913e-05,
      "loss": 0.3726980686187744,
      "memory(GiB)": 70.5,
      "step": 42850,
      "token_acc": 0.9250936329588015,
      "train_speed(iter/s)": 1.45233
    },
    {
      "epoch": 1.8360395869928452,
      "grad_norm": 0.7303560972213745,
      "learning_rate": 7.025913364392409e-05,
      "loss": 0.21955695152282714,
      "memory(GiB)": 70.5,
      "step": 42855,
      "token_acc": 0.9540229885057471,
      "train_speed(iter/s)": 1.452319
    },
    {
      "epoch": 1.8362538023220942,
      "grad_norm": 2.9374139308929443,
      "learning_rate": 7.025298086134586e-05,
      "loss": 0.5311499118804932,
      "memory(GiB)": 70.5,
      "step": 42860,
      "token_acc": 0.8776758409785933,
      "train_speed(iter/s)": 1.452319
    },
    {
      "epoch": 1.836468017651343,
      "grad_norm": 3.6985416412353516,
      "learning_rate": 7.024682771186586e-05,
      "loss": 0.4897608757019043,
      "memory(GiB)": 70.5,
      "step": 42865,
      "token_acc": 0.9071428571428571,
      "train_speed(iter/s)": 1.452322
    },
    {
      "epoch": 1.836682232980592,
      "grad_norm": 4.381135940551758,
      "learning_rate": 7.02406741955956e-05,
      "loss": 0.3346710681915283,
      "memory(GiB)": 70.5,
      "step": 42870,
      "token_acc": 0.935672514619883,
      "train_speed(iter/s)": 1.452324
    },
    {
      "epoch": 1.8368964483098411,
      "grad_norm": 2.901416540145874,
      "learning_rate": 7.023452031264653e-05,
      "loss": 0.6165480613708496,
      "memory(GiB)": 70.5,
      "step": 42875,
      "token_acc": 0.8618618618618619,
      "train_speed(iter/s)": 1.452322
    },
    {
      "epoch": 1.83711066363909,
      "grad_norm": 3.4433188438415527,
      "learning_rate": 7.022836606313015e-05,
      "loss": 0.29783172607421876,
      "memory(GiB)": 70.5,
      "step": 42880,
      "token_acc": 0.9320754716981132,
      "train_speed(iter/s)": 1.452319
    },
    {
      "epoch": 1.837324878968339,
      "grad_norm": 1.460149884223938,
      "learning_rate": 7.022221144715793e-05,
      "loss": 0.27271504402160646,
      "memory(GiB)": 70.5,
      "step": 42885,
      "token_acc": 0.9288256227758007,
      "train_speed(iter/s)": 1.452317
    },
    {
      "epoch": 1.837539094297588,
      "grad_norm": 5.211626052856445,
      "learning_rate": 7.021605646484137e-05,
      "loss": 0.3638000965118408,
      "memory(GiB)": 70.5,
      "step": 42890,
      "token_acc": 0.9345454545454546,
      "train_speed(iter/s)": 1.452309
    },
    {
      "epoch": 1.8377533096268368,
      "grad_norm": 3.7342655658721924,
      "learning_rate": 7.020990111629202e-05,
      "loss": 0.457997465133667,
      "memory(GiB)": 70.5,
      "step": 42895,
      "token_acc": 0.9100346020761245,
      "train_speed(iter/s)": 1.452304
    },
    {
      "epoch": 1.8379675249560858,
      "grad_norm": 4.213478088378906,
      "learning_rate": 7.020374540162132e-05,
      "loss": 0.3493010997772217,
      "memory(GiB)": 70.5,
      "step": 42900,
      "token_acc": 0.9235668789808917,
      "train_speed(iter/s)": 1.452312
    },
    {
      "epoch": 1.8381817402853349,
      "grad_norm": 2.5736560821533203,
      "learning_rate": 7.019758932094083e-05,
      "loss": 0.17698792219161988,
      "memory(GiB)": 70.5,
      "step": 42905,
      "token_acc": 0.9586776859504132,
      "train_speed(iter/s)": 1.452311
    },
    {
      "epoch": 1.8383959556145837,
      "grad_norm": 4.139040470123291,
      "learning_rate": 7.019143287436207e-05,
      "loss": 0.538484525680542,
      "memory(GiB)": 70.5,
      "step": 42910,
      "token_acc": 0.8858131487889274,
      "train_speed(iter/s)": 1.452305
    },
    {
      "epoch": 1.8386101709438327,
      "grad_norm": 5.037586688995361,
      "learning_rate": 7.018527606199657e-05,
      "loss": 0.4728094577789307,
      "memory(GiB)": 70.5,
      "step": 42915,
      "token_acc": 0.888030888030888,
      "train_speed(iter/s)": 1.4523
    },
    {
      "epoch": 1.8388243862730818,
      "grad_norm": 2.8497843742370605,
      "learning_rate": 7.017911888395584e-05,
      "loss": 0.5388402938842773,
      "memory(GiB)": 70.5,
      "step": 42920,
      "token_acc": 0.8926380368098159,
      "train_speed(iter/s)": 1.452291
    },
    {
      "epoch": 1.8390386016023306,
      "grad_norm": 4.098728656768799,
      "learning_rate": 7.017296134035145e-05,
      "loss": 0.6061457633972168,
      "memory(GiB)": 70.5,
      "step": 42925,
      "token_acc": 0.8759124087591241,
      "train_speed(iter/s)": 1.452288
    },
    {
      "epoch": 1.8392528169315796,
      "grad_norm": 4.067751407623291,
      "learning_rate": 7.016680343129493e-05,
      "loss": 0.2674825668334961,
      "memory(GiB)": 70.5,
      "step": 42930,
      "token_acc": 0.9285714285714286,
      "train_speed(iter/s)": 1.452302
    },
    {
      "epoch": 1.8394670322608286,
      "grad_norm": 4.372717380523682,
      "learning_rate": 7.016064515689787e-05,
      "loss": 0.5949650764465332,
      "memory(GiB)": 70.5,
      "step": 42935,
      "token_acc": 0.8705501618122977,
      "train_speed(iter/s)": 1.452308
    },
    {
      "epoch": 1.8396812475900775,
      "grad_norm": 2.3629939556121826,
      "learning_rate": 7.015448651727179e-05,
      "loss": 0.6535268783569336,
      "memory(GiB)": 70.5,
      "step": 42940,
      "token_acc": 0.8509933774834437,
      "train_speed(iter/s)": 1.452324
    },
    {
      "epoch": 1.8398954629193265,
      "grad_norm": 4.147362232208252,
      "learning_rate": 7.01483275125283e-05,
      "loss": 0.8477432250976562,
      "memory(GiB)": 70.5,
      "step": 42945,
      "token_acc": 0.8216783216783217,
      "train_speed(iter/s)": 1.452358
    },
    {
      "epoch": 1.8401096782485755,
      "grad_norm": 5.091159820556641,
      "learning_rate": 7.014216814277894e-05,
      "loss": 0.6038545608520508,
      "memory(GiB)": 70.5,
      "step": 42950,
      "token_acc": 0.8480565371024735,
      "train_speed(iter/s)": 1.452382
    },
    {
      "epoch": 1.8403238935778243,
      "grad_norm": 2.940087080001831,
      "learning_rate": 7.01360084081353e-05,
      "loss": 0.3455674409866333,
      "memory(GiB)": 70.5,
      "step": 42955,
      "token_acc": 0.9250814332247557,
      "train_speed(iter/s)": 1.45239
    },
    {
      "epoch": 1.8405381089070734,
      "grad_norm": 3.4878830909729004,
      "learning_rate": 7.0129848308709e-05,
      "loss": 0.18656045198440552,
      "memory(GiB)": 70.5,
      "step": 42960,
      "token_acc": 0.9501779359430605,
      "train_speed(iter/s)": 1.452409
    },
    {
      "epoch": 1.8407523242363224,
      "grad_norm": 1.8921613693237305,
      "learning_rate": 7.012368784461161e-05,
      "loss": 0.14174253940582277,
      "memory(GiB)": 70.5,
      "step": 42965,
      "token_acc": 0.956953642384106,
      "train_speed(iter/s)": 1.452412
    },
    {
      "epoch": 1.8409665395655712,
      "grad_norm": 4.53183126449585,
      "learning_rate": 7.011752701595471e-05,
      "loss": 0.345490837097168,
      "memory(GiB)": 70.5,
      "step": 42970,
      "token_acc": 0.9051094890510949,
      "train_speed(iter/s)": 1.452417
    },
    {
      "epoch": 1.8411807548948202,
      "grad_norm": 3.2722105979919434,
      "learning_rate": 7.011136582284998e-05,
      "loss": 0.5528882026672364,
      "memory(GiB)": 70.5,
      "step": 42975,
      "token_acc": 0.8885542168674698,
      "train_speed(iter/s)": 1.452418
    },
    {
      "epoch": 1.8413949702240693,
      "grad_norm": 2.68408465385437,
      "learning_rate": 7.010520426540897e-05,
      "loss": 0.27409336566925047,
      "memory(GiB)": 70.5,
      "step": 42980,
      "token_acc": 0.9469964664310954,
      "train_speed(iter/s)": 1.45242
    },
    {
      "epoch": 1.841609185553318,
      "grad_norm": 7.348254680633545,
      "learning_rate": 7.009904234374332e-05,
      "loss": 0.6339303970336914,
      "memory(GiB)": 70.5,
      "step": 42985,
      "token_acc": 0.8692579505300353,
      "train_speed(iter/s)": 1.452421
    },
    {
      "epoch": 1.8418234008825671,
      "grad_norm": 3.016690969467163,
      "learning_rate": 7.009288005796469e-05,
      "loss": 0.40348329544067385,
      "memory(GiB)": 70.5,
      "step": 42990,
      "token_acc": 0.9132075471698113,
      "train_speed(iter/s)": 1.452424
    },
    {
      "epoch": 1.8420376162118162,
      "grad_norm": 5.397497653961182,
      "learning_rate": 7.008671740818466e-05,
      "loss": 0.36996462345123293,
      "memory(GiB)": 70.5,
      "step": 42995,
      "token_acc": 0.917981072555205,
      "train_speed(iter/s)": 1.45243
    },
    {
      "epoch": 1.842251831541065,
      "grad_norm": 2.3398256301879883,
      "learning_rate": 7.008055439451491e-05,
      "loss": 0.23854057788848876,
      "memory(GiB)": 70.5,
      "step": 43000,
      "token_acc": 0.9429530201342282,
      "train_speed(iter/s)": 1.45243
    },
    {
      "epoch": 1.842251831541065,
      "eval_loss": 2.5321078300476074,
      "eval_runtime": 13.1372,
      "eval_samples_per_second": 7.612,
      "eval_steps_per_second": 7.612,
      "eval_token_acc": 0.44369063772048845,
      "step": 43000
    },
    {
      "epoch": 1.842466046870314,
      "grad_norm": 1.7719447612762451,
      "learning_rate": 7.007439101706708e-05,
      "loss": 0.46820878982543945,
      "memory(GiB)": 70.5,
      "step": 43005,
      "token_acc": 0.5689149560117303,
      "train_speed(iter/s)": 1.451733
    },
    {
      "epoch": 1.842680262199563,
      "grad_norm": 2.272819995880127,
      "learning_rate": 7.006822727595284e-05,
      "loss": 0.5328145980834961,
      "memory(GiB)": 70.5,
      "step": 43010,
      "token_acc": 0.8828125,
      "train_speed(iter/s)": 1.451733
    },
    {
      "epoch": 1.8428944775288119,
      "grad_norm": 1.9697456359863281,
      "learning_rate": 7.00620631712838e-05,
      "loss": 0.23933892250061034,
      "memory(GiB)": 70.5,
      "step": 43015,
      "token_acc": 0.9382352941176471,
      "train_speed(iter/s)": 1.451738
    },
    {
      "epoch": 1.843108692858061,
      "grad_norm": 2.941415309906006,
      "learning_rate": 7.00558987031717e-05,
      "loss": 0.40178236961364744,
      "memory(GiB)": 70.5,
      "step": 43020,
      "token_acc": 0.9185185185185185,
      "train_speed(iter/s)": 1.451752
    },
    {
      "epoch": 1.84332290818731,
      "grad_norm": 4.101125240325928,
      "learning_rate": 7.004973387172818e-05,
      "loss": 0.43100662231445314,
      "memory(GiB)": 70.5,
      "step": 43025,
      "token_acc": 0.8778877887788779,
      "train_speed(iter/s)": 1.451756
    },
    {
      "epoch": 1.8435371235165587,
      "grad_norm": 0.6884315013885498,
      "learning_rate": 7.00435686770649e-05,
      "loss": 0.4832772254943848,
      "memory(GiB)": 70.5,
      "step": 43030,
      "token_acc": 0.9096989966555183,
      "train_speed(iter/s)": 1.451768
    },
    {
      "epoch": 1.8437513388458078,
      "grad_norm": 1.664048433303833,
      "learning_rate": 7.003740311929358e-05,
      "loss": 0.16953375339508056,
      "memory(GiB)": 70.5,
      "step": 43035,
      "token_acc": 0.9640522875816994,
      "train_speed(iter/s)": 1.451772
    },
    {
      "epoch": 1.8439655541750568,
      "grad_norm": 1.621167778968811,
      "learning_rate": 7.003123719852592e-05,
      "loss": 0.3063133478164673,
      "memory(GiB)": 70.5,
      "step": 43040,
      "token_acc": 0.9318181818181818,
      "train_speed(iter/s)": 1.451789
    },
    {
      "epoch": 1.8441797695043056,
      "grad_norm": 4.1443095207214355,
      "learning_rate": 7.00250709148736e-05,
      "loss": 0.32558958530426024,
      "memory(GiB)": 70.5,
      "step": 43045,
      "token_acc": 0.9302325581395349,
      "train_speed(iter/s)": 1.451784
    },
    {
      "epoch": 1.8443939848335547,
      "grad_norm": 5.252964019775391,
      "learning_rate": 7.001890426844833e-05,
      "loss": 0.8616040229797364,
      "memory(GiB)": 70.5,
      "step": 43050,
      "token_acc": 0.8215384615384616,
      "train_speed(iter/s)": 1.451795
    },
    {
      "epoch": 1.8446082001628037,
      "grad_norm": 2.5389957427978516,
      "learning_rate": 7.001273725936184e-05,
      "loss": 0.5911857604980468,
      "memory(GiB)": 70.5,
      "step": 43055,
      "token_acc": 0.8997050147492626,
      "train_speed(iter/s)": 1.451792
    },
    {
      "epoch": 1.8448224154920525,
      "grad_norm": 2.198652505874634,
      "learning_rate": 7.000656988772583e-05,
      "loss": 0.20365595817565918,
      "memory(GiB)": 70.5,
      "step": 43060,
      "token_acc": 0.946236559139785,
      "train_speed(iter/s)": 1.451797
    },
    {
      "epoch": 1.8450366308213015,
      "grad_norm": 8.202596664428711,
      "learning_rate": 7.000040215365205e-05,
      "loss": 0.3729071617126465,
      "memory(GiB)": 70.5,
      "step": 43065,
      "token_acc": 0.9224489795918367,
      "train_speed(iter/s)": 1.451791
    },
    {
      "epoch": 1.8452508461505506,
      "grad_norm": 3.133600950241089,
      "learning_rate": 6.999423405725221e-05,
      "loss": 0.4747908592224121,
      "memory(GiB)": 70.5,
      "step": 43070,
      "token_acc": 0.889261744966443,
      "train_speed(iter/s)": 1.451781
    },
    {
      "epoch": 1.8454650614797994,
      "grad_norm": 2.3391730785369873,
      "learning_rate": 6.998806559863806e-05,
      "loss": 0.32243316173553466,
      "memory(GiB)": 70.5,
      "step": 43075,
      "token_acc": 0.916955017301038,
      "train_speed(iter/s)": 1.451786
    },
    {
      "epoch": 1.8456792768090484,
      "grad_norm": 0.43941423296928406,
      "learning_rate": 6.998189677792138e-05,
      "loss": 0.26106510162353513,
      "memory(GiB)": 70.5,
      "step": 43080,
      "token_acc": 0.9483282674772037,
      "train_speed(iter/s)": 1.45181
    },
    {
      "epoch": 1.8458934921382975,
      "grad_norm": 2.2247822284698486,
      "learning_rate": 6.997572759521386e-05,
      "loss": 0.43874435424804686,
      "memory(GiB)": 70.5,
      "step": 43085,
      "token_acc": 0.9141104294478528,
      "train_speed(iter/s)": 1.451828
    },
    {
      "epoch": 1.8461077074675463,
      "grad_norm": 3.0237865447998047,
      "learning_rate": 6.996955805062732e-05,
      "loss": 0.4500910758972168,
      "memory(GiB)": 70.5,
      "step": 43090,
      "token_acc": 0.9044117647058824,
      "train_speed(iter/s)": 1.45183
    },
    {
      "epoch": 1.8463219227967953,
      "grad_norm": 2.5088894367218018,
      "learning_rate": 6.99633881442735e-05,
      "loss": 0.3569206237792969,
      "memory(GiB)": 70.5,
      "step": 43095,
      "token_acc": 0.9230769230769231,
      "train_speed(iter/s)": 1.45183
    },
    {
      "epoch": 1.8465361381260443,
      "grad_norm": 2.6046085357666016,
      "learning_rate": 6.995721787626417e-05,
      "loss": 0.2734581232070923,
      "memory(GiB)": 70.5,
      "step": 43100,
      "token_acc": 0.950381679389313,
      "train_speed(iter/s)": 1.451823
    },
    {
      "epoch": 1.8467503534552931,
      "grad_norm": 3.038236379623413,
      "learning_rate": 6.995104724671112e-05,
      "loss": 0.3654165506362915,
      "memory(GiB)": 70.5,
      "step": 43105,
      "token_acc": 0.9253246753246753,
      "train_speed(iter/s)": 1.451827
    },
    {
      "epoch": 1.8469645687845422,
      "grad_norm": 2.452018976211548,
      "learning_rate": 6.994487625572613e-05,
      "loss": 0.3357478141784668,
      "memory(GiB)": 70.5,
      "step": 43110,
      "token_acc": 0.9036144578313253,
      "train_speed(iter/s)": 1.451863
    },
    {
      "epoch": 1.8471787841137912,
      "grad_norm": 1.5720901489257812,
      "learning_rate": 6.993870490342099e-05,
      "loss": 0.33622863292694094,
      "memory(GiB)": 70.5,
      "step": 43115,
      "token_acc": 0.9288025889967637,
      "train_speed(iter/s)": 1.45187
    },
    {
      "epoch": 1.84739299944304,
      "grad_norm": 1.1599267721176147,
      "learning_rate": 6.993253318990753e-05,
      "loss": 0.19651631116867066,
      "memory(GiB)": 70.5,
      "step": 43120,
      "token_acc": 0.9417808219178082,
      "train_speed(iter/s)": 1.451866
    },
    {
      "epoch": 1.847607214772289,
      "grad_norm": 3.432929754257202,
      "learning_rate": 6.992636111529752e-05,
      "loss": 0.5959908485412597,
      "memory(GiB)": 70.5,
      "step": 43125,
      "token_acc": 0.8724137931034482,
      "train_speed(iter/s)": 1.451873
    },
    {
      "epoch": 1.847821430101538,
      "grad_norm": 3.7462170124053955,
      "learning_rate": 6.992018867970278e-05,
      "loss": 0.48769383430480956,
      "memory(GiB)": 70.5,
      "step": 43130,
      "token_acc": 0.9049586776859504,
      "train_speed(iter/s)": 1.451868
    },
    {
      "epoch": 1.848035645430787,
      "grad_norm": 2.7982900142669678,
      "learning_rate": 6.991401588323514e-05,
      "loss": 0.4872868061065674,
      "memory(GiB)": 70.5,
      "step": 43135,
      "token_acc": 0.887459807073955,
      "train_speed(iter/s)": 1.45188
    },
    {
      "epoch": 1.848249860760036,
      "grad_norm": 1.526465892791748,
      "learning_rate": 6.990784272600643e-05,
      "loss": 0.499970006942749,
      "memory(GiB)": 70.5,
      "step": 43140,
      "token_acc": 0.8996282527881041,
      "train_speed(iter/s)": 1.451867
    },
    {
      "epoch": 1.848464076089285,
      "grad_norm": 1.250643014907837,
      "learning_rate": 6.990166920812847e-05,
      "loss": 0.32599468231201173,
      "memory(GiB)": 70.5,
      "step": 43145,
      "token_acc": 0.9206349206349206,
      "train_speed(iter/s)": 1.451877
    },
    {
      "epoch": 1.8486782914185338,
      "grad_norm": 4.9753193855285645,
      "learning_rate": 6.989549532971309e-05,
      "loss": 0.32602341175079347,
      "memory(GiB)": 70.5,
      "step": 43150,
      "token_acc": 0.939799331103679,
      "train_speed(iter/s)": 1.451894
    },
    {
      "epoch": 1.8488925067477828,
      "grad_norm": 3.5867185592651367,
      "learning_rate": 6.988932109087216e-05,
      "loss": 0.5012857913970947,
      "memory(GiB)": 70.5,
      "step": 43155,
      "token_acc": 0.8884615384615384,
      "train_speed(iter/s)": 1.451911
    },
    {
      "epoch": 1.8491067220770319,
      "grad_norm": 4.611388683319092,
      "learning_rate": 6.988314649171751e-05,
      "loss": 0.4457257270812988,
      "memory(GiB)": 70.5,
      "step": 43160,
      "token_acc": 0.9114285714285715,
      "train_speed(iter/s)": 1.451929
    },
    {
      "epoch": 1.8493209374062807,
      "grad_norm": 2.6022884845733643,
      "learning_rate": 6.987697153236102e-05,
      "loss": 0.43273372650146485,
      "memory(GiB)": 70.5,
      "step": 43165,
      "token_acc": 0.9113475177304965,
      "train_speed(iter/s)": 1.451929
    },
    {
      "epoch": 1.8495351527355297,
      "grad_norm": 3.5008883476257324,
      "learning_rate": 6.987079621291455e-05,
      "loss": 0.4505763530731201,
      "memory(GiB)": 70.5,
      "step": 43170,
      "token_acc": 0.9128919860627178,
      "train_speed(iter/s)": 1.451953
    },
    {
      "epoch": 1.8497493680647787,
      "grad_norm": 2.9184577465057373,
      "learning_rate": 6.986462053348996e-05,
      "loss": 0.36132230758666994,
      "memory(GiB)": 70.5,
      "step": 43175,
      "token_acc": 0.9230769230769231,
      "train_speed(iter/s)": 1.451973
    },
    {
      "epoch": 1.8499635833940276,
      "grad_norm": 1.4097775220870972,
      "learning_rate": 6.985844449419913e-05,
      "loss": 0.5152536869049072,
      "memory(GiB)": 70.5,
      "step": 43180,
      "token_acc": 0.8831521739130435,
      "train_speed(iter/s)": 1.451973
    },
    {
      "epoch": 1.8501777987232766,
      "grad_norm": 5.996248245239258,
      "learning_rate": 6.985226809515395e-05,
      "loss": 0.5750139713287353,
      "memory(GiB)": 70.5,
      "step": 43185,
      "token_acc": 0.86875,
      "train_speed(iter/s)": 1.451976
    },
    {
      "epoch": 1.8503920140525256,
      "grad_norm": 3.3981871604919434,
      "learning_rate": 6.98460913364663e-05,
      "loss": 0.15177100896835327,
      "memory(GiB)": 70.5,
      "step": 43190,
      "token_acc": 0.9662921348314607,
      "train_speed(iter/s)": 1.451982
    },
    {
      "epoch": 1.8506062293817744,
      "grad_norm": 0.42295652627944946,
      "learning_rate": 6.983991421824811e-05,
      "loss": 0.39751324653625486,
      "memory(GiB)": 70.5,
      "step": 43195,
      "token_acc": 0.920863309352518,
      "train_speed(iter/s)": 1.451982
    },
    {
      "epoch": 1.8508204447110235,
      "grad_norm": 3.4271392822265625,
      "learning_rate": 6.983373674061126e-05,
      "loss": 0.4564621925354004,
      "memory(GiB)": 70.5,
      "step": 43200,
      "token_acc": 0.9128919860627178,
      "train_speed(iter/s)": 1.451992
    },
    {
      "epoch": 1.8510346600402725,
      "grad_norm": 6.369333267211914,
      "learning_rate": 6.982755890366766e-05,
      "loss": 0.2853787183761597,
      "memory(GiB)": 70.5,
      "step": 43205,
      "token_acc": 0.9380165289256198,
      "train_speed(iter/s)": 1.45201
    },
    {
      "epoch": 1.8512488753695213,
      "grad_norm": 6.249757289886475,
      "learning_rate": 6.982138070752923e-05,
      "loss": 0.6390312194824219,
      "memory(GiB)": 70.5,
      "step": 43210,
      "token_acc": 0.8662207357859532,
      "train_speed(iter/s)": 1.452006
    },
    {
      "epoch": 1.8514630906987704,
      "grad_norm": 4.198172569274902,
      "learning_rate": 6.981520215230788e-05,
      "loss": 0.5384607315063477,
      "memory(GiB)": 70.5,
      "step": 43215,
      "token_acc": 0.8931750741839762,
      "train_speed(iter/s)": 1.452025
    },
    {
      "epoch": 1.8516773060280194,
      "grad_norm": 3.53922176361084,
      "learning_rate": 6.980902323811557e-05,
      "loss": 0.44115939140319826,
      "memory(GiB)": 70.5,
      "step": 43220,
      "token_acc": 0.879245283018868,
      "train_speed(iter/s)": 1.452022
    },
    {
      "epoch": 1.8518915213572682,
      "grad_norm": 4.4631452560424805,
      "learning_rate": 6.980284396506421e-05,
      "loss": 0.601005744934082,
      "memory(GiB)": 70.5,
      "step": 43225,
      "token_acc": 0.8827361563517915,
      "train_speed(iter/s)": 1.452015
    },
    {
      "epoch": 1.8521057366865172,
      "grad_norm": 2.8383147716522217,
      "learning_rate": 6.979666433326577e-05,
      "loss": 0.22453293800354004,
      "memory(GiB)": 70.5,
      "step": 43230,
      "token_acc": 0.951048951048951,
      "train_speed(iter/s)": 1.452031
    },
    {
      "epoch": 1.8523199520157663,
      "grad_norm": 4.014501571655273,
      "learning_rate": 6.979048434283218e-05,
      "loss": 0.33372044563293457,
      "memory(GiB)": 70.5,
      "step": 43235,
      "token_acc": 0.9342857142857143,
      "train_speed(iter/s)": 1.452041
    },
    {
      "epoch": 1.852534167345015,
      "grad_norm": 2.42706298828125,
      "learning_rate": 6.978430399387541e-05,
      "loss": 0.5163267135620118,
      "memory(GiB)": 70.5,
      "step": 43240,
      "token_acc": 0.9032258064516129,
      "train_speed(iter/s)": 1.452054
    },
    {
      "epoch": 1.8527483826742641,
      "grad_norm": 3.0776987075805664,
      "learning_rate": 6.97781232865074e-05,
      "loss": 0.3994445323944092,
      "memory(GiB)": 70.5,
      "step": 43245,
      "token_acc": 0.901685393258427,
      "train_speed(iter/s)": 1.452045
    },
    {
      "epoch": 1.8529625980035132,
      "grad_norm": 0.7160181999206543,
      "learning_rate": 6.977194222084013e-05,
      "loss": 0.21154017448425294,
      "memory(GiB)": 70.5,
      "step": 43250,
      "token_acc": 0.9424460431654677,
      "train_speed(iter/s)": 1.452053
    },
    {
      "epoch": 1.853176813332762,
      "grad_norm": 1.3541107177734375,
      "learning_rate": 6.97657607969856e-05,
      "loss": 0.28443112373352053,
      "memory(GiB)": 70.5,
      "step": 43255,
      "token_acc": 0.953125,
      "train_speed(iter/s)": 1.452055
    },
    {
      "epoch": 1.8533910286620112,
      "grad_norm": 2.7590508460998535,
      "learning_rate": 6.975957901505574e-05,
      "loss": 0.39308733940124513,
      "memory(GiB)": 70.5,
      "step": 43260,
      "token_acc": 0.9363295880149812,
      "train_speed(iter/s)": 1.452065
    },
    {
      "epoch": 1.85360524399126,
      "grad_norm": 3.000147581100464,
      "learning_rate": 6.97533968751626e-05,
      "loss": 0.2844958543777466,
      "memory(GiB)": 70.5,
      "step": 43265,
      "token_acc": 0.9299610894941635,
      "train_speed(iter/s)": 1.452066
    },
    {
      "epoch": 1.8538194593205088,
      "grad_norm": 3.3251333236694336,
      "learning_rate": 6.974721437741813e-05,
      "loss": 0.39196953773498533,
      "memory(GiB)": 70.5,
      "step": 43270,
      "token_acc": 0.916058394160584,
      "train_speed(iter/s)": 1.452065
    },
    {
      "epoch": 1.854033674649758,
      "grad_norm": 4.016794681549072,
      "learning_rate": 6.974103152193434e-05,
      "loss": 0.6108639717102051,
      "memory(GiB)": 70.5,
      "step": 43275,
      "token_acc": 0.8645418326693227,
      "train_speed(iter/s)": 1.452097
    },
    {
      "epoch": 1.854247889979007,
      "grad_norm": 1.7773137092590332,
      "learning_rate": 6.973484830882326e-05,
      "loss": 0.20001142024993895,
      "memory(GiB)": 70.5,
      "step": 43280,
      "token_acc": 0.9456066945606695,
      "train_speed(iter/s)": 1.452109
    },
    {
      "epoch": 1.8544621053082557,
      "grad_norm": 2.58038067817688,
      "learning_rate": 6.97286647381969e-05,
      "loss": 0.3353499174118042,
      "memory(GiB)": 70.5,
      "step": 43285,
      "token_acc": 0.9305019305019305,
      "train_speed(iter/s)": 1.452115
    },
    {
      "epoch": 1.854676320637505,
      "grad_norm": 4.191169261932373,
      "learning_rate": 6.972248081016724e-05,
      "loss": 0.5535025596618652,
      "memory(GiB)": 70.5,
      "step": 43290,
      "token_acc": 0.8671875,
      "train_speed(iter/s)": 1.452112
    },
    {
      "epoch": 1.8548905359667538,
      "grad_norm": 2.499180793762207,
      "learning_rate": 6.971629652484635e-05,
      "loss": 0.3293895244598389,
      "memory(GiB)": 70.5,
      "step": 43295,
      "token_acc": 0.9235880398671097,
      "train_speed(iter/s)": 1.45211
    },
    {
      "epoch": 1.8551047512960026,
      "grad_norm": 4.024322032928467,
      "learning_rate": 6.971011188234628e-05,
      "loss": 0.5951536655426025,
      "memory(GiB)": 70.5,
      "step": 43300,
      "token_acc": 0.896551724137931,
      "train_speed(iter/s)": 1.452129
    },
    {
      "epoch": 1.8553189666252519,
      "grad_norm": 4.957983493804932,
      "learning_rate": 6.9703926882779e-05,
      "loss": 0.3531531095504761,
      "memory(GiB)": 70.5,
      "step": 43305,
      "token_acc": 0.9227941176470589,
      "train_speed(iter/s)": 1.452129
    },
    {
      "epoch": 1.8555331819545007,
      "grad_norm": 1.604386568069458,
      "learning_rate": 6.969774152625664e-05,
      "loss": 0.3316755771636963,
      "memory(GiB)": 70.5,
      "step": 43310,
      "token_acc": 0.9158249158249159,
      "train_speed(iter/s)": 1.452157
    },
    {
      "epoch": 1.8557473972837495,
      "grad_norm": 2.459630250930786,
      "learning_rate": 6.969155581289119e-05,
      "loss": 0.18193318843841552,
      "memory(GiB)": 70.5,
      "step": 43315,
      "token_acc": 0.9508771929824561,
      "train_speed(iter/s)": 1.452151
    },
    {
      "epoch": 1.8559616126129987,
      "grad_norm": 3.275463819503784,
      "learning_rate": 6.968536974279475e-05,
      "loss": 0.5173603057861328,
      "memory(GiB)": 70.5,
      "step": 43320,
      "token_acc": 0.8695652173913043,
      "train_speed(iter/s)": 1.452148
    },
    {
      "epoch": 1.8561758279422476,
      "grad_norm": 0.6903193593025208,
      "learning_rate": 6.967918331607937e-05,
      "loss": 0.3392236948013306,
      "memory(GiB)": 70.5,
      "step": 43325,
      "token_acc": 0.9247311827956989,
      "train_speed(iter/s)": 1.452149
    },
    {
      "epoch": 1.8563900432714964,
      "grad_norm": 3.139601707458496,
      "learning_rate": 6.967299653285711e-05,
      "loss": 0.6634061336517334,
      "memory(GiB)": 70.5,
      "step": 43330,
      "token_acc": 0.8641114982578397,
      "train_speed(iter/s)": 1.452166
    },
    {
      "epoch": 1.8566042586007456,
      "grad_norm": 1.0848972797393799,
      "learning_rate": 6.966680939324006e-05,
      "loss": 0.27934608459472654,
      "memory(GiB)": 70.5,
      "step": 43335,
      "token_acc": 0.9313725490196079,
      "train_speed(iter/s)": 1.452171
    },
    {
      "epoch": 1.8568184739299944,
      "grad_norm": 5.303282737731934,
      "learning_rate": 6.966062189734033e-05,
      "loss": 0.20262598991394043,
      "memory(GiB)": 70.5,
      "step": 43340,
      "token_acc": 0.9406392694063926,
      "train_speed(iter/s)": 1.452188
    },
    {
      "epoch": 1.8570326892592433,
      "grad_norm": 3.1308023929595947,
      "learning_rate": 6.965443404526998e-05,
      "loss": 0.26539173126220705,
      "memory(GiB)": 70.5,
      "step": 43345,
      "token_acc": 0.9475409836065574,
      "train_speed(iter/s)": 1.452187
    },
    {
      "epoch": 1.8572469045884925,
      "grad_norm": 2.7730841636657715,
      "learning_rate": 6.964824583714111e-05,
      "loss": 0.34964728355407715,
      "memory(GiB)": 70.5,
      "step": 43350,
      "token_acc": 0.9209726443768997,
      "train_speed(iter/s)": 1.452191
    },
    {
      "epoch": 1.8574611199177413,
      "grad_norm": 3.9684691429138184,
      "learning_rate": 6.964205727306586e-05,
      "loss": 0.2767913818359375,
      "memory(GiB)": 70.5,
      "step": 43355,
      "token_acc": 0.9310344827586207,
      "train_speed(iter/s)": 1.452203
    },
    {
      "epoch": 1.8576753352469901,
      "grad_norm": 1.2740353345870972,
      "learning_rate": 6.963586835315629e-05,
      "loss": 0.47815465927124023,
      "memory(GiB)": 70.5,
      "step": 43360,
      "token_acc": 0.8984615384615384,
      "train_speed(iter/s)": 1.452194
    },
    {
      "epoch": 1.8578895505762394,
      "grad_norm": 5.525235176086426,
      "learning_rate": 6.962967907752455e-05,
      "loss": 0.6539225578308105,
      "memory(GiB)": 70.5,
      "step": 43365,
      "token_acc": 0.8515625,
      "train_speed(iter/s)": 1.452209
    },
    {
      "epoch": 1.8581037659054882,
      "grad_norm": 3.5335328578948975,
      "learning_rate": 6.962348944628276e-05,
      "loss": 0.6153782367706299,
      "memory(GiB)": 70.5,
      "step": 43370,
      "token_acc": 0.8308823529411765,
      "train_speed(iter/s)": 1.45224
    },
    {
      "epoch": 1.858317981234737,
      "grad_norm": 5.783607006072998,
      "learning_rate": 6.961729945954307e-05,
      "loss": 0.36401140689849854,
      "memory(GiB)": 70.5,
      "step": 43375,
      "token_acc": 0.9328358208955224,
      "train_speed(iter/s)": 1.452244
    },
    {
      "epoch": 1.8585321965639863,
      "grad_norm": 8.841778755187988,
      "learning_rate": 6.961110911741757e-05,
      "loss": 0.4235715389251709,
      "memory(GiB)": 70.5,
      "step": 43380,
      "token_acc": 0.9121338912133892,
      "train_speed(iter/s)": 1.452243
    },
    {
      "epoch": 1.858746411893235,
      "grad_norm": 1.8918207883834839,
      "learning_rate": 6.960491842001846e-05,
      "loss": 0.38731701374053956,
      "memory(GiB)": 70.5,
      "step": 43385,
      "token_acc": 0.9195804195804196,
      "train_speed(iter/s)": 1.452267
    },
    {
      "epoch": 1.858960627222484,
      "grad_norm": 3.1148719787597656,
      "learning_rate": 6.959872736745784e-05,
      "loss": 0.5517853736877442,
      "memory(GiB)": 70.5,
      "step": 43390,
      "token_acc": 0.875,
      "train_speed(iter/s)": 1.452297
    },
    {
      "epoch": 1.8591748425517332,
      "grad_norm": 1.6455812454223633,
      "learning_rate": 6.95925359598479e-05,
      "loss": 0.197260844707489,
      "memory(GiB)": 70.5,
      "step": 43395,
      "token_acc": 0.9626666666666667,
      "train_speed(iter/s)": 1.452311
    },
    {
      "epoch": 1.859389057880982,
      "grad_norm": 2.9055323600769043,
      "learning_rate": 6.95863441973008e-05,
      "loss": 0.3576691150665283,
      "memory(GiB)": 70.5,
      "step": 43400,
      "token_acc": 0.9188191881918819,
      "train_speed(iter/s)": 1.452322
    },
    {
      "epoch": 1.8596032732102308,
      "grad_norm": 0.6349327564239502,
      "learning_rate": 6.958015207992867e-05,
      "loss": 0.32574336528778075,
      "memory(GiB)": 70.5,
      "step": 43405,
      "token_acc": 0.9290540540540541,
      "train_speed(iter/s)": 1.452342
    },
    {
      "epoch": 1.85981748853948,
      "grad_norm": 1.679184913635254,
      "learning_rate": 6.957395960784374e-05,
      "loss": 0.19928351640701295,
      "memory(GiB)": 70.5,
      "step": 43410,
      "token_acc": 0.9535864978902954,
      "train_speed(iter/s)": 1.45235
    },
    {
      "epoch": 1.8600317038687288,
      "grad_norm": 2.667829751968384,
      "learning_rate": 6.956776678115817e-05,
      "loss": 0.5308109283447265,
      "memory(GiB)": 70.5,
      "step": 43415,
      "token_acc": 0.8901734104046243,
      "train_speed(iter/s)": 1.452376
    },
    {
      "epoch": 1.8602459191979777,
      "grad_norm": 5.793257236480713,
      "learning_rate": 6.956157359998414e-05,
      "loss": 0.5274762153625489,
      "memory(GiB)": 70.5,
      "step": 43420,
      "token_acc": 0.8808664259927798,
      "train_speed(iter/s)": 1.452375
    },
    {
      "epoch": 1.860460134527227,
      "grad_norm": 5.278283596038818,
      "learning_rate": 6.955538006443386e-05,
      "loss": 0.8253595352172851,
      "memory(GiB)": 70.5,
      "step": 43425,
      "token_acc": 0.835820895522388,
      "train_speed(iter/s)": 1.452386
    },
    {
      "epoch": 1.8606743498564757,
      "grad_norm": 3.419365406036377,
      "learning_rate": 6.954918617461952e-05,
      "loss": 0.31203255653381345,
      "memory(GiB)": 70.5,
      "step": 43430,
      "token_acc": 0.9423076923076923,
      "train_speed(iter/s)": 1.452393
    },
    {
      "epoch": 1.8608885651857245,
      "grad_norm": 2.6483054161071777,
      "learning_rate": 6.954299193065334e-05,
      "loss": 0.50248122215271,
      "memory(GiB)": 70.5,
      "step": 43435,
      "token_acc": 0.90234375,
      "train_speed(iter/s)": 1.452388
    },
    {
      "epoch": 1.8611027805149738,
      "grad_norm": 4.296971797943115,
      "learning_rate": 6.953679733264753e-05,
      "loss": 0.5801695823669434,
      "memory(GiB)": 70.5,
      "step": 43440,
      "token_acc": 0.8801652892561983,
      "train_speed(iter/s)": 1.452387
    },
    {
      "epoch": 1.8613169958442226,
      "grad_norm": 4.218311309814453,
      "learning_rate": 6.95306023807143e-05,
      "loss": 0.39118242263793945,
      "memory(GiB)": 70.5,
      "step": 43445,
      "token_acc": 0.9172661870503597,
      "train_speed(iter/s)": 1.452394
    },
    {
      "epoch": 1.8615312111734714,
      "grad_norm": 1.9020854234695435,
      "learning_rate": 6.952440707496589e-05,
      "loss": 0.1624547004699707,
      "memory(GiB)": 70.5,
      "step": 43450,
      "token_acc": 0.9576547231270358,
      "train_speed(iter/s)": 1.452393
    },
    {
      "epoch": 1.8617454265027207,
      "grad_norm": 1.8589808940887451,
      "learning_rate": 6.951821141551455e-05,
      "loss": 0.30275650024414064,
      "memory(GiB)": 70.5,
      "step": 43455,
      "token_acc": 0.9498432601880877,
      "train_speed(iter/s)": 1.452395
    },
    {
      "epoch": 1.8619596418319695,
      "grad_norm": 1.9545197486877441,
      "learning_rate": 6.951201540247249e-05,
      "loss": 0.30533580780029296,
      "memory(GiB)": 70.5,
      "step": 43460,
      "token_acc": 0.9391025641025641,
      "train_speed(iter/s)": 1.452393
    },
    {
      "epoch": 1.8621738571612183,
      "grad_norm": 4.043076515197754,
      "learning_rate": 6.950581903595194e-05,
      "loss": 0.3035188913345337,
      "memory(GiB)": 70.5,
      "step": 43465,
      "token_acc": 0.9357142857142857,
      "train_speed(iter/s)": 1.45239
    },
    {
      "epoch": 1.8623880724904676,
      "grad_norm": 3.341001272201538,
      "learning_rate": 6.949962231606522e-05,
      "loss": 0.2193384885787964,
      "memory(GiB)": 70.5,
      "step": 43470,
      "token_acc": 0.9532374100719424,
      "train_speed(iter/s)": 1.452389
    },
    {
      "epoch": 1.8626022878197164,
      "grad_norm": 5.355679035186768,
      "learning_rate": 6.949342524292453e-05,
      "loss": 0.3853058099746704,
      "memory(GiB)": 70.5,
      "step": 43475,
      "token_acc": 0.91796875,
      "train_speed(iter/s)": 1.452401
    },
    {
      "epoch": 1.8628165031489652,
      "grad_norm": 3.324726104736328,
      "learning_rate": 6.948722781664215e-05,
      "loss": 0.29797921180725095,
      "memory(GiB)": 70.5,
      "step": 43480,
      "token_acc": 0.9409448818897638,
      "train_speed(iter/s)": 1.452404
    },
    {
      "epoch": 1.8630307184782144,
      "grad_norm": 2.976569175720215,
      "learning_rate": 6.948103003733036e-05,
      "loss": 0.3039536476135254,
      "memory(GiB)": 70.5,
      "step": 43485,
      "token_acc": 0.9312977099236641,
      "train_speed(iter/s)": 1.452404
    },
    {
      "epoch": 1.8632449338074633,
      "grad_norm": 3.80293869972229,
      "learning_rate": 6.947483190510144e-05,
      "loss": 0.5334471702575684,
      "memory(GiB)": 70.5,
      "step": 43490,
      "token_acc": 0.8686567164179104,
      "train_speed(iter/s)": 1.452421
    },
    {
      "epoch": 1.863459149136712,
      "grad_norm": 2.4530014991760254,
      "learning_rate": 6.946863342006768e-05,
      "loss": 0.3007020950317383,
      "memory(GiB)": 70.5,
      "step": 43495,
      "token_acc": 0.9351535836177475,
      "train_speed(iter/s)": 1.452412
    },
    {
      "epoch": 1.8636733644659613,
      "grad_norm": 3.9361064434051514,
      "learning_rate": 6.946243458234135e-05,
      "loss": 0.5257722854614257,
      "memory(GiB)": 70.5,
      "step": 43500,
      "token_acc": 0.9067164179104478,
      "train_speed(iter/s)": 1.452422
    },
    {
      "epoch": 1.8636733644659613,
      "eval_loss": 2.5297725200653076,
      "eval_runtime": 13.5233,
      "eval_samples_per_second": 7.395,
      "eval_steps_per_second": 7.395,
      "eval_token_acc": 0.41851368970013036,
      "step": 43500
    },
    {
      "epoch": 1.8638875797952101,
      "grad_norm": 2.91582989692688,
      "learning_rate": 6.945623539203477e-05,
      "loss": 0.5600770950317383,
      "memory(GiB)": 70.5,
      "step": 43505,
      "token_acc": 0.5507380073800738,
      "train_speed(iter/s)": 1.451714
    },
    {
      "epoch": 1.864101795124459,
      "grad_norm": 2.5948116779327393,
      "learning_rate": 6.945003584926021e-05,
      "loss": 0.23923563957214355,
      "memory(GiB)": 70.5,
      "step": 43510,
      "token_acc": 0.9489795918367347,
      "train_speed(iter/s)": 1.451718
    },
    {
      "epoch": 1.8643160104537082,
      "grad_norm": 2.566500425338745,
      "learning_rate": 6.944383595413003e-05,
      "loss": 0.35009849071502686,
      "memory(GiB)": 70.5,
      "step": 43515,
      "token_acc": 0.9318181818181818,
      "train_speed(iter/s)": 1.451726
    },
    {
      "epoch": 1.864530225782957,
      "grad_norm": 5.331145286560059,
      "learning_rate": 6.943763570675652e-05,
      "loss": 0.11240289211273194,
      "memory(GiB)": 70.5,
      "step": 43520,
      "token_acc": 0.9709090909090909,
      "train_speed(iter/s)": 1.451734
    },
    {
      "epoch": 1.8647444411122058,
      "grad_norm": 3.562998056411743,
      "learning_rate": 6.943143510725199e-05,
      "loss": 0.5163163661956787,
      "memory(GiB)": 70.5,
      "step": 43525,
      "token_acc": 0.9047619047619048,
      "train_speed(iter/s)": 1.451729
    },
    {
      "epoch": 1.864958656441455,
      "grad_norm": 4.2298688888549805,
      "learning_rate": 6.942523415572882e-05,
      "loss": 0.2262502908706665,
      "memory(GiB)": 70.5,
      "step": 43530,
      "token_acc": 0.9389830508474576,
      "train_speed(iter/s)": 1.451736
    },
    {
      "epoch": 1.865172871770704,
      "grad_norm": 4.163058280944824,
      "learning_rate": 6.941903285229927e-05,
      "loss": 0.23749728202819825,
      "memory(GiB)": 70.5,
      "step": 43535,
      "token_acc": 0.9462809917355371,
      "train_speed(iter/s)": 1.451729
    },
    {
      "epoch": 1.8653870870999527,
      "grad_norm": 4.0319366455078125,
      "learning_rate": 6.941283119707575e-05,
      "loss": 0.2893799066543579,
      "memory(GiB)": 70.5,
      "step": 43540,
      "token_acc": 0.9257950530035336,
      "train_speed(iter/s)": 1.451716
    },
    {
      "epoch": 1.865601302429202,
      "grad_norm": 1.924960970878601,
      "learning_rate": 6.940662919017057e-05,
      "loss": 0.18458034992218017,
      "memory(GiB)": 70.5,
      "step": 43545,
      "token_acc": 0.9552715654952076,
      "train_speed(iter/s)": 1.451718
    },
    {
      "epoch": 1.8658155177584508,
      "grad_norm": 3.044846773147583,
      "learning_rate": 6.940042683169609e-05,
      "loss": 0.38361122608184817,
      "memory(GiB)": 70.5,
      "step": 43550,
      "token_acc": 0.9285714285714286,
      "train_speed(iter/s)": 1.451732
    },
    {
      "epoch": 1.8660297330876996,
      "grad_norm": 5.232573986053467,
      "learning_rate": 6.939422412176468e-05,
      "loss": 0.2459540843963623,
      "memory(GiB)": 70.5,
      "step": 43555,
      "token_acc": 0.9413919413919414,
      "train_speed(iter/s)": 1.451734
    },
    {
      "epoch": 1.8662439484169489,
      "grad_norm": 2.9669113159179688,
      "learning_rate": 6.938802106048873e-05,
      "loss": 0.1748797059059143,
      "memory(GiB)": 70.5,
      "step": 43560,
      "token_acc": 0.9485294117647058,
      "train_speed(iter/s)": 1.451736
    },
    {
      "epoch": 1.8664581637461977,
      "grad_norm": 6.697007656097412,
      "learning_rate": 6.938181764798058e-05,
      "loss": 0.5726563930511475,
      "memory(GiB)": 70.5,
      "step": 43565,
      "token_acc": 0.8850931677018633,
      "train_speed(iter/s)": 1.451768
    },
    {
      "epoch": 1.8666723790754465,
      "grad_norm": 5.490982532501221,
      "learning_rate": 6.93756138843526e-05,
      "loss": 0.4686111927032471,
      "memory(GiB)": 70.5,
      "step": 43570,
      "token_acc": 0.901840490797546,
      "train_speed(iter/s)": 1.451755
    },
    {
      "epoch": 1.8668865944046957,
      "grad_norm": 6.880911350250244,
      "learning_rate": 6.936940976971724e-05,
      "loss": 0.39052581787109375,
      "memory(GiB)": 70.5,
      "step": 43575,
      "token_acc": 0.92578125,
      "train_speed(iter/s)": 1.451755
    },
    {
      "epoch": 1.8671008097339445,
      "grad_norm": 3.1940581798553467,
      "learning_rate": 6.936320530418681e-05,
      "loss": 0.5358729362487793,
      "memory(GiB)": 70.5,
      "step": 43580,
      "token_acc": 0.89501312335958,
      "train_speed(iter/s)": 1.451756
    },
    {
      "epoch": 1.8673150250631934,
      "grad_norm": 2.9318244457244873,
      "learning_rate": 6.935700048787379e-05,
      "loss": 0.605244255065918,
      "memory(GiB)": 70.5,
      "step": 43585,
      "token_acc": 0.8463949843260188,
      "train_speed(iter/s)": 1.451747
    },
    {
      "epoch": 1.8675292403924426,
      "grad_norm": 4.106739044189453,
      "learning_rate": 6.935079532089052e-05,
      "loss": 0.40794572830200193,
      "memory(GiB)": 70.5,
      "step": 43590,
      "token_acc": 0.9104938271604939,
      "train_speed(iter/s)": 1.451761
    },
    {
      "epoch": 1.8677434557216914,
      "grad_norm": 2.6636195182800293,
      "learning_rate": 6.934458980334944e-05,
      "loss": 0.3609644412994385,
      "memory(GiB)": 70.5,
      "step": 43595,
      "token_acc": 0.9281045751633987,
      "train_speed(iter/s)": 1.451765
    },
    {
      "epoch": 1.8679576710509405,
      "grad_norm": 3.9499430656433105,
      "learning_rate": 6.933838393536299e-05,
      "loss": 0.39779510498046877,
      "memory(GiB)": 70.5,
      "step": 43600,
      "token_acc": 0.910958904109589,
      "train_speed(iter/s)": 1.451776
    },
    {
      "epoch": 1.8681718863801895,
      "grad_norm": 5.516026496887207,
      "learning_rate": 6.933217771704356e-05,
      "loss": 0.46988439559936523,
      "memory(GiB)": 70.5,
      "step": 43605,
      "token_acc": 0.9037037037037037,
      "train_speed(iter/s)": 1.451769
    },
    {
      "epoch": 1.8683861017094383,
      "grad_norm": 1.2714909315109253,
      "learning_rate": 6.932597114850359e-05,
      "loss": 0.414174747467041,
      "memory(GiB)": 70.5,
      "step": 43610,
      "token_acc": 0.9142011834319527,
      "train_speed(iter/s)": 1.451762
    },
    {
      "epoch": 1.8686003170386873,
      "grad_norm": 0.7864627838134766,
      "learning_rate": 6.931976422985554e-05,
      "loss": 0.1680317997932434,
      "memory(GiB)": 70.5,
      "step": 43615,
      "token_acc": 0.9696969696969697,
      "train_speed(iter/s)": 1.451766
    },
    {
      "epoch": 1.8688145323679364,
      "grad_norm": 4.907686233520508,
      "learning_rate": 6.931355696121183e-05,
      "loss": 0.4362056732177734,
      "memory(GiB)": 70.5,
      "step": 43620,
      "token_acc": 0.8961538461538462,
      "train_speed(iter/s)": 1.451776
    },
    {
      "epoch": 1.8690287476971852,
      "grad_norm": 1.3573800325393677,
      "learning_rate": 6.930734934268491e-05,
      "loss": 0.3328873157501221,
      "memory(GiB)": 70.5,
      "step": 43625,
      "token_acc": 0.9228295819935691,
      "train_speed(iter/s)": 1.451766
    },
    {
      "epoch": 1.8692429630264342,
      "grad_norm": 1.6737076044082642,
      "learning_rate": 6.930114137438725e-05,
      "loss": 0.11362202167510986,
      "memory(GiB)": 70.5,
      "step": 43630,
      "token_acc": 0.9704918032786886,
      "train_speed(iter/s)": 1.451771
    },
    {
      "epoch": 1.8694571783556833,
      "grad_norm": 4.6457085609436035,
      "learning_rate": 6.92949330564313e-05,
      "loss": 0.48972234725952146,
      "memory(GiB)": 70.5,
      "step": 43635,
      "token_acc": 0.9139344262295082,
      "train_speed(iter/s)": 1.451783
    },
    {
      "epoch": 1.869671393684932,
      "grad_norm": 2.002485513687134,
      "learning_rate": 6.928872438892956e-05,
      "loss": 0.3690300464630127,
      "memory(GiB)": 70.5,
      "step": 43640,
      "token_acc": 0.9112426035502958,
      "train_speed(iter/s)": 1.451794
    },
    {
      "epoch": 1.869885609014181,
      "grad_norm": 3.3380696773529053,
      "learning_rate": 6.928251537199446e-05,
      "loss": 0.3631249189376831,
      "memory(GiB)": 70.5,
      "step": 43645,
      "token_acc": 0.91875,
      "train_speed(iter/s)": 1.451814
    },
    {
      "epoch": 1.8700998243434301,
      "grad_norm": 3.6107845306396484,
      "learning_rate": 6.927630600573851e-05,
      "loss": 0.28763561248779296,
      "memory(GiB)": 70.5,
      "step": 43650,
      "token_acc": 0.9195710455764075,
      "train_speed(iter/s)": 1.451821
    },
    {
      "epoch": 1.870314039672679,
      "grad_norm": 4.368166446685791,
      "learning_rate": 6.927009629027421e-05,
      "loss": 0.4955615997314453,
      "memory(GiB)": 70.5,
      "step": 43655,
      "token_acc": 0.8785714285714286,
      "train_speed(iter/s)": 1.451825
    },
    {
      "epoch": 1.870528255001928,
      "grad_norm": 2.2440783977508545,
      "learning_rate": 6.926388622571403e-05,
      "loss": 0.3652777910232544,
      "memory(GiB)": 70.5,
      "step": 43660,
      "token_acc": 0.9311475409836065,
      "train_speed(iter/s)": 1.451854
    },
    {
      "epoch": 1.870742470331177,
      "grad_norm": 4.051190376281738,
      "learning_rate": 6.925767581217046e-05,
      "loss": 0.5334230899810791,
      "memory(GiB)": 70.5,
      "step": 43665,
      "token_acc": 0.8823529411764706,
      "train_speed(iter/s)": 1.451858
    },
    {
      "epoch": 1.8709566856604258,
      "grad_norm": 3.8120505809783936,
      "learning_rate": 6.925146504975606e-05,
      "loss": 0.4552948474884033,
      "memory(GiB)": 70.5,
      "step": 43670,
      "token_acc": 0.9228395061728395,
      "train_speed(iter/s)": 1.451861
    },
    {
      "epoch": 1.8711709009896749,
      "grad_norm": 1.837588906288147,
      "learning_rate": 6.92452539385833e-05,
      "loss": 0.18216547966003419,
      "memory(GiB)": 70.5,
      "step": 43675,
      "token_acc": 0.9630996309963099,
      "train_speed(iter/s)": 1.451866
    },
    {
      "epoch": 1.871385116318924,
      "grad_norm": 6.9782867431640625,
      "learning_rate": 6.92390424787647e-05,
      "loss": 0.3976099967956543,
      "memory(GiB)": 70.5,
      "step": 43680,
      "token_acc": 0.9163346613545816,
      "train_speed(iter/s)": 1.45187
    },
    {
      "epoch": 1.8715993316481727,
      "grad_norm": 0.607567548751831,
      "learning_rate": 6.923283067041282e-05,
      "loss": 0.4096812725067139,
      "memory(GiB)": 70.5,
      "step": 43685,
      "token_acc": 0.9003436426116839,
      "train_speed(iter/s)": 1.451871
    },
    {
      "epoch": 1.8718135469774217,
      "grad_norm": 4.661214828491211,
      "learning_rate": 6.922661851364016e-05,
      "loss": 0.571504020690918,
      "memory(GiB)": 70.5,
      "step": 43690,
      "token_acc": 0.8713235294117647,
      "train_speed(iter/s)": 1.451876
    },
    {
      "epoch": 1.8720277623066708,
      "grad_norm": 6.790126800537109,
      "learning_rate": 6.922040600855926e-05,
      "loss": 0.4191570281982422,
      "memory(GiB)": 70.5,
      "step": 43695,
      "token_acc": 0.9085545722713865,
      "train_speed(iter/s)": 1.451888
    },
    {
      "epoch": 1.8722419776359196,
      "grad_norm": 3.5171055793762207,
      "learning_rate": 6.921419315528268e-05,
      "loss": 0.6940335273742676,
      "memory(GiB)": 70.5,
      "step": 43700,
      "token_acc": 0.8862068965517241,
      "train_speed(iter/s)": 1.451908
    },
    {
      "epoch": 1.8724561929651686,
      "grad_norm": 3.2929253578186035,
      "learning_rate": 6.920797995392297e-05,
      "loss": 0.37142791748046877,
      "memory(GiB)": 70.5,
      "step": 43705,
      "token_acc": 0.907258064516129,
      "train_speed(iter/s)": 1.451921
    },
    {
      "epoch": 1.8726704082944177,
      "grad_norm": 0.7995607256889343,
      "learning_rate": 6.920176640459268e-05,
      "loss": 0.22956335544586182,
      "memory(GiB)": 70.5,
      "step": 43710,
      "token_acc": 0.9587301587301588,
      "train_speed(iter/s)": 1.451922
    },
    {
      "epoch": 1.8728846236236665,
      "grad_norm": 2.6886494159698486,
      "learning_rate": 6.919555250740439e-05,
      "loss": 0.25861871242523193,
      "memory(GiB)": 70.5,
      "step": 43715,
      "token_acc": 0.9330985915492958,
      "train_speed(iter/s)": 1.451941
    },
    {
      "epoch": 1.8730988389529155,
      "grad_norm": 4.51811408996582,
      "learning_rate": 6.918933826247065e-05,
      "loss": 0.5712627410888672,
      "memory(GiB)": 70.5,
      "step": 43720,
      "token_acc": 0.8737201365187713,
      "train_speed(iter/s)": 1.451943
    },
    {
      "epoch": 1.8733130542821645,
      "grad_norm": 2.784900188446045,
      "learning_rate": 6.918312366990405e-05,
      "loss": 0.3275540828704834,
      "memory(GiB)": 70.5,
      "step": 43725,
      "token_acc": 0.9198473282442748,
      "train_speed(iter/s)": 1.451942
    },
    {
      "epoch": 1.8735272696114134,
      "grad_norm": 1.0185794830322266,
      "learning_rate": 6.917690872981717e-05,
      "loss": 0.2383432626724243,
      "memory(GiB)": 70.5,
      "step": 43730,
      "token_acc": 0.9516129032258065,
      "train_speed(iter/s)": 1.451936
    },
    {
      "epoch": 1.8737414849406624,
      "grad_norm": 1.2368760108947754,
      "learning_rate": 6.917069344232258e-05,
      "loss": 0.5655033111572265,
      "memory(GiB)": 70.5,
      "step": 43735,
      "token_acc": 0.8854489164086687,
      "train_speed(iter/s)": 1.451941
    },
    {
      "epoch": 1.8739557002699114,
      "grad_norm": 2.4612839221954346,
      "learning_rate": 6.916447780753291e-05,
      "loss": 0.6245272636413575,
      "memory(GiB)": 70.5,
      "step": 43740,
      "token_acc": 0.8790849673202614,
      "train_speed(iter/s)": 1.451922
    },
    {
      "epoch": 1.8741699155991602,
      "grad_norm": 4.765115261077881,
      "learning_rate": 6.915826182556075e-05,
      "loss": 0.5671334266662598,
      "memory(GiB)": 70.5,
      "step": 43745,
      "token_acc": 0.8617021276595744,
      "train_speed(iter/s)": 1.451935
    },
    {
      "epoch": 1.8743841309284093,
      "grad_norm": 3.691317081451416,
      "learning_rate": 6.915204549651871e-05,
      "loss": 0.37847816944122314,
      "memory(GiB)": 70.5,
      "step": 43750,
      "token_acc": 0.9120521172638436,
      "train_speed(iter/s)": 1.451949
    },
    {
      "epoch": 1.8745983462576583,
      "grad_norm": 1.4589388370513916,
      "learning_rate": 6.914582882051938e-05,
      "loss": 0.3943014144897461,
      "memory(GiB)": 70.5,
      "step": 43755,
      "token_acc": 0.9204152249134948,
      "train_speed(iter/s)": 1.451957
    },
    {
      "epoch": 1.8748125615869071,
      "grad_norm": 2.5885281562805176,
      "learning_rate": 6.913961179767543e-05,
      "loss": 0.3186378002166748,
      "memory(GiB)": 70.5,
      "step": 43760,
      "token_acc": 0.9195402298850575,
      "train_speed(iter/s)": 1.451961
    },
    {
      "epoch": 1.8750267769161562,
      "grad_norm": 3.2826387882232666,
      "learning_rate": 6.913339442809942e-05,
      "loss": 0.1459587812423706,
      "memory(GiB)": 70.5,
      "step": 43765,
      "token_acc": 0.9715447154471545,
      "train_speed(iter/s)": 1.45197
    },
    {
      "epoch": 1.8752409922454052,
      "grad_norm": 2.1074841022491455,
      "learning_rate": 6.912717671190407e-05,
      "loss": 0.380908465385437,
      "memory(GiB)": 70.5,
      "step": 43770,
      "token_acc": 0.9214876033057852,
      "train_speed(iter/s)": 1.45198
    },
    {
      "epoch": 1.875455207574654,
      "grad_norm": 2.7885305881500244,
      "learning_rate": 6.912095864920193e-05,
      "loss": 0.40111751556396485,
      "memory(GiB)": 70.5,
      "step": 43775,
      "token_acc": 0.9130434782608695,
      "train_speed(iter/s)": 1.451987
    },
    {
      "epoch": 1.875669422903903,
      "grad_norm": 2.986259698867798,
      "learning_rate": 6.911474024010569e-05,
      "loss": 0.2073798656463623,
      "memory(GiB)": 70.5,
      "step": 43780,
      "token_acc": 0.9556313993174061,
      "train_speed(iter/s)": 1.451975
    },
    {
      "epoch": 1.875883638233152,
      "grad_norm": 4.369964599609375,
      "learning_rate": 6.910852148472802e-05,
      "loss": 0.40186347961425783,
      "memory(GiB)": 70.5,
      "step": 43785,
      "token_acc": 0.9478260869565217,
      "train_speed(iter/s)": 1.451976
    },
    {
      "epoch": 1.8760978535624009,
      "grad_norm": 4.502390384674072,
      "learning_rate": 6.910230238318157e-05,
      "loss": 0.688658618927002,
      "memory(GiB)": 70.5,
      "step": 43790,
      "token_acc": 0.860248447204969,
      "train_speed(iter/s)": 1.45198
    },
    {
      "epoch": 1.87631206889165,
      "grad_norm": 3.4084348678588867,
      "learning_rate": 6.909608293557895e-05,
      "loss": 0.3445389747619629,
      "memory(GiB)": 70.5,
      "step": 43795,
      "token_acc": 0.9225589225589226,
      "train_speed(iter/s)": 1.451975
    },
    {
      "epoch": 1.876526284220899,
      "grad_norm": 3.804459571838379,
      "learning_rate": 6.908986314203289e-05,
      "loss": 0.41765737533569336,
      "memory(GiB)": 70.5,
      "step": 43800,
      "token_acc": 0.9180327868852459,
      "train_speed(iter/s)": 1.452016
    },
    {
      "epoch": 1.8767404995501478,
      "grad_norm": 4.789471626281738,
      "learning_rate": 6.908364300265607e-05,
      "loss": 0.31494252681732177,
      "memory(GiB)": 70.5,
      "step": 43805,
      "token_acc": 0.9476923076923077,
      "train_speed(iter/s)": 1.452013
    },
    {
      "epoch": 1.8769547148793968,
      "grad_norm": 3.699329137802124,
      "learning_rate": 6.907742251756114e-05,
      "loss": 0.47412691116333006,
      "memory(GiB)": 70.5,
      "step": 43810,
      "token_acc": 0.889967637540453,
      "train_speed(iter/s)": 1.452009
    },
    {
      "epoch": 1.8771689302086458,
      "grad_norm": 5.099518299102783,
      "learning_rate": 6.907120168686079e-05,
      "loss": 0.34996833801269533,
      "memory(GiB)": 70.5,
      "step": 43815,
      "token_acc": 0.9111111111111111,
      "train_speed(iter/s)": 1.452014
    },
    {
      "epoch": 1.8773831455378946,
      "grad_norm": 3.135625123977661,
      "learning_rate": 6.906498051066776e-05,
      "loss": 0.5338631629943847,
      "memory(GiB)": 70.5,
      "step": 43820,
      "token_acc": 0.8604651162790697,
      "train_speed(iter/s)": 1.452029
    },
    {
      "epoch": 1.8775973608671437,
      "grad_norm": 4.437517166137695,
      "learning_rate": 6.90587589890947e-05,
      "loss": 0.38397789001464844,
      "memory(GiB)": 70.5,
      "step": 43825,
      "token_acc": 0.9201520912547528,
      "train_speed(iter/s)": 1.452025
    },
    {
      "epoch": 1.8778115761963927,
      "grad_norm": 6.888981342315674,
      "learning_rate": 6.905253712225436e-05,
      "loss": 0.6115746021270752,
      "memory(GiB)": 70.5,
      "step": 43830,
      "token_acc": 0.9024390243902439,
      "train_speed(iter/s)": 1.452009
    },
    {
      "epoch": 1.8780257915256415,
      "grad_norm": 5.435399055480957,
      "learning_rate": 6.904631491025945e-05,
      "loss": 0.7232629299163819,
      "memory(GiB)": 70.5,
      "step": 43835,
      "token_acc": 0.8770226537216829,
      "train_speed(iter/s)": 1.45201
    },
    {
      "epoch": 1.8782400068548906,
      "grad_norm": 3.8509840965270996,
      "learning_rate": 6.904009235322265e-05,
      "loss": 0.36627674102783203,
      "memory(GiB)": 70.5,
      "step": 43840,
      "token_acc": 0.9261992619926199,
      "train_speed(iter/s)": 1.452014
    },
    {
      "epoch": 1.8784542221841396,
      "grad_norm": 4.315464973449707,
      "learning_rate": 6.903386945125673e-05,
      "loss": 0.2674837112426758,
      "memory(GiB)": 70.5,
      "step": 43845,
      "token_acc": 0.9272030651340997,
      "train_speed(iter/s)": 1.452018
    },
    {
      "epoch": 1.8786684375133884,
      "grad_norm": 4.2721967697143555,
      "learning_rate": 6.90276462044744e-05,
      "loss": 0.5246981143951416,
      "memory(GiB)": 70.5,
      "step": 43850,
      "token_acc": 0.8918032786885246,
      "train_speed(iter/s)": 1.452021
    },
    {
      "epoch": 1.8788826528426374,
      "grad_norm": 2.5621654987335205,
      "learning_rate": 6.90214226129884e-05,
      "loss": 0.26271440982818606,
      "memory(GiB)": 70.5,
      "step": 43855,
      "token_acc": 0.9375,
      "train_speed(iter/s)": 1.452043
    },
    {
      "epoch": 1.8790968681718865,
      "grad_norm": 4.514749526977539,
      "learning_rate": 6.901519867691151e-05,
      "loss": 0.34380981922149656,
      "memory(GiB)": 70.5,
      "step": 43860,
      "token_acc": 0.9355932203389831,
      "train_speed(iter/s)": 1.452045
    },
    {
      "epoch": 1.8793110835011353,
      "grad_norm": 5.509635925292969,
      "learning_rate": 6.900897439635646e-05,
      "loss": 0.49297657012939455,
      "memory(GiB)": 70.5,
      "step": 43865,
      "token_acc": 0.9026217228464419,
      "train_speed(iter/s)": 1.452039
    },
    {
      "epoch": 1.8795252988303843,
      "grad_norm": 2.41359806060791,
      "learning_rate": 6.900274977143599e-05,
      "loss": 0.2993456840515137,
      "memory(GiB)": 70.5,
      "step": 43870,
      "token_acc": 0.951310861423221,
      "train_speed(iter/s)": 1.452038
    },
    {
      "epoch": 1.8797395141596334,
      "grad_norm": 4.263243198394775,
      "learning_rate": 6.89965248022629e-05,
      "loss": 0.41717844009399413,
      "memory(GiB)": 70.5,
      "step": 43875,
      "token_acc": 0.9219330855018587,
      "train_speed(iter/s)": 1.452035
    },
    {
      "epoch": 1.8799537294888822,
      "grad_norm": 6.43966007232666,
      "learning_rate": 6.899029948894993e-05,
      "loss": 0.41710672378540037,
      "memory(GiB)": 70.5,
      "step": 43880,
      "token_acc": 0.9236111111111112,
      "train_speed(iter/s)": 1.452022
    },
    {
      "epoch": 1.8801679448181312,
      "grad_norm": 1.7233517169952393,
      "learning_rate": 6.898407383160985e-05,
      "loss": 0.13784841299057007,
      "memory(GiB)": 70.5,
      "step": 43885,
      "token_acc": 0.9688715953307393,
      "train_speed(iter/s)": 1.452034
    },
    {
      "epoch": 1.8803821601473802,
      "grad_norm": 0.6021106243133545,
      "learning_rate": 6.89778478303555e-05,
      "loss": 0.34660112857818604,
      "memory(GiB)": 70.5,
      "step": 43890,
      "token_acc": 0.9121621621621622,
      "train_speed(iter/s)": 1.452044
    },
    {
      "epoch": 1.880596375476629,
      "grad_norm": 5.795792579650879,
      "learning_rate": 6.897162148529963e-05,
      "loss": 0.1967138409614563,
      "memory(GiB)": 70.5,
      "step": 43895,
      "token_acc": 0.9525316455696202,
      "train_speed(iter/s)": 1.452049
    },
    {
      "epoch": 1.880810590805878,
      "grad_norm": 3.6946377754211426,
      "learning_rate": 6.896539479655501e-05,
      "loss": 0.31217260360717775,
      "memory(GiB)": 70.5,
      "step": 43900,
      "token_acc": 0.9312714776632303,
      "train_speed(iter/s)": 1.452053
    },
    {
      "epoch": 1.8810248061351271,
      "grad_norm": 8.589975357055664,
      "learning_rate": 6.89591677642345e-05,
      "loss": 0.13215548992156984,
      "memory(GiB)": 70.5,
      "step": 43905,
      "token_acc": 0.956081081081081,
      "train_speed(iter/s)": 1.45205
    },
    {
      "epoch": 1.881239021464376,
      "grad_norm": 3.442708969116211,
      "learning_rate": 6.895294038845087e-05,
      "loss": 0.3213359355926514,
      "memory(GiB)": 70.5,
      "step": 43910,
      "token_acc": 0.9305993690851735,
      "train_speed(iter/s)": 1.452046
    },
    {
      "epoch": 1.881453236793625,
      "grad_norm": 4.345897674560547,
      "learning_rate": 6.894671266931697e-05,
      "loss": 0.5924683570861816,
      "memory(GiB)": 70.5,
      "step": 43915,
      "token_acc": 0.8795986622073578,
      "train_speed(iter/s)": 1.452069
    },
    {
      "epoch": 1.881667452122874,
      "grad_norm": 3.764136552810669,
      "learning_rate": 6.894048460694557e-05,
      "loss": 0.37220778465271,
      "memory(GiB)": 70.5,
      "step": 43920,
      "token_acc": 0.911660777385159,
      "train_speed(iter/s)": 1.452083
    },
    {
      "epoch": 1.8818816674521228,
      "grad_norm": 1.2671687602996826,
      "learning_rate": 6.893425620144952e-05,
      "loss": 0.2511159658432007,
      "memory(GiB)": 70.5,
      "step": 43925,
      "token_acc": 0.9344827586206896,
      "train_speed(iter/s)": 1.452092
    },
    {
      "epoch": 1.8820958827813719,
      "grad_norm": 5.484409332275391,
      "learning_rate": 6.892802745294165e-05,
      "loss": 0.49232850074768064,
      "memory(GiB)": 70.5,
      "step": 43930,
      "token_acc": 0.8931034482758621,
      "train_speed(iter/s)": 1.452087
    },
    {
      "epoch": 1.8823100981106209,
      "grad_norm": 4.624021053314209,
      "learning_rate": 6.892179836153483e-05,
      "loss": 0.32375755310058596,
      "memory(GiB)": 70.5,
      "step": 43935,
      "token_acc": 0.9398148148148148,
      "train_speed(iter/s)": 1.452097
    },
    {
      "epoch": 1.8825243134398697,
      "grad_norm": 3.2565009593963623,
      "learning_rate": 6.891556892734188e-05,
      "loss": 0.4908305168151855,
      "memory(GiB)": 70.5,
      "step": 43940,
      "token_acc": 0.8853503184713376,
      "train_speed(iter/s)": 1.452108
    },
    {
      "epoch": 1.8827385287691187,
      "grad_norm": 2.2670021057128906,
      "learning_rate": 6.890933915047565e-05,
      "loss": 0.3772355318069458,
      "memory(GiB)": 70.5,
      "step": 43945,
      "token_acc": 0.9094076655052264,
      "train_speed(iter/s)": 1.452127
    },
    {
      "epoch": 1.8829527440983678,
      "grad_norm": 3.0539817810058594,
      "learning_rate": 6.8903109031049e-05,
      "loss": 0.28450164794921873,
      "memory(GiB)": 70.5,
      "step": 43950,
      "token_acc": 0.9580152671755725,
      "train_speed(iter/s)": 1.452149
    },
    {
      "epoch": 1.8831669594276166,
      "grad_norm": 0.46458086371421814,
      "learning_rate": 6.88968785691748e-05,
      "loss": 0.4856846332550049,
      "memory(GiB)": 70.5,
      "step": 43955,
      "token_acc": 0.9125,
      "train_speed(iter/s)": 1.452167
    },
    {
      "epoch": 1.8833811747568656,
      "grad_norm": 4.718154430389404,
      "learning_rate": 6.88906477649659e-05,
      "loss": 0.18923487663269042,
      "memory(GiB)": 70.5,
      "step": 43960,
      "token_acc": 0.9578059071729957,
      "train_speed(iter/s)": 1.452185
    },
    {
      "epoch": 1.8835953900861147,
      "grad_norm": 3.542008399963379,
      "learning_rate": 6.888441661853523e-05,
      "loss": 0.29094505310058594,
      "memory(GiB)": 70.5,
      "step": 43965,
      "token_acc": 0.9311475409836065,
      "train_speed(iter/s)": 1.452186
    },
    {
      "epoch": 1.8838096054153635,
      "grad_norm": 4.561777114868164,
      "learning_rate": 6.887818512999562e-05,
      "loss": 0.3439945220947266,
      "memory(GiB)": 70.5,
      "step": 43970,
      "token_acc": 0.9228295819935691,
      "train_speed(iter/s)": 1.452204
    },
    {
      "epoch": 1.8840238207446125,
      "grad_norm": 3.7214713096618652,
      "learning_rate": 6.887195329945997e-05,
      "loss": 0.5882221698760987,
      "memory(GiB)": 70.5,
      "step": 43975,
      "token_acc": 0.875,
      "train_speed(iter/s)": 1.45219
    },
    {
      "epoch": 1.8842380360738615,
      "grad_norm": 3.5611579418182373,
      "learning_rate": 6.88657211270412e-05,
      "loss": 0.2988587379455566,
      "memory(GiB)": 70.5,
      "step": 43980,
      "token_acc": 0.9475524475524476,
      "train_speed(iter/s)": 1.452194
    },
    {
      "epoch": 1.8844522514031103,
      "grad_norm": 1.3918755054473877,
      "learning_rate": 6.885948861285219e-05,
      "loss": 0.546180009841919,
      "memory(GiB)": 70.5,
      "step": 43985,
      "token_acc": 0.8841059602649006,
      "train_speed(iter/s)": 1.452193
    },
    {
      "epoch": 1.8846664667323594,
      "grad_norm": 2.1768805980682373,
      "learning_rate": 6.885325575700584e-05,
      "loss": 0.45027918815612794,
      "memory(GiB)": 70.5,
      "step": 43990,
      "token_acc": 0.9069767441860465,
      "train_speed(iter/s)": 1.45219
    },
    {
      "epoch": 1.8848806820616084,
      "grad_norm": 2.882347583770752,
      "learning_rate": 6.884702255961508e-05,
      "loss": 0.2484117031097412,
      "memory(GiB)": 70.5,
      "step": 43995,
      "token_acc": 0.9490445859872612,
      "train_speed(iter/s)": 1.452186
    },
    {
      "epoch": 1.8850948973908572,
      "grad_norm": 3.006289482116699,
      "learning_rate": 6.884078902079283e-05,
      "loss": 0.4511958122253418,
      "memory(GiB)": 70.5,
      "step": 44000,
      "token_acc": 0.9016393442622951,
      "train_speed(iter/s)": 1.452198
    },
    {
      "epoch": 1.8850948973908572,
      "eval_loss": 2.8615024089813232,
      "eval_runtime": 13.1109,
      "eval_samples_per_second": 7.627,
      "eval_steps_per_second": 7.627,
      "eval_token_acc": 0.3867334167709637,
      "step": 44000
    },
    {
      "epoch": 1.8853091127201063,
      "grad_norm": 1.6032472848892212,
      "learning_rate": 6.8834555140652e-05,
      "loss": 0.497043514251709,
      "memory(GiB)": 70.5,
      "step": 44005,
      "token_acc": 0.5427312775330396,
      "train_speed(iter/s)": 1.451544
    },
    {
      "epoch": 1.8855233280493553,
      "grad_norm": 1.82854425907135,
      "learning_rate": 6.882832091930556e-05,
      "loss": 0.27115740776062014,
      "memory(GiB)": 70.5,
      "step": 44010,
      "token_acc": 0.9298245614035088,
      "train_speed(iter/s)": 1.451537
    },
    {
      "epoch": 1.885737543378604,
      "grad_norm": 4.572357654571533,
      "learning_rate": 6.882208635686641e-05,
      "loss": 0.34126715660095214,
      "memory(GiB)": 70.5,
      "step": 44015,
      "token_acc": 0.9236363636363636,
      "train_speed(iter/s)": 1.451532
    },
    {
      "epoch": 1.8859517587078531,
      "grad_norm": 4.236844539642334,
      "learning_rate": 6.881585145344751e-05,
      "loss": 0.3459657669067383,
      "memory(GiB)": 70.5,
      "step": 44020,
      "token_acc": 0.9100346020761245,
      "train_speed(iter/s)": 1.451535
    },
    {
      "epoch": 1.8861659740371022,
      "grad_norm": 5.416170120239258,
      "learning_rate": 6.88096162091618e-05,
      "loss": 0.6968661308288574,
      "memory(GiB)": 70.5,
      "step": 44025,
      "token_acc": 0.8483606557377049,
      "train_speed(iter/s)": 1.451546
    },
    {
      "epoch": 1.886380189366351,
      "grad_norm": 2.595121383666992,
      "learning_rate": 6.880338062412228e-05,
      "loss": 0.24949798583984376,
      "memory(GiB)": 70.5,
      "step": 44030,
      "token_acc": 0.9381818181818182,
      "train_speed(iter/s)": 1.451569
    },
    {
      "epoch": 1.8865944046956,
      "grad_norm": 4.1152238845825195,
      "learning_rate": 6.879714469844185e-05,
      "loss": 0.3568146228790283,
      "memory(GiB)": 70.5,
      "step": 44035,
      "token_acc": 0.911504424778761,
      "train_speed(iter/s)": 1.45158
    },
    {
      "epoch": 1.886808620024849,
      "grad_norm": 2.703397274017334,
      "learning_rate": 6.879090843223353e-05,
      "loss": 0.15218840837478637,
      "memory(GiB)": 70.5,
      "step": 44040,
      "token_acc": 0.9726027397260274,
      "train_speed(iter/s)": 1.451581
    },
    {
      "epoch": 1.8870228353540979,
      "grad_norm": 4.204517841339111,
      "learning_rate": 6.878467182561026e-05,
      "loss": 0.3085540771484375,
      "memory(GiB)": 70.5,
      "step": 44045,
      "token_acc": 0.9214501510574018,
      "train_speed(iter/s)": 1.451601
    },
    {
      "epoch": 1.887237050683347,
      "grad_norm": 1.4741573333740234,
      "learning_rate": 6.877843487868505e-05,
      "loss": 0.44513988494873047,
      "memory(GiB)": 70.5,
      "step": 44050,
      "token_acc": 0.9228295819935691,
      "train_speed(iter/s)": 1.451626
    },
    {
      "epoch": 1.887451266012596,
      "grad_norm": 6.0394978523254395,
      "learning_rate": 6.877219759157087e-05,
      "loss": 0.5401659965515136,
      "memory(GiB)": 70.5,
      "step": 44055,
      "token_acc": 0.8781362007168458,
      "train_speed(iter/s)": 1.451654
    },
    {
      "epoch": 1.8876654813418448,
      "grad_norm": 2.39343523979187,
      "learning_rate": 6.876595996438072e-05,
      "loss": 0.4530781269073486,
      "memory(GiB)": 70.5,
      "step": 44060,
      "token_acc": 0.9213483146067416,
      "train_speed(iter/s)": 1.451661
    },
    {
      "epoch": 1.8878796966710938,
      "grad_norm": 3.527745246887207,
      "learning_rate": 6.875972199722761e-05,
      "loss": 0.21060025691986084,
      "memory(GiB)": 70.5,
      "step": 44065,
      "token_acc": 0.9536423841059603,
      "train_speed(iter/s)": 1.451671
    },
    {
      "epoch": 1.8880939120003428,
      "grad_norm": 1.5553686618804932,
      "learning_rate": 6.875348369022452e-05,
      "loss": 0.2701220750808716,
      "memory(GiB)": 70.5,
      "step": 44070,
      "token_acc": 0.9358108108108109,
      "train_speed(iter/s)": 1.451667
    },
    {
      "epoch": 1.8883081273295916,
      "grad_norm": 3.1740105152130127,
      "learning_rate": 6.87472450434845e-05,
      "loss": 0.22222728729248048,
      "memory(GiB)": 70.5,
      "step": 44075,
      "token_acc": 0.9471544715447154,
      "train_speed(iter/s)": 1.451686
    },
    {
      "epoch": 1.8885223426588407,
      "grad_norm": 0.5832892656326294,
      "learning_rate": 6.874100605712054e-05,
      "loss": 0.4832926273345947,
      "memory(GiB)": 70.5,
      "step": 44080,
      "token_acc": 0.8982456140350877,
      "train_speed(iter/s)": 1.451691
    },
    {
      "epoch": 1.8887365579880897,
      "grad_norm": 4.483786582946777,
      "learning_rate": 6.873476673124567e-05,
      "loss": 0.5378880977630616,
      "memory(GiB)": 70.5,
      "step": 44085,
      "token_acc": 0.9052287581699346,
      "train_speed(iter/s)": 1.451679
    },
    {
      "epoch": 1.8889507733173385,
      "grad_norm": 3.7394790649414062,
      "learning_rate": 6.872852706597295e-05,
      "loss": 0.6499654293060303,
      "memory(GiB)": 70.5,
      "step": 44090,
      "token_acc": 0.8652694610778443,
      "train_speed(iter/s)": 1.451695
    },
    {
      "epoch": 1.8891649886465876,
      "grad_norm": 3.664334774017334,
      "learning_rate": 6.872228706141537e-05,
      "loss": 0.5232954025268555,
      "memory(GiB)": 70.5,
      "step": 44095,
      "token_acc": 0.8935483870967742,
      "train_speed(iter/s)": 1.451692
    },
    {
      "epoch": 1.8893792039758366,
      "grad_norm": 0.6878902316093445,
      "learning_rate": 6.8716046717686e-05,
      "loss": 0.24449706077575684,
      "memory(GiB)": 70.5,
      "step": 44100,
      "token_acc": 0.9508670520231214,
      "train_speed(iter/s)": 1.451696
    },
    {
      "epoch": 1.8895934193050854,
      "grad_norm": 3.6471340656280518,
      "learning_rate": 6.87098060348979e-05,
      "loss": 0.48811817169189453,
      "memory(GiB)": 70.5,
      "step": 44105,
      "token_acc": 0.8959731543624161,
      "train_speed(iter/s)": 1.451701
    },
    {
      "epoch": 1.8898076346343344,
      "grad_norm": 3.629727840423584,
      "learning_rate": 6.87035650131641e-05,
      "loss": 0.5044245719909668,
      "memory(GiB)": 70.5,
      "step": 44110,
      "token_acc": 0.8952702702702703,
      "train_speed(iter/s)": 1.451724
    },
    {
      "epoch": 1.8900218499635835,
      "grad_norm": 4.368208408355713,
      "learning_rate": 6.869732365259767e-05,
      "loss": 0.5059621810913086,
      "memory(GiB)": 70.5,
      "step": 44115,
      "token_acc": 0.8962264150943396,
      "train_speed(iter/s)": 1.451735
    },
    {
      "epoch": 1.8902360652928323,
      "grad_norm": 1.9658479690551758,
      "learning_rate": 6.869108195331169e-05,
      "loss": 0.15659680366516113,
      "memory(GiB)": 70.5,
      "step": 44120,
      "token_acc": 0.9691119691119691,
      "train_speed(iter/s)": 1.451747
    },
    {
      "epoch": 1.8904502806220813,
      "grad_norm": 2.3284716606140137,
      "learning_rate": 6.868483991541923e-05,
      "loss": 0.3405050277709961,
      "memory(GiB)": 70.5,
      "step": 44125,
      "token_acc": 0.9328358208955224,
      "train_speed(iter/s)": 1.451769
    },
    {
      "epoch": 1.8906644959513303,
      "grad_norm": 3.8079886436462402,
      "learning_rate": 6.867859753903336e-05,
      "loss": 0.3218986034393311,
      "memory(GiB)": 70.5,
      "step": 44130,
      "token_acc": 0.9295774647887324,
      "train_speed(iter/s)": 1.451764
    },
    {
      "epoch": 1.8908787112805792,
      "grad_norm": 5.348166465759277,
      "learning_rate": 6.867235482426719e-05,
      "loss": 0.29342260360717776,
      "memory(GiB)": 70.5,
      "step": 44135,
      "token_acc": 0.9312714776632303,
      "train_speed(iter/s)": 1.451778
    },
    {
      "epoch": 1.8910929266098282,
      "grad_norm": 2.353856086730957,
      "learning_rate": 6.866611177123377e-05,
      "loss": 0.390685510635376,
      "memory(GiB)": 70.5,
      "step": 44140,
      "token_acc": 0.9194630872483222,
      "train_speed(iter/s)": 1.45177
    },
    {
      "epoch": 1.8913071419390772,
      "grad_norm": 5.419622421264648,
      "learning_rate": 6.865986838004624e-05,
      "loss": 0.5060473442077636,
      "memory(GiB)": 70.5,
      "step": 44145,
      "token_acc": 0.9006849315068494,
      "train_speed(iter/s)": 1.451764
    },
    {
      "epoch": 1.891521357268326,
      "grad_norm": 3.6098506450653076,
      "learning_rate": 6.865362465081768e-05,
      "loss": 0.3900465965270996,
      "memory(GiB)": 70.5,
      "step": 44150,
      "token_acc": 0.933993399339934,
      "train_speed(iter/s)": 1.451772
    },
    {
      "epoch": 1.891735572597575,
      "grad_norm": 4.271976470947266,
      "learning_rate": 6.864738058366122e-05,
      "loss": 0.45163421630859374,
      "memory(GiB)": 70.5,
      "step": 44155,
      "token_acc": 0.9166666666666666,
      "train_speed(iter/s)": 1.451788
    },
    {
      "epoch": 1.8919497879268241,
      "grad_norm": 4.294041633605957,
      "learning_rate": 6.864113617868997e-05,
      "loss": 0.5374879837036133,
      "memory(GiB)": 70.5,
      "step": 44160,
      "token_acc": 0.8798701298701299,
      "train_speed(iter/s)": 1.451796
    },
    {
      "epoch": 1.892164003256073,
      "grad_norm": 4.404813766479492,
      "learning_rate": 6.863489143601705e-05,
      "loss": 0.7512392044067383,
      "memory(GiB)": 70.5,
      "step": 44165,
      "token_acc": 0.8333333333333334,
      "train_speed(iter/s)": 1.451796
    },
    {
      "epoch": 1.892378218585322,
      "grad_norm": 3.3711838722229004,
      "learning_rate": 6.862864635575559e-05,
      "loss": 0.4308065414428711,
      "memory(GiB)": 70.5,
      "step": 44170,
      "token_acc": 0.9030837004405287,
      "train_speed(iter/s)": 1.451804
    },
    {
      "epoch": 1.892592433914571,
      "grad_norm": 1.732492208480835,
      "learning_rate": 6.862240093801873e-05,
      "loss": 0.3121363639831543,
      "memory(GiB)": 70.5,
      "step": 44175,
      "token_acc": 0.9205020920502092,
      "train_speed(iter/s)": 1.451815
    },
    {
      "epoch": 1.8928066492438198,
      "grad_norm": 1.508434772491455,
      "learning_rate": 6.861615518291962e-05,
      "loss": 0.576385498046875,
      "memory(GiB)": 70.5,
      "step": 44180,
      "token_acc": 0.8633333333333333,
      "train_speed(iter/s)": 1.451819
    },
    {
      "epoch": 1.8930208645730688,
      "grad_norm": 3.0405635833740234,
      "learning_rate": 6.860990909057137e-05,
      "loss": 0.34144761562347414,
      "memory(GiB)": 70.5,
      "step": 44185,
      "token_acc": 0.9383886255924171,
      "train_speed(iter/s)": 1.451831
    },
    {
      "epoch": 1.8932350799023179,
      "grad_norm": 1.72967529296875,
      "learning_rate": 6.860366266108716e-05,
      "loss": 0.43835062980651857,
      "memory(GiB)": 70.5,
      "step": 44190,
      "token_acc": 0.8880866425992779,
      "train_speed(iter/s)": 1.451827
    },
    {
      "epoch": 1.8934492952315667,
      "grad_norm": 1.9980590343475342,
      "learning_rate": 6.859741589458015e-05,
      "loss": 0.23943667411804198,
      "memory(GiB)": 70.5,
      "step": 44195,
      "token_acc": 0.964516129032258,
      "train_speed(iter/s)": 1.451825
    },
    {
      "epoch": 1.8936635105608157,
      "grad_norm": 3.110569477081299,
      "learning_rate": 6.859116879116352e-05,
      "loss": 0.5568036079406739,
      "memory(GiB)": 70.5,
      "step": 44200,
      "token_acc": 0.8881118881118881,
      "train_speed(iter/s)": 1.45183
    },
    {
      "epoch": 1.8938777258900648,
      "grad_norm": 3.419764518737793,
      "learning_rate": 6.858492135095043e-05,
      "loss": 0.5683652400970459,
      "memory(GiB)": 70.5,
      "step": 44205,
      "token_acc": 0.8876811594202898,
      "train_speed(iter/s)": 1.451818
    },
    {
      "epoch": 1.8940919412193136,
      "grad_norm": 1.2126426696777344,
      "learning_rate": 6.857867357405404e-05,
      "loss": 0.32800140380859377,
      "memory(GiB)": 70.5,
      "step": 44210,
      "token_acc": 0.9391025641025641,
      "train_speed(iter/s)": 1.451827
    },
    {
      "epoch": 1.8943061565485626,
      "grad_norm": 4.289023399353027,
      "learning_rate": 6.857242546058756e-05,
      "loss": 0.31035528182983396,
      "memory(GiB)": 70.5,
      "step": 44215,
      "token_acc": 0.928030303030303,
      "train_speed(iter/s)": 1.451831
    },
    {
      "epoch": 1.8945203718778116,
      "grad_norm": 3.5484402179718018,
      "learning_rate": 6.856617701066416e-05,
      "loss": 0.604001808166504,
      "memory(GiB)": 70.5,
      "step": 44220,
      "token_acc": 0.8706624605678234,
      "train_speed(iter/s)": 1.451832
    },
    {
      "epoch": 1.8947345872070604,
      "grad_norm": 2.9973666667938232,
      "learning_rate": 6.855992822439705e-05,
      "loss": 0.44740004539489747,
      "memory(GiB)": 70.5,
      "step": 44225,
      "token_acc": 0.9258160237388724,
      "train_speed(iter/s)": 1.451828
    },
    {
      "epoch": 1.8949488025363095,
      "grad_norm": 2.6471071243286133,
      "learning_rate": 6.855367910189942e-05,
      "loss": 0.3041806221008301,
      "memory(GiB)": 70.5,
      "step": 44230,
      "token_acc": 0.946031746031746,
      "train_speed(iter/s)": 1.451845
    },
    {
      "epoch": 1.8951630178655585,
      "grad_norm": 2.420254707336426,
      "learning_rate": 6.854742964328451e-05,
      "loss": 0.4937274932861328,
      "memory(GiB)": 70.5,
      "step": 44235,
      "token_acc": 0.9072164948453608,
      "train_speed(iter/s)": 1.451856
    },
    {
      "epoch": 1.8953772331948073,
      "grad_norm": 2.4420359134674072,
      "learning_rate": 6.854117984866552e-05,
      "loss": 0.33153090476989744,
      "memory(GiB)": 70.5,
      "step": 44240,
      "token_acc": 0.924924924924925,
      "train_speed(iter/s)": 1.451855
    },
    {
      "epoch": 1.8955914485240564,
      "grad_norm": 1.836103081703186,
      "learning_rate": 6.853492971815564e-05,
      "loss": 0.5368210792541503,
      "memory(GiB)": 70.5,
      "step": 44245,
      "token_acc": 0.8867924528301887,
      "train_speed(iter/s)": 1.451853
    },
    {
      "epoch": 1.8958056638533054,
      "grad_norm": 2.899444818496704,
      "learning_rate": 6.852867925186814e-05,
      "loss": 0.31542172431945803,
      "memory(GiB)": 70.5,
      "step": 44250,
      "token_acc": 0.9313725490196079,
      "train_speed(iter/s)": 1.451859
    },
    {
      "epoch": 1.8960198791825542,
      "grad_norm": 2.4813947677612305,
      "learning_rate": 6.85224284499162e-05,
      "loss": 0.43293299674987795,
      "memory(GiB)": 70.5,
      "step": 44255,
      "token_acc": 0.9293286219081273,
      "train_speed(iter/s)": 1.451874
    },
    {
      "epoch": 1.8962340945118032,
      "grad_norm": 2.863929271697998,
      "learning_rate": 6.851617731241312e-05,
      "loss": 0.2400416135787964,
      "memory(GiB)": 70.5,
      "step": 44260,
      "token_acc": 0.9274924471299094,
      "train_speed(iter/s)": 1.45187
    },
    {
      "epoch": 1.8964483098410523,
      "grad_norm": 2.3226959705352783,
      "learning_rate": 6.850992583947212e-05,
      "loss": 0.5524667739868164,
      "memory(GiB)": 70.5,
      "step": 44265,
      "token_acc": 0.8801261829652997,
      "train_speed(iter/s)": 1.451887
    },
    {
      "epoch": 1.896662525170301,
      "grad_norm": 3.680569887161255,
      "learning_rate": 6.850367403120645e-05,
      "loss": 0.6719714641571045,
      "memory(GiB)": 70.5,
      "step": 44270,
      "token_acc": 0.827485380116959,
      "train_speed(iter/s)": 1.451903
    },
    {
      "epoch": 1.8968767404995501,
      "grad_norm": 1.5980206727981567,
      "learning_rate": 6.849742188772936e-05,
      "loss": 0.3482077598571777,
      "memory(GiB)": 70.5,
      "step": 44275,
      "token_acc": 0.9217687074829932,
      "train_speed(iter/s)": 1.451907
    },
    {
      "epoch": 1.8970909558287992,
      "grad_norm": 13.683908462524414,
      "learning_rate": 6.849116940915412e-05,
      "loss": 0.6192901134490967,
      "memory(GiB)": 70.5,
      "step": 44280,
      "token_acc": 0.8621908127208481,
      "train_speed(iter/s)": 1.451926
    },
    {
      "epoch": 1.897305171158048,
      "grad_norm": 0.2640795111656189,
      "learning_rate": 6.8484916595594e-05,
      "loss": 0.22737329006195067,
      "memory(GiB)": 70.5,
      "step": 44285,
      "token_acc": 0.9589905362776026,
      "train_speed(iter/s)": 1.451928
    },
    {
      "epoch": 1.897519386487297,
      "grad_norm": 3.439664125442505,
      "learning_rate": 6.847866344716228e-05,
      "loss": 0.32313036918640137,
      "memory(GiB)": 70.5,
      "step": 44290,
      "token_acc": 0.929368029739777,
      "train_speed(iter/s)": 1.451937
    },
    {
      "epoch": 1.897733601816546,
      "grad_norm": 2.837158203125,
      "learning_rate": 6.847240996397224e-05,
      "loss": 0.5325938701629639,
      "memory(GiB)": 70.5,
      "step": 44295,
      "token_acc": 0.9027777777777778,
      "train_speed(iter/s)": 1.451943
    },
    {
      "epoch": 1.8979478171457949,
      "grad_norm": 2.894155740737915,
      "learning_rate": 6.846615614613716e-05,
      "loss": 0.28525938987731936,
      "memory(GiB)": 70.5,
      "step": 44300,
      "token_acc": 0.9448818897637795,
      "train_speed(iter/s)": 1.451949
    },
    {
      "epoch": 1.898162032475044,
      "grad_norm": 4.955081462860107,
      "learning_rate": 6.845990199377033e-05,
      "loss": 0.43184943199157716,
      "memory(GiB)": 70.5,
      "step": 44305,
      "token_acc": 0.9117647058823529,
      "train_speed(iter/s)": 1.451967
    },
    {
      "epoch": 1.898376247804293,
      "grad_norm": 2.1190285682678223,
      "learning_rate": 6.845364750698507e-05,
      "loss": 0.2798203468322754,
      "memory(GiB)": 70.5,
      "step": 44310,
      "token_acc": 0.9315589353612167,
      "train_speed(iter/s)": 1.451969
    },
    {
      "epoch": 1.8985904631335417,
      "grad_norm": 2.1753287315368652,
      "learning_rate": 6.844739268589467e-05,
      "loss": 0.24802632331848146,
      "memory(GiB)": 70.5,
      "step": 44315,
      "token_acc": 0.9459459459459459,
      "train_speed(iter/s)": 1.451983
    },
    {
      "epoch": 1.8988046784627908,
      "grad_norm": 4.97253942489624,
      "learning_rate": 6.844113753061246e-05,
      "loss": 0.4750679492950439,
      "memory(GiB)": 70.5,
      "step": 44320,
      "token_acc": 0.8973384030418251,
      "train_speed(iter/s)": 1.452
    },
    {
      "epoch": 1.8990188937920398,
      "grad_norm": 3.3163816928863525,
      "learning_rate": 6.843488204125174e-05,
      "loss": 0.3261264801025391,
      "memory(GiB)": 70.5,
      "step": 44325,
      "token_acc": 0.9233333333333333,
      "train_speed(iter/s)": 1.45201
    },
    {
      "epoch": 1.8992331091212886,
      "grad_norm": 3.158409595489502,
      "learning_rate": 6.842862621792581e-05,
      "loss": 0.27178144454956055,
      "memory(GiB)": 70.5,
      "step": 44330,
      "token_acc": 0.9446640316205533,
      "train_speed(iter/s)": 1.452006
    },
    {
      "epoch": 1.8994473244505377,
      "grad_norm": 4.138465404510498,
      "learning_rate": 6.842237006074805e-05,
      "loss": 0.2139575242996216,
      "memory(GiB)": 70.5,
      "step": 44335,
      "token_acc": 0.9448529411764706,
      "train_speed(iter/s)": 1.45202
    },
    {
      "epoch": 1.8996615397797867,
      "grad_norm": 5.348426818847656,
      "learning_rate": 6.841611356983179e-05,
      "loss": 0.4781841278076172,
      "memory(GiB)": 70.5,
      "step": 44340,
      "token_acc": 0.8865248226950354,
      "train_speed(iter/s)": 1.452017
    },
    {
      "epoch": 1.8998757551090355,
      "grad_norm": 1.944390892982483,
      "learning_rate": 6.840985674529033e-05,
      "loss": 0.3761838436126709,
      "memory(GiB)": 70.5,
      "step": 44345,
      "token_acc": 0.9080459770114943,
      "train_speed(iter/s)": 1.45203
    },
    {
      "epoch": 1.9000899704382845,
      "grad_norm": 3.3927595615386963,
      "learning_rate": 6.840359958723705e-05,
      "loss": 0.4540530204772949,
      "memory(GiB)": 70.5,
      "step": 44350,
      "token_acc": 0.897887323943662,
      "train_speed(iter/s)": 1.452029
    },
    {
      "epoch": 1.9003041857675336,
      "grad_norm": 2.361480474472046,
      "learning_rate": 6.839734209578532e-05,
      "loss": 0.4030906677246094,
      "memory(GiB)": 70.5,
      "step": 44355,
      "token_acc": 0.910828025477707,
      "train_speed(iter/s)": 1.452046
    },
    {
      "epoch": 1.9005184010967824,
      "grad_norm": 1.2843596935272217,
      "learning_rate": 6.839108427104846e-05,
      "loss": 0.5795387268066406,
      "memory(GiB)": 70.5,
      "step": 44360,
      "token_acc": 0.8844984802431611,
      "train_speed(iter/s)": 1.452055
    },
    {
      "epoch": 1.9007326164260314,
      "grad_norm": 2.719017744064331,
      "learning_rate": 6.838482611313985e-05,
      "loss": 0.3662297487258911,
      "memory(GiB)": 70.5,
      "step": 44365,
      "token_acc": 0.9228187919463087,
      "train_speed(iter/s)": 1.452092
    },
    {
      "epoch": 1.9009468317552805,
      "grad_norm": 5.338452339172363,
      "learning_rate": 6.83785676221729e-05,
      "loss": 0.46343555450439455,
      "memory(GiB)": 70.5,
      "step": 44370,
      "token_acc": 0.8835341365461847,
      "train_speed(iter/s)": 1.452096
    },
    {
      "epoch": 1.9011610470845293,
      "grad_norm": 1.7520983219146729,
      "learning_rate": 6.837230879826093e-05,
      "loss": 0.34244256019592284,
      "memory(GiB)": 70.5,
      "step": 44375,
      "token_acc": 0.9131944444444444,
      "train_speed(iter/s)": 1.452091
    },
    {
      "epoch": 1.9013752624137783,
      "grad_norm": 5.071771144866943,
      "learning_rate": 6.836604964151737e-05,
      "loss": 0.14941849708557128,
      "memory(GiB)": 70.5,
      "step": 44380,
      "token_acc": 0.9628252788104089,
      "train_speed(iter/s)": 1.452095
    },
    {
      "epoch": 1.9015894777430273,
      "grad_norm": 3.1570558547973633,
      "learning_rate": 6.835979015205558e-05,
      "loss": 0.5399243354797363,
      "memory(GiB)": 70.5,
      "step": 44385,
      "token_acc": 0.889967637540453,
      "train_speed(iter/s)": 1.452109
    },
    {
      "epoch": 1.9018036930722761,
      "grad_norm": 3.7467923164367676,
      "learning_rate": 6.835353032998896e-05,
      "loss": 0.4188541412353516,
      "memory(GiB)": 70.5,
      "step": 44390,
      "token_acc": 0.9094827586206896,
      "train_speed(iter/s)": 1.45211
    },
    {
      "epoch": 1.9020179084015252,
      "grad_norm": 2.56479549407959,
      "learning_rate": 6.834727017543094e-05,
      "loss": 0.20518174171447753,
      "memory(GiB)": 70.5,
      "step": 44395,
      "token_acc": 0.9451612903225807,
      "train_speed(iter/s)": 1.452117
    },
    {
      "epoch": 1.9022321237307742,
      "grad_norm": 2.44376277923584,
      "learning_rate": 6.83410096884949e-05,
      "loss": 0.5725867748260498,
      "memory(GiB)": 70.5,
      "step": 44400,
      "token_acc": 0.8978102189781022,
      "train_speed(iter/s)": 1.452116
    },
    {
      "epoch": 1.902446339060023,
      "grad_norm": 3.202169418334961,
      "learning_rate": 6.833474886929425e-05,
      "loss": 0.41407151222229005,
      "memory(GiB)": 70.5,
      "step": 44405,
      "token_acc": 0.890625,
      "train_speed(iter/s)": 1.452113
    },
    {
      "epoch": 1.902660554389272,
      "grad_norm": 4.853146076202393,
      "learning_rate": 6.832848771794245e-05,
      "loss": 0.5559415817260742,
      "memory(GiB)": 70.5,
      "step": 44410,
      "token_acc": 0.875,
      "train_speed(iter/s)": 1.452127
    },
    {
      "epoch": 1.902874769718521,
      "grad_norm": 2.6637561321258545,
      "learning_rate": 6.83222262345529e-05,
      "loss": 0.23867831230163575,
      "memory(GiB)": 70.5,
      "step": 44415,
      "token_acc": 0.9322033898305084,
      "train_speed(iter/s)": 1.452127
    },
    {
      "epoch": 1.90308898504777,
      "grad_norm": 3.9379231929779053,
      "learning_rate": 6.831596441923902e-05,
      "loss": 0.4007572174072266,
      "memory(GiB)": 70.5,
      "step": 44420,
      "token_acc": 0.9176029962546817,
      "train_speed(iter/s)": 1.452126
    },
    {
      "epoch": 1.903303200377019,
      "grad_norm": 0.8938109278678894,
      "learning_rate": 6.830970227211427e-05,
      "loss": 0.25772571563720703,
      "memory(GiB)": 70.5,
      "step": 44425,
      "token_acc": 0.9518072289156626,
      "train_speed(iter/s)": 1.452138
    },
    {
      "epoch": 1.903517415706268,
      "grad_norm": 0.9110605120658875,
      "learning_rate": 6.830343979329208e-05,
      "loss": 0.5181807994842529,
      "memory(GiB)": 70.5,
      "step": 44430,
      "token_acc": 0.9011627906976745,
      "train_speed(iter/s)": 1.452137
    },
    {
      "epoch": 1.9037316310355168,
      "grad_norm": 2.8570735454559326,
      "learning_rate": 6.829717698288591e-05,
      "loss": 0.4942580223083496,
      "memory(GiB)": 70.5,
      "step": 44435,
      "token_acc": 0.8865979381443299,
      "train_speed(iter/s)": 1.452134
    },
    {
      "epoch": 1.9039458463647658,
      "grad_norm": 6.720126628875732,
      "learning_rate": 6.829091384100922e-05,
      "loss": 0.6942769527435303,
      "memory(GiB)": 70.5,
      "step": 44440,
      "token_acc": 0.8637992831541219,
      "train_speed(iter/s)": 1.452115
    },
    {
      "epoch": 1.9041600616940149,
      "grad_norm": 1.6890099048614502,
      "learning_rate": 6.828465036777548e-05,
      "loss": 0.268379807472229,
      "memory(GiB)": 70.5,
      "step": 44445,
      "token_acc": 0.925,
      "train_speed(iter/s)": 1.452114
    },
    {
      "epoch": 1.9043742770232637,
      "grad_norm": 3.550039768218994,
      "learning_rate": 6.827838656329812e-05,
      "loss": 0.616408109664917,
      "memory(GiB)": 70.5,
      "step": 44450,
      "token_acc": 0.8981132075471698,
      "train_speed(iter/s)": 1.452125
    },
    {
      "epoch": 1.9045884923525127,
      "grad_norm": 4.37041711807251,
      "learning_rate": 6.827212242769065e-05,
      "loss": 0.5975085735321045,
      "memory(GiB)": 70.5,
      "step": 44455,
      "token_acc": 0.8941605839416058,
      "train_speed(iter/s)": 1.452132
    },
    {
      "epoch": 1.9048027076817617,
      "grad_norm": 1.4349822998046875,
      "learning_rate": 6.826585796106654e-05,
      "loss": 0.10295835733413697,
      "memory(GiB)": 70.5,
      "step": 44460,
      "token_acc": 0.9810606060606061,
      "train_speed(iter/s)": 1.452142
    },
    {
      "epoch": 1.9050169230110106,
      "grad_norm": 0.2485978603363037,
      "learning_rate": 6.82595931635393e-05,
      "loss": 0.29340457916259766,
      "memory(GiB)": 70.5,
      "step": 44465,
      "token_acc": 0.9363295880149812,
      "train_speed(iter/s)": 1.452148
    },
    {
      "epoch": 1.9052311383402596,
      "grad_norm": 4.6900506019592285,
      "learning_rate": 6.825332803522238e-05,
      "loss": 0.34782469272613525,
      "memory(GiB)": 70.5,
      "step": 44470,
      "token_acc": 0.9064516129032258,
      "train_speed(iter/s)": 1.45214
    },
    {
      "epoch": 1.9054453536695086,
      "grad_norm": 5.069394111633301,
      "learning_rate": 6.82470625762293e-05,
      "loss": 0.4193582057952881,
      "memory(GiB)": 70.5,
      "step": 44475,
      "token_acc": 0.908256880733945,
      "train_speed(iter/s)": 1.452134
    },
    {
      "epoch": 1.9056595689987574,
      "grad_norm": 1.9076106548309326,
      "learning_rate": 6.824079678667357e-05,
      "loss": 0.4275655269622803,
      "memory(GiB)": 70.5,
      "step": 44480,
      "token_acc": 0.9037656903765691,
      "train_speed(iter/s)": 1.452135
    },
    {
      "epoch": 1.9058737843280065,
      "grad_norm": 8.589553833007812,
      "learning_rate": 6.82345306666687e-05,
      "loss": 0.2677839517593384,
      "memory(GiB)": 70.5,
      "step": 44485,
      "token_acc": 0.9462025316455697,
      "train_speed(iter/s)": 1.45215
    },
    {
      "epoch": 1.9060879996572555,
      "grad_norm": 4.134900093078613,
      "learning_rate": 6.822826421632819e-05,
      "loss": 0.3383822441101074,
      "memory(GiB)": 70.5,
      "step": 44490,
      "token_acc": 0.9209486166007905,
      "train_speed(iter/s)": 1.452175
    },
    {
      "epoch": 1.9063022149865043,
      "grad_norm": 0.4846310615539551,
      "learning_rate": 6.822199743576558e-05,
      "loss": 0.15794326066970826,
      "memory(GiB)": 70.5,
      "step": 44495,
      "token_acc": 0.962457337883959,
      "train_speed(iter/s)": 1.452173
    },
    {
      "epoch": 1.9065164303157534,
      "grad_norm": 5.031870365142822,
      "learning_rate": 6.82157303250944e-05,
      "loss": 0.4281972885131836,
      "memory(GiB)": 70.5,
      "step": 44500,
      "token_acc": 0.9256505576208178,
      "train_speed(iter/s)": 1.452171
    },
    {
      "epoch": 1.9065164303157534,
      "eval_loss": 2.5822436809539795,
      "eval_runtime": 13.3671,
      "eval_samples_per_second": 7.481,
      "eval_steps_per_second": 7.481,
      "eval_token_acc": 0.4588938714499253,
      "step": 44500
    },
    {
      "epoch": 1.9067306456450024,
      "grad_norm": 2.8330776691436768,
      "learning_rate": 6.820946288442816e-05,
      "loss": 0.45418405532836914,
      "memory(GiB)": 70.5,
      "step": 44505,
      "token_acc": 0.6030456852791878,
      "train_speed(iter/s)": 1.451492
    },
    {
      "epoch": 1.9069448609742512,
      "grad_norm": 3.3618788719177246,
      "learning_rate": 6.820319511388043e-05,
      "loss": 0.20016241073608398,
      "memory(GiB)": 70.5,
      "step": 44510,
      "token_acc": 0.9603658536585366,
      "train_speed(iter/s)": 1.451502
    },
    {
      "epoch": 1.9071590763035002,
      "grad_norm": 1.468738079071045,
      "learning_rate": 6.819692701356474e-05,
      "loss": 0.37876389026641843,
      "memory(GiB)": 70.5,
      "step": 44515,
      "token_acc": 0.9309309309309309,
      "train_speed(iter/s)": 1.451502
    },
    {
      "epoch": 1.9073732916327493,
      "grad_norm": 2.7426233291625977,
      "learning_rate": 6.819065858359464e-05,
      "loss": 0.4178001403808594,
      "memory(GiB)": 70.5,
      "step": 44520,
      "token_acc": 0.890625,
      "train_speed(iter/s)": 1.451515
    },
    {
      "epoch": 1.907587506961998,
      "grad_norm": 4.271426677703857,
      "learning_rate": 6.818438982408371e-05,
      "loss": 0.5631073474884033,
      "memory(GiB)": 70.5,
      "step": 44525,
      "token_acc": 0.9113149847094801,
      "train_speed(iter/s)": 1.45152
    },
    {
      "epoch": 1.9078017222912471,
      "grad_norm": 3.7489676475524902,
      "learning_rate": 6.81781207351455e-05,
      "loss": 0.4144099712371826,
      "memory(GiB)": 70.5,
      "step": 44530,
      "token_acc": 0.9074074074074074,
      "train_speed(iter/s)": 1.45152
    },
    {
      "epoch": 1.9080159376204961,
      "grad_norm": 0.09867183119058609,
      "learning_rate": 6.817185131689356e-05,
      "loss": 0.264039421081543,
      "memory(GiB)": 70.5,
      "step": 44535,
      "token_acc": 0.9655172413793104,
      "train_speed(iter/s)": 1.451534
    },
    {
      "epoch": 1.908230152949745,
      "grad_norm": 2.7261924743652344,
      "learning_rate": 6.816558156944151e-05,
      "loss": 0.34284775257110595,
      "memory(GiB)": 70.5,
      "step": 44540,
      "token_acc": 0.9244712990936556,
      "train_speed(iter/s)": 1.451522
    },
    {
      "epoch": 1.908444368278994,
      "grad_norm": 5.746874809265137,
      "learning_rate": 6.81593114929029e-05,
      "loss": 0.3505500078201294,
      "memory(GiB)": 70.5,
      "step": 44545,
      "token_acc": 0.9130434782608695,
      "train_speed(iter/s)": 1.451527
    },
    {
      "epoch": 1.908658583608243,
      "grad_norm": 2.1750881671905518,
      "learning_rate": 6.815304108739133e-05,
      "loss": 0.3730180740356445,
      "memory(GiB)": 70.5,
      "step": 44550,
      "token_acc": 0.90625,
      "train_speed(iter/s)": 1.451533
    },
    {
      "epoch": 1.9088727989374918,
      "grad_norm": 1.2986565828323364,
      "learning_rate": 6.814677035302038e-05,
      "loss": 0.311111307144165,
      "memory(GiB)": 70.5,
      "step": 44555,
      "token_acc": 0.9446640316205533,
      "train_speed(iter/s)": 1.451531
    },
    {
      "epoch": 1.9090870142667409,
      "grad_norm": 2.953409433364868,
      "learning_rate": 6.814049928990369e-05,
      "loss": 0.28985164165496824,
      "memory(GiB)": 70.5,
      "step": 44560,
      "token_acc": 0.9369369369369369,
      "train_speed(iter/s)": 1.45153
    },
    {
      "epoch": 1.90930122959599,
      "grad_norm": 3.698091506958008,
      "learning_rate": 6.81342278981548e-05,
      "loss": 0.2631662607192993,
      "memory(GiB)": 70.5,
      "step": 44565,
      "token_acc": 0.9296296296296296,
      "train_speed(iter/s)": 1.451531
    },
    {
      "epoch": 1.9095154449252387,
      "grad_norm": 3.179194927215576,
      "learning_rate": 6.812795617788739e-05,
      "loss": 0.5168797492980957,
      "memory(GiB)": 70.5,
      "step": 44570,
      "token_acc": 0.8900343642611683,
      "train_speed(iter/s)": 1.451533
    },
    {
      "epoch": 1.9097296602544878,
      "grad_norm": 3.4087271690368652,
      "learning_rate": 6.812168412921504e-05,
      "loss": 0.5069704055786133,
      "memory(GiB)": 70.5,
      "step": 44575,
      "token_acc": 0.8557377049180328,
      "train_speed(iter/s)": 1.451538
    },
    {
      "epoch": 1.9099438755837368,
      "grad_norm": 6.239006996154785,
      "learning_rate": 6.811541175225138e-05,
      "loss": 0.8961823463439942,
      "memory(GiB)": 70.5,
      "step": 44580,
      "token_acc": 0.8214285714285714,
      "train_speed(iter/s)": 1.451566
    },
    {
      "epoch": 1.9101580909129856,
      "grad_norm": 2.1917641162872314,
      "learning_rate": 6.810913904711004e-05,
      "loss": 0.31635465621948244,
      "memory(GiB)": 70.5,
      "step": 44585,
      "token_acc": 0.9315960912052117,
      "train_speed(iter/s)": 1.451567
    },
    {
      "epoch": 1.9103723062422346,
      "grad_norm": 4.616771697998047,
      "learning_rate": 6.810286601390466e-05,
      "loss": 0.6139188766479492,
      "memory(GiB)": 70.5,
      "step": 44590,
      "token_acc": 0.8716216216216216,
      "train_speed(iter/s)": 1.451572
    },
    {
      "epoch": 1.9105865215714837,
      "grad_norm": 7.062067985534668,
      "learning_rate": 6.809659265274888e-05,
      "loss": 0.5636542320251465,
      "memory(GiB)": 70.5,
      "step": 44595,
      "token_acc": 0.889273356401384,
      "train_speed(iter/s)": 1.451623
    },
    {
      "epoch": 1.9108007369007325,
      "grad_norm": 2.031219244003296,
      "learning_rate": 6.809031896375636e-05,
      "loss": 0.36254119873046875,
      "memory(GiB)": 70.5,
      "step": 44600,
      "token_acc": 0.9193548387096774,
      "train_speed(iter/s)": 1.451639
    },
    {
      "epoch": 1.9110149522299815,
      "grad_norm": 3.517127752304077,
      "learning_rate": 6.808404494704073e-05,
      "loss": 0.5082364559173584,
      "memory(GiB)": 70.5,
      "step": 44605,
      "token_acc": 0.8983050847457628,
      "train_speed(iter/s)": 1.451636
    },
    {
      "epoch": 1.9112291675592306,
      "grad_norm": 0.6588791012763977,
      "learning_rate": 6.807777060271566e-05,
      "loss": 0.32592434883117677,
      "memory(GiB)": 70.5,
      "step": 44610,
      "token_acc": 0.9163763066202091,
      "train_speed(iter/s)": 1.45164
    },
    {
      "epoch": 1.9114433828884794,
      "grad_norm": 5.07497501373291,
      "learning_rate": 6.807149593089484e-05,
      "loss": 0.4133310317993164,
      "memory(GiB)": 70.5,
      "step": 44615,
      "token_acc": 0.9106529209621993,
      "train_speed(iter/s)": 1.451651
    },
    {
      "epoch": 1.9116575982177286,
      "grad_norm": 5.534651756286621,
      "learning_rate": 6.806522093169189e-05,
      "loss": 0.6708320617675781,
      "memory(GiB)": 70.5,
      "step": 44620,
      "token_acc": 0.8698630136986302,
      "train_speed(iter/s)": 1.451671
    },
    {
      "epoch": 1.9118718135469774,
      "grad_norm": 5.740650177001953,
      "learning_rate": 6.805894560522051e-05,
      "loss": 0.7326728820800781,
      "memory(GiB)": 70.5,
      "step": 44625,
      "token_acc": 0.8426573426573427,
      "train_speed(iter/s)": 1.451671
    },
    {
      "epoch": 1.9120860288762263,
      "grad_norm": 0.3559148907661438,
      "learning_rate": 6.805266995159442e-05,
      "loss": 0.35750460624694824,
      "memory(GiB)": 70.5,
      "step": 44630,
      "token_acc": 0.9363295880149812,
      "train_speed(iter/s)": 1.451673
    },
    {
      "epoch": 1.9123002442054755,
      "grad_norm": 1.895262360572815,
      "learning_rate": 6.804639397092726e-05,
      "loss": 0.4345544338226318,
      "memory(GiB)": 70.5,
      "step": 44635,
      "token_acc": 0.8885542168674698,
      "train_speed(iter/s)": 1.451665
    },
    {
      "epoch": 1.9125144595347243,
      "grad_norm": 3.1951687335968018,
      "learning_rate": 6.804011766333276e-05,
      "loss": 0.40873026847839355,
      "memory(GiB)": 70.5,
      "step": 44640,
      "token_acc": 0.9190140845070423,
      "train_speed(iter/s)": 1.451673
    },
    {
      "epoch": 1.9127286748639731,
      "grad_norm": 3.6093099117279053,
      "learning_rate": 6.80338410289246e-05,
      "loss": 0.2542152166366577,
      "memory(GiB)": 70.5,
      "step": 44645,
      "token_acc": 0.9396825396825397,
      "train_speed(iter/s)": 1.451666
    },
    {
      "epoch": 1.9129428901932224,
      "grad_norm": 4.126529216766357,
      "learning_rate": 6.802756406781648e-05,
      "loss": 0.40642237663269043,
      "memory(GiB)": 70.5,
      "step": 44650,
      "token_acc": 0.9110320284697508,
      "train_speed(iter/s)": 1.451698
    },
    {
      "epoch": 1.9131571055224712,
      "grad_norm": 3.695253372192383,
      "learning_rate": 6.802128678012214e-05,
      "loss": 0.40708270072937014,
      "memory(GiB)": 70.5,
      "step": 44655,
      "token_acc": 0.9022988505747126,
      "train_speed(iter/s)": 1.451687
    },
    {
      "epoch": 1.91337132085172,
      "grad_norm": 2.20450758934021,
      "learning_rate": 6.801500916595527e-05,
      "loss": 0.4151634216308594,
      "memory(GiB)": 70.5,
      "step": 44660,
      "token_acc": 0.9048991354466859,
      "train_speed(iter/s)": 1.451692
    },
    {
      "epoch": 1.9135855361809693,
      "grad_norm": 3.1131157875061035,
      "learning_rate": 6.800873122542962e-05,
      "loss": 0.538954782485962,
      "memory(GiB)": 70.5,
      "step": 44665,
      "token_acc": 0.8624161073825504,
      "train_speed(iter/s)": 1.451691
    },
    {
      "epoch": 1.913799751510218,
      "grad_norm": 3.145223617553711,
      "learning_rate": 6.80024529586589e-05,
      "loss": 0.6051069736480713,
      "memory(GiB)": 70.5,
      "step": 44670,
      "token_acc": 0.8601036269430051,
      "train_speed(iter/s)": 1.451688
    },
    {
      "epoch": 1.914013966839467,
      "grad_norm": 4.7823967933654785,
      "learning_rate": 6.799617436575688e-05,
      "loss": 0.6686517715454101,
      "memory(GiB)": 70.5,
      "step": 44675,
      "token_acc": 0.8591065292096219,
      "train_speed(iter/s)": 1.451693
    },
    {
      "epoch": 1.9142281821687162,
      "grad_norm": 3.052830696105957,
      "learning_rate": 6.798989544683725e-05,
      "loss": 0.2906618595123291,
      "memory(GiB)": 70.5,
      "step": 44680,
      "token_acc": 0.9407114624505929,
      "train_speed(iter/s)": 1.451692
    },
    {
      "epoch": 1.914442397497965,
      "grad_norm": 2.6229031085968018,
      "learning_rate": 6.798361620201382e-05,
      "loss": 0.6502031803131103,
      "memory(GiB)": 70.5,
      "step": 44685,
      "token_acc": 0.8710691823899371,
      "train_speed(iter/s)": 1.451696
    },
    {
      "epoch": 1.9146566128272138,
      "grad_norm": 5.083703517913818,
      "learning_rate": 6.797733663140028e-05,
      "loss": 0.2944627285003662,
      "memory(GiB)": 70.5,
      "step": 44690,
      "token_acc": 0.9346153846153846,
      "train_speed(iter/s)": 1.451698
    },
    {
      "epoch": 1.914870828156463,
      "grad_norm": 5.08853816986084,
      "learning_rate": 6.797105673511044e-05,
      "loss": 0.43045845031738283,
      "memory(GiB)": 70.5,
      "step": 44695,
      "token_acc": 0.9145569620253164,
      "train_speed(iter/s)": 1.451746
    },
    {
      "epoch": 1.9150850434857118,
      "grad_norm": 4.0116777420043945,
      "learning_rate": 6.796477651325805e-05,
      "loss": 0.46267046928405764,
      "memory(GiB)": 70.5,
      "step": 44700,
      "token_acc": 0.885593220338983,
      "train_speed(iter/s)": 1.451765
    },
    {
      "epoch": 1.9152992588149607,
      "grad_norm": 2.6358730792999268,
      "learning_rate": 6.795849596595686e-05,
      "loss": 0.2872361183166504,
      "memory(GiB)": 70.5,
      "step": 44705,
      "token_acc": 0.9280575539568345,
      "train_speed(iter/s)": 1.45178
    },
    {
      "epoch": 1.91551347414421,
      "grad_norm": 1.3974169492721558,
      "learning_rate": 6.79522150933207e-05,
      "loss": 0.4041621685028076,
      "memory(GiB)": 70.5,
      "step": 44710,
      "token_acc": 0.9166666666666666,
      "train_speed(iter/s)": 1.451812
    },
    {
      "epoch": 1.9157276894734587,
      "grad_norm": 9.347654342651367,
      "learning_rate": 6.794593389546331e-05,
      "loss": 0.3436591386795044,
      "memory(GiB)": 70.5,
      "step": 44715,
      "token_acc": 0.9235880398671097,
      "train_speed(iter/s)": 1.451811
    },
    {
      "epoch": 1.9159419048027075,
      "grad_norm": 4.108773708343506,
      "learning_rate": 6.793965237249848e-05,
      "loss": 0.3402069330215454,
      "memory(GiB)": 70.5,
      "step": 44720,
      "token_acc": 0.9078947368421053,
      "train_speed(iter/s)": 1.451818
    },
    {
      "epoch": 1.9161561201319568,
      "grad_norm": 2.555652379989624,
      "learning_rate": 6.793337052454005e-05,
      "loss": 0.4560938835144043,
      "memory(GiB)": 70.5,
      "step": 44725,
      "token_acc": 0.8918918918918919,
      "train_speed(iter/s)": 1.451824
    },
    {
      "epoch": 1.9163703354612056,
      "grad_norm": 3.066060781478882,
      "learning_rate": 6.792708835170177e-05,
      "loss": 0.43596491813659666,
      "memory(GiB)": 70.5,
      "step": 44730,
      "token_acc": 0.9052631578947369,
      "train_speed(iter/s)": 1.451819
    },
    {
      "epoch": 1.9165845507904544,
      "grad_norm": 2.485666513442993,
      "learning_rate": 6.792080585409746e-05,
      "loss": 0.4254495143890381,
      "memory(GiB)": 70.5,
      "step": 44735,
      "token_acc": 0.9007633587786259,
      "train_speed(iter/s)": 1.451814
    },
    {
      "epoch": 1.9167987661197037,
      "grad_norm": 4.297685623168945,
      "learning_rate": 6.791452303184094e-05,
      "loss": 0.2446979522705078,
      "memory(GiB)": 70.5,
      "step": 44740,
      "token_acc": 0.9460431654676259,
      "train_speed(iter/s)": 1.451814
    },
    {
      "epoch": 1.9170129814489525,
      "grad_norm": 0.8299254775047302,
      "learning_rate": 6.790823988504606e-05,
      "loss": 0.587213659286499,
      "memory(GiB)": 70.5,
      "step": 44745,
      "token_acc": 0.8798701298701299,
      "train_speed(iter/s)": 1.451822
    },
    {
      "epoch": 1.9172271967782013,
      "grad_norm": 0.40856438875198364,
      "learning_rate": 6.790195641382658e-05,
      "loss": 0.6289827823638916,
      "memory(GiB)": 70.5,
      "step": 44750,
      "token_acc": 0.8461538461538461,
      "train_speed(iter/s)": 1.451825
    },
    {
      "epoch": 1.9174414121074506,
      "grad_norm": 1.237499713897705,
      "learning_rate": 6.789567261829639e-05,
      "loss": 0.35813260078430176,
      "memory(GiB)": 70.5,
      "step": 44755,
      "token_acc": 0.9264214046822743,
      "train_speed(iter/s)": 1.451827
    },
    {
      "epoch": 1.9176556274366994,
      "grad_norm": 2.046530246734619,
      "learning_rate": 6.788938849856929e-05,
      "loss": 0.36262993812561034,
      "memory(GiB)": 70.5,
      "step": 44760,
      "token_acc": 0.9115384615384615,
      "train_speed(iter/s)": 1.451826
    },
    {
      "epoch": 1.9178698427659482,
      "grad_norm": 5.258194446563721,
      "learning_rate": 6.788310405475915e-05,
      "loss": 0.5224085807800293,
      "memory(GiB)": 70.5,
      "step": 44765,
      "token_acc": 0.889273356401384,
      "train_speed(iter/s)": 1.451818
    },
    {
      "epoch": 1.9180840580951974,
      "grad_norm": 4.028496742248535,
      "learning_rate": 6.78768192869798e-05,
      "loss": 0.3537308692932129,
      "memory(GiB)": 70.5,
      "step": 44770,
      "token_acc": 0.9265734265734266,
      "train_speed(iter/s)": 1.451824
    },
    {
      "epoch": 1.9182982734244463,
      "grad_norm": 4.3320112228393555,
      "learning_rate": 6.787053419534508e-05,
      "loss": 0.37033178806304934,
      "memory(GiB)": 70.5,
      "step": 44775,
      "token_acc": 0.9256965944272446,
      "train_speed(iter/s)": 1.451828
    },
    {
      "epoch": 1.918512488753695,
      "grad_norm": 5.4527201652526855,
      "learning_rate": 6.786424877996887e-05,
      "loss": 0.23885741233825683,
      "memory(GiB)": 70.5,
      "step": 44780,
      "token_acc": 0.9469964664310954,
      "train_speed(iter/s)": 1.451872
    },
    {
      "epoch": 1.9187267040829443,
      "grad_norm": 0.3533739745616913,
      "learning_rate": 6.785796304096506e-05,
      "loss": 0.25617494583129885,
      "memory(GiB)": 70.5,
      "step": 44785,
      "token_acc": 0.9401408450704225,
      "train_speed(iter/s)": 1.451871
    },
    {
      "epoch": 1.9189409194121931,
      "grad_norm": 3.6569886207580566,
      "learning_rate": 6.78516769784475e-05,
      "loss": 0.3669154644012451,
      "memory(GiB)": 70.5,
      "step": 44790,
      "token_acc": 0.9151515151515152,
      "train_speed(iter/s)": 1.451892
    },
    {
      "epoch": 1.919155134741442,
      "grad_norm": 1.5739600658416748,
      "learning_rate": 6.784539059253004e-05,
      "loss": 0.3693782567977905,
      "memory(GiB)": 70.5,
      "step": 44795,
      "token_acc": 0.9182389937106918,
      "train_speed(iter/s)": 1.451892
    },
    {
      "epoch": 1.9193693500706912,
      "grad_norm": 2.4321324825286865,
      "learning_rate": 6.783910388332661e-05,
      "loss": 0.6033660888671875,
      "memory(GiB)": 70.5,
      "step": 44800,
      "token_acc": 0.8686131386861314,
      "train_speed(iter/s)": 1.45191
    },
    {
      "epoch": 1.91958356539994,
      "grad_norm": 5.712518215179443,
      "learning_rate": 6.783281685095105e-05,
      "loss": 0.3844718933105469,
      "memory(GiB)": 70.5,
      "step": 44805,
      "token_acc": 0.9052631578947369,
      "train_speed(iter/s)": 1.451908
    },
    {
      "epoch": 1.9197977807291888,
      "grad_norm": 5.416888236999512,
      "learning_rate": 6.78265294955173e-05,
      "loss": 0.202445912361145,
      "memory(GiB)": 70.5,
      "step": 44810,
      "token_acc": 0.9510204081632653,
      "train_speed(iter/s)": 1.451902
    },
    {
      "epoch": 1.920011996058438,
      "grad_norm": 2.9387216567993164,
      "learning_rate": 6.782024181713925e-05,
      "loss": 0.46495256423950193,
      "memory(GiB)": 70.5,
      "step": 44815,
      "token_acc": 0.8888888888888888,
      "train_speed(iter/s)": 1.451902
    },
    {
      "epoch": 1.920226211387687,
      "grad_norm": 4.205740928649902,
      "learning_rate": 6.781395381593082e-05,
      "loss": 0.35728232860565184,
      "memory(GiB)": 70.5,
      "step": 44820,
      "token_acc": 0.9233226837060703,
      "train_speed(iter/s)": 1.451893
    },
    {
      "epoch": 1.9204404267169357,
      "grad_norm": 3.4224395751953125,
      "learning_rate": 6.780766549200587e-05,
      "loss": 0.38591291904449465,
      "memory(GiB)": 70.5,
      "step": 44825,
      "token_acc": 0.9433198380566802,
      "train_speed(iter/s)": 1.451901
    },
    {
      "epoch": 1.920654642046185,
      "grad_norm": 6.905014514923096,
      "learning_rate": 6.780137684547838e-05,
      "loss": 0.6474920749664307,
      "memory(GiB)": 70.5,
      "step": 44830,
      "token_acc": 0.8618421052631579,
      "train_speed(iter/s)": 1.451905
    },
    {
      "epoch": 1.9208688573754338,
      "grad_norm": 1.4017428159713745,
      "learning_rate": 6.779508787646222e-05,
      "loss": 0.44762482643127444,
      "memory(GiB)": 70.5,
      "step": 44835,
      "token_acc": 0.9073033707865169,
      "train_speed(iter/s)": 1.45191
    },
    {
      "epoch": 1.9210830727046826,
      "grad_norm": 4.464878082275391,
      "learning_rate": 6.778879858507138e-05,
      "loss": 0.28850584030151366,
      "memory(GiB)": 70.5,
      "step": 44840,
      "token_acc": 0.9384057971014492,
      "train_speed(iter/s)": 1.451916
    },
    {
      "epoch": 1.9212972880339318,
      "grad_norm": 2.2045094966888428,
      "learning_rate": 6.778250897141976e-05,
      "loss": 0.5159276008605957,
      "memory(GiB)": 70.5,
      "step": 44845,
      "token_acc": 0.8885245901639345,
      "train_speed(iter/s)": 1.451924
    },
    {
      "epoch": 1.9215115033631807,
      "grad_norm": 2.668731689453125,
      "learning_rate": 6.777621903562132e-05,
      "loss": 0.14865370988845825,
      "memory(GiB)": 70.5,
      "step": 44850,
      "token_acc": 0.9577922077922078,
      "train_speed(iter/s)": 1.451921
    },
    {
      "epoch": 1.9217257186924295,
      "grad_norm": 4.012466907501221,
      "learning_rate": 6.776992877778997e-05,
      "loss": 0.379517650604248,
      "memory(GiB)": 70.5,
      "step": 44855,
      "token_acc": 0.9392857142857143,
      "train_speed(iter/s)": 1.45196
    },
    {
      "epoch": 1.9219399340216787,
      "grad_norm": 3.180234909057617,
      "learning_rate": 6.77636381980397e-05,
      "loss": 0.24796345233917236,
      "memory(GiB)": 70.5,
      "step": 44860,
      "token_acc": 0.9433962264150944,
      "train_speed(iter/s)": 1.451969
    },
    {
      "epoch": 1.9221541493509275,
      "grad_norm": 2.9542150497436523,
      "learning_rate": 6.775734729648447e-05,
      "loss": 0.5861196517944336,
      "memory(GiB)": 70.5,
      "step": 44865,
      "token_acc": 0.8825622775800712,
      "train_speed(iter/s)": 1.451979
    },
    {
      "epoch": 1.9223683646801764,
      "grad_norm": 2.2186601161956787,
      "learning_rate": 6.775105607323822e-05,
      "loss": 0.36651489734649656,
      "memory(GiB)": 70.5,
      "step": 44870,
      "token_acc": 0.9088145896656535,
      "train_speed(iter/s)": 1.45197
    },
    {
      "epoch": 1.9225825800094256,
      "grad_norm": 1.9636552333831787,
      "learning_rate": 6.774476452841496e-05,
      "loss": 0.31376669406890867,
      "memory(GiB)": 70.5,
      "step": 44875,
      "token_acc": 0.9353846153846154,
      "train_speed(iter/s)": 1.451973
    },
    {
      "epoch": 1.9227967953386744,
      "grad_norm": 1.2472196817398071,
      "learning_rate": 6.773847266212863e-05,
      "loss": 0.5491735935211182,
      "memory(GiB)": 70.5,
      "step": 44880,
      "token_acc": 0.89,
      "train_speed(iter/s)": 1.451976
    },
    {
      "epoch": 1.9230110106679232,
      "grad_norm": 3.642439126968384,
      "learning_rate": 6.773218047449323e-05,
      "loss": 0.47922821044921876,
      "memory(GiB)": 70.5,
      "step": 44885,
      "token_acc": 0.9141914191419142,
      "train_speed(iter/s)": 1.451972
    },
    {
      "epoch": 1.9232252259971725,
      "grad_norm": 1.882948637008667,
      "learning_rate": 6.772588796562274e-05,
      "loss": 0.26516835689544677,
      "memory(GiB)": 70.5,
      "step": 44890,
      "token_acc": 0.9380165289256198,
      "train_speed(iter/s)": 1.451973
    },
    {
      "epoch": 1.9234394413264213,
      "grad_norm": 2.371131658554077,
      "learning_rate": 6.771959513563116e-05,
      "loss": 0.27867281436920166,
      "memory(GiB)": 70.5,
      "step": 44895,
      "token_acc": 0.9553264604810997,
      "train_speed(iter/s)": 1.451973
    },
    {
      "epoch": 1.9236536566556701,
      "grad_norm": 3.9412150382995605,
      "learning_rate": 6.77133019846325e-05,
      "loss": 0.6115674495697021,
      "memory(GiB)": 70.5,
      "step": 44900,
      "token_acc": 0.8631178707224335,
      "train_speed(iter/s)": 1.451985
    },
    {
      "epoch": 1.9238678719849194,
      "grad_norm": 3.589470863342285,
      "learning_rate": 6.770700851274077e-05,
      "loss": 0.3471419334411621,
      "memory(GiB)": 70.5,
      "step": 44905,
      "token_acc": 0.9329268292682927,
      "train_speed(iter/s)": 1.451993
    },
    {
      "epoch": 1.9240820873141682,
      "grad_norm": 4.5901689529418945,
      "learning_rate": 6.770071472006994e-05,
      "loss": 0.39868388175964353,
      "memory(GiB)": 70.5,
      "step": 44910,
      "token_acc": 0.9120521172638436,
      "train_speed(iter/s)": 1.451997
    },
    {
      "epoch": 1.924296302643417,
      "grad_norm": 4.991305828094482,
      "learning_rate": 6.769442060673409e-05,
      "loss": 0.596130084991455,
      "memory(GiB)": 70.5,
      "step": 44915,
      "token_acc": 0.8823529411764706,
      "train_speed(iter/s)": 1.451989
    },
    {
      "epoch": 1.9245105179726663,
      "grad_norm": 2.1333351135253906,
      "learning_rate": 6.768812617284719e-05,
      "loss": 0.46387171745300293,
      "memory(GiB)": 70.5,
      "step": 44920,
      "token_acc": 0.9100346020761245,
      "train_speed(iter/s)": 1.45199
    },
    {
      "epoch": 1.924724733301915,
      "grad_norm": 2.7027719020843506,
      "learning_rate": 6.76818314185233e-05,
      "loss": 0.5194323539733887,
      "memory(GiB)": 70.5,
      "step": 44925,
      "token_acc": 0.8805031446540881,
      "train_speed(iter/s)": 1.451993
    },
    {
      "epoch": 1.9249389486311639,
      "grad_norm": 1.8518084287643433,
      "learning_rate": 6.767553634387645e-05,
      "loss": 0.5917342662811279,
      "memory(GiB)": 70.5,
      "step": 44930,
      "token_acc": 0.9161290322580645,
      "train_speed(iter/s)": 1.452015
    },
    {
      "epoch": 1.9251531639604131,
      "grad_norm": 3.692744493484497,
      "learning_rate": 6.766924094902067e-05,
      "loss": 0.27416989803314207,
      "memory(GiB)": 70.5,
      "step": 44935,
      "token_acc": 0.9473684210526315,
      "train_speed(iter/s)": 1.45202
    },
    {
      "epoch": 1.925367379289662,
      "grad_norm": 1.7386587858200073,
      "learning_rate": 6.766294523407002e-05,
      "loss": 0.24869842529296876,
      "memory(GiB)": 70.5,
      "step": 44940,
      "token_acc": 0.9512195121951219,
      "train_speed(iter/s)": 1.452043
    },
    {
      "epoch": 1.9255815946189108,
      "grad_norm": 2.362440586090088,
      "learning_rate": 6.765664919913856e-05,
      "loss": 0.20621953010559083,
      "memory(GiB)": 70.5,
      "step": 44945,
      "token_acc": 0.9548387096774194,
      "train_speed(iter/s)": 1.452044
    },
    {
      "epoch": 1.92579580994816,
      "grad_norm": 0.713252067565918,
      "learning_rate": 6.765035284434031e-05,
      "loss": 0.4588137626647949,
      "memory(GiB)": 70.5,
      "step": 44950,
      "token_acc": 0.9016393442622951,
      "train_speed(iter/s)": 1.452054
    },
    {
      "epoch": 1.9260100252774088,
      "grad_norm": 1.6493099927902222,
      "learning_rate": 6.764405616978938e-05,
      "loss": 0.2653883695602417,
      "memory(GiB)": 70.5,
      "step": 44955,
      "token_acc": 0.9481481481481482,
      "train_speed(iter/s)": 1.452061
    },
    {
      "epoch": 1.9262242406066579,
      "grad_norm": 2.2456204891204834,
      "learning_rate": 6.763775917559982e-05,
      "loss": 0.3508100748062134,
      "memory(GiB)": 70.5,
      "step": 44960,
      "token_acc": 0.900355871886121,
      "train_speed(iter/s)": 1.452061
    },
    {
      "epoch": 1.926438455935907,
      "grad_norm": 3.9899301528930664,
      "learning_rate": 6.76314618618857e-05,
      "loss": 0.5295789241790771,
      "memory(GiB)": 70.5,
      "step": 44965,
      "token_acc": 0.8809523809523809,
      "train_speed(iter/s)": 1.452084
    },
    {
      "epoch": 1.9266526712651557,
      "grad_norm": 4.035673141479492,
      "learning_rate": 6.76251642287611e-05,
      "loss": 0.5195623874664307,
      "memory(GiB)": 70.5,
      "step": 44970,
      "token_acc": 0.8986013986013986,
      "train_speed(iter/s)": 1.452087
    },
    {
      "epoch": 1.9268668865944047,
      "grad_norm": 3.911750555038452,
      "learning_rate": 6.761886627634013e-05,
      "loss": 0.6685268402099609,
      "memory(GiB)": 70.5,
      "step": 44975,
      "token_acc": 0.8731884057971014,
      "train_speed(iter/s)": 1.452088
    },
    {
      "epoch": 1.9270811019236538,
      "grad_norm": 2.2591755390167236,
      "learning_rate": 6.761256800473686e-05,
      "loss": 0.254088306427002,
      "memory(GiB)": 70.5,
      "step": 44980,
      "token_acc": 0.95,
      "train_speed(iter/s)": 1.452079
    },
    {
      "epoch": 1.9272953172529026,
      "grad_norm": 6.309294700622559,
      "learning_rate": 6.760626941406541e-05,
      "loss": 0.6502872467041015,
      "memory(GiB)": 70.5,
      "step": 44985,
      "token_acc": 0.8597785977859779,
      "train_speed(iter/s)": 1.452095
    },
    {
      "epoch": 1.9275095325821516,
      "grad_norm": 2.1979734897613525,
      "learning_rate": 6.759997050443987e-05,
      "loss": 0.6932840824127198,
      "memory(GiB)": 70.5,
      "step": 44990,
      "token_acc": 0.8688524590163934,
      "train_speed(iter/s)": 1.452084
    },
    {
      "epoch": 1.9277237479114007,
      "grad_norm": 3.4773552417755127,
      "learning_rate": 6.759367127597436e-05,
      "loss": 0.45500454902648924,
      "memory(GiB)": 70.5,
      "step": 44995,
      "token_acc": 0.8938356164383562,
      "train_speed(iter/s)": 1.452082
    },
    {
      "epoch": 1.9279379632406495,
      "grad_norm": 2.8473947048187256,
      "learning_rate": 6.758737172878298e-05,
      "loss": 0.37399075031280515,
      "memory(GiB)": 70.5,
      "step": 45000,
      "token_acc": 0.9130434782608695,
      "train_speed(iter/s)": 1.452087
    },
    {
      "epoch": 1.9279379632406495,
      "eval_loss": 2.58504581451416,
      "eval_runtime": 13.6995,
      "eval_samples_per_second": 7.3,
      "eval_steps_per_second": 7.3,
      "eval_token_acc": 0.4470868014268728,
      "step": 45000
    },
    {
      "epoch": 1.9281521785698985,
      "grad_norm": 8.531996726989746,
      "learning_rate": 6.758107186297987e-05,
      "loss": 0.4881740093231201,
      "memory(GiB)": 70.5,
      "step": 45005,
      "token_acc": 0.5594280607685433,
      "train_speed(iter/s)": 1.451425
    },
    {
      "epoch": 1.9283663938991475,
      "grad_norm": 2.397306442260742,
      "learning_rate": 6.757477167867914e-05,
      "loss": 0.3146442174911499,
      "memory(GiB)": 70.5,
      "step": 45010,
      "token_acc": 0.9375,
      "train_speed(iter/s)": 1.451449
    },
    {
      "epoch": 1.9285806092283964,
      "grad_norm": 0.5518183708190918,
      "learning_rate": 6.756847117599495e-05,
      "loss": 0.6006715297698975,
      "memory(GiB)": 70.5,
      "step": 45015,
      "token_acc": 0.8738461538461538,
      "train_speed(iter/s)": 1.451489
    },
    {
      "epoch": 1.9287948245576454,
      "grad_norm": 0.6488230228424072,
      "learning_rate": 6.756217035504142e-05,
      "loss": 0.15174100399017335,
      "memory(GiB)": 70.5,
      "step": 45020,
      "token_acc": 0.9561128526645768,
      "train_speed(iter/s)": 1.451506
    },
    {
      "epoch": 1.9290090398868944,
      "grad_norm": 1.010709524154663,
      "learning_rate": 6.755586921593268e-05,
      "loss": 0.2661752700805664,
      "memory(GiB)": 70.5,
      "step": 45025,
      "token_acc": 0.9469387755102041,
      "train_speed(iter/s)": 1.45151
    },
    {
      "epoch": 1.9292232552161432,
      "grad_norm": 1.5823372602462769,
      "learning_rate": 6.754956775878294e-05,
      "loss": 0.19199846982955932,
      "memory(GiB)": 70.5,
      "step": 45030,
      "token_acc": 0.95,
      "train_speed(iter/s)": 1.451515
    },
    {
      "epoch": 1.9294374705453923,
      "grad_norm": 7.112021446228027,
      "learning_rate": 6.754326598370628e-05,
      "loss": 0.44910688400268556,
      "memory(GiB)": 70.5,
      "step": 45035,
      "token_acc": 0.92,
      "train_speed(iter/s)": 1.451513
    },
    {
      "epoch": 1.9296516858746413,
      "grad_norm": 0.41226834058761597,
      "learning_rate": 6.75369638908169e-05,
      "loss": 0.653288459777832,
      "memory(GiB)": 70.5,
      "step": 45040,
      "token_acc": 0.8537414965986394,
      "train_speed(iter/s)": 1.451521
    },
    {
      "epoch": 1.9298659012038901,
      "grad_norm": 1.7886251211166382,
      "learning_rate": 6.7530661480229e-05,
      "loss": 0.31144840717315675,
      "memory(GiB)": 70.5,
      "step": 45045,
      "token_acc": 0.9343832020997376,
      "train_speed(iter/s)": 1.451517
    },
    {
      "epoch": 1.9300801165331392,
      "grad_norm": 2.0928609371185303,
      "learning_rate": 6.75243587520567e-05,
      "loss": 0.29195261001586914,
      "memory(GiB)": 70.5,
      "step": 45050,
      "token_acc": 0.9381818181818182,
      "train_speed(iter/s)": 1.451515
    },
    {
      "epoch": 1.9302943318623882,
      "grad_norm": 3.692504644393921,
      "learning_rate": 6.751805570641421e-05,
      "loss": 0.5076125144958497,
      "memory(GiB)": 70.5,
      "step": 45055,
      "token_acc": 0.875,
      "train_speed(iter/s)": 1.451516
    },
    {
      "epoch": 1.930508547191637,
      "grad_norm": 3.622889518737793,
      "learning_rate": 6.75117523434157e-05,
      "loss": 0.47061381340026853,
      "memory(GiB)": 70.5,
      "step": 45060,
      "token_acc": 0.9204152249134948,
      "train_speed(iter/s)": 1.451536
    },
    {
      "epoch": 1.930722762520886,
      "grad_norm": 2.7207469940185547,
      "learning_rate": 6.750544866317536e-05,
      "loss": 0.23364782333374023,
      "memory(GiB)": 70.5,
      "step": 45065,
      "token_acc": 0.9588607594936709,
      "train_speed(iter/s)": 1.451548
    },
    {
      "epoch": 1.930936977850135,
      "grad_norm": 2.539652109146118,
      "learning_rate": 6.749914466580741e-05,
      "loss": 0.40989270210266116,
      "memory(GiB)": 70.5,
      "step": 45070,
      "token_acc": 0.9054054054054054,
      "train_speed(iter/s)": 1.451552
    },
    {
      "epoch": 1.9311511931793839,
      "grad_norm": 3.8527233600616455,
      "learning_rate": 6.749284035142604e-05,
      "loss": 0.352811861038208,
      "memory(GiB)": 70.5,
      "step": 45075,
      "token_acc": 0.9227799227799228,
      "train_speed(iter/s)": 1.451566
    },
    {
      "epoch": 1.931365408508633,
      "grad_norm": 4.568136215209961,
      "learning_rate": 6.748653572014546e-05,
      "loss": 0.22986383438110353,
      "memory(GiB)": 70.5,
      "step": 45080,
      "token_acc": 0.9514925373134329,
      "train_speed(iter/s)": 1.45156
    },
    {
      "epoch": 1.931579623837882,
      "grad_norm": 2.307692050933838,
      "learning_rate": 6.748023077207988e-05,
      "loss": 0.3056380271911621,
      "memory(GiB)": 70.5,
      "step": 45085,
      "token_acc": 0.927797833935018,
      "train_speed(iter/s)": 1.451556
    },
    {
      "epoch": 1.9317938391671308,
      "grad_norm": 2.487539768218994,
      "learning_rate": 6.747392550734352e-05,
      "loss": 0.25531854629516604,
      "memory(GiB)": 70.5,
      "step": 45090,
      "token_acc": 0.937888198757764,
      "train_speed(iter/s)": 1.451553
    },
    {
      "epoch": 1.9320080544963798,
      "grad_norm": 4.116090297698975,
      "learning_rate": 6.74676199260506e-05,
      "loss": 0.3743924140930176,
      "memory(GiB)": 70.5,
      "step": 45095,
      "token_acc": 0.9415584415584416,
      "train_speed(iter/s)": 1.451557
    },
    {
      "epoch": 1.9322222698256288,
      "grad_norm": 1.2131890058517456,
      "learning_rate": 6.746131402831537e-05,
      "loss": 0.17088727951049804,
      "memory(GiB)": 70.5,
      "step": 45100,
      "token_acc": 0.9606557377049181,
      "train_speed(iter/s)": 1.451567
    },
    {
      "epoch": 1.9324364851548776,
      "grad_norm": 4.109292984008789,
      "learning_rate": 6.745500781425205e-05,
      "loss": 0.41065387725830077,
      "memory(GiB)": 70.5,
      "step": 45105,
      "token_acc": 0.9163346613545816,
      "train_speed(iter/s)": 1.45156
    },
    {
      "epoch": 1.9326507004841267,
      "grad_norm": 2.7234723567962646,
      "learning_rate": 6.74487012839749e-05,
      "loss": 0.581898546218872,
      "memory(GiB)": 70.5,
      "step": 45110,
      "token_acc": 0.8929889298892989,
      "train_speed(iter/s)": 1.451561
    },
    {
      "epoch": 1.9328649158133757,
      "grad_norm": 5.624485492706299,
      "learning_rate": 6.744239443759813e-05,
      "loss": 0.5561336040496826,
      "memory(GiB)": 70.5,
      "step": 45115,
      "token_acc": 0.9029850746268657,
      "train_speed(iter/s)": 1.451579
    },
    {
      "epoch": 1.9330791311426245,
      "grad_norm": 2.2993688583374023,
      "learning_rate": 6.743608727523605e-05,
      "loss": 0.24250175952911376,
      "memory(GiB)": 70.5,
      "step": 45120,
      "token_acc": 0.9201388888888888,
      "train_speed(iter/s)": 1.451577
    },
    {
      "epoch": 1.9332933464718736,
      "grad_norm": 0.8650975227355957,
      "learning_rate": 6.742977979700287e-05,
      "loss": 0.32702600955963135,
      "memory(GiB)": 70.5,
      "step": 45125,
      "token_acc": 0.9297520661157025,
      "train_speed(iter/s)": 1.45159
    },
    {
      "epoch": 1.9335075618011226,
      "grad_norm": 4.448582172393799,
      "learning_rate": 6.74234720030129e-05,
      "loss": 0.4003459930419922,
      "memory(GiB)": 70.5,
      "step": 45130,
      "token_acc": 0.9133333333333333,
      "train_speed(iter/s)": 1.451584
    },
    {
      "epoch": 1.9337217771303714,
      "grad_norm": 1.5738221406936646,
      "learning_rate": 6.741716389338039e-05,
      "loss": 0.21466028690338135,
      "memory(GiB)": 70.5,
      "step": 45135,
      "token_acc": 0.9446494464944649,
      "train_speed(iter/s)": 1.451589
    },
    {
      "epoch": 1.9339359924596204,
      "grad_norm": 3.6689183712005615,
      "learning_rate": 6.74108554682196e-05,
      "loss": 0.30264036655426024,
      "memory(GiB)": 70.5,
      "step": 45140,
      "token_acc": 0.9402985074626866,
      "train_speed(iter/s)": 1.451605
    },
    {
      "epoch": 1.9341502077888695,
      "grad_norm": 4.208964824676514,
      "learning_rate": 6.740454672764484e-05,
      "loss": 0.6159896850585938,
      "memory(GiB)": 70.5,
      "step": 45145,
      "token_acc": 0.8801498127340824,
      "train_speed(iter/s)": 1.451637
    },
    {
      "epoch": 1.9343644231181183,
      "grad_norm": 2.9617676734924316,
      "learning_rate": 6.739823767177039e-05,
      "loss": 0.3256326198577881,
      "memory(GiB)": 70.5,
      "step": 45150,
      "token_acc": 0.9238754325259516,
      "train_speed(iter/s)": 1.451641
    },
    {
      "epoch": 1.9345786384473673,
      "grad_norm": 0.7559248805046082,
      "learning_rate": 6.739192830071054e-05,
      "loss": 0.5589967727661133,
      "memory(GiB)": 70.5,
      "step": 45155,
      "token_acc": 0.889261744966443,
      "train_speed(iter/s)": 1.451643
    },
    {
      "epoch": 1.9347928537766164,
      "grad_norm": 2.783951759338379,
      "learning_rate": 6.73856186145796e-05,
      "loss": 0.22110388278961182,
      "memory(GiB)": 70.5,
      "step": 45160,
      "token_acc": 0.963265306122449,
      "train_speed(iter/s)": 1.451651
    },
    {
      "epoch": 1.9350070691058652,
      "grad_norm": 2.823251724243164,
      "learning_rate": 6.737930861349186e-05,
      "loss": 0.3259900093078613,
      "memory(GiB)": 70.5,
      "step": 45165,
      "token_acc": 0.9444444444444444,
      "train_speed(iter/s)": 1.451652
    },
    {
      "epoch": 1.9352212844351142,
      "grad_norm": 2.5518641471862793,
      "learning_rate": 6.737299829756165e-05,
      "loss": 0.7795463085174561,
      "memory(GiB)": 70.5,
      "step": 45170,
      "token_acc": 0.8467741935483871,
      "train_speed(iter/s)": 1.45165
    },
    {
      "epoch": 1.9354354997643632,
      "grad_norm": 4.144002437591553,
      "learning_rate": 6.736668766690328e-05,
      "loss": 0.6250722885131836,
      "memory(GiB)": 70.5,
      "step": 45175,
      "token_acc": 0.8680555555555556,
      "train_speed(iter/s)": 1.451664
    },
    {
      "epoch": 1.935649715093612,
      "grad_norm": 5.86954402923584,
      "learning_rate": 6.736037672163107e-05,
      "loss": 0.4875943660736084,
      "memory(GiB)": 70.5,
      "step": 45180,
      "token_acc": 0.8633333333333333,
      "train_speed(iter/s)": 1.451683
    },
    {
      "epoch": 1.935863930422861,
      "grad_norm": 2.957733631134033,
      "learning_rate": 6.735406546185934e-05,
      "loss": 0.33964715003967283,
      "memory(GiB)": 70.5,
      "step": 45185,
      "token_acc": 0.9155405405405406,
      "train_speed(iter/s)": 1.45168
    },
    {
      "epoch": 1.9360781457521101,
      "grad_norm": 4.267940044403076,
      "learning_rate": 6.734775388770245e-05,
      "loss": 0.35851540565490725,
      "memory(GiB)": 70.5,
      "step": 45190,
      "token_acc": 0.9148148148148149,
      "train_speed(iter/s)": 1.451684
    },
    {
      "epoch": 1.936292361081359,
      "grad_norm": 0.9028540849685669,
      "learning_rate": 6.734144199927472e-05,
      "loss": 0.26942174434661864,
      "memory(GiB)": 70.5,
      "step": 45195,
      "token_acc": 0.9417808219178082,
      "train_speed(iter/s)": 1.451689
    },
    {
      "epoch": 1.936506576410608,
      "grad_norm": 3.614943742752075,
      "learning_rate": 6.73351297966905e-05,
      "loss": 0.4041290760040283,
      "memory(GiB)": 70.5,
      "step": 45200,
      "token_acc": 0.9015151515151515,
      "train_speed(iter/s)": 1.451682
    },
    {
      "epoch": 1.936720791739857,
      "grad_norm": 1.882200002670288,
      "learning_rate": 6.732881728006414e-05,
      "loss": 0.42886695861816404,
      "memory(GiB)": 70.5,
      "step": 45205,
      "token_acc": 0.9216417910447762,
      "train_speed(iter/s)": 1.451699
    },
    {
      "epoch": 1.9369350070691058,
      "grad_norm": 3.9106593132019043,
      "learning_rate": 6.732250444951e-05,
      "loss": 0.3522289276123047,
      "memory(GiB)": 70.5,
      "step": 45210,
      "token_acc": 0.9330855018587361,
      "train_speed(iter/s)": 1.451712
    },
    {
      "epoch": 1.9371492223983549,
      "grad_norm": 3.130099296569824,
      "learning_rate": 6.731619130514243e-05,
      "loss": 0.6233046054840088,
      "memory(GiB)": 70.5,
      "step": 45215,
      "token_acc": 0.8829787234042553,
      "train_speed(iter/s)": 1.45173
    },
    {
      "epoch": 1.9373634377276039,
      "grad_norm": 1.4244327545166016,
      "learning_rate": 6.730987784707584e-05,
      "loss": 0.2064577579498291,
      "memory(GiB)": 70.5,
      "step": 45220,
      "token_acc": 0.9513888888888888,
      "train_speed(iter/s)": 1.451736
    },
    {
      "epoch": 1.9375776530568527,
      "grad_norm": 1.9566102027893066,
      "learning_rate": 6.730356407542456e-05,
      "loss": 0.5169362545013427,
      "memory(GiB)": 70.5,
      "step": 45225,
      "token_acc": 0.887459807073955,
      "train_speed(iter/s)": 1.451747
    },
    {
      "epoch": 1.9377918683861017,
      "grad_norm": 6.205230712890625,
      "learning_rate": 6.729724999030297e-05,
      "loss": 0.37291603088378905,
      "memory(GiB)": 70.5,
      "step": 45230,
      "token_acc": 0.9166666666666666,
      "train_speed(iter/s)": 1.451744
    },
    {
      "epoch": 1.9380060837153508,
      "grad_norm": 5.568604946136475,
      "learning_rate": 6.729093559182549e-05,
      "loss": 0.6486070632934571,
      "memory(GiB)": 70.5,
      "step": 45235,
      "token_acc": 0.8776371308016878,
      "train_speed(iter/s)": 1.451732
    },
    {
      "epoch": 1.9382202990445996,
      "grad_norm": 3.1603662967681885,
      "learning_rate": 6.728462088010647e-05,
      "loss": 0.42101221084594725,
      "memory(GiB)": 70.5,
      "step": 45240,
      "token_acc": 0.9058441558441559,
      "train_speed(iter/s)": 1.45173
    },
    {
      "epoch": 1.9384345143738486,
      "grad_norm": 6.493555068969727,
      "learning_rate": 6.727830585526035e-05,
      "loss": 0.5338586807250977,
      "memory(GiB)": 70.5,
      "step": 45245,
      "token_acc": 0.8986928104575164,
      "train_speed(iter/s)": 1.451728
    },
    {
      "epoch": 1.9386487297030977,
      "grad_norm": 3.5365731716156006,
      "learning_rate": 6.727199051740151e-05,
      "loss": 0.5666374683380127,
      "memory(GiB)": 70.5,
      "step": 45250,
      "token_acc": 0.9090909090909091,
      "train_speed(iter/s)": 1.451753
    },
    {
      "epoch": 1.9388629450323465,
      "grad_norm": 3.699120283126831,
      "learning_rate": 6.726567486664434e-05,
      "loss": 0.33085706233978274,
      "memory(GiB)": 70.5,
      "step": 45255,
      "token_acc": 0.933933933933934,
      "train_speed(iter/s)": 1.451753
    },
    {
      "epoch": 1.9390771603615955,
      "grad_norm": 2.0212972164154053,
      "learning_rate": 6.725935890310328e-05,
      "loss": 0.3810264110565186,
      "memory(GiB)": 70.5,
      "step": 45260,
      "token_acc": 0.9379310344827586,
      "train_speed(iter/s)": 1.451762
    },
    {
      "epoch": 1.9392913756908445,
      "grad_norm": 2.162177562713623,
      "learning_rate": 6.725304262689275e-05,
      "loss": 0.3037224531173706,
      "memory(GiB)": 70.5,
      "step": 45265,
      "token_acc": 0.920265780730897,
      "train_speed(iter/s)": 1.451763
    },
    {
      "epoch": 1.9395055910200933,
      "grad_norm": 5.221333026885986,
      "learning_rate": 6.724672603812717e-05,
      "loss": 0.42095260620117186,
      "memory(GiB)": 70.5,
      "step": 45270,
      "token_acc": 0.9090909090909091,
      "train_speed(iter/s)": 1.451776
    },
    {
      "epoch": 1.9397198063493424,
      "grad_norm": 0.5565624237060547,
      "learning_rate": 6.724040913692098e-05,
      "loss": 0.24775445461273193,
      "memory(GiB)": 70.5,
      "step": 45275,
      "token_acc": 0.953405017921147,
      "train_speed(iter/s)": 1.451787
    },
    {
      "epoch": 1.9399340216785914,
      "grad_norm": 2.825206756591797,
      "learning_rate": 6.723409192338859e-05,
      "loss": 0.3672954559326172,
      "memory(GiB)": 70.5,
      "step": 45280,
      "token_acc": 0.9201388888888888,
      "train_speed(iter/s)": 1.451785
    },
    {
      "epoch": 1.9401482370078402,
      "grad_norm": 4.329905986785889,
      "learning_rate": 6.722777439764446e-05,
      "loss": 0.34661839008331297,
      "memory(GiB)": 70.5,
      "step": 45285,
      "token_acc": 0.925,
      "train_speed(iter/s)": 1.451788
    },
    {
      "epoch": 1.9403624523370893,
      "grad_norm": 10.58515453338623,
      "learning_rate": 6.722145655980304e-05,
      "loss": 0.2783386468887329,
      "memory(GiB)": 70.5,
      "step": 45290,
      "token_acc": 0.9240924092409241,
      "train_speed(iter/s)": 1.451794
    },
    {
      "epoch": 1.9405766676663383,
      "grad_norm": 3.569965362548828,
      "learning_rate": 6.721513840997878e-05,
      "loss": 0.3969924211502075,
      "memory(GiB)": 70.5,
      "step": 45295,
      "token_acc": 0.9140893470790378,
      "train_speed(iter/s)": 1.451794
    },
    {
      "epoch": 1.940790882995587,
      "grad_norm": 3.681288003921509,
      "learning_rate": 6.720881994828612e-05,
      "loss": 0.509169054031372,
      "memory(GiB)": 70.5,
      "step": 45300,
      "token_acc": 0.8866396761133604,
      "train_speed(iter/s)": 1.451805
    },
    {
      "epoch": 1.9410050983248361,
      "grad_norm": 2.98722505569458,
      "learning_rate": 6.720250117483956e-05,
      "loss": 0.5183483123779297,
      "memory(GiB)": 70.5,
      "step": 45305,
      "token_acc": 0.8873720136518771,
      "train_speed(iter/s)": 1.451795
    },
    {
      "epoch": 1.9412193136540852,
      "grad_norm": 5.668407440185547,
      "learning_rate": 6.719618208975355e-05,
      "loss": 0.5148998260498047,
      "memory(GiB)": 70.5,
      "step": 45310,
      "token_acc": 0.9015873015873016,
      "train_speed(iter/s)": 1.451796
    },
    {
      "epoch": 1.941433528983334,
      "grad_norm": 2.071547269821167,
      "learning_rate": 6.718986269314257e-05,
      "loss": 0.3433209419250488,
      "memory(GiB)": 70.5,
      "step": 45315,
      "token_acc": 0.9227941176470589,
      "train_speed(iter/s)": 1.451803
    },
    {
      "epoch": 1.941647744312583,
      "grad_norm": 2.3032753467559814,
      "learning_rate": 6.718354298512111e-05,
      "loss": 0.3925936698913574,
      "memory(GiB)": 70.5,
      "step": 45320,
      "token_acc": 0.9400749063670412,
      "train_speed(iter/s)": 1.451817
    },
    {
      "epoch": 1.941861959641832,
      "grad_norm": 1.4310706853866577,
      "learning_rate": 6.717722296580364e-05,
      "loss": 0.22864339351654053,
      "memory(GiB)": 70.5,
      "step": 45325,
      "token_acc": 0.9473684210526315,
      "train_speed(iter/s)": 1.451823
    },
    {
      "epoch": 1.9420761749710809,
      "grad_norm": 4.577850341796875,
      "learning_rate": 6.717090263530466e-05,
      "loss": 0.5222259521484375,
      "memory(GiB)": 70.5,
      "step": 45330,
      "token_acc": 0.8979591836734694,
      "train_speed(iter/s)": 1.45182
    },
    {
      "epoch": 1.94229039030033,
      "grad_norm": 2.3721232414245605,
      "learning_rate": 6.716458199373868e-05,
      "loss": 0.39238853454589845,
      "memory(GiB)": 70.5,
      "step": 45335,
      "token_acc": 0.8892508143322475,
      "train_speed(iter/s)": 1.451842
    },
    {
      "epoch": 1.942504605629579,
      "grad_norm": 3.1107490062713623,
      "learning_rate": 6.71582610412202e-05,
      "loss": 0.3132979393005371,
      "memory(GiB)": 70.5,
      "step": 45340,
      "token_acc": 0.9342105263157895,
      "train_speed(iter/s)": 1.451851
    },
    {
      "epoch": 1.9427188209588278,
      "grad_norm": 3.267244577407837,
      "learning_rate": 6.71519397778637e-05,
      "loss": 0.42044887542724607,
      "memory(GiB)": 70.5,
      "step": 45345,
      "token_acc": 0.9083665338645418,
      "train_speed(iter/s)": 1.451861
    },
    {
      "epoch": 1.9429330362880768,
      "grad_norm": 0.24007348716259003,
      "learning_rate": 6.714561820378375e-05,
      "loss": 0.3088704586029053,
      "memory(GiB)": 70.5,
      "step": 45350,
      "token_acc": 0.9581589958158996,
      "train_speed(iter/s)": 1.451865
    },
    {
      "epoch": 1.9431472516173258,
      "grad_norm": 4.681672096252441,
      "learning_rate": 6.713929631909483e-05,
      "loss": 0.3498310327529907,
      "memory(GiB)": 70.5,
      "step": 45355,
      "token_acc": 0.9163763066202091,
      "train_speed(iter/s)": 1.451869
    },
    {
      "epoch": 1.9433614669465746,
      "grad_norm": 5.731127738952637,
      "learning_rate": 6.713297412391148e-05,
      "loss": 0.4983759880065918,
      "memory(GiB)": 70.5,
      "step": 45360,
      "token_acc": 0.8844765342960289,
      "train_speed(iter/s)": 1.451882
    },
    {
      "epoch": 1.9435756822758237,
      "grad_norm": 4.680256366729736,
      "learning_rate": 6.712665161834822e-05,
      "loss": 0.4205026149749756,
      "memory(GiB)": 70.5,
      "step": 45365,
      "token_acc": 0.9094076655052264,
      "train_speed(iter/s)": 1.451911
    },
    {
      "epoch": 1.9437898976050727,
      "grad_norm": 2.2142794132232666,
      "learning_rate": 6.712032880251962e-05,
      "loss": 0.5960860252380371,
      "memory(GiB)": 70.5,
      "step": 45370,
      "token_acc": 0.9,
      "train_speed(iter/s)": 1.451922
    },
    {
      "epoch": 1.9440041129343215,
      "grad_norm": 1.6411354541778564,
      "learning_rate": 6.711400567654019e-05,
      "loss": 0.24636800289154054,
      "memory(GiB)": 70.5,
      "step": 45375,
      "token_acc": 0.9416909620991254,
      "train_speed(iter/s)": 1.45193
    },
    {
      "epoch": 1.9442183282635705,
      "grad_norm": 1.9471813440322876,
      "learning_rate": 6.710768224052451e-05,
      "loss": 0.3286593914031982,
      "memory(GiB)": 70.5,
      "step": 45380,
      "token_acc": 0.9480968858131488,
      "train_speed(iter/s)": 1.451922
    },
    {
      "epoch": 1.9444325435928196,
      "grad_norm": 3.4015767574310303,
      "learning_rate": 6.710135849458709e-05,
      "loss": 0.29661853313446046,
      "memory(GiB)": 70.5,
      "step": 45385,
      "token_acc": 0.9361022364217252,
      "train_speed(iter/s)": 1.45192
    },
    {
      "epoch": 1.9446467589220684,
      "grad_norm": 2.7002968788146973,
      "learning_rate": 6.709503443884255e-05,
      "loss": 0.5779501438140869,
      "memory(GiB)": 70.5,
      "step": 45390,
      "token_acc": 0.899641577060932,
      "train_speed(iter/s)": 1.45194
    },
    {
      "epoch": 1.9448609742513174,
      "grad_norm": 1.7622663974761963,
      "learning_rate": 6.708871007340541e-05,
      "loss": 0.2433779239654541,
      "memory(GiB)": 70.5,
      "step": 45395,
      "token_acc": 0.926605504587156,
      "train_speed(iter/s)": 1.451935
    },
    {
      "epoch": 1.9450751895805665,
      "grad_norm": 3.9232192039489746,
      "learning_rate": 6.708238539839025e-05,
      "loss": 0.6993198871612549,
      "memory(GiB)": 70.5,
      "step": 45400,
      "token_acc": 0.8739837398373984,
      "train_speed(iter/s)": 1.451954
    },
    {
      "epoch": 1.9452894049098153,
      "grad_norm": 8.363224983215332,
      "learning_rate": 6.707606041391165e-05,
      "loss": 0.45844459533691406,
      "memory(GiB)": 70.5,
      "step": 45405,
      "token_acc": 0.8937728937728938,
      "train_speed(iter/s)": 1.451967
    },
    {
      "epoch": 1.9455036202390643,
      "grad_norm": 2.2159972190856934,
      "learning_rate": 6.706973512008421e-05,
      "loss": 0.3295897006988525,
      "memory(GiB)": 70.5,
      "step": 45410,
      "token_acc": 0.9240506329113924,
      "train_speed(iter/s)": 1.451986
    },
    {
      "epoch": 1.9457178355683133,
      "grad_norm": 6.14854097366333,
      "learning_rate": 6.70634095170225e-05,
      "loss": 0.43574962615966795,
      "memory(GiB)": 70.5,
      "step": 45415,
      "token_acc": 0.9214876033057852,
      "train_speed(iter/s)": 1.451983
    },
    {
      "epoch": 1.9459320508975622,
      "grad_norm": 3.1121699810028076,
      "learning_rate": 6.705708360484111e-05,
      "loss": 0.3184756517410278,
      "memory(GiB)": 70.5,
      "step": 45420,
      "token_acc": 0.9341085271317829,
      "train_speed(iter/s)": 1.451977
    },
    {
      "epoch": 1.9461462662268112,
      "grad_norm": 12.031450271606445,
      "learning_rate": 6.705075738365468e-05,
      "loss": 0.2891284465789795,
      "memory(GiB)": 70.5,
      "step": 45425,
      "token_acc": 0.946843853820598,
      "train_speed(iter/s)": 1.451972
    },
    {
      "epoch": 1.9463604815560602,
      "grad_norm": 3.698270082473755,
      "learning_rate": 6.704443085357777e-05,
      "loss": 0.2842875957489014,
      "memory(GiB)": 70.5,
      "step": 45430,
      "token_acc": 0.946236559139785,
      "train_speed(iter/s)": 1.451982
    },
    {
      "epoch": 1.946574696885309,
      "grad_norm": 6.184753894805908,
      "learning_rate": 6.7038104014725e-05,
      "loss": 0.3130188465118408,
      "memory(GiB)": 70.5,
      "step": 45435,
      "token_acc": 0.9414225941422594,
      "train_speed(iter/s)": 1.451991
    },
    {
      "epoch": 1.946788912214558,
      "grad_norm": 3.0905404090881348,
      "learning_rate": 6.703177686721098e-05,
      "loss": 0.438897705078125,
      "memory(GiB)": 70.5,
      "step": 45440,
      "token_acc": 0.9195046439628483,
      "train_speed(iter/s)": 1.452002
    },
    {
      "epoch": 1.947003127543807,
      "grad_norm": 2.667320966720581,
      "learning_rate": 6.702544941115036e-05,
      "loss": 0.33676486015319823,
      "memory(GiB)": 70.5,
      "step": 45445,
      "token_acc": 0.9470198675496688,
      "train_speed(iter/s)": 1.452004
    },
    {
      "epoch": 1.947217342873056,
      "grad_norm": 2.2138543128967285,
      "learning_rate": 6.701912164665776e-05,
      "loss": 0.5606766223907471,
      "memory(GiB)": 70.5,
      "step": 45450,
      "token_acc": 0.8759398496240601,
      "train_speed(iter/s)": 1.452005
    },
    {
      "epoch": 1.947431558202305,
      "grad_norm": 1.3388304710388184,
      "learning_rate": 6.70127935738478e-05,
      "loss": 0.39470930099487306,
      "memory(GiB)": 70.5,
      "step": 45455,
      "token_acc": 0.9230769230769231,
      "train_speed(iter/s)": 1.452005
    },
    {
      "epoch": 1.947645773531554,
      "grad_norm": 1.1418355703353882,
      "learning_rate": 6.700646519283513e-05,
      "loss": 0.19720749855041503,
      "memory(GiB)": 70.5,
      "step": 45460,
      "token_acc": 0.9583333333333334,
      "train_speed(iter/s)": 1.452011
    },
    {
      "epoch": 1.9478599888608028,
      "grad_norm": 1.2554430961608887,
      "learning_rate": 6.700013650373438e-05,
      "loss": 0.31516208648681643,
      "memory(GiB)": 70.5,
      "step": 45465,
      "token_acc": 0.9085173501577287,
      "train_speed(iter/s)": 1.452005
    },
    {
      "epoch": 1.9480742041900518,
      "grad_norm": 2.6695430278778076,
      "learning_rate": 6.699380750666023e-05,
      "loss": 0.3350430965423584,
      "memory(GiB)": 70.5,
      "step": 45470,
      "token_acc": 0.933852140077821,
      "train_speed(iter/s)": 1.452009
    },
    {
      "epoch": 1.9482884195193009,
      "grad_norm": 0.7755566239356995,
      "learning_rate": 6.698747820172728e-05,
      "loss": 0.3913798570632935,
      "memory(GiB)": 70.5,
      "step": 45475,
      "token_acc": 0.919093851132686,
      "train_speed(iter/s)": 1.452024
    },
    {
      "epoch": 1.9485026348485497,
      "grad_norm": 3.7485904693603516,
      "learning_rate": 6.698114858905024e-05,
      "loss": 0.2254849672317505,
      "memory(GiB)": 70.5,
      "step": 45480,
      "token_acc": 0.9405594405594405,
      "train_speed(iter/s)": 1.452016
    },
    {
      "epoch": 1.9487168501777987,
      "grad_norm": 2.8903656005859375,
      "learning_rate": 6.697481866874377e-05,
      "loss": 0.37684292793273927,
      "memory(GiB)": 70.5,
      "step": 45485,
      "token_acc": 0.9230769230769231,
      "train_speed(iter/s)": 1.452029
    },
    {
      "epoch": 1.9489310655070478,
      "grad_norm": 3.5611822605133057,
      "learning_rate": 6.696848844092254e-05,
      "loss": 0.3155937433242798,
      "memory(GiB)": 70.5,
      "step": 45490,
      "token_acc": 0.9318885448916409,
      "train_speed(iter/s)": 1.452037
    },
    {
      "epoch": 1.9491452808362966,
      "grad_norm": 4.1729960441589355,
      "learning_rate": 6.696215790570122e-05,
      "loss": 0.3996626853942871,
      "memory(GiB)": 70.5,
      "step": 45495,
      "token_acc": 0.9139784946236559,
      "train_speed(iter/s)": 1.452051
    },
    {
      "epoch": 1.9493594961655456,
      "grad_norm": 3.4291858673095703,
      "learning_rate": 6.69558270631945e-05,
      "loss": 0.3574655771255493,
      "memory(GiB)": 70.5,
      "step": 45500,
      "token_acc": 0.9372693726937269,
      "train_speed(iter/s)": 1.452041
    },
    {
      "epoch": 1.9493594961655456,
      "eval_loss": 2.461495876312256,
      "eval_runtime": 13.9872,
      "eval_samples_per_second": 7.149,
      "eval_steps_per_second": 7.149,
      "eval_token_acc": 0.46551724137931033,
      "step": 45500
    },
    {
      "epoch": 1.9495737114947946,
      "grad_norm": 1.4339064359664917,
      "learning_rate": 6.694949591351706e-05,
      "loss": 0.24376363754272462,
      "memory(GiB)": 70.5,
      "step": 45505,
      "token_acc": 0.5943852855759922,
      "train_speed(iter/s)": 1.451373
    },
    {
      "epoch": 1.9497879268240434,
      "grad_norm": 3.793579339981079,
      "learning_rate": 6.694316445678363e-05,
      "loss": 0.22704267501831055,
      "memory(GiB)": 70.5,
      "step": 45510,
      "token_acc": 0.9578544061302682,
      "train_speed(iter/s)": 1.451374
    },
    {
      "epoch": 1.9500021421532925,
      "grad_norm": 3.6343114376068115,
      "learning_rate": 6.693683269310884e-05,
      "loss": 0.348048996925354,
      "memory(GiB)": 70.5,
      "step": 45515,
      "token_acc": 0.9163636363636364,
      "train_speed(iter/s)": 1.451368
    },
    {
      "epoch": 1.9502163574825415,
      "grad_norm": 3.080909252166748,
      "learning_rate": 6.693050062260747e-05,
      "loss": 0.48906478881835935,
      "memory(GiB)": 70.5,
      "step": 45520,
      "token_acc": 0.8987341772151899,
      "train_speed(iter/s)": 1.451366
    },
    {
      "epoch": 1.9504305728117903,
      "grad_norm": 4.848405838012695,
      "learning_rate": 6.692416824539418e-05,
      "loss": 0.34385249614715574,
      "memory(GiB)": 70.5,
      "step": 45525,
      "token_acc": 0.935251798561151,
      "train_speed(iter/s)": 1.45138
    },
    {
      "epoch": 1.9506447881410394,
      "grad_norm": 8.16375732421875,
      "learning_rate": 6.69178355615837e-05,
      "loss": 0.3943598985671997,
      "memory(GiB)": 70.5,
      "step": 45530,
      "token_acc": 0.917910447761194,
      "train_speed(iter/s)": 1.451422
    },
    {
      "epoch": 1.9508590034702884,
      "grad_norm": 3.05499005317688,
      "learning_rate": 6.691150257129077e-05,
      "loss": 0.5812463760375977,
      "memory(GiB)": 70.5,
      "step": 45535,
      "token_acc": 0.8784722222222222,
      "train_speed(iter/s)": 1.451426
    },
    {
      "epoch": 1.9510732187995372,
      "grad_norm": 4.708807945251465,
      "learning_rate": 6.690516927463012e-05,
      "loss": 0.43180408477783205,
      "memory(GiB)": 70.5,
      "step": 45540,
      "token_acc": 0.8986013986013986,
      "train_speed(iter/s)": 1.451443
    },
    {
      "epoch": 1.9512874341287862,
      "grad_norm": 11.820655822753906,
      "learning_rate": 6.689883567171646e-05,
      "loss": 0.6001622200012207,
      "memory(GiB)": 70.5,
      "step": 45545,
      "token_acc": 0.8550185873605948,
      "train_speed(iter/s)": 1.451463
    },
    {
      "epoch": 1.9515016494580353,
      "grad_norm": 3.0742766857147217,
      "learning_rate": 6.689250176266452e-05,
      "loss": 0.2992063283920288,
      "memory(GiB)": 70.5,
      "step": 45550,
      "token_acc": 0.9351535836177475,
      "train_speed(iter/s)": 1.451464
    },
    {
      "epoch": 1.951715864787284,
      "grad_norm": 0.18404535949230194,
      "learning_rate": 6.688616754758908e-05,
      "loss": 0.2822566986083984,
      "memory(GiB)": 70.5,
      "step": 45555,
      "token_acc": 0.9538461538461539,
      "train_speed(iter/s)": 1.451476
    },
    {
      "epoch": 1.9519300801165331,
      "grad_norm": 2.5942273139953613,
      "learning_rate": 6.687983302660487e-05,
      "loss": 0.220491361618042,
      "memory(GiB)": 70.5,
      "step": 45560,
      "token_acc": 0.9476744186046512,
      "train_speed(iter/s)": 1.451479
    },
    {
      "epoch": 1.9521442954457822,
      "grad_norm": 4.00173282623291,
      "learning_rate": 6.687349819982667e-05,
      "loss": 0.6753308296203613,
      "memory(GiB)": 70.5,
      "step": 45565,
      "token_acc": 0.8515151515151516,
      "train_speed(iter/s)": 1.45148
    },
    {
      "epoch": 1.952358510775031,
      "grad_norm": 1.291894555091858,
      "learning_rate": 6.686716306736921e-05,
      "loss": 0.43312649726867675,
      "memory(GiB)": 70.5,
      "step": 45570,
      "token_acc": 0.9102990033222591,
      "train_speed(iter/s)": 1.45148
    },
    {
      "epoch": 1.95257272610428,
      "grad_norm": 2.9749674797058105,
      "learning_rate": 6.686082762934725e-05,
      "loss": 0.31299073696136476,
      "memory(GiB)": 70.5,
      "step": 45575,
      "token_acc": 0.9217687074829932,
      "train_speed(iter/s)": 1.451495
    },
    {
      "epoch": 1.952786941433529,
      "grad_norm": 4.928858280181885,
      "learning_rate": 6.68544918858756e-05,
      "loss": 0.5175841331481934,
      "memory(GiB)": 70.5,
      "step": 45580,
      "token_acc": 0.8694158075601375,
      "train_speed(iter/s)": 1.451511
    },
    {
      "epoch": 1.9530011567627779,
      "grad_norm": 1.6920076608657837,
      "learning_rate": 6.684815583706902e-05,
      "loss": 0.12678853273391724,
      "memory(GiB)": 70.5,
      "step": 45585,
      "token_acc": 0.9700854700854701,
      "train_speed(iter/s)": 1.451504
    },
    {
      "epoch": 1.953215372092027,
      "grad_norm": 2.2498018741607666,
      "learning_rate": 6.684181948304228e-05,
      "loss": 0.21493816375732422,
      "memory(GiB)": 70.5,
      "step": 45590,
      "token_acc": 0.9465875370919882,
      "train_speed(iter/s)": 1.451514
    },
    {
      "epoch": 1.953429587421276,
      "grad_norm": 0.49199602007865906,
      "learning_rate": 6.683548282391019e-05,
      "loss": 0.2130990982055664,
      "memory(GiB)": 70.5,
      "step": 45595,
      "token_acc": 0.963076923076923,
      "train_speed(iter/s)": 1.451514
    },
    {
      "epoch": 1.9536438027505247,
      "grad_norm": 0.8551783561706543,
      "learning_rate": 6.682914585978754e-05,
      "loss": 0.5770214080810547,
      "memory(GiB)": 70.5,
      "step": 45600,
      "token_acc": 0.8923766816143498,
      "train_speed(iter/s)": 1.451535
    },
    {
      "epoch": 1.9538580180797738,
      "grad_norm": 0.2222834825515747,
      "learning_rate": 6.682280859078911e-05,
      "loss": 0.6972807884216309,
      "memory(GiB)": 70.5,
      "step": 45605,
      "token_acc": 0.8645833333333334,
      "train_speed(iter/s)": 1.451546
    },
    {
      "epoch": 1.9540722334090228,
      "grad_norm": 3.024155855178833,
      "learning_rate": 6.681647101702973e-05,
      "loss": 0.31195409297943116,
      "memory(GiB)": 70.5,
      "step": 45610,
      "token_acc": 0.9328621908127208,
      "train_speed(iter/s)": 1.451546
    },
    {
      "epoch": 1.9542864487382716,
      "grad_norm": 2.026484966278076,
      "learning_rate": 6.681013313862421e-05,
      "loss": 0.3188143730163574,
      "memory(GiB)": 70.5,
      "step": 45615,
      "token_acc": 0.9288389513108615,
      "train_speed(iter/s)": 1.451538
    },
    {
      "epoch": 1.9545006640675207,
      "grad_norm": 3.910100221633911,
      "learning_rate": 6.680379495568735e-05,
      "loss": 0.3633927345275879,
      "memory(GiB)": 70.5,
      "step": 45620,
      "token_acc": 0.9297520661157025,
      "train_speed(iter/s)": 1.45154
    },
    {
      "epoch": 1.9547148793967697,
      "grad_norm": 3.3132550716400146,
      "learning_rate": 6.679745646833397e-05,
      "loss": 0.45610551834106444,
      "memory(GiB)": 70.5,
      "step": 45625,
      "token_acc": 0.8947368421052632,
      "train_speed(iter/s)": 1.451542
    },
    {
      "epoch": 1.9549290947260185,
      "grad_norm": 3.0916318893432617,
      "learning_rate": 6.679111767667894e-05,
      "loss": 0.4024197578430176,
      "memory(GiB)": 70.5,
      "step": 45630,
      "token_acc": 0.9260700389105059,
      "train_speed(iter/s)": 1.451543
    },
    {
      "epoch": 1.9551433100552675,
      "grad_norm": 3.3756866455078125,
      "learning_rate": 6.678477858083703e-05,
      "loss": 0.5029620170593262,
      "memory(GiB)": 70.5,
      "step": 45635,
      "token_acc": 0.875,
      "train_speed(iter/s)": 1.451545
    },
    {
      "epoch": 1.9553575253845166,
      "grad_norm": 2.475494623184204,
      "learning_rate": 6.677843918092312e-05,
      "loss": 0.35249345302581786,
      "memory(GiB)": 70.5,
      "step": 45640,
      "token_acc": 0.9427480916030534,
      "train_speed(iter/s)": 1.451565
    },
    {
      "epoch": 1.9555717407137654,
      "grad_norm": 4.109879493713379,
      "learning_rate": 6.677209947705205e-05,
      "loss": 0.3237507104873657,
      "memory(GiB)": 70.5,
      "step": 45645,
      "token_acc": 0.946360153256705,
      "train_speed(iter/s)": 1.451568
    },
    {
      "epoch": 1.9557859560430144,
      "grad_norm": 1.6195130348205566,
      "learning_rate": 6.676575946933867e-05,
      "loss": 0.2068406581878662,
      "memory(GiB)": 70.5,
      "step": 45650,
      "token_acc": 0.9598393574297188,
      "train_speed(iter/s)": 1.451565
    },
    {
      "epoch": 1.9560001713722635,
      "grad_norm": 3.90722393989563,
      "learning_rate": 6.675941915789783e-05,
      "loss": 0.34683985710144044,
      "memory(GiB)": 70.5,
      "step": 45655,
      "token_acc": 0.8793103448275862,
      "train_speed(iter/s)": 1.451575
    },
    {
      "epoch": 1.9562143867015123,
      "grad_norm": 9.068275451660156,
      "learning_rate": 6.675307854284438e-05,
      "loss": 0.4110887050628662,
      "memory(GiB)": 70.5,
      "step": 45660,
      "token_acc": 0.9191919191919192,
      "train_speed(iter/s)": 1.45157
    },
    {
      "epoch": 1.9564286020307613,
      "grad_norm": 1.727604627609253,
      "learning_rate": 6.67467376242932e-05,
      "loss": 0.22727608680725098,
      "memory(GiB)": 70.5,
      "step": 45665,
      "token_acc": 0.9595141700404858,
      "train_speed(iter/s)": 1.451558
    },
    {
      "epoch": 1.9566428173600103,
      "grad_norm": 6.8562211990356445,
      "learning_rate": 6.674039640235917e-05,
      "loss": 0.5079395771026611,
      "memory(GiB)": 70.5,
      "step": 45670,
      "token_acc": 0.9020771513353115,
      "train_speed(iter/s)": 1.451575
    },
    {
      "epoch": 1.9568570326892591,
      "grad_norm": 2.737666130065918,
      "learning_rate": 6.673405487715713e-05,
      "loss": 0.41080517768859864,
      "memory(GiB)": 70.5,
      "step": 45675,
      "token_acc": 0.9221789883268483,
      "train_speed(iter/s)": 1.451577
    },
    {
      "epoch": 1.9570712480185082,
      "grad_norm": 1.6437915563583374,
      "learning_rate": 6.6727713048802e-05,
      "loss": 0.5270620822906494,
      "memory(GiB)": 70.5,
      "step": 45680,
      "token_acc": 0.8835616438356164,
      "train_speed(iter/s)": 1.451601
    },
    {
      "epoch": 1.9572854633477572,
      "grad_norm": 1.5522645711898804,
      "learning_rate": 6.672137091740867e-05,
      "loss": 0.2977179288864136,
      "memory(GiB)": 70.5,
      "step": 45685,
      "token_acc": 0.9288025889967637,
      "train_speed(iter/s)": 1.451636
    },
    {
      "epoch": 1.957499678677006,
      "grad_norm": 5.251926898956299,
      "learning_rate": 6.671502848309198e-05,
      "loss": 0.46374974250793455,
      "memory(GiB)": 70.5,
      "step": 45690,
      "token_acc": 0.9103448275862069,
      "train_speed(iter/s)": 1.451661
    },
    {
      "epoch": 1.957713894006255,
      "grad_norm": 5.072287559509277,
      "learning_rate": 6.670868574596691e-05,
      "loss": 0.29173433780670166,
      "memory(GiB)": 70.5,
      "step": 45695,
      "token_acc": 0.932806324110672,
      "train_speed(iter/s)": 1.45166
    },
    {
      "epoch": 1.957928109335504,
      "grad_norm": 3.6558425426483154,
      "learning_rate": 6.670234270614832e-05,
      "loss": 0.3732417583465576,
      "memory(GiB)": 70.5,
      "step": 45700,
      "token_acc": 0.921146953405018,
      "train_speed(iter/s)": 1.451651
    },
    {
      "epoch": 1.958142324664753,
      "grad_norm": 3.6292524337768555,
      "learning_rate": 6.66959993637511e-05,
      "loss": 0.21321563720703124,
      "memory(GiB)": 70.5,
      "step": 45705,
      "token_acc": 0.9548872180451128,
      "train_speed(iter/s)": 1.451672
    },
    {
      "epoch": 1.958356539994002,
      "grad_norm": 1.8277637958526611,
      "learning_rate": 6.668965571889021e-05,
      "loss": 0.22272706031799316,
      "memory(GiB)": 70.5,
      "step": 45710,
      "token_acc": 0.9555555555555556,
      "train_speed(iter/s)": 1.451666
    },
    {
      "epoch": 1.958570755323251,
      "grad_norm": 5.84249210357666,
      "learning_rate": 6.668331177168055e-05,
      "loss": 0.5070577144622803,
      "memory(GiB)": 70.5,
      "step": 45715,
      "token_acc": 0.8851851851851852,
      "train_speed(iter/s)": 1.451667
    },
    {
      "epoch": 1.9587849706524998,
      "grad_norm": 3.3885343074798584,
      "learning_rate": 6.667696752223703e-05,
      "loss": 0.28270366191864016,
      "memory(GiB)": 70.5,
      "step": 45720,
      "token_acc": 0.9397590361445783,
      "train_speed(iter/s)": 1.451673
    },
    {
      "epoch": 1.9589991859817488,
      "grad_norm": 3.228820562362671,
      "learning_rate": 6.667062297067462e-05,
      "loss": 0.46433076858520506,
      "memory(GiB)": 70.5,
      "step": 45725,
      "token_acc": 0.9009584664536742,
      "train_speed(iter/s)": 1.451685
    },
    {
      "epoch": 1.9592134013109979,
      "grad_norm": 0.08638256043195724,
      "learning_rate": 6.666427811710824e-05,
      "loss": 0.6300058841705323,
      "memory(GiB)": 70.5,
      "step": 45730,
      "token_acc": 0.8833333333333333,
      "train_speed(iter/s)": 1.451707
    },
    {
      "epoch": 1.9594276166402467,
      "grad_norm": 5.289611339569092,
      "learning_rate": 6.66579329616528e-05,
      "loss": 0.5301832675933837,
      "memory(GiB)": 70.5,
      "step": 45735,
      "token_acc": 0.8827586206896552,
      "train_speed(iter/s)": 1.451738
    },
    {
      "epoch": 1.9596418319694957,
      "grad_norm": 7.877406597137451,
      "learning_rate": 6.66515875044233e-05,
      "loss": 0.36732707023620603,
      "memory(GiB)": 70.5,
      "step": 45740,
      "token_acc": 0.940959409594096,
      "train_speed(iter/s)": 1.451741
    },
    {
      "epoch": 1.9598560472987447,
      "grad_norm": 1.2845335006713867,
      "learning_rate": 6.664524174553467e-05,
      "loss": 0.37143356800079347,
      "memory(GiB)": 70.5,
      "step": 45745,
      "token_acc": 0.9166666666666666,
      "train_speed(iter/s)": 1.451754
    },
    {
      "epoch": 1.9600702626279936,
      "grad_norm": 2.0356650352478027,
      "learning_rate": 6.663889568510186e-05,
      "loss": 0.2738390684127808,
      "memory(GiB)": 70.5,
      "step": 45750,
      "token_acc": 0.9386973180076629,
      "train_speed(iter/s)": 1.45179
    },
    {
      "epoch": 1.9602844779572426,
      "grad_norm": 0.40649619698524475,
      "learning_rate": 6.663254932323986e-05,
      "loss": 0.5274063587188721,
      "memory(GiB)": 70.5,
      "step": 45755,
      "token_acc": 0.8807947019867549,
      "train_speed(iter/s)": 1.451806
    },
    {
      "epoch": 1.9604986932864916,
      "grad_norm": 3.4884157180786133,
      "learning_rate": 6.662620266006361e-05,
      "loss": 0.43277945518493655,
      "memory(GiB)": 70.5,
      "step": 45760,
      "token_acc": 0.9129129129129129,
      "train_speed(iter/s)": 1.451815
    },
    {
      "epoch": 1.9607129086157404,
      "grad_norm": 1.4214472770690918,
      "learning_rate": 6.661985569568811e-05,
      "loss": 0.34862728118896485,
      "memory(GiB)": 70.5,
      "step": 45765,
      "token_acc": 0.938375350140056,
      "train_speed(iter/s)": 1.451812
    },
    {
      "epoch": 1.9609271239449895,
      "grad_norm": 3.514798641204834,
      "learning_rate": 6.661350843022833e-05,
      "loss": 0.5301523208618164,
      "memory(GiB)": 70.5,
      "step": 45770,
      "token_acc": 0.8862068965517241,
      "train_speed(iter/s)": 1.451844
    },
    {
      "epoch": 1.9611413392742385,
      "grad_norm": 1.8152719736099243,
      "learning_rate": 6.660716086379927e-05,
      "loss": 0.24348206520080568,
      "memory(GiB)": 70.5,
      "step": 45775,
      "token_acc": 0.9411764705882353,
      "train_speed(iter/s)": 1.451833
    },
    {
      "epoch": 1.9613555546034873,
      "grad_norm": 4.378045558929443,
      "learning_rate": 6.660081299651591e-05,
      "loss": 0.5558921337127686,
      "memory(GiB)": 70.5,
      "step": 45780,
      "token_acc": 0.8761904761904762,
      "train_speed(iter/s)": 1.45185
    },
    {
      "epoch": 1.9615697699327364,
      "grad_norm": 2.366605520248413,
      "learning_rate": 6.659446482849325e-05,
      "loss": 0.3117208003997803,
      "memory(GiB)": 70.5,
      "step": 45785,
      "token_acc": 0.9375,
      "train_speed(iter/s)": 1.451838
    },
    {
      "epoch": 1.9617839852619854,
      "grad_norm": 4.773201942443848,
      "learning_rate": 6.658811635984629e-05,
      "loss": 0.3832448720932007,
      "memory(GiB)": 70.5,
      "step": 45790,
      "token_acc": 0.9290540540540541,
      "train_speed(iter/s)": 1.451835
    },
    {
      "epoch": 1.9619982005912342,
      "grad_norm": 3.6083974838256836,
      "learning_rate": 6.658176759069004e-05,
      "loss": 0.442883825302124,
      "memory(GiB)": 70.5,
      "step": 45795,
      "token_acc": 0.8933823529411765,
      "train_speed(iter/s)": 1.451844
    },
    {
      "epoch": 1.9622124159204832,
      "grad_norm": 4.979638576507568,
      "learning_rate": 6.657541852113953e-05,
      "loss": 0.3515910625457764,
      "memory(GiB)": 70.5,
      "step": 45800,
      "token_acc": 0.916955017301038,
      "train_speed(iter/s)": 1.451836
    },
    {
      "epoch": 1.9624266312497323,
      "grad_norm": 6.419509410858154,
      "learning_rate": 6.656906915130975e-05,
      "loss": 0.40229454040527346,
      "memory(GiB)": 70.5,
      "step": 45805,
      "token_acc": 0.921311475409836,
      "train_speed(iter/s)": 1.451852
    },
    {
      "epoch": 1.962640846578981,
      "grad_norm": 0.2233155518770218,
      "learning_rate": 6.656271948131573e-05,
      "loss": 0.30745174884796145,
      "memory(GiB)": 70.5,
      "step": 45810,
      "token_acc": 0.9402985074626866,
      "train_speed(iter/s)": 1.451857
    },
    {
      "epoch": 1.9628550619082301,
      "grad_norm": 2.3602404594421387,
      "learning_rate": 6.655636951127254e-05,
      "loss": 0.28049089908599856,
      "memory(GiB)": 70.5,
      "step": 45815,
      "token_acc": 0.9343629343629344,
      "train_speed(iter/s)": 1.451859
    },
    {
      "epoch": 1.9630692772374791,
      "grad_norm": 1.0910837650299072,
      "learning_rate": 6.655001924129515e-05,
      "loss": 0.3440136671066284,
      "memory(GiB)": 70.5,
      "step": 45820,
      "token_acc": 0.934931506849315,
      "train_speed(iter/s)": 1.45186
    },
    {
      "epoch": 1.963283492566728,
      "grad_norm": 3.142814874649048,
      "learning_rate": 6.654366867149865e-05,
      "loss": 0.43267502784729006,
      "memory(GiB)": 70.5,
      "step": 45825,
      "token_acc": 0.9009584664536742,
      "train_speed(iter/s)": 1.451867
    },
    {
      "epoch": 1.963497707895977,
      "grad_norm": 4.200631141662598,
      "learning_rate": 6.653731780199807e-05,
      "loss": 0.4408390045166016,
      "memory(GiB)": 70.5,
      "step": 45830,
      "token_acc": 0.9172413793103448,
      "train_speed(iter/s)": 1.451874
    },
    {
      "epoch": 1.963711923225226,
      "grad_norm": 1.6949756145477295,
      "learning_rate": 6.653096663290847e-05,
      "loss": 0.2722727537155151,
      "memory(GiB)": 70.5,
      "step": 45835,
      "token_acc": 0.9494949494949495,
      "train_speed(iter/s)": 1.451872
    },
    {
      "epoch": 1.9639261385544748,
      "grad_norm": 3.9358861446380615,
      "learning_rate": 6.652461516434492e-05,
      "loss": 0.522749948501587,
      "memory(GiB)": 70.5,
      "step": 45840,
      "token_acc": 0.9057239057239057,
      "train_speed(iter/s)": 1.451874
    },
    {
      "epoch": 1.9641403538837239,
      "grad_norm": 2.494837522506714,
      "learning_rate": 6.651826339642243e-05,
      "loss": 0.5103562355041504,
      "memory(GiB)": 70.5,
      "step": 45845,
      "token_acc": 0.8795620437956204,
      "train_speed(iter/s)": 1.451874
    },
    {
      "epoch": 1.964354569212973,
      "grad_norm": 4.192636013031006,
      "learning_rate": 6.651191132925612e-05,
      "loss": 0.19972175359725952,
      "memory(GiB)": 70.5,
      "step": 45850,
      "token_acc": 0.9631336405529954,
      "train_speed(iter/s)": 1.451885
    },
    {
      "epoch": 1.9645687845422217,
      "grad_norm": 1.2645243406295776,
      "learning_rate": 6.650555896296104e-05,
      "loss": 0.5117164134979248,
      "memory(GiB)": 70.5,
      "step": 45855,
      "token_acc": 0.8900343642611683,
      "train_speed(iter/s)": 1.451906
    },
    {
      "epoch": 1.9647829998714708,
      "grad_norm": 2.548030138015747,
      "learning_rate": 6.649920629765229e-05,
      "loss": 0.22238707542419434,
      "memory(GiB)": 70.5,
      "step": 45860,
      "token_acc": 0.9458483754512635,
      "train_speed(iter/s)": 1.451912
    },
    {
      "epoch": 1.9649972152007198,
      "grad_norm": 3.9133105278015137,
      "learning_rate": 6.649285333344492e-05,
      "loss": 0.5177770614624023,
      "memory(GiB)": 70.5,
      "step": 45865,
      "token_acc": 0.8991935483870968,
      "train_speed(iter/s)": 1.451913
    },
    {
      "epoch": 1.9652114305299686,
      "grad_norm": 4.2154059410095215,
      "learning_rate": 6.648650007045407e-05,
      "loss": 0.43278074264526367,
      "memory(GiB)": 70.5,
      "step": 45870,
      "token_acc": 0.9069767441860465,
      "train_speed(iter/s)": 1.451917
    },
    {
      "epoch": 1.9654256458592176,
      "grad_norm": 4.186916828155518,
      "learning_rate": 6.648014650879479e-05,
      "loss": 0.39331774711608886,
      "memory(GiB)": 70.5,
      "step": 45875,
      "token_acc": 0.9124087591240876,
      "train_speed(iter/s)": 1.451938
    },
    {
      "epoch": 1.9656398611884667,
      "grad_norm": 5.34207820892334,
      "learning_rate": 6.64737926485822e-05,
      "loss": 0.4884763717651367,
      "memory(GiB)": 70.5,
      "step": 45880,
      "token_acc": 0.9163763066202091,
      "train_speed(iter/s)": 1.451947
    },
    {
      "epoch": 1.9658540765177155,
      "grad_norm": 5.090673446655273,
      "learning_rate": 6.646743848993139e-05,
      "loss": 0.3983408689498901,
      "memory(GiB)": 70.5,
      "step": 45885,
      "token_acc": 0.9140127388535032,
      "train_speed(iter/s)": 1.451948
    },
    {
      "epoch": 1.9660682918469645,
      "grad_norm": 0.09216241538524628,
      "learning_rate": 6.64610840329575e-05,
      "loss": 0.17084946632385253,
      "memory(GiB)": 70.5,
      "step": 45890,
      "token_acc": 0.956081081081081,
      "train_speed(iter/s)": 1.451967
    },
    {
      "epoch": 1.9662825071762136,
      "grad_norm": 6.008804798126221,
      "learning_rate": 6.64547292777756e-05,
      "loss": 0.2209157705307007,
      "memory(GiB)": 70.5,
      "step": 45895,
      "token_acc": 0.9497716894977168,
      "train_speed(iter/s)": 1.451964
    },
    {
      "epoch": 1.9664967225054624,
      "grad_norm": 4.143402099609375,
      "learning_rate": 6.644837422450087e-05,
      "loss": 0.2665811061859131,
      "memory(GiB)": 70.5,
      "step": 45900,
      "token_acc": 0.934931506849315,
      "train_speed(iter/s)": 1.451968
    },
    {
      "epoch": 1.9667109378347114,
      "grad_norm": 3.266660451889038,
      "learning_rate": 6.644201887324841e-05,
      "loss": 0.6753283977508545,
      "memory(GiB)": 70.5,
      "step": 45905,
      "token_acc": 0.8566775244299675,
      "train_speed(iter/s)": 1.451963
    },
    {
      "epoch": 1.9669251531639604,
      "grad_norm": 2.3650951385498047,
      "learning_rate": 6.643566322413336e-05,
      "loss": 0.44538125991821287,
      "memory(GiB)": 70.5,
      "step": 45910,
      "token_acc": 0.9015151515151515,
      "train_speed(iter/s)": 1.451964
    },
    {
      "epoch": 1.9671393684932093,
      "grad_norm": 4.3517045974731445,
      "learning_rate": 6.642930727727085e-05,
      "loss": 0.34755916595458985,
      "memory(GiB)": 70.5,
      "step": 45915,
      "token_acc": 0.9183006535947712,
      "train_speed(iter/s)": 1.451967
    },
    {
      "epoch": 1.9673535838224583,
      "grad_norm": 7.659725189208984,
      "learning_rate": 6.642295103277602e-05,
      "loss": 0.4132052421569824,
      "memory(GiB)": 70.5,
      "step": 45920,
      "token_acc": 0.906158357771261,
      "train_speed(iter/s)": 1.451964
    },
    {
      "epoch": 1.9675677991517073,
      "grad_norm": 4.894577980041504,
      "learning_rate": 6.641659449076401e-05,
      "loss": 0.5867265224456787,
      "memory(GiB)": 70.5,
      "step": 45925,
      "token_acc": 0.8888888888888888,
      "train_speed(iter/s)": 1.451983
    },
    {
      "epoch": 1.9677820144809561,
      "grad_norm": 3.6215994358062744,
      "learning_rate": 6.641023765135001e-05,
      "loss": 0.5232521533966065,
      "memory(GiB)": 70.5,
      "step": 45930,
      "token_acc": 0.890728476821192,
      "train_speed(iter/s)": 1.451995
    },
    {
      "epoch": 1.9679962298102052,
      "grad_norm": 3.8248064517974854,
      "learning_rate": 6.640388051464917e-05,
      "loss": 0.41985383033752444,
      "memory(GiB)": 70.5,
      "step": 45935,
      "token_acc": 0.9161490683229814,
      "train_speed(iter/s)": 1.452003
    },
    {
      "epoch": 1.9682104451394542,
      "grad_norm": 0.36894097924232483,
      "learning_rate": 6.639752308077662e-05,
      "loss": 0.3084916353225708,
      "memory(GiB)": 70.5,
      "step": 45940,
      "token_acc": 0.9419795221843004,
      "train_speed(iter/s)": 1.452009
    },
    {
      "epoch": 1.968424660468703,
      "grad_norm": 2.847372531890869,
      "learning_rate": 6.639116534984758e-05,
      "loss": 0.47753682136535647,
      "memory(GiB)": 70.5,
      "step": 45945,
      "token_acc": 0.8695652173913043,
      "train_speed(iter/s)": 1.452024
    },
    {
      "epoch": 1.968638875797952,
      "grad_norm": 2.8408849239349365,
      "learning_rate": 6.63848073219772e-05,
      "loss": 0.34610486030578613,
      "memory(GiB)": 70.5,
      "step": 45950,
      "token_acc": 0.9097472924187726,
      "train_speed(iter/s)": 1.452025
    },
    {
      "epoch": 1.968853091127201,
      "grad_norm": 5.100044250488281,
      "learning_rate": 6.637844899728065e-05,
      "loss": 0.6507465362548828,
      "memory(GiB)": 70.5,
      "step": 45955,
      "token_acc": 0.8466666666666667,
      "train_speed(iter/s)": 1.452033
    },
    {
      "epoch": 1.96906730645645,
      "grad_norm": 0.4308326840400696,
      "learning_rate": 6.637209037587315e-05,
      "loss": 0.5233535766601562,
      "memory(GiB)": 70.5,
      "step": 45960,
      "token_acc": 0.8964285714285715,
      "train_speed(iter/s)": 1.452032
    },
    {
      "epoch": 1.969281521785699,
      "grad_norm": 2.483266830444336,
      "learning_rate": 6.636573145786987e-05,
      "loss": 0.4350834846496582,
      "memory(GiB)": 70.5,
      "step": 45965,
      "token_acc": 0.8954248366013072,
      "train_speed(iter/s)": 1.452029
    },
    {
      "epoch": 1.969495737114948,
      "grad_norm": 2.5400688648223877,
      "learning_rate": 6.635937224338601e-05,
      "loss": 0.6838459014892578,
      "memory(GiB)": 70.5,
      "step": 45970,
      "token_acc": 0.8552188552188552,
      "train_speed(iter/s)": 1.452031
    },
    {
      "epoch": 1.9697099524441968,
      "grad_norm": 4.282803535461426,
      "learning_rate": 6.635301273253678e-05,
      "loss": 0.7741165161132812,
      "memory(GiB)": 70.5,
      "step": 45975,
      "token_acc": 0.8535825545171339,
      "train_speed(iter/s)": 1.452048
    },
    {
      "epoch": 1.969924167773446,
      "grad_norm": 1.3523943424224854,
      "learning_rate": 6.634665292543737e-05,
      "loss": 0.3252854585647583,
      "memory(GiB)": 70.5,
      "step": 45980,
      "token_acc": 0.933993399339934,
      "train_speed(iter/s)": 1.452053
    },
    {
      "epoch": 1.9701383831026948,
      "grad_norm": 4.03738260269165,
      "learning_rate": 6.634029282220303e-05,
      "loss": 0.31678147315979005,
      "memory(GiB)": 70.5,
      "step": 45985,
      "token_acc": 0.9326241134751773,
      "train_speed(iter/s)": 1.452066
    },
    {
      "epoch": 1.9703525984319437,
      "grad_norm": 7.75169563293457,
      "learning_rate": 6.633393242294894e-05,
      "loss": 0.6460024356842041,
      "memory(GiB)": 70.5,
      "step": 45990,
      "token_acc": 0.8613861386138614,
      "train_speed(iter/s)": 1.4521
    },
    {
      "epoch": 1.970566813761193,
      "grad_norm": 6.479301452636719,
      "learning_rate": 6.632757172779034e-05,
      "loss": 0.43602991104125977,
      "memory(GiB)": 70.5,
      "step": 45995,
      "token_acc": 0.9255663430420712,
      "train_speed(iter/s)": 1.452098
    },
    {
      "epoch": 1.9707810290904417,
      "grad_norm": 0.5155187249183655,
      "learning_rate": 6.632121073684246e-05,
      "loss": 0.407031774520874,
      "memory(GiB)": 70.5,
      "step": 46000,
      "token_acc": 0.9242424242424242,
      "train_speed(iter/s)": 1.452115
    },
    {
      "epoch": 1.9707810290904417,
      "eval_loss": 2.3190441131591797,
      "eval_runtime": 14.2497,
      "eval_samples_per_second": 7.018,
      "eval_steps_per_second": 7.018,
      "eval_token_acc": 0.4498186215235792,
      "step": 46000
    },
    {
      "epoch": 1.9709952444196905,
      "grad_norm": 4.2860026359558105,
      "learning_rate": 6.631484945022055e-05,
      "loss": 0.40054750442504883,
      "memory(GiB)": 70.5,
      "step": 46005,
      "token_acc": 0.56353591160221,
      "train_speed(iter/s)": 1.451415
    },
    {
      "epoch": 1.9712094597489398,
      "grad_norm": 2.994234085083008,
      "learning_rate": 6.630848786803983e-05,
      "loss": 0.5646192550659179,
      "memory(GiB)": 70.5,
      "step": 46010,
      "token_acc": 0.8681672025723473,
      "train_speed(iter/s)": 1.451411
    },
    {
      "epoch": 1.9714236750781886,
      "grad_norm": 4.021666049957275,
      "learning_rate": 6.630212599041556e-05,
      "loss": 0.5239994525909424,
      "memory(GiB)": 70.5,
      "step": 46015,
      "token_acc": 0.8945578231292517,
      "train_speed(iter/s)": 1.451427
    },
    {
      "epoch": 1.9716378904074374,
      "grad_norm": 4.510948657989502,
      "learning_rate": 6.629576381746299e-05,
      "loss": 0.6414666652679444,
      "memory(GiB)": 70.5,
      "step": 46020,
      "token_acc": 0.8680981595092024,
      "train_speed(iter/s)": 1.451428
    },
    {
      "epoch": 1.9718521057366867,
      "grad_norm": 3.978959083557129,
      "learning_rate": 6.628940134929736e-05,
      "loss": 0.41211299896240233,
      "memory(GiB)": 70.5,
      "step": 46025,
      "token_acc": 0.9,
      "train_speed(iter/s)": 1.451427
    },
    {
      "epoch": 1.9720663210659355,
      "grad_norm": 0.5697994828224182,
      "learning_rate": 6.628303858603395e-05,
      "loss": 0.5182897567749023,
      "memory(GiB)": 70.5,
      "step": 46030,
      "token_acc": 0.8865248226950354,
      "train_speed(iter/s)": 1.451426
    },
    {
      "epoch": 1.9722805363951843,
      "grad_norm": 2.9070394039154053,
      "learning_rate": 6.627667552778802e-05,
      "loss": 0.3879220962524414,
      "memory(GiB)": 70.5,
      "step": 46035,
      "token_acc": 0.9163987138263665,
      "train_speed(iter/s)": 1.451435
    },
    {
      "epoch": 1.9724947517244336,
      "grad_norm": 2.103632926940918,
      "learning_rate": 6.627031217467484e-05,
      "loss": 0.5640363693237305,
      "memory(GiB)": 70.5,
      "step": 46040,
      "token_acc": 0.8791946308724832,
      "train_speed(iter/s)": 1.451459
    },
    {
      "epoch": 1.9727089670536824,
      "grad_norm": 3.59536075592041,
      "learning_rate": 6.626394852680968e-05,
      "loss": 0.3246379137039185,
      "memory(GiB)": 70.5,
      "step": 46045,
      "token_acc": 0.916030534351145,
      "train_speed(iter/s)": 1.451464
    },
    {
      "epoch": 1.9729231823829312,
      "grad_norm": 3.1143598556518555,
      "learning_rate": 6.625758458430785e-05,
      "loss": 0.5442780494689942,
      "memory(GiB)": 70.5,
      "step": 46050,
      "token_acc": 0.8802816901408451,
      "train_speed(iter/s)": 1.451476
    },
    {
      "epoch": 1.9731373977121804,
      "grad_norm": 2.9375319480895996,
      "learning_rate": 6.625122034728463e-05,
      "loss": 0.7214717388153076,
      "memory(GiB)": 70.5,
      "step": 46055,
      "token_acc": 0.8482142857142857,
      "train_speed(iter/s)": 1.451487
    },
    {
      "epoch": 1.9733516130414293,
      "grad_norm": 1.588377594947815,
      "learning_rate": 6.624485581585531e-05,
      "loss": 0.29381797313690183,
      "memory(GiB)": 70.5,
      "step": 46060,
      "token_acc": 0.9171428571428571,
      "train_speed(iter/s)": 1.451478
    },
    {
      "epoch": 1.973565828370678,
      "grad_norm": 3.992398977279663,
      "learning_rate": 6.623849099013517e-05,
      "loss": 0.7107771873474121,
      "memory(GiB)": 70.5,
      "step": 46065,
      "token_acc": 0.8557993730407524,
      "train_speed(iter/s)": 1.451475
    },
    {
      "epoch": 1.9737800436999273,
      "grad_norm": 3.390859842300415,
      "learning_rate": 6.623212587023955e-05,
      "loss": 0.4847549915313721,
      "memory(GiB)": 70.5,
      "step": 46070,
      "token_acc": 0.8843283582089553,
      "train_speed(iter/s)": 1.451487
    },
    {
      "epoch": 1.9739942590291761,
      "grad_norm": 6.128483772277832,
      "learning_rate": 6.622576045628374e-05,
      "loss": 0.2754200458526611,
      "memory(GiB)": 70.5,
      "step": 46075,
      "token_acc": 0.9471698113207547,
      "train_speed(iter/s)": 1.451488
    },
    {
      "epoch": 1.974208474358425,
      "grad_norm": 5.416232109069824,
      "learning_rate": 6.621939474838304e-05,
      "loss": 0.6260978698730468,
      "memory(GiB)": 70.5,
      "step": 46080,
      "token_acc": 0.8754325259515571,
      "train_speed(iter/s)": 1.451496
    },
    {
      "epoch": 1.9744226896876742,
      "grad_norm": 3.581355571746826,
      "learning_rate": 6.621302874665282e-05,
      "loss": 0.6167004585266114,
      "memory(GiB)": 70.5,
      "step": 46085,
      "token_acc": 0.86084142394822,
      "train_speed(iter/s)": 1.451499
    },
    {
      "epoch": 1.974636905016923,
      "grad_norm": 0.8004480004310608,
      "learning_rate": 6.620666245120836e-05,
      "loss": 0.16374752521514893,
      "memory(GiB)": 70.5,
      "step": 46090,
      "token_acc": 0.9693251533742331,
      "train_speed(iter/s)": 1.451505
    },
    {
      "epoch": 1.9748511203461718,
      "grad_norm": 2.779630184173584,
      "learning_rate": 6.620029586216499e-05,
      "loss": 0.34546589851379395,
      "memory(GiB)": 70.5,
      "step": 46095,
      "token_acc": 0.9084745762711864,
      "train_speed(iter/s)": 1.451524
    },
    {
      "epoch": 1.975065335675421,
      "grad_norm": 4.7452712059021,
      "learning_rate": 6.61939289796381e-05,
      "loss": 0.4114570140838623,
      "memory(GiB)": 70.5,
      "step": 46100,
      "token_acc": 0.9145907473309609,
      "train_speed(iter/s)": 1.451545
    },
    {
      "epoch": 1.97527955100467,
      "grad_norm": 4.521687030792236,
      "learning_rate": 6.618756180374295e-05,
      "loss": 0.43131537437438966,
      "memory(GiB)": 70.5,
      "step": 46105,
      "token_acc": 0.9177215189873418,
      "train_speed(iter/s)": 1.451561
    },
    {
      "epoch": 1.9754937663339187,
      "grad_norm": 1.508616328239441,
      "learning_rate": 6.618119433459496e-05,
      "loss": 0.10511970520019531,
      "memory(GiB)": 70.5,
      "step": 46110,
      "token_acc": 0.9764705882352941,
      "train_speed(iter/s)": 1.451568
    },
    {
      "epoch": 1.975707981663168,
      "grad_norm": 5.062739849090576,
      "learning_rate": 6.617482657230945e-05,
      "loss": 0.32379651069641113,
      "memory(GiB)": 70.5,
      "step": 46115,
      "token_acc": 0.9317507418397626,
      "train_speed(iter/s)": 1.451572
    },
    {
      "epoch": 1.9759221969924168,
      "grad_norm": 3.4052891731262207,
      "learning_rate": 6.61684585170018e-05,
      "loss": 0.28129193782806394,
      "memory(GiB)": 70.5,
      "step": 46120,
      "token_acc": 0.9391025641025641,
      "train_speed(iter/s)": 1.451585
    },
    {
      "epoch": 1.9761364123216656,
      "grad_norm": 0.5443854331970215,
      "learning_rate": 6.616209016878733e-05,
      "loss": 0.5785437107086182,
      "memory(GiB)": 70.5,
      "step": 46125,
      "token_acc": 0.887719298245614,
      "train_speed(iter/s)": 1.451613
    },
    {
      "epoch": 1.9763506276509148,
      "grad_norm": 6.342444896697998,
      "learning_rate": 6.615572152778147e-05,
      "loss": 0.4468189239501953,
      "memory(GiB)": 70.5,
      "step": 46130,
      "token_acc": 0.9247311827956989,
      "train_speed(iter/s)": 1.451611
    },
    {
      "epoch": 1.9765648429801637,
      "grad_norm": 1.0896060466766357,
      "learning_rate": 6.614935259409954e-05,
      "loss": 0.1676504373550415,
      "memory(GiB)": 70.5,
      "step": 46135,
      "token_acc": 0.9652777777777778,
      "train_speed(iter/s)": 1.451619
    },
    {
      "epoch": 1.9767790583094125,
      "grad_norm": 0.9435102343559265,
      "learning_rate": 6.614298336785692e-05,
      "loss": 0.17770780324935914,
      "memory(GiB)": 70.5,
      "step": 46140,
      "token_acc": 0.9601328903654485,
      "train_speed(iter/s)": 1.451618
    },
    {
      "epoch": 1.9769932736386617,
      "grad_norm": 1.802048921585083,
      "learning_rate": 6.613661384916902e-05,
      "loss": 0.4724776268005371,
      "memory(GiB)": 70.5,
      "step": 46145,
      "token_acc": 0.9101123595505618,
      "train_speed(iter/s)": 1.451618
    },
    {
      "epoch": 1.9772074889679105,
      "grad_norm": 5.3741044998168945,
      "learning_rate": 6.613024403815125e-05,
      "loss": 0.54361891746521,
      "memory(GiB)": 70.5,
      "step": 46150,
      "token_acc": 0.8722741433021807,
      "train_speed(iter/s)": 1.451633
    },
    {
      "epoch": 1.9774217042971594,
      "grad_norm": 3.99656343460083,
      "learning_rate": 6.612387393491894e-05,
      "loss": 0.5505693912506103,
      "memory(GiB)": 70.5,
      "step": 46155,
      "token_acc": 0.8875,
      "train_speed(iter/s)": 1.451622
    },
    {
      "epoch": 1.9776359196264086,
      "grad_norm": 0.8283351063728333,
      "learning_rate": 6.611750353958757e-05,
      "loss": 0.3092385768890381,
      "memory(GiB)": 70.5,
      "step": 46160,
      "token_acc": 0.9247311827956989,
      "train_speed(iter/s)": 1.451625
    },
    {
      "epoch": 1.9778501349556574,
      "grad_norm": 0.4761351943016052,
      "learning_rate": 6.611113285227247e-05,
      "loss": 0.17326265573501587,
      "memory(GiB)": 70.5,
      "step": 46165,
      "token_acc": 0.9667774086378738,
      "train_speed(iter/s)": 1.451624
    },
    {
      "epoch": 1.9780643502849062,
      "grad_norm": 2.8589274883270264,
      "learning_rate": 6.610476187308909e-05,
      "loss": 0.5593883037567139,
      "memory(GiB)": 70.5,
      "step": 46170,
      "token_acc": 0.877742946708464,
      "train_speed(iter/s)": 1.451628
    },
    {
      "epoch": 1.9782785656141555,
      "grad_norm": 1.06501042842865,
      "learning_rate": 6.609839060215287e-05,
      "loss": 0.41413192749023436,
      "memory(GiB)": 70.5,
      "step": 46175,
      "token_acc": 0.9143835616438356,
      "train_speed(iter/s)": 1.451628
    },
    {
      "epoch": 1.9784927809434043,
      "grad_norm": 0.21492111682891846,
      "learning_rate": 6.609201903957916e-05,
      "loss": 0.12903913259506225,
      "memory(GiB)": 70.5,
      "step": 46180,
      "token_acc": 0.9632107023411371,
      "train_speed(iter/s)": 1.451628
    },
    {
      "epoch": 1.9787069962726531,
      "grad_norm": 2.301981210708618,
      "learning_rate": 6.608564718548344e-05,
      "loss": 0.3194176435470581,
      "memory(GiB)": 70.5,
      "step": 46185,
      "token_acc": 0.9430379746835443,
      "train_speed(iter/s)": 1.451624
    },
    {
      "epoch": 1.9789212116019024,
      "grad_norm": 2.567511796951294,
      "learning_rate": 6.607927503998116e-05,
      "loss": 0.5392478466033935,
      "memory(GiB)": 70.5,
      "step": 46190,
      "token_acc": 0.8692579505300353,
      "train_speed(iter/s)": 1.451615
    },
    {
      "epoch": 1.9791354269311512,
      "grad_norm": 3.1259682178497314,
      "learning_rate": 6.607290260318771e-05,
      "loss": 0.2878118991851807,
      "memory(GiB)": 70.5,
      "step": 46195,
      "token_acc": 0.924,
      "train_speed(iter/s)": 1.451615
    },
    {
      "epoch": 1.9793496422604,
      "grad_norm": 2.629014015197754,
      "learning_rate": 6.606652987521855e-05,
      "loss": 0.17795965671539307,
      "memory(GiB)": 70.5,
      "step": 46200,
      "token_acc": 0.96,
      "train_speed(iter/s)": 1.451614
    },
    {
      "epoch": 1.9795638575896493,
      "grad_norm": 1.0812666416168213,
      "learning_rate": 6.606015685618913e-05,
      "loss": 0.2625499963760376,
      "memory(GiB)": 70.5,
      "step": 46205,
      "token_acc": 0.9228070175438596,
      "train_speed(iter/s)": 1.45161
    },
    {
      "epoch": 1.979778072918898,
      "grad_norm": 1.392549753189087,
      "learning_rate": 6.60537835462149e-05,
      "loss": 0.1989372730255127,
      "memory(GiB)": 70.5,
      "step": 46210,
      "token_acc": 0.9570552147239264,
      "train_speed(iter/s)": 1.45161
    },
    {
      "epoch": 1.9799922882481469,
      "grad_norm": 4.649178981781006,
      "learning_rate": 6.604740994541133e-05,
      "loss": 0.7156996726989746,
      "memory(GiB)": 70.5,
      "step": 46215,
      "token_acc": 0.8598484848484849,
      "train_speed(iter/s)": 1.451611
    },
    {
      "epoch": 1.9802065035773961,
      "grad_norm": 5.195955276489258,
      "learning_rate": 6.604103605389387e-05,
      "loss": 0.28867175579071047,
      "memory(GiB)": 70.5,
      "step": 46220,
      "token_acc": 0.9296296296296296,
      "train_speed(iter/s)": 1.451625
    },
    {
      "epoch": 1.980420718906645,
      "grad_norm": 4.638171672821045,
      "learning_rate": 6.603466187177799e-05,
      "loss": 0.4302785396575928,
      "memory(GiB)": 70.5,
      "step": 46225,
      "token_acc": 0.9335664335664335,
      "train_speed(iter/s)": 1.451636
    },
    {
      "epoch": 1.9806349342358938,
      "grad_norm": 1.6927862167358398,
      "learning_rate": 6.602828739917919e-05,
      "loss": 0.41229805946350095,
      "memory(GiB)": 70.5,
      "step": 46230,
      "token_acc": 0.8989169675090253,
      "train_speed(iter/s)": 1.451636
    },
    {
      "epoch": 1.980849149565143,
      "grad_norm": 2.061087131500244,
      "learning_rate": 6.602191263621291e-05,
      "loss": 0.26194565296173095,
      "memory(GiB)": 70.5,
      "step": 46235,
      "token_acc": 0.9411764705882353,
      "train_speed(iter/s)": 1.451641
    },
    {
      "epoch": 1.9810633648943918,
      "grad_norm": 4.025881767272949,
      "learning_rate": 6.601553758299465e-05,
      "loss": 0.33765835762023927,
      "memory(GiB)": 70.5,
      "step": 46240,
      "token_acc": 0.9114754098360656,
      "train_speed(iter/s)": 1.451649
    },
    {
      "epoch": 1.9812775802236406,
      "grad_norm": 0.9659358263015747,
      "learning_rate": 6.60091622396399e-05,
      "loss": 0.16636757850646972,
      "memory(GiB)": 70.5,
      "step": 46245,
      "token_acc": 0.95578231292517,
      "train_speed(iter/s)": 1.451651
    },
    {
      "epoch": 1.98149179555289,
      "grad_norm": 5.939847469329834,
      "learning_rate": 6.600278660626418e-05,
      "loss": 0.3222966194152832,
      "memory(GiB)": 70.5,
      "step": 46250,
      "token_acc": 0.9314079422382672,
      "train_speed(iter/s)": 1.451653
    },
    {
      "epoch": 1.9817060108821387,
      "grad_norm": 0.6866821050643921,
      "learning_rate": 6.599641068298295e-05,
      "loss": 0.08605865240097046,
      "memory(GiB)": 70.5,
      "step": 46255,
      "token_acc": 0.9690721649484536,
      "train_speed(iter/s)": 1.45166
    },
    {
      "epoch": 1.9819202262113875,
      "grad_norm": 0.5480974912643433,
      "learning_rate": 6.599003446991174e-05,
      "loss": 0.25409183502197263,
      "memory(GiB)": 70.5,
      "step": 46260,
      "token_acc": 0.9450980392156862,
      "train_speed(iter/s)": 1.451666
    },
    {
      "epoch": 1.9821344415406368,
      "grad_norm": 5.3887810707092285,
      "learning_rate": 6.598365796716606e-05,
      "loss": 0.24451639652252197,
      "memory(GiB)": 70.5,
      "step": 46265,
      "token_acc": 0.9518900343642611,
      "train_speed(iter/s)": 1.451673
    },
    {
      "epoch": 1.9823486568698856,
      "grad_norm": 3.0823020935058594,
      "learning_rate": 6.597728117486141e-05,
      "loss": 0.2866310358047485,
      "memory(GiB)": 70.5,
      "step": 46270,
      "token_acc": 0.9354838709677419,
      "train_speed(iter/s)": 1.451676
    },
    {
      "epoch": 1.9825628721991344,
      "grad_norm": 3.1736109256744385,
      "learning_rate": 6.597090409311334e-05,
      "loss": 0.2864938020706177,
      "memory(GiB)": 70.5,
      "step": 46275,
      "token_acc": 0.9436619718309859,
      "train_speed(iter/s)": 1.451678
    },
    {
      "epoch": 1.9827770875283837,
      "grad_norm": 3.6052908897399902,
      "learning_rate": 6.596452672203736e-05,
      "loss": 0.7528653621673584,
      "memory(GiB)": 70.5,
      "step": 46280,
      "token_acc": 0.8426966292134831,
      "train_speed(iter/s)": 1.451684
    },
    {
      "epoch": 1.9829913028576325,
      "grad_norm": 2.5330071449279785,
      "learning_rate": 6.595814906174898e-05,
      "loss": 0.46064534187316897,
      "memory(GiB)": 70.5,
      "step": 46285,
      "token_acc": 0.879746835443038,
      "train_speed(iter/s)": 1.45169
    },
    {
      "epoch": 1.9832055181868813,
      "grad_norm": 3.11877179145813,
      "learning_rate": 6.595177111236377e-05,
      "loss": 0.4346020698547363,
      "memory(GiB)": 70.5,
      "step": 46290,
      "token_acc": 0.911660777385159,
      "train_speed(iter/s)": 1.451689
    },
    {
      "epoch": 1.9834197335161305,
      "grad_norm": 2.7292861938476562,
      "learning_rate": 6.594539287399727e-05,
      "loss": 0.5171435832977295,
      "memory(GiB)": 70.5,
      "step": 46295,
      "token_acc": 0.8780487804878049,
      "train_speed(iter/s)": 1.451713
    },
    {
      "epoch": 1.9836339488453794,
      "grad_norm": 4.2494730949401855,
      "learning_rate": 6.593901434676502e-05,
      "loss": 0.5712735652923584,
      "memory(GiB)": 70.5,
      "step": 46300,
      "token_acc": 0.8648648648648649,
      "train_speed(iter/s)": 1.451706
    },
    {
      "epoch": 1.9838481641746282,
      "grad_norm": 0.05672677606344223,
      "learning_rate": 6.593263553078257e-05,
      "loss": 0.46612725257873533,
      "memory(GiB)": 70.5,
      "step": 46305,
      "token_acc": 0.9093655589123867,
      "train_speed(iter/s)": 1.451705
    },
    {
      "epoch": 1.9840623795038774,
      "grad_norm": 2.643482208251953,
      "learning_rate": 6.592625642616546e-05,
      "loss": 0.2881277561187744,
      "memory(GiB)": 70.5,
      "step": 46310,
      "token_acc": 0.9305555555555556,
      "train_speed(iter/s)": 1.451712
    },
    {
      "epoch": 1.9842765948331262,
      "grad_norm": 7.990362167358398,
      "learning_rate": 6.591987703302931e-05,
      "loss": 0.6628310203552246,
      "memory(GiB)": 70.5,
      "step": 46315,
      "token_acc": 0.8707482993197279,
      "train_speed(iter/s)": 1.451743
    },
    {
      "epoch": 1.9844908101623753,
      "grad_norm": 4.772984504699707,
      "learning_rate": 6.591349735148964e-05,
      "loss": 0.23194050788879395,
      "memory(GiB)": 70.5,
      "step": 46320,
      "token_acc": 0.9467680608365019,
      "train_speed(iter/s)": 1.45175
    },
    {
      "epoch": 1.9847050254916243,
      "grad_norm": 1.0622590780258179,
      "learning_rate": 6.590711738166204e-05,
      "loss": 0.2553361177444458,
      "memory(GiB)": 70.5,
      "step": 46325,
      "token_acc": 0.948905109489051,
      "train_speed(iter/s)": 1.451751
    },
    {
      "epoch": 1.9849192408208731,
      "grad_norm": 3.115152597427368,
      "learning_rate": 6.590073712366207e-05,
      "loss": 0.2695796966552734,
      "memory(GiB)": 70.5,
      "step": 46330,
      "token_acc": 0.9517241379310345,
      "train_speed(iter/s)": 1.451748
    },
    {
      "epoch": 1.9851334561501222,
      "grad_norm": 10.258259773254395,
      "learning_rate": 6.589435657760535e-05,
      "loss": 0.8946830749511718,
      "memory(GiB)": 70.5,
      "step": 46335,
      "token_acc": 0.864,
      "train_speed(iter/s)": 1.451766
    },
    {
      "epoch": 1.9853476714793712,
      "grad_norm": 7.269148349761963,
      "learning_rate": 6.588797574360744e-05,
      "loss": 0.31412372589111326,
      "memory(GiB)": 70.5,
      "step": 46340,
      "token_acc": 0.9174603174603174,
      "train_speed(iter/s)": 1.451769
    },
    {
      "epoch": 1.98556188680862,
      "grad_norm": 2.1293747425079346,
      "learning_rate": 6.588159462178396e-05,
      "loss": 0.6804367065429687,
      "memory(GiB)": 70.5,
      "step": 46345,
      "token_acc": 0.8545454545454545,
      "train_speed(iter/s)": 1.451784
    },
    {
      "epoch": 1.985776102137869,
      "grad_norm": 2.1867904663085938,
      "learning_rate": 6.587521321225048e-05,
      "loss": 0.3634594202041626,
      "memory(GiB)": 70.5,
      "step": 46350,
      "token_acc": 0.921311475409836,
      "train_speed(iter/s)": 1.451821
    },
    {
      "epoch": 1.985990317467118,
      "grad_norm": 4.912786960601807,
      "learning_rate": 6.586883151512263e-05,
      "loss": 0.2928699254989624,
      "memory(GiB)": 70.5,
      "step": 46355,
      "token_acc": 0.9368029739776952,
      "train_speed(iter/s)": 1.451822
    },
    {
      "epoch": 1.9862045327963669,
      "grad_norm": 2.980759620666504,
      "learning_rate": 6.586244953051602e-05,
      "loss": 0.3880244016647339,
      "memory(GiB)": 70.5,
      "step": 46360,
      "token_acc": 0.911504424778761,
      "train_speed(iter/s)": 1.451827
    },
    {
      "epoch": 1.986418748125616,
      "grad_norm": 1.2229403257369995,
      "learning_rate": 6.585606725854623e-05,
      "loss": 0.36127073764801027,
      "memory(GiB)": 70.5,
      "step": 46365,
      "token_acc": 0.9294478527607362,
      "train_speed(iter/s)": 1.451832
    },
    {
      "epoch": 1.986632963454865,
      "grad_norm": 4.038516998291016,
      "learning_rate": 6.58496846993289e-05,
      "loss": 0.5021529197692871,
      "memory(GiB)": 70.5,
      "step": 46370,
      "token_acc": 0.8988326848249028,
      "train_speed(iter/s)": 1.451825
    },
    {
      "epoch": 1.9868471787841138,
      "grad_norm": 0.40715882182121277,
      "learning_rate": 6.58433018529797e-05,
      "loss": 0.3317458152770996,
      "memory(GiB)": 70.5,
      "step": 46375,
      "token_acc": 0.9340277777777778,
      "train_speed(iter/s)": 1.451819
    },
    {
      "epoch": 1.9870613941133628,
      "grad_norm": 3.855625629425049,
      "learning_rate": 6.583691871961422e-05,
      "loss": 0.11572537422180176,
      "memory(GiB)": 70.5,
      "step": 46380,
      "token_acc": 0.9610894941634242,
      "train_speed(iter/s)": 1.451816
    },
    {
      "epoch": 1.9872756094426118,
      "grad_norm": 3.9309799671173096,
      "learning_rate": 6.583053529934807e-05,
      "loss": 0.4514957904815674,
      "memory(GiB)": 70.5,
      "step": 46385,
      "token_acc": 0.9166666666666666,
      "train_speed(iter/s)": 1.451834
    },
    {
      "epoch": 1.9874898247718606,
      "grad_norm": 3.4379236698150635,
      "learning_rate": 6.582415159229695e-05,
      "loss": 0.3111391305923462,
      "memory(GiB)": 70.5,
      "step": 46390,
      "token_acc": 0.931899641577061,
      "train_speed(iter/s)": 1.451843
    },
    {
      "epoch": 1.9877040401011097,
      "grad_norm": 2.197247266769409,
      "learning_rate": 6.581776759857647e-05,
      "loss": 0.29321904182434083,
      "memory(GiB)": 70.5,
      "step": 46395,
      "token_acc": 0.922360248447205,
      "train_speed(iter/s)": 1.45184
    },
    {
      "epoch": 1.9879182554303587,
      "grad_norm": 7.793574333190918,
      "learning_rate": 6.58113833183023e-05,
      "loss": 0.6435821533203125,
      "memory(GiB)": 70.5,
      "step": 46400,
      "token_acc": 0.8517350157728707,
      "train_speed(iter/s)": 1.451861
    },
    {
      "epoch": 1.9881324707596075,
      "grad_norm": 4.08653450012207,
      "learning_rate": 6.580499875159008e-05,
      "loss": 0.4262677192687988,
      "memory(GiB)": 70.5,
      "step": 46405,
      "token_acc": 0.9015151515151515,
      "train_speed(iter/s)": 1.451865
    },
    {
      "epoch": 1.9883466860888566,
      "grad_norm": 6.814379692077637,
      "learning_rate": 6.579861389855548e-05,
      "loss": 0.6364480495452881,
      "memory(GiB)": 70.5,
      "step": 46410,
      "token_acc": 0.8729641693811075,
      "train_speed(iter/s)": 1.451857
    },
    {
      "epoch": 1.9885609014181056,
      "grad_norm": 3.622365951538086,
      "learning_rate": 6.579222875931417e-05,
      "loss": 0.49977788925170896,
      "memory(GiB)": 70.5,
      "step": 46415,
      "token_acc": 0.904320987654321,
      "train_speed(iter/s)": 1.451866
    },
    {
      "epoch": 1.9887751167473544,
      "grad_norm": 1.4143613576889038,
      "learning_rate": 6.578584333398184e-05,
      "loss": 0.20527472496032714,
      "memory(GiB)": 70.5,
      "step": 46420,
      "token_acc": 0.9689655172413794,
      "train_speed(iter/s)": 1.451866
    },
    {
      "epoch": 1.9889893320766034,
      "grad_norm": 2.6746113300323486,
      "learning_rate": 6.577945762267412e-05,
      "loss": 0.4283113956451416,
      "memory(GiB)": 70.5,
      "step": 46425,
      "token_acc": 0.9123376623376623,
      "train_speed(iter/s)": 1.451869
    },
    {
      "epoch": 1.9892035474058525,
      "grad_norm": 4.437436580657959,
      "learning_rate": 6.577307162550675e-05,
      "loss": 0.2876727104187012,
      "memory(GiB)": 70.5,
      "step": 46430,
      "token_acc": 0.9413793103448276,
      "train_speed(iter/s)": 1.451869
    },
    {
      "epoch": 1.9894177627351013,
      "grad_norm": 6.86922025680542,
      "learning_rate": 6.576668534259536e-05,
      "loss": 0.6004110336303711,
      "memory(GiB)": 70.5,
      "step": 46435,
      "token_acc": 0.8746438746438746,
      "train_speed(iter/s)": 1.451873
    },
    {
      "epoch": 1.9896319780643503,
      "grad_norm": 2.0700736045837402,
      "learning_rate": 6.57602987740557e-05,
      "loss": 0.2621511697769165,
      "memory(GiB)": 70.5,
      "step": 46440,
      "token_acc": 0.9390243902439024,
      "train_speed(iter/s)": 1.451874
    },
    {
      "epoch": 1.9898461933935994,
      "grad_norm": 5.9558820724487305,
      "learning_rate": 6.575391192000342e-05,
      "loss": 0.5040513038635254,
      "memory(GiB)": 70.5,
      "step": 46445,
      "token_acc": 0.9042145593869731,
      "train_speed(iter/s)": 1.451874
    },
    {
      "epoch": 1.9900604087228482,
      "grad_norm": 3.372770071029663,
      "learning_rate": 6.574752478055428e-05,
      "loss": 0.2693318843841553,
      "memory(GiB)": 70.5,
      "step": 46450,
      "token_acc": 0.9330708661417323,
      "train_speed(iter/s)": 1.451867
    },
    {
      "epoch": 1.9902746240520972,
      "grad_norm": 3.1413025856018066,
      "learning_rate": 6.574113735582393e-05,
      "loss": 0.29860854148864746,
      "memory(GiB)": 70.5,
      "step": 46455,
      "token_acc": 0.9391025641025641,
      "train_speed(iter/s)": 1.451865
    },
    {
      "epoch": 1.9904888393813462,
      "grad_norm": 1.5261836051940918,
      "learning_rate": 6.573474964592813e-05,
      "loss": 0.38650689125061033,
      "memory(GiB)": 70.5,
      "step": 46460,
      "token_acc": 0.928,
      "train_speed(iter/s)": 1.451871
    },
    {
      "epoch": 1.990703054710595,
      "grad_norm": 5.744527339935303,
      "learning_rate": 6.572836165098258e-05,
      "loss": 0.45672082901000977,
      "memory(GiB)": 70.5,
      "step": 46465,
      "token_acc": 0.9137931034482759,
      "train_speed(iter/s)": 1.451871
    },
    {
      "epoch": 1.990917270039844,
      "grad_norm": 3.30717134475708,
      "learning_rate": 6.572197337110299e-05,
      "loss": 0.2688775062561035,
      "memory(GiB)": 70.5,
      "step": 46470,
      "token_acc": 0.9486486486486486,
      "train_speed(iter/s)": 1.451881
    },
    {
      "epoch": 1.9911314853690931,
      "grad_norm": 1.2170195579528809,
      "learning_rate": 6.57155848064051e-05,
      "loss": 0.09183332324028015,
      "memory(GiB)": 70.5,
      "step": 46475,
      "token_acc": 0.9683098591549296,
      "train_speed(iter/s)": 1.451883
    },
    {
      "epoch": 1.991345700698342,
      "grad_norm": 6.781591892242432,
      "learning_rate": 6.570919595700467e-05,
      "loss": 0.37515482902526853,
      "memory(GiB)": 70.5,
      "step": 46480,
      "token_acc": 0.8854961832061069,
      "train_speed(iter/s)": 1.45188
    },
    {
      "epoch": 1.991559916027591,
      "grad_norm": 5.168046474456787,
      "learning_rate": 6.570280682301739e-05,
      "loss": 0.23463726043701172,
      "memory(GiB)": 70.5,
      "step": 46485,
      "token_acc": 0.9523809523809523,
      "train_speed(iter/s)": 1.451879
    },
    {
      "epoch": 1.99177413135684,
      "grad_norm": 4.19439172744751,
      "learning_rate": 6.569641740455905e-05,
      "loss": 0.3603007078170776,
      "memory(GiB)": 70.5,
      "step": 46490,
      "token_acc": 0.9281045751633987,
      "train_speed(iter/s)": 1.451882
    },
    {
      "epoch": 1.9919883466860888,
      "grad_norm": 4.852924346923828,
      "learning_rate": 6.569002770174539e-05,
      "loss": 0.5684388637542724,
      "memory(GiB)": 70.5,
      "step": 46495,
      "token_acc": 0.8938775510204081,
      "train_speed(iter/s)": 1.451881
    },
    {
      "epoch": 1.9922025620153379,
      "grad_norm": 3.5851097106933594,
      "learning_rate": 6.568363771469214e-05,
      "loss": 0.15902050733566284,
      "memory(GiB)": 70.5,
      "step": 46500,
      "token_acc": 0.954983922829582,
      "train_speed(iter/s)": 1.451885
    },
    {
      "epoch": 1.9922025620153379,
      "eval_loss": 2.591038227081299,
      "eval_runtime": 13.5477,
      "eval_samples_per_second": 7.381,
      "eval_steps_per_second": 7.381,
      "eval_token_acc": 0.4092178770949721,
      "step": 46500
    },
    {
      "epoch": 1.9924167773445869,
      "grad_norm": 3.060081720352173,
      "learning_rate": 6.567724744351512e-05,
      "loss": 0.3378316402435303,
      "memory(GiB)": 70.5,
      "step": 46505,
      "token_acc": 0.5687984496124031,
      "train_speed(iter/s)": 1.451229
    },
    {
      "epoch": 1.9926309926738357,
      "grad_norm": 0.3416382670402527,
      "learning_rate": 6.567085688833001e-05,
      "loss": 0.19430657625198364,
      "memory(GiB)": 70.5,
      "step": 46510,
      "token_acc": 0.9622641509433962,
      "train_speed(iter/s)": 1.451231
    },
    {
      "epoch": 1.9928452080030847,
      "grad_norm": 2.197411060333252,
      "learning_rate": 6.566446604925264e-05,
      "loss": 0.43794808387756345,
      "memory(GiB)": 70.5,
      "step": 46515,
      "token_acc": 0.9183006535947712,
      "train_speed(iter/s)": 1.451241
    },
    {
      "epoch": 1.9930594233323338,
      "grad_norm": 3.9849393367767334,
      "learning_rate": 6.56580749263988e-05,
      "loss": 0.3072217464447021,
      "memory(GiB)": 70.5,
      "step": 46520,
      "token_acc": 0.93359375,
      "train_speed(iter/s)": 1.451234
    },
    {
      "epoch": 1.9932736386615826,
      "grad_norm": 3.477581024169922,
      "learning_rate": 6.565168351988422e-05,
      "loss": 0.4634682655334473,
      "memory(GiB)": 70.5,
      "step": 46525,
      "token_acc": 0.9053030303030303,
      "train_speed(iter/s)": 1.451234
    },
    {
      "epoch": 1.9934878539908316,
      "grad_norm": 3.3808748722076416,
      "learning_rate": 6.564529182982471e-05,
      "loss": 0.3516870975494385,
      "memory(GiB)": 70.5,
      "step": 46530,
      "token_acc": 0.9114391143911439,
      "train_speed(iter/s)": 1.451235
    },
    {
      "epoch": 1.9937020693200806,
      "grad_norm": 1.9025577306747437,
      "learning_rate": 6.563889985633608e-05,
      "loss": 0.42304286956787107,
      "memory(GiB)": 70.5,
      "step": 46535,
      "token_acc": 0.9322709163346613,
      "train_speed(iter/s)": 1.451248
    },
    {
      "epoch": 1.9939162846493295,
      "grad_norm": 2.8703014850616455,
      "learning_rate": 6.56325075995341e-05,
      "loss": 0.2702886343002319,
      "memory(GiB)": 70.5,
      "step": 46540,
      "token_acc": 0.9477124183006536,
      "train_speed(iter/s)": 1.451241
    },
    {
      "epoch": 1.9941304999785785,
      "grad_norm": 4.975704193115234,
      "learning_rate": 6.562611505953457e-05,
      "loss": 0.38912553787231446,
      "memory(GiB)": 70.5,
      "step": 46545,
      "token_acc": 0.9047619047619048,
      "train_speed(iter/s)": 1.451259
    },
    {
      "epoch": 1.9943447153078275,
      "grad_norm": 5.906377792358398,
      "learning_rate": 6.561972223645331e-05,
      "loss": 0.4388264656066895,
      "memory(GiB)": 70.5,
      "step": 46550,
      "token_acc": 0.9181494661921709,
      "train_speed(iter/s)": 1.451259
    },
    {
      "epoch": 1.9945589306370763,
      "grad_norm": 2.2320163249969482,
      "learning_rate": 6.561332913040613e-05,
      "loss": 0.43406524658203127,
      "memory(GiB)": 70.5,
      "step": 46555,
      "token_acc": 0.8976109215017065,
      "train_speed(iter/s)": 1.451257
    },
    {
      "epoch": 1.9947731459663254,
      "grad_norm": 3.3208470344543457,
      "learning_rate": 6.560693574150885e-05,
      "loss": 0.41654057502746583,
      "memory(GiB)": 70.5,
      "step": 46560,
      "token_acc": 0.9236363636363636,
      "train_speed(iter/s)": 1.451264
    },
    {
      "epoch": 1.9949873612955744,
      "grad_norm": 3.0157415866851807,
      "learning_rate": 6.560054206987729e-05,
      "loss": 0.5659527778625488,
      "memory(GiB)": 70.5,
      "step": 46565,
      "token_acc": 0.869281045751634,
      "train_speed(iter/s)": 1.451276
    },
    {
      "epoch": 1.9952015766248232,
      "grad_norm": 2.8832855224609375,
      "learning_rate": 6.559414811562728e-05,
      "loss": 0.3862821340560913,
      "memory(GiB)": 70.5,
      "step": 46570,
      "token_acc": 0.9209621993127147,
      "train_speed(iter/s)": 1.451271
    },
    {
      "epoch": 1.9954157919540723,
      "grad_norm": 0.46937984228134155,
      "learning_rate": 6.558775387887463e-05,
      "loss": 0.35491487979888914,
      "memory(GiB)": 70.5,
      "step": 46575,
      "token_acc": 0.9385245901639344,
      "train_speed(iter/s)": 1.451277
    },
    {
      "epoch": 1.9956300072833213,
      "grad_norm": 3.634091854095459,
      "learning_rate": 6.558135935973521e-05,
      "loss": 0.6261826038360596,
      "memory(GiB)": 70.5,
      "step": 46580,
      "token_acc": 0.8739837398373984,
      "train_speed(iter/s)": 1.451285
    },
    {
      "epoch": 1.99584422261257,
      "grad_norm": 4.037825584411621,
      "learning_rate": 6.557496455832485e-05,
      "loss": 0.2511759281158447,
      "memory(GiB)": 70.5,
      "step": 46585,
      "token_acc": 0.9522058823529411,
      "train_speed(iter/s)": 1.45132
    },
    {
      "epoch": 1.9960584379418191,
      "grad_norm": 2.419969081878662,
      "learning_rate": 6.556856947475937e-05,
      "loss": 0.2882366180419922,
      "memory(GiB)": 70.5,
      "step": 46590,
      "token_acc": 0.934640522875817,
      "train_speed(iter/s)": 1.451332
    },
    {
      "epoch": 1.9962726532710682,
      "grad_norm": 3.360313892364502,
      "learning_rate": 6.55621741091547e-05,
      "loss": 0.5387227535247803,
      "memory(GiB)": 70.5,
      "step": 46595,
      "token_acc": 0.8753541076487252,
      "train_speed(iter/s)": 1.451323
    },
    {
      "epoch": 1.996486868600317,
      "grad_norm": 3.696532726287842,
      "learning_rate": 6.55557784616266e-05,
      "loss": 0.6834839344024658,
      "memory(GiB)": 70.5,
      "step": 46600,
      "token_acc": 0.8712574850299402,
      "train_speed(iter/s)": 1.451341
    },
    {
      "epoch": 1.996701083929566,
      "grad_norm": 4.829133987426758,
      "learning_rate": 6.554938253229102e-05,
      "loss": 0.3485468626022339,
      "memory(GiB)": 70.5,
      "step": 46605,
      "token_acc": 0.9233870967741935,
      "train_speed(iter/s)": 1.451338
    },
    {
      "epoch": 1.996915299258815,
      "grad_norm": 2.190255641937256,
      "learning_rate": 6.554298632126376e-05,
      "loss": 0.3254303216934204,
      "memory(GiB)": 70.5,
      "step": 46610,
      "token_acc": 0.9294117647058824,
      "train_speed(iter/s)": 1.451357
    },
    {
      "epoch": 1.9971295145880639,
      "grad_norm": 5.1883625984191895,
      "learning_rate": 6.553658982866073e-05,
      "loss": 0.5555108070373536,
      "memory(GiB)": 70.5,
      "step": 46615,
      "token_acc": 0.877742946708464,
      "train_speed(iter/s)": 1.451388
    },
    {
      "epoch": 1.997343729917313,
      "grad_norm": 2.1911263465881348,
      "learning_rate": 6.55301930545978e-05,
      "loss": 0.1602689027786255,
      "memory(GiB)": 70.5,
      "step": 46620,
      "token_acc": 0.9712460063897763,
      "train_speed(iter/s)": 1.451401
    },
    {
      "epoch": 1.997557945246562,
      "grad_norm": 0.7393396496772766,
      "learning_rate": 6.552379599919087e-05,
      "loss": 0.35018091201782225,
      "memory(GiB)": 70.5,
      "step": 46625,
      "token_acc": 0.8920863309352518,
      "train_speed(iter/s)": 1.451411
    },
    {
      "epoch": 1.9977721605758108,
      "grad_norm": 4.5117034912109375,
      "learning_rate": 6.551739866255578e-05,
      "loss": 0.8790657043457031,
      "memory(GiB)": 70.5,
      "step": 46630,
      "token_acc": 0.840531561461794,
      "train_speed(iter/s)": 1.451428
    },
    {
      "epoch": 1.9979863759050598,
      "grad_norm": 3.8690078258514404,
      "learning_rate": 6.551100104480849e-05,
      "loss": 0.516366720199585,
      "memory(GiB)": 70.5,
      "step": 46635,
      "token_acc": 0.8963414634146342,
      "train_speed(iter/s)": 1.451433
    },
    {
      "epoch": 1.9982005912343088,
      "grad_norm": 7.445000648498535,
      "learning_rate": 6.550460314606486e-05,
      "loss": 0.6598622322082519,
      "memory(GiB)": 70.5,
      "step": 46640,
      "token_acc": 0.8372093023255814,
      "train_speed(iter/s)": 1.451445
    },
    {
      "epoch": 1.9984148065635576,
      "grad_norm": 12.345580101013184,
      "learning_rate": 6.549820496644078e-05,
      "loss": 0.38158297538757324,
      "memory(GiB)": 70.5,
      "step": 46645,
      "token_acc": 0.9236641221374046,
      "train_speed(iter/s)": 1.451459
    },
    {
      "epoch": 1.9986290218928067,
      "grad_norm": 2.867950201034546,
      "learning_rate": 6.54918065060522e-05,
      "loss": 0.3283450841903687,
      "memory(GiB)": 70.5,
      "step": 46650,
      "token_acc": 0.9281437125748503,
      "train_speed(iter/s)": 1.451461
    },
    {
      "epoch": 1.9988432372220557,
      "grad_norm": 3.210010528564453,
      "learning_rate": 6.5485407765015e-05,
      "loss": 0.46695866584777834,
      "memory(GiB)": 70.5,
      "step": 46655,
      "token_acc": 0.9052631578947369,
      "train_speed(iter/s)": 1.45148
    },
    {
      "epoch": 1.9990574525513045,
      "grad_norm": 2.534975051879883,
      "learning_rate": 6.54790087434451e-05,
      "loss": 0.53587965965271,
      "memory(GiB)": 70.5,
      "step": 46660,
      "token_acc": 0.8646864686468647,
      "train_speed(iter/s)": 1.451493
    },
    {
      "epoch": 1.9992716678805535,
      "grad_norm": 7.370107173919678,
      "learning_rate": 6.547260944145845e-05,
      "loss": 0.47156171798706054,
      "memory(GiB)": 70.5,
      "step": 46665,
      "token_acc": 0.9022556390977443,
      "train_speed(iter/s)": 1.451491
    },
    {
      "epoch": 1.9994858832098026,
      "grad_norm": 0.591545581817627,
      "learning_rate": 6.546620985917097e-05,
      "loss": 0.2581897497177124,
      "memory(GiB)": 70.5,
      "step": 46670,
      "token_acc": 0.9492063492063492,
      "train_speed(iter/s)": 1.451495
    },
    {
      "epoch": 1.9997000985390514,
      "grad_norm": 3.6360549926757812,
      "learning_rate": 6.545980999669859e-05,
      "loss": 0.2597395658493042,
      "memory(GiB)": 70.5,
      "step": 46675,
      "token_acc": 0.946031746031746,
      "train_speed(iter/s)": 1.451504
    },
    {
      "epoch": 1.9999143138683004,
      "grad_norm": 4.5583295822143555,
      "learning_rate": 6.545340985415726e-05,
      "loss": 0.4560511112213135,
      "memory(GiB)": 70.5,
      "step": 46680,
      "token_acc": 0.9070631970260223,
      "train_speed(iter/s)": 1.451506
    },
    {
      "epoch": 2.0001285291975495,
      "grad_norm": 3.240093946456909,
      "learning_rate": 6.54470094316629e-05,
      "loss": 0.4470634460449219,
      "memory(GiB)": 70.5,
      "step": 46685,
      "token_acc": 0.9109311740890689,
      "train_speed(iter/s)": 1.451508
    },
    {
      "epoch": 2.0003427445267983,
      "grad_norm": 3.0506412982940674,
      "learning_rate": 6.544060872933146e-05,
      "loss": 0.6162612438201904,
      "memory(GiB)": 70.5,
      "step": 46690,
      "token_acc": 0.8666666666666667,
      "train_speed(iter/s)": 1.451508
    },
    {
      "epoch": 2.000556959856047,
      "grad_norm": 3.818157434463501,
      "learning_rate": 6.543420774727892e-05,
      "loss": 0.2588310956954956,
      "memory(GiB)": 70.5,
      "step": 46695,
      "token_acc": 0.9206349206349206,
      "train_speed(iter/s)": 1.451505
    },
    {
      "epoch": 2.0007711751852963,
      "grad_norm": 1.159898042678833,
      "learning_rate": 6.542780648562124e-05,
      "loss": 0.4150959014892578,
      "memory(GiB)": 70.5,
      "step": 46700,
      "token_acc": 0.9102990033222591,
      "train_speed(iter/s)": 1.451523
    },
    {
      "epoch": 2.000985390514545,
      "grad_norm": 2.0554709434509277,
      "learning_rate": 6.542140494447435e-05,
      "loss": 0.4314236640930176,
      "memory(GiB)": 70.5,
      "step": 46705,
      "token_acc": 0.9015384615384615,
      "train_speed(iter/s)": 1.451524
    },
    {
      "epoch": 2.001199605843794,
      "grad_norm": 4.868441104888916,
      "learning_rate": 6.541500312395427e-05,
      "loss": 0.5019315719604492,
      "memory(GiB)": 70.5,
      "step": 46710,
      "token_acc": 0.8849206349206349,
      "train_speed(iter/s)": 1.451526
    },
    {
      "epoch": 2.0014138211730432,
      "grad_norm": 1.3260124921798706,
      "learning_rate": 6.540860102417693e-05,
      "loss": 0.3678418159484863,
      "memory(GiB)": 70.5,
      "step": 46715,
      "token_acc": 0.9356060606060606,
      "train_speed(iter/s)": 1.451546
    },
    {
      "epoch": 2.001628036502292,
      "grad_norm": 2.5912723541259766,
      "learning_rate": 6.540219864525835e-05,
      "loss": 0.2571068525314331,
      "memory(GiB)": 70.5,
      "step": 46720,
      "token_acc": 0.9491525423728814,
      "train_speed(iter/s)": 1.451553
    },
    {
      "epoch": 2.001842251831541,
      "grad_norm": 3.7058019638061523,
      "learning_rate": 6.539579598731447e-05,
      "loss": 0.4244704723358154,
      "memory(GiB)": 70.5,
      "step": 46725,
      "token_acc": 0.9113475177304965,
      "train_speed(iter/s)": 1.451554
    },
    {
      "epoch": 2.00205646716079,
      "grad_norm": 1.6122827529907227,
      "learning_rate": 6.53893930504613e-05,
      "loss": 0.5078072547912598,
      "memory(GiB)": 70.5,
      "step": 46730,
      "token_acc": 0.8920634920634921,
      "train_speed(iter/s)": 1.451553
    },
    {
      "epoch": 2.002270682490039,
      "grad_norm": 3.525681972503662,
      "learning_rate": 6.538298983481484e-05,
      "loss": 0.38283300399780273,
      "memory(GiB)": 70.5,
      "step": 46735,
      "token_acc": 0.8932384341637011,
      "train_speed(iter/s)": 1.451558
    },
    {
      "epoch": 2.0024848978192877,
      "grad_norm": 2.042541027069092,
      "learning_rate": 6.53765863404911e-05,
      "loss": 0.09694207906723022,
      "memory(GiB)": 70.5,
      "step": 46740,
      "token_acc": 0.9781021897810219,
      "train_speed(iter/s)": 1.45156
    },
    {
      "epoch": 2.002699113148537,
      "grad_norm": 2.7354395389556885,
      "learning_rate": 6.537018256760606e-05,
      "loss": 0.5716984272003174,
      "memory(GiB)": 70.5,
      "step": 46745,
      "token_acc": 0.896551724137931,
      "train_speed(iter/s)": 1.451563
    },
    {
      "epoch": 2.002913328477786,
      "grad_norm": 5.11538553237915,
      "learning_rate": 6.536377851627577e-05,
      "loss": 0.3466149568557739,
      "memory(GiB)": 70.5,
      "step": 46750,
      "token_acc": 0.9278350515463918,
      "train_speed(iter/s)": 1.451568
    },
    {
      "epoch": 2.0031275438070346,
      "grad_norm": 3.084584951400757,
      "learning_rate": 6.53573741866162e-05,
      "loss": 0.4294286727905273,
      "memory(GiB)": 70.5,
      "step": 46755,
      "token_acc": 0.904,
      "train_speed(iter/s)": 1.451578
    },
    {
      "epoch": 2.003341759136284,
      "grad_norm": 7.769847869873047,
      "learning_rate": 6.53509695787434e-05,
      "loss": 0.5673374652862548,
      "memory(GiB)": 70.5,
      "step": 46760,
      "token_acc": 0.9057971014492754,
      "train_speed(iter/s)": 1.451585
    },
    {
      "epoch": 2.0035559744655327,
      "grad_norm": 2.10099196434021,
      "learning_rate": 6.534456469277337e-05,
      "loss": 0.3236544609069824,
      "memory(GiB)": 70.5,
      "step": 46765,
      "token_acc": 0.9213836477987422,
      "train_speed(iter/s)": 1.451593
    },
    {
      "epoch": 2.0037701897947815,
      "grad_norm": 2.0918750762939453,
      "learning_rate": 6.533815952882216e-05,
      "loss": 0.48494691848754884,
      "memory(GiB)": 70.5,
      "step": 46770,
      "token_acc": 0.8804780876494024,
      "train_speed(iter/s)": 1.45159
    },
    {
      "epoch": 2.0039844051240308,
      "grad_norm": 4.331406593322754,
      "learning_rate": 6.53317540870058e-05,
      "loss": 0.457018518447876,
      "memory(GiB)": 70.5,
      "step": 46775,
      "token_acc": 0.9032258064516129,
      "train_speed(iter/s)": 1.451603
    },
    {
      "epoch": 2.0041986204532796,
      "grad_norm": 4.2265119552612305,
      "learning_rate": 6.532534836744035e-05,
      "loss": 0.3235656499862671,
      "memory(GiB)": 70.5,
      "step": 46780,
      "token_acc": 0.911864406779661,
      "train_speed(iter/s)": 1.451605
    },
    {
      "epoch": 2.0044128357825284,
      "grad_norm": 2.6114470958709717,
      "learning_rate": 6.531894237024183e-05,
      "loss": 0.269632363319397,
      "memory(GiB)": 70.5,
      "step": 46785,
      "token_acc": 0.911864406779661,
      "train_speed(iter/s)": 1.451607
    },
    {
      "epoch": 2.0046270511117776,
      "grad_norm": 1.399806022644043,
      "learning_rate": 6.53125360955263e-05,
      "loss": 0.3340468883514404,
      "memory(GiB)": 70.5,
      "step": 46790,
      "token_acc": 0.91015625,
      "train_speed(iter/s)": 1.451644
    },
    {
      "epoch": 2.0048412664410264,
      "grad_norm": 4.107738494873047,
      "learning_rate": 6.530612954340981e-05,
      "loss": 0.4134226322174072,
      "memory(GiB)": 70.5,
      "step": 46795,
      "token_acc": 0.9074074074074074,
      "train_speed(iter/s)": 1.451647
    },
    {
      "epoch": 2.0050554817702753,
      "grad_norm": 3.4704036712646484,
      "learning_rate": 6.529972271400844e-05,
      "loss": 0.4368389129638672,
      "memory(GiB)": 70.5,
      "step": 46800,
      "token_acc": 0.9171597633136095,
      "train_speed(iter/s)": 1.451669
    },
    {
      "epoch": 2.0052696970995245,
      "grad_norm": 2.0818557739257812,
      "learning_rate": 6.529331560743821e-05,
      "loss": 0.6143061637878418,
      "memory(GiB)": 70.5,
      "step": 46805,
      "token_acc": 0.8680981595092024,
      "train_speed(iter/s)": 1.451667
    },
    {
      "epoch": 2.0054839124287733,
      "grad_norm": 3.828904151916504,
      "learning_rate": 6.528690822381523e-05,
      "loss": 0.44026761054992675,
      "memory(GiB)": 70.5,
      "step": 46810,
      "token_acc": 0.9176470588235294,
      "train_speed(iter/s)": 1.45167
    },
    {
      "epoch": 2.0056981277580226,
      "grad_norm": 6.581126689910889,
      "learning_rate": 6.528050056325558e-05,
      "loss": 0.12308932542800903,
      "memory(GiB)": 70.5,
      "step": 46815,
      "token_acc": 0.9659574468085106,
      "train_speed(iter/s)": 1.451681
    },
    {
      "epoch": 2.0059123430872714,
      "grad_norm": 2.5736300945281982,
      "learning_rate": 6.527409262587533e-05,
      "loss": 0.3964546203613281,
      "memory(GiB)": 70.5,
      "step": 46820,
      "token_acc": 0.9057971014492754,
      "train_speed(iter/s)": 1.451675
    },
    {
      "epoch": 2.00612655841652,
      "grad_norm": 1.5319331884384155,
      "learning_rate": 6.526768441179056e-05,
      "loss": 0.19366047382354737,
      "memory(GiB)": 70.5,
      "step": 46825,
      "token_acc": 0.9540983606557377,
      "train_speed(iter/s)": 1.451675
    },
    {
      "epoch": 2.0063407737457695,
      "grad_norm": 0.05087066814303398,
      "learning_rate": 6.526127592111737e-05,
      "loss": 0.28177316188812257,
      "memory(GiB)": 70.5,
      "step": 46830,
      "token_acc": 0.9391025641025641,
      "train_speed(iter/s)": 1.451687
    },
    {
      "epoch": 2.0065549890750183,
      "grad_norm": 3.793836832046509,
      "learning_rate": 6.525486715397183e-05,
      "loss": 0.25462732315063474,
      "memory(GiB)": 70.5,
      "step": 46835,
      "token_acc": 0.9351145038167938,
      "train_speed(iter/s)": 1.451688
    },
    {
      "epoch": 2.006769204404267,
      "grad_norm": 3.1822140216827393,
      "learning_rate": 6.524845811047009e-05,
      "loss": 0.25841498374938965,
      "memory(GiB)": 70.5,
      "step": 46840,
      "token_acc": 0.9333333333333333,
      "train_speed(iter/s)": 1.451706
    },
    {
      "epoch": 2.0069834197335163,
      "grad_norm": 3.1367056369781494,
      "learning_rate": 6.52420487907282e-05,
      "loss": 0.08503538370132446,
      "memory(GiB)": 70.5,
      "step": 46845,
      "token_acc": 0.9783549783549783,
      "train_speed(iter/s)": 1.451708
    },
    {
      "epoch": 2.007197635062765,
      "grad_norm": 2.994760751724243,
      "learning_rate": 6.52356391948623e-05,
      "loss": 0.2908243417739868,
      "memory(GiB)": 70.5,
      "step": 46850,
      "token_acc": 0.9209621993127147,
      "train_speed(iter/s)": 1.451699
    },
    {
      "epoch": 2.007411850392014,
      "grad_norm": 6.714861869812012,
      "learning_rate": 6.522922932298852e-05,
      "loss": 0.31981720924377444,
      "memory(GiB)": 70.5,
      "step": 46855,
      "token_acc": 0.9375,
      "train_speed(iter/s)": 1.451713
    },
    {
      "epoch": 2.0076260657212632,
      "grad_norm": 1.6056045293807983,
      "learning_rate": 6.522281917522295e-05,
      "loss": 0.20829904079437256,
      "memory(GiB)": 70.5,
      "step": 46860,
      "token_acc": 0.9381818181818182,
      "train_speed(iter/s)": 1.451729
    },
    {
      "epoch": 2.007840281050512,
      "grad_norm": 4.865965366363525,
      "learning_rate": 6.521640875168175e-05,
      "loss": 0.45349273681640623,
      "memory(GiB)": 70.5,
      "step": 46865,
      "token_acc": 0.9029126213592233,
      "train_speed(iter/s)": 1.451752
    },
    {
      "epoch": 2.008054496379761,
      "grad_norm": 2.039128303527832,
      "learning_rate": 6.520999805248102e-05,
      "loss": 0.1213606357574463,
      "memory(GiB)": 70.5,
      "step": 46870,
      "token_acc": 0.971875,
      "train_speed(iter/s)": 1.451757
    },
    {
      "epoch": 2.00826871170901,
      "grad_norm": 4.620748043060303,
      "learning_rate": 6.520358707773691e-05,
      "loss": 0.4446725845336914,
      "memory(GiB)": 70.5,
      "step": 46875,
      "token_acc": 0.928,
      "train_speed(iter/s)": 1.45175
    },
    {
      "epoch": 2.008482927038259,
      "grad_norm": 3.073341131210327,
      "learning_rate": 6.519717582756554e-05,
      "loss": 0.38340053558349607,
      "memory(GiB)": 70.5,
      "step": 46880,
      "token_acc": 0.9125874125874126,
      "train_speed(iter/s)": 1.451741
    },
    {
      "epoch": 2.0086971423675077,
      "grad_norm": 3.2163636684417725,
      "learning_rate": 6.519076430208308e-05,
      "loss": 0.34734597206115725,
      "memory(GiB)": 70.5,
      "step": 46885,
      "token_acc": 0.9305993690851735,
      "train_speed(iter/s)": 1.451742
    },
    {
      "epoch": 2.008911357696757,
      "grad_norm": 3.9597525596618652,
      "learning_rate": 6.518435250140569e-05,
      "loss": 0.51041579246521,
      "memory(GiB)": 70.5,
      "step": 46890,
      "token_acc": 0.9029850746268657,
      "train_speed(iter/s)": 1.451741
    },
    {
      "epoch": 2.009125573026006,
      "grad_norm": 5.848443031311035,
      "learning_rate": 6.517794042564951e-05,
      "loss": 0.5005092620849609,
      "memory(GiB)": 70.5,
      "step": 46895,
      "token_acc": 0.8975409836065574,
      "train_speed(iter/s)": 1.451744
    },
    {
      "epoch": 2.0093397883552546,
      "grad_norm": 1.3993006944656372,
      "learning_rate": 6.51715280749307e-05,
      "loss": 0.6501065731048584,
      "memory(GiB)": 70.5,
      "step": 46900,
      "token_acc": 0.8771331058020477,
      "train_speed(iter/s)": 1.451746
    },
    {
      "epoch": 2.009554003684504,
      "grad_norm": 1.484931230545044,
      "learning_rate": 6.516511544936542e-05,
      "loss": 0.3222174167633057,
      "memory(GiB)": 70.5,
      "step": 46905,
      "token_acc": 0.9336283185840708,
      "train_speed(iter/s)": 1.451755
    },
    {
      "epoch": 2.0097682190137527,
      "grad_norm": 6.683872699737549,
      "learning_rate": 6.515870254906984e-05,
      "loss": 0.24622349739074706,
      "memory(GiB)": 70.5,
      "step": 46910,
      "token_acc": 0.9477611940298507,
      "train_speed(iter/s)": 1.451759
    },
    {
      "epoch": 2.0099824343430015,
      "grad_norm": 0.05769333243370056,
      "learning_rate": 6.515228937416015e-05,
      "loss": 0.31424148082733155,
      "memory(GiB)": 70.5,
      "step": 46915,
      "token_acc": 0.9413919413919414,
      "train_speed(iter/s)": 1.451754
    },
    {
      "epoch": 2.0101966496722508,
      "grad_norm": 3.239182710647583,
      "learning_rate": 6.514587592475252e-05,
      "loss": 0.28428149223327637,
      "memory(GiB)": 70.5,
      "step": 46920,
      "token_acc": 0.9389830508474576,
      "train_speed(iter/s)": 1.451756
    },
    {
      "epoch": 2.0104108650014996,
      "grad_norm": 1.0646154880523682,
      "learning_rate": 6.513946220096316e-05,
      "loss": 0.4060355186462402,
      "memory(GiB)": 70.5,
      "step": 46925,
      "token_acc": 0.9107692307692308,
      "train_speed(iter/s)": 1.451779
    },
    {
      "epoch": 2.0106250803307484,
      "grad_norm": 7.161166191101074,
      "learning_rate": 6.513304820290822e-05,
      "loss": 0.4389499664306641,
      "memory(GiB)": 70.5,
      "step": 46930,
      "token_acc": 0.9084745762711864,
      "train_speed(iter/s)": 1.451778
    },
    {
      "epoch": 2.0108392956599976,
      "grad_norm": 2.0002121925354004,
      "learning_rate": 6.512663393070392e-05,
      "loss": 0.22414681911468506,
      "memory(GiB)": 70.5,
      "step": 46935,
      "token_acc": 0.9660377358490566,
      "train_speed(iter/s)": 1.451777
    },
    {
      "epoch": 2.0110535109892465,
      "grad_norm": 0.2743092477321625,
      "learning_rate": 6.512021938446646e-05,
      "loss": 0.21558027267456054,
      "memory(GiB)": 70.5,
      "step": 46940,
      "token_acc": 0.9588014981273408,
      "train_speed(iter/s)": 1.451784
    },
    {
      "epoch": 2.0112677263184953,
      "grad_norm": 5.213945388793945,
      "learning_rate": 6.511380456431204e-05,
      "loss": 0.37813830375671387,
      "memory(GiB)": 70.5,
      "step": 46945,
      "token_acc": 0.9172661870503597,
      "train_speed(iter/s)": 1.451801
    },
    {
      "epoch": 2.0114819416477445,
      "grad_norm": 3.2043333053588867,
      "learning_rate": 6.510738947035687e-05,
      "loss": 0.5016732215881348,
      "memory(GiB)": 70.5,
      "step": 46950,
      "token_acc": 0.8938356164383562,
      "train_speed(iter/s)": 1.451801
    },
    {
      "epoch": 2.0116961569769933,
      "grad_norm": 2.6985416412353516,
      "learning_rate": 6.510097410271717e-05,
      "loss": 0.4051307201385498,
      "memory(GiB)": 70.5,
      "step": 46955,
      "token_acc": 0.9153225806451613,
      "train_speed(iter/s)": 1.451807
    },
    {
      "epoch": 2.011910372306242,
      "grad_norm": 2.6075687408447266,
      "learning_rate": 6.509455846150916e-05,
      "loss": 0.46650099754333496,
      "memory(GiB)": 70.5,
      "step": 46960,
      "token_acc": 0.9015873015873016,
      "train_speed(iter/s)": 1.451824
    },
    {
      "epoch": 2.0121245876354914,
      "grad_norm": 2.740140914916992,
      "learning_rate": 6.508814254684906e-05,
      "loss": 0.3052715301513672,
      "memory(GiB)": 70.5,
      "step": 46965,
      "token_acc": 0.9375,
      "train_speed(iter/s)": 1.451832
    },
    {
      "epoch": 2.01233880296474,
      "grad_norm": 3.195817232131958,
      "learning_rate": 6.50817263588531e-05,
      "loss": 0.4444750785827637,
      "memory(GiB)": 70.5,
      "step": 46970,
      "token_acc": 0.9152542372881356,
      "train_speed(iter/s)": 1.451843
    },
    {
      "epoch": 2.012553018293989,
      "grad_norm": 4.774703025817871,
      "learning_rate": 6.507530989763754e-05,
      "loss": 0.6621347427368164,
      "memory(GiB)": 70.5,
      "step": 46975,
      "token_acc": 0.8571428571428571,
      "train_speed(iter/s)": 1.451848
    },
    {
      "epoch": 2.0127672336232383,
      "grad_norm": 2.9108760356903076,
      "learning_rate": 6.506889316331858e-05,
      "loss": 0.2530683040618896,
      "memory(GiB)": 70.5,
      "step": 46980,
      "token_acc": 0.9361702127659575,
      "train_speed(iter/s)": 1.451855
    },
    {
      "epoch": 2.012981448952487,
      "grad_norm": 3.6877927780151367,
      "learning_rate": 6.50624761560125e-05,
      "loss": 0.5045418262481689,
      "memory(GiB)": 70.5,
      "step": 46985,
      "token_acc": 0.8851174934725848,
      "train_speed(iter/s)": 1.451855
    },
    {
      "epoch": 2.013195664281736,
      "grad_norm": 5.7749738693237305,
      "learning_rate": 6.505605887583552e-05,
      "loss": 0.7818368911743164,
      "memory(GiB)": 70.5,
      "step": 46990,
      "token_acc": 0.8314176245210728,
      "train_speed(iter/s)": 1.451847
    },
    {
      "epoch": 2.013409879610985,
      "grad_norm": 2.5822103023529053,
      "learning_rate": 6.50496413229039e-05,
      "loss": 0.1538211226463318,
      "memory(GiB)": 70.5,
      "step": 46995,
      "token_acc": 0.9645390070921985,
      "train_speed(iter/s)": 1.451843
    },
    {
      "epoch": 2.013624094940234,
      "grad_norm": 2.948317050933838,
      "learning_rate": 6.504322349733393e-05,
      "loss": 0.3478792905807495,
      "memory(GiB)": 70.5,
      "step": 47000,
      "token_acc": 0.9198606271777003,
      "train_speed(iter/s)": 1.451839
    },
    {
      "epoch": 2.013624094940234,
      "eval_loss": 2.660264253616333,
      "eval_runtime": 13.5147,
      "eval_samples_per_second": 7.399,
      "eval_steps_per_second": 7.399,
      "eval_token_acc": 0.43333333333333335,
      "step": 47000
    },
    {
      "epoch": 2.013838310269483,
      "grad_norm": 3.648219585418701,
      "learning_rate": 6.503680539924184e-05,
      "loss": 0.36907596588134767,
      "memory(GiB)": 70.5,
      "step": 47005,
      "token_acc": 0.5542857142857143,
      "train_speed(iter/s)": 1.451186
    },
    {
      "epoch": 2.014052525598732,
      "grad_norm": 3.6475589275360107,
      "learning_rate": 6.503038702874394e-05,
      "loss": 0.29269819259643554,
      "memory(GiB)": 70.5,
      "step": 47010,
      "token_acc": 0.9295774647887324,
      "train_speed(iter/s)": 1.451194
    },
    {
      "epoch": 2.014266740927981,
      "grad_norm": 2.0628390312194824,
      "learning_rate": 6.502396838595646e-05,
      "loss": 0.32953386306762694,
      "memory(GiB)": 70.5,
      "step": 47015,
      "token_acc": 0.9157303370786517,
      "train_speed(iter/s)": 1.451205
    },
    {
      "epoch": 2.0144809562572297,
      "grad_norm": 1.982171893119812,
      "learning_rate": 6.50175494709957e-05,
      "loss": 0.2854544401168823,
      "memory(GiB)": 70.5,
      "step": 47020,
      "token_acc": 0.930921052631579,
      "train_speed(iter/s)": 1.451201
    },
    {
      "epoch": 2.014695171586479,
      "grad_norm": 4.183255672454834,
      "learning_rate": 6.501113028397793e-05,
      "loss": 0.4259798049926758,
      "memory(GiB)": 70.5,
      "step": 47025,
      "token_acc": 0.9222614840989399,
      "train_speed(iter/s)": 1.451199
    },
    {
      "epoch": 2.0149093869157277,
      "grad_norm": 4.082297325134277,
      "learning_rate": 6.500471082501948e-05,
      "loss": 0.563326644897461,
      "memory(GiB)": 70.5,
      "step": 47030,
      "token_acc": 0.8682170542635659,
      "train_speed(iter/s)": 1.451195
    },
    {
      "epoch": 2.0151236022449766,
      "grad_norm": 4.62106466293335,
      "learning_rate": 6.49982910942366e-05,
      "loss": 0.29378671646118165,
      "memory(GiB)": 70.5,
      "step": 47035,
      "token_acc": 0.9482071713147411,
      "train_speed(iter/s)": 1.451207
    },
    {
      "epoch": 2.015337817574226,
      "grad_norm": 3.6044228076934814,
      "learning_rate": 6.499187109174561e-05,
      "loss": 0.49365978240966796,
      "memory(GiB)": 70.5,
      "step": 47040,
      "token_acc": 0.9,
      "train_speed(iter/s)": 1.451213
    },
    {
      "epoch": 2.0155520329034746,
      "grad_norm": 0.0737026259303093,
      "learning_rate": 6.498545081766282e-05,
      "loss": 0.45589275360107423,
      "memory(GiB)": 70.5,
      "step": 47045,
      "token_acc": 0.8784722222222222,
      "train_speed(iter/s)": 1.451217
    },
    {
      "epoch": 2.0157662482327234,
      "grad_norm": 2.9485421180725098,
      "learning_rate": 6.497903027210453e-05,
      "loss": 0.3436159133911133,
      "memory(GiB)": 70.5,
      "step": 47050,
      "token_acc": 0.9190140845070423,
      "train_speed(iter/s)": 1.45122
    },
    {
      "epoch": 2.0159804635619727,
      "grad_norm": 1.7489709854125977,
      "learning_rate": 6.497260945518706e-05,
      "loss": 0.2671010494232178,
      "memory(GiB)": 70.5,
      "step": 47055,
      "token_acc": 0.9419354838709677,
      "train_speed(iter/s)": 1.451217
    },
    {
      "epoch": 2.0161946788912215,
      "grad_norm": 7.313312530517578,
      "learning_rate": 6.496618836702672e-05,
      "loss": 0.35755114555358886,
      "memory(GiB)": 70.5,
      "step": 47060,
      "token_acc": 0.9152046783625731,
      "train_speed(iter/s)": 1.451227
    },
    {
      "epoch": 2.0164088942204703,
      "grad_norm": 2.3430256843566895,
      "learning_rate": 6.49597670077398e-05,
      "loss": 0.297791051864624,
      "memory(GiB)": 70.5,
      "step": 47065,
      "token_acc": 0.9397590361445783,
      "train_speed(iter/s)": 1.451227
    },
    {
      "epoch": 2.0166231095497196,
      "grad_norm": 2.1767916679382324,
      "learning_rate": 6.495334537744271e-05,
      "loss": 0.2897105932235718,
      "memory(GiB)": 70.5,
      "step": 47070,
      "token_acc": 0.9182879377431906,
      "train_speed(iter/s)": 1.451229
    },
    {
      "epoch": 2.0168373248789684,
      "grad_norm": 3.719686269760132,
      "learning_rate": 6.494692347625174e-05,
      "loss": 0.6581297397613526,
      "memory(GiB)": 70.5,
      "step": 47075,
      "token_acc": 0.8545454545454545,
      "train_speed(iter/s)": 1.451233
    },
    {
      "epoch": 2.017051540208217,
      "grad_norm": 2.6945018768310547,
      "learning_rate": 6.494050130428323e-05,
      "loss": 0.3969214916229248,
      "memory(GiB)": 70.5,
      "step": 47080,
      "token_acc": 0.9198606271777003,
      "train_speed(iter/s)": 1.451235
    },
    {
      "epoch": 2.0172657555374665,
      "grad_norm": 6.776172161102295,
      "learning_rate": 6.493407886165351e-05,
      "loss": 0.5348648071289063,
      "memory(GiB)": 70.5,
      "step": 47085,
      "token_acc": 0.890728476821192,
      "train_speed(iter/s)": 1.451239
    },
    {
      "epoch": 2.0174799708667153,
      "grad_norm": 4.073083400726318,
      "learning_rate": 6.492765614847896e-05,
      "loss": 0.31310880184173584,
      "memory(GiB)": 70.5,
      "step": 47090,
      "token_acc": 0.9466192170818505,
      "train_speed(iter/s)": 1.451247
    },
    {
      "epoch": 2.017694186195964,
      "grad_norm": 5.291154384613037,
      "learning_rate": 6.492123316487589e-05,
      "loss": 0.6809689998626709,
      "memory(GiB)": 70.5,
      "step": 47095,
      "token_acc": 0.8458781362007168,
      "train_speed(iter/s)": 1.451258
    },
    {
      "epoch": 2.0179084015252133,
      "grad_norm": 3.4020233154296875,
      "learning_rate": 6.49148099109607e-05,
      "loss": 0.2678339719772339,
      "memory(GiB)": 70.5,
      "step": 47100,
      "token_acc": 0.9428571428571428,
      "train_speed(iter/s)": 1.451251
    },
    {
      "epoch": 2.018122616854462,
      "grad_norm": 1.3989211320877075,
      "learning_rate": 6.490838638684973e-05,
      "loss": 0.25531485080718996,
      "memory(GiB)": 70.5,
      "step": 47105,
      "token_acc": 0.9517426273458445,
      "train_speed(iter/s)": 1.451258
    },
    {
      "epoch": 2.018336832183711,
      "grad_norm": 3.8669347763061523,
      "learning_rate": 6.490196259265934e-05,
      "loss": 0.3803633451461792,
      "memory(GiB)": 70.5,
      "step": 47110,
      "token_acc": 0.9014598540145985,
      "train_speed(iter/s)": 1.451268
    },
    {
      "epoch": 2.01855104751296,
      "grad_norm": 4.300317287445068,
      "learning_rate": 6.489553852850596e-05,
      "loss": 0.3023999214172363,
      "memory(GiB)": 70.5,
      "step": 47115,
      "token_acc": 0.9468085106382979,
      "train_speed(iter/s)": 1.451266
    },
    {
      "epoch": 2.018765262842209,
      "grad_norm": 1.7151836156845093,
      "learning_rate": 6.488911419450591e-05,
      "loss": 0.27112998962402346,
      "memory(GiB)": 70.5,
      "step": 47120,
      "token_acc": 0.9438943894389439,
      "train_speed(iter/s)": 1.45127
    },
    {
      "epoch": 2.018979478171458,
      "grad_norm": 3.8606128692626953,
      "learning_rate": 6.488268959077557e-05,
      "loss": 0.22487196922302247,
      "memory(GiB)": 70.5,
      "step": 47125,
      "token_acc": 0.9560439560439561,
      "train_speed(iter/s)": 1.451272
    },
    {
      "epoch": 2.019193693500707,
      "grad_norm": 3.9919300079345703,
      "learning_rate": 6.487626471743137e-05,
      "loss": 0.3523031949996948,
      "memory(GiB)": 70.5,
      "step": 47130,
      "token_acc": 0.928,
      "train_speed(iter/s)": 1.451276
    },
    {
      "epoch": 2.019407908829956,
      "grad_norm": 2.5557572841644287,
      "learning_rate": 6.486983957458967e-05,
      "loss": 0.20478515625,
      "memory(GiB)": 70.5,
      "step": 47135,
      "token_acc": 0.9453125,
      "train_speed(iter/s)": 1.451278
    },
    {
      "epoch": 2.0196221241592047,
      "grad_norm": 2.7129404544830322,
      "learning_rate": 6.486341416236687e-05,
      "loss": 0.34339170455932616,
      "memory(GiB)": 70.5,
      "step": 47140,
      "token_acc": 0.9230769230769231,
      "train_speed(iter/s)": 1.451294
    },
    {
      "epoch": 2.019836339488454,
      "grad_norm": 5.6365580558776855,
      "learning_rate": 6.485698848087939e-05,
      "loss": 0.24019575119018555,
      "memory(GiB)": 70.5,
      "step": 47145,
      "token_acc": 0.953125,
      "train_speed(iter/s)": 1.451329
    },
    {
      "epoch": 2.020050554817703,
      "grad_norm": 3.64971661567688,
      "learning_rate": 6.485056253024362e-05,
      "loss": 0.3721939563751221,
      "memory(GiB)": 70.5,
      "step": 47150,
      "token_acc": 0.9305555555555556,
      "train_speed(iter/s)": 1.451349
    },
    {
      "epoch": 2.0202647701469516,
      "grad_norm": 3.442342519760132,
      "learning_rate": 6.484413631057599e-05,
      "loss": 0.39964842796325684,
      "memory(GiB)": 70.5,
      "step": 47155,
      "token_acc": 0.9146341463414634,
      "train_speed(iter/s)": 1.451364
    },
    {
      "epoch": 2.020478985476201,
      "grad_norm": 5.23480224609375,
      "learning_rate": 6.48377098219929e-05,
      "loss": 0.22043323516845703,
      "memory(GiB)": 70.5,
      "step": 47160,
      "token_acc": 0.9593220338983051,
      "train_speed(iter/s)": 1.451365
    },
    {
      "epoch": 2.0206932008054497,
      "grad_norm": 5.893966197967529,
      "learning_rate": 6.483128306461078e-05,
      "loss": 0.3933832883834839,
      "memory(GiB)": 70.5,
      "step": 47165,
      "token_acc": 0.9090909090909091,
      "train_speed(iter/s)": 1.451372
    },
    {
      "epoch": 2.0209074161346985,
      "grad_norm": 2.5774619579315186,
      "learning_rate": 6.482485603854604e-05,
      "loss": 0.6068005084991455,
      "memory(GiB)": 70.5,
      "step": 47170,
      "token_acc": 0.8713450292397661,
      "train_speed(iter/s)": 1.451373
    },
    {
      "epoch": 2.0211216314639477,
      "grad_norm": 0.3474971354007721,
      "learning_rate": 6.481842874391514e-05,
      "loss": 0.3118995428085327,
      "memory(GiB)": 70.5,
      "step": 47175,
      "token_acc": 0.9192982456140351,
      "train_speed(iter/s)": 1.451378
    },
    {
      "epoch": 2.0213358467931966,
      "grad_norm": 4.948963642120361,
      "learning_rate": 6.481200118083449e-05,
      "loss": 0.608919906616211,
      "memory(GiB)": 70.5,
      "step": 47180,
      "token_acc": 0.8924731182795699,
      "train_speed(iter/s)": 1.451385
    },
    {
      "epoch": 2.0215500621224454,
      "grad_norm": 0.15075275301933289,
      "learning_rate": 6.480557334942055e-05,
      "loss": 0.3352478265762329,
      "memory(GiB)": 70.5,
      "step": 47185,
      "token_acc": 0.9307359307359307,
      "train_speed(iter/s)": 1.451394
    },
    {
      "epoch": 2.0217642774516946,
      "grad_norm": 8.14201831817627,
      "learning_rate": 6.479914524978978e-05,
      "loss": 0.21916062831878663,
      "memory(GiB)": 70.5,
      "step": 47190,
      "token_acc": 0.940959409594096,
      "train_speed(iter/s)": 1.451397
    },
    {
      "epoch": 2.0219784927809434,
      "grad_norm": 2.5920989513397217,
      "learning_rate": 6.479271688205858e-05,
      "loss": 0.24250483512878418,
      "memory(GiB)": 70.5,
      "step": 47195,
      "token_acc": 0.9414225941422594,
      "train_speed(iter/s)": 1.451394
    },
    {
      "epoch": 2.0221927081101922,
      "grad_norm": 3.8273568153381348,
      "learning_rate": 6.478628824634346e-05,
      "loss": 0.49476017951965334,
      "memory(GiB)": 70.5,
      "step": 47200,
      "token_acc": 0.9078498293515358,
      "train_speed(iter/s)": 1.451389
    },
    {
      "epoch": 2.0224069234394415,
      "grad_norm": 1.9923560619354248,
      "learning_rate": 6.477985934276085e-05,
      "loss": 0.3463109254837036,
      "memory(GiB)": 70.5,
      "step": 47205,
      "token_acc": 0.918918918918919,
      "train_speed(iter/s)": 1.451382
    },
    {
      "epoch": 2.0226211387686903,
      "grad_norm": 0.5725401639938354,
      "learning_rate": 6.477343017142722e-05,
      "loss": 0.5295327663421631,
      "memory(GiB)": 70.5,
      "step": 47210,
      "token_acc": 0.9087591240875912,
      "train_speed(iter/s)": 1.451381
    },
    {
      "epoch": 2.022835354097939,
      "grad_norm": 9.239989280700684,
      "learning_rate": 6.476700073245904e-05,
      "loss": 0.2611178159713745,
      "memory(GiB)": 70.5,
      "step": 47215,
      "token_acc": 0.9464285714285714,
      "train_speed(iter/s)": 1.451377
    },
    {
      "epoch": 2.0230495694271884,
      "grad_norm": 4.581867218017578,
      "learning_rate": 6.47605710259728e-05,
      "loss": 0.29077739715576173,
      "memory(GiB)": 70.5,
      "step": 47220,
      "token_acc": 0.949685534591195,
      "train_speed(iter/s)": 1.451398
    },
    {
      "epoch": 2.023263784756437,
      "grad_norm": 5.484643936157227,
      "learning_rate": 6.475414105208497e-05,
      "loss": 0.642219352722168,
      "memory(GiB)": 70.5,
      "step": 47225,
      "token_acc": 0.8695652173913043,
      "train_speed(iter/s)": 1.451416
    },
    {
      "epoch": 2.023478000085686,
      "grad_norm": 1.5547813177108765,
      "learning_rate": 6.474771081091202e-05,
      "loss": 0.2839707374572754,
      "memory(GiB)": 70.5,
      "step": 47230,
      "token_acc": 0.9420731707317073,
      "train_speed(iter/s)": 1.451419
    },
    {
      "epoch": 2.0236922154149353,
      "grad_norm": 1.7063993215560913,
      "learning_rate": 6.474128030257047e-05,
      "loss": 0.6027248859405517,
      "memory(GiB)": 70.5,
      "step": 47235,
      "token_acc": 0.87890625,
      "train_speed(iter/s)": 1.451417
    },
    {
      "epoch": 2.023906430744184,
      "grad_norm": 3.3029356002807617,
      "learning_rate": 6.473484952717679e-05,
      "loss": 0.3993695735931396,
      "memory(GiB)": 70.5,
      "step": 47240,
      "token_acc": 0.917910447761194,
      "train_speed(iter/s)": 1.451418
    },
    {
      "epoch": 2.024120646073433,
      "grad_norm": 2.537686586380005,
      "learning_rate": 6.472841848484749e-05,
      "loss": 0.3960877418518066,
      "memory(GiB)": 70.5,
      "step": 47245,
      "token_acc": 0.9138576779026217,
      "train_speed(iter/s)": 1.451417
    },
    {
      "epoch": 2.024334861402682,
      "grad_norm": 4.0113677978515625,
      "learning_rate": 6.472198717569907e-05,
      "loss": 0.34189441204071047,
      "memory(GiB)": 70.5,
      "step": 47250,
      "token_acc": 0.9243986254295533,
      "train_speed(iter/s)": 1.451431
    },
    {
      "epoch": 2.024549076731931,
      "grad_norm": 4.1642889976501465,
      "learning_rate": 6.471555559984804e-05,
      "loss": 0.47713651657104494,
      "memory(GiB)": 70.5,
      "step": 47255,
      "token_acc": 0.8993506493506493,
      "train_speed(iter/s)": 1.451441
    },
    {
      "epoch": 2.0247632920611798,
      "grad_norm": 1.9434128999710083,
      "learning_rate": 6.470912375741093e-05,
      "loss": 0.4197535037994385,
      "memory(GiB)": 70.5,
      "step": 47260,
      "token_acc": 0.9017543859649123,
      "train_speed(iter/s)": 1.451435
    },
    {
      "epoch": 2.024977507390429,
      "grad_norm": 6.219625473022461,
      "learning_rate": 6.470269164850424e-05,
      "loss": 0.3833281993865967,
      "memory(GiB)": 70.5,
      "step": 47265,
      "token_acc": 0.9088145896656535,
      "train_speed(iter/s)": 1.451438
    },
    {
      "epoch": 2.025191722719678,
      "grad_norm": 0.9366504549980164,
      "learning_rate": 6.469625927324448e-05,
      "loss": 0.5643921375274659,
      "memory(GiB)": 70.5,
      "step": 47270,
      "token_acc": 0.8674242424242424,
      "train_speed(iter/s)": 1.451434
    },
    {
      "epoch": 2.0254059380489267,
      "grad_norm": 2.091085910797119,
      "learning_rate": 6.468982663174822e-05,
      "loss": 0.22055211067199706,
      "memory(GiB)": 70.5,
      "step": 47275,
      "token_acc": 0.9424920127795527,
      "train_speed(iter/s)": 1.451445
    },
    {
      "epoch": 2.025620153378176,
      "grad_norm": 2.6424946784973145,
      "learning_rate": 6.468339372413196e-05,
      "loss": 0.48630075454711913,
      "memory(GiB)": 70.5,
      "step": 47280,
      "token_acc": 0.916955017301038,
      "train_speed(iter/s)": 1.451468
    },
    {
      "epoch": 2.0258343687074247,
      "grad_norm": 3.652005910873413,
      "learning_rate": 6.467696055051225e-05,
      "loss": 0.2636903762817383,
      "memory(GiB)": 70.5,
      "step": 47285,
      "token_acc": 0.9215686274509803,
      "train_speed(iter/s)": 1.451494
    },
    {
      "epoch": 2.0260485840366735,
      "grad_norm": 5.785483360290527,
      "learning_rate": 6.467052711100563e-05,
      "loss": 0.6169801712036133,
      "memory(GiB)": 70.5,
      "step": 47290,
      "token_acc": 0.8741935483870967,
      "train_speed(iter/s)": 1.451494
    },
    {
      "epoch": 2.026262799365923,
      "grad_norm": 2.1608502864837646,
      "learning_rate": 6.466409340572864e-05,
      "loss": 0.21651439666748046,
      "memory(GiB)": 70.5,
      "step": 47295,
      "token_acc": 0.9571428571428572,
      "train_speed(iter/s)": 1.451499
    },
    {
      "epoch": 2.0264770146951716,
      "grad_norm": 4.104649066925049,
      "learning_rate": 6.465765943479785e-05,
      "loss": 0.26978049278259275,
      "memory(GiB)": 70.5,
      "step": 47300,
      "token_acc": 0.9372693726937269,
      "train_speed(iter/s)": 1.451498
    },
    {
      "epoch": 2.0266912300244204,
      "grad_norm": 3.2338523864746094,
      "learning_rate": 6.465122519832982e-05,
      "loss": 0.38066601753234863,
      "memory(GiB)": 70.5,
      "step": 47305,
      "token_acc": 0.9213836477987422,
      "train_speed(iter/s)": 1.451499
    },
    {
      "epoch": 2.0269054453536697,
      "grad_norm": 1.9488838911056519,
      "learning_rate": 6.464479069644109e-05,
      "loss": 0.2885688304901123,
      "memory(GiB)": 70.5,
      "step": 47310,
      "token_acc": 0.9383561643835616,
      "train_speed(iter/s)": 1.4515
    },
    {
      "epoch": 2.0271196606829185,
      "grad_norm": 4.697782516479492,
      "learning_rate": 6.463835592924825e-05,
      "loss": 0.33109374046325685,
      "memory(GiB)": 70.5,
      "step": 47315,
      "token_acc": 0.9459459459459459,
      "train_speed(iter/s)": 1.451527
    },
    {
      "epoch": 2.0273338760121673,
      "grad_norm": 5.814637660980225,
      "learning_rate": 6.463192089686786e-05,
      "loss": 0.5632325649261475,
      "memory(GiB)": 70.5,
      "step": 47320,
      "token_acc": 0.8790322580645161,
      "train_speed(iter/s)": 1.451564
    },
    {
      "epoch": 2.0275480913414166,
      "grad_norm": 3.232966184616089,
      "learning_rate": 6.462548559941648e-05,
      "loss": 0.28245418071746825,
      "memory(GiB)": 70.5,
      "step": 47325,
      "token_acc": 0.9233716475095786,
      "train_speed(iter/s)": 1.451572
    },
    {
      "epoch": 2.0277623066706654,
      "grad_norm": 1.476583480834961,
      "learning_rate": 6.461905003701072e-05,
      "loss": 0.3217300891876221,
      "memory(GiB)": 70.5,
      "step": 47330,
      "token_acc": 0.9303135888501742,
      "train_speed(iter/s)": 1.451586
    },
    {
      "epoch": 2.027976521999914,
      "grad_norm": 4.740162372589111,
      "learning_rate": 6.461261420976716e-05,
      "loss": 0.3684617280960083,
      "memory(GiB)": 70.5,
      "step": 47335,
      "token_acc": 0.9194139194139194,
      "train_speed(iter/s)": 1.451598
    },
    {
      "epoch": 2.0281907373291634,
      "grad_norm": 0.5445603132247925,
      "learning_rate": 6.460617811780238e-05,
      "loss": 0.20175354480743407,
      "memory(GiB)": 70.5,
      "step": 47340,
      "token_acc": 0.9555555555555556,
      "train_speed(iter/s)": 1.451609
    },
    {
      "epoch": 2.0284049526584123,
      "grad_norm": 6.008301258087158,
      "learning_rate": 6.459974176123299e-05,
      "loss": 0.3594545364379883,
      "memory(GiB)": 70.5,
      "step": 47345,
      "token_acc": 0.9350180505415162,
      "train_speed(iter/s)": 1.451611
    },
    {
      "epoch": 2.028619167987661,
      "grad_norm": 1.2475197315216064,
      "learning_rate": 6.459330514017556e-05,
      "loss": 0.18788652420043944,
      "memory(GiB)": 70.5,
      "step": 47350,
      "token_acc": 0.9553264604810997,
      "train_speed(iter/s)": 1.451608
    },
    {
      "epoch": 2.0288333833169103,
      "grad_norm": 1.2478456497192383,
      "learning_rate": 6.458686825474674e-05,
      "loss": 0.3042749404907227,
      "memory(GiB)": 70.5,
      "step": 47355,
      "token_acc": 0.9361702127659575,
      "train_speed(iter/s)": 1.451603
    },
    {
      "epoch": 2.029047598646159,
      "grad_norm": 2.7008018493652344,
      "learning_rate": 6.45804311050631e-05,
      "loss": 0.4089754581451416,
      "memory(GiB)": 70.5,
      "step": 47360,
      "token_acc": 0.9185667752442996,
      "train_speed(iter/s)": 1.451621
    },
    {
      "epoch": 2.029261813975408,
      "grad_norm": 3.1198880672454834,
      "learning_rate": 6.457399369124129e-05,
      "loss": 0.36994802951812744,
      "memory(GiB)": 70.5,
      "step": 47365,
      "token_acc": 0.9186440677966101,
      "train_speed(iter/s)": 1.45162
    },
    {
      "epoch": 2.029476029304657,
      "grad_norm": 2.779202461242676,
      "learning_rate": 6.456755601339789e-05,
      "loss": 0.39109833240509034,
      "memory(GiB)": 70.5,
      "step": 47370,
      "token_acc": 0.91875,
      "train_speed(iter/s)": 1.451624
    },
    {
      "epoch": 2.029690244633906,
      "grad_norm": 3.0201807022094727,
      "learning_rate": 6.456111807164958e-05,
      "loss": 0.3546031951904297,
      "memory(GiB)": 70.5,
      "step": 47375,
      "token_acc": 0.9166666666666666,
      "train_speed(iter/s)": 1.451644
    },
    {
      "epoch": 2.029904459963155,
      "grad_norm": 6.2603559494018555,
      "learning_rate": 6.455467986611293e-05,
      "loss": 0.47895116806030275,
      "memory(GiB)": 70.5,
      "step": 47380,
      "token_acc": 0.9042904290429042,
      "train_speed(iter/s)": 1.451658
    },
    {
      "epoch": 2.030118675292404,
      "grad_norm": 1.5443087816238403,
      "learning_rate": 6.45482413969046e-05,
      "loss": 0.30798289775848386,
      "memory(GiB)": 70.5,
      "step": 47385,
      "token_acc": 0.927536231884058,
      "train_speed(iter/s)": 1.451653
    },
    {
      "epoch": 2.030332890621653,
      "grad_norm": 3.7345314025878906,
      "learning_rate": 6.454180266414125e-05,
      "loss": 0.16410930156707765,
      "memory(GiB)": 70.5,
      "step": 47390,
      "token_acc": 0.9609375,
      "train_speed(iter/s)": 1.451644
    },
    {
      "epoch": 2.0305471059509017,
      "grad_norm": 4.7918267250061035,
      "learning_rate": 6.453536366793949e-05,
      "loss": 0.3651083469390869,
      "memory(GiB)": 70.5,
      "step": 47395,
      "token_acc": 0.926829268292683,
      "train_speed(iter/s)": 1.451645
    },
    {
      "epoch": 2.030761321280151,
      "grad_norm": 6.61681604385376,
      "learning_rate": 6.452892440841597e-05,
      "loss": 0.47645010948181155,
      "memory(GiB)": 70.5,
      "step": 47400,
      "token_acc": 0.9176954732510288,
      "train_speed(iter/s)": 1.451665
    },
    {
      "epoch": 2.0309755366094,
      "grad_norm": 2.5556671619415283,
      "learning_rate": 6.452248488568738e-05,
      "loss": 0.323940372467041,
      "memory(GiB)": 70.5,
      "step": 47405,
      "token_acc": 0.9269662921348315,
      "train_speed(iter/s)": 1.451666
    },
    {
      "epoch": 2.0311897519386486,
      "grad_norm": 3.91011118888855,
      "learning_rate": 6.451604509987033e-05,
      "loss": 0.48607726097106935,
      "memory(GiB)": 70.5,
      "step": 47410,
      "token_acc": 0.8859315589353612,
      "train_speed(iter/s)": 1.451681
    },
    {
      "epoch": 2.031403967267898,
      "grad_norm": 1.8855153322219849,
      "learning_rate": 6.450960505108153e-05,
      "loss": 0.3087873935699463,
      "memory(GiB)": 70.5,
      "step": 47415,
      "token_acc": 0.921311475409836,
      "train_speed(iter/s)": 1.451671
    },
    {
      "epoch": 2.0316181825971467,
      "grad_norm": 2.341684579849243,
      "learning_rate": 6.450316473943763e-05,
      "loss": 0.45423474311828616,
      "memory(GiB)": 70.5,
      "step": 47420,
      "token_acc": 0.8875,
      "train_speed(iter/s)": 1.451661
    },
    {
      "epoch": 2.0318323979263955,
      "grad_norm": 4.503137588500977,
      "learning_rate": 6.449672416505526e-05,
      "loss": 0.22753410339355468,
      "memory(GiB)": 70.5,
      "step": 47425,
      "token_acc": 0.9456521739130435,
      "train_speed(iter/s)": 1.451661
    },
    {
      "epoch": 2.0320466132556447,
      "grad_norm": 4.663466453552246,
      "learning_rate": 6.449028332805117e-05,
      "loss": 0.3638306617736816,
      "memory(GiB)": 70.5,
      "step": 47430,
      "token_acc": 0.922509225092251,
      "train_speed(iter/s)": 1.451669
    },
    {
      "epoch": 2.0322608285848935,
      "grad_norm": 5.930561542510986,
      "learning_rate": 6.448384222854197e-05,
      "loss": 0.4660353660583496,
      "memory(GiB)": 70.5,
      "step": 47435,
      "token_acc": 0.9222972972972973,
      "train_speed(iter/s)": 1.451685
    },
    {
      "epoch": 2.0324750439141424,
      "grad_norm": 5.706390380859375,
      "learning_rate": 6.447740086664439e-05,
      "loss": 0.3546177864074707,
      "memory(GiB)": 70.5,
      "step": 47440,
      "token_acc": 0.937037037037037,
      "train_speed(iter/s)": 1.451702
    },
    {
      "epoch": 2.0326892592433916,
      "grad_norm": 3.2041175365448,
      "learning_rate": 6.447095924247512e-05,
      "loss": 0.4561814308166504,
      "memory(GiB)": 70.5,
      "step": 47445,
      "token_acc": 0.8831615120274914,
      "train_speed(iter/s)": 1.451701
    },
    {
      "epoch": 2.0329034745726404,
      "grad_norm": 6.0806193351745605,
      "learning_rate": 6.446451735615085e-05,
      "loss": 0.5855185031890869,
      "memory(GiB)": 70.5,
      "step": 47450,
      "token_acc": 0.890295358649789,
      "train_speed(iter/s)": 1.451713
    },
    {
      "epoch": 2.0331176899018892,
      "grad_norm": 3.1727983951568604,
      "learning_rate": 6.445807520778828e-05,
      "loss": 0.13382539749145508,
      "memory(GiB)": 70.5,
      "step": 47455,
      "token_acc": 0.959409594095941,
      "train_speed(iter/s)": 1.451713
    },
    {
      "epoch": 2.0333319052311385,
      "grad_norm": 4.666578769683838,
      "learning_rate": 6.445163279750412e-05,
      "loss": 0.44828367233276367,
      "memory(GiB)": 70.5,
      "step": 47460,
      "token_acc": 0.8994082840236687,
      "train_speed(iter/s)": 1.45173
    },
    {
      "epoch": 2.0335461205603873,
      "grad_norm": 5.31848669052124,
      "learning_rate": 6.444519012541507e-05,
      "loss": 0.6392924308776855,
      "memory(GiB)": 70.5,
      "step": 47465,
      "token_acc": 0.8949044585987261,
      "train_speed(iter/s)": 1.451753
    },
    {
      "epoch": 2.033760335889636,
      "grad_norm": 1.1299998760223389,
      "learning_rate": 6.443874719163782e-05,
      "loss": 0.4373302936553955,
      "memory(GiB)": 70.5,
      "step": 47470,
      "token_acc": 0.9041095890410958,
      "train_speed(iter/s)": 1.451766
    },
    {
      "epoch": 2.0339745512188854,
      "grad_norm": 2.7930057048797607,
      "learning_rate": 6.443230399628916e-05,
      "loss": 0.33986501693725585,
      "memory(GiB)": 70.5,
      "step": 47475,
      "token_acc": 0.9354838709677419,
      "train_speed(iter/s)": 1.451766
    },
    {
      "epoch": 2.034188766548134,
      "grad_norm": 1.2220778465270996,
      "learning_rate": 6.442586053948576e-05,
      "loss": 0.3554290056228638,
      "memory(GiB)": 70.5,
      "step": 47480,
      "token_acc": 0.9340659340659341,
      "train_speed(iter/s)": 1.451769
    },
    {
      "epoch": 2.034402981877383,
      "grad_norm": 3.522819757461548,
      "learning_rate": 6.441941682134436e-05,
      "loss": 0.22034878730773927,
      "memory(GiB)": 70.5,
      "step": 47485,
      "token_acc": 0.9509433962264151,
      "train_speed(iter/s)": 1.451775
    },
    {
      "epoch": 2.0346171972066323,
      "grad_norm": 2.796985387802124,
      "learning_rate": 6.441297284198172e-05,
      "loss": 0.3558933258056641,
      "memory(GiB)": 70.5,
      "step": 47490,
      "token_acc": 0.9354838709677419,
      "train_speed(iter/s)": 1.451773
    },
    {
      "epoch": 2.034831412535881,
      "grad_norm": 1.743396282196045,
      "learning_rate": 6.440652860151452e-05,
      "loss": 0.31530165672302246,
      "memory(GiB)": 70.5,
      "step": 47495,
      "token_acc": 0.9083665338645418,
      "train_speed(iter/s)": 1.45177
    },
    {
      "epoch": 2.03504562786513,
      "grad_norm": 2.1670806407928467,
      "learning_rate": 6.440008410005956e-05,
      "loss": 0.2885331869125366,
      "memory(GiB)": 70.5,
      "step": 47500,
      "token_acc": 0.9461279461279462,
      "train_speed(iter/s)": 1.45178
    },
    {
      "epoch": 2.03504562786513,
      "eval_loss": 2.5181310176849365,
      "eval_runtime": 13.3194,
      "eval_samples_per_second": 7.508,
      "eval_steps_per_second": 7.508,
      "eval_token_acc": 0.42909987669543775,
      "step": 47500
    },
    {
      "epoch": 2.035259843194379,
      "grad_norm": 2.826847553253174,
      "learning_rate": 6.439363933773358e-05,
      "loss": 0.44466476440429686,
      "memory(GiB)": 70.5,
      "step": 47505,
      "token_acc": 0.5701830863121186,
      "train_speed(iter/s)": 1.451141
    },
    {
      "epoch": 2.035474058523628,
      "grad_norm": 2.210513114929199,
      "learning_rate": 6.43871943146533e-05,
      "loss": 0.26535494327545167,
      "memory(GiB)": 70.5,
      "step": 47510,
      "token_acc": 0.9401993355481728,
      "train_speed(iter/s)": 1.451139
    },
    {
      "epoch": 2.0356882738528768,
      "grad_norm": 2.209998846054077,
      "learning_rate": 6.43807490309355e-05,
      "loss": 0.16166919469833374,
      "memory(GiB)": 70.5,
      "step": 47515,
      "token_acc": 0.9527896995708155,
      "train_speed(iter/s)": 1.45115
    },
    {
      "epoch": 2.035902489182126,
      "grad_norm": 0.9670879244804382,
      "learning_rate": 6.437430348669695e-05,
      "loss": 0.20201995372772216,
      "memory(GiB)": 70.5,
      "step": 47520,
      "token_acc": 0.9552845528455285,
      "train_speed(iter/s)": 1.451161
    },
    {
      "epoch": 2.036116704511375,
      "grad_norm": 5.292684555053711,
      "learning_rate": 6.436785768205442e-05,
      "loss": 0.735888671875,
      "memory(GiB)": 70.5,
      "step": 47525,
      "token_acc": 0.8380566801619433,
      "train_speed(iter/s)": 1.451182
    },
    {
      "epoch": 2.0363309198406236,
      "grad_norm": 4.478448390960693,
      "learning_rate": 6.436141161712465e-05,
      "loss": 0.2968492031097412,
      "memory(GiB)": 70.5,
      "step": 47530,
      "token_acc": 0.9339080459770115,
      "train_speed(iter/s)": 1.45118
    },
    {
      "epoch": 2.036545135169873,
      "grad_norm": 6.283172607421875,
      "learning_rate": 6.435496529202446e-05,
      "loss": 0.3554699420928955,
      "memory(GiB)": 70.5,
      "step": 47535,
      "token_acc": 0.9155405405405406,
      "train_speed(iter/s)": 1.451194
    },
    {
      "epoch": 2.0367593504991217,
      "grad_norm": 2.2809526920318604,
      "learning_rate": 6.434851870687058e-05,
      "loss": 0.3601693153381348,
      "memory(GiB)": 70.5,
      "step": 47540,
      "token_acc": 0.9390243902439024,
      "train_speed(iter/s)": 1.451212
    },
    {
      "epoch": 2.0369735658283705,
      "grad_norm": 3.461440324783325,
      "learning_rate": 6.434207186177982e-05,
      "loss": 0.5012109756469727,
      "memory(GiB)": 70.5,
      "step": 47545,
      "token_acc": 0.9015748031496063,
      "train_speed(iter/s)": 1.451207
    },
    {
      "epoch": 2.03718778115762,
      "grad_norm": 3.0054643154144287,
      "learning_rate": 6.4335624756869e-05,
      "loss": 0.39149577617645265,
      "memory(GiB)": 70.5,
      "step": 47550,
      "token_acc": 0.9163763066202091,
      "train_speed(iter/s)": 1.451205
    },
    {
      "epoch": 2.0374019964868686,
      "grad_norm": 0.45907869935035706,
      "learning_rate": 6.432917739225486e-05,
      "loss": 0.23729569911956788,
      "memory(GiB)": 70.5,
      "step": 47555,
      "token_acc": 0.9577464788732394,
      "train_speed(iter/s)": 1.451219
    },
    {
      "epoch": 2.0376162118161174,
      "grad_norm": 3.7616541385650635,
      "learning_rate": 6.432272976805425e-05,
      "loss": 0.3430230140686035,
      "memory(GiB)": 70.5,
      "step": 47560,
      "token_acc": 0.9173228346456693,
      "train_speed(iter/s)": 1.451217
    },
    {
      "epoch": 2.0378304271453667,
      "grad_norm": 1.7118115425109863,
      "learning_rate": 6.431628188438397e-05,
      "loss": 0.2252413272857666,
      "memory(GiB)": 70.5,
      "step": 47565,
      "token_acc": 0.9471698113207547,
      "train_speed(iter/s)": 1.451225
    },
    {
      "epoch": 2.0380446424746155,
      "grad_norm": 2.098641872406006,
      "learning_rate": 6.430983374136078e-05,
      "loss": 0.38119282722473147,
      "memory(GiB)": 70.5,
      "step": 47570,
      "token_acc": 0.9290540540540541,
      "train_speed(iter/s)": 1.451223
    },
    {
      "epoch": 2.0382588578038643,
      "grad_norm": 4.140746116638184,
      "learning_rate": 6.430338533910155e-05,
      "loss": 0.3076956748962402,
      "memory(GiB)": 70.5,
      "step": 47575,
      "token_acc": 0.9402985074626866,
      "train_speed(iter/s)": 1.451242
    },
    {
      "epoch": 2.0384730731331135,
      "grad_norm": 2.876951217651367,
      "learning_rate": 6.429693667772308e-05,
      "loss": 0.3118378400802612,
      "memory(GiB)": 70.5,
      "step": 47580,
      "token_acc": 0.9387096774193548,
      "train_speed(iter/s)": 1.451236
    },
    {
      "epoch": 2.0386872884623624,
      "grad_norm": 4.22162389755249,
      "learning_rate": 6.429048775734216e-05,
      "loss": 0.4438285827636719,
      "memory(GiB)": 70.5,
      "step": 47585,
      "token_acc": 0.9023569023569024,
      "train_speed(iter/s)": 1.451249
    },
    {
      "epoch": 2.038901503791611,
      "grad_norm": 3.0264804363250732,
      "learning_rate": 6.428403857807568e-05,
      "loss": 0.3044466972351074,
      "memory(GiB)": 70.5,
      "step": 47590,
      "token_acc": 0.9453924914675768,
      "train_speed(iter/s)": 1.451246
    },
    {
      "epoch": 2.0391157191208604,
      "grad_norm": 7.2021307945251465,
      "learning_rate": 6.427758914004044e-05,
      "loss": 0.5677507877349853,
      "memory(GiB)": 70.5,
      "step": 47595,
      "token_acc": 0.8884892086330936,
      "train_speed(iter/s)": 1.451245
    },
    {
      "epoch": 2.0393299344501092,
      "grad_norm": 17.58225440979004,
      "learning_rate": 6.427113944335326e-05,
      "loss": 0.44292635917663575,
      "memory(GiB)": 70.5,
      "step": 47600,
      "token_acc": 0.9157509157509157,
      "train_speed(iter/s)": 1.451259
    },
    {
      "epoch": 2.039544149779358,
      "grad_norm": 2.3579773902893066,
      "learning_rate": 6.426468948813102e-05,
      "loss": 0.25006120204925536,
      "memory(GiB)": 70.5,
      "step": 47605,
      "token_acc": 0.9427609427609428,
      "train_speed(iter/s)": 1.451291
    },
    {
      "epoch": 2.0397583651086073,
      "grad_norm": 2.56516695022583,
      "learning_rate": 6.425823927449055e-05,
      "loss": 0.29215302467346194,
      "memory(GiB)": 70.5,
      "step": 47610,
      "token_acc": 0.9539473684210527,
      "train_speed(iter/s)": 1.451286
    },
    {
      "epoch": 2.039972580437856,
      "grad_norm": 3.585767984390259,
      "learning_rate": 6.425178880254869e-05,
      "loss": 0.7501347541809082,
      "memory(GiB)": 70.5,
      "step": 47615,
      "token_acc": 0.8620689655172413,
      "train_speed(iter/s)": 1.451299
    },
    {
      "epoch": 2.040186795767105,
      "grad_norm": 5.368339538574219,
      "learning_rate": 6.424533807242229e-05,
      "loss": 0.3546141624450684,
      "memory(GiB)": 70.5,
      "step": 47620,
      "token_acc": 0.9272727272727272,
      "train_speed(iter/s)": 1.4513
    },
    {
      "epoch": 2.040401011096354,
      "grad_norm": 5.951714992523193,
      "learning_rate": 6.423888708422825e-05,
      "loss": 0.47978978157043456,
      "memory(GiB)": 70.5,
      "step": 47625,
      "token_acc": 0.9010989010989011,
      "train_speed(iter/s)": 1.451299
    },
    {
      "epoch": 2.040615226425603,
      "grad_norm": 1.426073431968689,
      "learning_rate": 6.42324358380834e-05,
      "loss": 0.13866318464279176,
      "memory(GiB)": 70.5,
      "step": 47630,
      "token_acc": 0.968421052631579,
      "train_speed(iter/s)": 1.451301
    },
    {
      "epoch": 2.040829441754852,
      "grad_norm": 2.4685301780700684,
      "learning_rate": 6.422598433410465e-05,
      "loss": 0.39597325325012206,
      "memory(GiB)": 70.5,
      "step": 47635,
      "token_acc": 0.9139784946236559,
      "train_speed(iter/s)": 1.45129
    },
    {
      "epoch": 2.041043657084101,
      "grad_norm": 5.677618026733398,
      "learning_rate": 6.421953257240882e-05,
      "loss": 0.3252150058746338,
      "memory(GiB)": 70.5,
      "step": 47640,
      "token_acc": 0.917910447761194,
      "train_speed(iter/s)": 1.451299
    },
    {
      "epoch": 2.04125787241335,
      "grad_norm": 1.8210092782974243,
      "learning_rate": 6.421308055311284e-05,
      "loss": 0.19858112335205078,
      "memory(GiB)": 70.5,
      "step": 47645,
      "token_acc": 0.9539473684210527,
      "train_speed(iter/s)": 1.451297
    },
    {
      "epoch": 2.0414720877425987,
      "grad_norm": 3.7062745094299316,
      "learning_rate": 6.420662827633358e-05,
      "loss": 0.5079660415649414,
      "memory(GiB)": 70.5,
      "step": 47650,
      "token_acc": 0.8870967741935484,
      "train_speed(iter/s)": 1.451295
    },
    {
      "epoch": 2.041686303071848,
      "grad_norm": 1.6701692342758179,
      "learning_rate": 6.420017574218788e-05,
      "loss": 0.4262245655059814,
      "memory(GiB)": 70.5,
      "step": 47655,
      "token_acc": 0.8947368421052632,
      "train_speed(iter/s)": 1.451308
    },
    {
      "epoch": 2.0419005184010968,
      "grad_norm": 2.604637861251831,
      "learning_rate": 6.41937229507927e-05,
      "loss": 0.2659695386886597,
      "memory(GiB)": 70.5,
      "step": 47660,
      "token_acc": 0.9275862068965517,
      "train_speed(iter/s)": 1.451306
    },
    {
      "epoch": 2.0421147337303456,
      "grad_norm": 3.8146812915802,
      "learning_rate": 6.418726990226491e-05,
      "loss": 0.40534210205078125,
      "memory(GiB)": 70.5,
      "step": 47665,
      "token_acc": 0.9222972972972973,
      "train_speed(iter/s)": 1.451304
    },
    {
      "epoch": 2.042328949059595,
      "grad_norm": 0.681645929813385,
      "learning_rate": 6.418081659672142e-05,
      "loss": 0.325938081741333,
      "memory(GiB)": 70.5,
      "step": 47670,
      "token_acc": 0.9291044776119403,
      "train_speed(iter/s)": 1.451309
    },
    {
      "epoch": 2.0425431643888436,
      "grad_norm": 3.6689417362213135,
      "learning_rate": 6.417436303427914e-05,
      "loss": 0.5076084613800049,
      "memory(GiB)": 70.5,
      "step": 47675,
      "token_acc": 0.900709219858156,
      "train_speed(iter/s)": 1.451315
    },
    {
      "epoch": 2.0427573797180925,
      "grad_norm": 3.7881829738616943,
      "learning_rate": 6.416790921505498e-05,
      "loss": 0.3991727828979492,
      "memory(GiB)": 70.5,
      "step": 47680,
      "token_acc": 0.9285714285714286,
      "train_speed(iter/s)": 1.451319
    },
    {
      "epoch": 2.0429715950473417,
      "grad_norm": 0.2154429703950882,
      "learning_rate": 6.416145513916584e-05,
      "loss": 0.1811738967895508,
      "memory(GiB)": 70.5,
      "step": 47685,
      "token_acc": 0.9652777777777778,
      "train_speed(iter/s)": 1.45132
    },
    {
      "epoch": 2.0431858103765905,
      "grad_norm": 2.8881444931030273,
      "learning_rate": 6.415500080672866e-05,
      "loss": 0.6699195861816406,
      "memory(GiB)": 70.5,
      "step": 47690,
      "token_acc": 0.8576051779935275,
      "train_speed(iter/s)": 1.45132
    },
    {
      "epoch": 2.0434000257058393,
      "grad_norm": 5.413203239440918,
      "learning_rate": 6.414854621786037e-05,
      "loss": 0.6962713718414306,
      "memory(GiB)": 70.5,
      "step": 47695,
      "token_acc": 0.8691275167785235,
      "train_speed(iter/s)": 1.451345
    },
    {
      "epoch": 2.0436142410350886,
      "grad_norm": 3.3217475414276123,
      "learning_rate": 6.414209137267788e-05,
      "loss": 0.22635719776153565,
      "memory(GiB)": 70.5,
      "step": 47700,
      "token_acc": 0.937984496124031,
      "train_speed(iter/s)": 1.451351
    },
    {
      "epoch": 2.0438284563643374,
      "grad_norm": 2.6973862648010254,
      "learning_rate": 6.413563627129815e-05,
      "loss": 0.3922914981842041,
      "memory(GiB)": 70.5,
      "step": 47705,
      "token_acc": 0.9054878048780488,
      "train_speed(iter/s)": 1.451362
    },
    {
      "epoch": 2.044042671693586,
      "grad_norm": 3.2773354053497314,
      "learning_rate": 6.41291809138381e-05,
      "loss": 0.3959831237792969,
      "memory(GiB)": 70.5,
      "step": 47710,
      "token_acc": 0.90625,
      "train_speed(iter/s)": 1.451371
    },
    {
      "epoch": 2.0442568870228355,
      "grad_norm": 5.815387725830078,
      "learning_rate": 6.412272530041469e-05,
      "loss": 0.5971796035766601,
      "memory(GiB)": 70.5,
      "step": 47715,
      "token_acc": 0.8807017543859649,
      "train_speed(iter/s)": 1.451378
    },
    {
      "epoch": 2.0444711023520843,
      "grad_norm": 1.8154776096343994,
      "learning_rate": 6.411626943114486e-05,
      "loss": 0.34501121044158933,
      "memory(GiB)": 70.5,
      "step": 47720,
      "token_acc": 0.9230769230769231,
      "train_speed(iter/s)": 1.451383
    },
    {
      "epoch": 2.044685317681333,
      "grad_norm": 2.4031107425689697,
      "learning_rate": 6.410981330614558e-05,
      "loss": 0.2543515205383301,
      "memory(GiB)": 70.5,
      "step": 47725,
      "token_acc": 0.9498069498069498,
      "train_speed(iter/s)": 1.451382
    },
    {
      "epoch": 2.0448995330105824,
      "grad_norm": 2.069812059402466,
      "learning_rate": 6.410335692553376e-05,
      "loss": 0.36762776374816897,
      "memory(GiB)": 70.5,
      "step": 47730,
      "token_acc": 0.9120234604105572,
      "train_speed(iter/s)": 1.451383
    },
    {
      "epoch": 2.045113748339831,
      "grad_norm": 7.924597263336182,
      "learning_rate": 6.409690028942643e-05,
      "loss": 0.1992565870285034,
      "memory(GiB)": 70.5,
      "step": 47735,
      "token_acc": 0.9626865671641791,
      "train_speed(iter/s)": 1.451376
    },
    {
      "epoch": 2.04532796366908,
      "grad_norm": 4.482367992401123,
      "learning_rate": 6.409044339794052e-05,
      "loss": 0.40611972808837893,
      "memory(GiB)": 70.5,
      "step": 47740,
      "token_acc": 0.8996763754045307,
      "train_speed(iter/s)": 1.451371
    },
    {
      "epoch": 2.0455421789983292,
      "grad_norm": 2.282390832901001,
      "learning_rate": 6.408398625119301e-05,
      "loss": 0.3122326135635376,
      "memory(GiB)": 70.5,
      "step": 47745,
      "token_acc": 0.9381107491856677,
      "train_speed(iter/s)": 1.45137
    },
    {
      "epoch": 2.045756394327578,
      "grad_norm": 2.0416977405548096,
      "learning_rate": 6.407752884930089e-05,
      "loss": 0.4419189453125,
      "memory(GiB)": 70.5,
      "step": 47750,
      "token_acc": 0.9239130434782609,
      "train_speed(iter/s)": 1.451368
    },
    {
      "epoch": 2.045970609656827,
      "grad_norm": 2.4420273303985596,
      "learning_rate": 6.407107119238111e-05,
      "loss": 0.5943962574005127,
      "memory(GiB)": 70.5,
      "step": 47755,
      "token_acc": 0.8726114649681529,
      "train_speed(iter/s)": 1.451388
    },
    {
      "epoch": 2.046184824986076,
      "grad_norm": 3.7436914443969727,
      "learning_rate": 6.40646132805507e-05,
      "loss": 0.4812185287475586,
      "memory(GiB)": 70.5,
      "step": 47760,
      "token_acc": 0.883495145631068,
      "train_speed(iter/s)": 1.451377
    },
    {
      "epoch": 2.046399040315325,
      "grad_norm": 2.9040703773498535,
      "learning_rate": 6.405815511392659e-05,
      "loss": 0.28540453910827634,
      "memory(GiB)": 70.5,
      "step": 47765,
      "token_acc": 0.9423868312757202,
      "train_speed(iter/s)": 1.451397
    },
    {
      "epoch": 2.0466132556445737,
      "grad_norm": 2.167358636856079,
      "learning_rate": 6.405169669262583e-05,
      "loss": 0.4102794170379639,
      "memory(GiB)": 70.5,
      "step": 47770,
      "token_acc": 0.8975265017667845,
      "train_speed(iter/s)": 1.451396
    },
    {
      "epoch": 2.046827470973823,
      "grad_norm": 4.024528980255127,
      "learning_rate": 6.40452380167654e-05,
      "loss": 0.28680105209350587,
      "memory(GiB)": 70.5,
      "step": 47775,
      "token_acc": 0.9484536082474226,
      "train_speed(iter/s)": 1.451394
    },
    {
      "epoch": 2.047041686303072,
      "grad_norm": 6.72648286819458,
      "learning_rate": 6.403877908646232e-05,
      "loss": 0.4308903694152832,
      "memory(GiB)": 70.5,
      "step": 47780,
      "token_acc": 0.8772563176895307,
      "train_speed(iter/s)": 1.451382
    },
    {
      "epoch": 2.0472559016323206,
      "grad_norm": 6.045637607574463,
      "learning_rate": 6.403231990183358e-05,
      "loss": 0.3862269878387451,
      "memory(GiB)": 70.5,
      "step": 47785,
      "token_acc": 0.9101449275362319,
      "train_speed(iter/s)": 1.451379
    },
    {
      "epoch": 2.04747011696157,
      "grad_norm": 4.277620792388916,
      "learning_rate": 6.40258604629962e-05,
      "loss": 0.5478341102600097,
      "memory(GiB)": 70.5,
      "step": 47790,
      "token_acc": 0.8906666666666667,
      "train_speed(iter/s)": 1.45138
    },
    {
      "epoch": 2.0476843322908187,
      "grad_norm": 3.654752492904663,
      "learning_rate": 6.401940077006721e-05,
      "loss": 0.29789109230041505,
      "memory(GiB)": 70.5,
      "step": 47795,
      "token_acc": 0.9274809160305344,
      "train_speed(iter/s)": 1.451378
    },
    {
      "epoch": 2.0478985476200675,
      "grad_norm": 1.2843971252441406,
      "learning_rate": 6.401294082316361e-05,
      "loss": 0.2832914113998413,
      "memory(GiB)": 70.5,
      "step": 47800,
      "token_acc": 0.9452054794520548,
      "train_speed(iter/s)": 1.451385
    },
    {
      "epoch": 2.0481127629493168,
      "grad_norm": 5.6865434646606445,
      "learning_rate": 6.400648062240243e-05,
      "loss": 0.2734884977340698,
      "memory(GiB)": 70.5,
      "step": 47805,
      "token_acc": 0.922509225092251,
      "train_speed(iter/s)": 1.451396
    },
    {
      "epoch": 2.0483269782785656,
      "grad_norm": 4.000848770141602,
      "learning_rate": 6.400002016790074e-05,
      "loss": 0.3219779968261719,
      "memory(GiB)": 70.5,
      "step": 47810,
      "token_acc": 0.9354838709677419,
      "train_speed(iter/s)": 1.451396
    },
    {
      "epoch": 2.0485411936078144,
      "grad_norm": 7.857330322265625,
      "learning_rate": 6.399355945977554e-05,
      "loss": 0.3403666019439697,
      "memory(GiB)": 70.5,
      "step": 47815,
      "token_acc": 0.9100346020761245,
      "train_speed(iter/s)": 1.451418
    },
    {
      "epoch": 2.0487554089370636,
      "grad_norm": 5.017498970031738,
      "learning_rate": 6.39870984981439e-05,
      "loss": 0.30747017860412595,
      "memory(GiB)": 70.5,
      "step": 47820,
      "token_acc": 0.9336099585062241,
      "train_speed(iter/s)": 1.451432
    },
    {
      "epoch": 2.0489696242663125,
      "grad_norm": 5.839710712432861,
      "learning_rate": 6.398063728312283e-05,
      "loss": 0.676287841796875,
      "memory(GiB)": 70.5,
      "step": 47825,
      "token_acc": 0.8582677165354331,
      "train_speed(iter/s)": 1.451437
    },
    {
      "epoch": 2.0491838395955613,
      "grad_norm": 1.8029190301895142,
      "learning_rate": 6.39741758148294e-05,
      "loss": 0.503867244720459,
      "memory(GiB)": 70.5,
      "step": 47830,
      "token_acc": 0.889967637540453,
      "train_speed(iter/s)": 1.451444
    },
    {
      "epoch": 2.0493980549248105,
      "grad_norm": 1.3360739946365356,
      "learning_rate": 6.396771409338068e-05,
      "loss": 0.3348002672195435,
      "memory(GiB)": 70.5,
      "step": 47835,
      "token_acc": 0.926923076923077,
      "train_speed(iter/s)": 1.451459
    },
    {
      "epoch": 2.0496122702540593,
      "grad_norm": 1.7316187620162964,
      "learning_rate": 6.39612521188937e-05,
      "loss": 0.39394800662994384,
      "memory(GiB)": 70.5,
      "step": 47840,
      "token_acc": 0.9401709401709402,
      "train_speed(iter/s)": 1.451469
    },
    {
      "epoch": 2.049826485583308,
      "grad_norm": 3.1624395847320557,
      "learning_rate": 6.395478989148556e-05,
      "loss": 0.27371203899383545,
      "memory(GiB)": 70.5,
      "step": 47845,
      "token_acc": 0.9297297297297298,
      "train_speed(iter/s)": 1.451466
    },
    {
      "epoch": 2.0500407009125574,
      "grad_norm": 2.9025955200195312,
      "learning_rate": 6.39483274112733e-05,
      "loss": 0.5993714809417725,
      "memory(GiB)": 70.5,
      "step": 47850,
      "token_acc": 0.8633333333333333,
      "train_speed(iter/s)": 1.45149
    },
    {
      "epoch": 2.0502549162418062,
      "grad_norm": 5.419928550720215,
      "learning_rate": 6.3941864678374e-05,
      "loss": 0.4683380126953125,
      "memory(GiB)": 70.5,
      "step": 47855,
      "token_acc": 0.9283276450511946,
      "train_speed(iter/s)": 1.451488
    },
    {
      "epoch": 2.050469131571055,
      "grad_norm": 4.349549770355225,
      "learning_rate": 6.393540169290475e-05,
      "loss": 0.6288832187652588,
      "memory(GiB)": 70.5,
      "step": 47860,
      "token_acc": 0.8979057591623036,
      "train_speed(iter/s)": 1.451494
    },
    {
      "epoch": 2.0506833469003043,
      "grad_norm": 3.9866878986358643,
      "learning_rate": 6.392893845498262e-05,
      "loss": 0.2609997749328613,
      "memory(GiB)": 70.5,
      "step": 47865,
      "token_acc": 0.9328621908127208,
      "train_speed(iter/s)": 1.451496
    },
    {
      "epoch": 2.050897562229553,
      "grad_norm": 6.592968463897705,
      "learning_rate": 6.392247496472472e-05,
      "loss": 0.3421879768371582,
      "memory(GiB)": 70.5,
      "step": 47870,
      "token_acc": 0.9285714285714286,
      "train_speed(iter/s)": 1.451501
    },
    {
      "epoch": 2.051111777558802,
      "grad_norm": 6.228003978729248,
      "learning_rate": 6.391601122224811e-05,
      "loss": 0.42588214874267577,
      "memory(GiB)": 70.5,
      "step": 47875,
      "token_acc": 0.9094076655052264,
      "train_speed(iter/s)": 1.451508
    },
    {
      "epoch": 2.051325992888051,
      "grad_norm": 0.6509956121444702,
      "learning_rate": 6.39095472276699e-05,
      "loss": 0.178023362159729,
      "memory(GiB)": 70.5,
      "step": 47880,
      "token_acc": 0.9673590504451038,
      "train_speed(iter/s)": 1.451501
    },
    {
      "epoch": 2.0515402082173,
      "grad_norm": 2.806661367416382,
      "learning_rate": 6.39030829811072e-05,
      "loss": 0.5397136211395264,
      "memory(GiB)": 70.5,
      "step": 47885,
      "token_acc": 0.8881118881118881,
      "train_speed(iter/s)": 1.451513
    },
    {
      "epoch": 2.051754423546549,
      "grad_norm": 1.5170069932937622,
      "learning_rate": 6.38966184826771e-05,
      "loss": 0.13199926614761354,
      "memory(GiB)": 70.5,
      "step": 47890,
      "token_acc": 0.9694189602446484,
      "train_speed(iter/s)": 1.45151
    },
    {
      "epoch": 2.051968638875798,
      "grad_norm": 1.3861052989959717,
      "learning_rate": 6.389015373249674e-05,
      "loss": 0.31626479625701903,
      "memory(GiB)": 70.5,
      "step": 47895,
      "token_acc": 0.9306569343065694,
      "train_speed(iter/s)": 1.451526
    },
    {
      "epoch": 2.052182854205047,
      "grad_norm": 1.4245842695236206,
      "learning_rate": 6.388368873068321e-05,
      "loss": 0.3117805242538452,
      "memory(GiB)": 70.5,
      "step": 47900,
      "token_acc": 0.9484848484848485,
      "train_speed(iter/s)": 1.451532
    },
    {
      "epoch": 2.0523970695342957,
      "grad_norm": 4.074802398681641,
      "learning_rate": 6.387722347735362e-05,
      "loss": 0.3816797733306885,
      "memory(GiB)": 70.5,
      "step": 47905,
      "token_acc": 0.9013333333333333,
      "train_speed(iter/s)": 1.451547
    },
    {
      "epoch": 2.052611284863545,
      "grad_norm": 3.166527509689331,
      "learning_rate": 6.387075797262513e-05,
      "loss": 0.23688156604766847,
      "memory(GiB)": 70.5,
      "step": 47910,
      "token_acc": 0.9469387755102041,
      "train_speed(iter/s)": 1.451543
    },
    {
      "epoch": 2.0528255001927938,
      "grad_norm": 5.1095991134643555,
      "learning_rate": 6.386429221661483e-05,
      "loss": 0.29240126609802247,
      "memory(GiB)": 70.5,
      "step": 47915,
      "token_acc": 0.9190140845070423,
      "train_speed(iter/s)": 1.451542
    },
    {
      "epoch": 2.0530397155220426,
      "grad_norm": 4.287453651428223,
      "learning_rate": 6.385782620943986e-05,
      "loss": 0.39183506965637205,
      "memory(GiB)": 70.5,
      "step": 47920,
      "token_acc": 0.918918918918919,
      "train_speed(iter/s)": 1.451547
    },
    {
      "epoch": 2.053253930851292,
      "grad_norm": 1.2477099895477295,
      "learning_rate": 6.385135995121739e-05,
      "loss": 0.2773273468017578,
      "memory(GiB)": 70.5,
      "step": 47925,
      "token_acc": 0.9571865443425076,
      "train_speed(iter/s)": 1.451563
    },
    {
      "epoch": 2.0534681461805406,
      "grad_norm": 1.705125093460083,
      "learning_rate": 6.384489344206455e-05,
      "loss": 0.2931018590927124,
      "memory(GiB)": 70.5,
      "step": 47930,
      "token_acc": 0.9358108108108109,
      "train_speed(iter/s)": 1.45157
    },
    {
      "epoch": 2.0536823615097894,
      "grad_norm": 5.54170560836792,
      "learning_rate": 6.383842668209845e-05,
      "loss": 0.5268583297729492,
      "memory(GiB)": 70.5,
      "step": 47935,
      "token_acc": 0.9173553719008265,
      "train_speed(iter/s)": 1.45157
    },
    {
      "epoch": 2.0538965768390387,
      "grad_norm": 0.375287264585495,
      "learning_rate": 6.383195967143629e-05,
      "loss": 0.3293191194534302,
      "memory(GiB)": 70.5,
      "step": 47940,
      "token_acc": 0.9496644295302014,
      "train_speed(iter/s)": 1.451572
    },
    {
      "epoch": 2.0541107921682875,
      "grad_norm": 0.23856593668460846,
      "learning_rate": 6.38254924101952e-05,
      "loss": 0.07564188241958618,
      "memory(GiB)": 70.5,
      "step": 47945,
      "token_acc": 0.9829787234042553,
      "train_speed(iter/s)": 1.451576
    },
    {
      "epoch": 2.0543250074975363,
      "grad_norm": 3.7148847579956055,
      "learning_rate": 6.381902489849233e-05,
      "loss": 0.4205787658691406,
      "memory(GiB)": 70.5,
      "step": 47950,
      "token_acc": 0.8987341772151899,
      "train_speed(iter/s)": 1.451586
    },
    {
      "epoch": 2.0545392228267856,
      "grad_norm": 2.568650960922241,
      "learning_rate": 6.381255713644488e-05,
      "loss": 0.36500275135040283,
      "memory(GiB)": 70.5,
      "step": 47955,
      "token_acc": 0.919093851132686,
      "train_speed(iter/s)": 1.451591
    },
    {
      "epoch": 2.0547534381560344,
      "grad_norm": 3.8678719997406006,
      "learning_rate": 6.380608912416999e-05,
      "loss": 0.4292935848236084,
      "memory(GiB)": 70.5,
      "step": 47960,
      "token_acc": 0.912621359223301,
      "train_speed(iter/s)": 1.451592
    },
    {
      "epoch": 2.054967653485283,
      "grad_norm": 1.0943546295166016,
      "learning_rate": 6.379962086178485e-05,
      "loss": 0.20083014965057372,
      "memory(GiB)": 70.5,
      "step": 47965,
      "token_acc": 0.9635258358662614,
      "train_speed(iter/s)": 1.451602
    },
    {
      "epoch": 2.0551818688145325,
      "grad_norm": 0.9289455413818359,
      "learning_rate": 6.379315234940664e-05,
      "loss": 0.15410978794097902,
      "memory(GiB)": 70.5,
      "step": 47970,
      "token_acc": 0.9714285714285714,
      "train_speed(iter/s)": 1.451607
    },
    {
      "epoch": 2.0553960841437813,
      "grad_norm": 2.720078706741333,
      "learning_rate": 6.378668358715252e-05,
      "loss": 0.4129208564758301,
      "memory(GiB)": 70.5,
      "step": 47975,
      "token_acc": 0.9191616766467066,
      "train_speed(iter/s)": 1.451615
    },
    {
      "epoch": 2.05561029947303,
      "grad_norm": 5.856415271759033,
      "learning_rate": 6.378021457513971e-05,
      "loss": 0.4656832695007324,
      "memory(GiB)": 70.5,
      "step": 47980,
      "token_acc": 0.9041533546325878,
      "train_speed(iter/s)": 1.451625
    },
    {
      "epoch": 2.0558245148022793,
      "grad_norm": 1.9023401737213135,
      "learning_rate": 6.377374531348538e-05,
      "loss": 0.4250325202941895,
      "memory(GiB)": 70.5,
      "step": 47985,
      "token_acc": 0.9037800687285223,
      "train_speed(iter/s)": 1.451636
    },
    {
      "epoch": 2.056038730131528,
      "grad_norm": 4.057559490203857,
      "learning_rate": 6.376727580230671e-05,
      "loss": 0.5019278526306152,
      "memory(GiB)": 70.5,
      "step": 47990,
      "token_acc": 0.8910891089108911,
      "train_speed(iter/s)": 1.451631
    },
    {
      "epoch": 2.056252945460777,
      "grad_norm": 9.407608032226562,
      "learning_rate": 6.376080604172096e-05,
      "loss": 0.5921007633209229,
      "memory(GiB)": 70.5,
      "step": 47995,
      "token_acc": 0.8859315589353612,
      "train_speed(iter/s)": 1.451643
    },
    {
      "epoch": 2.0564671607900262,
      "grad_norm": 4.336686134338379,
      "learning_rate": 6.375433603184528e-05,
      "loss": 0.409475040435791,
      "memory(GiB)": 70.5,
      "step": 48000,
      "token_acc": 0.9039735099337748,
      "train_speed(iter/s)": 1.451662
    },
    {
      "epoch": 2.0564671607900262,
      "eval_loss": 2.389533519744873,
      "eval_runtime": 13.7295,
      "eval_samples_per_second": 7.284,
      "eval_steps_per_second": 7.284,
      "eval_token_acc": 0.4383033419023136,
      "step": 48000
    },
    {
      "epoch": 2.056681376119275,
      "grad_norm": 2.8811848163604736,
      "learning_rate": 6.37478657727969e-05,
      "loss": 0.358808708190918,
      "memory(GiB)": 70.5,
      "step": 48005,
      "token_acc": 0.5575992255566312,
      "train_speed(iter/s)": 1.451034
    },
    {
      "epoch": 2.056895591448524,
      "grad_norm": 6.313811302185059,
      "learning_rate": 6.374139526469304e-05,
      "loss": 0.5276803970336914,
      "memory(GiB)": 70.5,
      "step": 48010,
      "token_acc": 0.87890625,
      "train_speed(iter/s)": 1.451035
    },
    {
      "epoch": 2.057109806777773,
      "grad_norm": 4.08439826965332,
      "learning_rate": 6.373492450765093e-05,
      "loss": 0.261932373046875,
      "memory(GiB)": 70.5,
      "step": 48015,
      "token_acc": 0.9322493224932249,
      "train_speed(iter/s)": 1.451042
    },
    {
      "epoch": 2.057324022107022,
      "grad_norm": 3.9468321800231934,
      "learning_rate": 6.372845350178776e-05,
      "loss": 0.5644903659820557,
      "memory(GiB)": 70.5,
      "step": 48020,
      "token_acc": 0.8922305764411027,
      "train_speed(iter/s)": 1.451065
    },
    {
      "epoch": 2.0575382374362707,
      "grad_norm": 3.751708984375,
      "learning_rate": 6.372198224722077e-05,
      "loss": 0.5417839050292969,
      "memory(GiB)": 70.5,
      "step": 48025,
      "token_acc": 0.9003436426116839,
      "train_speed(iter/s)": 1.451076
    },
    {
      "epoch": 2.05775245276552,
      "grad_norm": 6.307085990905762,
      "learning_rate": 6.37155107440672e-05,
      "loss": 0.2947713851928711,
      "memory(GiB)": 70.5,
      "step": 48030,
      "token_acc": 0.9545454545454546,
      "train_speed(iter/s)": 1.45108
    },
    {
      "epoch": 2.057966668094769,
      "grad_norm": 4.896065711975098,
      "learning_rate": 6.370903899244429e-05,
      "loss": 0.3063358306884766,
      "memory(GiB)": 70.5,
      "step": 48035,
      "token_acc": 0.934931506849315,
      "train_speed(iter/s)": 1.451082
    },
    {
      "epoch": 2.0581808834240176,
      "grad_norm": 1.4990531206130981,
      "learning_rate": 6.370256699246929e-05,
      "loss": 0.35884206295013427,
      "memory(GiB)": 70.5,
      "step": 48040,
      "token_acc": 0.9357142857142857,
      "train_speed(iter/s)": 1.451088
    },
    {
      "epoch": 2.058395098753267,
      "grad_norm": 4.014467716217041,
      "learning_rate": 6.369609474425944e-05,
      "loss": 0.5995320796966552,
      "memory(GiB)": 70.5,
      "step": 48045,
      "token_acc": 0.8817567567567568,
      "train_speed(iter/s)": 1.451109
    },
    {
      "epoch": 2.0586093140825157,
      "grad_norm": 3.0181941986083984,
      "learning_rate": 6.368962224793195e-05,
      "loss": 0.24585583209991455,
      "memory(GiB)": 70.5,
      "step": 48050,
      "token_acc": 0.9545454545454546,
      "train_speed(iter/s)": 1.451114
    },
    {
      "epoch": 2.0588235294117645,
      "grad_norm": 7.191644668579102,
      "learning_rate": 6.368314950360415e-05,
      "loss": 0.5727811813354492,
      "memory(GiB)": 70.5,
      "step": 48055,
      "token_acc": 0.8856088560885609,
      "train_speed(iter/s)": 1.4511
    },
    {
      "epoch": 2.0590377447410138,
      "grad_norm": 2.185497283935547,
      "learning_rate": 6.367667651139324e-05,
      "loss": 0.22748734951019287,
      "memory(GiB)": 70.5,
      "step": 48060,
      "token_acc": 0.9574468085106383,
      "train_speed(iter/s)": 1.4511
    },
    {
      "epoch": 2.0592519600702626,
      "grad_norm": 4.812835216522217,
      "learning_rate": 6.367020327141651e-05,
      "loss": 0.43746423721313477,
      "memory(GiB)": 70.5,
      "step": 48065,
      "token_acc": 0.910394265232975,
      "train_speed(iter/s)": 1.451098
    },
    {
      "epoch": 2.0594661753995114,
      "grad_norm": 1.8288288116455078,
      "learning_rate": 6.366372978379122e-05,
      "loss": 0.30831518173217776,
      "memory(GiB)": 70.5,
      "step": 48070,
      "token_acc": 0.9367469879518072,
      "train_speed(iter/s)": 1.4511
    },
    {
      "epoch": 2.0596803907287606,
      "grad_norm": 3.641284465789795,
      "learning_rate": 6.365725604863466e-05,
      "loss": 0.22469968795776368,
      "memory(GiB)": 70.5,
      "step": 48075,
      "token_acc": 0.9420289855072463,
      "train_speed(iter/s)": 1.451103
    },
    {
      "epoch": 2.0598946060580094,
      "grad_norm": 4.968398571014404,
      "learning_rate": 6.365078206606408e-05,
      "loss": 0.4356249809265137,
      "memory(GiB)": 70.5,
      "step": 48080,
      "token_acc": 0.9011976047904192,
      "train_speed(iter/s)": 1.45112
    },
    {
      "epoch": 2.0601088213872583,
      "grad_norm": 5.5482940673828125,
      "learning_rate": 6.364430783619679e-05,
      "loss": 0.47083053588867185,
      "memory(GiB)": 70.5,
      "step": 48085,
      "token_acc": 0.9058441558441559,
      "train_speed(iter/s)": 1.451125
    },
    {
      "epoch": 2.0603230367165075,
      "grad_norm": 1.9091463088989258,
      "learning_rate": 6.363783335915005e-05,
      "loss": 0.2449277877807617,
      "memory(GiB)": 70.5,
      "step": 48090,
      "token_acc": 0.9222972972972973,
      "train_speed(iter/s)": 1.451147
    },
    {
      "epoch": 2.0605372520457563,
      "grad_norm": 3.050417423248291,
      "learning_rate": 6.36313586350412e-05,
      "loss": 0.2962085723876953,
      "memory(GiB)": 70.5,
      "step": 48095,
      "token_acc": 0.9359430604982206,
      "train_speed(iter/s)": 1.451168
    },
    {
      "epoch": 2.060751467375005,
      "grad_norm": 3.0330426692962646,
      "learning_rate": 6.362488366398746e-05,
      "loss": 0.44993414878845217,
      "memory(GiB)": 70.5,
      "step": 48100,
      "token_acc": 0.8900343642611683,
      "train_speed(iter/s)": 1.451187
    },
    {
      "epoch": 2.0609656827042544,
      "grad_norm": 3.2414615154266357,
      "learning_rate": 6.361840844610619e-05,
      "loss": 0.5946744918823242,
      "memory(GiB)": 70.5,
      "step": 48105,
      "token_acc": 0.8845070422535212,
      "train_speed(iter/s)": 1.451198
    },
    {
      "epoch": 2.061179898033503,
      "grad_norm": 4.700540065765381,
      "learning_rate": 6.361193298151466e-05,
      "loss": 0.45325698852539065,
      "memory(GiB)": 70.5,
      "step": 48110,
      "token_acc": 0.8873720136518771,
      "train_speed(iter/s)": 1.451192
    },
    {
      "epoch": 2.061394113362752,
      "grad_norm": 4.388160228729248,
      "learning_rate": 6.360545727033023e-05,
      "loss": 0.3319800138473511,
      "memory(GiB)": 70.5,
      "step": 48115,
      "token_acc": 0.9313725490196079,
      "train_speed(iter/s)": 1.451197
    },
    {
      "epoch": 2.0616083286920013,
      "grad_norm": 0.6891873478889465,
      "learning_rate": 6.359898131267014e-05,
      "loss": 0.30564146041870116,
      "memory(GiB)": 70.5,
      "step": 48120,
      "token_acc": 0.9464285714285714,
      "train_speed(iter/s)": 1.451209
    },
    {
      "epoch": 2.06182254402125,
      "grad_norm": 2.7167768478393555,
      "learning_rate": 6.359250510865177e-05,
      "loss": 0.643521785736084,
      "memory(GiB)": 70.5,
      "step": 48125,
      "token_acc": 0.8686868686868687,
      "train_speed(iter/s)": 1.451226
    },
    {
      "epoch": 2.062036759350499,
      "grad_norm": 2.4863808155059814,
      "learning_rate": 6.358602865839242e-05,
      "loss": 0.2713578701019287,
      "memory(GiB)": 70.5,
      "step": 48130,
      "token_acc": 0.9122137404580153,
      "train_speed(iter/s)": 1.451225
    },
    {
      "epoch": 2.062250974679748,
      "grad_norm": 6.384767055511475,
      "learning_rate": 6.357955196200939e-05,
      "loss": 0.3857272148132324,
      "memory(GiB)": 70.5,
      "step": 48135,
      "token_acc": 0.9383259911894273,
      "train_speed(iter/s)": 1.451234
    },
    {
      "epoch": 2.062465190008997,
      "grad_norm": 4.887454032897949,
      "learning_rate": 6.357307501962007e-05,
      "loss": 0.1505090117454529,
      "memory(GiB)": 70.5,
      "step": 48140,
      "token_acc": 0.967741935483871,
      "train_speed(iter/s)": 1.451238
    },
    {
      "epoch": 2.062679405338246,
      "grad_norm": 3.1159045696258545,
      "learning_rate": 6.356659783134174e-05,
      "loss": 0.41937527656555174,
      "memory(GiB)": 70.5,
      "step": 48145,
      "token_acc": 0.9163498098859315,
      "train_speed(iter/s)": 1.451237
    },
    {
      "epoch": 2.062893620667495,
      "grad_norm": 4.348973751068115,
      "learning_rate": 6.356012039729177e-05,
      "loss": 0.3609882116317749,
      "memory(GiB)": 70.5,
      "step": 48150,
      "token_acc": 0.9123867069486404,
      "train_speed(iter/s)": 1.451234
    },
    {
      "epoch": 2.063107835996744,
      "grad_norm": 1.9808168411254883,
      "learning_rate": 6.35536427175875e-05,
      "loss": 0.32533926963806153,
      "memory(GiB)": 70.5,
      "step": 48155,
      "token_acc": 0.931899641577061,
      "train_speed(iter/s)": 1.451248
    },
    {
      "epoch": 2.0633220513259927,
      "grad_norm": 4.084928512573242,
      "learning_rate": 6.354716479234629e-05,
      "loss": 0.20751595497131348,
      "memory(GiB)": 70.5,
      "step": 48160,
      "token_acc": 0.9567099567099567,
      "train_speed(iter/s)": 1.451249
    },
    {
      "epoch": 2.063536266655242,
      "grad_norm": 4.4732184410095215,
      "learning_rate": 6.354068662168546e-05,
      "loss": 0.5253073692321777,
      "memory(GiB)": 70.5,
      "step": 48165,
      "token_acc": 0.8844884488448845,
      "train_speed(iter/s)": 1.451239
    },
    {
      "epoch": 2.0637504819844907,
      "grad_norm": 3.5772881507873535,
      "learning_rate": 6.353420820572242e-05,
      "loss": 0.3548849105834961,
      "memory(GiB)": 70.5,
      "step": 48170,
      "token_acc": 0.9070631970260223,
      "train_speed(iter/s)": 1.451234
    },
    {
      "epoch": 2.0639646973137395,
      "grad_norm": 2.8714542388916016,
      "learning_rate": 6.352772954457447e-05,
      "loss": 0.5135534286499024,
      "memory(GiB)": 70.5,
      "step": 48175,
      "token_acc": 0.8807692307692307,
      "train_speed(iter/s)": 1.451234
    },
    {
      "epoch": 2.064178912642989,
      "grad_norm": 0.7874492406845093,
      "learning_rate": 6.3521250638359e-05,
      "loss": 0.22047679424285888,
      "memory(GiB)": 70.5,
      "step": 48180,
      "token_acc": 0.9570957095709571,
      "train_speed(iter/s)": 1.451226
    },
    {
      "epoch": 2.0643931279722376,
      "grad_norm": 3.6951744556427,
      "learning_rate": 6.351477148719343e-05,
      "loss": 0.3798687934875488,
      "memory(GiB)": 70.5,
      "step": 48185,
      "token_acc": 0.9288025889967637,
      "train_speed(iter/s)": 1.451224
    },
    {
      "epoch": 2.0646073433014864,
      "grad_norm": 4.319723606109619,
      "learning_rate": 6.350829209119509e-05,
      "loss": 0.33077359199523926,
      "memory(GiB)": 70.5,
      "step": 48190,
      "token_acc": 0.9296875,
      "train_speed(iter/s)": 1.451223
    },
    {
      "epoch": 2.0648215586307357,
      "grad_norm": 3.0903186798095703,
      "learning_rate": 6.350181245048135e-05,
      "loss": 0.529024600982666,
      "memory(GiB)": 70.5,
      "step": 48195,
      "token_acc": 0.9003115264797508,
      "train_speed(iter/s)": 1.451226
    },
    {
      "epoch": 2.0650357739599845,
      "grad_norm": 3.8357536792755127,
      "learning_rate": 6.349533256516962e-05,
      "loss": 0.4096415042877197,
      "memory(GiB)": 70.5,
      "step": 48200,
      "token_acc": 0.9275862068965517,
      "train_speed(iter/s)": 1.451228
    },
    {
      "epoch": 2.0652499892892333,
      "grad_norm": 7.645828723907471,
      "learning_rate": 6.348885243537728e-05,
      "loss": 0.6309397697448731,
      "memory(GiB)": 70.5,
      "step": 48205,
      "token_acc": 0.8905660377358491,
      "train_speed(iter/s)": 1.451239
    },
    {
      "epoch": 2.0654642046184826,
      "grad_norm": 0.6226351857185364,
      "learning_rate": 6.348237206122172e-05,
      "loss": 0.4021893501281738,
      "memory(GiB)": 70.5,
      "step": 48210,
      "token_acc": 0.8973384030418251,
      "train_speed(iter/s)": 1.451247
    },
    {
      "epoch": 2.0656784199477314,
      "grad_norm": 3.937929153442383,
      "learning_rate": 6.347589144282034e-05,
      "loss": 0.4293787956237793,
      "memory(GiB)": 70.5,
      "step": 48215,
      "token_acc": 0.90625,
      "train_speed(iter/s)": 1.451239
    },
    {
      "epoch": 2.06589263527698,
      "grad_norm": 2.4595704078674316,
      "learning_rate": 6.346941058029055e-05,
      "loss": 0.21127009391784668,
      "memory(GiB)": 70.5,
      "step": 48220,
      "token_acc": 0.9576271186440678,
      "train_speed(iter/s)": 1.451243
    },
    {
      "epoch": 2.0661068506062295,
      "grad_norm": 2.2167015075683594,
      "learning_rate": 6.346292947374975e-05,
      "loss": 0.2844770193099976,
      "memory(GiB)": 70.5,
      "step": 48225,
      "token_acc": 0.9333333333333333,
      "train_speed(iter/s)": 1.451262
    },
    {
      "epoch": 2.0663210659354783,
      "grad_norm": 5.442282676696777,
      "learning_rate": 6.345644812331538e-05,
      "loss": 0.3637293100357056,
      "memory(GiB)": 70.5,
      "step": 48230,
      "token_acc": 0.9057239057239057,
      "train_speed(iter/s)": 1.451261
    },
    {
      "epoch": 2.066535281264727,
      "grad_norm": 4.534058570861816,
      "learning_rate": 6.344996652910479e-05,
      "loss": 0.388106632232666,
      "memory(GiB)": 70.5,
      "step": 48235,
      "token_acc": 0.92,
      "train_speed(iter/s)": 1.451267
    },
    {
      "epoch": 2.0667494965939763,
      "grad_norm": 3.984586000442505,
      "learning_rate": 6.344348469123545e-05,
      "loss": 0.1999220848083496,
      "memory(GiB)": 70.5,
      "step": 48240,
      "token_acc": 0.9558823529411765,
      "train_speed(iter/s)": 1.451259
    },
    {
      "epoch": 2.066963711923225,
      "grad_norm": 2.230614423751831,
      "learning_rate": 6.343700260982479e-05,
      "loss": 0.3024479150772095,
      "memory(GiB)": 70.5,
      "step": 48245,
      "token_acc": 0.9272727272727272,
      "train_speed(iter/s)": 1.451275
    },
    {
      "epoch": 2.0671779272524744,
      "grad_norm": 2.8498497009277344,
      "learning_rate": 6.343052028499019e-05,
      "loss": 0.2045196771621704,
      "memory(GiB)": 70.5,
      "step": 48250,
      "token_acc": 0.9541284403669725,
      "train_speed(iter/s)": 1.451297
    },
    {
      "epoch": 2.067392142581723,
      "grad_norm": 3.2706964015960693,
      "learning_rate": 6.342403771684916e-05,
      "loss": 0.4225929737091064,
      "memory(GiB)": 70.5,
      "step": 48255,
      "token_acc": 0.9269102990033222,
      "train_speed(iter/s)": 1.451296
    },
    {
      "epoch": 2.067606357910972,
      "grad_norm": 2.346573829650879,
      "learning_rate": 6.341755490551906e-05,
      "loss": 0.5500638008117675,
      "memory(GiB)": 70.5,
      "step": 48260,
      "token_acc": 0.8856209150326797,
      "train_speed(iter/s)": 1.451314
    },
    {
      "epoch": 2.0678205732402213,
      "grad_norm": 0.8814651370048523,
      "learning_rate": 6.341107185111737e-05,
      "loss": 0.2615276575088501,
      "memory(GiB)": 70.5,
      "step": 48265,
      "token_acc": 0.9345238095238095,
      "train_speed(iter/s)": 1.451308
    },
    {
      "epoch": 2.06803478856947,
      "grad_norm": 4.866836071014404,
      "learning_rate": 6.340458855376156e-05,
      "loss": 0.48769302368164064,
      "memory(GiB)": 70.5,
      "step": 48270,
      "token_acc": 0.9090909090909091,
      "train_speed(iter/s)": 1.451308
    },
    {
      "epoch": 2.068249003898719,
      "grad_norm": 3.5726635456085205,
      "learning_rate": 6.339810501356903e-05,
      "loss": 0.4059539794921875,
      "memory(GiB)": 70.5,
      "step": 48275,
      "token_acc": 0.9216417910447762,
      "train_speed(iter/s)": 1.451304
    },
    {
      "epoch": 2.068463219227968,
      "grad_norm": 2.8569376468658447,
      "learning_rate": 6.339162123065727e-05,
      "loss": 0.5747577667236328,
      "memory(GiB)": 70.5,
      "step": 48280,
      "token_acc": 0.8913043478260869,
      "train_speed(iter/s)": 1.451306
    },
    {
      "epoch": 2.068677434557217,
      "grad_norm": 3.8270390033721924,
      "learning_rate": 6.338513720514371e-05,
      "loss": 0.37429807186126707,
      "memory(GiB)": 70.5,
      "step": 48285,
      "token_acc": 0.9264214046822743,
      "train_speed(iter/s)": 1.451329
    },
    {
      "epoch": 2.068891649886466,
      "grad_norm": 4.506779670715332,
      "learning_rate": 6.337865293714584e-05,
      "loss": 0.26418678760528563,
      "memory(GiB)": 70.5,
      "step": 48290,
      "token_acc": 0.9382239382239382,
      "train_speed(iter/s)": 1.451323
    },
    {
      "epoch": 2.069105865215715,
      "grad_norm": 1.515657901763916,
      "learning_rate": 6.337216842678114e-05,
      "loss": 0.18222551345825194,
      "memory(GiB)": 70.5,
      "step": 48295,
      "token_acc": 0.9645669291338582,
      "train_speed(iter/s)": 1.451323
    },
    {
      "epoch": 2.069320080544964,
      "grad_norm": 1.0335134267807007,
      "learning_rate": 6.336568367416706e-05,
      "loss": 0.17600982189178466,
      "memory(GiB)": 70.5,
      "step": 48300,
      "token_acc": 0.9578059071729957,
      "train_speed(iter/s)": 1.45132
    },
    {
      "epoch": 2.0695342958742127,
      "grad_norm": 0.9222844839096069,
      "learning_rate": 6.335919867942107e-05,
      "loss": 0.27444992065429685,
      "memory(GiB)": 70.5,
      "step": 48305,
      "token_acc": 0.9404145077720207,
      "train_speed(iter/s)": 1.451331
    },
    {
      "epoch": 2.069748511203462,
      "grad_norm": 3.0724093914031982,
      "learning_rate": 6.335271344266066e-05,
      "loss": 0.2522777795791626,
      "memory(GiB)": 70.5,
      "step": 48310,
      "token_acc": 0.9435215946843853,
      "train_speed(iter/s)": 1.45134
    },
    {
      "epoch": 2.0699627265327107,
      "grad_norm": 5.264583110809326,
      "learning_rate": 6.334622796400333e-05,
      "loss": 0.4976529598236084,
      "memory(GiB)": 70.5,
      "step": 48315,
      "token_acc": 0.8830188679245283,
      "train_speed(iter/s)": 1.451348
    },
    {
      "epoch": 2.0701769418619596,
      "grad_norm": 1.609141230583191,
      "learning_rate": 6.333974224356656e-05,
      "loss": 0.4840717315673828,
      "memory(GiB)": 70.5,
      "step": 48320,
      "token_acc": 0.9035714285714286,
      "train_speed(iter/s)": 1.451347
    },
    {
      "epoch": 2.070391157191209,
      "grad_norm": 2.7679245471954346,
      "learning_rate": 6.333325628146785e-05,
      "loss": 0.3503784894943237,
      "memory(GiB)": 70.5,
      "step": 48325,
      "token_acc": 0.9330543933054394,
      "train_speed(iter/s)": 1.45135
    },
    {
      "epoch": 2.0706053725204576,
      "grad_norm": 5.344973564147949,
      "learning_rate": 6.332677007782468e-05,
      "loss": 0.4707513332366943,
      "memory(GiB)": 70.5,
      "step": 48330,
      "token_acc": 0.8867313915857605,
      "train_speed(iter/s)": 1.451348
    },
    {
      "epoch": 2.0708195878497064,
      "grad_norm": 9.293176651000977,
      "learning_rate": 6.33202836327546e-05,
      "loss": 0.5121758460998536,
      "memory(GiB)": 70.5,
      "step": 48335,
      "token_acc": 0.8814229249011858,
      "train_speed(iter/s)": 1.45134
    },
    {
      "epoch": 2.0710338031789557,
      "grad_norm": 3.3109278678894043,
      "learning_rate": 6.331379694637504e-05,
      "loss": 0.3999786376953125,
      "memory(GiB)": 70.5,
      "step": 48340,
      "token_acc": 0.9201520912547528,
      "train_speed(iter/s)": 1.45134
    },
    {
      "epoch": 2.0712480185082045,
      "grad_norm": 7.352919578552246,
      "learning_rate": 6.33073100188036e-05,
      "loss": 0.3011223077774048,
      "memory(GiB)": 70.5,
      "step": 48345,
      "token_acc": 0.9361702127659575,
      "train_speed(iter/s)": 1.451342
    },
    {
      "epoch": 2.0714622338374533,
      "grad_norm": 1.7683584690093994,
      "learning_rate": 6.330082285015773e-05,
      "loss": 0.5738058090209961,
      "memory(GiB)": 70.5,
      "step": 48350,
      "token_acc": 0.8733333333333333,
      "train_speed(iter/s)": 1.451335
    },
    {
      "epoch": 2.0716764491667026,
      "grad_norm": 3.946901321411133,
      "learning_rate": 6.329433544055499e-05,
      "loss": 0.1914306402206421,
      "memory(GiB)": 70.5,
      "step": 48355,
      "token_acc": 0.9475524475524476,
      "train_speed(iter/s)": 1.451335
    },
    {
      "epoch": 2.0718906644959514,
      "grad_norm": 2.774897813796997,
      "learning_rate": 6.328784779011288e-05,
      "loss": 0.31199333667755125,
      "memory(GiB)": 70.5,
      "step": 48360,
      "token_acc": 0.9430604982206405,
      "train_speed(iter/s)": 1.451341
    },
    {
      "epoch": 2.0721048798252,
      "grad_norm": 3.4309096336364746,
      "learning_rate": 6.328135989894896e-05,
      "loss": 0.42864227294921875,
      "memory(GiB)": 70.5,
      "step": 48365,
      "token_acc": 0.903114186851211,
      "train_speed(iter/s)": 1.45134
    },
    {
      "epoch": 2.0723190951544495,
      "grad_norm": 0.4437292218208313,
      "learning_rate": 6.327487176718075e-05,
      "loss": 0.40665764808654786,
      "memory(GiB)": 70.5,
      "step": 48370,
      "token_acc": 0.9105960264900662,
      "train_speed(iter/s)": 1.451342
    },
    {
      "epoch": 2.0725333104836983,
      "grad_norm": 0.3609107434749603,
      "learning_rate": 6.326838339492577e-05,
      "loss": 0.28383355140686034,
      "memory(GiB)": 70.5,
      "step": 48375,
      "token_acc": 0.9369369369369369,
      "train_speed(iter/s)": 1.451341
    },
    {
      "epoch": 2.072747525812947,
      "grad_norm": 3.6881914138793945,
      "learning_rate": 6.326189478230157e-05,
      "loss": 0.44507341384887694,
      "memory(GiB)": 70.5,
      "step": 48380,
      "token_acc": 0.8971061093247589,
      "train_speed(iter/s)": 1.451351
    },
    {
      "epoch": 2.0729617411421963,
      "grad_norm": 0.9459409117698669,
      "learning_rate": 6.325540592942571e-05,
      "loss": 0.2676565408706665,
      "memory(GiB)": 70.5,
      "step": 48385,
      "token_acc": 0.9446366782006921,
      "train_speed(iter/s)": 1.451351
    },
    {
      "epoch": 2.073175956471445,
      "grad_norm": 6.145468235015869,
      "learning_rate": 6.324891683641576e-05,
      "loss": 0.40180068016052245,
      "memory(GiB)": 70.5,
      "step": 48390,
      "token_acc": 0.9128787878787878,
      "train_speed(iter/s)": 1.451364
    },
    {
      "epoch": 2.073390171800694,
      "grad_norm": 3.153555154800415,
      "learning_rate": 6.324242750338922e-05,
      "loss": 0.44175381660461427,
      "memory(GiB)": 70.5,
      "step": 48395,
      "token_acc": 0.9210526315789473,
      "train_speed(iter/s)": 1.451363
    },
    {
      "epoch": 2.073604387129943,
      "grad_norm": 5.040831089019775,
      "learning_rate": 6.323593793046371e-05,
      "loss": 0.4428744316101074,
      "memory(GiB)": 70.5,
      "step": 48400,
      "token_acc": 0.9294871794871795,
      "train_speed(iter/s)": 1.451355
    },
    {
      "epoch": 2.073818602459192,
      "grad_norm": 4.1550798416137695,
      "learning_rate": 6.322944811775676e-05,
      "loss": 0.40236778259277345,
      "memory(GiB)": 70.5,
      "step": 48405,
      "token_acc": 0.9239130434782609,
      "train_speed(iter/s)": 1.451354
    },
    {
      "epoch": 2.074032817788441,
      "grad_norm": 3.0844340324401855,
      "learning_rate": 6.322295806538594e-05,
      "loss": 0.3048505067825317,
      "memory(GiB)": 70.5,
      "step": 48410,
      "token_acc": 0.9203187250996016,
      "train_speed(iter/s)": 1.451361
    },
    {
      "epoch": 2.07424703311769,
      "grad_norm": 2.3861794471740723,
      "learning_rate": 6.321646777346883e-05,
      "loss": 0.19413909912109376,
      "memory(GiB)": 70.5,
      "step": 48415,
      "token_acc": 0.9471947194719472,
      "train_speed(iter/s)": 1.451364
    },
    {
      "epoch": 2.074461248446939,
      "grad_norm": 4.15631103515625,
      "learning_rate": 6.320997724212304e-05,
      "loss": 0.22923941612243653,
      "memory(GiB)": 70.5,
      "step": 48420,
      "token_acc": 0.9514563106796117,
      "train_speed(iter/s)": 1.45136
    },
    {
      "epoch": 2.0746754637761877,
      "grad_norm": 3.860234022140503,
      "learning_rate": 6.320348647146608e-05,
      "loss": 0.22573680877685548,
      "memory(GiB)": 70.5,
      "step": 48425,
      "token_acc": 0.9372822299651568,
      "train_speed(iter/s)": 1.451358
    },
    {
      "epoch": 2.074889679105437,
      "grad_norm": 6.875819683074951,
      "learning_rate": 6.319699546161559e-05,
      "loss": 0.35115323066711424,
      "memory(GiB)": 70.5,
      "step": 48430,
      "token_acc": 0.9350180505415162,
      "train_speed(iter/s)": 1.451357
    },
    {
      "epoch": 2.075103894434686,
      "grad_norm": 1.4829641580581665,
      "learning_rate": 6.319050421268915e-05,
      "loss": 0.22831578254699708,
      "memory(GiB)": 70.5,
      "step": 48435,
      "token_acc": 0.9539295392953929,
      "train_speed(iter/s)": 1.451385
    },
    {
      "epoch": 2.0753181097639346,
      "grad_norm": 5.403709888458252,
      "learning_rate": 6.318401272480435e-05,
      "loss": 0.36785035133361815,
      "memory(GiB)": 70.5,
      "step": 48440,
      "token_acc": 0.8951612903225806,
      "train_speed(iter/s)": 1.451385
    },
    {
      "epoch": 2.075532325093184,
      "grad_norm": 4.110930442810059,
      "learning_rate": 6.31775209980788e-05,
      "loss": 0.472745418548584,
      "memory(GiB)": 70.5,
      "step": 48445,
      "token_acc": 0.9064516129032258,
      "train_speed(iter/s)": 1.451396
    },
    {
      "epoch": 2.0757465404224327,
      "grad_norm": 2.5683846473693848,
      "learning_rate": 6.317102903263008e-05,
      "loss": 0.4315854549407959,
      "memory(GiB)": 70.5,
      "step": 48450,
      "token_acc": 0.9325153374233128,
      "train_speed(iter/s)": 1.451402
    },
    {
      "epoch": 2.0759607557516815,
      "grad_norm": 5.404969692230225,
      "learning_rate": 6.316453682857582e-05,
      "loss": 0.2669505596160889,
      "memory(GiB)": 70.5,
      "step": 48455,
      "token_acc": 0.9464882943143813,
      "train_speed(iter/s)": 1.451404
    },
    {
      "epoch": 2.0761749710809307,
      "grad_norm": 0.2349676638841629,
      "learning_rate": 6.315804438603363e-05,
      "loss": 0.27611379623413085,
      "memory(GiB)": 70.5,
      "step": 48460,
      "token_acc": 0.9375,
      "train_speed(iter/s)": 1.451415
    },
    {
      "epoch": 2.0763891864101796,
      "grad_norm": 1.854982614517212,
      "learning_rate": 6.315155170512111e-05,
      "loss": 0.2904746294021606,
      "memory(GiB)": 70.5,
      "step": 48465,
      "token_acc": 0.9355828220858896,
      "train_speed(iter/s)": 1.451411
    },
    {
      "epoch": 2.0766034017394284,
      "grad_norm": 4.194306373596191,
      "learning_rate": 6.31450587859559e-05,
      "loss": 0.45969905853271487,
      "memory(GiB)": 70.5,
      "step": 48470,
      "token_acc": 0.9040590405904059,
      "train_speed(iter/s)": 1.451412
    },
    {
      "epoch": 2.0768176170686776,
      "grad_norm": 1.7136905193328857,
      "learning_rate": 6.313856562865564e-05,
      "loss": 0.3416821718215942,
      "memory(GiB)": 70.5,
      "step": 48475,
      "token_acc": 0.9301587301587302,
      "train_speed(iter/s)": 1.451411
    },
    {
      "epoch": 2.0770318323979264,
      "grad_norm": 2.77394437789917,
      "learning_rate": 6.313207223333793e-05,
      "loss": 0.23768210411071777,
      "memory(GiB)": 70.5,
      "step": 48480,
      "token_acc": 0.9385113268608414,
      "train_speed(iter/s)": 1.451426
    },
    {
      "epoch": 2.0772460477271752,
      "grad_norm": 2.6992650032043457,
      "learning_rate": 6.312557860012039e-05,
      "loss": 0.254965615272522,
      "memory(GiB)": 70.5,
      "step": 48485,
      "token_acc": 0.9675324675324676,
      "train_speed(iter/s)": 1.451432
    },
    {
      "epoch": 2.0774602630564245,
      "grad_norm": 2.92889404296875,
      "learning_rate": 6.31190847291207e-05,
      "loss": 0.36970202922821044,
      "memory(GiB)": 70.5,
      "step": 48490,
      "token_acc": 0.9123505976095617,
      "train_speed(iter/s)": 1.451428
    },
    {
      "epoch": 2.0776744783856733,
      "grad_norm": 1.9874992370605469,
      "learning_rate": 6.311259062045647e-05,
      "loss": 0.3791363716125488,
      "memory(GiB)": 70.5,
      "step": 48495,
      "token_acc": 0.9328859060402684,
      "train_speed(iter/s)": 1.451432
    },
    {
      "epoch": 2.077888693714922,
      "grad_norm": 2.997889280319214,
      "learning_rate": 6.310609627424537e-05,
      "loss": 0.3341566801071167,
      "memory(GiB)": 70.5,
      "step": 48500,
      "token_acc": 0.926530612244898,
      "train_speed(iter/s)": 1.451434
    },
    {
      "epoch": 2.077888693714922,
      "eval_loss": 2.3897643089294434,
      "eval_runtime": 14.151,
      "eval_samples_per_second": 7.067,
      "eval_steps_per_second": 7.067,
      "eval_token_acc": 0.4704,
      "step": 48500
    },
    {
      "epoch": 2.0781029090441714,
      "grad_norm": 5.15714693069458,
      "learning_rate": 6.309960169060504e-05,
      "loss": 0.2890408277511597,
      "memory(GiB)": 70.5,
      "step": 48505,
      "token_acc": 0.5986238532110092,
      "train_speed(iter/s)": 1.450771
    },
    {
      "epoch": 2.07831712437342,
      "grad_norm": 3.099945545196533,
      "learning_rate": 6.309310686965313e-05,
      "loss": 0.40518579483032224,
      "memory(GiB)": 70.5,
      "step": 48510,
      "token_acc": 0.9224806201550387,
      "train_speed(iter/s)": 1.450761
    },
    {
      "epoch": 2.078531339702669,
      "grad_norm": 4.387178897857666,
      "learning_rate": 6.308661181150733e-05,
      "loss": 0.34815068244934083,
      "memory(GiB)": 70.5,
      "step": 48515,
      "token_acc": 0.9444444444444444,
      "train_speed(iter/s)": 1.450763
    },
    {
      "epoch": 2.0787455550319183,
      "grad_norm": 3.3985838890075684,
      "learning_rate": 6.308011651628525e-05,
      "loss": 0.5290556907653808,
      "memory(GiB)": 70.5,
      "step": 48520,
      "token_acc": 0.9003215434083601,
      "train_speed(iter/s)": 1.450764
    },
    {
      "epoch": 2.078959770361167,
      "grad_norm": 1.965965747833252,
      "learning_rate": 6.30736209841046e-05,
      "loss": 0.3601155996322632,
      "memory(GiB)": 70.5,
      "step": 48525,
      "token_acc": 0.9112627986348123,
      "train_speed(iter/s)": 1.450773
    },
    {
      "epoch": 2.079173985690416,
      "grad_norm": 3.240102529525757,
      "learning_rate": 6.306712521508306e-05,
      "loss": 0.39252729415893556,
      "memory(GiB)": 70.5,
      "step": 48530,
      "token_acc": 0.9154411764705882,
      "train_speed(iter/s)": 1.450779
    },
    {
      "epoch": 2.079388201019665,
      "grad_norm": 3.5627031326293945,
      "learning_rate": 6.306062920933829e-05,
      "loss": 0.48215112686157224,
      "memory(GiB)": 70.5,
      "step": 48535,
      "token_acc": 0.9084249084249084,
      "train_speed(iter/s)": 1.450775
    },
    {
      "epoch": 2.079602416348914,
      "grad_norm": 4.158056735992432,
      "learning_rate": 6.305413296698795e-05,
      "loss": 0.34019103050231936,
      "memory(GiB)": 70.5,
      "step": 48540,
      "token_acc": 0.9330708661417323,
      "train_speed(iter/s)": 1.450789
    },
    {
      "epoch": 2.0798166316781628,
      "grad_norm": 3.374767780303955,
      "learning_rate": 6.304763648814974e-05,
      "loss": 0.2567232370376587,
      "memory(GiB)": 70.5,
      "step": 48545,
      "token_acc": 0.9313984168865436,
      "train_speed(iter/s)": 1.450791
    },
    {
      "epoch": 2.080030847007412,
      "grad_norm": 2.484605073928833,
      "learning_rate": 6.304113977294137e-05,
      "loss": 0.3007645130157471,
      "memory(GiB)": 70.5,
      "step": 48550,
      "token_acc": 0.9386281588447654,
      "train_speed(iter/s)": 1.450792
    },
    {
      "epoch": 2.080245062336661,
      "grad_norm": 9.165810585021973,
      "learning_rate": 6.30346428214805e-05,
      "loss": 0.4940351963043213,
      "memory(GiB)": 70.5,
      "step": 48555,
      "token_acc": 0.9204545454545454,
      "train_speed(iter/s)": 1.450803
    },
    {
      "epoch": 2.0804592776659097,
      "grad_norm": 0.6089269518852234,
      "learning_rate": 6.302814563388487e-05,
      "loss": 0.2175212621688843,
      "memory(GiB)": 70.5,
      "step": 48560,
      "token_acc": 0.9487179487179487,
      "train_speed(iter/s)": 1.450819
    },
    {
      "epoch": 2.080673492995159,
      "grad_norm": 6.179553985595703,
      "learning_rate": 6.302164821027217e-05,
      "loss": 0.3328144073486328,
      "memory(GiB)": 70.5,
      "step": 48565,
      "token_acc": 0.9246575342465754,
      "train_speed(iter/s)": 1.450821
    },
    {
      "epoch": 2.0808877083244077,
      "grad_norm": 1.3606855869293213,
      "learning_rate": 6.301515055076007e-05,
      "loss": 0.39638509750366213,
      "memory(GiB)": 70.5,
      "step": 48570,
      "token_acc": 0.9166666666666666,
      "train_speed(iter/s)": 1.450828
    },
    {
      "epoch": 2.0811019236536565,
      "grad_norm": 4.70668888092041,
      "learning_rate": 6.300865265546632e-05,
      "loss": 0.21503567695617676,
      "memory(GiB)": 70.5,
      "step": 48575,
      "token_acc": 0.9464882943143813,
      "train_speed(iter/s)": 1.450827
    },
    {
      "epoch": 2.081316138982906,
      "grad_norm": 3.5074479579925537,
      "learning_rate": 6.300215452450862e-05,
      "loss": 0.26340522766113283,
      "memory(GiB)": 70.5,
      "step": 48580,
      "token_acc": 0.9305555555555556,
      "train_speed(iter/s)": 1.450838
    },
    {
      "epoch": 2.0815303543121546,
      "grad_norm": 3.9492857456207275,
      "learning_rate": 6.29956561580047e-05,
      "loss": 0.8618377685546875,
      "memory(GiB)": 70.5,
      "step": 48585,
      "token_acc": 0.836676217765043,
      "train_speed(iter/s)": 1.450852
    },
    {
      "epoch": 2.0817445696414034,
      "grad_norm": 2.6277756690979004,
      "learning_rate": 6.298915755607228e-05,
      "loss": 0.28576154708862306,
      "memory(GiB)": 70.5,
      "step": 48590,
      "token_acc": 0.9387755102040817,
      "train_speed(iter/s)": 1.450864
    },
    {
      "epoch": 2.0819587849706527,
      "grad_norm": 5.630936622619629,
      "learning_rate": 6.298265871882908e-05,
      "loss": 0.5818511962890625,
      "memory(GiB)": 70.5,
      "step": 48595,
      "token_acc": 0.8666666666666667,
      "train_speed(iter/s)": 1.450861
    },
    {
      "epoch": 2.0821730002999015,
      "grad_norm": 1.1109917163848877,
      "learning_rate": 6.297615964639283e-05,
      "loss": 0.5757677555084229,
      "memory(GiB)": 70.5,
      "step": 48600,
      "token_acc": 0.8892307692307693,
      "train_speed(iter/s)": 1.450855
    },
    {
      "epoch": 2.0823872156291503,
      "grad_norm": 0.30146318674087524,
      "learning_rate": 6.29696603388813e-05,
      "loss": 0.7059422492980957,
      "memory(GiB)": 70.5,
      "step": 48605,
      "token_acc": 0.8566775244299675,
      "train_speed(iter/s)": 1.450852
    },
    {
      "epoch": 2.0826014309583996,
      "grad_norm": 8.6114501953125,
      "learning_rate": 6.296316079641218e-05,
      "loss": 0.37674365043640134,
      "memory(GiB)": 70.5,
      "step": 48610,
      "token_acc": 0.9198717948717948,
      "train_speed(iter/s)": 1.450848
    },
    {
      "epoch": 2.0828156462876484,
      "grad_norm": 2.0797200202941895,
      "learning_rate": 6.295666101910325e-05,
      "loss": 0.3650477409362793,
      "memory(GiB)": 70.5,
      "step": 48615,
      "token_acc": 0.9124087591240876,
      "train_speed(iter/s)": 1.450845
    },
    {
      "epoch": 2.083029861616897,
      "grad_norm": 3.6763556003570557,
      "learning_rate": 6.295016100707226e-05,
      "loss": 0.3471231937408447,
      "memory(GiB)": 70.5,
      "step": 48620,
      "token_acc": 0.9201388888888888,
      "train_speed(iter/s)": 1.450844
    },
    {
      "epoch": 2.0832440769461464,
      "grad_norm": 4.333076477050781,
      "learning_rate": 6.294366076043695e-05,
      "loss": 0.7515505790710449,
      "memory(GiB)": 70.5,
      "step": 48625,
      "token_acc": 0.8120567375886525,
      "train_speed(iter/s)": 1.450845
    },
    {
      "epoch": 2.0834582922753953,
      "grad_norm": 1.15593683719635,
      "learning_rate": 6.293716027931507e-05,
      "loss": 0.5116789817810059,
      "memory(GiB)": 70.5,
      "step": 48630,
      "token_acc": 0.9053627760252366,
      "train_speed(iter/s)": 1.450859
    },
    {
      "epoch": 2.083672507604644,
      "grad_norm": 6.188859939575195,
      "learning_rate": 6.293065956382442e-05,
      "loss": 0.5216177940368653,
      "memory(GiB)": 70.5,
      "step": 48635,
      "token_acc": 0.899641577060932,
      "train_speed(iter/s)": 1.450853
    },
    {
      "epoch": 2.0838867229338933,
      "grad_norm": 4.061227798461914,
      "learning_rate": 6.292415861408273e-05,
      "loss": 0.5690081119537354,
      "memory(GiB)": 70.5,
      "step": 48640,
      "token_acc": 0.876984126984127,
      "train_speed(iter/s)": 1.450856
    },
    {
      "epoch": 2.084100938263142,
      "grad_norm": 2.9685475826263428,
      "learning_rate": 6.291765743020779e-05,
      "loss": 0.2780740737915039,
      "memory(GiB)": 70.5,
      "step": 48645,
      "token_acc": 0.9337349397590361,
      "train_speed(iter/s)": 1.450866
    },
    {
      "epoch": 2.084315153592391,
      "grad_norm": 1.4230252504348755,
      "learning_rate": 6.291115601231736e-05,
      "loss": 0.1783167839050293,
      "memory(GiB)": 70.5,
      "step": 48650,
      "token_acc": 0.9590163934426229,
      "train_speed(iter/s)": 1.450863
    },
    {
      "epoch": 2.08452936892164,
      "grad_norm": 2.289489984512329,
      "learning_rate": 6.290465436052921e-05,
      "loss": 0.275003981590271,
      "memory(GiB)": 70.5,
      "step": 48655,
      "token_acc": 0.946875,
      "train_speed(iter/s)": 1.450873
    },
    {
      "epoch": 2.084743584250889,
      "grad_norm": 1.2914769649505615,
      "learning_rate": 6.289815247496117e-05,
      "loss": 0.19538272619247438,
      "memory(GiB)": 70.5,
      "step": 48660,
      "token_acc": 0.9672727272727273,
      "train_speed(iter/s)": 1.450872
    },
    {
      "epoch": 2.084957799580138,
      "grad_norm": 5.049959659576416,
      "learning_rate": 6.289165035573098e-05,
      "loss": 0.6093783378601074,
      "memory(GiB)": 70.5,
      "step": 48665,
      "token_acc": 0.8963210702341137,
      "train_speed(iter/s)": 1.45087
    },
    {
      "epoch": 2.085172014909387,
      "grad_norm": 1.037330150604248,
      "learning_rate": 6.288514800295647e-05,
      "loss": 0.43264317512512207,
      "memory(GiB)": 70.5,
      "step": 48670,
      "token_acc": 0.9061488673139159,
      "train_speed(iter/s)": 1.450872
    },
    {
      "epoch": 2.085386230238636,
      "grad_norm": 3.580899715423584,
      "learning_rate": 6.287864541675542e-05,
      "loss": 0.2615530014038086,
      "memory(GiB)": 70.5,
      "step": 48675,
      "token_acc": 0.9411764705882353,
      "train_speed(iter/s)": 1.450895
    },
    {
      "epoch": 2.0856004455678847,
      "grad_norm": 0.1935407966375351,
      "learning_rate": 6.287214259724559e-05,
      "loss": 0.1984245777130127,
      "memory(GiB)": 70.5,
      "step": 48680,
      "token_acc": 0.9455782312925171,
      "train_speed(iter/s)": 1.450916
    },
    {
      "epoch": 2.085814660897134,
      "grad_norm": 5.137082099914551,
      "learning_rate": 6.286563954454485e-05,
      "loss": 0.18660953044891357,
      "memory(GiB)": 70.5,
      "step": 48685,
      "token_acc": 0.9689655172413794,
      "train_speed(iter/s)": 1.450915
    },
    {
      "epoch": 2.0860288762263828,
      "grad_norm": 2.337155818939209,
      "learning_rate": 6.285913625877097e-05,
      "loss": 0.42983036041259765,
      "memory(GiB)": 70.5,
      "step": 48690,
      "token_acc": 0.8964285714285715,
      "train_speed(iter/s)": 1.450917
    },
    {
      "epoch": 2.0862430915556316,
      "grad_norm": 1.5980885028839111,
      "learning_rate": 6.285263274004179e-05,
      "loss": 0.34491715431213377,
      "memory(GiB)": 70.5,
      "step": 48695,
      "token_acc": 0.916083916083916,
      "train_speed(iter/s)": 1.450919
    },
    {
      "epoch": 2.086457306884881,
      "grad_norm": 4.148499965667725,
      "learning_rate": 6.284612898847508e-05,
      "loss": 0.43911104202270507,
      "memory(GiB)": 70.5,
      "step": 48700,
      "token_acc": 0.9028571428571428,
      "train_speed(iter/s)": 1.450929
    },
    {
      "epoch": 2.0866715222141297,
      "grad_norm": 1.7769840955734253,
      "learning_rate": 6.283962500418872e-05,
      "loss": 0.4108292579650879,
      "memory(GiB)": 70.5,
      "step": 48705,
      "token_acc": 0.92,
      "train_speed(iter/s)": 1.450933
    },
    {
      "epoch": 2.0868857375433785,
      "grad_norm": 7.415637493133545,
      "learning_rate": 6.28331207873005e-05,
      "loss": 0.32784745693206785,
      "memory(GiB)": 70.5,
      "step": 48710,
      "token_acc": 0.9278688524590164,
      "train_speed(iter/s)": 1.450926
    },
    {
      "epoch": 2.0870999528726277,
      "grad_norm": 2.4195077419281006,
      "learning_rate": 6.282661633792826e-05,
      "loss": 0.4561657428741455,
      "memory(GiB)": 70.5,
      "step": 48715,
      "token_acc": 0.916030534351145,
      "train_speed(iter/s)": 1.450941
    },
    {
      "epoch": 2.0873141682018765,
      "grad_norm": 3.400618314743042,
      "learning_rate": 6.282011165618984e-05,
      "loss": 0.1919680953025818,
      "memory(GiB)": 70.5,
      "step": 48720,
      "token_acc": 0.9551724137931035,
      "train_speed(iter/s)": 1.450938
    },
    {
      "epoch": 2.0875283835311254,
      "grad_norm": 2.795142889022827,
      "learning_rate": 6.281360674220305e-05,
      "loss": 0.337675666809082,
      "memory(GiB)": 70.5,
      "step": 48725,
      "token_acc": 0.9262820512820513,
      "train_speed(iter/s)": 1.450953
    },
    {
      "epoch": 2.0877425988603746,
      "grad_norm": 7.879018306732178,
      "learning_rate": 6.280710159608578e-05,
      "loss": 0.5332611083984375,
      "memory(GiB)": 70.5,
      "step": 48730,
      "token_acc": 0.888135593220339,
      "train_speed(iter/s)": 1.450965
    },
    {
      "epoch": 2.0879568141896234,
      "grad_norm": 4.594374656677246,
      "learning_rate": 6.280059621795583e-05,
      "loss": 0.27802438735961915,
      "memory(GiB)": 70.5,
      "step": 48735,
      "token_acc": 0.9328621908127208,
      "train_speed(iter/s)": 1.45096
    },
    {
      "epoch": 2.0881710295188722,
      "grad_norm": 2.8630759716033936,
      "learning_rate": 6.279409060793109e-05,
      "loss": 0.3421756744384766,
      "memory(GiB)": 70.5,
      "step": 48740,
      "token_acc": 0.9363957597173145,
      "train_speed(iter/s)": 1.450959
    },
    {
      "epoch": 2.0883852448481215,
      "grad_norm": 5.997331619262695,
      "learning_rate": 6.278758476612937e-05,
      "loss": 0.4696558952331543,
      "memory(GiB)": 70.5,
      "step": 48745,
      "token_acc": 0.9040247678018576,
      "train_speed(iter/s)": 1.450943
    },
    {
      "epoch": 2.0885994601773703,
      "grad_norm": 3.1972477436065674,
      "learning_rate": 6.278107869266859e-05,
      "loss": 0.32395186424255373,
      "memory(GiB)": 70.5,
      "step": 48750,
      "token_acc": 0.9289940828402367,
      "train_speed(iter/s)": 1.450947
    },
    {
      "epoch": 2.088813675506619,
      "grad_norm": 5.403107166290283,
      "learning_rate": 6.277457238766655e-05,
      "loss": 0.45914878845214846,
      "memory(GiB)": 70.5,
      "step": 48755,
      "token_acc": 0.8987341772151899,
      "train_speed(iter/s)": 1.450955
    },
    {
      "epoch": 2.0890278908358684,
      "grad_norm": 2.466822385787964,
      "learning_rate": 6.276806585124116e-05,
      "loss": 0.47505550384521483,
      "memory(GiB)": 70.5,
      "step": 48760,
      "token_acc": 0.9059233449477352,
      "train_speed(iter/s)": 1.450961
    },
    {
      "epoch": 2.089242106165117,
      "grad_norm": 2.0634052753448486,
      "learning_rate": 6.276155908351027e-05,
      "loss": 0.4240112781524658,
      "memory(GiB)": 70.5,
      "step": 48765,
      "token_acc": 0.9146757679180887,
      "train_speed(iter/s)": 1.450962
    },
    {
      "epoch": 2.089456321494366,
      "grad_norm": 2.0088281631469727,
      "learning_rate": 6.275505208459178e-05,
      "loss": 0.48057923316955564,
      "memory(GiB)": 70.5,
      "step": 48770,
      "token_acc": 0.9146757679180887,
      "train_speed(iter/s)": 1.450963
    },
    {
      "epoch": 2.0896705368236153,
      "grad_norm": 5.785497188568115,
      "learning_rate": 6.274854485460355e-05,
      "loss": 0.4321177005767822,
      "memory(GiB)": 70.5,
      "step": 48775,
      "token_acc": 0.9097744360902256,
      "train_speed(iter/s)": 1.450965
    },
    {
      "epoch": 2.089884752152864,
      "grad_norm": 2.06437611579895,
      "learning_rate": 6.274203739366347e-05,
      "loss": 0.4153263568878174,
      "memory(GiB)": 70.5,
      "step": 48780,
      "token_acc": 0.9188191881918819,
      "train_speed(iter/s)": 1.450968
    },
    {
      "epoch": 2.090098967482113,
      "grad_norm": 1.0311211347579956,
      "learning_rate": 6.273552970188942e-05,
      "loss": 0.18832343816757202,
      "memory(GiB)": 70.5,
      "step": 48785,
      "token_acc": 0.9530791788856305,
      "train_speed(iter/s)": 1.450977
    },
    {
      "epoch": 2.090313182811362,
      "grad_norm": 4.477016448974609,
      "learning_rate": 6.272902177939933e-05,
      "loss": 0.5020005226135253,
      "memory(GiB)": 70.5,
      "step": 48790,
      "token_acc": 0.8905775075987842,
      "train_speed(iter/s)": 1.450974
    },
    {
      "epoch": 2.090527398140611,
      "grad_norm": 4.804495334625244,
      "learning_rate": 6.272251362631107e-05,
      "loss": 0.38275647163391113,
      "memory(GiB)": 70.5,
      "step": 48795,
      "token_acc": 0.9213483146067416,
      "train_speed(iter/s)": 1.450984
    },
    {
      "epoch": 2.0907416134698598,
      "grad_norm": 2.9836015701293945,
      "learning_rate": 6.27160052427425e-05,
      "loss": 0.2642987728118896,
      "memory(GiB)": 70.5,
      "step": 48800,
      "token_acc": 0.9205020920502092,
      "train_speed(iter/s)": 1.450984
    },
    {
      "epoch": 2.090955828799109,
      "grad_norm": 3.385003089904785,
      "learning_rate": 6.27094966288116e-05,
      "loss": 0.22817730903625488,
      "memory(GiB)": 70.5,
      "step": 48805,
      "token_acc": 0.9480968858131488,
      "train_speed(iter/s)": 1.450987
    },
    {
      "epoch": 2.091170044128358,
      "grad_norm": 3.1508185863494873,
      "learning_rate": 6.270298778463624e-05,
      "loss": 0.35045804977416994,
      "memory(GiB)": 70.5,
      "step": 48810,
      "token_acc": 0.9313432835820895,
      "train_speed(iter/s)": 1.450988
    },
    {
      "epoch": 2.0913842594576066,
      "grad_norm": 2.196338415145874,
      "learning_rate": 6.269647871033432e-05,
      "loss": 0.4168813705444336,
      "memory(GiB)": 70.5,
      "step": 48815,
      "token_acc": 0.9226006191950464,
      "train_speed(iter/s)": 1.450993
    },
    {
      "epoch": 2.091598474786856,
      "grad_norm": 4.945016384124756,
      "learning_rate": 6.26899694060238e-05,
      "loss": 0.3370008945465088,
      "memory(GiB)": 70.5,
      "step": 48820,
      "token_acc": 0.9261744966442953,
      "train_speed(iter/s)": 1.450992
    },
    {
      "epoch": 2.0918126901161047,
      "grad_norm": 2.3158817291259766,
      "learning_rate": 6.26834598718226e-05,
      "loss": 0.33293101787567136,
      "memory(GiB)": 70.5,
      "step": 48825,
      "token_acc": 0.9352750809061489,
      "train_speed(iter/s)": 1.450991
    },
    {
      "epoch": 2.0920269054453535,
      "grad_norm": 4.108760833740234,
      "learning_rate": 6.267695010784859e-05,
      "loss": 0.5591896057128907,
      "memory(GiB)": 70.5,
      "step": 48830,
      "token_acc": 0.8888888888888888,
      "train_speed(iter/s)": 1.450995
    },
    {
      "epoch": 2.092241120774603,
      "grad_norm": 3.8878707885742188,
      "learning_rate": 6.267044011421975e-05,
      "loss": 0.2610881805419922,
      "memory(GiB)": 70.5,
      "step": 48835,
      "token_acc": 0.9493670886075949,
      "train_speed(iter/s)": 1.451004
    },
    {
      "epoch": 2.0924553361038516,
      "grad_norm": 1.5194402933120728,
      "learning_rate": 6.2663929891054e-05,
      "loss": 0.4816396236419678,
      "memory(GiB)": 70.5,
      "step": 48840,
      "token_acc": 0.9066666666666666,
      "train_speed(iter/s)": 1.451011
    },
    {
      "epoch": 2.0926695514331004,
      "grad_norm": 6.371880531311035,
      "learning_rate": 6.265741943846926e-05,
      "loss": 0.5816590309143066,
      "memory(GiB)": 70.5,
      "step": 48845,
      "token_acc": 0.8915343915343915,
      "train_speed(iter/s)": 1.451014
    },
    {
      "epoch": 2.0928837667623497,
      "grad_norm": 3.1127243041992188,
      "learning_rate": 6.265090875658353e-05,
      "loss": 0.5447323799133301,
      "memory(GiB)": 70.5,
      "step": 48850,
      "token_acc": 0.8962536023054755,
      "train_speed(iter/s)": 1.451012
    },
    {
      "epoch": 2.0930979820915985,
      "grad_norm": 2.6646816730499268,
      "learning_rate": 6.264439784551472e-05,
      "loss": 0.46080570220947265,
      "memory(GiB)": 70.5,
      "step": 48855,
      "token_acc": 0.9154411764705882,
      "train_speed(iter/s)": 1.451007
    },
    {
      "epoch": 2.0933121974208473,
      "grad_norm": 1.7190806865692139,
      "learning_rate": 6.263788670538075e-05,
      "loss": 0.22560627460479737,
      "memory(GiB)": 70.5,
      "step": 48860,
      "token_acc": 0.9659863945578231,
      "train_speed(iter/s)": 1.451008
    },
    {
      "epoch": 2.0935264127500965,
      "grad_norm": 3.5743324756622314,
      "learning_rate": 6.263137533629963e-05,
      "loss": 0.22698256969451905,
      "memory(GiB)": 70.5,
      "step": 48865,
      "token_acc": 0.9631901840490797,
      "train_speed(iter/s)": 1.451017
    },
    {
      "epoch": 2.0937406280793454,
      "grad_norm": 1.930320382118225,
      "learning_rate": 6.262486373838929e-05,
      "loss": 0.6803817749023438,
      "memory(GiB)": 70.5,
      "step": 48870,
      "token_acc": 0.8600583090379009,
      "train_speed(iter/s)": 1.451029
    },
    {
      "epoch": 2.093954843408594,
      "grad_norm": 1.5556195974349976,
      "learning_rate": 6.261835191176769e-05,
      "loss": 0.3802447557449341,
      "memory(GiB)": 70.5,
      "step": 48875,
      "token_acc": 0.9066147859922179,
      "train_speed(iter/s)": 1.451038
    },
    {
      "epoch": 2.0941690587378434,
      "grad_norm": 0.19306300580501556,
      "learning_rate": 6.261183985655281e-05,
      "loss": 0.22728865146636962,
      "memory(GiB)": 70.5,
      "step": 48880,
      "token_acc": 0.952191235059761,
      "train_speed(iter/s)": 1.451045
    },
    {
      "epoch": 2.0943832740670922,
      "grad_norm": 3.053591251373291,
      "learning_rate": 6.260532757286264e-05,
      "loss": 0.34217195510864257,
      "memory(GiB)": 70.5,
      "step": 48885,
      "token_acc": 0.9210526315789473,
      "train_speed(iter/s)": 1.451044
    },
    {
      "epoch": 2.094597489396341,
      "grad_norm": 3.559790849685669,
      "learning_rate": 6.259881506081512e-05,
      "loss": 0.5891656875610352,
      "memory(GiB)": 70.5,
      "step": 48890,
      "token_acc": 0.86875,
      "train_speed(iter/s)": 1.451069
    },
    {
      "epoch": 2.0948117047255903,
      "grad_norm": 3.6704745292663574,
      "learning_rate": 6.259230232052826e-05,
      "loss": 0.5680595397949219,
      "memory(GiB)": 70.5,
      "step": 48895,
      "token_acc": 0.8545454545454545,
      "train_speed(iter/s)": 1.451061
    },
    {
      "epoch": 2.095025920054839,
      "grad_norm": 3.121000051498413,
      "learning_rate": 6.258578935212e-05,
      "loss": 0.25533106327056887,
      "memory(GiB)": 70.5,
      "step": 48900,
      "token_acc": 0.9512195121951219,
      "train_speed(iter/s)": 1.45106
    },
    {
      "epoch": 2.095240135384088,
      "grad_norm": 1.6977643966674805,
      "learning_rate": 6.257927615570839e-05,
      "loss": 0.27080526351928713,
      "memory(GiB)": 70.5,
      "step": 48905,
      "token_acc": 0.9405940594059405,
      "train_speed(iter/s)": 1.451067
    },
    {
      "epoch": 2.095454350713337,
      "grad_norm": 9.019216537475586,
      "learning_rate": 6.257276273141139e-05,
      "loss": 0.3344238758087158,
      "memory(GiB)": 70.5,
      "step": 48910,
      "token_acc": 0.9516728624535316,
      "train_speed(iter/s)": 1.451063
    },
    {
      "epoch": 2.095668566042586,
      "grad_norm": 2.7934629917144775,
      "learning_rate": 6.256624907934699e-05,
      "loss": 0.5543661117553711,
      "memory(GiB)": 70.5,
      "step": 48915,
      "token_acc": 0.8996539792387543,
      "train_speed(iter/s)": 1.451067
    },
    {
      "epoch": 2.095882781371835,
      "grad_norm": 0.6299164295196533,
      "learning_rate": 6.25597351996332e-05,
      "loss": 0.47747135162353516,
      "memory(GiB)": 70.5,
      "step": 48920,
      "token_acc": 0.8977272727272727,
      "train_speed(iter/s)": 1.451055
    },
    {
      "epoch": 2.096096996701084,
      "grad_norm": 2.3269848823547363,
      "learning_rate": 6.255322109238803e-05,
      "loss": 0.1856738805770874,
      "memory(GiB)": 70.5,
      "step": 48925,
      "token_acc": 0.9642857142857143,
      "train_speed(iter/s)": 1.45105
    },
    {
      "epoch": 2.096311212030333,
      "grad_norm": 5.0594892501831055,
      "learning_rate": 6.254670675772947e-05,
      "loss": 0.4291266441345215,
      "memory(GiB)": 70.5,
      "step": 48930,
      "token_acc": 0.910958904109589,
      "train_speed(iter/s)": 1.451042
    },
    {
      "epoch": 2.0965254273595817,
      "grad_norm": 4.3346452713012695,
      "learning_rate": 6.254019219577556e-05,
      "loss": 0.4048892021179199,
      "memory(GiB)": 70.5,
      "step": 48935,
      "token_acc": 0.9090909090909091,
      "train_speed(iter/s)": 1.451046
    },
    {
      "epoch": 2.096739642688831,
      "grad_norm": 0.31731462478637695,
      "learning_rate": 6.253367740664431e-05,
      "loss": 0.4844684600830078,
      "memory(GiB)": 70.5,
      "step": 48940,
      "token_acc": 0.8825301204819277,
      "train_speed(iter/s)": 1.451056
    },
    {
      "epoch": 2.0969538580180798,
      "grad_norm": 4.787808895111084,
      "learning_rate": 6.252716239045372e-05,
      "loss": 0.782163667678833,
      "memory(GiB)": 70.5,
      "step": 48945,
      "token_acc": 0.8435754189944135,
      "train_speed(iter/s)": 1.45108
    },
    {
      "epoch": 2.0971680733473286,
      "grad_norm": 3.0487823486328125,
      "learning_rate": 6.252064714732185e-05,
      "loss": 0.34403438568115235,
      "memory(GiB)": 70.5,
      "step": 48950,
      "token_acc": 0.922077922077922,
      "train_speed(iter/s)": 1.451077
    },
    {
      "epoch": 2.097382288676578,
      "grad_norm": 3.385474920272827,
      "learning_rate": 6.25141316773667e-05,
      "loss": 0.30891273021697996,
      "memory(GiB)": 70.5,
      "step": 48955,
      "token_acc": 0.9424460431654677,
      "train_speed(iter/s)": 1.451079
    },
    {
      "epoch": 2.0975965040058266,
      "grad_norm": 2.5737500190734863,
      "learning_rate": 6.250761598070632e-05,
      "loss": 0.35570459365844725,
      "memory(GiB)": 70.5,
      "step": 48960,
      "token_acc": 0.925531914893617,
      "train_speed(iter/s)": 1.451077
    },
    {
      "epoch": 2.0978107193350755,
      "grad_norm": 6.589915752410889,
      "learning_rate": 6.250110005745874e-05,
      "loss": 0.28542590141296387,
      "memory(GiB)": 70.5,
      "step": 48965,
      "token_acc": 0.9444444444444444,
      "train_speed(iter/s)": 1.451077
    },
    {
      "epoch": 2.0980249346643247,
      "grad_norm": 3.9060862064361572,
      "learning_rate": 6.249458390774201e-05,
      "loss": 0.36191093921661377,
      "memory(GiB)": 70.5,
      "step": 48970,
      "token_acc": 0.9219858156028369,
      "train_speed(iter/s)": 1.451075
    },
    {
      "epoch": 2.0982391499935735,
      "grad_norm": 1.8830088376998901,
      "learning_rate": 6.248806753167417e-05,
      "loss": 0.3813464641571045,
      "memory(GiB)": 70.5,
      "step": 48975,
      "token_acc": 0.9240121580547113,
      "train_speed(iter/s)": 1.451076
    },
    {
      "epoch": 2.0984533653228223,
      "grad_norm": 3.903520345687866,
      "learning_rate": 6.248155092937326e-05,
      "loss": 0.4449927806854248,
      "memory(GiB)": 70.5,
      "step": 48980,
      "token_acc": 0.9088145896656535,
      "train_speed(iter/s)": 1.451091
    },
    {
      "epoch": 2.0986675806520716,
      "grad_norm": 3.577705144882202,
      "learning_rate": 6.247503410095737e-05,
      "loss": 0.4419257164001465,
      "memory(GiB)": 70.5,
      "step": 48985,
      "token_acc": 0.8881118881118881,
      "train_speed(iter/s)": 1.451109
    },
    {
      "epoch": 2.0988817959813204,
      "grad_norm": 1.3505948781967163,
      "learning_rate": 6.246851704654451e-05,
      "loss": 0.44902777671813965,
      "memory(GiB)": 70.5,
      "step": 48990,
      "token_acc": 0.9005376344086021,
      "train_speed(iter/s)": 1.451122
    },
    {
      "epoch": 2.099096011310569,
      "grad_norm": 6.309841156005859,
      "learning_rate": 6.246199976625277e-05,
      "loss": 0.4425994873046875,
      "memory(GiB)": 70.5,
      "step": 48995,
      "token_acc": 0.9019607843137255,
      "train_speed(iter/s)": 1.45114
    },
    {
      "epoch": 2.0993102266398185,
      "grad_norm": 1.8237158060073853,
      "learning_rate": 6.245548226020024e-05,
      "loss": 0.3071705102920532,
      "memory(GiB)": 70.5,
      "step": 49000,
      "token_acc": 0.9427480916030534,
      "train_speed(iter/s)": 1.451144
    },
    {
      "epoch": 2.0993102266398185,
      "eval_loss": 2.4354279041290283,
      "eval_runtime": 13.7787,
      "eval_samples_per_second": 7.258,
      "eval_steps_per_second": 7.258,
      "eval_token_acc": 0.46321525885558584,
      "step": 49000
    },
    {
      "epoch": 2.0995244419690673,
      "grad_norm": 3.0524396896362305,
      "learning_rate": 6.244896452850494e-05,
      "loss": 0.23472244739532472,
      "memory(GiB)": 70.5,
      "step": 49005,
      "token_acc": 0.6085714285714285,
      "train_speed(iter/s)": 1.450515
    },
    {
      "epoch": 2.099738657298316,
      "grad_norm": 2.637918472290039,
      "learning_rate": 6.244244657128498e-05,
      "loss": 0.2538157939910889,
      "memory(GiB)": 70.5,
      "step": 49010,
      "token_acc": 0.9333333333333333,
      "train_speed(iter/s)": 1.450542
    },
    {
      "epoch": 2.0999528726275654,
      "grad_norm": 3.1463634967803955,
      "learning_rate": 6.243592838865842e-05,
      "loss": 0.2791051149368286,
      "memory(GiB)": 70.5,
      "step": 49015,
      "token_acc": 0.9477351916376306,
      "train_speed(iter/s)": 1.450561
    },
    {
      "epoch": 2.100167087956814,
      "grad_norm": 3.4188790321350098,
      "learning_rate": 6.242940998074336e-05,
      "loss": 0.5734274864196778,
      "memory(GiB)": 70.5,
      "step": 49020,
      "token_acc": 0.8980263157894737,
      "train_speed(iter/s)": 1.450562
    },
    {
      "epoch": 2.100381303286063,
      "grad_norm": 1.8595079183578491,
      "learning_rate": 6.242289134765788e-05,
      "loss": 0.13034957647323608,
      "memory(GiB)": 70.5,
      "step": 49025,
      "token_acc": 0.9761904761904762,
      "train_speed(iter/s)": 1.450563
    },
    {
      "epoch": 2.1005955186153122,
      "grad_norm": 2.3614296913146973,
      "learning_rate": 6.241637248952006e-05,
      "loss": 0.2629213571548462,
      "memory(GiB)": 70.5,
      "step": 49030,
      "token_acc": 0.9423076923076923,
      "train_speed(iter/s)": 1.450558
    },
    {
      "epoch": 2.100809733944561,
      "grad_norm": 6.112635612487793,
      "learning_rate": 6.2409853406448e-05,
      "loss": 0.7544786930084229,
      "memory(GiB)": 70.5,
      "step": 49035,
      "token_acc": 0.839142091152815,
      "train_speed(iter/s)": 1.450574
    },
    {
      "epoch": 2.10102394927381,
      "grad_norm": 5.785514831542969,
      "learning_rate": 6.240333409855983e-05,
      "loss": 0.20059309005737305,
      "memory(GiB)": 70.5,
      "step": 49040,
      "token_acc": 0.9464285714285714,
      "train_speed(iter/s)": 1.450583
    },
    {
      "epoch": 2.101238164603059,
      "grad_norm": 5.450356483459473,
      "learning_rate": 6.239681456597361e-05,
      "loss": 0.49997835159301757,
      "memory(GiB)": 70.5,
      "step": 49045,
      "token_acc": 0.9052287581699346,
      "train_speed(iter/s)": 1.450591
    },
    {
      "epoch": 2.101452379932308,
      "grad_norm": 6.176684379577637,
      "learning_rate": 6.239029480880747e-05,
      "loss": 0.32757866382598877,
      "memory(GiB)": 70.5,
      "step": 49050,
      "token_acc": 0.9233576642335767,
      "train_speed(iter/s)": 1.450589
    },
    {
      "epoch": 2.1016665952615567,
      "grad_norm": 2.219521999359131,
      "learning_rate": 6.238377482717951e-05,
      "loss": 0.1732121229171753,
      "memory(GiB)": 70.5,
      "step": 49055,
      "token_acc": 0.9612403100775194,
      "train_speed(iter/s)": 1.450593
    },
    {
      "epoch": 2.101880810590806,
      "grad_norm": 2.8577823638916016,
      "learning_rate": 6.237725462120784e-05,
      "loss": 0.3631949186325073,
      "memory(GiB)": 70.5,
      "step": 49060,
      "token_acc": 0.9204152249134948,
      "train_speed(iter/s)": 1.450596
    },
    {
      "epoch": 2.102095025920055,
      "grad_norm": 2.8905727863311768,
      "learning_rate": 6.237073419101061e-05,
      "loss": 0.5338173389434815,
      "memory(GiB)": 70.5,
      "step": 49065,
      "token_acc": 0.8972602739726028,
      "train_speed(iter/s)": 1.450606
    },
    {
      "epoch": 2.1023092412493036,
      "grad_norm": 6.025857925415039,
      "learning_rate": 6.236421353670592e-05,
      "loss": 0.5129109859466553,
      "memory(GiB)": 70.5,
      "step": 49070,
      "token_acc": 0.9042145593869731,
      "train_speed(iter/s)": 1.4506
    },
    {
      "epoch": 2.102523456578553,
      "grad_norm": 7.165661334991455,
      "learning_rate": 6.235769265841191e-05,
      "loss": 0.5030503273010254,
      "memory(GiB)": 70.5,
      "step": 49075,
      "token_acc": 0.8870431893687708,
      "train_speed(iter/s)": 1.450615
    },
    {
      "epoch": 2.1027376719078017,
      "grad_norm": 2.7811691761016846,
      "learning_rate": 6.235117155624671e-05,
      "loss": 0.48076434135437013,
      "memory(GiB)": 70.5,
      "step": 49080,
      "token_acc": 0.8945578231292517,
      "train_speed(iter/s)": 1.450639
    },
    {
      "epoch": 2.1029518872370505,
      "grad_norm": 6.528554916381836,
      "learning_rate": 6.234465023032844e-05,
      "loss": 0.5637404441833496,
      "memory(GiB)": 70.5,
      "step": 49085,
      "token_acc": 0.8549382716049383,
      "train_speed(iter/s)": 1.450655
    },
    {
      "epoch": 2.1031661025662998,
      "grad_norm": 2.5267324447631836,
      "learning_rate": 6.233812868077525e-05,
      "loss": 0.2975089311599731,
      "memory(GiB)": 70.5,
      "step": 49090,
      "token_acc": 0.9345238095238095,
      "train_speed(iter/s)": 1.45066
    },
    {
      "epoch": 2.1033803178955486,
      "grad_norm": 1.9254422187805176,
      "learning_rate": 6.233160690770528e-05,
      "loss": 0.2635096549987793,
      "memory(GiB)": 70.5,
      "step": 49095,
      "token_acc": 0.9433333333333334,
      "train_speed(iter/s)": 1.450667
    },
    {
      "epoch": 2.1035945332247974,
      "grad_norm": 1.4183447360992432,
      "learning_rate": 6.23250849112367e-05,
      "loss": 0.15317966938018798,
      "memory(GiB)": 70.5,
      "step": 49100,
      "token_acc": 0.9605734767025089,
      "train_speed(iter/s)": 1.450667
    },
    {
      "epoch": 2.1038087485540466,
      "grad_norm": 1.9185805320739746,
      "learning_rate": 6.231856269148762e-05,
      "loss": 0.26027276515960696,
      "memory(GiB)": 70.5,
      "step": 49105,
      "token_acc": 0.9464882943143813,
      "train_speed(iter/s)": 1.450668
    },
    {
      "epoch": 2.1040229638832955,
      "grad_norm": 4.741833209991455,
      "learning_rate": 6.231204024857624e-05,
      "loss": 0.4668295383453369,
      "memory(GiB)": 70.5,
      "step": 49110,
      "token_acc": 0.908675799086758,
      "train_speed(iter/s)": 1.450698
    },
    {
      "epoch": 2.1042371792125443,
      "grad_norm": 4.055414199829102,
      "learning_rate": 6.23055175826207e-05,
      "loss": 0.35059025287628176,
      "memory(GiB)": 70.5,
      "step": 49115,
      "token_acc": 0.9305019305019305,
      "train_speed(iter/s)": 1.450696
    },
    {
      "epoch": 2.1044513945417935,
      "grad_norm": 2.1454503536224365,
      "learning_rate": 6.229899469373917e-05,
      "loss": 0.3525214195251465,
      "memory(GiB)": 70.5,
      "step": 49120,
      "token_acc": 0.9244186046511628,
      "train_speed(iter/s)": 1.45069
    },
    {
      "epoch": 2.1046656098710423,
      "grad_norm": 3.1106154918670654,
      "learning_rate": 6.229247158204981e-05,
      "loss": 0.21239638328552246,
      "memory(GiB)": 70.5,
      "step": 49125,
      "token_acc": 0.9469964664310954,
      "train_speed(iter/s)": 1.450686
    },
    {
      "epoch": 2.104879825200291,
      "grad_norm": 3.6827263832092285,
      "learning_rate": 6.228594824767078e-05,
      "loss": 0.33902225494384763,
      "memory(GiB)": 70.5,
      "step": 49130,
      "token_acc": 0.926056338028169,
      "train_speed(iter/s)": 1.450677
    },
    {
      "epoch": 2.1050940405295404,
      "grad_norm": 3.2343292236328125,
      "learning_rate": 6.227942469072027e-05,
      "loss": 0.3091240644454956,
      "memory(GiB)": 70.5,
      "step": 49135,
      "token_acc": 0.9215686274509803,
      "train_speed(iter/s)": 1.450681
    },
    {
      "epoch": 2.1053082558587892,
      "grad_norm": 5.716817378997803,
      "learning_rate": 6.227290091131648e-05,
      "loss": 0.23414213657379152,
      "memory(GiB)": 70.5,
      "step": 49140,
      "token_acc": 0.9702127659574468,
      "train_speed(iter/s)": 1.450687
    },
    {
      "epoch": 2.105522471188038,
      "grad_norm": 9.096633911132812,
      "learning_rate": 6.22663769095776e-05,
      "loss": 0.46207103729248045,
      "memory(GiB)": 70.5,
      "step": 49145,
      "token_acc": 0.8861209964412812,
      "train_speed(iter/s)": 1.450678
    },
    {
      "epoch": 2.1057366865172873,
      "grad_norm": 4.203575134277344,
      "learning_rate": 6.225985268562175e-05,
      "loss": 0.603237533569336,
      "memory(GiB)": 70.5,
      "step": 49150,
      "token_acc": 0.8538205980066446,
      "train_speed(iter/s)": 1.450669
    },
    {
      "epoch": 2.105950901846536,
      "grad_norm": 5.721044063568115,
      "learning_rate": 6.22533282395672e-05,
      "loss": 0.46817588806152344,
      "memory(GiB)": 70.5,
      "step": 49155,
      "token_acc": 0.8958904109589041,
      "train_speed(iter/s)": 1.450668
    },
    {
      "epoch": 2.106165117175785,
      "grad_norm": 0.38815775513648987,
      "learning_rate": 6.22468035715321e-05,
      "loss": 0.24956235885620118,
      "memory(GiB)": 70.5,
      "step": 49160,
      "token_acc": 0.9365079365079365,
      "train_speed(iter/s)": 1.450669
    },
    {
      "epoch": 2.106379332505034,
      "grad_norm": 4.362469673156738,
      "learning_rate": 6.224027868163467e-05,
      "loss": 0.32048027515411376,
      "memory(GiB)": 70.5,
      "step": 49165,
      "token_acc": 0.9465408805031447,
      "train_speed(iter/s)": 1.450676
    },
    {
      "epoch": 2.106593547834283,
      "grad_norm": 1.40098237991333,
      "learning_rate": 6.223375356999311e-05,
      "loss": 0.3968137502670288,
      "memory(GiB)": 70.5,
      "step": 49170,
      "token_acc": 0.9283154121863799,
      "train_speed(iter/s)": 1.450685
    },
    {
      "epoch": 2.106807763163532,
      "grad_norm": 3.003443956375122,
      "learning_rate": 6.222722823672562e-05,
      "loss": 0.2882606029510498,
      "memory(GiB)": 70.5,
      "step": 49175,
      "token_acc": 0.946236559139785,
      "train_speed(iter/s)": 1.450687
    },
    {
      "epoch": 2.107021978492781,
      "grad_norm": 3.11020565032959,
      "learning_rate": 6.222070268195041e-05,
      "loss": 0.3897082805633545,
      "memory(GiB)": 70.5,
      "step": 49180,
      "token_acc": 0.9094202898550725,
      "train_speed(iter/s)": 1.450714
    },
    {
      "epoch": 2.10723619382203,
      "grad_norm": 2.74399471282959,
      "learning_rate": 6.221417690578574e-05,
      "loss": 0.3054746389389038,
      "memory(GiB)": 70.5,
      "step": 49185,
      "token_acc": 0.9417808219178082,
      "train_speed(iter/s)": 1.450726
    },
    {
      "epoch": 2.1074504091512787,
      "grad_norm": 4.276601791381836,
      "learning_rate": 6.220765090834977e-05,
      "loss": 0.5457033634185791,
      "memory(GiB)": 70.5,
      "step": 49190,
      "token_acc": 0.8973384030418251,
      "train_speed(iter/s)": 1.450766
    },
    {
      "epoch": 2.107664624480528,
      "grad_norm": 1.8728678226470947,
      "learning_rate": 6.220112468976076e-05,
      "loss": 0.4744720935821533,
      "memory(GiB)": 70.5,
      "step": 49195,
      "token_acc": 0.9040590405904059,
      "train_speed(iter/s)": 1.450771
    },
    {
      "epoch": 2.1078788398097767,
      "grad_norm": 4.888040542602539,
      "learning_rate": 6.219459825013694e-05,
      "loss": 0.24380898475646973,
      "memory(GiB)": 70.5,
      "step": 49200,
      "token_acc": 0.9494584837545126,
      "train_speed(iter/s)": 1.450771
    },
    {
      "epoch": 2.1080930551390256,
      "grad_norm": 1.5281093120574951,
      "learning_rate": 6.218807158959652e-05,
      "loss": 0.3939269304275513,
      "memory(GiB)": 70.5,
      "step": 49205,
      "token_acc": 0.9405594405594405,
      "train_speed(iter/s)": 1.450775
    },
    {
      "epoch": 2.108307270468275,
      "grad_norm": 2.4364027976989746,
      "learning_rate": 6.218154470825775e-05,
      "loss": 0.38640332221984863,
      "memory(GiB)": 70.5,
      "step": 49210,
      "token_acc": 0.9401993355481728,
      "train_speed(iter/s)": 1.450769
    },
    {
      "epoch": 2.1085214857975236,
      "grad_norm": 3.762741804122925,
      "learning_rate": 6.217501760623889e-05,
      "loss": 0.2219792604446411,
      "memory(GiB)": 70.5,
      "step": 49215,
      "token_acc": 0.9421768707482994,
      "train_speed(iter/s)": 1.450768
    },
    {
      "epoch": 2.1087357011267724,
      "grad_norm": 5.926715850830078,
      "learning_rate": 6.216849028365815e-05,
      "loss": 0.4676963806152344,
      "memory(GiB)": 70.5,
      "step": 49220,
      "token_acc": 0.9238410596026491,
      "train_speed(iter/s)": 1.450769
    },
    {
      "epoch": 2.1089499164560217,
      "grad_norm": 1.4025437831878662,
      "learning_rate": 6.216196274063379e-05,
      "loss": 0.2683104038238525,
      "memory(GiB)": 70.5,
      "step": 49225,
      "token_acc": 0.9544072948328267,
      "train_speed(iter/s)": 1.450769
    },
    {
      "epoch": 2.1091641317852705,
      "grad_norm": 3.8019704818725586,
      "learning_rate": 6.215543497728407e-05,
      "loss": 0.14097288846969605,
      "memory(GiB)": 70.5,
      "step": 49230,
      "token_acc": 0.9637096774193549,
      "train_speed(iter/s)": 1.450771
    },
    {
      "epoch": 2.1093783471145193,
      "grad_norm": 0.6982013583183289,
      "learning_rate": 6.214890699372724e-05,
      "loss": 0.3265953540802002,
      "memory(GiB)": 70.5,
      "step": 49235,
      "token_acc": 0.9155313351498637,
      "train_speed(iter/s)": 1.450776
    },
    {
      "epoch": 2.1095925624437686,
      "grad_norm": 3.796754837036133,
      "learning_rate": 6.214237879008157e-05,
      "loss": 0.31077089309692385,
      "memory(GiB)": 70.5,
      "step": 49240,
      "token_acc": 0.942652329749104,
      "train_speed(iter/s)": 1.45077
    },
    {
      "epoch": 2.1098067777730174,
      "grad_norm": 5.054220676422119,
      "learning_rate": 6.213585036646531e-05,
      "loss": 0.44664630889892576,
      "memory(GiB)": 70.5,
      "step": 49245,
      "token_acc": 0.8896321070234113,
      "train_speed(iter/s)": 1.450769
    },
    {
      "epoch": 2.110020993102266,
      "grad_norm": 4.4333672523498535,
      "learning_rate": 6.212932172299674e-05,
      "loss": 0.583078670501709,
      "memory(GiB)": 70.5,
      "step": 49250,
      "token_acc": 0.8953068592057761,
      "train_speed(iter/s)": 1.450769
    },
    {
      "epoch": 2.1102352084315155,
      "grad_norm": 3.325958728790283,
      "learning_rate": 6.212279285979412e-05,
      "loss": 0.26731574535369873,
      "memory(GiB)": 70.5,
      "step": 49255,
      "token_acc": 0.9571428571428572,
      "train_speed(iter/s)": 1.450791
    },
    {
      "epoch": 2.1104494237607643,
      "grad_norm": 2.0511932373046875,
      "learning_rate": 6.211626377697575e-05,
      "loss": 0.28163230419158936,
      "memory(GiB)": 70.5,
      "step": 49260,
      "token_acc": 0.9272727272727272,
      "train_speed(iter/s)": 1.45079
    },
    {
      "epoch": 2.110663639090013,
      "grad_norm": 0.025639796629548073,
      "learning_rate": 6.210973447465988e-05,
      "loss": 0.26322696208953855,
      "memory(GiB)": 70.5,
      "step": 49265,
      "token_acc": 0.9184952978056427,
      "train_speed(iter/s)": 1.450784
    },
    {
      "epoch": 2.1108778544192623,
      "grad_norm": 0.5256868600845337,
      "learning_rate": 6.210320495296484e-05,
      "loss": 0.36933577060699463,
      "memory(GiB)": 70.5,
      "step": 49270,
      "token_acc": 0.9273356401384083,
      "train_speed(iter/s)": 1.45079
    },
    {
      "epoch": 2.111092069748511,
      "grad_norm": 5.947211265563965,
      "learning_rate": 6.209667521200886e-05,
      "loss": 0.4145852565765381,
      "memory(GiB)": 70.5,
      "step": 49275,
      "token_acc": 0.92,
      "train_speed(iter/s)": 1.450785
    },
    {
      "epoch": 2.11130628507776,
      "grad_norm": 4.671642780303955,
      "learning_rate": 6.209014525191025e-05,
      "loss": 0.36086416244506836,
      "memory(GiB)": 70.5,
      "step": 49280,
      "token_acc": 0.9230769230769231,
      "train_speed(iter/s)": 1.450794
    },
    {
      "epoch": 2.1115205004070092,
      "grad_norm": 2.805104970932007,
      "learning_rate": 6.208361507278735e-05,
      "loss": 0.12375988960266113,
      "memory(GiB)": 70.5,
      "step": 49285,
      "token_acc": 0.9695817490494296,
      "train_speed(iter/s)": 1.450797
    },
    {
      "epoch": 2.111734715736258,
      "grad_norm": 0.48893988132476807,
      "learning_rate": 6.207708467475842e-05,
      "loss": 0.13885644674301148,
      "memory(GiB)": 70.5,
      "step": 49290,
      "token_acc": 0.9611650485436893,
      "train_speed(iter/s)": 1.450801
    },
    {
      "epoch": 2.111948931065507,
      "grad_norm": 3.574618101119995,
      "learning_rate": 6.207055405794176e-05,
      "loss": 0.2778846263885498,
      "memory(GiB)": 70.5,
      "step": 49295,
      "token_acc": 0.9375,
      "train_speed(iter/s)": 1.450802
    },
    {
      "epoch": 2.112163146394756,
      "grad_norm": 4.680306911468506,
      "learning_rate": 6.20640232224557e-05,
      "loss": 0.2740614891052246,
      "memory(GiB)": 70.5,
      "step": 49300,
      "token_acc": 0.9253246753246753,
      "train_speed(iter/s)": 1.450803
    },
    {
      "epoch": 2.112377361724005,
      "grad_norm": 4.060408592224121,
      "learning_rate": 6.205749216841855e-05,
      "loss": 0.44332351684570315,
      "memory(GiB)": 70.5,
      "step": 49305,
      "token_acc": 0.9,
      "train_speed(iter/s)": 1.450806
    },
    {
      "epoch": 2.1125915770532537,
      "grad_norm": 5.2356977462768555,
      "learning_rate": 6.20509608959486e-05,
      "loss": 0.5358894348144532,
      "memory(GiB)": 70.5,
      "step": 49310,
      "token_acc": 0.8729508196721312,
      "train_speed(iter/s)": 1.450819
    },
    {
      "epoch": 2.112805792382503,
      "grad_norm": 3.1814210414886475,
      "learning_rate": 6.20444294051642e-05,
      "loss": 0.3024327754974365,
      "memory(GiB)": 70.5,
      "step": 49315,
      "token_acc": 0.9356913183279743,
      "train_speed(iter/s)": 1.450819
    },
    {
      "epoch": 2.113020007711752,
      "grad_norm": 7.450423240661621,
      "learning_rate": 6.203789769618365e-05,
      "loss": 0.5361366271972656,
      "memory(GiB)": 70.5,
      "step": 49320,
      "token_acc": 0.8700361010830325,
      "train_speed(iter/s)": 1.450803
    },
    {
      "epoch": 2.1132342230410006,
      "grad_norm": 3.1397321224212646,
      "learning_rate": 6.203136576912529e-05,
      "loss": 0.16687397956848143,
      "memory(GiB)": 70.5,
      "step": 49325,
      "token_acc": 0.9602649006622517,
      "train_speed(iter/s)": 1.45082
    },
    {
      "epoch": 2.11344843837025,
      "grad_norm": 5.941906452178955,
      "learning_rate": 6.202483362410748e-05,
      "loss": 0.4995596885681152,
      "memory(GiB)": 70.5,
      "step": 49330,
      "token_acc": 0.9106529209621993,
      "train_speed(iter/s)": 1.450823
    },
    {
      "epoch": 2.1136626536994987,
      "grad_norm": 4.761825084686279,
      "learning_rate": 6.20183012612485e-05,
      "loss": 0.23645172119140626,
      "memory(GiB)": 70.5,
      "step": 49335,
      "token_acc": 0.9540636042402827,
      "train_speed(iter/s)": 1.450818
    },
    {
      "epoch": 2.1138768690287475,
      "grad_norm": 5.811190128326416,
      "learning_rate": 6.201176868066674e-05,
      "loss": 0.49507961273193357,
      "memory(GiB)": 70.5,
      "step": 49340,
      "token_acc": 0.9013605442176871,
      "train_speed(iter/s)": 1.450818
    },
    {
      "epoch": 2.1140910843579968,
      "grad_norm": 11.99102783203125,
      "learning_rate": 6.20052358824805e-05,
      "loss": 0.3558556318283081,
      "memory(GiB)": 70.5,
      "step": 49345,
      "token_acc": 0.9292929292929293,
      "train_speed(iter/s)": 1.450825
    },
    {
      "epoch": 2.1143052996872456,
      "grad_norm": 3.771183967590332,
      "learning_rate": 6.199870286680817e-05,
      "loss": 0.2924570322036743,
      "memory(GiB)": 70.5,
      "step": 49350,
      "token_acc": 0.9448529411764706,
      "train_speed(iter/s)": 1.450821
    },
    {
      "epoch": 2.1145195150164944,
      "grad_norm": 4.508339881896973,
      "learning_rate": 6.199216963376806e-05,
      "loss": 0.3020374536514282,
      "memory(GiB)": 70.5,
      "step": 49355,
      "token_acc": 0.9261992619926199,
      "train_speed(iter/s)": 1.450823
    },
    {
      "epoch": 2.1147337303457436,
      "grad_norm": 1.5904834270477295,
      "learning_rate": 6.198563618347857e-05,
      "loss": 0.09429430961608887,
      "memory(GiB)": 70.5,
      "step": 49360,
      "token_acc": 0.9841897233201581,
      "train_speed(iter/s)": 1.450826
    },
    {
      "epoch": 2.1149479456749924,
      "grad_norm": 7.241287708282471,
      "learning_rate": 6.197910251605803e-05,
      "loss": 0.3829049825668335,
      "memory(GiB)": 70.5,
      "step": 49365,
      "token_acc": 0.9097222222222222,
      "train_speed(iter/s)": 1.450824
    },
    {
      "epoch": 2.1151621610042413,
      "grad_norm": 1.6868982315063477,
      "learning_rate": 6.19725686316248e-05,
      "loss": 0.12404441833496094,
      "memory(GiB)": 70.5,
      "step": 49370,
      "token_acc": 0.9525691699604744,
      "train_speed(iter/s)": 1.450827
    },
    {
      "epoch": 2.1153763763334905,
      "grad_norm": 4.050381660461426,
      "learning_rate": 6.196603453029728e-05,
      "loss": 0.5886729717254638,
      "memory(GiB)": 70.5,
      "step": 49375,
      "token_acc": 0.884272997032641,
      "train_speed(iter/s)": 1.450836
    },
    {
      "epoch": 2.1155905916627393,
      "grad_norm": 0.4246578514575958,
      "learning_rate": 6.19595002121938e-05,
      "loss": 0.29735569953918456,
      "memory(GiB)": 70.5,
      "step": 49380,
      "token_acc": 0.9463087248322147,
      "train_speed(iter/s)": 1.45084
    },
    {
      "epoch": 2.115804806991988,
      "grad_norm": 3.877185106277466,
      "learning_rate": 6.195296567743277e-05,
      "loss": 0.36621870994567873,
      "memory(GiB)": 70.5,
      "step": 49385,
      "token_acc": 0.8853754940711462,
      "train_speed(iter/s)": 1.450848
    },
    {
      "epoch": 2.1160190223212374,
      "grad_norm": 2.360340118408203,
      "learning_rate": 6.194643092613254e-05,
      "loss": 0.3847385883331299,
      "memory(GiB)": 70.5,
      "step": 49390,
      "token_acc": 0.9242424242424242,
      "train_speed(iter/s)": 1.450863
    },
    {
      "epoch": 2.116233237650486,
      "grad_norm": 2.963496446609497,
      "learning_rate": 6.193989595841151e-05,
      "loss": 0.26360931396484377,
      "memory(GiB)": 70.5,
      "step": 49395,
      "token_acc": 0.95,
      "train_speed(iter/s)": 1.450866
    },
    {
      "epoch": 2.116447452979735,
      "grad_norm": 2.149461030960083,
      "learning_rate": 6.193336077438807e-05,
      "loss": 0.6646921157836914,
      "memory(GiB)": 70.5,
      "step": 49400,
      "token_acc": 0.8645418326693227,
      "train_speed(iter/s)": 1.450857
    },
    {
      "epoch": 2.1166616683089843,
      "grad_norm": 3.254155397415161,
      "learning_rate": 6.192682537418061e-05,
      "loss": 0.35159454345703123,
      "memory(GiB)": 70.5,
      "step": 49405,
      "token_acc": 0.926923076923077,
      "train_speed(iter/s)": 1.450854
    },
    {
      "epoch": 2.116875883638233,
      "grad_norm": 2.709575891494751,
      "learning_rate": 6.19202897579075e-05,
      "loss": 0.5172066211700439,
      "memory(GiB)": 70.5,
      "step": 49410,
      "token_acc": 0.8943894389438944,
      "train_speed(iter/s)": 1.45086
    },
    {
      "epoch": 2.117090098967482,
      "grad_norm": 2.927258014678955,
      "learning_rate": 6.191375392568718e-05,
      "loss": 0.4656976699829102,
      "memory(GiB)": 70.5,
      "step": 49415,
      "token_acc": 0.889261744966443,
      "train_speed(iter/s)": 1.450863
    },
    {
      "epoch": 2.117304314296731,
      "grad_norm": 2.9905354976654053,
      "learning_rate": 6.190721787763801e-05,
      "loss": 0.4352055549621582,
      "memory(GiB)": 70.5,
      "step": 49420,
      "token_acc": 0.9166666666666666,
      "train_speed(iter/s)": 1.450859
    },
    {
      "epoch": 2.11751852962598,
      "grad_norm": 2.0383543968200684,
      "learning_rate": 6.190068161387844e-05,
      "loss": 0.46997575759887694,
      "memory(GiB)": 70.5,
      "step": 49425,
      "token_acc": 0.9073569482288828,
      "train_speed(iter/s)": 1.450852
    },
    {
      "epoch": 2.117732744955229,
      "grad_norm": 1.755405306816101,
      "learning_rate": 6.189414513452685e-05,
      "loss": 0.1070871353149414,
      "memory(GiB)": 70.5,
      "step": 49430,
      "token_acc": 0.971830985915493,
      "train_speed(iter/s)": 1.450854
    },
    {
      "epoch": 2.117946960284478,
      "grad_norm": 4.641988754272461,
      "learning_rate": 6.188760843970166e-05,
      "loss": 0.5504646301269531,
      "memory(GiB)": 70.5,
      "step": 49435,
      "token_acc": 0.8746177370030581,
      "train_speed(iter/s)": 1.450869
    },
    {
      "epoch": 2.118161175613727,
      "grad_norm": 5.426955223083496,
      "learning_rate": 6.188107152952129e-05,
      "loss": 0.5973721027374268,
      "memory(GiB)": 70.5,
      "step": 49440,
      "token_acc": 0.9026845637583892,
      "train_speed(iter/s)": 1.450863
    },
    {
      "epoch": 2.1183753909429757,
      "grad_norm": 0.3072928190231323,
      "learning_rate": 6.187453440410418e-05,
      "loss": 0.419842004776001,
      "memory(GiB)": 70.5,
      "step": 49445,
      "token_acc": 0.8986013986013986,
      "train_speed(iter/s)": 1.450876
    },
    {
      "epoch": 2.118589606272225,
      "grad_norm": 3.182579755783081,
      "learning_rate": 6.186799706356872e-05,
      "loss": 0.30778188705444337,
      "memory(GiB)": 70.5,
      "step": 49450,
      "token_acc": 0.9444444444444444,
      "train_speed(iter/s)": 1.450872
    },
    {
      "epoch": 2.1188038216014737,
      "grad_norm": 5.289299964904785,
      "learning_rate": 6.186145950803337e-05,
      "loss": 0.518027400970459,
      "memory(GiB)": 70.5,
      "step": 49455,
      "token_acc": 0.8934707903780069,
      "train_speed(iter/s)": 1.450876
    },
    {
      "epoch": 2.1190180369307225,
      "grad_norm": 2.9008688926696777,
      "learning_rate": 6.185492173761655e-05,
      "loss": 0.431547737121582,
      "memory(GiB)": 70.5,
      "step": 49460,
      "token_acc": 0.9054545454545454,
      "train_speed(iter/s)": 1.45089
    },
    {
      "epoch": 2.119232252259972,
      "grad_norm": 2.488769292831421,
      "learning_rate": 6.184838375243671e-05,
      "loss": 0.20255160331726074,
      "memory(GiB)": 70.5,
      "step": 49465,
      "token_acc": 0.9554794520547946,
      "train_speed(iter/s)": 1.450887
    },
    {
      "epoch": 2.1194464675892206,
      "grad_norm": 2.8858227729797363,
      "learning_rate": 6.184184555261227e-05,
      "loss": 0.3390321731567383,
      "memory(GiB)": 70.5,
      "step": 49470,
      "token_acc": 0.9278688524590164,
      "train_speed(iter/s)": 1.450877
    },
    {
      "epoch": 2.11966068291847,
      "grad_norm": 2.563291549682617,
      "learning_rate": 6.18353071382617e-05,
      "loss": 0.2687685966491699,
      "memory(GiB)": 70.5,
      "step": 49475,
      "token_acc": 0.9360902255639098,
      "train_speed(iter/s)": 1.450883
    },
    {
      "epoch": 2.1198748982477187,
      "grad_norm": 3.460632085800171,
      "learning_rate": 6.182876850950344e-05,
      "loss": 0.6237831592559815,
      "memory(GiB)": 70.5,
      "step": 49480,
      "token_acc": 0.8772563176895307,
      "train_speed(iter/s)": 1.450884
    },
    {
      "epoch": 2.1200891135769675,
      "grad_norm": 4.3401618003845215,
      "learning_rate": 6.182222966645593e-05,
      "loss": 0.3708014011383057,
      "memory(GiB)": 70.5,
      "step": 49485,
      "token_acc": 0.9225352112676056,
      "train_speed(iter/s)": 1.450888
    },
    {
      "epoch": 2.1203033289062168,
      "grad_norm": 3.2084524631500244,
      "learning_rate": 6.181569060923765e-05,
      "loss": 0.5494359970092774,
      "memory(GiB)": 70.5,
      "step": 49490,
      "token_acc": 0.8904593639575972,
      "train_speed(iter/s)": 1.450905
    },
    {
      "epoch": 2.1205175442354656,
      "grad_norm": 1.8226737976074219,
      "learning_rate": 6.180915133796705e-05,
      "loss": 0.32672724723815916,
      "memory(GiB)": 70.5,
      "step": 49495,
      "token_acc": 0.9362416107382551,
      "train_speed(iter/s)": 1.450907
    },
    {
      "epoch": 2.1207317595647144,
      "grad_norm": 2.3241984844207764,
      "learning_rate": 6.180261185276259e-05,
      "loss": 0.34798550605773926,
      "memory(GiB)": 70.5,
      "step": 49500,
      "token_acc": 0.9320388349514563,
      "train_speed(iter/s)": 1.450915
    },
    {
      "epoch": 2.1207317595647144,
      "eval_loss": 2.2960877418518066,
      "eval_runtime": 13.0357,
      "eval_samples_per_second": 7.671,
      "eval_steps_per_second": 7.671,
      "eval_token_acc": 0.4722662440570523,
      "step": 49500
    },
    {
      "epoch": 2.1209459748939636,
      "grad_norm": 4.325350284576416,
      "learning_rate": 6.179607215374274e-05,
      "loss": 0.40251574516296384,
      "memory(GiB)": 70.5,
      "step": 49505,
      "token_acc": 0.6266804550155118,
      "train_speed(iter/s)": 1.450312
    },
    {
      "epoch": 2.1211601902232124,
      "grad_norm": 1.1057504415512085,
      "learning_rate": 6.178953224102599e-05,
      "loss": 0.30783216953277587,
      "memory(GiB)": 70.5,
      "step": 49510,
      "token_acc": 0.946969696969697,
      "train_speed(iter/s)": 1.450335
    },
    {
      "epoch": 2.1213744055524613,
      "grad_norm": 3.5966548919677734,
      "learning_rate": 6.178299211473081e-05,
      "loss": 0.34077014923095705,
      "memory(GiB)": 70.5,
      "step": 49515,
      "token_acc": 0.9337748344370861,
      "train_speed(iter/s)": 1.450338
    },
    {
      "epoch": 2.1215886208817105,
      "grad_norm": 3.884377956390381,
      "learning_rate": 6.177645177497566e-05,
      "loss": 0.4154163360595703,
      "memory(GiB)": 70.5,
      "step": 49520,
      "token_acc": 0.9130434782608695,
      "train_speed(iter/s)": 1.450336
    },
    {
      "epoch": 2.1218028362109593,
      "grad_norm": 2.702943801879883,
      "learning_rate": 6.176991122187904e-05,
      "loss": 0.4773528575897217,
      "memory(GiB)": 70.5,
      "step": 49525,
      "token_acc": 0.8951048951048951,
      "train_speed(iter/s)": 1.450333
    },
    {
      "epoch": 2.122017051540208,
      "grad_norm": 4.920912265777588,
      "learning_rate": 6.176337045555944e-05,
      "loss": 0.4744349479675293,
      "memory(GiB)": 70.5,
      "step": 49530,
      "token_acc": 0.9006410256410257,
      "train_speed(iter/s)": 1.450333
    },
    {
      "epoch": 2.1222312668694574,
      "grad_norm": 1.2741467952728271,
      "learning_rate": 6.175682947613534e-05,
      "loss": 0.11225640773773193,
      "memory(GiB)": 70.5,
      "step": 49535,
      "token_acc": 0.9638157894736842,
      "train_speed(iter/s)": 1.450339
    },
    {
      "epoch": 2.122445482198706,
      "grad_norm": 4.54136323928833,
      "learning_rate": 6.175028828372527e-05,
      "loss": 0.33525924682617186,
      "memory(GiB)": 70.5,
      "step": 49540,
      "token_acc": 0.9111842105263158,
      "train_speed(iter/s)": 1.45035
    },
    {
      "epoch": 2.122659697527955,
      "grad_norm": 3.0000429153442383,
      "learning_rate": 6.174374687844769e-05,
      "loss": 0.37850222587585447,
      "memory(GiB)": 70.5,
      "step": 49545,
      "token_acc": 0.9045801526717557,
      "train_speed(iter/s)": 1.45037
    },
    {
      "epoch": 2.1228739128572043,
      "grad_norm": 3.583761692047119,
      "learning_rate": 6.173720526042112e-05,
      "loss": 0.3380183219909668,
      "memory(GiB)": 70.5,
      "step": 49550,
      "token_acc": 0.9145569620253164,
      "train_speed(iter/s)": 1.450366
    },
    {
      "epoch": 2.123088128186453,
      "grad_norm": 7.940977096557617,
      "learning_rate": 6.173066342976405e-05,
      "loss": 0.2847935438156128,
      "memory(GiB)": 70.5,
      "step": 49555,
      "token_acc": 0.920863309352518,
      "train_speed(iter/s)": 1.450379
    },
    {
      "epoch": 2.123302343515702,
      "grad_norm": 3.903062105178833,
      "learning_rate": 6.172412138659504e-05,
      "loss": 0.42363834381103516,
      "memory(GiB)": 70.5,
      "step": 49560,
      "token_acc": 0.89198606271777,
      "train_speed(iter/s)": 1.450374
    },
    {
      "epoch": 2.123516558844951,
      "grad_norm": 2.340092658996582,
      "learning_rate": 6.171757913103255e-05,
      "loss": 0.6717251300811767,
      "memory(GiB)": 70.5,
      "step": 49565,
      "token_acc": 0.8818681318681318,
      "train_speed(iter/s)": 1.450381
    },
    {
      "epoch": 2.1237307741742,
      "grad_norm": 2.489624500274658,
      "learning_rate": 6.171103666319514e-05,
      "loss": 0.41077728271484376,
      "memory(GiB)": 70.5,
      "step": 49570,
      "token_acc": 0.918918918918919,
      "train_speed(iter/s)": 1.4504
    },
    {
      "epoch": 2.123944989503449,
      "grad_norm": 4.428746223449707,
      "learning_rate": 6.17044939832013e-05,
      "loss": 0.1687699317932129,
      "memory(GiB)": 70.5,
      "step": 49575,
      "token_acc": 0.9781021897810219,
      "train_speed(iter/s)": 1.4504
    },
    {
      "epoch": 2.124159204832698,
      "grad_norm": 4.744144916534424,
      "learning_rate": 6.169795109116957e-05,
      "loss": 0.6304924964904786,
      "memory(GiB)": 70.5,
      "step": 49580,
      "token_acc": 0.8489932885906041,
      "train_speed(iter/s)": 1.450401
    },
    {
      "epoch": 2.124373420161947,
      "grad_norm": 1.1366310119628906,
      "learning_rate": 6.169140798721847e-05,
      "loss": 0.2977325916290283,
      "memory(GiB)": 70.5,
      "step": 49585,
      "token_acc": 0.9163987138263665,
      "train_speed(iter/s)": 1.450417
    },
    {
      "epoch": 2.1245876354911957,
      "grad_norm": 3.717878818511963,
      "learning_rate": 6.168486467146658e-05,
      "loss": 0.4422417640686035,
      "memory(GiB)": 70.5,
      "step": 49590,
      "token_acc": 0.9122340425531915,
      "train_speed(iter/s)": 1.450402
    },
    {
      "epoch": 2.124801850820445,
      "grad_norm": 2.0847246646881104,
      "learning_rate": 6.167832114403238e-05,
      "loss": 0.43256196975708006,
      "memory(GiB)": 70.5,
      "step": 49595,
      "token_acc": 0.9117647058823529,
      "train_speed(iter/s)": 1.450401
    },
    {
      "epoch": 2.1250160661496937,
      "grad_norm": 3.5232222080230713,
      "learning_rate": 6.167177740503444e-05,
      "loss": 0.5076728343963623,
      "memory(GiB)": 70.5,
      "step": 49600,
      "token_acc": 0.889967637540453,
      "train_speed(iter/s)": 1.450402
    },
    {
      "epoch": 2.1252302814789426,
      "grad_norm": 1.484273910522461,
      "learning_rate": 6.166523345459132e-05,
      "loss": 0.2881158828735352,
      "memory(GiB)": 70.5,
      "step": 49605,
      "token_acc": 0.9413680781758957,
      "train_speed(iter/s)": 1.450403
    },
    {
      "epoch": 2.125444496808192,
      "grad_norm": 8.430697441101074,
      "learning_rate": 6.165868929282155e-05,
      "loss": 0.40240015983581545,
      "memory(GiB)": 70.5,
      "step": 49610,
      "token_acc": 0.9217687074829932,
      "train_speed(iter/s)": 1.450404
    },
    {
      "epoch": 2.1256587121374406,
      "grad_norm": 2.2571117877960205,
      "learning_rate": 6.165214491984367e-05,
      "loss": 0.31809914112091064,
      "memory(GiB)": 70.5,
      "step": 49615,
      "token_acc": 0.9272727272727272,
      "train_speed(iter/s)": 1.45042
    },
    {
      "epoch": 2.1258729274666894,
      "grad_norm": 0.2484825998544693,
      "learning_rate": 6.164560033577626e-05,
      "loss": 0.18771156072616577,
      "memory(GiB)": 70.5,
      "step": 49620,
      "token_acc": 0.9442724458204335,
      "train_speed(iter/s)": 1.450422
    },
    {
      "epoch": 2.1260871427959387,
      "grad_norm": 0.23814237117767334,
      "learning_rate": 6.163905554073787e-05,
      "loss": 0.35030326843261717,
      "memory(GiB)": 70.5,
      "step": 49625,
      "token_acc": 0.9236641221374046,
      "train_speed(iter/s)": 1.450429
    },
    {
      "epoch": 2.1263013581251875,
      "grad_norm": 2.684218645095825,
      "learning_rate": 6.16325105348471e-05,
      "loss": 0.4248077392578125,
      "memory(GiB)": 70.5,
      "step": 49630,
      "token_acc": 0.9137931034482759,
      "train_speed(iter/s)": 1.450442
    },
    {
      "epoch": 2.1265155734544363,
      "grad_norm": 5.748961448669434,
      "learning_rate": 6.162596531822247e-05,
      "loss": 0.49936494827270506,
      "memory(GiB)": 70.5,
      "step": 49635,
      "token_acc": 0.8819672131147541,
      "train_speed(iter/s)": 1.450453
    },
    {
      "epoch": 2.1267297887836856,
      "grad_norm": 3.2087249755859375,
      "learning_rate": 6.161941989098256e-05,
      "loss": 0.31483774185180663,
      "memory(GiB)": 70.5,
      "step": 49640,
      "token_acc": 0.924187725631769,
      "train_speed(iter/s)": 1.450455
    },
    {
      "epoch": 2.1269440041129344,
      "grad_norm": 1.9438050985336304,
      "learning_rate": 6.161287425324597e-05,
      "loss": 0.3236798524856567,
      "memory(GiB)": 70.5,
      "step": 49645,
      "token_acc": 0.9456869009584664,
      "train_speed(iter/s)": 1.450461
    },
    {
      "epoch": 2.127158219442183,
      "grad_norm": 5.951128005981445,
      "learning_rate": 6.160632840513127e-05,
      "loss": 0.157762348651886,
      "memory(GiB)": 70.5,
      "step": 49650,
      "token_acc": 0.9581881533101045,
      "train_speed(iter/s)": 1.450462
    },
    {
      "epoch": 2.1273724347714325,
      "grad_norm": 8.297576904296875,
      "learning_rate": 6.159978234675704e-05,
      "loss": 0.44900999069213865,
      "memory(GiB)": 70.5,
      "step": 49655,
      "token_acc": 0.9065743944636678,
      "train_speed(iter/s)": 1.450467
    },
    {
      "epoch": 2.1275866501006813,
      "grad_norm": 0.8307307362556458,
      "learning_rate": 6.159323607824188e-05,
      "loss": 0.40829854011535643,
      "memory(GiB)": 70.5,
      "step": 49660,
      "token_acc": 0.9245283018867925,
      "train_speed(iter/s)": 1.450462
    },
    {
      "epoch": 2.12780086542993,
      "grad_norm": 4.473964214324951,
      "learning_rate": 6.158668959970437e-05,
      "loss": 0.5321093559265136,
      "memory(GiB)": 70.5,
      "step": 49665,
      "token_acc": 0.8905109489051095,
      "train_speed(iter/s)": 1.450482
    },
    {
      "epoch": 2.1280150807591793,
      "grad_norm": 2.947810173034668,
      "learning_rate": 6.158014291126311e-05,
      "loss": 0.18451964855194092,
      "memory(GiB)": 70.5,
      "step": 49670,
      "token_acc": 0.9552238805970149,
      "train_speed(iter/s)": 1.45048
    },
    {
      "epoch": 2.128229296088428,
      "grad_norm": 6.500638961791992,
      "learning_rate": 6.15735960130367e-05,
      "loss": 0.294842791557312,
      "memory(GiB)": 70.5,
      "step": 49675,
      "token_acc": 0.9387096774193548,
      "train_speed(iter/s)": 1.450478
    },
    {
      "epoch": 2.128443511417677,
      "grad_norm": 3.4711692333221436,
      "learning_rate": 6.156704890514372e-05,
      "loss": 0.33528857231140136,
      "memory(GiB)": 70.5,
      "step": 49680,
      "token_acc": 0.9049079754601227,
      "train_speed(iter/s)": 1.450479
    },
    {
      "epoch": 2.128657726746926,
      "grad_norm": 8.764448165893555,
      "learning_rate": 6.156050158770282e-05,
      "loss": 0.3215871095657349,
      "memory(GiB)": 70.5,
      "step": 49685,
      "token_acc": 0.9319727891156463,
      "train_speed(iter/s)": 1.450479
    },
    {
      "epoch": 2.128871942076175,
      "grad_norm": 3.8302125930786133,
      "learning_rate": 6.155395406083257e-05,
      "loss": 0.4725905418395996,
      "memory(GiB)": 70.5,
      "step": 49690,
      "token_acc": 0.8996655518394648,
      "train_speed(iter/s)": 1.450488
    },
    {
      "epoch": 2.129086157405424,
      "grad_norm": 3.259497880935669,
      "learning_rate": 6.154740632465162e-05,
      "loss": 0.3306746482849121,
      "memory(GiB)": 70.5,
      "step": 49695,
      "token_acc": 0.9485530546623794,
      "train_speed(iter/s)": 1.450491
    },
    {
      "epoch": 2.129300372734673,
      "grad_norm": 3.6458215713500977,
      "learning_rate": 6.154085837927857e-05,
      "loss": 0.3604025363922119,
      "memory(GiB)": 70.5,
      "step": 49700,
      "token_acc": 0.9042145593869731,
      "train_speed(iter/s)": 1.450506
    },
    {
      "epoch": 2.129514588063922,
      "grad_norm": 2.294743061065674,
      "learning_rate": 6.153431022483205e-05,
      "loss": 0.12956466674804687,
      "memory(GiB)": 70.5,
      "step": 49705,
      "token_acc": 0.9742647058823529,
      "train_speed(iter/s)": 1.450527
    },
    {
      "epoch": 2.1297288033931707,
      "grad_norm": 3.667027711868286,
      "learning_rate": 6.152776186143067e-05,
      "loss": 0.4394217491149902,
      "memory(GiB)": 70.5,
      "step": 49710,
      "token_acc": 0.9153005464480874,
      "train_speed(iter/s)": 1.450526
    },
    {
      "epoch": 2.12994301872242,
      "grad_norm": 3.109819173812866,
      "learning_rate": 6.152121328919307e-05,
      "loss": 0.41442456245422366,
      "memory(GiB)": 70.5,
      "step": 49715,
      "token_acc": 0.9068100358422939,
      "train_speed(iter/s)": 1.450535
    },
    {
      "epoch": 2.130157234051669,
      "grad_norm": 0.05648045986890793,
      "learning_rate": 6.15146645082379e-05,
      "loss": 0.27598488330841064,
      "memory(GiB)": 70.5,
      "step": 49720,
      "token_acc": 0.9257950530035336,
      "train_speed(iter/s)": 1.450538
    },
    {
      "epoch": 2.1303714493809176,
      "grad_norm": 4.3352179527282715,
      "learning_rate": 6.150811551868377e-05,
      "loss": 0.35208017826080323,
      "memory(GiB)": 70.5,
      "step": 49725,
      "token_acc": 0.9238754325259516,
      "train_speed(iter/s)": 1.450534
    },
    {
      "epoch": 2.130585664710167,
      "grad_norm": 3.8153553009033203,
      "learning_rate": 6.15015663206493e-05,
      "loss": 0.6558331489562989,
      "memory(GiB)": 70.5,
      "step": 49730,
      "token_acc": 0.8638132295719845,
      "train_speed(iter/s)": 1.450552
    },
    {
      "epoch": 2.1307998800394157,
      "grad_norm": 0.644271969795227,
      "learning_rate": 6.149501691425321e-05,
      "loss": 0.29440219402313234,
      "memory(GiB)": 70.5,
      "step": 49735,
      "token_acc": 0.931740614334471,
      "train_speed(iter/s)": 1.450544
    },
    {
      "epoch": 2.1310140953686645,
      "grad_norm": 2.776294469833374,
      "learning_rate": 6.148846729961409e-05,
      "loss": 0.38455400466918943,
      "memory(GiB)": 70.5,
      "step": 49740,
      "token_acc": 0.9293286219081273,
      "train_speed(iter/s)": 1.450547
    },
    {
      "epoch": 2.1312283106979137,
      "grad_norm": 2.728818893432617,
      "learning_rate": 6.148191747685061e-05,
      "loss": 0.34362890720367434,
      "memory(GiB)": 70.5,
      "step": 49745,
      "token_acc": 0.9177631578947368,
      "train_speed(iter/s)": 1.450548
    },
    {
      "epoch": 2.1314425260271626,
      "grad_norm": 1.6108945608139038,
      "learning_rate": 6.147536744608143e-05,
      "loss": 0.4213698387145996,
      "memory(GiB)": 70.5,
      "step": 49750,
      "token_acc": 0.9017543859649123,
      "train_speed(iter/s)": 1.450548
    },
    {
      "epoch": 2.1316567413564114,
      "grad_norm": 6.285868167877197,
      "learning_rate": 6.146881720742519e-05,
      "loss": 0.6033853530883789,
      "memory(GiB)": 70.5,
      "step": 49755,
      "token_acc": 0.8854961832061069,
      "train_speed(iter/s)": 1.450549
    },
    {
      "epoch": 2.1318709566856606,
      "grad_norm": 3.173476457595825,
      "learning_rate": 6.146226676100058e-05,
      "loss": 0.28673782348632815,
      "memory(GiB)": 70.5,
      "step": 49760,
      "token_acc": 0.9333333333333333,
      "train_speed(iter/s)": 1.450551
    },
    {
      "epoch": 2.1320851720149094,
      "grad_norm": 0.7446104884147644,
      "learning_rate": 6.145571610692624e-05,
      "loss": 0.30190110206604004,
      "memory(GiB)": 70.5,
      "step": 49765,
      "token_acc": 0.9442231075697212,
      "train_speed(iter/s)": 1.450551
    },
    {
      "epoch": 2.1322993873441582,
      "grad_norm": 5.083645820617676,
      "learning_rate": 6.144916524532086e-05,
      "loss": 0.34647550582885744,
      "memory(GiB)": 70.5,
      "step": 49770,
      "token_acc": 0.9349593495934959,
      "train_speed(iter/s)": 1.450552
    },
    {
      "epoch": 2.1325136026734075,
      "grad_norm": 2.013232707977295,
      "learning_rate": 6.144261417630313e-05,
      "loss": 0.5436834812164306,
      "memory(GiB)": 70.5,
      "step": 49775,
      "token_acc": 0.8870431893687708,
      "train_speed(iter/s)": 1.450567
    },
    {
      "epoch": 2.1327278180026563,
      "grad_norm": 2.9616942405700684,
      "learning_rate": 6.143606289999169e-05,
      "loss": 0.3237110137939453,
      "memory(GiB)": 70.5,
      "step": 49780,
      "token_acc": 0.9386973180076629,
      "train_speed(iter/s)": 1.450571
    },
    {
      "epoch": 2.132942033331905,
      "grad_norm": 2.7611846923828125,
      "learning_rate": 6.142951141650527e-05,
      "loss": 0.26019716262817383,
      "memory(GiB)": 70.5,
      "step": 49785,
      "token_acc": 0.9361702127659575,
      "train_speed(iter/s)": 1.450567
    },
    {
      "epoch": 2.1331562486611544,
      "grad_norm": 3.6258842945098877,
      "learning_rate": 6.14229597259625e-05,
      "loss": 0.30288896560668943,
      "memory(GiB)": 70.5,
      "step": 49790,
      "token_acc": 0.9325842696629213,
      "train_speed(iter/s)": 1.450577
    },
    {
      "epoch": 2.133370463990403,
      "grad_norm": 4.684276580810547,
      "learning_rate": 6.141640782848211e-05,
      "loss": 0.42064828872680665,
      "memory(GiB)": 70.5,
      "step": 49795,
      "token_acc": 0.9233870967741935,
      "train_speed(iter/s)": 1.450591
    },
    {
      "epoch": 2.133584679319652,
      "grad_norm": 7.094675540924072,
      "learning_rate": 6.140985572418276e-05,
      "loss": 0.39852118492126465,
      "memory(GiB)": 70.5,
      "step": 49800,
      "token_acc": 0.933579335793358,
      "train_speed(iter/s)": 1.450602
    },
    {
      "epoch": 2.1337988946489013,
      "grad_norm": 2.075152635574341,
      "learning_rate": 6.14033034131832e-05,
      "loss": 0.3075856685638428,
      "memory(GiB)": 70.5,
      "step": 49805,
      "token_acc": 0.9218106995884774,
      "train_speed(iter/s)": 1.450623
    },
    {
      "epoch": 2.13401310997815,
      "grad_norm": 4.444478511810303,
      "learning_rate": 6.13967508956021e-05,
      "loss": 0.4699970245361328,
      "memory(GiB)": 70.5,
      "step": 49810,
      "token_acc": 0.8986301369863013,
      "train_speed(iter/s)": 1.450626
    },
    {
      "epoch": 2.134227325307399,
      "grad_norm": 7.987437725067139,
      "learning_rate": 6.139019817155815e-05,
      "loss": 0.30823872089385984,
      "memory(GiB)": 70.5,
      "step": 49815,
      "token_acc": 0.9178082191780822,
      "train_speed(iter/s)": 1.450632
    },
    {
      "epoch": 2.134441540636648,
      "grad_norm": 3.769148349761963,
      "learning_rate": 6.13836452411701e-05,
      "loss": 0.3444085121154785,
      "memory(GiB)": 70.5,
      "step": 49820,
      "token_acc": 0.9285714285714286,
      "train_speed(iter/s)": 1.450637
    },
    {
      "epoch": 2.134655755965897,
      "grad_norm": 2.198981285095215,
      "learning_rate": 6.137709210455661e-05,
      "loss": 0.4709984302520752,
      "memory(GiB)": 70.5,
      "step": 49825,
      "token_acc": 0.903125,
      "train_speed(iter/s)": 1.450639
    },
    {
      "epoch": 2.1348699712951458,
      "grad_norm": 5.435634613037109,
      "learning_rate": 6.137053876183644e-05,
      "loss": 0.2413943290710449,
      "memory(GiB)": 70.5,
      "step": 49830,
      "token_acc": 0.94140625,
      "train_speed(iter/s)": 1.450643
    },
    {
      "epoch": 2.135084186624395,
      "grad_norm": 0.1659930944442749,
      "learning_rate": 6.136398521312829e-05,
      "loss": 0.2517061710357666,
      "memory(GiB)": 70.5,
      "step": 49835,
      "token_acc": 0.9456869009584664,
      "train_speed(iter/s)": 1.450649
    },
    {
      "epoch": 2.135298401953644,
      "grad_norm": 2.132169485092163,
      "learning_rate": 6.135743145855088e-05,
      "loss": 0.2360771417617798,
      "memory(GiB)": 70.5,
      "step": 49840,
      "token_acc": 0.9528985507246377,
      "train_speed(iter/s)": 1.450649
    },
    {
      "epoch": 2.1355126172828927,
      "grad_norm": 8.427508354187012,
      "learning_rate": 6.135087749822296e-05,
      "loss": 0.3232978343963623,
      "memory(GiB)": 70.5,
      "step": 49845,
      "token_acc": 0.934984520123839,
      "train_speed(iter/s)": 1.450648
    },
    {
      "epoch": 2.135726832612142,
      "grad_norm": 4.757858753204346,
      "learning_rate": 6.134432333226324e-05,
      "loss": 0.2235802173614502,
      "memory(GiB)": 70.5,
      "step": 49850,
      "token_acc": 0.958904109589041,
      "train_speed(iter/s)": 1.450651
    },
    {
      "epoch": 2.1359410479413907,
      "grad_norm": 1.272644281387329,
      "learning_rate": 6.133776896079045e-05,
      "loss": 0.4459801197052002,
      "memory(GiB)": 70.5,
      "step": 49855,
      "token_acc": 0.8819444444444444,
      "train_speed(iter/s)": 1.450646
    },
    {
      "epoch": 2.1361552632706395,
      "grad_norm": 3.683065414428711,
      "learning_rate": 6.133121438392336e-05,
      "loss": 0.2855182647705078,
      "memory(GiB)": 70.5,
      "step": 49860,
      "token_acc": 0.9490909090909091,
      "train_speed(iter/s)": 1.45065
    },
    {
      "epoch": 2.136369478599889,
      "grad_norm": 2.3154795169830322,
      "learning_rate": 6.132465960178069e-05,
      "loss": 0.3163213014602661,
      "memory(GiB)": 70.5,
      "step": 49865,
      "token_acc": 0.9267515923566879,
      "train_speed(iter/s)": 1.45065
    },
    {
      "epoch": 2.1365836939291376,
      "grad_norm": 4.096757888793945,
      "learning_rate": 6.131810461448118e-05,
      "loss": 0.43628778457641604,
      "memory(GiB)": 70.5,
      "step": 49870,
      "token_acc": 0.9233870967741935,
      "train_speed(iter/s)": 1.450658
    },
    {
      "epoch": 2.1367979092583864,
      "grad_norm": 5.417862415313721,
      "learning_rate": 6.131154942214356e-05,
      "loss": 0.3959050178527832,
      "memory(GiB)": 70.5,
      "step": 49875,
      "token_acc": 0.9111969111969112,
      "train_speed(iter/s)": 1.450662
    },
    {
      "epoch": 2.1370121245876357,
      "grad_norm": 4.724027633666992,
      "learning_rate": 6.130499402488665e-05,
      "loss": 0.5276658058166503,
      "memory(GiB)": 70.5,
      "step": 49880,
      "token_acc": 0.8896551724137931,
      "train_speed(iter/s)": 1.450669
    },
    {
      "epoch": 2.1372263399168845,
      "grad_norm": 2.1320345401763916,
      "learning_rate": 6.129843842282915e-05,
      "loss": 0.15985093116760254,
      "memory(GiB)": 70.5,
      "step": 49885,
      "token_acc": 0.9804878048780488,
      "train_speed(iter/s)": 1.450673
    },
    {
      "epoch": 2.1374405552461333,
      "grad_norm": 2.6555964946746826,
      "learning_rate": 6.129188261608985e-05,
      "loss": 0.456959867477417,
      "memory(GiB)": 70.5,
      "step": 49890,
      "token_acc": 0.9081272084805654,
      "train_speed(iter/s)": 1.450676
    },
    {
      "epoch": 2.1376547705753826,
      "grad_norm": 6.316608428955078,
      "learning_rate": 6.12853266047875e-05,
      "loss": 0.624326753616333,
      "memory(GiB)": 70.5,
      "step": 49895,
      "token_acc": 0.8746081504702194,
      "train_speed(iter/s)": 1.450686
    },
    {
      "epoch": 2.1378689859046314,
      "grad_norm": 3.6266541481018066,
      "learning_rate": 6.127877038904087e-05,
      "loss": 0.564473819732666,
      "memory(GiB)": 70.5,
      "step": 49900,
      "token_acc": 0.8721311475409836,
      "train_speed(iter/s)": 1.450679
    },
    {
      "epoch": 2.13808320123388,
      "grad_norm": 5.089602947235107,
      "learning_rate": 6.127221396896876e-05,
      "loss": 0.30765795707702637,
      "memory(GiB)": 70.5,
      "step": 49905,
      "token_acc": 0.9366666666666666,
      "train_speed(iter/s)": 1.450668
    },
    {
      "epoch": 2.1382974165631294,
      "grad_norm": 4.840006351470947,
      "learning_rate": 6.126565734468987e-05,
      "loss": 0.6921665668487549,
      "memory(GiB)": 70.5,
      "step": 49910,
      "token_acc": 0.8591065292096219,
      "train_speed(iter/s)": 1.450669
    },
    {
      "epoch": 2.1385116318923783,
      "grad_norm": 2.265814781188965,
      "learning_rate": 6.125910051632305e-05,
      "loss": 0.4193385124206543,
      "memory(GiB)": 70.5,
      "step": 49915,
      "token_acc": 0.9076923076923077,
      "train_speed(iter/s)": 1.450674
    },
    {
      "epoch": 2.138725847221627,
      "grad_norm": 2.9113152027130127,
      "learning_rate": 6.125254348398708e-05,
      "loss": 0.3833383798599243,
      "memory(GiB)": 70.5,
      "step": 49920,
      "token_acc": 0.9095744680851063,
      "train_speed(iter/s)": 1.450671
    },
    {
      "epoch": 2.1389400625508763,
      "grad_norm": 2.6722753047943115,
      "learning_rate": 6.124598624780071e-05,
      "loss": 0.25833561420440676,
      "memory(GiB)": 70.5,
      "step": 49925,
      "token_acc": 0.9448529411764706,
      "train_speed(iter/s)": 1.45067
    },
    {
      "epoch": 2.139154277880125,
      "grad_norm": 3.146204948425293,
      "learning_rate": 6.123942880788276e-05,
      "loss": 0.296728515625,
      "memory(GiB)": 70.5,
      "step": 49930,
      "token_acc": 0.9356060606060606,
      "train_speed(iter/s)": 1.450679
    },
    {
      "epoch": 2.139368493209374,
      "grad_norm": 3.2731542587280273,
      "learning_rate": 6.123287116435201e-05,
      "loss": 0.43311634063720705,
      "memory(GiB)": 70.5,
      "step": 49935,
      "token_acc": 0.9087591240875912,
      "train_speed(iter/s)": 1.45069
    },
    {
      "epoch": 2.139582708538623,
      "grad_norm": 3.5629069805145264,
      "learning_rate": 6.122631331732726e-05,
      "loss": 0.3536886692047119,
      "memory(GiB)": 70.5,
      "step": 49940,
      "token_acc": 0.9166666666666666,
      "train_speed(iter/s)": 1.450707
    },
    {
      "epoch": 2.139796923867872,
      "grad_norm": 2.4860095977783203,
      "learning_rate": 6.121975526692731e-05,
      "loss": 0.48342461585998536,
      "memory(GiB)": 70.5,
      "step": 49945,
      "token_acc": 0.9096573208722741,
      "train_speed(iter/s)": 1.450705
    },
    {
      "epoch": 2.140011139197121,
      "grad_norm": 4.695987224578857,
      "learning_rate": 6.121319701327097e-05,
      "loss": 0.4782230377197266,
      "memory(GiB)": 70.5,
      "step": 49950,
      "token_acc": 0.8936170212765957,
      "train_speed(iter/s)": 1.450715
    },
    {
      "epoch": 2.14022535452637,
      "grad_norm": 4.5059638023376465,
      "learning_rate": 6.120663855647706e-05,
      "loss": 0.28949048519134524,
      "memory(GiB)": 70.5,
      "step": 49955,
      "token_acc": 0.9285714285714286,
      "train_speed(iter/s)": 1.450716
    },
    {
      "epoch": 2.140439569855619,
      "grad_norm": 1.1755454540252686,
      "learning_rate": 6.120007989666437e-05,
      "loss": 0.29462504386901855,
      "memory(GiB)": 70.5,
      "step": 49960,
      "token_acc": 0.9335664335664335,
      "train_speed(iter/s)": 1.450727
    },
    {
      "epoch": 2.1406537851848677,
      "grad_norm": 3.8625333309173584,
      "learning_rate": 6.119352103395172e-05,
      "loss": 0.40517454147338866,
      "memory(GiB)": 70.5,
      "step": 49965,
      "token_acc": 0.918918918918919,
      "train_speed(iter/s)": 1.450722
    },
    {
      "epoch": 2.140868000514117,
      "grad_norm": 2.570239782333374,
      "learning_rate": 6.118696196845793e-05,
      "loss": 0.37235336303710936,
      "memory(GiB)": 70.5,
      "step": 49970,
      "token_acc": 0.9096989966555183,
      "train_speed(iter/s)": 1.450718
    },
    {
      "epoch": 2.1410822158433658,
      "grad_norm": 4.393589973449707,
      "learning_rate": 6.118040270030185e-05,
      "loss": 0.5374437808990479,
      "memory(GiB)": 70.5,
      "step": 49975,
      "token_acc": 0.8916666666666667,
      "train_speed(iter/s)": 1.45074
    },
    {
      "epoch": 2.1412964311726146,
      "grad_norm": 2.950833797454834,
      "learning_rate": 6.117384322960228e-05,
      "loss": 0.36583311557769777,
      "memory(GiB)": 70.5,
      "step": 49980,
      "token_acc": 0.9209621993127147,
      "train_speed(iter/s)": 1.450739
    },
    {
      "epoch": 2.141510646501864,
      "grad_norm": 1.6629612445831299,
      "learning_rate": 6.116728355647805e-05,
      "loss": 0.17534021139144898,
      "memory(GiB)": 70.5,
      "step": 49985,
      "token_acc": 0.9562289562289562,
      "train_speed(iter/s)": 1.450744
    },
    {
      "epoch": 2.1417248618311127,
      "grad_norm": 1.0725805759429932,
      "learning_rate": 6.1160723681048e-05,
      "loss": 0.6880894660949707,
      "memory(GiB)": 70.5,
      "step": 49990,
      "token_acc": 0.875,
      "train_speed(iter/s)": 1.450749
    },
    {
      "epoch": 2.1419390771603615,
      "grad_norm": 4.480474472045898,
      "learning_rate": 6.115416360343099e-05,
      "loss": 0.3329556941986084,
      "memory(GiB)": 70.5,
      "step": 49995,
      "token_acc": 0.931899641577061,
      "train_speed(iter/s)": 1.450757
    },
    {
      "epoch": 2.1421532924896107,
      "grad_norm": 2.101500988006592,
      "learning_rate": 6.114760332374582e-05,
      "loss": 0.26920945644378663,
      "memory(GiB)": 70.5,
      "step": 50000,
      "token_acc": 0.9467680608365019,
      "train_speed(iter/s)": 1.450756
    },
    {
      "epoch": 2.1421532924896107,
      "eval_loss": 2.3717589378356934,
      "eval_runtime": 13.7066,
      "eval_samples_per_second": 7.296,
      "eval_steps_per_second": 7.296,
      "eval_token_acc": 0.4648876404494382,
      "step": 50000
    },
    {
      "epoch": 2.1423675078188595,
      "grad_norm": 2.5574636459350586,
      "learning_rate": 6.114104284211139e-05,
      "loss": 0.2740926265716553,
      "memory(GiB)": 70.5,
      "step": 50005,
      "token_acc": 0.6145733461169702,
      "train_speed(iter/s)": 1.450146
    },
    {
      "epoch": 2.1425817231481084,
      "grad_norm": 7.230663776397705,
      "learning_rate": 6.11344821586465e-05,
      "loss": 0.45656557083129884,
      "memory(GiB)": 70.5,
      "step": 50010,
      "token_acc": 0.9145907473309609,
      "train_speed(iter/s)": 1.450147
    },
    {
      "epoch": 2.1427959384773576,
      "grad_norm": 7.3729634284973145,
      "learning_rate": 6.112792127347001e-05,
      "loss": 0.5310036182403565,
      "memory(GiB)": 70.5,
      "step": 50015,
      "token_acc": 0.8897338403041825,
      "train_speed(iter/s)": 1.450156
    },
    {
      "epoch": 2.1430101538066064,
      "grad_norm": 2.9889378547668457,
      "learning_rate": 6.112136018670079e-05,
      "loss": 0.2736427068710327,
      "memory(GiB)": 70.5,
      "step": 50020,
      "token_acc": 0.9363636363636364,
      "train_speed(iter/s)": 1.45015
    },
    {
      "epoch": 2.1432243691358552,
      "grad_norm": 8.200289726257324,
      "learning_rate": 6.111479889845772e-05,
      "loss": 0.6138160705566407,
      "memory(GiB)": 70.5,
      "step": 50025,
      "token_acc": 0.8582995951417004,
      "train_speed(iter/s)": 1.450156
    },
    {
      "epoch": 2.1434385844651045,
      "grad_norm": 2.813225746154785,
      "learning_rate": 6.110823740885962e-05,
      "loss": 0.36423320770263673,
      "memory(GiB)": 70.5,
      "step": 50030,
      "token_acc": 0.9216417910447762,
      "train_speed(iter/s)": 1.450156
    },
    {
      "epoch": 2.1436527997943533,
      "grad_norm": 1.3578354120254517,
      "learning_rate": 6.110167571802538e-05,
      "loss": 0.2281052827835083,
      "memory(GiB)": 70.5,
      "step": 50035,
      "token_acc": 0.9413333333333334,
      "train_speed(iter/s)": 1.450168
    },
    {
      "epoch": 2.143867015123602,
      "grad_norm": 0.8087402582168579,
      "learning_rate": 6.109511382607388e-05,
      "loss": 0.2443930149078369,
      "memory(GiB)": 70.5,
      "step": 50040,
      "token_acc": 0.9482071713147411,
      "train_speed(iter/s)": 1.450172
    },
    {
      "epoch": 2.1440812304528514,
      "grad_norm": 5.215057373046875,
      "learning_rate": 6.108855173312397e-05,
      "loss": 0.34290294647216796,
      "memory(GiB)": 70.5,
      "step": 50045,
      "token_acc": 0.9276595744680851,
      "train_speed(iter/s)": 1.45019
    },
    {
      "epoch": 2.1442954457821,
      "grad_norm": 5.006034851074219,
      "learning_rate": 6.108198943929457e-05,
      "loss": 0.45378837585449217,
      "memory(GiB)": 70.5,
      "step": 50050,
      "token_acc": 0.922360248447205,
      "train_speed(iter/s)": 1.450191
    },
    {
      "epoch": 2.144509661111349,
      "grad_norm": 3.1352295875549316,
      "learning_rate": 6.107542694470452e-05,
      "loss": 0.19923439025878906,
      "memory(GiB)": 70.5,
      "step": 50055,
      "token_acc": 0.9568627450980393,
      "train_speed(iter/s)": 1.450198
    },
    {
      "epoch": 2.1447238764405983,
      "grad_norm": 2.1636769771575928,
      "learning_rate": 6.10688642494727e-05,
      "loss": 0.19793252944946288,
      "memory(GiB)": 70.5,
      "step": 50060,
      "token_acc": 0.9514925373134329,
      "train_speed(iter/s)": 1.450214
    },
    {
      "epoch": 2.144938091769847,
      "grad_norm": 1.344519853591919,
      "learning_rate": 6.106230135371804e-05,
      "loss": 0.3176865816116333,
      "memory(GiB)": 70.5,
      "step": 50065,
      "token_acc": 0.9309090909090909,
      "train_speed(iter/s)": 1.450209
    },
    {
      "epoch": 2.145152307099096,
      "grad_norm": 11.115313529968262,
      "learning_rate": 6.105573825755942e-05,
      "loss": 0.5455578804016114,
      "memory(GiB)": 70.5,
      "step": 50070,
      "token_acc": 0.890282131661442,
      "train_speed(iter/s)": 1.450201
    },
    {
      "epoch": 2.145366522428345,
      "grad_norm": 2.1019678115844727,
      "learning_rate": 6.104917496111574e-05,
      "loss": 0.2782400608062744,
      "memory(GiB)": 70.5,
      "step": 50075,
      "token_acc": 0.932258064516129,
      "train_speed(iter/s)": 1.450215
    },
    {
      "epoch": 2.145580737757594,
      "grad_norm": 2.2925798892974854,
      "learning_rate": 6.104261146450588e-05,
      "loss": 0.2624505519866943,
      "memory(GiB)": 70.5,
      "step": 50080,
      "token_acc": 0.9391634980988594,
      "train_speed(iter/s)": 1.450218
    },
    {
      "epoch": 2.1457949530868428,
      "grad_norm": 2.5921385288238525,
      "learning_rate": 6.103604776784872e-05,
      "loss": 0.3656193733215332,
      "memory(GiB)": 70.5,
      "step": 50085,
      "token_acc": 0.9357142857142857,
      "train_speed(iter/s)": 1.450217
    },
    {
      "epoch": 2.146009168416092,
      "grad_norm": 2.3794260025024414,
      "learning_rate": 6.102948387126325e-05,
      "loss": 0.3263404846191406,
      "memory(GiB)": 70.5,
      "step": 50090,
      "token_acc": 0.9245901639344263,
      "train_speed(iter/s)": 1.45021
    },
    {
      "epoch": 2.146223383745341,
      "grad_norm": 2.627988576889038,
      "learning_rate": 6.10229197748683e-05,
      "loss": 0.345902419090271,
      "memory(GiB)": 70.5,
      "step": 50095,
      "token_acc": 0.9105058365758755,
      "train_speed(iter/s)": 1.450215
    },
    {
      "epoch": 2.1464375990745896,
      "grad_norm": 1.015257477760315,
      "learning_rate": 6.101635547878285e-05,
      "loss": 0.24346086978912354,
      "memory(GiB)": 70.5,
      "step": 50100,
      "token_acc": 0.956386292834891,
      "train_speed(iter/s)": 1.450215
    },
    {
      "epoch": 2.146651814403839,
      "grad_norm": 1.776109218597412,
      "learning_rate": 6.100979098312576e-05,
      "loss": 0.26396956443786623,
      "memory(GiB)": 70.5,
      "step": 50105,
      "token_acc": 0.9476584022038568,
      "train_speed(iter/s)": 1.450223
    },
    {
      "epoch": 2.1468660297330877,
      "grad_norm": 4.139390468597412,
      "learning_rate": 6.100322628801599e-05,
      "loss": 0.37558326721191404,
      "memory(GiB)": 70.5,
      "step": 50110,
      "token_acc": 0.9195804195804196,
      "train_speed(iter/s)": 1.45022
    },
    {
      "epoch": 2.1470802450623365,
      "grad_norm": 2.3416898250579834,
      "learning_rate": 6.0996661393572454e-05,
      "loss": 0.35666346549987793,
      "memory(GiB)": 70.5,
      "step": 50115,
      "token_acc": 0.9292929292929293,
      "train_speed(iter/s)": 1.450225
    },
    {
      "epoch": 2.147294460391586,
      "grad_norm": 1.1910723447799683,
      "learning_rate": 6.099009629991408e-05,
      "loss": 0.14797109365463257,
      "memory(GiB)": 70.5,
      "step": 50120,
      "token_acc": 0.9550561797752809,
      "train_speed(iter/s)": 1.450228
    },
    {
      "epoch": 2.1475086757208346,
      "grad_norm": 5.049123764038086,
      "learning_rate": 6.098353100715981e-05,
      "loss": 0.6330349445343018,
      "memory(GiB)": 70.5,
      "step": 50125,
      "token_acc": 0.8598901098901099,
      "train_speed(iter/s)": 1.450245
    },
    {
      "epoch": 2.1477228910500834,
      "grad_norm": 1.7075624465942383,
      "learning_rate": 6.0976965515428554e-05,
      "loss": 0.4505485534667969,
      "memory(GiB)": 70.5,
      "step": 50130,
      "token_acc": 0.9053497942386831,
      "train_speed(iter/s)": 1.450261
    },
    {
      "epoch": 2.1479371063793327,
      "grad_norm": 7.914571285247803,
      "learning_rate": 6.097039982483927e-05,
      "loss": 0.2504589080810547,
      "memory(GiB)": 70.5,
      "step": 50135,
      "token_acc": 0.9428571428571428,
      "train_speed(iter/s)": 1.450264
    },
    {
      "epoch": 2.1481513217085815,
      "grad_norm": 1.3338418006896973,
      "learning_rate": 6.0963833935510916e-05,
      "loss": 0.36746559143066404,
      "memory(GiB)": 70.5,
      "step": 50140,
      "token_acc": 0.9331210191082803,
      "train_speed(iter/s)": 1.450274
    },
    {
      "epoch": 2.1483655370378303,
      "grad_norm": 3.403475046157837,
      "learning_rate": 6.0957267847562414e-05,
      "loss": 0.25697941780090333,
      "memory(GiB)": 70.5,
      "step": 50145,
      "token_acc": 0.940809968847352,
      "train_speed(iter/s)": 1.450278
    },
    {
      "epoch": 2.1485797523670795,
      "grad_norm": 0.4617578983306885,
      "learning_rate": 6.095070156111274e-05,
      "loss": 0.347818660736084,
      "memory(GiB)": 70.5,
      "step": 50150,
      "token_acc": 0.901685393258427,
      "train_speed(iter/s)": 1.450279
    },
    {
      "epoch": 2.1487939676963284,
      "grad_norm": 3.2261416912078857,
      "learning_rate": 6.094413507628084e-05,
      "loss": 0.46534123420715334,
      "memory(GiB)": 70.5,
      "step": 50155,
      "token_acc": 0.8986486486486487,
      "train_speed(iter/s)": 1.450271
    },
    {
      "epoch": 2.149008183025577,
      "grad_norm": 2.675490140914917,
      "learning_rate": 6.093756839318565e-05,
      "loss": 0.2719964265823364,
      "memory(GiB)": 70.5,
      "step": 50160,
      "token_acc": 0.9571428571428572,
      "train_speed(iter/s)": 1.450295
    },
    {
      "epoch": 2.1492223983548264,
      "grad_norm": 3.8755810260772705,
      "learning_rate": 6.093100151194615e-05,
      "loss": 0.268280029296875,
      "memory(GiB)": 70.5,
      "step": 50165,
      "token_acc": 0.9429657794676806,
      "train_speed(iter/s)": 1.450295
    },
    {
      "epoch": 2.1494366136840752,
      "grad_norm": 4.4576334953308105,
      "learning_rate": 6.09244344326813e-05,
      "loss": 0.3412520408630371,
      "memory(GiB)": 70.5,
      "step": 50170,
      "token_acc": 0.9224806201550387,
      "train_speed(iter/s)": 1.4503
    },
    {
      "epoch": 2.149650829013324,
      "grad_norm": 3.696401596069336,
      "learning_rate": 6.091786715551008e-05,
      "loss": 0.630208683013916,
      "memory(GiB)": 70.5,
      "step": 50175,
      "token_acc": 0.8541666666666666,
      "train_speed(iter/s)": 1.450289
    },
    {
      "epoch": 2.1498650443425733,
      "grad_norm": 4.5849504470825195,
      "learning_rate": 6.091129968055146e-05,
      "loss": 0.35932435989379885,
      "memory(GiB)": 70.5,
      "step": 50180,
      "token_acc": 0.9201388888888888,
      "train_speed(iter/s)": 1.450283
    },
    {
      "epoch": 2.150079259671822,
      "grad_norm": 2.096135377883911,
      "learning_rate": 6.09047320079244e-05,
      "loss": 0.43087615966796877,
      "memory(GiB)": 70.5,
      "step": 50185,
      "token_acc": 0.9051094890510949,
      "train_speed(iter/s)": 1.450278
    },
    {
      "epoch": 2.150293475001071,
      "grad_norm": 3.0071117877960205,
      "learning_rate": 6.0898164137747893e-05,
      "loss": 0.4678149700164795,
      "memory(GiB)": 70.5,
      "step": 50190,
      "token_acc": 0.8861209964412812,
      "train_speed(iter/s)": 1.450276
    },
    {
      "epoch": 2.15050769033032,
      "grad_norm": 7.0533270835876465,
      "learning_rate": 6.089159607014092e-05,
      "loss": 0.42994346618652346,
      "memory(GiB)": 70.5,
      "step": 50195,
      "token_acc": 0.9087837837837838,
      "train_speed(iter/s)": 1.45026
    },
    {
      "epoch": 2.150721905659569,
      "grad_norm": 3.9689533710479736,
      "learning_rate": 6.0885027805222484e-05,
      "loss": 0.19094167947769164,
      "memory(GiB)": 70.5,
      "step": 50200,
      "token_acc": 0.9611307420494699,
      "train_speed(iter/s)": 1.45026
    },
    {
      "epoch": 2.150936120988818,
      "grad_norm": 4.158168792724609,
      "learning_rate": 6.0878459343111517e-05,
      "loss": 0.3780506134033203,
      "memory(GiB)": 70.5,
      "step": 50205,
      "token_acc": 0.9121621621621622,
      "train_speed(iter/s)": 1.450268
    },
    {
      "epoch": 2.151150336318067,
      "grad_norm": 2.5306191444396973,
      "learning_rate": 6.087189068392709e-05,
      "loss": 0.3125194311141968,
      "memory(GiB)": 70.5,
      "step": 50210,
      "token_acc": 0.9101123595505618,
      "train_speed(iter/s)": 1.45027
    },
    {
      "epoch": 2.151364551647316,
      "grad_norm": 5.0024094581604,
      "learning_rate": 6.0865321827788154e-05,
      "loss": 0.5212277412414551,
      "memory(GiB)": 70.5,
      "step": 50215,
      "token_acc": 0.8966789667896679,
      "train_speed(iter/s)": 1.450264
    },
    {
      "epoch": 2.1515787669765647,
      "grad_norm": 5.486734390258789,
      "learning_rate": 6.085875277481372e-05,
      "loss": 0.5100666046142578,
      "memory(GiB)": 70.5,
      "step": 50220,
      "token_acc": 0.9069767441860465,
      "train_speed(iter/s)": 1.450268
    },
    {
      "epoch": 2.151792982305814,
      "grad_norm": 4.444644451141357,
      "learning_rate": 6.08521835251228e-05,
      "loss": 0.48678112030029297,
      "memory(GiB)": 70.5,
      "step": 50225,
      "token_acc": 0.8954248366013072,
      "train_speed(iter/s)": 1.450264
    },
    {
      "epoch": 2.1520071976350628,
      "grad_norm": 1.1633846759796143,
      "learning_rate": 6.084561407883438e-05,
      "loss": 0.10787702798843384,
      "memory(GiB)": 70.5,
      "step": 50230,
      "token_acc": 0.9705882352941176,
      "train_speed(iter/s)": 1.45026
    },
    {
      "epoch": 2.1522214129643116,
      "grad_norm": 2.1764180660247803,
      "learning_rate": 6.083904443606751e-05,
      "loss": 0.06146761178970337,
      "memory(GiB)": 70.5,
      "step": 50235,
      "token_acc": 0.9882352941176471,
      "train_speed(iter/s)": 1.450265
    },
    {
      "epoch": 2.152435628293561,
      "grad_norm": 4.698911666870117,
      "learning_rate": 6.083247459694117e-05,
      "loss": 0.4610863208770752,
      "memory(GiB)": 70.5,
      "step": 50240,
      "token_acc": 0.8986928104575164,
      "train_speed(iter/s)": 1.450279
    },
    {
      "epoch": 2.1526498436228096,
      "grad_norm": 5.063790798187256,
      "learning_rate": 6.0825904561574374e-05,
      "loss": 0.29933457374572753,
      "memory(GiB)": 70.5,
      "step": 50245,
      "token_acc": 0.940983606557377,
      "train_speed(iter/s)": 1.450281
    },
    {
      "epoch": 2.1528640589520585,
      "grad_norm": 2.9078400135040283,
      "learning_rate": 6.081933433008617e-05,
      "loss": 0.23710918426513672,
      "memory(GiB)": 70.5,
      "step": 50250,
      "token_acc": 0.9563758389261745,
      "train_speed(iter/s)": 1.450285
    },
    {
      "epoch": 2.1530782742813077,
      "grad_norm": 1.5007801055908203,
      "learning_rate": 6.081276390259559e-05,
      "loss": 0.3692553281784058,
      "memory(GiB)": 70.5,
      "step": 50255,
      "token_acc": 0.9328621908127208,
      "train_speed(iter/s)": 1.450287
    },
    {
      "epoch": 2.1532924896105565,
      "grad_norm": 2.1289985179901123,
      "learning_rate": 6.0806193279221634e-05,
      "loss": 0.3482968330383301,
      "memory(GiB)": 70.5,
      "step": 50260,
      "token_acc": 0.9272727272727272,
      "train_speed(iter/s)": 1.450289
    },
    {
      "epoch": 2.1535067049398053,
      "grad_norm": 4.648497581481934,
      "learning_rate": 6.079962246008336e-05,
      "loss": 0.34279890060424806,
      "memory(GiB)": 70.5,
      "step": 50265,
      "token_acc": 0.926923076923077,
      "train_speed(iter/s)": 1.450287
    },
    {
      "epoch": 2.1537209202690546,
      "grad_norm": 4.447849273681641,
      "learning_rate": 6.07930514452998e-05,
      "loss": 0.27801928520202634,
      "memory(GiB)": 70.5,
      "step": 50270,
      "token_acc": 0.9421487603305785,
      "train_speed(iter/s)": 1.450294
    },
    {
      "epoch": 2.1539351355983034,
      "grad_norm": 5.763927459716797,
      "learning_rate": 6.0786480234989976e-05,
      "loss": 0.6751011371612549,
      "memory(GiB)": 70.5,
      "step": 50275,
      "token_acc": 0.8870292887029289,
      "train_speed(iter/s)": 1.45029
    },
    {
      "epoch": 2.154149350927552,
      "grad_norm": 2.758915424346924,
      "learning_rate": 6.0779908829272936e-05,
      "loss": 0.3597527265548706,
      "memory(GiB)": 70.5,
      "step": 50280,
      "token_acc": 0.9393939393939394,
      "train_speed(iter/s)": 1.450289
    },
    {
      "epoch": 2.1543635662568015,
      "grad_norm": 3.9133641719818115,
      "learning_rate": 6.077333722826775e-05,
      "loss": 0.2569149971008301,
      "memory(GiB)": 70.5,
      "step": 50285,
      "token_acc": 0.9388646288209607,
      "train_speed(iter/s)": 1.450288
    },
    {
      "epoch": 2.1545777815860503,
      "grad_norm": 3.071854829788208,
      "learning_rate": 6.076676543209344e-05,
      "loss": 0.285294771194458,
      "memory(GiB)": 70.5,
      "step": 50290,
      "token_acc": 0.948170731707317,
      "train_speed(iter/s)": 1.450315
    },
    {
      "epoch": 2.154791996915299,
      "grad_norm": 6.542153358459473,
      "learning_rate": 6.07601934408691e-05,
      "loss": 0.5218152046203614,
      "memory(GiB)": 70.5,
      "step": 50295,
      "token_acc": 0.903448275862069,
      "train_speed(iter/s)": 1.450311
    },
    {
      "epoch": 2.1550062122445484,
      "grad_norm": 9.179766654968262,
      "learning_rate": 6.075362125471374e-05,
      "loss": 0.3385780334472656,
      "memory(GiB)": 70.5,
      "step": 50300,
      "token_acc": 0.9446640316205533,
      "train_speed(iter/s)": 1.450335
    },
    {
      "epoch": 2.155220427573797,
      "grad_norm": 2.9221243858337402,
      "learning_rate": 6.0747048873746446e-05,
      "loss": 0.31282360553741456,
      "memory(GiB)": 70.5,
      "step": 50305,
      "token_acc": 0.9377289377289377,
      "train_speed(iter/s)": 1.45034
    },
    {
      "epoch": 2.155434642903046,
      "grad_norm": 5.462530136108398,
      "learning_rate": 6.074047629808629e-05,
      "loss": 0.5600555419921875,
      "memory(GiB)": 70.5,
      "step": 50310,
      "token_acc": 0.9060402684563759,
      "train_speed(iter/s)": 1.450341
    },
    {
      "epoch": 2.1556488582322952,
      "grad_norm": 1.5522381067276,
      "learning_rate": 6.073390352785232e-05,
      "loss": 0.6052928924560547,
      "memory(GiB)": 70.5,
      "step": 50315,
      "token_acc": 0.8528528528528528,
      "train_speed(iter/s)": 1.450357
    },
    {
      "epoch": 2.155863073561544,
      "grad_norm": 2.8583483695983887,
      "learning_rate": 6.0727330563163624e-05,
      "loss": 0.5615878105163574,
      "memory(GiB)": 70.5,
      "step": 50320,
      "token_acc": 0.9078014184397163,
      "train_speed(iter/s)": 1.450359
    },
    {
      "epoch": 2.156077288890793,
      "grad_norm": 5.391454219818115,
      "learning_rate": 6.072075740413926e-05,
      "loss": 0.5705677509307862,
      "memory(GiB)": 70.5,
      "step": 50325,
      "token_acc": 0.8851963746223565,
      "train_speed(iter/s)": 1.450356
    },
    {
      "epoch": 2.156291504220042,
      "grad_norm": 2.405059576034546,
      "learning_rate": 6.071418405089834e-05,
      "loss": 0.38620116710662844,
      "memory(GiB)": 70.5,
      "step": 50330,
      "token_acc": 0.8922558922558923,
      "train_speed(iter/s)": 1.45037
    },
    {
      "epoch": 2.156505719549291,
      "grad_norm": 1.9872689247131348,
      "learning_rate": 6.070761050355991e-05,
      "loss": 0.38354015350341797,
      "memory(GiB)": 70.5,
      "step": 50335,
      "token_acc": 0.9274193548387096,
      "train_speed(iter/s)": 1.45037
    },
    {
      "epoch": 2.1567199348785397,
      "grad_norm": 3.0163612365722656,
      "learning_rate": 6.070103676224308e-05,
      "loss": 0.4165000915527344,
      "memory(GiB)": 70.5,
      "step": 50340,
      "token_acc": 0.9026217228464419,
      "train_speed(iter/s)": 1.450359
    },
    {
      "epoch": 2.156934150207789,
      "grad_norm": 6.0543389320373535,
      "learning_rate": 6.069446282706692e-05,
      "loss": 0.2592761993408203,
      "memory(GiB)": 70.5,
      "step": 50345,
      "token_acc": 0.9486301369863014,
      "train_speed(iter/s)": 1.450358
    },
    {
      "epoch": 2.157148365537038,
      "grad_norm": 2.4032280445098877,
      "learning_rate": 6.068788869815054e-05,
      "loss": 0.27058985233306887,
      "memory(GiB)": 70.5,
      "step": 50350,
      "token_acc": 0.9448818897637795,
      "train_speed(iter/s)": 1.450369
    },
    {
      "epoch": 2.1573625808662866,
      "grad_norm": 1.7153714895248413,
      "learning_rate": 6.068131437561303e-05,
      "loss": 0.23852040767669677,
      "memory(GiB)": 70.5,
      "step": 50355,
      "token_acc": 0.9516728624535316,
      "train_speed(iter/s)": 1.450369
    },
    {
      "epoch": 2.157576796195536,
      "grad_norm": 2.694429636001587,
      "learning_rate": 6.067473985957349e-05,
      "loss": 0.2512845516204834,
      "memory(GiB)": 70.5,
      "step": 50360,
      "token_acc": 0.9424920127795527,
      "train_speed(iter/s)": 1.45037
    },
    {
      "epoch": 2.1577910115247847,
      "grad_norm": 1.5465333461761475,
      "learning_rate": 6.066816515015101e-05,
      "loss": 0.2531964063644409,
      "memory(GiB)": 70.5,
      "step": 50365,
      "token_acc": 0.940983606557377,
      "train_speed(iter/s)": 1.450366
    },
    {
      "epoch": 2.1580052268540335,
      "grad_norm": 5.618694305419922,
      "learning_rate": 6.0661590247464736e-05,
      "loss": 0.37811832427978515,
      "memory(GiB)": 70.5,
      "step": 50370,
      "token_acc": 0.9230769230769231,
      "train_speed(iter/s)": 1.450367
    },
    {
      "epoch": 2.1582194421832828,
      "grad_norm": 2.5729730129241943,
      "learning_rate": 6.065501515163374e-05,
      "loss": 0.4047966957092285,
      "memory(GiB)": 70.5,
      "step": 50375,
      "token_acc": 0.9010695187165776,
      "train_speed(iter/s)": 1.450369
    },
    {
      "epoch": 2.1584336575125316,
      "grad_norm": 6.683036804199219,
      "learning_rate": 6.064843986277715e-05,
      "loss": 0.6440689563751221,
      "memory(GiB)": 70.5,
      "step": 50380,
      "token_acc": 0.9045801526717557,
      "train_speed(iter/s)": 1.450384
    },
    {
      "epoch": 2.1586478728417804,
      "grad_norm": 4.114692687988281,
      "learning_rate": 6.064186438101409e-05,
      "loss": 0.5234070301055909,
      "memory(GiB)": 70.5,
      "step": 50385,
      "token_acc": 0.8736462093862816,
      "train_speed(iter/s)": 1.450393
    },
    {
      "epoch": 2.1588620881710296,
      "grad_norm": 0.1409483551979065,
      "learning_rate": 6.063528870646367e-05,
      "loss": 0.41842103004455566,
      "memory(GiB)": 70.5,
      "step": 50390,
      "token_acc": 0.9157088122605364,
      "train_speed(iter/s)": 1.450395
    },
    {
      "epoch": 2.1590763035002785,
      "grad_norm": 2.3140628337860107,
      "learning_rate": 6.0628712839245005e-05,
      "loss": 0.26376821994781496,
      "memory(GiB)": 70.5,
      "step": 50395,
      "token_acc": 0.9436619718309859,
      "train_speed(iter/s)": 1.450399
    },
    {
      "epoch": 2.1592905188295273,
      "grad_norm": 3.5447325706481934,
      "learning_rate": 6.0622136779477254e-05,
      "loss": 0.3272446393966675,
      "memory(GiB)": 70.5,
      "step": 50400,
      "token_acc": 0.9226006191950464,
      "train_speed(iter/s)": 1.450403
    },
    {
      "epoch": 2.1595047341587765,
      "grad_norm": 3.569477081298828,
      "learning_rate": 6.0615560527279514e-05,
      "loss": 0.3573725938796997,
      "memory(GiB)": 70.5,
      "step": 50405,
      "token_acc": 0.928082191780822,
      "train_speed(iter/s)": 1.450423
    },
    {
      "epoch": 2.1597189494880253,
      "grad_norm": 1.5329039096832275,
      "learning_rate": 6.060898408277096e-05,
      "loss": 0.1684481382369995,
      "memory(GiB)": 70.5,
      "step": 50410,
      "token_acc": 0.9562289562289562,
      "train_speed(iter/s)": 1.450425
    },
    {
      "epoch": 2.159933164817274,
      "grad_norm": 4.514549255371094,
      "learning_rate": 6.06024074460707e-05,
      "loss": 0.3763023138046265,
      "memory(GiB)": 70.5,
      "step": 50415,
      "token_acc": 0.924901185770751,
      "train_speed(iter/s)": 1.450428
    },
    {
      "epoch": 2.1601473801465234,
      "grad_norm": 4.131153106689453,
      "learning_rate": 6.059583061729787e-05,
      "loss": 0.3034748792648315,
      "memory(GiB)": 70.5,
      "step": 50420,
      "token_acc": 0.9191919191919192,
      "train_speed(iter/s)": 1.450427
    },
    {
      "epoch": 2.1603615954757722,
      "grad_norm": 3.693256139755249,
      "learning_rate": 6.058925359657164e-05,
      "loss": 0.5924712181091308,
      "memory(GiB)": 70.5,
      "step": 50425,
      "token_acc": 0.8792569659442725,
      "train_speed(iter/s)": 1.450423
    },
    {
      "epoch": 2.160575810805021,
      "grad_norm": 3.022909164428711,
      "learning_rate": 6.058267638401114e-05,
      "loss": 0.20727732181549072,
      "memory(GiB)": 70.5,
      "step": 50430,
      "token_acc": 0.9545454545454546,
      "train_speed(iter/s)": 1.450437
    },
    {
      "epoch": 2.1607900261342703,
      "grad_norm": 4.513272285461426,
      "learning_rate": 6.057609897973552e-05,
      "loss": 0.5032817840576171,
      "memory(GiB)": 70.5,
      "step": 50435,
      "token_acc": 0.8720238095238095,
      "train_speed(iter/s)": 1.450456
    },
    {
      "epoch": 2.161004241463519,
      "grad_norm": 0.8097392320632935,
      "learning_rate": 6.056952138386397e-05,
      "loss": 0.33360862731933594,
      "memory(GiB)": 70.5,
      "step": 50440,
      "token_acc": 0.9240121580547113,
      "train_speed(iter/s)": 1.450464
    },
    {
      "epoch": 2.161218456792768,
      "grad_norm": 3.026848316192627,
      "learning_rate": 6.056294359651562e-05,
      "loss": 0.2413865566253662,
      "memory(GiB)": 70.5,
      "step": 50445,
      "token_acc": 0.953168044077135,
      "train_speed(iter/s)": 1.450461
    },
    {
      "epoch": 2.161432672122017,
      "grad_norm": 1.9898422956466675,
      "learning_rate": 6.0556365617809615e-05,
      "loss": 0.49372687339782717,
      "memory(GiB)": 70.5,
      "step": 50450,
      "token_acc": 0.9288025889967637,
      "train_speed(iter/s)": 1.45046
    },
    {
      "epoch": 2.161646887451266,
      "grad_norm": 2.8418028354644775,
      "learning_rate": 6.0549787447865166e-05,
      "loss": 0.36460859775543214,
      "memory(GiB)": 70.5,
      "step": 50455,
      "token_acc": 0.9277566539923955,
      "train_speed(iter/s)": 1.450462
    },
    {
      "epoch": 2.161861102780515,
      "grad_norm": 6.64315128326416,
      "learning_rate": 6.0543209086801434e-05,
      "loss": 0.6724228382110595,
      "memory(GiB)": 70.5,
      "step": 50460,
      "token_acc": 0.8876811594202898,
      "train_speed(iter/s)": 1.450463
    },
    {
      "epoch": 2.162075318109764,
      "grad_norm": 2.3482744693756104,
      "learning_rate": 6.053663053473754e-05,
      "loss": 0.4040745735168457,
      "memory(GiB)": 70.5,
      "step": 50465,
      "token_acc": 0.9099099099099099,
      "train_speed(iter/s)": 1.450467
    },
    {
      "epoch": 2.162289533439013,
      "grad_norm": 4.998032093048096,
      "learning_rate": 6.053005179179273e-05,
      "loss": 0.6280900955200195,
      "memory(GiB)": 70.5,
      "step": 50470,
      "token_acc": 0.8860294117647058,
      "train_speed(iter/s)": 1.450467
    },
    {
      "epoch": 2.1625037487682617,
      "grad_norm": 1.6790562868118286,
      "learning_rate": 6.052347285808615e-05,
      "loss": 0.43697094917297363,
      "memory(GiB)": 70.5,
      "step": 50475,
      "token_acc": 0.9155405405405406,
      "train_speed(iter/s)": 1.450474
    },
    {
      "epoch": 2.162717964097511,
      "grad_norm": 2.350163459777832,
      "learning_rate": 6.051689373373698e-05,
      "loss": 0.23639962673187256,
      "memory(GiB)": 70.5,
      "step": 50480,
      "token_acc": 0.9633699633699634,
      "train_speed(iter/s)": 1.45048
    },
    {
      "epoch": 2.1629321794267597,
      "grad_norm": 2.100372076034546,
      "learning_rate": 6.0510314418864413e-05,
      "loss": 0.15725407600402833,
      "memory(GiB)": 70.5,
      "step": 50485,
      "token_acc": 0.955719557195572,
      "train_speed(iter/s)": 1.450484
    },
    {
      "epoch": 2.1631463947560086,
      "grad_norm": 3.1015419960021973,
      "learning_rate": 6.050373491358764e-05,
      "loss": 0.31547520160675047,
      "memory(GiB)": 70.5,
      "step": 50490,
      "token_acc": 0.9288537549407114,
      "train_speed(iter/s)": 1.450501
    },
    {
      "epoch": 2.163360610085258,
      "grad_norm": 3.2656090259552,
      "learning_rate": 6.049715521802587e-05,
      "loss": 0.399636435508728,
      "memory(GiB)": 70.5,
      "step": 50495,
      "token_acc": 0.9222614840989399,
      "train_speed(iter/s)": 1.450495
    },
    {
      "epoch": 2.1635748254145066,
      "grad_norm": 8.556272506713867,
      "learning_rate": 6.0490575332298274e-05,
      "loss": 0.391419506072998,
      "memory(GiB)": 70.5,
      "step": 50500,
      "token_acc": 0.94375,
      "train_speed(iter/s)": 1.45051
    },
    {
      "epoch": 2.1635748254145066,
      "eval_loss": 2.5923960208892822,
      "eval_runtime": 13.495,
      "eval_samples_per_second": 7.41,
      "eval_steps_per_second": 7.41,
      "eval_token_acc": 0.4452054794520548,
      "step": 50500
    },
    {
      "epoch": 2.1637890407437554,
      "grad_norm": 12.670923233032227,
      "learning_rate": 6.048399525652406e-05,
      "loss": 0.34789199829101564,
      "memory(GiB)": 70.5,
      "step": 50505,
      "token_acc": 0.5797819623389494,
      "train_speed(iter/s)": 1.449923
    },
    {
      "epoch": 2.1640032560730047,
      "grad_norm": 5.175434112548828,
      "learning_rate": 6.0477414990822444e-05,
      "loss": 0.30921671390533445,
      "memory(GiB)": 70.5,
      "step": 50510,
      "token_acc": 0.9236111111111112,
      "train_speed(iter/s)": 1.449914
    },
    {
      "epoch": 2.1642174714022535,
      "grad_norm": 5.639260292053223,
      "learning_rate": 6.0470834535312636e-05,
      "loss": 0.564429759979248,
      "memory(GiB)": 70.5,
      "step": 50515,
      "token_acc": 0.8770764119601329,
      "train_speed(iter/s)": 1.449909
    },
    {
      "epoch": 2.1644316867315023,
      "grad_norm": 3.4619226455688477,
      "learning_rate": 6.046425389011382e-05,
      "loss": 0.28351678848266604,
      "memory(GiB)": 70.5,
      "step": 50520,
      "token_acc": 0.941908713692946,
      "train_speed(iter/s)": 1.449915
    },
    {
      "epoch": 2.1646459020607516,
      "grad_norm": 3.3895816802978516,
      "learning_rate": 6.045767305534524e-05,
      "loss": 0.3387812614440918,
      "memory(GiB)": 70.5,
      "step": 50525,
      "token_acc": 0.9437086092715232,
      "train_speed(iter/s)": 1.449918
    },
    {
      "epoch": 2.1648601173900004,
      "grad_norm": 1.755401849746704,
      "learning_rate": 6.045109203112611e-05,
      "loss": 0.3025153398513794,
      "memory(GiB)": 70.5,
      "step": 50530,
      "token_acc": 0.943217665615142,
      "train_speed(iter/s)": 1.44993
    },
    {
      "epoch": 2.165074332719249,
      "grad_norm": 1.273904800415039,
      "learning_rate": 6.044451081757563e-05,
      "loss": 0.4991893291473389,
      "memory(GiB)": 70.5,
      "step": 50535,
      "token_acc": 0.8857142857142857,
      "train_speed(iter/s)": 1.449948
    },
    {
      "epoch": 2.1652885480484985,
      "grad_norm": 3.3584203720092773,
      "learning_rate": 6.043792941481303e-05,
      "loss": 0.4423415184020996,
      "memory(GiB)": 70.5,
      "step": 50540,
      "token_acc": 0.8914728682170543,
      "train_speed(iter/s)": 1.44995
    },
    {
      "epoch": 2.1655027633777473,
      "grad_norm": 7.488539218902588,
      "learning_rate": 6.0431347822957574e-05,
      "loss": 0.5717312812805175,
      "memory(GiB)": 70.5,
      "step": 50545,
      "token_acc": 0.884,
      "train_speed(iter/s)": 1.44997
    },
    {
      "epoch": 2.165716978706996,
      "grad_norm": 3.210742712020874,
      "learning_rate": 6.042476604212844e-05,
      "loss": 0.2585152149200439,
      "memory(GiB)": 70.5,
      "step": 50550,
      "token_acc": 0.9261538461538461,
      "train_speed(iter/s)": 1.449967
    },
    {
      "epoch": 2.1659311940362453,
      "grad_norm": 3.596564769744873,
      "learning_rate": 6.041818407244492e-05,
      "loss": 0.48058762550354006,
      "memory(GiB)": 70.5,
      "step": 50555,
      "token_acc": 0.9025974025974026,
      "train_speed(iter/s)": 1.449983
    },
    {
      "epoch": 2.166145409365494,
      "grad_norm": 3.660250425338745,
      "learning_rate": 6.0411601914026205e-05,
      "loss": 0.3062582492828369,
      "memory(GiB)": 70.5,
      "step": 50560,
      "token_acc": 0.9163987138263665,
      "train_speed(iter/s)": 1.449986
    },
    {
      "epoch": 2.166359624694743,
      "grad_norm": 4.263165473937988,
      "learning_rate": 6.040501956699155e-05,
      "loss": 0.2811107873916626,
      "memory(GiB)": 70.5,
      "step": 50565,
      "token_acc": 0.9424460431654677,
      "train_speed(iter/s)": 1.449985
    },
    {
      "epoch": 2.1665738400239922,
      "grad_norm": 4.620199680328369,
      "learning_rate": 6.039843703146022e-05,
      "loss": 0.426584529876709,
      "memory(GiB)": 70.5,
      "step": 50570,
      "token_acc": 0.9162011173184358,
      "train_speed(iter/s)": 1.449988
    },
    {
      "epoch": 2.166788055353241,
      "grad_norm": 1.232830286026001,
      "learning_rate": 6.039185430755143e-05,
      "loss": 0.4644639015197754,
      "memory(GiB)": 70.5,
      "step": 50575,
      "token_acc": 0.8902439024390244,
      "train_speed(iter/s)": 1.450015
    },
    {
      "epoch": 2.16700227068249,
      "grad_norm": 3.5579488277435303,
      "learning_rate": 6.038527139538445e-05,
      "loss": 0.26367716789245604,
      "memory(GiB)": 70.5,
      "step": 50580,
      "token_acc": 0.9306930693069307,
      "train_speed(iter/s)": 1.450021
    },
    {
      "epoch": 2.167216486011739,
      "grad_norm": 0.9253590703010559,
      "learning_rate": 6.0378688295078556e-05,
      "loss": 0.3698856353759766,
      "memory(GiB)": 70.5,
      "step": 50585,
      "token_acc": 0.904,
      "train_speed(iter/s)": 1.45002
    },
    {
      "epoch": 2.167430701340988,
      "grad_norm": 4.819793701171875,
      "learning_rate": 6.037210500675298e-05,
      "loss": 0.3007026672363281,
      "memory(GiB)": 70.5,
      "step": 50590,
      "token_acc": 0.9318181818181818,
      "train_speed(iter/s)": 1.45003
    },
    {
      "epoch": 2.1676449166702367,
      "grad_norm": 3.6802706718444824,
      "learning_rate": 6.036552153052698e-05,
      "loss": 0.43890671730041503,
      "memory(GiB)": 70.5,
      "step": 50595,
      "token_acc": 0.9108910891089109,
      "train_speed(iter/s)": 1.450043
    },
    {
      "epoch": 2.167859131999486,
      "grad_norm": 3.3731322288513184,
      "learning_rate": 6.035893786651985e-05,
      "loss": 0.33712828159332275,
      "memory(GiB)": 70.5,
      "step": 50600,
      "token_acc": 0.9216417910447762,
      "train_speed(iter/s)": 1.450049
    },
    {
      "epoch": 2.168073347328735,
      "grad_norm": 2.9495229721069336,
      "learning_rate": 6.035235401485084e-05,
      "loss": 0.23694026470184326,
      "memory(GiB)": 70.5,
      "step": 50605,
      "token_acc": 0.9484978540772532,
      "train_speed(iter/s)": 1.450068
    },
    {
      "epoch": 2.1682875626579836,
      "grad_norm": 2.4004592895507812,
      "learning_rate": 6.034576997563921e-05,
      "loss": 0.5282141208648682,
      "memory(GiB)": 70.5,
      "step": 50610,
      "token_acc": 0.8708609271523179,
      "train_speed(iter/s)": 1.450066
    },
    {
      "epoch": 2.168501777987233,
      "grad_norm": 4.100773811340332,
      "learning_rate": 6.0339185749004265e-05,
      "loss": 0.3914056301116943,
      "memory(GiB)": 70.5,
      "step": 50615,
      "token_acc": 0.9270833333333334,
      "train_speed(iter/s)": 1.450086
    },
    {
      "epoch": 2.1687159933164817,
      "grad_norm": 2.4297852516174316,
      "learning_rate": 6.033260133506528e-05,
      "loss": 0.3595496654510498,
      "memory(GiB)": 70.5,
      "step": 50620,
      "token_acc": 0.919732441471572,
      "train_speed(iter/s)": 1.45009
    },
    {
      "epoch": 2.1689302086457305,
      "grad_norm": 1.092568278312683,
      "learning_rate": 6.03260167339415e-05,
      "loss": 0.3191986083984375,
      "memory(GiB)": 70.5,
      "step": 50625,
      "token_acc": 0.9288389513108615,
      "train_speed(iter/s)": 1.4501
    },
    {
      "epoch": 2.1691444239749798,
      "grad_norm": 0.6710596084594727,
      "learning_rate": 6.031943194575227e-05,
      "loss": 0.5258928775787354,
      "memory(GiB)": 70.5,
      "step": 50630,
      "token_acc": 0.90234375,
      "train_speed(iter/s)": 1.450107
    },
    {
      "epoch": 2.1693586393042286,
      "grad_norm": 2.9561519622802734,
      "learning_rate": 6.031284697061683e-05,
      "loss": 0.6219576835632324,
      "memory(GiB)": 70.5,
      "step": 50635,
      "token_acc": 0.8626865671641791,
      "train_speed(iter/s)": 1.450121
    },
    {
      "epoch": 2.1695728546334774,
      "grad_norm": 3.5043416023254395,
      "learning_rate": 6.030626180865451e-05,
      "loss": 0.2751473426818848,
      "memory(GiB)": 70.5,
      "step": 50640,
      "token_acc": 0.9378378378378378,
      "train_speed(iter/s)": 1.450114
    },
    {
      "epoch": 2.1697870699627266,
      "grad_norm": 2.746171712875366,
      "learning_rate": 6.029967645998459e-05,
      "loss": 0.40851850509643556,
      "memory(GiB)": 70.5,
      "step": 50645,
      "token_acc": 0.9347181008902077,
      "train_speed(iter/s)": 1.450113
    },
    {
      "epoch": 2.1700012852919754,
      "grad_norm": 3.3916001319885254,
      "learning_rate": 6.0293090924726346e-05,
      "loss": 0.23308019638061522,
      "memory(GiB)": 70.5,
      "step": 50650,
      "token_acc": 0.9463722397476341,
      "train_speed(iter/s)": 1.450119
    },
    {
      "epoch": 2.1702155006212243,
      "grad_norm": 1.0808597803115845,
      "learning_rate": 6.028650520299912e-05,
      "loss": 0.28803603649139403,
      "memory(GiB)": 70.5,
      "step": 50655,
      "token_acc": 0.9295302013422819,
      "train_speed(iter/s)": 1.45013
    },
    {
      "epoch": 2.1704297159504735,
      "grad_norm": 5.271799564361572,
      "learning_rate": 6.0279919294922206e-05,
      "loss": 0.22374839782714845,
      "memory(GiB)": 70.5,
      "step": 50660,
      "token_acc": 0.9618320610687023,
      "train_speed(iter/s)": 1.450125
    },
    {
      "epoch": 2.1706439312797223,
      "grad_norm": 3.335956573486328,
      "learning_rate": 6.02733332006149e-05,
      "loss": 0.5024633407592773,
      "memory(GiB)": 70.5,
      "step": 50665,
      "token_acc": 0.9015873015873016,
      "train_speed(iter/s)": 1.45015
    },
    {
      "epoch": 2.170858146608971,
      "grad_norm": 1.7045818567276,
      "learning_rate": 6.026674692019654e-05,
      "loss": 0.42264270782470703,
      "memory(GiB)": 70.5,
      "step": 50670,
      "token_acc": 0.9235474006116208,
      "train_speed(iter/s)": 1.450149
    },
    {
      "epoch": 2.1710723619382204,
      "grad_norm": 5.937655925750732,
      "learning_rate": 6.0260160453786416e-05,
      "loss": 0.5328501701354981,
      "memory(GiB)": 70.5,
      "step": 50675,
      "token_acc": 0.8865979381443299,
      "train_speed(iter/s)": 1.450148
    },
    {
      "epoch": 2.171286577267469,
      "grad_norm": 3.854870080947876,
      "learning_rate": 6.025357380150387e-05,
      "loss": 0.3493131399154663,
      "memory(GiB)": 70.5,
      "step": 50680,
      "token_acc": 0.9501557632398754,
      "train_speed(iter/s)": 1.450144
    },
    {
      "epoch": 2.171500792596718,
      "grad_norm": 3.636934995651245,
      "learning_rate": 6.02469869634682e-05,
      "loss": 0.3863845348358154,
      "memory(GiB)": 70.5,
      "step": 50685,
      "token_acc": 0.9049429657794676,
      "train_speed(iter/s)": 1.450159
    },
    {
      "epoch": 2.1717150079259673,
      "grad_norm": 1.8298152685165405,
      "learning_rate": 6.0240399939798766e-05,
      "loss": 0.17030801773071289,
      "memory(GiB)": 70.5,
      "step": 50690,
      "token_acc": 0.9707792207792207,
      "train_speed(iter/s)": 1.450161
    },
    {
      "epoch": 2.171929223255216,
      "grad_norm": 5.10529899597168,
      "learning_rate": 6.023381273061487e-05,
      "loss": 0.9092180252075195,
      "memory(GiB)": 70.5,
      "step": 50695,
      "token_acc": 0.8012048192771084,
      "train_speed(iter/s)": 1.450145
    },
    {
      "epoch": 2.172143438584465,
      "grad_norm": 4.012739181518555,
      "learning_rate": 6.0227225336035866e-05,
      "loss": 0.48504176139831545,
      "memory(GiB)": 70.5,
      "step": 50700,
      "token_acc": 0.900990099009901,
      "train_speed(iter/s)": 1.450136
    },
    {
      "epoch": 2.172357653913714,
      "grad_norm": 8.615055084228516,
      "learning_rate": 6.022063775618107e-05,
      "loss": 0.5546581268310546,
      "memory(GiB)": 70.5,
      "step": 50705,
      "token_acc": 0.8837209302325582,
      "train_speed(iter/s)": 1.450156
    },
    {
      "epoch": 2.172571869242963,
      "grad_norm": 2.8993635177612305,
      "learning_rate": 6.0214049991169844e-05,
      "loss": 0.296434211730957,
      "memory(GiB)": 70.5,
      "step": 50710,
      "token_acc": 0.95,
      "train_speed(iter/s)": 1.450155
    },
    {
      "epoch": 2.172786084572212,
      "grad_norm": 0.8645787835121155,
      "learning_rate": 6.0207462041121524e-05,
      "loss": 0.5426628112792968,
      "memory(GiB)": 70.5,
      "step": 50715,
      "token_acc": 0.8672086720867209,
      "train_speed(iter/s)": 1.450167
    },
    {
      "epoch": 2.173000299901461,
      "grad_norm": 3.5879170894622803,
      "learning_rate": 6.0200873906155455e-05,
      "loss": 0.21097178459167482,
      "memory(GiB)": 70.5,
      "step": 50720,
      "token_acc": 0.9451612903225807,
      "train_speed(iter/s)": 1.450168
    },
    {
      "epoch": 2.17321451523071,
      "grad_norm": 1.6429110765457153,
      "learning_rate": 6.0194285586390955e-05,
      "loss": 0.3435809135437012,
      "memory(GiB)": 70.5,
      "step": 50725,
      "token_acc": 0.9182879377431906,
      "train_speed(iter/s)": 1.450172
    },
    {
      "epoch": 2.1734287305599587,
      "grad_norm": 4.476863861083984,
      "learning_rate": 6.0187697081947434e-05,
      "loss": 0.6583369255065918,
      "memory(GiB)": 70.5,
      "step": 50730,
      "token_acc": 0.8811188811188811,
      "train_speed(iter/s)": 1.450169
    },
    {
      "epoch": 2.173642945889208,
      "grad_norm": 1.9101914167404175,
      "learning_rate": 6.0181108392944216e-05,
      "loss": 0.3402487993240356,
      "memory(GiB)": 70.5,
      "step": 50735,
      "token_acc": 0.935672514619883,
      "train_speed(iter/s)": 1.450179
    },
    {
      "epoch": 2.1738571612184567,
      "grad_norm": 1.5978426933288574,
      "learning_rate": 6.017451951950067e-05,
      "loss": 0.36893749237060547,
      "memory(GiB)": 70.5,
      "step": 50740,
      "token_acc": 0.9123505976095617,
      "train_speed(iter/s)": 1.450215
    },
    {
      "epoch": 2.1740713765477055,
      "grad_norm": 2.0848536491394043,
      "learning_rate": 6.0167930461736165e-05,
      "loss": 0.39859638214111326,
      "memory(GiB)": 70.5,
      "step": 50745,
      "token_acc": 0.9137254901960784,
      "train_speed(iter/s)": 1.450218
    },
    {
      "epoch": 2.174285591876955,
      "grad_norm": 1.8936057090759277,
      "learning_rate": 6.016134121977006e-05,
      "loss": 0.31246128082275393,
      "memory(GiB)": 70.5,
      "step": 50750,
      "token_acc": 0.9306569343065694,
      "train_speed(iter/s)": 1.450219
    },
    {
      "epoch": 2.1744998072062036,
      "grad_norm": 4.131645202636719,
      "learning_rate": 6.015475179372173e-05,
      "loss": 0.3909461498260498,
      "memory(GiB)": 70.5,
      "step": 50755,
      "token_acc": 0.9320388349514563,
      "train_speed(iter/s)": 1.450221
    },
    {
      "epoch": 2.1747140225354524,
      "grad_norm": 2.9218990802764893,
      "learning_rate": 6.0148162183710534e-05,
      "loss": 0.3356438159942627,
      "memory(GiB)": 70.5,
      "step": 50760,
      "token_acc": 0.9228187919463087,
      "train_speed(iter/s)": 1.450226
    },
    {
      "epoch": 2.1749282378647017,
      "grad_norm": 5.598459720611572,
      "learning_rate": 6.014157238985587e-05,
      "loss": 0.3893770694732666,
      "memory(GiB)": 70.5,
      "step": 50765,
      "token_acc": 0.935374149659864,
      "train_speed(iter/s)": 1.450221
    },
    {
      "epoch": 2.1751424531939505,
      "grad_norm": 4.1312150955200195,
      "learning_rate": 6.0134982412277095e-05,
      "loss": 0.3023512363433838,
      "memory(GiB)": 70.5,
      "step": 50770,
      "token_acc": 0.9490909090909091,
      "train_speed(iter/s)": 1.450219
    },
    {
      "epoch": 2.1753566685231993,
      "grad_norm": 4.15233850479126,
      "learning_rate": 6.0128392251093624e-05,
      "loss": 0.3392078399658203,
      "memory(GiB)": 70.5,
      "step": 50775,
      "token_acc": 0.9128787878787878,
      "train_speed(iter/s)": 1.450221
    },
    {
      "epoch": 2.1755708838524486,
      "grad_norm": 3.2555618286132812,
      "learning_rate": 6.012180190642481e-05,
      "loss": 0.5061532497406006,
      "memory(GiB)": 70.5,
      "step": 50780,
      "token_acc": 0.896551724137931,
      "train_speed(iter/s)": 1.450228
    },
    {
      "epoch": 2.1757850991816974,
      "grad_norm": 4.4852614402771,
      "learning_rate": 6.011521137839007e-05,
      "loss": 0.40663585662841795,
      "memory(GiB)": 70.5,
      "step": 50785,
      "token_acc": 0.9185185185185185,
      "train_speed(iter/s)": 1.450227
    },
    {
      "epoch": 2.175999314510946,
      "grad_norm": 2.6591453552246094,
      "learning_rate": 6.0108620667108794e-05,
      "loss": 0.5149047374725342,
      "memory(GiB)": 70.5,
      "step": 50790,
      "token_acc": 0.8980263157894737,
      "train_speed(iter/s)": 1.450248
    },
    {
      "epoch": 2.1762135298401954,
      "grad_norm": 4.918720245361328,
      "learning_rate": 6.010202977270035e-05,
      "loss": 0.3292094707489014,
      "memory(GiB)": 70.5,
      "step": 50795,
      "token_acc": 0.9465648854961832,
      "train_speed(iter/s)": 1.450251
    },
    {
      "epoch": 2.1764277451694443,
      "grad_norm": 2.3173131942749023,
      "learning_rate": 6.009543869528417e-05,
      "loss": 0.2565911054611206,
      "memory(GiB)": 70.5,
      "step": 50800,
      "token_acc": 0.9487951807228916,
      "train_speed(iter/s)": 1.450253
    },
    {
      "epoch": 2.176641960498693,
      "grad_norm": 4.2892022132873535,
      "learning_rate": 6.008884743497966e-05,
      "loss": 0.23151252269744874,
      "memory(GiB)": 70.5,
      "step": 50805,
      "token_acc": 0.9633699633699634,
      "train_speed(iter/s)": 1.450262
    },
    {
      "epoch": 2.1768561758279423,
      "grad_norm": 2.5561747550964355,
      "learning_rate": 6.00822559919062e-05,
      "loss": 0.39697904586791993,
      "memory(GiB)": 70.5,
      "step": 50810,
      "token_acc": 0.9090909090909091,
      "train_speed(iter/s)": 1.450263
    },
    {
      "epoch": 2.177070391157191,
      "grad_norm": 4.587259769439697,
      "learning_rate": 6.007566436618321e-05,
      "loss": 0.5739389419555664,
      "memory(GiB)": 70.5,
      "step": 50815,
      "token_acc": 0.9022556390977443,
      "train_speed(iter/s)": 1.450257
    },
    {
      "epoch": 2.17728460648644,
      "grad_norm": 3.2156083583831787,
      "learning_rate": 6.006907255793013e-05,
      "loss": 0.3968796968460083,
      "memory(GiB)": 70.5,
      "step": 50820,
      "token_acc": 0.9111842105263158,
      "train_speed(iter/s)": 1.450265
    },
    {
      "epoch": 2.177498821815689,
      "grad_norm": 2.8929522037506104,
      "learning_rate": 6.006248056726634e-05,
      "loss": 0.30507328510284426,
      "memory(GiB)": 70.5,
      "step": 50825,
      "token_acc": 0.919093851132686,
      "train_speed(iter/s)": 1.450283
    },
    {
      "epoch": 2.177713037144938,
      "grad_norm": 5.098251819610596,
      "learning_rate": 6.005588839431129e-05,
      "loss": 0.7591546058654786,
      "memory(GiB)": 70.5,
      "step": 50830,
      "token_acc": 0.8408408408408409,
      "train_speed(iter/s)": 1.450299
    },
    {
      "epoch": 2.177927252474187,
      "grad_norm": 1.2483460903167725,
      "learning_rate": 6.0049296039184364e-05,
      "loss": 0.5337582111358643,
      "memory(GiB)": 70.5,
      "step": 50835,
      "token_acc": 0.9041916167664671,
      "train_speed(iter/s)": 1.4503
    },
    {
      "epoch": 2.178141467803436,
      "grad_norm": 4.255964756011963,
      "learning_rate": 6.0042703502005015e-05,
      "loss": 0.5335560798645019,
      "memory(GiB)": 70.5,
      "step": 50840,
      "token_acc": 0.8927335640138409,
      "train_speed(iter/s)": 1.450303
    },
    {
      "epoch": 2.178355683132685,
      "grad_norm": 3.8531720638275146,
      "learning_rate": 6.00361107828927e-05,
      "loss": 0.48204526901245115,
      "memory(GiB)": 70.5,
      "step": 50845,
      "token_acc": 0.8723404255319149,
      "train_speed(iter/s)": 1.450304
    },
    {
      "epoch": 2.1785698984619337,
      "grad_norm": 3.491903781890869,
      "learning_rate": 6.00295178819668e-05,
      "loss": 0.39439728260040285,
      "memory(GiB)": 70.5,
      "step": 50850,
      "token_acc": 0.9055374592833876,
      "train_speed(iter/s)": 1.450303
    },
    {
      "epoch": 2.178784113791183,
      "grad_norm": 5.094521522521973,
      "learning_rate": 6.002292479934678e-05,
      "loss": 0.7063254833221435,
      "memory(GiB)": 70.5,
      "step": 50855,
      "token_acc": 0.863481228668942,
      "train_speed(iter/s)": 1.450298
    },
    {
      "epoch": 2.178998329120432,
      "grad_norm": 2.5922508239746094,
      "learning_rate": 6.0016331535152084e-05,
      "loss": 0.5594659328460694,
      "memory(GiB)": 70.5,
      "step": 50860,
      "token_acc": 0.8896103896103896,
      "train_speed(iter/s)": 1.450316
    },
    {
      "epoch": 2.1792125444496806,
      "grad_norm": 1.0435105562210083,
      "learning_rate": 6.000973808950214e-05,
      "loss": 0.14698625802993776,
      "memory(GiB)": 70.5,
      "step": 50865,
      "token_acc": 0.9686411149825784,
      "train_speed(iter/s)": 1.450324
    },
    {
      "epoch": 2.17942675977893,
      "grad_norm": 6.542809963226318,
      "learning_rate": 6.000314446251638e-05,
      "loss": 0.340877628326416,
      "memory(GiB)": 70.5,
      "step": 50870,
      "token_acc": 0.9440298507462687,
      "train_speed(iter/s)": 1.450329
    },
    {
      "epoch": 2.1796409751081787,
      "grad_norm": 2.5310957431793213,
      "learning_rate": 5.99965506543143e-05,
      "loss": 0.6822574615478516,
      "memory(GiB)": 70.5,
      "step": 50875,
      "token_acc": 0.8483870967741935,
      "train_speed(iter/s)": 1.450343
    },
    {
      "epoch": 2.1798551904374275,
      "grad_norm": 4.222930908203125,
      "learning_rate": 5.9989956665015324e-05,
      "loss": 0.309874963760376,
      "memory(GiB)": 70.5,
      "step": 50880,
      "token_acc": 0.9438943894389439,
      "train_speed(iter/s)": 1.450343
    },
    {
      "epoch": 2.1800694057666767,
      "grad_norm": 4.666376113891602,
      "learning_rate": 5.99833624947389e-05,
      "loss": 0.4180905342102051,
      "memory(GiB)": 70.5,
      "step": 50885,
      "token_acc": 0.9306569343065694,
      "train_speed(iter/s)": 1.450342
    },
    {
      "epoch": 2.1802836210959256,
      "grad_norm": 3.2566232681274414,
      "learning_rate": 5.997676814360451e-05,
      "loss": 0.4702473163604736,
      "memory(GiB)": 70.5,
      "step": 50890,
      "token_acc": 0.9105960264900662,
      "train_speed(iter/s)": 1.450355
    },
    {
      "epoch": 2.1804978364251744,
      "grad_norm": 4.381570816040039,
      "learning_rate": 5.9970173611731616e-05,
      "loss": 0.36413044929504396,
      "memory(GiB)": 70.5,
      "step": 50895,
      "token_acc": 0.9155405405405406,
      "train_speed(iter/s)": 1.45035
    },
    {
      "epoch": 2.1807120517544236,
      "grad_norm": 2.350660800933838,
      "learning_rate": 5.996357889923965e-05,
      "loss": 0.2897210121154785,
      "memory(GiB)": 70.5,
      "step": 50900,
      "token_acc": 0.939799331103679,
      "train_speed(iter/s)": 1.450348
    },
    {
      "epoch": 2.1809262670836724,
      "grad_norm": 2.6837234497070312,
      "learning_rate": 5.995698400624813e-05,
      "loss": 0.43457584381103515,
      "memory(GiB)": 70.5,
      "step": 50905,
      "token_acc": 0.9182156133828996,
      "train_speed(iter/s)": 1.450352
    },
    {
      "epoch": 2.1811404824129212,
      "grad_norm": 2.5613183975219727,
      "learning_rate": 5.995038893287648e-05,
      "loss": 0.38179285526275636,
      "memory(GiB)": 70.5,
      "step": 50910,
      "token_acc": 0.8941605839416058,
      "train_speed(iter/s)": 1.450359
    },
    {
      "epoch": 2.1813546977421705,
      "grad_norm": 3.6755473613739014,
      "learning_rate": 5.994379367924421e-05,
      "loss": 0.5074479103088378,
      "memory(GiB)": 70.5,
      "step": 50915,
      "token_acc": 0.8732394366197183,
      "train_speed(iter/s)": 1.450366
    },
    {
      "epoch": 2.1815689130714193,
      "grad_norm": 3.511270523071289,
      "learning_rate": 5.993719824547079e-05,
      "loss": 0.4831888198852539,
      "memory(GiB)": 70.5,
      "step": 50920,
      "token_acc": 0.9010989010989011,
      "train_speed(iter/s)": 1.450365
    },
    {
      "epoch": 2.181783128400668,
      "grad_norm": 3.8288726806640625,
      "learning_rate": 5.9930602631675705e-05,
      "loss": 0.4659147262573242,
      "memory(GiB)": 70.5,
      "step": 50925,
      "token_acc": 0.8859315589353612,
      "train_speed(iter/s)": 1.450378
    },
    {
      "epoch": 2.1819973437299174,
      "grad_norm": 3.3015096187591553,
      "learning_rate": 5.992400683797843e-05,
      "loss": 0.3359243154525757,
      "memory(GiB)": 70.5,
      "step": 50930,
      "token_acc": 0.9386281588447654,
      "train_speed(iter/s)": 1.450378
    },
    {
      "epoch": 2.182211559059166,
      "grad_norm": 4.322972297668457,
      "learning_rate": 5.991741086449848e-05,
      "loss": 0.31626391410827637,
      "memory(GiB)": 70.5,
      "step": 50935,
      "token_acc": 0.9307692307692308,
      "train_speed(iter/s)": 1.450368
    },
    {
      "epoch": 2.182425774388415,
      "grad_norm": 1.029123306274414,
      "learning_rate": 5.991081471135531e-05,
      "loss": 0.2956243515014648,
      "memory(GiB)": 70.5,
      "step": 50940,
      "token_acc": 0.9335548172757475,
      "train_speed(iter/s)": 1.450373
    },
    {
      "epoch": 2.1826399897176643,
      "grad_norm": 4.294251918792725,
      "learning_rate": 5.990421837866843e-05,
      "loss": 0.42691750526428224,
      "memory(GiB)": 70.5,
      "step": 50945,
      "token_acc": 0.9146341463414634,
      "train_speed(iter/s)": 1.450383
    },
    {
      "epoch": 2.182854205046913,
      "grad_norm": 5.9248552322387695,
      "learning_rate": 5.989762186655736e-05,
      "loss": 0.19426398277282714,
      "memory(GiB)": 70.5,
      "step": 50950,
      "token_acc": 0.9566787003610109,
      "train_speed(iter/s)": 1.450389
    },
    {
      "epoch": 2.183068420376162,
      "grad_norm": 6.775415897369385,
      "learning_rate": 5.989102517514158e-05,
      "loss": 0.6069326400756836,
      "memory(GiB)": 70.5,
      "step": 50955,
      "token_acc": 0.8938906752411575,
      "train_speed(iter/s)": 1.450398
    },
    {
      "epoch": 2.183282635705411,
      "grad_norm": 4.81499719619751,
      "learning_rate": 5.9884428304540595e-05,
      "loss": 0.48601346015930175,
      "memory(GiB)": 70.5,
      "step": 50960,
      "token_acc": 0.9176954732510288,
      "train_speed(iter/s)": 1.450431
    },
    {
      "epoch": 2.18349685103466,
      "grad_norm": 3.1970746517181396,
      "learning_rate": 5.987783125487394e-05,
      "loss": 0.37641403675079343,
      "memory(GiB)": 70.5,
      "step": 50965,
      "token_acc": 0.9251968503937008,
      "train_speed(iter/s)": 1.450429
    },
    {
      "epoch": 2.1837110663639088,
      "grad_norm": 0.7025327086448669,
      "learning_rate": 5.987123402626108e-05,
      "loss": 0.2537921190261841,
      "memory(GiB)": 70.5,
      "step": 50970,
      "token_acc": 0.9440298507462687,
      "train_speed(iter/s)": 1.45044
    },
    {
      "epoch": 2.183925281693158,
      "grad_norm": 1.469771146774292,
      "learning_rate": 5.986463661882157e-05,
      "loss": 0.4959570407867432,
      "memory(GiB)": 70.5,
      "step": 50975,
      "token_acc": 0.920863309352518,
      "train_speed(iter/s)": 1.450438
    },
    {
      "epoch": 2.184139497022407,
      "grad_norm": 1.8534303903579712,
      "learning_rate": 5.985803903267491e-05,
      "loss": 0.27616114616394044,
      "memory(GiB)": 70.5,
      "step": 50980,
      "token_acc": 0.9494949494949495,
      "train_speed(iter/s)": 1.450442
    },
    {
      "epoch": 2.1843537123516557,
      "grad_norm": 2.6703264713287354,
      "learning_rate": 5.985144126794061e-05,
      "loss": 0.49498748779296875,
      "memory(GiB)": 70.5,
      "step": 50985,
      "token_acc": 0.8608058608058609,
      "train_speed(iter/s)": 1.450444
    },
    {
      "epoch": 2.184567927680905,
      "grad_norm": 1.6884695291519165,
      "learning_rate": 5.984484332473823e-05,
      "loss": 0.14628790616989135,
      "memory(GiB)": 70.5,
      "step": 50990,
      "token_acc": 0.9724409448818898,
      "train_speed(iter/s)": 1.45045
    },
    {
      "epoch": 2.1847821430101537,
      "grad_norm": 0.38976579904556274,
      "learning_rate": 5.983824520318728e-05,
      "loss": 0.22680156230926513,
      "memory(GiB)": 70.5,
      "step": 50995,
      "token_acc": 0.9426751592356688,
      "train_speed(iter/s)": 1.450459
    },
    {
      "epoch": 2.1849963583394025,
      "grad_norm": 1.8618870973587036,
      "learning_rate": 5.983164690340727e-05,
      "loss": 0.22542252540588378,
      "memory(GiB)": 70.5,
      "step": 51000,
      "token_acc": 0.9616858237547893,
      "train_speed(iter/s)": 1.450472
    },
    {
      "epoch": 2.1849963583394025,
      "eval_loss": 2.5033349990844727,
      "eval_runtime": 14.3484,
      "eval_samples_per_second": 6.969,
      "eval_steps_per_second": 6.969,
      "eval_token_acc": 0.44054054054054054,
      "step": 51000
    },
    {
      "epoch": 2.185210573668652,
      "grad_norm": 3.5495004653930664,
      "learning_rate": 5.982504842551777e-05,
      "loss": 0.6544827938079834,
      "memory(GiB)": 70.5,
      "step": 51005,
      "token_acc": 0.5666982024597919,
      "train_speed(iter/s)": 1.449854
    },
    {
      "epoch": 2.1854247889979006,
      "grad_norm": 0.6601597666740417,
      "learning_rate": 5.981844976963831e-05,
      "loss": 0.3984886646270752,
      "memory(GiB)": 70.5,
      "step": 51010,
      "token_acc": 0.9145569620253164,
      "train_speed(iter/s)": 1.449857
    },
    {
      "epoch": 2.1856390043271494,
      "grad_norm": 3.863405227661133,
      "learning_rate": 5.981185093588839e-05,
      "loss": 0.33829736709594727,
      "memory(GiB)": 70.5,
      "step": 51015,
      "token_acc": 0.9288135593220339,
      "train_speed(iter/s)": 1.449857
    },
    {
      "epoch": 2.1858532196563987,
      "grad_norm": 2.1617472171783447,
      "learning_rate": 5.980525192438761e-05,
      "loss": 0.3811631202697754,
      "memory(GiB)": 70.5,
      "step": 51020,
      "token_acc": 0.9316770186335404,
      "train_speed(iter/s)": 1.44986
    },
    {
      "epoch": 2.1860674349856475,
      "grad_norm": 15.906596183776855,
      "learning_rate": 5.979865273525549e-05,
      "loss": 0.46365838050842284,
      "memory(GiB)": 70.5,
      "step": 51025,
      "token_acc": 0.9079497907949791,
      "train_speed(iter/s)": 1.449866
    },
    {
      "epoch": 2.1862816503148967,
      "grad_norm": 3.158656120300293,
      "learning_rate": 5.9792053368611565e-05,
      "loss": 0.4353679656982422,
      "memory(GiB)": 70.5,
      "step": 51030,
      "token_acc": 0.9137931034482759,
      "train_speed(iter/s)": 1.449873
    },
    {
      "epoch": 2.1864958656441456,
      "grad_norm": 4.493058681488037,
      "learning_rate": 5.978545382457543e-05,
      "loss": 0.3438121795654297,
      "memory(GiB)": 70.5,
      "step": 51035,
      "token_acc": 0.9156626506024096,
      "train_speed(iter/s)": 1.449871
    },
    {
      "epoch": 2.1867100809733944,
      "grad_norm": 3.145226240158081,
      "learning_rate": 5.977885410326661e-05,
      "loss": 0.6803734302520752,
      "memory(GiB)": 70.5,
      "step": 51040,
      "token_acc": 0.8753993610223643,
      "train_speed(iter/s)": 1.449885
    },
    {
      "epoch": 2.1869242963026436,
      "grad_norm": 3.1874423027038574,
      "learning_rate": 5.977225420480468e-05,
      "loss": 0.46413888931274416,
      "memory(GiB)": 70.5,
      "step": 51045,
      "token_acc": 0.9129129129129129,
      "train_speed(iter/s)": 1.449886
    },
    {
      "epoch": 2.1871385116318924,
      "grad_norm": 2.6805074214935303,
      "learning_rate": 5.97656541293092e-05,
      "loss": 0.3700529098510742,
      "memory(GiB)": 70.5,
      "step": 51050,
      "token_acc": 0.900709219858156,
      "train_speed(iter/s)": 1.449907
    },
    {
      "epoch": 2.1873527269611412,
      "grad_norm": 3.552578926086426,
      "learning_rate": 5.975905387689973e-05,
      "loss": 0.8501643180847168,
      "memory(GiB)": 70.5,
      "step": 51055,
      "token_acc": 0.8412698412698413,
      "train_speed(iter/s)": 1.449895
    },
    {
      "epoch": 2.1875669422903905,
      "grad_norm": 0.1346604973077774,
      "learning_rate": 5.9752453447695834e-05,
      "loss": 0.380810809135437,
      "memory(GiB)": 70.5,
      "step": 51060,
      "token_acc": 0.900355871886121,
      "train_speed(iter/s)": 1.449898
    },
    {
      "epoch": 2.1877811576196393,
      "grad_norm": 1.0206964015960693,
      "learning_rate": 5.974585284181712e-05,
      "loss": 0.46544637680053713,
      "memory(GiB)": 70.5,
      "step": 51065,
      "token_acc": 0.8908450704225352,
      "train_speed(iter/s)": 1.449898
    },
    {
      "epoch": 2.187995372948888,
      "grad_norm": 2.4040744304656982,
      "learning_rate": 5.973925205938311e-05,
      "loss": 0.20734648704528807,
      "memory(GiB)": 70.5,
      "step": 51070,
      "token_acc": 0.9548387096774194,
      "train_speed(iter/s)": 1.449904
    },
    {
      "epoch": 2.1882095882781374,
      "grad_norm": 2.513272762298584,
      "learning_rate": 5.973265110051344e-05,
      "loss": 0.3945478439331055,
      "memory(GiB)": 70.5,
      "step": 51075,
      "token_acc": 0.9178082191780822,
      "train_speed(iter/s)": 1.449896
    },
    {
      "epoch": 2.188423803607386,
      "grad_norm": 2.537752151489258,
      "learning_rate": 5.9726049965327656e-05,
      "loss": 0.5745400428771973,
      "memory(GiB)": 70.5,
      "step": 51080,
      "token_acc": 0.8791208791208791,
      "train_speed(iter/s)": 1.449904
    },
    {
      "epoch": 2.188638018936635,
      "grad_norm": 3.634613037109375,
      "learning_rate": 5.9719448653945344e-05,
      "loss": 0.3844005107879639,
      "memory(GiB)": 70.5,
      "step": 51085,
      "token_acc": 0.93359375,
      "train_speed(iter/s)": 1.449909
    },
    {
      "epoch": 2.1888522342658843,
      "grad_norm": 3.30008602142334,
      "learning_rate": 5.9712847166486105e-05,
      "loss": 0.5045750141143799,
      "memory(GiB)": 70.5,
      "step": 51090,
      "token_acc": 0.8888888888888888,
      "train_speed(iter/s)": 1.449929
    },
    {
      "epoch": 2.189066449595133,
      "grad_norm": 2.043272018432617,
      "learning_rate": 5.9706245503069534e-05,
      "loss": 0.23061032295227052,
      "memory(GiB)": 70.5,
      "step": 51095,
      "token_acc": 0.9516129032258065,
      "train_speed(iter/s)": 1.449928
    },
    {
      "epoch": 2.189280664924382,
      "grad_norm": 1.8209482431411743,
      "learning_rate": 5.9699643663815205e-05,
      "loss": 0.15258182287216188,
      "memory(GiB)": 70.5,
      "step": 51100,
      "token_acc": 0.9594594594594594,
      "train_speed(iter/s)": 1.449927
    },
    {
      "epoch": 2.189494880253631,
      "grad_norm": 4.67851448059082,
      "learning_rate": 5.969304164884275e-05,
      "loss": 0.42417001724243164,
      "memory(GiB)": 70.5,
      "step": 51105,
      "token_acc": 0.9183673469387755,
      "train_speed(iter/s)": 1.44996
    },
    {
      "epoch": 2.18970909558288,
      "grad_norm": 4.721888065338135,
      "learning_rate": 5.968643945827176e-05,
      "loss": 0.307102108001709,
      "memory(GiB)": 70.5,
      "step": 51110,
      "token_acc": 0.9217391304347826,
      "train_speed(iter/s)": 1.449955
    },
    {
      "epoch": 2.1899233109121288,
      "grad_norm": 2.547982931137085,
      "learning_rate": 5.9679837092221815e-05,
      "loss": 0.34571263790130613,
      "memory(GiB)": 70.5,
      "step": 51115,
      "token_acc": 0.9329073482428115,
      "train_speed(iter/s)": 1.449955
    },
    {
      "epoch": 2.190137526241378,
      "grad_norm": 3.1291699409484863,
      "learning_rate": 5.967323455081255e-05,
      "loss": 0.43664913177490233,
      "memory(GiB)": 70.5,
      "step": 51120,
      "token_acc": 0.9175627240143369,
      "train_speed(iter/s)": 1.449953
    },
    {
      "epoch": 2.190351741570627,
      "grad_norm": 3.641458749771118,
      "learning_rate": 5.966663183416357e-05,
      "loss": 0.36188225746154784,
      "memory(GiB)": 70.5,
      "step": 51125,
      "token_acc": 0.9033457249070632,
      "train_speed(iter/s)": 1.449961
    },
    {
      "epoch": 2.1905659568998757,
      "grad_norm": 1.7951501607894897,
      "learning_rate": 5.966002894239446e-05,
      "loss": 0.3912527561187744,
      "memory(GiB)": 70.5,
      "step": 51130,
      "token_acc": 0.8983050847457628,
      "train_speed(iter/s)": 1.449967
    },
    {
      "epoch": 2.190780172229125,
      "grad_norm": 5.49590539932251,
      "learning_rate": 5.965342587562489e-05,
      "loss": 0.4462904930114746,
      "memory(GiB)": 70.5,
      "step": 51135,
      "token_acc": 0.9255663430420712,
      "train_speed(iter/s)": 1.449981
    },
    {
      "epoch": 2.1909943875583737,
      "grad_norm": 3.948486566543579,
      "learning_rate": 5.9646822633974454e-05,
      "loss": 0.520871353149414,
      "memory(GiB)": 70.5,
      "step": 51140,
      "token_acc": 0.9020408163265307,
      "train_speed(iter/s)": 1.449979
    },
    {
      "epoch": 2.1912086028876225,
      "grad_norm": 1.158976435661316,
      "learning_rate": 5.964021921756277e-05,
      "loss": 0.23059558868408203,
      "memory(GiB)": 70.5,
      "step": 51145,
      "token_acc": 0.9542682926829268,
      "train_speed(iter/s)": 1.449982
    },
    {
      "epoch": 2.191422818216872,
      "grad_norm": 1.782740592956543,
      "learning_rate": 5.963361562650946e-05,
      "loss": 0.41855573654174805,
      "memory(GiB)": 70.5,
      "step": 51150,
      "token_acc": 0.9106529209621993,
      "train_speed(iter/s)": 1.449984
    },
    {
      "epoch": 2.1916370335461206,
      "grad_norm": 3.158716917037964,
      "learning_rate": 5.962701186093419e-05,
      "loss": 0.4607736587524414,
      "memory(GiB)": 70.5,
      "step": 51155,
      "token_acc": 0.899390243902439,
      "train_speed(iter/s)": 1.449979
    },
    {
      "epoch": 2.1918512488753694,
      "grad_norm": 3.0478920936584473,
      "learning_rate": 5.962040792095656e-05,
      "loss": 0.37351288795471194,
      "memory(GiB)": 70.5,
      "step": 51160,
      "token_acc": 0.9035369774919614,
      "train_speed(iter/s)": 1.44999
    },
    {
      "epoch": 2.1920654642046187,
      "grad_norm": 9.306955337524414,
      "learning_rate": 5.96138038066962e-05,
      "loss": 0.31277549266815186,
      "memory(GiB)": 70.5,
      "step": 51165,
      "token_acc": 0.9292929292929293,
      "train_speed(iter/s)": 1.449986
    },
    {
      "epoch": 2.1922796795338675,
      "grad_norm": 0.7128827571868896,
      "learning_rate": 5.960719951827278e-05,
      "loss": 0.2718203067779541,
      "memory(GiB)": 70.5,
      "step": 51170,
      "token_acc": 0.9481481481481482,
      "train_speed(iter/s)": 1.449983
    },
    {
      "epoch": 2.1924938948631163,
      "grad_norm": 2.5276286602020264,
      "learning_rate": 5.960059505580593e-05,
      "loss": 0.5175028800964355,
      "memory(GiB)": 70.5,
      "step": 51175,
      "token_acc": 0.8867313915857605,
      "train_speed(iter/s)": 1.449981
    },
    {
      "epoch": 2.1927081101923656,
      "grad_norm": 5.026991844177246,
      "learning_rate": 5.9593990419415294e-05,
      "loss": 0.4754149913787842,
      "memory(GiB)": 70.5,
      "step": 51180,
      "token_acc": 0.9033333333333333,
      "train_speed(iter/s)": 1.44998
    },
    {
      "epoch": 2.1929223255216144,
      "grad_norm": 4.568122863769531,
      "learning_rate": 5.9587385609220516e-05,
      "loss": 0.7321350574493408,
      "memory(GiB)": 70.5,
      "step": 51185,
      "token_acc": 0.8682432432432432,
      "train_speed(iter/s)": 1.449984
    },
    {
      "epoch": 2.193136540850863,
      "grad_norm": 5.472165584564209,
      "learning_rate": 5.958078062534126e-05,
      "loss": 0.39142799377441406,
      "memory(GiB)": 70.5,
      "step": 51190,
      "token_acc": 0.9326241134751773,
      "train_speed(iter/s)": 1.450008
    },
    {
      "epoch": 2.1933507561801124,
      "grad_norm": 4.328889846801758,
      "learning_rate": 5.957417546789717e-05,
      "loss": 0.4257911205291748,
      "memory(GiB)": 70.5,
      "step": 51195,
      "token_acc": 0.9215686274509803,
      "train_speed(iter/s)": 1.450008
    },
    {
      "epoch": 2.1935649715093612,
      "grad_norm": 2.548952579498291,
      "learning_rate": 5.956757013700791e-05,
      "loss": 0.5193898677825928,
      "memory(GiB)": 70.5,
      "step": 51200,
      "token_acc": 0.9084507042253521,
      "train_speed(iter/s)": 1.450024
    },
    {
      "epoch": 2.19377918683861,
      "grad_norm": 3.2382924556732178,
      "learning_rate": 5.956096463279314e-05,
      "loss": 0.345200252532959,
      "memory(GiB)": 70.5,
      "step": 51205,
      "token_acc": 0.9291784702549575,
      "train_speed(iter/s)": 1.450045
    },
    {
      "epoch": 2.1939934021678593,
      "grad_norm": 1.9402272701263428,
      "learning_rate": 5.955435895537253e-05,
      "loss": 0.41257877349853517,
      "memory(GiB)": 70.5,
      "step": 51210,
      "token_acc": 0.919093851132686,
      "train_speed(iter/s)": 1.450059
    },
    {
      "epoch": 2.194207617497108,
      "grad_norm": 2.664508819580078,
      "learning_rate": 5.9547753104865746e-05,
      "loss": 0.584498119354248,
      "memory(GiB)": 70.5,
      "step": 51215,
      "token_acc": 0.8567251461988304,
      "train_speed(iter/s)": 1.450049
    },
    {
      "epoch": 2.194421832826357,
      "grad_norm": 0.17769382894039154,
      "learning_rate": 5.954114708139247e-05,
      "loss": 0.5057545661926269,
      "memory(GiB)": 70.5,
      "step": 51220,
      "token_acc": 0.8934707903780069,
      "train_speed(iter/s)": 1.450048
    },
    {
      "epoch": 2.194636048155606,
      "grad_norm": 4.135988712310791,
      "learning_rate": 5.953454088507236e-05,
      "loss": 0.38073699474334716,
      "memory(GiB)": 70.5,
      "step": 51225,
      "token_acc": 0.9123505976095617,
      "train_speed(iter/s)": 1.450057
    },
    {
      "epoch": 2.194850263484855,
      "grad_norm": 3.7053444385528564,
      "learning_rate": 5.952793451602507e-05,
      "loss": 0.42030653953552244,
      "memory(GiB)": 70.5,
      "step": 51230,
      "token_acc": 0.9110320284697508,
      "train_speed(iter/s)": 1.450064
    },
    {
      "epoch": 2.195064478814104,
      "grad_norm": 0.06621988117694855,
      "learning_rate": 5.9521327974370334e-05,
      "loss": 0.46125354766845705,
      "memory(GiB)": 70.5,
      "step": 51235,
      "token_acc": 0.916058394160584,
      "train_speed(iter/s)": 1.450065
    },
    {
      "epoch": 2.195278694143353,
      "grad_norm": 1.1664928197860718,
      "learning_rate": 5.95147212602278e-05,
      "loss": 0.38840432167053224,
      "memory(GiB)": 70.5,
      "step": 51240,
      "token_acc": 0.9182389937106918,
      "train_speed(iter/s)": 1.45006
    },
    {
      "epoch": 2.195492909472602,
      "grad_norm": 5.890903949737549,
      "learning_rate": 5.950811437371716e-05,
      "loss": 0.49774923324584963,
      "memory(GiB)": 70.5,
      "step": 51245,
      "token_acc": 0.8720238095238095,
      "train_speed(iter/s)": 1.450065
    },
    {
      "epoch": 2.1957071248018507,
      "grad_norm": 1.4045419692993164,
      "learning_rate": 5.950150731495813e-05,
      "loss": 0.3715933322906494,
      "memory(GiB)": 70.5,
      "step": 51250,
      "token_acc": 0.935374149659864,
      "train_speed(iter/s)": 1.450075
    },
    {
      "epoch": 2.1959213401311,
      "grad_norm": 7.51812219619751,
      "learning_rate": 5.949490008407037e-05,
      "loss": 0.1814044237136841,
      "memory(GiB)": 70.5,
      "step": 51255,
      "token_acc": 0.9640287769784173,
      "train_speed(iter/s)": 1.450087
    },
    {
      "epoch": 2.1961355554603488,
      "grad_norm": 5.106799602508545,
      "learning_rate": 5.9488292681173585e-05,
      "loss": 0.7546957015991211,
      "memory(GiB)": 70.5,
      "step": 51260,
      "token_acc": 0.8526645768025078,
      "train_speed(iter/s)": 1.450088
    },
    {
      "epoch": 2.1963497707895976,
      "grad_norm": 3.646167755126953,
      "learning_rate": 5.948168510638748e-05,
      "loss": 0.563668155670166,
      "memory(GiB)": 70.5,
      "step": 51265,
      "token_acc": 0.8736462093862816,
      "train_speed(iter/s)": 1.450108
    },
    {
      "epoch": 2.196563986118847,
      "grad_norm": 5.267276287078857,
      "learning_rate": 5.9475077359831766e-05,
      "loss": 0.44749135971069337,
      "memory(GiB)": 70.5,
      "step": 51270,
      "token_acc": 0.9157509157509157,
      "train_speed(iter/s)": 1.450104
    },
    {
      "epoch": 2.1967782014480957,
      "grad_norm": 3.414707660675049,
      "learning_rate": 5.9468469441626116e-05,
      "loss": 0.43937177658081056,
      "memory(GiB)": 70.5,
      "step": 51275,
      "token_acc": 0.9088235294117647,
      "train_speed(iter/s)": 1.450103
    },
    {
      "epoch": 2.1969924167773445,
      "grad_norm": 2.6601991653442383,
      "learning_rate": 5.946186135189027e-05,
      "loss": 0.46574883460998534,
      "memory(GiB)": 70.5,
      "step": 51280,
      "token_acc": 0.917910447761194,
      "train_speed(iter/s)": 1.450108
    },
    {
      "epoch": 2.1972066321065937,
      "grad_norm": 4.106680870056152,
      "learning_rate": 5.945525309074393e-05,
      "loss": 0.09995218515396118,
      "memory(GiB)": 70.5,
      "step": 51285,
      "token_acc": 0.9765886287625418,
      "train_speed(iter/s)": 1.450112
    },
    {
      "epoch": 2.1974208474358425,
      "grad_norm": 2.6938745975494385,
      "learning_rate": 5.944864465830681e-05,
      "loss": 0.41347036361694334,
      "memory(GiB)": 70.5,
      "step": 51290,
      "token_acc": 0.9368421052631579,
      "train_speed(iter/s)": 1.450124
    },
    {
      "epoch": 2.1976350627650914,
      "grad_norm": 5.8746538162231445,
      "learning_rate": 5.944203605469863e-05,
      "loss": 0.1980844497680664,
      "memory(GiB)": 70.5,
      "step": 51295,
      "token_acc": 0.9532374100719424,
      "train_speed(iter/s)": 1.450123
    },
    {
      "epoch": 2.1978492780943406,
      "grad_norm": 2.474396228790283,
      "learning_rate": 5.943542728003911e-05,
      "loss": 0.2958374500274658,
      "memory(GiB)": 70.5,
      "step": 51300,
      "token_acc": 0.945054945054945,
      "train_speed(iter/s)": 1.45013
    },
    {
      "epoch": 2.1980634934235894,
      "grad_norm": 2.4865128993988037,
      "learning_rate": 5.9428818334447976e-05,
      "loss": 0.3315902233123779,
      "memory(GiB)": 70.5,
      "step": 51305,
      "token_acc": 0.9223300970873787,
      "train_speed(iter/s)": 1.450137
    },
    {
      "epoch": 2.1982777087528382,
      "grad_norm": 3.3051915168762207,
      "learning_rate": 5.9422209218044956e-05,
      "loss": 0.5587521553039551,
      "memory(GiB)": 70.5,
      "step": 51310,
      "token_acc": 0.8940809968847352,
      "train_speed(iter/s)": 1.450138
    },
    {
      "epoch": 2.1984919240820875,
      "grad_norm": 7.414772033691406,
      "learning_rate": 5.941559993094976e-05,
      "loss": 0.3570552349090576,
      "memory(GiB)": 70.5,
      "step": 51315,
      "token_acc": 0.9213483146067416,
      "train_speed(iter/s)": 1.450138
    },
    {
      "epoch": 2.1987061394113363,
      "grad_norm": 1.524340271949768,
      "learning_rate": 5.9408990473282145e-05,
      "loss": 0.24772341251373292,
      "memory(GiB)": 70.5,
      "step": 51320,
      "token_acc": 0.9405594405594405,
      "train_speed(iter/s)": 1.450152
    },
    {
      "epoch": 2.198920354740585,
      "grad_norm": 4.710116863250732,
      "learning_rate": 5.940238084516184e-05,
      "loss": 0.5519515991210937,
      "memory(GiB)": 70.5,
      "step": 51325,
      "token_acc": 0.8954248366013072,
      "train_speed(iter/s)": 1.450148
    },
    {
      "epoch": 2.1991345700698344,
      "grad_norm": 0.9877539277076721,
      "learning_rate": 5.9395771046708594e-05,
      "loss": 0.3144498109817505,
      "memory(GiB)": 70.5,
      "step": 51330,
      "token_acc": 0.9166666666666666,
      "train_speed(iter/s)": 1.45015
    },
    {
      "epoch": 2.199348785399083,
      "grad_norm": 0.791766345500946,
      "learning_rate": 5.9389161078042143e-05,
      "loss": 0.2937031269073486,
      "memory(GiB)": 70.5,
      "step": 51335,
      "token_acc": 0.9508196721311475,
      "train_speed(iter/s)": 1.450167
    },
    {
      "epoch": 2.199563000728332,
      "grad_norm": 3.9735541343688965,
      "learning_rate": 5.9382550939282234e-05,
      "loss": 0.27264227867126467,
      "memory(GiB)": 70.5,
      "step": 51340,
      "token_acc": 0.9446494464944649,
      "train_speed(iter/s)": 1.450168
    },
    {
      "epoch": 2.1997772160575813,
      "grad_norm": 5.119778156280518,
      "learning_rate": 5.9375940630548597e-05,
      "loss": 0.6261510848999023,
      "memory(GiB)": 70.5,
      "step": 51345,
      "token_acc": 0.8596491228070176,
      "train_speed(iter/s)": 1.450179
    },
    {
      "epoch": 2.19999143138683,
      "grad_norm": 3.649566888809204,
      "learning_rate": 5.9369330151961e-05,
      "loss": 0.3045217990875244,
      "memory(GiB)": 70.5,
      "step": 51350,
      "token_acc": 0.9442622950819672,
      "train_speed(iter/s)": 1.450182
    },
    {
      "epoch": 2.200205646716079,
      "grad_norm": 12.93321704864502,
      "learning_rate": 5.9362719503639216e-05,
      "loss": 0.42865619659423826,
      "memory(GiB)": 70.5,
      "step": 51355,
      "token_acc": 0.9018987341772152,
      "train_speed(iter/s)": 1.450197
    },
    {
      "epoch": 2.200419862045328,
      "grad_norm": 0.7991122603416443,
      "learning_rate": 5.9356108685702974e-05,
      "loss": 0.5964747428894043,
      "memory(GiB)": 70.5,
      "step": 51360,
      "token_acc": 0.8794788273615635,
      "train_speed(iter/s)": 1.4502
    },
    {
      "epoch": 2.200634077374577,
      "grad_norm": 1.9408981800079346,
      "learning_rate": 5.934949769827205e-05,
      "loss": 0.4790898323059082,
      "memory(GiB)": 70.5,
      "step": 51365,
      "token_acc": 0.9035714285714286,
      "train_speed(iter/s)": 1.450213
    },
    {
      "epoch": 2.2008482927038258,
      "grad_norm": 2.364313840866089,
      "learning_rate": 5.9342886541466204e-05,
      "loss": 0.44541220664978026,
      "memory(GiB)": 70.5,
      "step": 51370,
      "token_acc": 0.9046242774566474,
      "train_speed(iter/s)": 1.450228
    },
    {
      "epoch": 2.201062508033075,
      "grad_norm": 3.2689449787139893,
      "learning_rate": 5.93362752154052e-05,
      "loss": 0.22482538223266602,
      "memory(GiB)": 70.5,
      "step": 51375,
      "token_acc": 0.9487179487179487,
      "train_speed(iter/s)": 1.450234
    },
    {
      "epoch": 2.201276723362324,
      "grad_norm": 7.18286657333374,
      "learning_rate": 5.9329663720208826e-05,
      "loss": 0.3337057590484619,
      "memory(GiB)": 70.5,
      "step": 51380,
      "token_acc": 0.9372384937238494,
      "train_speed(iter/s)": 1.450223
    },
    {
      "epoch": 2.2014909386915726,
      "grad_norm": 2.29667592048645,
      "learning_rate": 5.932305205599683e-05,
      "loss": 0.42179241180419924,
      "memory(GiB)": 70.5,
      "step": 51385,
      "token_acc": 0.9319727891156463,
      "train_speed(iter/s)": 1.450222
    },
    {
      "epoch": 2.201705154020822,
      "grad_norm": 0.06337615847587585,
      "learning_rate": 5.931644022288899e-05,
      "loss": 0.4333448886871338,
      "memory(GiB)": 70.5,
      "step": 51390,
      "token_acc": 0.90625,
      "train_speed(iter/s)": 1.450213
    },
    {
      "epoch": 2.2019193693500707,
      "grad_norm": 3.7145893573760986,
      "learning_rate": 5.9309828221005115e-05,
      "loss": 0.3168431282043457,
      "memory(GiB)": 70.5,
      "step": 51395,
      "token_acc": 0.9236363636363636,
      "train_speed(iter/s)": 1.450228
    },
    {
      "epoch": 2.2021335846793195,
      "grad_norm": 0.6782521605491638,
      "learning_rate": 5.930321605046496e-05,
      "loss": 0.349801230430603,
      "memory(GiB)": 70.5,
      "step": 51400,
      "token_acc": 0.925,
      "train_speed(iter/s)": 1.450232
    },
    {
      "epoch": 2.202347800008569,
      "grad_norm": 3.5576584339141846,
      "learning_rate": 5.9296603711388324e-05,
      "loss": 0.383362340927124,
      "memory(GiB)": 70.5,
      "step": 51405,
      "token_acc": 0.9102167182662538,
      "train_speed(iter/s)": 1.450238
    },
    {
      "epoch": 2.2025620153378176,
      "grad_norm": 0.696987509727478,
      "learning_rate": 5.928999120389499e-05,
      "loss": 0.21114554405212402,
      "memory(GiB)": 70.5,
      "step": 51410,
      "token_acc": 0.9676375404530745,
      "train_speed(iter/s)": 1.450237
    },
    {
      "epoch": 2.2027762306670664,
      "grad_norm": 2.1492512226104736,
      "learning_rate": 5.928337852810475e-05,
      "loss": 0.2401029348373413,
      "memory(GiB)": 70.5,
      "step": 51415,
      "token_acc": 0.9349112426035503,
      "train_speed(iter/s)": 1.450242
    },
    {
      "epoch": 2.2029904459963157,
      "grad_norm": 3.5479490756988525,
      "learning_rate": 5.927676568413739e-05,
      "loss": 0.3101226329803467,
      "memory(GiB)": 70.5,
      "step": 51420,
      "token_acc": 0.9174917491749175,
      "train_speed(iter/s)": 1.450242
    },
    {
      "epoch": 2.2032046613255645,
      "grad_norm": 3.049267292022705,
      "learning_rate": 5.9270152672112725e-05,
      "loss": 0.23204026222229004,
      "memory(GiB)": 70.5,
      "step": 51425,
      "token_acc": 0.9303135888501742,
      "train_speed(iter/s)": 1.450251
    },
    {
      "epoch": 2.2034188766548133,
      "grad_norm": 2.936291456222534,
      "learning_rate": 5.9263539492150557e-05,
      "loss": 0.5579321384429932,
      "memory(GiB)": 70.5,
      "step": 51430,
      "token_acc": 0.884375,
      "train_speed(iter/s)": 1.45024
    },
    {
      "epoch": 2.2036330919840625,
      "grad_norm": 3.541712760925293,
      "learning_rate": 5.9256926144370663e-05,
      "loss": 0.4785926342010498,
      "memory(GiB)": 70.5,
      "step": 51435,
      "token_acc": 0.8849557522123894,
      "train_speed(iter/s)": 1.450237
    },
    {
      "epoch": 2.2038473073133114,
      "grad_norm": 1.179591178894043,
      "learning_rate": 5.9250312628892877e-05,
      "loss": 0.32626221179962156,
      "memory(GiB)": 70.5,
      "step": 51440,
      "token_acc": 0.922509225092251,
      "train_speed(iter/s)": 1.450248
    },
    {
      "epoch": 2.20406152264256,
      "grad_norm": 4.66850471496582,
      "learning_rate": 5.9243698945837014e-05,
      "loss": 0.3412567138671875,
      "memory(GiB)": 70.5,
      "step": 51445,
      "token_acc": 0.9052631578947369,
      "train_speed(iter/s)": 1.450248
    },
    {
      "epoch": 2.2042757379718094,
      "grad_norm": 1.1496515274047852,
      "learning_rate": 5.923708509532284e-05,
      "loss": 0.26950273513793943,
      "memory(GiB)": 70.5,
      "step": 51450,
      "token_acc": 0.9437086092715232,
      "train_speed(iter/s)": 1.450258
    },
    {
      "epoch": 2.2044899533010582,
      "grad_norm": 3.208296537399292,
      "learning_rate": 5.923047107747024e-05,
      "loss": 0.4769591331481934,
      "memory(GiB)": 70.5,
      "step": 51455,
      "token_acc": 0.8846153846153846,
      "train_speed(iter/s)": 1.45025
    },
    {
      "epoch": 2.204704168630307,
      "grad_norm": 4.8395304679870605,
      "learning_rate": 5.9223856892398975e-05,
      "loss": 0.2033766031265259,
      "memory(GiB)": 70.5,
      "step": 51460,
      "token_acc": 0.9575971731448764,
      "train_speed(iter/s)": 1.450266
    },
    {
      "epoch": 2.2049183839595563,
      "grad_norm": 2.0114188194274902,
      "learning_rate": 5.921724254022889e-05,
      "loss": 0.16712719202041626,
      "memory(GiB)": 70.5,
      "step": 51465,
      "token_acc": 0.9623824451410659,
      "train_speed(iter/s)": 1.450264
    },
    {
      "epoch": 2.205132599288805,
      "grad_norm": 5.0708088874816895,
      "learning_rate": 5.921062802107982e-05,
      "loss": 0.4842782497406006,
      "memory(GiB)": 70.5,
      "step": 51470,
      "token_acc": 0.896,
      "train_speed(iter/s)": 1.45029
    },
    {
      "epoch": 2.205346814618054,
      "grad_norm": 5.219204902648926,
      "learning_rate": 5.920401333507157e-05,
      "loss": 0.4822529315948486,
      "memory(GiB)": 70.5,
      "step": 51475,
      "token_acc": 0.9,
      "train_speed(iter/s)": 1.450287
    },
    {
      "epoch": 2.205561029947303,
      "grad_norm": 3.5671870708465576,
      "learning_rate": 5.9197398482324e-05,
      "loss": 0.438889217376709,
      "memory(GiB)": 70.5,
      "step": 51480,
      "token_acc": 0.8900709219858156,
      "train_speed(iter/s)": 1.450296
    },
    {
      "epoch": 2.205775245276552,
      "grad_norm": 4.733739376068115,
      "learning_rate": 5.919078346295693e-05,
      "loss": 0.39969799518585203,
      "memory(GiB)": 70.5,
      "step": 51485,
      "token_acc": 0.9203296703296703,
      "train_speed(iter/s)": 1.450296
    },
    {
      "epoch": 2.205989460605801,
      "grad_norm": 2.8924806118011475,
      "learning_rate": 5.918416827709018e-05,
      "loss": 0.3818478584289551,
      "memory(GiB)": 70.5,
      "step": 51490,
      "token_acc": 0.9230769230769231,
      "train_speed(iter/s)": 1.450297
    },
    {
      "epoch": 2.20620367593505,
      "grad_norm": 2.4865639209747314,
      "learning_rate": 5.917755292484361e-05,
      "loss": 0.30372593402862547,
      "memory(GiB)": 70.5,
      "step": 51495,
      "token_acc": 0.9127725856697819,
      "train_speed(iter/s)": 1.450296
    },
    {
      "epoch": 2.206417891264299,
      "grad_norm": 2.1032960414886475,
      "learning_rate": 5.917093740633707e-05,
      "loss": 0.33774752616882325,
      "memory(GiB)": 70.5,
      "step": 51500,
      "token_acc": 0.9137254901960784,
      "train_speed(iter/s)": 1.450297
    },
    {
      "epoch": 2.206417891264299,
      "eval_loss": 2.4934723377227783,
      "eval_runtime": 14.1383,
      "eval_samples_per_second": 7.073,
      "eval_steps_per_second": 7.073,
      "eval_token_acc": 0.44328552803129073,
      "step": 51500
    },
    {
      "epoch": 2.2066321065935477,
      "grad_norm": 4.093058109283447,
      "learning_rate": 5.916432172169038e-05,
      "loss": 0.4018381595611572,
      "memory(GiB)": 70.5,
      "step": 51505,
      "token_acc": 0.5746691871455577,
      "train_speed(iter/s)": 1.449693
    },
    {
      "epoch": 2.206846321922797,
      "grad_norm": 0.16976885497570038,
      "learning_rate": 5.9157705871023426e-05,
      "loss": 0.7254127025604248,
      "memory(GiB)": 70.5,
      "step": 51510,
      "token_acc": 0.8423076923076923,
      "train_speed(iter/s)": 1.449705
    },
    {
      "epoch": 2.2070605372520458,
      "grad_norm": 3.2444660663604736,
      "learning_rate": 5.915108985445603e-05,
      "loss": 0.189738130569458,
      "memory(GiB)": 70.5,
      "step": 51515,
      "token_acc": 0.9527027027027027,
      "train_speed(iter/s)": 1.449717
    },
    {
      "epoch": 2.2072747525812946,
      "grad_norm": 4.515582084655762,
      "learning_rate": 5.914447367210805e-05,
      "loss": 0.2604857921600342,
      "memory(GiB)": 70.5,
      "step": 51520,
      "token_acc": 0.9448275862068966,
      "train_speed(iter/s)": 1.44972
    },
    {
      "epoch": 2.207488967910544,
      "grad_norm": 6.270288944244385,
      "learning_rate": 5.913785732409937e-05,
      "loss": 0.5935777187347412,
      "memory(GiB)": 70.5,
      "step": 51525,
      "token_acc": 0.8552631578947368,
      "train_speed(iter/s)": 1.449725
    },
    {
      "epoch": 2.2077031832397926,
      "grad_norm": 5.082672119140625,
      "learning_rate": 5.913124081054981e-05,
      "loss": 0.2875372886657715,
      "memory(GiB)": 70.5,
      "step": 51530,
      "token_acc": 0.9387755102040817,
      "train_speed(iter/s)": 1.449726
    },
    {
      "epoch": 2.2079173985690415,
      "grad_norm": 4.242832660675049,
      "learning_rate": 5.912462413157926e-05,
      "loss": 0.5190069675445557,
      "memory(GiB)": 70.5,
      "step": 51535,
      "token_acc": 0.8936170212765957,
      "train_speed(iter/s)": 1.449728
    },
    {
      "epoch": 2.2081316138982907,
      "grad_norm": 4.580529689788818,
      "learning_rate": 5.91180072873076e-05,
      "loss": 0.4782750606536865,
      "memory(GiB)": 70.5,
      "step": 51540,
      "token_acc": 0.8928571428571429,
      "train_speed(iter/s)": 1.449725
    },
    {
      "epoch": 2.2083458292275395,
      "grad_norm": 1.757004737854004,
      "learning_rate": 5.9111390277854675e-05,
      "loss": 0.18477821350097656,
      "memory(GiB)": 70.5,
      "step": 51545,
      "token_acc": 0.9515570934256056,
      "train_speed(iter/s)": 1.449731
    },
    {
      "epoch": 2.2085600445567883,
      "grad_norm": 0.39787065982818604,
      "learning_rate": 5.910477310334036e-05,
      "loss": 0.5085625171661377,
      "memory(GiB)": 70.5,
      "step": 51550,
      "token_acc": 0.8996539792387543,
      "train_speed(iter/s)": 1.449736
    },
    {
      "epoch": 2.2087742598860376,
      "grad_norm": 3.4419171810150146,
      "learning_rate": 5.9098155763884554e-05,
      "loss": 0.34318814277648924,
      "memory(GiB)": 70.5,
      "step": 51555,
      "token_acc": 0.939622641509434,
      "train_speed(iter/s)": 1.449736
    },
    {
      "epoch": 2.2089884752152864,
      "grad_norm": 8.027510643005371,
      "learning_rate": 5.909153825960711e-05,
      "loss": 0.6525047779083252,
      "memory(GiB)": 70.5,
      "step": 51560,
      "token_acc": 0.8859934853420195,
      "train_speed(iter/s)": 1.449731
    },
    {
      "epoch": 2.209202690544535,
      "grad_norm": 3.019226551055908,
      "learning_rate": 5.908492059062794e-05,
      "loss": 0.513969087600708,
      "memory(GiB)": 70.5,
      "step": 51565,
      "token_acc": 0.8623188405797102,
      "train_speed(iter/s)": 1.449726
    },
    {
      "epoch": 2.2094169058737845,
      "grad_norm": 2.3480610847473145,
      "learning_rate": 5.907830275706689e-05,
      "loss": 0.1021493911743164,
      "memory(GiB)": 70.5,
      "step": 51570,
      "token_acc": 0.9775641025641025,
      "train_speed(iter/s)": 1.449721
    },
    {
      "epoch": 2.2096311212030333,
      "grad_norm": 6.165764808654785,
      "learning_rate": 5.907168475904388e-05,
      "loss": 0.303079891204834,
      "memory(GiB)": 70.5,
      "step": 51575,
      "token_acc": 0.9375,
      "train_speed(iter/s)": 1.449742
    },
    {
      "epoch": 2.209845336532282,
      "grad_norm": 0.6493340134620667,
      "learning_rate": 5.906506659667878e-05,
      "loss": 0.6484148502349854,
      "memory(GiB)": 70.5,
      "step": 51580,
      "token_acc": 0.9050847457627119,
      "train_speed(iter/s)": 1.449744
    },
    {
      "epoch": 2.2100595518615314,
      "grad_norm": 3.0141170024871826,
      "learning_rate": 5.905844827009151e-05,
      "loss": 0.30763022899627684,
      "memory(GiB)": 70.5,
      "step": 51585,
      "token_acc": 0.9472049689440993,
      "train_speed(iter/s)": 1.449741
    },
    {
      "epoch": 2.21027376719078,
      "grad_norm": 3.9710803031921387,
      "learning_rate": 5.905182977940195e-05,
      "loss": 0.5433608055114746,
      "memory(GiB)": 70.5,
      "step": 51590,
      "token_acc": 0.8916083916083916,
      "train_speed(iter/s)": 1.449738
    },
    {
      "epoch": 2.210487982520029,
      "grad_norm": 1.3597582578659058,
      "learning_rate": 5.904521112472999e-05,
      "loss": 0.36143791675567627,
      "memory(GiB)": 70.5,
      "step": 51595,
      "token_acc": 0.9475308641975309,
      "train_speed(iter/s)": 1.449726
    },
    {
      "epoch": 2.2107021978492782,
      "grad_norm": 1.4851993322372437,
      "learning_rate": 5.903859230619556e-05,
      "loss": 0.35996222496032715,
      "memory(GiB)": 70.5,
      "step": 51600,
      "token_acc": 0.9311377245508982,
      "train_speed(iter/s)": 1.449727
    },
    {
      "epoch": 2.210916413178527,
      "grad_norm": 1.2720882892608643,
      "learning_rate": 5.903197332391853e-05,
      "loss": 0.4410989761352539,
      "memory(GiB)": 70.5,
      "step": 51605,
      "token_acc": 0.9019607843137255,
      "train_speed(iter/s)": 1.449725
    },
    {
      "epoch": 2.211130628507776,
      "grad_norm": 1.7728787660598755,
      "learning_rate": 5.902535417801884e-05,
      "loss": 0.3158538818359375,
      "memory(GiB)": 70.5,
      "step": 51610,
      "token_acc": 0.9302325581395349,
      "train_speed(iter/s)": 1.449711
    },
    {
      "epoch": 2.211344843837025,
      "grad_norm": 4.101406574249268,
      "learning_rate": 5.901873486861641e-05,
      "loss": 0.5751792430877686,
      "memory(GiB)": 70.5,
      "step": 51615,
      "token_acc": 0.8498293515358362,
      "train_speed(iter/s)": 1.449708
    },
    {
      "epoch": 2.211559059166274,
      "grad_norm": 3.3314948081970215,
      "learning_rate": 5.901211539583111e-05,
      "loss": 0.42035694122314454,
      "memory(GiB)": 70.5,
      "step": 51620,
      "token_acc": 0.8991596638655462,
      "train_speed(iter/s)": 1.449712
    },
    {
      "epoch": 2.2117732744955227,
      "grad_norm": 3.1209747791290283,
      "learning_rate": 5.900549575978291e-05,
      "loss": 0.5162035465240479,
      "memory(GiB)": 70.5,
      "step": 51625,
      "token_acc": 0.9090909090909091,
      "train_speed(iter/s)": 1.449727
    },
    {
      "epoch": 2.211987489824772,
      "grad_norm": 7.850344181060791,
      "learning_rate": 5.899887596059171e-05,
      "loss": 0.7029481410980225,
      "memory(GiB)": 70.5,
      "step": 51630,
      "token_acc": 0.8781362007168458,
      "train_speed(iter/s)": 1.449738
    },
    {
      "epoch": 2.212201705154021,
      "grad_norm": 5.772072792053223,
      "learning_rate": 5.899225599837741e-05,
      "loss": 0.45394697189331057,
      "memory(GiB)": 70.5,
      "step": 51635,
      "token_acc": 0.9074733096085409,
      "train_speed(iter/s)": 1.449734
    },
    {
      "epoch": 2.2124159204832696,
      "grad_norm": 4.931660175323486,
      "learning_rate": 5.8985635873259956e-05,
      "loss": 0.5790389060974122,
      "memory(GiB)": 70.5,
      "step": 51640,
      "token_acc": 0.896551724137931,
      "train_speed(iter/s)": 1.44974
    },
    {
      "epoch": 2.212630135812519,
      "grad_norm": 5.073096752166748,
      "learning_rate": 5.8979015585359296e-05,
      "loss": 0.4463081359863281,
      "memory(GiB)": 70.5,
      "step": 51645,
      "token_acc": 0.8823529411764706,
      "train_speed(iter/s)": 1.449752
    },
    {
      "epoch": 2.2128443511417677,
      "grad_norm": 2.5553786754608154,
      "learning_rate": 5.897239513479532e-05,
      "loss": 0.2724622249603271,
      "memory(GiB)": 70.5,
      "step": 51650,
      "token_acc": 0.9358108108108109,
      "train_speed(iter/s)": 1.449759
    },
    {
      "epoch": 2.2130585664710165,
      "grad_norm": 0.23210838437080383,
      "learning_rate": 5.896577452168801e-05,
      "loss": 0.21689856052398682,
      "memory(GiB)": 70.5,
      "step": 51655,
      "token_acc": 0.9498069498069498,
      "train_speed(iter/s)": 1.449767
    },
    {
      "epoch": 2.2132727818002658,
      "grad_norm": 2.9007210731506348,
      "learning_rate": 5.8959153746157294e-05,
      "loss": 0.2384674072265625,
      "memory(GiB)": 70.5,
      "step": 51660,
      "token_acc": 0.9487179487179487,
      "train_speed(iter/s)": 1.449767
    },
    {
      "epoch": 2.2134869971295146,
      "grad_norm": 2.412012815475464,
      "learning_rate": 5.895253280832308e-05,
      "loss": 0.213645076751709,
      "memory(GiB)": 70.5,
      "step": 51665,
      "token_acc": 0.9447852760736196,
      "train_speed(iter/s)": 1.449776
    },
    {
      "epoch": 2.2137012124587634,
      "grad_norm": 2.44979190826416,
      "learning_rate": 5.894591170830536e-05,
      "loss": 0.2246773958206177,
      "memory(GiB)": 70.5,
      "step": 51670,
      "token_acc": 0.9405940594059405,
      "train_speed(iter/s)": 1.449781
    },
    {
      "epoch": 2.2139154277880126,
      "grad_norm": 2.2641701698303223,
      "learning_rate": 5.893929044622404e-05,
      "loss": 0.2315523862838745,
      "memory(GiB)": 70.5,
      "step": 51675,
      "token_acc": 0.948948948948949,
      "train_speed(iter/s)": 1.44978
    },
    {
      "epoch": 2.2141296431172615,
      "grad_norm": 3.960909843444824,
      "learning_rate": 5.8932669022199095e-05,
      "loss": 0.32328917980194094,
      "memory(GiB)": 70.5,
      "step": 51680,
      "token_acc": 0.9283154121863799,
      "train_speed(iter/s)": 1.449782
    },
    {
      "epoch": 2.2143438584465103,
      "grad_norm": 5.725348949432373,
      "learning_rate": 5.892604743635045e-05,
      "loss": 0.43845090866088865,
      "memory(GiB)": 70.5,
      "step": 51685,
      "token_acc": 0.924,
      "train_speed(iter/s)": 1.44978
    },
    {
      "epoch": 2.2145580737757595,
      "grad_norm": 3.8541066646575928,
      "learning_rate": 5.891942568879811e-05,
      "loss": 0.3449028730392456,
      "memory(GiB)": 70.5,
      "step": 51690,
      "token_acc": 0.92,
      "train_speed(iter/s)": 1.449778
    },
    {
      "epoch": 2.2147722891050083,
      "grad_norm": 2.5143232345581055,
      "learning_rate": 5.8912803779662e-05,
      "loss": 0.2637375593185425,
      "memory(GiB)": 70.5,
      "step": 51695,
      "token_acc": 0.9323843416370107,
      "train_speed(iter/s)": 1.449778
    },
    {
      "epoch": 2.214986504434257,
      "grad_norm": 2.477506160736084,
      "learning_rate": 5.890618170906208e-05,
      "loss": 0.38475356101989744,
      "memory(GiB)": 70.5,
      "step": 51700,
      "token_acc": 0.9294478527607362,
      "train_speed(iter/s)": 1.449793
    },
    {
      "epoch": 2.2152007197635064,
      "grad_norm": 2.0137648582458496,
      "learning_rate": 5.889955947711834e-05,
      "loss": 0.2433213472366333,
      "memory(GiB)": 70.5,
      "step": 51705,
      "token_acc": 0.9615384615384616,
      "train_speed(iter/s)": 1.449794
    },
    {
      "epoch": 2.215414935092755,
      "grad_norm": 2.1868538856506348,
      "learning_rate": 5.8892937083950704e-05,
      "loss": 0.5304313659667969,
      "memory(GiB)": 70.5,
      "step": 51710,
      "token_acc": 0.9113924050632911,
      "train_speed(iter/s)": 1.44981
    },
    {
      "epoch": 2.215629150422004,
      "grad_norm": 0.9693938493728638,
      "learning_rate": 5.8886314529679196e-05,
      "loss": 0.17914758920669555,
      "memory(GiB)": 70.5,
      "step": 51715,
      "token_acc": 0.9567901234567902,
      "train_speed(iter/s)": 1.449812
    },
    {
      "epoch": 2.2158433657512533,
      "grad_norm": 3.1503818035125732,
      "learning_rate": 5.8879691814423744e-05,
      "loss": 0.5272690296173096,
      "memory(GiB)": 70.5,
      "step": 51720,
      "token_acc": 0.8982456140350877,
      "train_speed(iter/s)": 1.449819
    },
    {
      "epoch": 2.216057581080502,
      "grad_norm": 3.8430449962615967,
      "learning_rate": 5.8873068938304355e-05,
      "loss": 0.315415358543396,
      "memory(GiB)": 70.5,
      "step": 51725,
      "token_acc": 0.9547325102880658,
      "train_speed(iter/s)": 1.449831
    },
    {
      "epoch": 2.216271796409751,
      "grad_norm": 4.062384605407715,
      "learning_rate": 5.8866445901441e-05,
      "loss": 0.37226340770721433,
      "memory(GiB)": 70.5,
      "step": 51730,
      "token_acc": 0.9287671232876712,
      "train_speed(iter/s)": 1.449831
    },
    {
      "epoch": 2.216486011739,
      "grad_norm": 1.2742401361465454,
      "learning_rate": 5.885982270395366e-05,
      "loss": 0.30116612911224366,
      "memory(GiB)": 70.5,
      "step": 51735,
      "token_acc": 0.928030303030303,
      "train_speed(iter/s)": 1.44983
    },
    {
      "epoch": 2.216700227068249,
      "grad_norm": 4.490481376647949,
      "learning_rate": 5.885319934596233e-05,
      "loss": 0.1842116117477417,
      "memory(GiB)": 70.5,
      "step": 51740,
      "token_acc": 0.9646302250803859,
      "train_speed(iter/s)": 1.449838
    },
    {
      "epoch": 2.216914442397498,
      "grad_norm": 1.8207494020462036,
      "learning_rate": 5.884657582758698e-05,
      "loss": 0.2619371175765991,
      "memory(GiB)": 70.5,
      "step": 51745,
      "token_acc": 0.9428571428571428,
      "train_speed(iter/s)": 1.449848
    },
    {
      "epoch": 2.217128657726747,
      "grad_norm": 3.8815107345581055,
      "learning_rate": 5.8839952148947594e-05,
      "loss": 0.24978852272033691,
      "memory(GiB)": 70.5,
      "step": 51750,
      "token_acc": 0.9419354838709677,
      "train_speed(iter/s)": 1.449855
    },
    {
      "epoch": 2.217342873055996,
      "grad_norm": 7.706562042236328,
      "learning_rate": 5.8833328310164215e-05,
      "loss": 0.48983373641967776,
      "memory(GiB)": 70.5,
      "step": 51755,
      "token_acc": 0.916,
      "train_speed(iter/s)": 1.449854
    },
    {
      "epoch": 2.2175570883852447,
      "grad_norm": 3.6941452026367188,
      "learning_rate": 5.882670431135677e-05,
      "loss": 0.34437811374664307,
      "memory(GiB)": 70.5,
      "step": 51760,
      "token_acc": 0.9122807017543859,
      "train_speed(iter/s)": 1.449854
    },
    {
      "epoch": 2.217771303714494,
      "grad_norm": 2.904989719390869,
      "learning_rate": 5.882008015264532e-05,
      "loss": 0.3471388816833496,
      "memory(GiB)": 70.5,
      "step": 51765,
      "token_acc": 0.9255663430420712,
      "train_speed(iter/s)": 1.449856
    },
    {
      "epoch": 2.2179855190437427,
      "grad_norm": 3.0537476539611816,
      "learning_rate": 5.8813455834149846e-05,
      "loss": 0.23482890129089357,
      "memory(GiB)": 70.5,
      "step": 51770,
      "token_acc": 0.9576923076923077,
      "train_speed(iter/s)": 1.449867
    },
    {
      "epoch": 2.2181997343729916,
      "grad_norm": 4.368670463562012,
      "learning_rate": 5.880683135599034e-05,
      "loss": 0.36423916816711427,
      "memory(GiB)": 70.5,
      "step": 51775,
      "token_acc": 0.9446494464944649,
      "train_speed(iter/s)": 1.449868
    },
    {
      "epoch": 2.218413949702241,
      "grad_norm": 4.678079605102539,
      "learning_rate": 5.880020671828683e-05,
      "loss": 0.471403980255127,
      "memory(GiB)": 70.5,
      "step": 51780,
      "token_acc": 0.8817567567567568,
      "train_speed(iter/s)": 1.449884
    },
    {
      "epoch": 2.2186281650314896,
      "grad_norm": 3.7022910118103027,
      "learning_rate": 5.879358192115932e-05,
      "loss": 0.6368526935577392,
      "memory(GiB)": 70.5,
      "step": 51785,
      "token_acc": 0.8741721854304636,
      "train_speed(iter/s)": 1.449912
    },
    {
      "epoch": 2.2188423803607384,
      "grad_norm": 0.7959430813789368,
      "learning_rate": 5.8786956964727834e-05,
      "loss": 0.24494729042053223,
      "memory(GiB)": 70.5,
      "step": 51790,
      "token_acc": 0.9453376205787781,
      "train_speed(iter/s)": 1.449916
    },
    {
      "epoch": 2.2190565956899877,
      "grad_norm": 2.68110990524292,
      "learning_rate": 5.878033184911236e-05,
      "loss": 0.5054098606109619,
      "memory(GiB)": 70.5,
      "step": 51795,
      "token_acc": 0.916955017301038,
      "train_speed(iter/s)": 1.449912
    },
    {
      "epoch": 2.2192708110192365,
      "grad_norm": 2.9326205253601074,
      "learning_rate": 5.877370657443294e-05,
      "loss": 0.2690433025360107,
      "memory(GiB)": 70.5,
      "step": 51800,
      "token_acc": 0.937007874015748,
      "train_speed(iter/s)": 1.449916
    },
    {
      "epoch": 2.2194850263484853,
      "grad_norm": 4.653321743011475,
      "learning_rate": 5.876708114080961e-05,
      "loss": 0.27941868305206297,
      "memory(GiB)": 70.5,
      "step": 51805,
      "token_acc": 0.9549295774647887,
      "train_speed(iter/s)": 1.449913
    },
    {
      "epoch": 2.2196992416777346,
      "grad_norm": 5.816536903381348,
      "learning_rate": 5.876045554836237e-05,
      "loss": 0.21439528465270996,
      "memory(GiB)": 70.5,
      "step": 51810,
      "token_acc": 0.948051948051948,
      "train_speed(iter/s)": 1.449913
    },
    {
      "epoch": 2.2199134570069834,
      "grad_norm": 0.8606597185134888,
      "learning_rate": 5.875382979721127e-05,
      "loss": 0.3664278268814087,
      "memory(GiB)": 70.5,
      "step": 51815,
      "token_acc": 0.9300911854103343,
      "train_speed(iter/s)": 1.449916
    },
    {
      "epoch": 2.220127672336232,
      "grad_norm": 3.6307766437530518,
      "learning_rate": 5.874720388747632e-05,
      "loss": 0.39805192947387696,
      "memory(GiB)": 70.5,
      "step": 51820,
      "token_acc": 0.9239130434782609,
      "train_speed(iter/s)": 1.44992
    },
    {
      "epoch": 2.2203418876654815,
      "grad_norm": 7.135588645935059,
      "learning_rate": 5.874057781927756e-05,
      "loss": 0.3095508813858032,
      "memory(GiB)": 70.5,
      "step": 51825,
      "token_acc": 0.940677966101695,
      "train_speed(iter/s)": 1.449911
    },
    {
      "epoch": 2.2205561029947303,
      "grad_norm": 4.107687950134277,
      "learning_rate": 5.8733951592735045e-05,
      "loss": 0.6605735778808594,
      "memory(GiB)": 70.5,
      "step": 51830,
      "token_acc": 0.8653846153846154,
      "train_speed(iter/s)": 1.449918
    },
    {
      "epoch": 2.220770318323979,
      "grad_norm": 1.9040714502334595,
      "learning_rate": 5.8727325207968806e-05,
      "loss": 0.22101821899414062,
      "memory(GiB)": 70.5,
      "step": 51835,
      "token_acc": 0.94921875,
      "train_speed(iter/s)": 1.44992
    },
    {
      "epoch": 2.2209845336532283,
      "grad_norm": 1.0491713285446167,
      "learning_rate": 5.872069866509887e-05,
      "loss": 0.3612942934036255,
      "memory(GiB)": 70.5,
      "step": 51840,
      "token_acc": 0.924901185770751,
      "train_speed(iter/s)": 1.449912
    },
    {
      "epoch": 2.221198748982477,
      "grad_norm": 3.558867931365967,
      "learning_rate": 5.871407196424532e-05,
      "loss": 0.26006624698638914,
      "memory(GiB)": 70.5,
      "step": 51845,
      "token_acc": 0.935251798561151,
      "train_speed(iter/s)": 1.449915
    },
    {
      "epoch": 2.221412964311726,
      "grad_norm": 6.494116306304932,
      "learning_rate": 5.870744510552817e-05,
      "loss": 0.6002049446105957,
      "memory(GiB)": 70.5,
      "step": 51850,
      "token_acc": 0.8884758364312267,
      "train_speed(iter/s)": 1.449955
    },
    {
      "epoch": 2.2216271796409752,
      "grad_norm": 3.6415743827819824,
      "learning_rate": 5.8700818089067474e-05,
      "loss": 0.5776042938232422,
      "memory(GiB)": 70.5,
      "step": 51855,
      "token_acc": 0.8931297709923665,
      "train_speed(iter/s)": 1.449964
    },
    {
      "epoch": 2.221841394970224,
      "grad_norm": 2.310748815536499,
      "learning_rate": 5.8694190914983317e-05,
      "loss": 0.34522697925567625,
      "memory(GiB)": 70.5,
      "step": 51860,
      "token_acc": 0.9246575342465754,
      "train_speed(iter/s)": 1.44997
    },
    {
      "epoch": 2.222055610299473,
      "grad_norm": 4.885250091552734,
      "learning_rate": 5.868756358339572e-05,
      "loss": 0.5774139404296875,
      "memory(GiB)": 70.5,
      "step": 51865,
      "token_acc": 0.8541666666666666,
      "train_speed(iter/s)": 1.449988
    },
    {
      "epoch": 2.222269825628722,
      "grad_norm": 2.338010311126709,
      "learning_rate": 5.8680936094424754e-05,
      "loss": 0.24787886142730714,
      "memory(GiB)": 70.5,
      "step": 51870,
      "token_acc": 0.9453924914675768,
      "train_speed(iter/s)": 1.449997
    },
    {
      "epoch": 2.222484040957971,
      "grad_norm": 3.0369317531585693,
      "learning_rate": 5.8674308448190506e-05,
      "loss": 0.25834126472473146,
      "memory(GiB)": 70.5,
      "step": 51875,
      "token_acc": 0.942652329749104,
      "train_speed(iter/s)": 1.449993
    },
    {
      "epoch": 2.2226982562872197,
      "grad_norm": 0.24679502844810486,
      "learning_rate": 5.8667680644813005e-05,
      "loss": 0.21809329986572265,
      "memory(GiB)": 70.5,
      "step": 51880,
      "token_acc": 0.9482071713147411,
      "train_speed(iter/s)": 1.449997
    },
    {
      "epoch": 2.222912471616469,
      "grad_norm": 3.2286267280578613,
      "learning_rate": 5.8661052684412354e-05,
      "loss": 0.4511703014373779,
      "memory(GiB)": 70.5,
      "step": 51885,
      "token_acc": 0.8984615384615384,
      "train_speed(iter/s)": 1.449998
    },
    {
      "epoch": 2.223126686945718,
      "grad_norm": 4.690120697021484,
      "learning_rate": 5.86544245671086e-05,
      "loss": 0.6938035488128662,
      "memory(GiB)": 70.5,
      "step": 51890,
      "token_acc": 0.8542372881355932,
      "train_speed(iter/s)": 1.450002
    },
    {
      "epoch": 2.2233409022749666,
      "grad_norm": 1.797331690788269,
      "learning_rate": 5.8647796293021826e-05,
      "loss": 0.32368154525756837,
      "memory(GiB)": 70.5,
      "step": 51895,
      "token_acc": 0.9342560553633218,
      "train_speed(iter/s)": 1.450001
    },
    {
      "epoch": 2.223555117604216,
      "grad_norm": 5.67279577255249,
      "learning_rate": 5.864116786227212e-05,
      "loss": 0.6454895973205567,
      "memory(GiB)": 70.5,
      "step": 51900,
      "token_acc": 0.8682432432432432,
      "train_speed(iter/s)": 1.449997
    },
    {
      "epoch": 2.2237693329334647,
      "grad_norm": 4.15754508972168,
      "learning_rate": 5.863453927497954e-05,
      "loss": 0.22310004234313965,
      "memory(GiB)": 70.5,
      "step": 51905,
      "token_acc": 0.952054794520548,
      "train_speed(iter/s)": 1.44999
    },
    {
      "epoch": 2.2239835482627135,
      "grad_norm": 5.471196174621582,
      "learning_rate": 5.8627910531264176e-05,
      "loss": 0.36933557987213134,
      "memory(GiB)": 70.5,
      "step": 51910,
      "token_acc": 0.92,
      "train_speed(iter/s)": 1.449979
    },
    {
      "epoch": 2.2241977635919628,
      "grad_norm": 3.3487257957458496,
      "learning_rate": 5.862128163124613e-05,
      "loss": 0.44631519317626955,
      "memory(GiB)": 70.5,
      "step": 51915,
      "token_acc": 0.8945686900958466,
      "train_speed(iter/s)": 1.449993
    },
    {
      "epoch": 2.2244119789212116,
      "grad_norm": 2.150068759918213,
      "learning_rate": 5.861465257504548e-05,
      "loss": 0.343535041809082,
      "memory(GiB)": 70.5,
      "step": 51920,
      "token_acc": 0.924812030075188,
      "train_speed(iter/s)": 1.449992
    },
    {
      "epoch": 2.2246261942504604,
      "grad_norm": 2.5648670196533203,
      "learning_rate": 5.8608023362782316e-05,
      "loss": 0.28977968692779543,
      "memory(GiB)": 70.5,
      "step": 51925,
      "token_acc": 0.9273927392739274,
      "train_speed(iter/s)": 1.449997
    },
    {
      "epoch": 2.2248404095797096,
      "grad_norm": 2.6238832473754883,
      "learning_rate": 5.8601393994576734e-05,
      "loss": 0.49546422958374026,
      "memory(GiB)": 70.5,
      "step": 51930,
      "token_acc": 0.8693009118541033,
      "train_speed(iter/s)": 1.44999
    },
    {
      "epoch": 2.2250546249089584,
      "grad_norm": 4.209255218505859,
      "learning_rate": 5.859476447054884e-05,
      "loss": 0.3869462013244629,
      "memory(GiB)": 70.5,
      "step": 51935,
      "token_acc": 0.9294478527607362,
      "train_speed(iter/s)": 1.449986
    },
    {
      "epoch": 2.2252688402382073,
      "grad_norm": 2.630281448364258,
      "learning_rate": 5.8588134790818707e-05,
      "loss": 0.26996841430664065,
      "memory(GiB)": 70.5,
      "step": 51940,
      "token_acc": 0.9285714285714286,
      "train_speed(iter/s)": 1.449981
    },
    {
      "epoch": 2.2254830555674565,
      "grad_norm": 2.3545429706573486,
      "learning_rate": 5.858150495550646e-05,
      "loss": 0.27882416248321534,
      "memory(GiB)": 70.5,
      "step": 51945,
      "token_acc": 0.9322033898305084,
      "train_speed(iter/s)": 1.449981
    },
    {
      "epoch": 2.2256972708967053,
      "grad_norm": 3.340320110321045,
      "learning_rate": 5.857487496473221e-05,
      "loss": 0.391330623626709,
      "memory(GiB)": 70.5,
      "step": 51950,
      "token_acc": 0.921311475409836,
      "train_speed(iter/s)": 1.449996
    },
    {
      "epoch": 2.225911486225954,
      "grad_norm": 2.740168571472168,
      "learning_rate": 5.856824481861605e-05,
      "loss": 0.46643381118774413,
      "memory(GiB)": 70.5,
      "step": 51955,
      "token_acc": 0.8978102189781022,
      "train_speed(iter/s)": 1.449994
    },
    {
      "epoch": 2.2261257015552034,
      "grad_norm": 4.273463249206543,
      "learning_rate": 5.85616145172781e-05,
      "loss": 0.17190606594085694,
      "memory(GiB)": 70.5,
      "step": 51960,
      "token_acc": 0.9446254071661238,
      "train_speed(iter/s)": 1.449993
    },
    {
      "epoch": 2.226339916884452,
      "grad_norm": 3.0977859497070312,
      "learning_rate": 5.855498406083847e-05,
      "loss": 0.49559311866760253,
      "memory(GiB)": 70.5,
      "step": 51965,
      "token_acc": 0.886986301369863,
      "train_speed(iter/s)": 1.450026
    },
    {
      "epoch": 2.226554132213701,
      "grad_norm": 1.129059076309204,
      "learning_rate": 5.854835344941727e-05,
      "loss": 0.2545957088470459,
      "memory(GiB)": 70.5,
      "step": 51970,
      "token_acc": 0.9411764705882353,
      "train_speed(iter/s)": 1.450027
    },
    {
      "epoch": 2.2267683475429503,
      "grad_norm": 3.7239654064178467,
      "learning_rate": 5.854172268313465e-05,
      "loss": 0.48371243476867676,
      "memory(GiB)": 70.5,
      "step": 51975,
      "token_acc": 0.910828025477707,
      "train_speed(iter/s)": 1.45003
    },
    {
      "epoch": 2.226982562872199,
      "grad_norm": 3.681192398071289,
      "learning_rate": 5.8535091762110695e-05,
      "loss": 0.5693175792694092,
      "memory(GiB)": 70.5,
      "step": 51980,
      "token_acc": 0.8773584905660378,
      "train_speed(iter/s)": 1.450019
    },
    {
      "epoch": 2.227196778201448,
      "grad_norm": 1.6798123121261597,
      "learning_rate": 5.852846068646554e-05,
      "loss": 0.4093451023101807,
      "memory(GiB)": 70.5,
      "step": 51985,
      "token_acc": 0.8943661971830986,
      "train_speed(iter/s)": 1.450036
    },
    {
      "epoch": 2.227410993530697,
      "grad_norm": 4.795599937438965,
      "learning_rate": 5.8521829456319334e-05,
      "loss": 0.4179224014282227,
      "memory(GiB)": 70.5,
      "step": 51990,
      "token_acc": 0.8880597014925373,
      "train_speed(iter/s)": 1.450035
    },
    {
      "epoch": 2.227625208859946,
      "grad_norm": 5.838315010070801,
      "learning_rate": 5.851519807179219e-05,
      "loss": 0.4582851409912109,
      "memory(GiB)": 70.5,
      "step": 51995,
      "token_acc": 0.9053627760252366,
      "train_speed(iter/s)": 1.450041
    },
    {
      "epoch": 2.227839424189195,
      "grad_norm": 3.6778085231781006,
      "learning_rate": 5.850856653300424e-05,
      "loss": 0.25558791160583494,
      "memory(GiB)": 70.5,
      "step": 52000,
      "token_acc": 0.941717791411043,
      "train_speed(iter/s)": 1.450033
    },
    {
      "epoch": 2.227839424189195,
      "eval_loss": 2.4211320877075195,
      "eval_runtime": 14.121,
      "eval_samples_per_second": 7.082,
      "eval_steps_per_second": 7.082,
      "eval_token_acc": 0.44623655913978494,
      "step": 52000
    },
    {
      "epoch": 2.228053639518444,
      "grad_norm": 2.9643747806549072,
      "learning_rate": 5.850193484007563e-05,
      "loss": 0.30959696769714357,
      "memory(GiB)": 70.5,
      "step": 52005,
      "token_acc": 0.5878442545109211,
      "train_speed(iter/s)": 1.449432
    },
    {
      "epoch": 2.228267854847693,
      "grad_norm": 1.9665124416351318,
      "learning_rate": 5.849530299312649e-05,
      "loss": 0.17825782299041748,
      "memory(GiB)": 70.5,
      "step": 52010,
      "token_acc": 0.95578231292517,
      "train_speed(iter/s)": 1.44944
    },
    {
      "epoch": 2.2284820701769417,
      "grad_norm": 6.740762233734131,
      "learning_rate": 5.848867099227696e-05,
      "loss": 0.7790162086486816,
      "memory(GiB)": 70.5,
      "step": 52015,
      "token_acc": 0.8670694864048338,
      "train_speed(iter/s)": 1.449452
    },
    {
      "epoch": 2.228696285506191,
      "grad_norm": 1.3156815767288208,
      "learning_rate": 5.848203883764721e-05,
      "loss": 0.39795761108398436,
      "memory(GiB)": 70.5,
      "step": 52020,
      "token_acc": 0.9278688524590164,
      "train_speed(iter/s)": 1.449469
    },
    {
      "epoch": 2.2289105008354397,
      "grad_norm": 0.976874828338623,
      "learning_rate": 5.8475406529357356e-05,
      "loss": 0.11487489938735962,
      "memory(GiB)": 70.5,
      "step": 52025,
      "token_acc": 0.954225352112676,
      "train_speed(iter/s)": 1.449475
    },
    {
      "epoch": 2.2291247161646885,
      "grad_norm": 0.2605103552341461,
      "learning_rate": 5.8468774067527575e-05,
      "loss": 0.2997324228286743,
      "memory(GiB)": 70.5,
      "step": 52030,
      "token_acc": 0.946236559139785,
      "train_speed(iter/s)": 1.449477
    },
    {
      "epoch": 2.229338931493938,
      "grad_norm": 1.858055591583252,
      "learning_rate": 5.8462141452277995e-05,
      "loss": 0.19895342588424683,
      "memory(GiB)": 70.5,
      "step": 52035,
      "token_acc": 0.96484375,
      "train_speed(iter/s)": 1.449494
    },
    {
      "epoch": 2.2295531468231866,
      "grad_norm": 4.758909225463867,
      "learning_rate": 5.845550868372879e-05,
      "loss": 0.3157306432723999,
      "memory(GiB)": 70.5,
      "step": 52040,
      "token_acc": 0.9454545454545454,
      "train_speed(iter/s)": 1.449501
    },
    {
      "epoch": 2.2297673621524354,
      "grad_norm": 6.597296714782715,
      "learning_rate": 5.844887576200012e-05,
      "loss": 0.7061738967895508,
      "memory(GiB)": 70.5,
      "step": 52045,
      "token_acc": 0.8540925266903915,
      "train_speed(iter/s)": 1.449507
    },
    {
      "epoch": 2.2299815774816847,
      "grad_norm": 6.494606018066406,
      "learning_rate": 5.844224268721214e-05,
      "loss": 0.37275080680847167,
      "memory(GiB)": 70.5,
      "step": 52050,
      "token_acc": 0.9195402298850575,
      "train_speed(iter/s)": 1.449503
    },
    {
      "epoch": 2.2301957928109335,
      "grad_norm": 1.7185115814208984,
      "learning_rate": 5.843560945948499e-05,
      "loss": 0.33068509101867677,
      "memory(GiB)": 70.5,
      "step": 52055,
      "token_acc": 0.9438202247191011,
      "train_speed(iter/s)": 1.449518
    },
    {
      "epoch": 2.2304100081401823,
      "grad_norm": 2.3445537090301514,
      "learning_rate": 5.8428976078938877e-05,
      "loss": 0.283681321144104,
      "memory(GiB)": 70.5,
      "step": 52060,
      "token_acc": 0.9400749063670412,
      "train_speed(iter/s)": 1.449535
    },
    {
      "epoch": 2.2306242234694316,
      "grad_norm": 0.5587276220321655,
      "learning_rate": 5.842234254569396e-05,
      "loss": 0.18108830451965333,
      "memory(GiB)": 70.5,
      "step": 52065,
      "token_acc": 0.9534883720930233,
      "train_speed(iter/s)": 1.44954
    },
    {
      "epoch": 2.2308384387986804,
      "grad_norm": 2.3909056186676025,
      "learning_rate": 5.84157088598704e-05,
      "loss": 0.366547679901123,
      "memory(GiB)": 70.5,
      "step": 52070,
      "token_acc": 0.9057750759878419,
      "train_speed(iter/s)": 1.449539
    },
    {
      "epoch": 2.231052654127929,
      "grad_norm": 7.275413513183594,
      "learning_rate": 5.840907502158839e-05,
      "loss": 0.6313671588897705,
      "memory(GiB)": 70.5,
      "step": 52075,
      "token_acc": 0.8715953307392996,
      "train_speed(iter/s)": 1.449537
    },
    {
      "epoch": 2.2312668694571784,
      "grad_norm": 0.8404770493507385,
      "learning_rate": 5.84024410309681e-05,
      "loss": 0.7675891399383545,
      "memory(GiB)": 70.5,
      "step": 52080,
      "token_acc": 0.8542274052478134,
      "train_speed(iter/s)": 1.449551
    },
    {
      "epoch": 2.2314810847864273,
      "grad_norm": 3.242980480194092,
      "learning_rate": 5.839580688812969e-05,
      "loss": 0.2815993309020996,
      "memory(GiB)": 70.5,
      "step": 52085,
      "token_acc": 0.939622641509434,
      "train_speed(iter/s)": 1.449549
    },
    {
      "epoch": 2.231695300115676,
      "grad_norm": 4.894441604614258,
      "learning_rate": 5.8389172593193365e-05,
      "loss": 0.3491365432739258,
      "memory(GiB)": 70.5,
      "step": 52090,
      "token_acc": 0.9038461538461539,
      "train_speed(iter/s)": 1.449544
    },
    {
      "epoch": 2.2319095154449253,
      "grad_norm": 3.300809383392334,
      "learning_rate": 5.838253814627932e-05,
      "loss": 0.5104000091552734,
      "memory(GiB)": 70.5,
      "step": 52095,
      "token_acc": 0.9017857142857143,
      "train_speed(iter/s)": 1.449552
    },
    {
      "epoch": 2.232123730774174,
      "grad_norm": 6.306825637817383,
      "learning_rate": 5.8375903547507724e-05,
      "loss": 0.5785128116607666,
      "memory(GiB)": 70.5,
      "step": 52100,
      "token_acc": 0.8892307692307693,
      "train_speed(iter/s)": 1.449587
    },
    {
      "epoch": 2.232337946103423,
      "grad_norm": 5.565030574798584,
      "learning_rate": 5.836926879699879e-05,
      "loss": 0.33343145847320554,
      "memory(GiB)": 70.5,
      "step": 52105,
      "token_acc": 0.9264069264069265,
      "train_speed(iter/s)": 1.449585
    },
    {
      "epoch": 2.232552161432672,
      "grad_norm": 3.0183873176574707,
      "learning_rate": 5.83626338948727e-05,
      "loss": 0.4817360401153564,
      "memory(GiB)": 70.5,
      "step": 52110,
      "token_acc": 0.8916967509025271,
      "train_speed(iter/s)": 1.449589
    },
    {
      "epoch": 2.232766376761921,
      "grad_norm": 6.62835693359375,
      "learning_rate": 5.835599884124964e-05,
      "loss": 0.6601252079010009,
      "memory(GiB)": 70.5,
      "step": 52115,
      "token_acc": 0.8571428571428571,
      "train_speed(iter/s)": 1.449592
    },
    {
      "epoch": 2.2329805920911703,
      "grad_norm": 3.840653657913208,
      "learning_rate": 5.8349363636249835e-05,
      "loss": 0.3552763223648071,
      "memory(GiB)": 70.5,
      "step": 52120,
      "token_acc": 0.9068100358422939,
      "train_speed(iter/s)": 1.449589
    },
    {
      "epoch": 2.233194807420419,
      "grad_norm": 2.5838027000427246,
      "learning_rate": 5.834272827999345e-05,
      "loss": 0.2584064960479736,
      "memory(GiB)": 70.5,
      "step": 52125,
      "token_acc": 0.9452054794520548,
      "train_speed(iter/s)": 1.449594
    },
    {
      "epoch": 2.233409022749668,
      "grad_norm": 5.313626766204834,
      "learning_rate": 5.833609277260074e-05,
      "loss": 0.39726862907409666,
      "memory(GiB)": 70.5,
      "step": 52130,
      "token_acc": 0.92,
      "train_speed(iter/s)": 1.449622
    },
    {
      "epoch": 2.233623238078917,
      "grad_norm": 2.1336252689361572,
      "learning_rate": 5.8329457114191886e-05,
      "loss": 0.25207335948944093,
      "memory(GiB)": 70.5,
      "step": 52135,
      "token_acc": 0.9261744966442953,
      "train_speed(iter/s)": 1.449627
    },
    {
      "epoch": 2.233837453408166,
      "grad_norm": 3.453535318374634,
      "learning_rate": 5.832282130488711e-05,
      "loss": 0.48475074768066406,
      "memory(GiB)": 70.5,
      "step": 52140,
      "token_acc": 0.9029850746268657,
      "train_speed(iter/s)": 1.449631
    },
    {
      "epoch": 2.234051668737415,
      "grad_norm": 2.134890079498291,
      "learning_rate": 5.8316185344806596e-05,
      "loss": 0.30536465644836425,
      "memory(GiB)": 70.5,
      "step": 52145,
      "token_acc": 0.9384615384615385,
      "train_speed(iter/s)": 1.44964
    },
    {
      "epoch": 2.234265884066664,
      "grad_norm": 0.6115723252296448,
      "learning_rate": 5.8309549234070605e-05,
      "loss": 0.4223916053771973,
      "memory(GiB)": 70.5,
      "step": 52150,
      "token_acc": 0.9250936329588015,
      "train_speed(iter/s)": 1.449646
    },
    {
      "epoch": 2.234480099395913,
      "grad_norm": 3.2320284843444824,
      "learning_rate": 5.8302912972799315e-05,
      "loss": 0.22940196990966796,
      "memory(GiB)": 70.5,
      "step": 52155,
      "token_acc": 0.9494584837545126,
      "train_speed(iter/s)": 1.449648
    },
    {
      "epoch": 2.2346943147251617,
      "grad_norm": 1.1332906484603882,
      "learning_rate": 5.8296276561112985e-05,
      "loss": 0.20771193504333496,
      "memory(GiB)": 70.5,
      "step": 52160,
      "token_acc": 0.9541666666666667,
      "train_speed(iter/s)": 1.449648
    },
    {
      "epoch": 2.234908530054411,
      "grad_norm": 2.3687613010406494,
      "learning_rate": 5.828963999913182e-05,
      "loss": 0.5951743602752686,
      "memory(GiB)": 70.5,
      "step": 52165,
      "token_acc": 0.8895348837209303,
      "train_speed(iter/s)": 1.449651
    },
    {
      "epoch": 2.2351227453836597,
      "grad_norm": 0.3470629155635834,
      "learning_rate": 5.8283003286976035e-05,
      "loss": 0.24321603775024414,
      "memory(GiB)": 70.5,
      "step": 52170,
      "token_acc": 0.9503311258278145,
      "train_speed(iter/s)": 1.44965
    },
    {
      "epoch": 2.2353369607129085,
      "grad_norm": 2.2655677795410156,
      "learning_rate": 5.827636642476589e-05,
      "loss": 0.19193859100341798,
      "memory(GiB)": 70.5,
      "step": 52175,
      "token_acc": 0.9522292993630573,
      "train_speed(iter/s)": 1.449661
    },
    {
      "epoch": 2.235551176042158,
      "grad_norm": 4.820706844329834,
      "learning_rate": 5.826972941262161e-05,
      "loss": 0.4374522686004639,
      "memory(GiB)": 70.5,
      "step": 52180,
      "token_acc": 0.8901515151515151,
      "train_speed(iter/s)": 1.449674
    },
    {
      "epoch": 2.2357653913714066,
      "grad_norm": 1.3081341981887817,
      "learning_rate": 5.826309225066341e-05,
      "loss": 0.36432180404663084,
      "memory(GiB)": 70.5,
      "step": 52185,
      "token_acc": 0.9300699300699301,
      "train_speed(iter/s)": 1.449684
    },
    {
      "epoch": 2.2359796067006554,
      "grad_norm": 4.959054470062256,
      "learning_rate": 5.825645493901155e-05,
      "loss": 0.8540868759155273,
      "memory(GiB)": 70.5,
      "step": 52190,
      "token_acc": 0.8402366863905325,
      "train_speed(iter/s)": 1.449682
    },
    {
      "epoch": 2.2361938220299047,
      "grad_norm": 2.171531915664673,
      "learning_rate": 5.824981747778626e-05,
      "loss": 0.3841434955596924,
      "memory(GiB)": 70.5,
      "step": 52195,
      "token_acc": 0.8980891719745223,
      "train_speed(iter/s)": 1.44969
    },
    {
      "epoch": 2.2364080373591535,
      "grad_norm": 2.713148593902588,
      "learning_rate": 5.824317986710778e-05,
      "loss": 0.23450865745544433,
      "memory(GiB)": 70.5,
      "step": 52200,
      "token_acc": 0.9413919413919414,
      "train_speed(iter/s)": 1.449691
    },
    {
      "epoch": 2.2366222526884023,
      "grad_norm": 2.9896273612976074,
      "learning_rate": 5.823654210709637e-05,
      "loss": 0.599562406539917,
      "memory(GiB)": 70.5,
      "step": 52205,
      "token_acc": 0.8607242339832869,
      "train_speed(iter/s)": 1.449703
    },
    {
      "epoch": 2.2368364680176516,
      "grad_norm": 3.2028040885925293,
      "learning_rate": 5.8229904197872284e-05,
      "loss": 0.44502873420715333,
      "memory(GiB)": 70.5,
      "step": 52210,
      "token_acc": 0.9212328767123288,
      "train_speed(iter/s)": 1.44969
    },
    {
      "epoch": 2.2370506833469004,
      "grad_norm": 3.990720510482788,
      "learning_rate": 5.822326613955574e-05,
      "loss": 0.41907339096069335,
      "memory(GiB)": 70.5,
      "step": 52215,
      "token_acc": 0.9311475409836065,
      "train_speed(iter/s)": 1.449699
    },
    {
      "epoch": 2.237264898676149,
      "grad_norm": 1.3920363187789917,
      "learning_rate": 5.821662793226704e-05,
      "loss": 0.31293818950653074,
      "memory(GiB)": 70.5,
      "step": 52220,
      "token_acc": 0.939799331103679,
      "train_speed(iter/s)": 1.449695
    },
    {
      "epoch": 2.2374791140053985,
      "grad_norm": 4.155309677124023,
      "learning_rate": 5.820998957612641e-05,
      "loss": 0.38309240341186523,
      "memory(GiB)": 70.5,
      "step": 52225,
      "token_acc": 0.9155844155844156,
      "train_speed(iter/s)": 1.449699
    },
    {
      "epoch": 2.2376933293346473,
      "grad_norm": 0.6575645804405212,
      "learning_rate": 5.820335107125412e-05,
      "loss": 0.2978542327880859,
      "memory(GiB)": 70.5,
      "step": 52230,
      "token_acc": 0.9411764705882353,
      "train_speed(iter/s)": 1.449702
    },
    {
      "epoch": 2.237907544663896,
      "grad_norm": 1.2977255582809448,
      "learning_rate": 5.819671241777043e-05,
      "loss": 0.29032995700836184,
      "memory(GiB)": 70.5,
      "step": 52235,
      "token_acc": 0.9314079422382672,
      "train_speed(iter/s)": 1.449717
    },
    {
      "epoch": 2.2381217599931453,
      "grad_norm": 1.6999094486236572,
      "learning_rate": 5.819007361579558e-05,
      "loss": 0.4566225051879883,
      "memory(GiB)": 70.5,
      "step": 52240,
      "token_acc": 0.9138576779026217,
      "train_speed(iter/s)": 1.449732
    },
    {
      "epoch": 2.238335975322394,
      "grad_norm": 0.12810122966766357,
      "learning_rate": 5.818343466544989e-05,
      "loss": 0.3187387704849243,
      "memory(GiB)": 70.5,
      "step": 52245,
      "token_acc": 0.9357798165137615,
      "train_speed(iter/s)": 1.449733
    },
    {
      "epoch": 2.238550190651643,
      "grad_norm": 3.4493041038513184,
      "learning_rate": 5.8176795566853606e-05,
      "loss": 0.25446171760559083,
      "memory(GiB)": 70.5,
      "step": 52250,
      "token_acc": 0.9477351916376306,
      "train_speed(iter/s)": 1.449749
    },
    {
      "epoch": 2.238764405980892,
      "grad_norm": 6.196792125701904,
      "learning_rate": 5.817015632012699e-05,
      "loss": 0.2755770683288574,
      "memory(GiB)": 70.5,
      "step": 52255,
      "token_acc": 0.9323843416370107,
      "train_speed(iter/s)": 1.449758
    },
    {
      "epoch": 2.238978621310141,
      "grad_norm": 11.474093437194824,
      "learning_rate": 5.816351692539033e-05,
      "loss": 0.4658053398132324,
      "memory(GiB)": 70.5,
      "step": 52260,
      "token_acc": 0.8831615120274914,
      "train_speed(iter/s)": 1.449788
    },
    {
      "epoch": 2.23919283663939,
      "grad_norm": 3.4774158000946045,
      "learning_rate": 5.81568773827639e-05,
      "loss": 0.3389065027236938,
      "memory(GiB)": 70.5,
      "step": 52265,
      "token_acc": 0.9319727891156463,
      "train_speed(iter/s)": 1.449794
    },
    {
      "epoch": 2.239407051968639,
      "grad_norm": 2.4239206314086914,
      "learning_rate": 5.815023769236798e-05,
      "loss": 0.2691312313079834,
      "memory(GiB)": 70.5,
      "step": 52270,
      "token_acc": 0.951048951048951,
      "train_speed(iter/s)": 1.449798
    },
    {
      "epoch": 2.239621267297888,
      "grad_norm": 3.685058355331421,
      "learning_rate": 5.814359785432286e-05,
      "loss": 0.46241350173950196,
      "memory(GiB)": 70.5,
      "step": 52275,
      "token_acc": 0.9147540983606557,
      "train_speed(iter/s)": 1.449802
    },
    {
      "epoch": 2.2398354826271367,
      "grad_norm": 3.6863245964050293,
      "learning_rate": 5.8136957868748844e-05,
      "loss": 0.39353864192962645,
      "memory(GiB)": 70.5,
      "step": 52280,
      "token_acc": 0.9113924050632911,
      "train_speed(iter/s)": 1.449813
    },
    {
      "epoch": 2.240049697956386,
      "grad_norm": 4.49826192855835,
      "learning_rate": 5.813031773576618e-05,
      "loss": 0.35973904132843015,
      "memory(GiB)": 70.5,
      "step": 52285,
      "token_acc": 0.9085173501577287,
      "train_speed(iter/s)": 1.449824
    },
    {
      "epoch": 2.240263913285635,
      "grad_norm": 3.0505995750427246,
      "learning_rate": 5.81236774554952e-05,
      "loss": 0.3769645690917969,
      "memory(GiB)": 70.5,
      "step": 52290,
      "token_acc": 0.9134948096885813,
      "train_speed(iter/s)": 1.44983
    },
    {
      "epoch": 2.2404781286148836,
      "grad_norm": 2.505516290664673,
      "learning_rate": 5.811703702805618e-05,
      "loss": 0.4104153156280518,
      "memory(GiB)": 70.5,
      "step": 52295,
      "token_acc": 0.9275862068965517,
      "train_speed(iter/s)": 1.449859
    },
    {
      "epoch": 2.240692343944133,
      "grad_norm": 5.056509971618652,
      "learning_rate": 5.811039645356941e-05,
      "loss": 0.4438169956207275,
      "memory(GiB)": 70.5,
      "step": 52300,
      "token_acc": 0.8939393939393939,
      "train_speed(iter/s)": 1.449858
    },
    {
      "epoch": 2.2409065592733817,
      "grad_norm": 3.8106203079223633,
      "learning_rate": 5.810375573215521e-05,
      "loss": 0.5517570018768311,
      "memory(GiB)": 70.5,
      "step": 52305,
      "token_acc": 0.889196675900277,
      "train_speed(iter/s)": 1.449858
    },
    {
      "epoch": 2.2411207746026305,
      "grad_norm": 1.1975123882293701,
      "learning_rate": 5.809711486393388e-05,
      "loss": 0.2654069423675537,
      "memory(GiB)": 70.5,
      "step": 52310,
      "token_acc": 0.9365558912386707,
      "train_speed(iter/s)": 1.449878
    },
    {
      "epoch": 2.2413349899318797,
      "grad_norm": 5.38698673248291,
      "learning_rate": 5.8090473849025685e-05,
      "loss": 0.37932658195495605,
      "memory(GiB)": 70.5,
      "step": 52315,
      "token_acc": 0.9163636363636364,
      "train_speed(iter/s)": 1.449883
    },
    {
      "epoch": 2.2415492052611286,
      "grad_norm": 2.297485589981079,
      "learning_rate": 5.8083832687551e-05,
      "loss": 0.32621941566467283,
      "memory(GiB)": 70.5,
      "step": 52320,
      "token_acc": 0.9324324324324325,
      "train_speed(iter/s)": 1.449883
    },
    {
      "epoch": 2.2417634205903774,
      "grad_norm": 4.498394012451172,
      "learning_rate": 5.807719137963009e-05,
      "loss": 0.27379276752471926,
      "memory(GiB)": 70.5,
      "step": 52325,
      "token_acc": 0.9402390438247012,
      "train_speed(iter/s)": 1.449883
    },
    {
      "epoch": 2.2419776359196266,
      "grad_norm": 2.4017460346221924,
      "learning_rate": 5.807054992538328e-05,
      "loss": 0.18548257350921632,
      "memory(GiB)": 70.5,
      "step": 52330,
      "token_acc": 0.9585798816568047,
      "train_speed(iter/s)": 1.449883
    },
    {
      "epoch": 2.2421918512488754,
      "grad_norm": 4.3774638175964355,
      "learning_rate": 5.806390832493089e-05,
      "loss": 0.3778779745101929,
      "memory(GiB)": 70.5,
      "step": 52335,
      "token_acc": 0.9193548387096774,
      "train_speed(iter/s)": 1.449912
    },
    {
      "epoch": 2.2424060665781242,
      "grad_norm": 2.456810712814331,
      "learning_rate": 5.805726657839324e-05,
      "loss": 0.2800804376602173,
      "memory(GiB)": 70.5,
      "step": 52340,
      "token_acc": 0.9532467532467532,
      "train_speed(iter/s)": 1.449913
    },
    {
      "epoch": 2.2426202819073735,
      "grad_norm": 3.5406861305236816,
      "learning_rate": 5.805062468589064e-05,
      "loss": 0.2696718454360962,
      "memory(GiB)": 70.5,
      "step": 52345,
      "token_acc": 0.9429657794676806,
      "train_speed(iter/s)": 1.449903
    },
    {
      "epoch": 2.2428344972366223,
      "grad_norm": 2.926668405532837,
      "learning_rate": 5.8043982647543426e-05,
      "loss": 0.3851790428161621,
      "memory(GiB)": 70.5,
      "step": 52350,
      "token_acc": 0.9181494661921709,
      "train_speed(iter/s)": 1.44991
    },
    {
      "epoch": 2.243048712565871,
      "grad_norm": 5.329750061035156,
      "learning_rate": 5.803734046347192e-05,
      "loss": 0.35979812145233153,
      "memory(GiB)": 70.5,
      "step": 52355,
      "token_acc": 0.9335664335664335,
      "train_speed(iter/s)": 1.449917
    },
    {
      "epoch": 2.2432629278951204,
      "grad_norm": 5.003969669342041,
      "learning_rate": 5.8030698133796445e-05,
      "loss": 0.27737994194030763,
      "memory(GiB)": 70.5,
      "step": 52360,
      "token_acc": 0.9392712550607287,
      "train_speed(iter/s)": 1.449925
    },
    {
      "epoch": 2.243477143224369,
      "grad_norm": 1.402706265449524,
      "learning_rate": 5.802405565863735e-05,
      "loss": 0.35401718616485595,
      "memory(GiB)": 70.5,
      "step": 52365,
      "token_acc": 0.9312714776632303,
      "train_speed(iter/s)": 1.449928
    },
    {
      "epoch": 2.243691358553618,
      "grad_norm": 3.6275134086608887,
      "learning_rate": 5.8017413038114965e-05,
      "loss": 0.41221070289611816,
      "memory(GiB)": 70.5,
      "step": 52370,
      "token_acc": 0.9144736842105263,
      "train_speed(iter/s)": 1.449942
    },
    {
      "epoch": 2.2439055738828673,
      "grad_norm": 3.1742467880249023,
      "learning_rate": 5.8010770272349615e-05,
      "loss": 0.26667261123657227,
      "memory(GiB)": 70.5,
      "step": 52375,
      "token_acc": 0.9372822299651568,
      "train_speed(iter/s)": 1.449953
    },
    {
      "epoch": 2.244119789212116,
      "grad_norm": 5.101417541503906,
      "learning_rate": 5.8004127361461644e-05,
      "loss": 0.538941764831543,
      "memory(GiB)": 70.5,
      "step": 52380,
      "token_acc": 0.8654434250764526,
      "train_speed(iter/s)": 1.449956
    },
    {
      "epoch": 2.244334004541365,
      "grad_norm": 2.237912654876709,
      "learning_rate": 5.799748430557139e-05,
      "loss": 0.6118401050567627,
      "memory(GiB)": 70.5,
      "step": 52385,
      "token_acc": 0.8859934853420195,
      "train_speed(iter/s)": 1.449952
    },
    {
      "epoch": 2.244548219870614,
      "grad_norm": 1.192143201828003,
      "learning_rate": 5.799084110479921e-05,
      "loss": 0.19035494327545166,
      "memory(GiB)": 70.5,
      "step": 52390,
      "token_acc": 0.9628571428571429,
      "train_speed(iter/s)": 1.449954
    },
    {
      "epoch": 2.244762435199863,
      "grad_norm": 1.5636405944824219,
      "learning_rate": 5.798419775926546e-05,
      "loss": 0.3797930717468262,
      "memory(GiB)": 70.5,
      "step": 52395,
      "token_acc": 0.9036544850498339,
      "train_speed(iter/s)": 1.449961
    },
    {
      "epoch": 2.2449766505291118,
      "grad_norm": 2.285092830657959,
      "learning_rate": 5.7977554269090475e-05,
      "loss": 0.2745864152908325,
      "memory(GiB)": 70.5,
      "step": 52400,
      "token_acc": 0.9306569343065694,
      "train_speed(iter/s)": 1.44998
    },
    {
      "epoch": 2.245190865858361,
      "grad_norm": 1.4235252141952515,
      "learning_rate": 5.7970910634394594e-05,
      "loss": 0.21388912200927734,
      "memory(GiB)": 70.5,
      "step": 52405,
      "token_acc": 0.9488188976377953,
      "train_speed(iter/s)": 1.449997
    },
    {
      "epoch": 2.24540508118761,
      "grad_norm": 4.338217258453369,
      "learning_rate": 5.796426685529821e-05,
      "loss": 0.47854185104370117,
      "memory(GiB)": 70.5,
      "step": 52410,
      "token_acc": 0.8996655518394648,
      "train_speed(iter/s)": 1.450007
    },
    {
      "epoch": 2.2456192965168587,
      "grad_norm": 5.65863037109375,
      "learning_rate": 5.795762293192164e-05,
      "loss": 0.5837369918823242,
      "memory(GiB)": 70.5,
      "step": 52415,
      "token_acc": 0.8877887788778878,
      "train_speed(iter/s)": 1.450017
    },
    {
      "epoch": 2.245833511846108,
      "grad_norm": 2.9844653606414795,
      "learning_rate": 5.7950978864385286e-05,
      "loss": 0.2246945858001709,
      "memory(GiB)": 70.5,
      "step": 52420,
      "token_acc": 0.9438202247191011,
      "train_speed(iter/s)": 1.450031
    },
    {
      "epoch": 2.2460477271753567,
      "grad_norm": 3.5591013431549072,
      "learning_rate": 5.7944334652809485e-05,
      "loss": 0.31027586460113527,
      "memory(GiB)": 70.5,
      "step": 52425,
      "token_acc": 0.9219330855018587,
      "train_speed(iter/s)": 1.45003
    },
    {
      "epoch": 2.2462619425046055,
      "grad_norm": 5.291460037231445,
      "learning_rate": 5.7937690297314594e-05,
      "loss": 0.7970645904541016,
      "memory(GiB)": 70.5,
      "step": 52430,
      "token_acc": 0.8587360594795539,
      "train_speed(iter/s)": 1.450028
    },
    {
      "epoch": 2.246476157833855,
      "grad_norm": 1.3253092765808105,
      "learning_rate": 5.793104579802102e-05,
      "loss": 0.32525787353515623,
      "memory(GiB)": 70.5,
      "step": 52435,
      "token_acc": 0.9228486646884273,
      "train_speed(iter/s)": 1.450034
    },
    {
      "epoch": 2.2466903731631036,
      "grad_norm": 2.2848453521728516,
      "learning_rate": 5.79244011550491e-05,
      "loss": 0.14725769758224488,
      "memory(GiB)": 70.5,
      "step": 52440,
      "token_acc": 0.9712230215827338,
      "train_speed(iter/s)": 1.450036
    },
    {
      "epoch": 2.2469045884923524,
      "grad_norm": 3.907160997390747,
      "learning_rate": 5.7917756368519217e-05,
      "loss": 0.45122594833374025,
      "memory(GiB)": 70.5,
      "step": 52445,
      "token_acc": 0.889763779527559,
      "train_speed(iter/s)": 1.450037
    },
    {
      "epoch": 2.2471188038216017,
      "grad_norm": 4.853945732116699,
      "learning_rate": 5.7911111438551754e-05,
      "loss": 0.6026165962219239,
      "memory(GiB)": 70.5,
      "step": 52450,
      "token_acc": 0.8878504672897196,
      "train_speed(iter/s)": 1.450038
    },
    {
      "epoch": 2.2473330191508505,
      "grad_norm": 3.2808356285095215,
      "learning_rate": 5.7904466365267097e-05,
      "loss": 0.4054673671722412,
      "memory(GiB)": 70.5,
      "step": 52455,
      "token_acc": 0.9166666666666666,
      "train_speed(iter/s)": 1.450048
    },
    {
      "epoch": 2.2475472344800993,
      "grad_norm": 4.520842552185059,
      "learning_rate": 5.789782114878559e-05,
      "loss": 0.49213442802429197,
      "memory(GiB)": 70.5,
      "step": 52460,
      "token_acc": 0.9081632653061225,
      "train_speed(iter/s)": 1.450046
    },
    {
      "epoch": 2.2477614498093486,
      "grad_norm": 1.3325215578079224,
      "learning_rate": 5.789117578922767e-05,
      "loss": 0.38770012855529784,
      "memory(GiB)": 70.5,
      "step": 52465,
      "token_acc": 0.9201520912547528,
      "train_speed(iter/s)": 1.450075
    },
    {
      "epoch": 2.2479756651385974,
      "grad_norm": 0.24046337604522705,
      "learning_rate": 5.7884530286713687e-05,
      "loss": 0.10555834770202636,
      "memory(GiB)": 70.5,
      "step": 52470,
      "token_acc": 0.9678571428571429,
      "train_speed(iter/s)": 1.450082
    },
    {
      "epoch": 2.248189880467846,
      "grad_norm": 2.5445492267608643,
      "learning_rate": 5.787788464136403e-05,
      "loss": 0.23370919227600098,
      "memory(GiB)": 70.5,
      "step": 52475,
      "token_acc": 0.9523809523809523,
      "train_speed(iter/s)": 1.450092
    },
    {
      "epoch": 2.2484040957970954,
      "grad_norm": 2.353748083114624,
      "learning_rate": 5.787123885329913e-05,
      "loss": 0.19180119037628174,
      "memory(GiB)": 70.5,
      "step": 52480,
      "token_acc": 0.9471830985915493,
      "train_speed(iter/s)": 1.450087
    },
    {
      "epoch": 2.2486183111263442,
      "grad_norm": 1.2690510749816895,
      "learning_rate": 5.786459292263934e-05,
      "loss": 0.30581321716308596,
      "memory(GiB)": 70.5,
      "step": 52485,
      "token_acc": 0.9354838709677419,
      "train_speed(iter/s)": 1.450087
    },
    {
      "epoch": 2.248832526455593,
      "grad_norm": 7.001256942749023,
      "learning_rate": 5.785794684950506e-05,
      "loss": 0.46362671852111814,
      "memory(GiB)": 70.5,
      "step": 52490,
      "token_acc": 0.8845070422535212,
      "train_speed(iter/s)": 1.450102
    },
    {
      "epoch": 2.2490467417848423,
      "grad_norm": 3.242931365966797,
      "learning_rate": 5.7851300634016724e-05,
      "loss": 0.30791757106781004,
      "memory(GiB)": 70.5,
      "step": 52495,
      "token_acc": 0.9365079365079365,
      "train_speed(iter/s)": 1.450107
    },
    {
      "epoch": 2.249260957114091,
      "grad_norm": 4.177306175231934,
      "learning_rate": 5.784465427629469e-05,
      "loss": 0.3549293041229248,
      "memory(GiB)": 70.5,
      "step": 52500,
      "token_acc": 0.925,
      "train_speed(iter/s)": 1.450111
    },
    {
      "epoch": 2.249260957114091,
      "eval_loss": 2.4387519359588623,
      "eval_runtime": 13.5386,
      "eval_samples_per_second": 7.386,
      "eval_steps_per_second": 7.386,
      "eval_token_acc": 0.4577294685990338,
      "step": 52500
    },
    {
      "epoch": 2.24947517244334,
      "grad_norm": 5.028260707855225,
      "learning_rate": 5.783800777645939e-05,
      "loss": 0.41315221786499023,
      "memory(GiB)": 70.5,
      "step": 52505,
      "token_acc": 0.5681186283595923,
      "train_speed(iter/s)": 1.449525
    },
    {
      "epoch": 2.249689387772589,
      "grad_norm": 2.525174856185913,
      "learning_rate": 5.783136113463125e-05,
      "loss": 0.36772058010101316,
      "memory(GiB)": 70.5,
      "step": 52510,
      "token_acc": 0.9319727891156463,
      "train_speed(iter/s)": 1.449527
    },
    {
      "epoch": 2.249903603101838,
      "grad_norm": 3.035057544708252,
      "learning_rate": 5.782471435093063e-05,
      "loss": 0.34537670612335203,
      "memory(GiB)": 70.5,
      "step": 52515,
      "token_acc": 0.9164086687306502,
      "train_speed(iter/s)": 1.44953
    },
    {
      "epoch": 2.250117818431087,
      "grad_norm": 7.354162216186523,
      "learning_rate": 5.7818067425477976e-05,
      "loss": 0.7275999069213868,
      "memory(GiB)": 70.5,
      "step": 52520,
      "token_acc": 0.8677966101694915,
      "train_speed(iter/s)": 1.449544
    },
    {
      "epoch": 2.250332033760336,
      "grad_norm": 3.3559162616729736,
      "learning_rate": 5.781142035839371e-05,
      "loss": 0.40292768478393554,
      "memory(GiB)": 70.5,
      "step": 52525,
      "token_acc": 0.9140893470790378,
      "train_speed(iter/s)": 1.449538
    },
    {
      "epoch": 2.250546249089585,
      "grad_norm": 6.04686164855957,
      "learning_rate": 5.7804773149798216e-05,
      "loss": 0.45314655303955076,
      "memory(GiB)": 70.5,
      "step": 52530,
      "token_acc": 0.916923076923077,
      "train_speed(iter/s)": 1.449553
    },
    {
      "epoch": 2.2507604644188337,
      "grad_norm": 6.260641574859619,
      "learning_rate": 5.7798125799811944e-05,
      "loss": 0.37197935581207275,
      "memory(GiB)": 70.5,
      "step": 52535,
      "token_acc": 0.9206896551724137,
      "train_speed(iter/s)": 1.449544
    },
    {
      "epoch": 2.250974679748083,
      "grad_norm": 5.497158050537109,
      "learning_rate": 5.77914783085553e-05,
      "loss": 0.5177834510803223,
      "memory(GiB)": 70.5,
      "step": 52540,
      "token_acc": 0.8995983935742972,
      "train_speed(iter/s)": 1.449537
    },
    {
      "epoch": 2.2511888950773318,
      "grad_norm": 4.427728652954102,
      "learning_rate": 5.778483067614874e-05,
      "loss": 0.3128844976425171,
      "memory(GiB)": 70.5,
      "step": 52545,
      "token_acc": 0.925,
      "train_speed(iter/s)": 1.449547
    },
    {
      "epoch": 2.2514031104065806,
      "grad_norm": 4.379026412963867,
      "learning_rate": 5.7778182902712644e-05,
      "loss": 0.3440453052520752,
      "memory(GiB)": 70.5,
      "step": 52550,
      "token_acc": 0.9094202898550725,
      "train_speed(iter/s)": 1.449554
    },
    {
      "epoch": 2.25161732573583,
      "grad_norm": 3.8940658569335938,
      "learning_rate": 5.777153498836748e-05,
      "loss": 0.4477794647216797,
      "memory(GiB)": 70.5,
      "step": 52555,
      "token_acc": 0.9188311688311688,
      "train_speed(iter/s)": 1.449554
    },
    {
      "epoch": 2.2518315410650787,
      "grad_norm": 4.589415550231934,
      "learning_rate": 5.776488693323366e-05,
      "loss": 0.3815009593963623,
      "memory(GiB)": 70.5,
      "step": 52560,
      "token_acc": 0.9198606271777003,
      "train_speed(iter/s)": 1.449565
    },
    {
      "epoch": 2.2520457563943275,
      "grad_norm": 2.041130542755127,
      "learning_rate": 5.775823873743165e-05,
      "loss": 0.39951133728027344,
      "memory(GiB)": 70.5,
      "step": 52565,
      "token_acc": 0.9183673469387755,
      "train_speed(iter/s)": 1.449578
    },
    {
      "epoch": 2.2522599717235767,
      "grad_norm": 0.3210144639015198,
      "learning_rate": 5.775159040108185e-05,
      "loss": 0.329424524307251,
      "memory(GiB)": 70.5,
      "step": 52570,
      "token_acc": 0.9154078549848943,
      "train_speed(iter/s)": 1.449565
    },
    {
      "epoch": 2.2524741870528255,
      "grad_norm": 3.0190553665161133,
      "learning_rate": 5.7744941924304716e-05,
      "loss": 0.2662684679031372,
      "memory(GiB)": 70.5,
      "step": 52575,
      "token_acc": 0.9433962264150944,
      "train_speed(iter/s)": 1.449571
    },
    {
      "epoch": 2.2526884023820744,
      "grad_norm": 3.3492918014526367,
      "learning_rate": 5.77382933072207e-05,
      "loss": 0.46067514419555666,
      "memory(GiB)": 70.5,
      "step": 52580,
      "token_acc": 0.9076433121019108,
      "train_speed(iter/s)": 1.449572
    },
    {
      "epoch": 2.2529026177113236,
      "grad_norm": 4.5578389167785645,
      "learning_rate": 5.773164454995026e-05,
      "loss": 0.21438393592834473,
      "memory(GiB)": 70.5,
      "step": 52585,
      "token_acc": 0.956386292834891,
      "train_speed(iter/s)": 1.449572
    },
    {
      "epoch": 2.2531168330405724,
      "grad_norm": 3.523167133331299,
      "learning_rate": 5.77249956526138e-05,
      "loss": 0.29048476219177244,
      "memory(GiB)": 70.5,
      "step": 52590,
      "token_acc": 0.9276729559748428,
      "train_speed(iter/s)": 1.449567
    },
    {
      "epoch": 2.2533310483698212,
      "grad_norm": 5.43466854095459,
      "learning_rate": 5.7718346615331806e-05,
      "loss": 0.30491974353790285,
      "memory(GiB)": 70.5,
      "step": 52595,
      "token_acc": 0.9422382671480144,
      "train_speed(iter/s)": 1.449569
    },
    {
      "epoch": 2.2535452636990705,
      "grad_norm": 3.7831838130950928,
      "learning_rate": 5.771169743822473e-05,
      "loss": 0.442803955078125,
      "memory(GiB)": 70.5,
      "step": 52600,
      "token_acc": 0.9003322259136213,
      "train_speed(iter/s)": 1.449581
    },
    {
      "epoch": 2.2537594790283193,
      "grad_norm": 1.6243313550949097,
      "learning_rate": 5.770504812141301e-05,
      "loss": 0.3941894769668579,
      "memory(GiB)": 70.5,
      "step": 52605,
      "token_acc": 0.9182156133828996,
      "train_speed(iter/s)": 1.449579
    },
    {
      "epoch": 2.253973694357568,
      "grad_norm": 3.417905807495117,
      "learning_rate": 5.7698398665017104e-05,
      "loss": 0.41497139930725097,
      "memory(GiB)": 70.5,
      "step": 52610,
      "token_acc": 0.9122257053291536,
      "train_speed(iter/s)": 1.449574
    },
    {
      "epoch": 2.2541879096868174,
      "grad_norm": 5.672442436218262,
      "learning_rate": 5.7691749069157505e-05,
      "loss": 0.4582627296447754,
      "memory(GiB)": 70.5,
      "step": 52615,
      "token_acc": 0.9155844155844156,
      "train_speed(iter/s)": 1.44957
    },
    {
      "epoch": 2.254402125016066,
      "grad_norm": 3.7658822536468506,
      "learning_rate": 5.768509933395465e-05,
      "loss": 0.33792340755462646,
      "memory(GiB)": 70.5,
      "step": 52620,
      "token_acc": 0.9215017064846417,
      "train_speed(iter/s)": 1.44957
    },
    {
      "epoch": 2.254616340345315,
      "grad_norm": 4.83274507522583,
      "learning_rate": 5.7678449459529015e-05,
      "loss": 0.4129764556884766,
      "memory(GiB)": 70.5,
      "step": 52625,
      "token_acc": 0.8938053097345132,
      "train_speed(iter/s)": 1.449576
    },
    {
      "epoch": 2.2548305556745643,
      "grad_norm": 0.4518454968929291,
      "learning_rate": 5.7671799446001075e-05,
      "loss": 0.6419589042663574,
      "memory(GiB)": 70.5,
      "step": 52630,
      "token_acc": 0.8803418803418803,
      "train_speed(iter/s)": 1.449588
    },
    {
      "epoch": 2.255044771003813,
      "grad_norm": 3.7972068786621094,
      "learning_rate": 5.766514929349126e-05,
      "loss": 0.41292500495910645,
      "memory(GiB)": 70.5,
      "step": 52635,
      "token_acc": 0.914396887159533,
      "train_speed(iter/s)": 1.449579
    },
    {
      "epoch": 2.255258986333062,
      "grad_norm": 5.369274139404297,
      "learning_rate": 5.7658499002120104e-05,
      "loss": 0.3957796096801758,
      "memory(GiB)": 70.5,
      "step": 52640,
      "token_acc": 0.9386281588447654,
      "train_speed(iter/s)": 1.449581
    },
    {
      "epoch": 2.255473201662311,
      "grad_norm": 0.8681516647338867,
      "learning_rate": 5.765184857200804e-05,
      "loss": 0.2444002628326416,
      "memory(GiB)": 70.5,
      "step": 52645,
      "token_acc": 0.948170731707317,
      "train_speed(iter/s)": 1.449592
    },
    {
      "epoch": 2.25568741699156,
      "grad_norm": 5.667004108428955,
      "learning_rate": 5.764519800327556e-05,
      "loss": 0.3891102075576782,
      "memory(GiB)": 70.5,
      "step": 52650,
      "token_acc": 0.9161490683229814,
      "train_speed(iter/s)": 1.449608
    },
    {
      "epoch": 2.2559016323208088,
      "grad_norm": 4.065532207489014,
      "learning_rate": 5.7638547296043154e-05,
      "loss": 0.4421842575073242,
      "memory(GiB)": 70.5,
      "step": 52655,
      "token_acc": 0.8996282527881041,
      "train_speed(iter/s)": 1.449607
    },
    {
      "epoch": 2.256115847650058,
      "grad_norm": 5.463143348693848,
      "learning_rate": 5.76318964504313e-05,
      "loss": 0.4165318965911865,
      "memory(GiB)": 70.5,
      "step": 52660,
      "token_acc": 0.9117647058823529,
      "train_speed(iter/s)": 1.44963
    },
    {
      "epoch": 2.256330062979307,
      "grad_norm": 3.070361614227295,
      "learning_rate": 5.7625245466560474e-05,
      "loss": 0.28249056339263917,
      "memory(GiB)": 70.5,
      "step": 52665,
      "token_acc": 0.9381818181818182,
      "train_speed(iter/s)": 1.449631
    },
    {
      "epoch": 2.2565442783085556,
      "grad_norm": 3.311476469039917,
      "learning_rate": 5.761859434455118e-05,
      "loss": 0.3437540054321289,
      "memory(GiB)": 70.5,
      "step": 52670,
      "token_acc": 0.9328358208955224,
      "train_speed(iter/s)": 1.449629
    },
    {
      "epoch": 2.256758493637805,
      "grad_norm": 4.856264114379883,
      "learning_rate": 5.761194308452389e-05,
      "loss": 0.2427760362625122,
      "memory(GiB)": 70.5,
      "step": 52675,
      "token_acc": 0.9459459459459459,
      "train_speed(iter/s)": 1.449631
    },
    {
      "epoch": 2.2569727089670537,
      "grad_norm": 3.036844253540039,
      "learning_rate": 5.760529168659912e-05,
      "loss": 0.4215597152709961,
      "memory(GiB)": 70.5,
      "step": 52680,
      "token_acc": 0.916923076923077,
      "train_speed(iter/s)": 1.449624
    },
    {
      "epoch": 2.2571869242963025,
      "grad_norm": 3.8464009761810303,
      "learning_rate": 5.759864015089735e-05,
      "loss": 0.43200340270996096,
      "memory(GiB)": 70.5,
      "step": 52685,
      "token_acc": 0.9187279151943463,
      "train_speed(iter/s)": 1.449628
    },
    {
      "epoch": 2.257401139625552,
      "grad_norm": 5.106104373931885,
      "learning_rate": 5.7591988477539104e-05,
      "loss": 0.28839247226715087,
      "memory(GiB)": 70.5,
      "step": 52690,
      "token_acc": 0.9473684210526315,
      "train_speed(iter/s)": 1.449628
    },
    {
      "epoch": 2.2576153549548006,
      "grad_norm": 3.8864269256591797,
      "learning_rate": 5.758533666664485e-05,
      "loss": 0.4074099063873291,
      "memory(GiB)": 70.5,
      "step": 52695,
      "token_acc": 0.9113924050632911,
      "train_speed(iter/s)": 1.449635
    },
    {
      "epoch": 2.2578295702840494,
      "grad_norm": 6.145382404327393,
      "learning_rate": 5.757868471833512e-05,
      "loss": 0.33277325630187987,
      "memory(GiB)": 70.5,
      "step": 52700,
      "token_acc": 0.9270833333333334,
      "train_speed(iter/s)": 1.449653
    },
    {
      "epoch": 2.2580437856132987,
      "grad_norm": 2.737121105194092,
      "learning_rate": 5.757203263273039e-05,
      "loss": 0.3038219928741455,
      "memory(GiB)": 70.5,
      "step": 52705,
      "token_acc": 0.9281437125748503,
      "train_speed(iter/s)": 1.449662
    },
    {
      "epoch": 2.2582580009425475,
      "grad_norm": 3.9837310314178467,
      "learning_rate": 5.756538040995119e-05,
      "loss": 0.42202110290527345,
      "memory(GiB)": 70.5,
      "step": 52710,
      "token_acc": 0.903448275862069,
      "train_speed(iter/s)": 1.44966
    },
    {
      "epoch": 2.2584722162717963,
      "grad_norm": 4.174581527709961,
      "learning_rate": 5.7558728050118036e-05,
      "loss": 0.21165065765380858,
      "memory(GiB)": 70.5,
      "step": 52715,
      "token_acc": 0.954225352112676,
      "train_speed(iter/s)": 1.449657
    },
    {
      "epoch": 2.2586864316010455,
      "grad_norm": 3.220247745513916,
      "learning_rate": 5.755207555335142e-05,
      "loss": 0.5465051651000976,
      "memory(GiB)": 70.5,
      "step": 52720,
      "token_acc": 0.9034267912772586,
      "train_speed(iter/s)": 1.449672
    },
    {
      "epoch": 2.2589006469302944,
      "grad_norm": 12.55324935913086,
      "learning_rate": 5.7545422919771874e-05,
      "loss": 0.28412575721740724,
      "memory(GiB)": 70.5,
      "step": 52725,
      "token_acc": 0.9274809160305344,
      "train_speed(iter/s)": 1.449672
    },
    {
      "epoch": 2.259114862259543,
      "grad_norm": 2.7143619060516357,
      "learning_rate": 5.753877014949992e-05,
      "loss": 0.4835994720458984,
      "memory(GiB)": 70.5,
      "step": 52730,
      "token_acc": 0.8973607038123167,
      "train_speed(iter/s)": 1.449674
    },
    {
      "epoch": 2.2593290775887924,
      "grad_norm": 5.518698692321777,
      "learning_rate": 5.753211724265606e-05,
      "loss": 0.5149809837341308,
      "memory(GiB)": 70.5,
      "step": 52735,
      "token_acc": 0.8978102189781022,
      "train_speed(iter/s)": 1.449668
    },
    {
      "epoch": 2.2595432929180412,
      "grad_norm": 1.3936549425125122,
      "learning_rate": 5.7525464199360844e-05,
      "loss": 0.33528695106506345,
      "memory(GiB)": 70.5,
      "step": 52740,
      "token_acc": 0.9253731343283582,
      "train_speed(iter/s)": 1.449665
    },
    {
      "epoch": 2.25975750824729,
      "grad_norm": 6.15483283996582,
      "learning_rate": 5.751881101973479e-05,
      "loss": 0.4762080669403076,
      "memory(GiB)": 70.5,
      "step": 52745,
      "token_acc": 0.9027237354085603,
      "train_speed(iter/s)": 1.44967
    },
    {
      "epoch": 2.2599717235765393,
      "grad_norm": 4.226250648498535,
      "learning_rate": 5.75121577038984e-05,
      "loss": 0.3122908592224121,
      "memory(GiB)": 70.5,
      "step": 52750,
      "token_acc": 0.9233870967741935,
      "train_speed(iter/s)": 1.449666
    },
    {
      "epoch": 2.260185938905788,
      "grad_norm": 1.7420153617858887,
      "learning_rate": 5.750550425197224e-05,
      "loss": 0.3331716537475586,
      "memory(GiB)": 70.5,
      "step": 52755,
      "token_acc": 0.9258064516129032,
      "train_speed(iter/s)": 1.449674
    },
    {
      "epoch": 2.260400154235037,
      "grad_norm": 4.238653182983398,
      "learning_rate": 5.749885066407683e-05,
      "loss": 0.531134033203125,
      "memory(GiB)": 70.5,
      "step": 52760,
      "token_acc": 0.8984375,
      "train_speed(iter/s)": 1.449676
    },
    {
      "epoch": 2.260614369564286,
      "grad_norm": 6.468727111816406,
      "learning_rate": 5.74921969403327e-05,
      "loss": 0.5030579566955566,
      "memory(GiB)": 70.5,
      "step": 52765,
      "token_acc": 0.8991935483870968,
      "train_speed(iter/s)": 1.449672
    },
    {
      "epoch": 2.260828584893535,
      "grad_norm": 5.882770538330078,
      "learning_rate": 5.74855430808604e-05,
      "loss": 0.3865624666213989,
      "memory(GiB)": 70.5,
      "step": 52770,
      "token_acc": 0.9024390243902439,
      "train_speed(iter/s)": 1.449697
    },
    {
      "epoch": 2.261042800222784,
      "grad_norm": 3.818988561630249,
      "learning_rate": 5.7478889085780476e-05,
      "loss": 0.547053050994873,
      "memory(GiB)": 70.5,
      "step": 52775,
      "token_acc": 0.8903654485049833,
      "train_speed(iter/s)": 1.449697
    },
    {
      "epoch": 2.261257015552033,
      "grad_norm": 5.508390426635742,
      "learning_rate": 5.7472234955213435e-05,
      "loss": 0.4715911865234375,
      "memory(GiB)": 70.5,
      "step": 52780,
      "token_acc": 0.8947368421052632,
      "train_speed(iter/s)": 1.449696
    },
    {
      "epoch": 2.261471230881282,
      "grad_norm": 5.168531894683838,
      "learning_rate": 5.7465580689279864e-05,
      "loss": 0.6101081848144532,
      "memory(GiB)": 70.5,
      "step": 52785,
      "token_acc": 0.8778877887788779,
      "train_speed(iter/s)": 1.449698
    },
    {
      "epoch": 2.2616854462105307,
      "grad_norm": 4.662021636962891,
      "learning_rate": 5.745892628810029e-05,
      "loss": 0.593177080154419,
      "memory(GiB)": 70.5,
      "step": 52790,
      "token_acc": 0.8902439024390244,
      "train_speed(iter/s)": 1.449704
    },
    {
      "epoch": 2.26189966153978,
      "grad_norm": 4.144350051879883,
      "learning_rate": 5.745227175179526e-05,
      "loss": 0.3444117546081543,
      "memory(GiB)": 70.5,
      "step": 52795,
      "token_acc": 0.9297658862876255,
      "train_speed(iter/s)": 1.449704
    },
    {
      "epoch": 2.2621138768690288,
      "grad_norm": 6.619505882263184,
      "learning_rate": 5.744561708048536e-05,
      "loss": 0.26885228157043456,
      "memory(GiB)": 70.5,
      "step": 52800,
      "token_acc": 0.9413919413919414,
      "train_speed(iter/s)": 1.449701
    },
    {
      "epoch": 2.2623280921982776,
      "grad_norm": 1.651773452758789,
      "learning_rate": 5.743896227429111e-05,
      "loss": 0.21267013549804686,
      "memory(GiB)": 70.5,
      "step": 52805,
      "token_acc": 0.946927374301676,
      "train_speed(iter/s)": 1.449702
    },
    {
      "epoch": 2.262542307527527,
      "grad_norm": 4.422550678253174,
      "learning_rate": 5.743230733333307e-05,
      "loss": 0.4594231128692627,
      "memory(GiB)": 70.5,
      "step": 52810,
      "token_acc": 0.9082278481012658,
      "train_speed(iter/s)": 1.449695
    },
    {
      "epoch": 2.2627565228567756,
      "grad_norm": 1.238610863685608,
      "learning_rate": 5.7425652257731834e-05,
      "loss": 0.41801815032958983,
      "memory(GiB)": 70.5,
      "step": 52815,
      "token_acc": 0.9212598425196851,
      "train_speed(iter/s)": 1.449699
    },
    {
      "epoch": 2.2629707381860245,
      "grad_norm": 1.5611387491226196,
      "learning_rate": 5.741899704760791e-05,
      "loss": 0.28969900608062743,
      "memory(GiB)": 70.5,
      "step": 52820,
      "token_acc": 0.9465875370919882,
      "train_speed(iter/s)": 1.449707
    },
    {
      "epoch": 2.2631849535152737,
      "grad_norm": 2.763514280319214,
      "learning_rate": 5.741234170308193e-05,
      "loss": 0.2515584468841553,
      "memory(GiB)": 70.5,
      "step": 52825,
      "token_acc": 0.9407407407407408,
      "train_speed(iter/s)": 1.44971
    },
    {
      "epoch": 2.2633991688445225,
      "grad_norm": 4.797215461730957,
      "learning_rate": 5.74056862242744e-05,
      "loss": 0.4629405975341797,
      "memory(GiB)": 70.5,
      "step": 52830,
      "token_acc": 0.9157894736842105,
      "train_speed(iter/s)": 1.449712
    },
    {
      "epoch": 2.2636133841737713,
      "grad_norm": 2.837392807006836,
      "learning_rate": 5.7399030611305913e-05,
      "loss": 0.6495938301086426,
      "memory(GiB)": 70.5,
      "step": 52835,
      "token_acc": 0.8674351585014409,
      "train_speed(iter/s)": 1.449726
    },
    {
      "epoch": 2.2638275995030206,
      "grad_norm": 4.748310089111328,
      "learning_rate": 5.739237486429707e-05,
      "loss": 0.2842139720916748,
      "memory(GiB)": 70.5,
      "step": 52840,
      "token_acc": 0.9266666666666666,
      "train_speed(iter/s)": 1.449725
    },
    {
      "epoch": 2.2640418148322694,
      "grad_norm": 5.662550449371338,
      "learning_rate": 5.738571898336842e-05,
      "loss": 0.21090641021728515,
      "memory(GiB)": 70.5,
      "step": 52845,
      "token_acc": 0.9587628865979382,
      "train_speed(iter/s)": 1.449726
    },
    {
      "epoch": 2.264256030161518,
      "grad_norm": 1.4836467504501343,
      "learning_rate": 5.737906296864053e-05,
      "loss": 0.3705893039703369,
      "memory(GiB)": 70.5,
      "step": 52850,
      "token_acc": 0.9246031746031746,
      "train_speed(iter/s)": 1.449724
    },
    {
      "epoch": 2.2644702454907675,
      "grad_norm": 6.0440239906311035,
      "learning_rate": 5.737240682023399e-05,
      "loss": 0.6593562126159668,
      "memory(GiB)": 70.5,
      "step": 52855,
      "token_acc": 0.8807017543859649,
      "train_speed(iter/s)": 1.44972
    },
    {
      "epoch": 2.2646844608200163,
      "grad_norm": 5.959343433380127,
      "learning_rate": 5.73657505382694e-05,
      "loss": 0.5569936275482178,
      "memory(GiB)": 70.5,
      "step": 52860,
      "token_acc": 0.8951841359773371,
      "train_speed(iter/s)": 1.449717
    },
    {
      "epoch": 2.264898676149265,
      "grad_norm": 3.1031646728515625,
      "learning_rate": 5.735909412286731e-05,
      "loss": 0.28183276653289796,
      "memory(GiB)": 70.5,
      "step": 52865,
      "token_acc": 0.9459459459459459,
      "train_speed(iter/s)": 1.449712
    },
    {
      "epoch": 2.2651128914785144,
      "grad_norm": 1.668314814567566,
      "learning_rate": 5.735243757414833e-05,
      "loss": 0.17628538608551025,
      "memory(GiB)": 70.5,
      "step": 52870,
      "token_acc": 0.9575757575757575,
      "train_speed(iter/s)": 1.449707
    },
    {
      "epoch": 2.265327106807763,
      "grad_norm": 1.8515039682388306,
      "learning_rate": 5.734578089223306e-05,
      "loss": 0.24089574813842773,
      "memory(GiB)": 70.5,
      "step": 52875,
      "token_acc": 0.9407665505226481,
      "train_speed(iter/s)": 1.449717
    },
    {
      "epoch": 2.265541322137012,
      "grad_norm": 4.844218730926514,
      "learning_rate": 5.7339124077242066e-05,
      "loss": 0.36744821071624756,
      "memory(GiB)": 70.5,
      "step": 52880,
      "token_acc": 0.9133858267716536,
      "train_speed(iter/s)": 1.449716
    },
    {
      "epoch": 2.2657555374662612,
      "grad_norm": 0.19748161733150482,
      "learning_rate": 5.7332467129295964e-05,
      "loss": 0.10275565385818482,
      "memory(GiB)": 70.5,
      "step": 52885,
      "token_acc": 0.9784172661870504,
      "train_speed(iter/s)": 1.449716
    },
    {
      "epoch": 2.26596975279551,
      "grad_norm": 5.95936918258667,
      "learning_rate": 5.732581004851534e-05,
      "loss": 0.4063377380371094,
      "memory(GiB)": 70.5,
      "step": 52890,
      "token_acc": 0.9020408163265307,
      "train_speed(iter/s)": 1.449711
    },
    {
      "epoch": 2.266183968124759,
      "grad_norm": 1.4996542930603027,
      "learning_rate": 5.731915283502079e-05,
      "loss": 0.22405519485473632,
      "memory(GiB)": 70.5,
      "step": 52895,
      "token_acc": 0.9628252788104089,
      "train_speed(iter/s)": 1.449733
    },
    {
      "epoch": 2.266398183454008,
      "grad_norm": 4.283078670501709,
      "learning_rate": 5.731249548893291e-05,
      "loss": 0.4961993217468262,
      "memory(GiB)": 70.5,
      "step": 52900,
      "token_acc": 0.8831615120274914,
      "train_speed(iter/s)": 1.449737
    },
    {
      "epoch": 2.266612398783257,
      "grad_norm": 1.7851955890655518,
      "learning_rate": 5.730583801037234e-05,
      "loss": 0.4868284225463867,
      "memory(GiB)": 70.5,
      "step": 52905,
      "token_acc": 0.8985507246376812,
      "train_speed(iter/s)": 1.449736
    },
    {
      "epoch": 2.2668266141125057,
      "grad_norm": 1.9902963638305664,
      "learning_rate": 5.729918039945963e-05,
      "loss": 0.1607264518737793,
      "memory(GiB)": 70.5,
      "step": 52910,
      "token_acc": 0.9496402877697842,
      "train_speed(iter/s)": 1.449735
    },
    {
      "epoch": 2.267040829441755,
      "grad_norm": 4.655635833740234,
      "learning_rate": 5.729252265631545e-05,
      "loss": 0.4588481426239014,
      "memory(GiB)": 70.5,
      "step": 52915,
      "token_acc": 0.8937728937728938,
      "train_speed(iter/s)": 1.449738
    },
    {
      "epoch": 2.267255044771004,
      "grad_norm": 3.549098491668701,
      "learning_rate": 5.728586478106037e-05,
      "loss": 0.4345695495605469,
      "memory(GiB)": 70.5,
      "step": 52920,
      "token_acc": 0.9065420560747663,
      "train_speed(iter/s)": 1.449739
    },
    {
      "epoch": 2.2674692601002526,
      "grad_norm": 5.16324520111084,
      "learning_rate": 5.727920677381501e-05,
      "loss": 0.3706834077835083,
      "memory(GiB)": 70.5,
      "step": 52925,
      "token_acc": 0.922360248447205,
      "train_speed(iter/s)": 1.449738
    },
    {
      "epoch": 2.267683475429502,
      "grad_norm": 1.3598228693008423,
      "learning_rate": 5.72725486347e-05,
      "loss": 0.5312013149261474,
      "memory(GiB)": 70.5,
      "step": 52930,
      "token_acc": 0.8679245283018868,
      "train_speed(iter/s)": 1.449741
    },
    {
      "epoch": 2.2678976907587507,
      "grad_norm": 3.2825918197631836,
      "learning_rate": 5.726589036383594e-05,
      "loss": 0.3489930868148804,
      "memory(GiB)": 70.5,
      "step": 52935,
      "token_acc": 0.9104938271604939,
      "train_speed(iter/s)": 1.449749
    },
    {
      "epoch": 2.2681119060879995,
      "grad_norm": 3.5232367515563965,
      "learning_rate": 5.725923196134345e-05,
      "loss": 0.2612337112426758,
      "memory(GiB)": 70.5,
      "step": 52940,
      "token_acc": 0.9393939393939394,
      "train_speed(iter/s)": 1.449753
    },
    {
      "epoch": 2.2683261214172488,
      "grad_norm": 1.4787962436676025,
      "learning_rate": 5.725257342734318e-05,
      "loss": 0.3999204158782959,
      "memory(GiB)": 70.5,
      "step": 52945,
      "token_acc": 0.9142857142857143,
      "train_speed(iter/s)": 1.449745
    },
    {
      "epoch": 2.2685403367464976,
      "grad_norm": 5.946691036224365,
      "learning_rate": 5.7245914761955744e-05,
      "loss": 0.3191575288772583,
      "memory(GiB)": 70.5,
      "step": 52950,
      "token_acc": 0.9333333333333333,
      "train_speed(iter/s)": 1.449753
    },
    {
      "epoch": 2.2687545520757464,
      "grad_norm": 5.423698902130127,
      "learning_rate": 5.7239255965301755e-05,
      "loss": 0.5347332954406738,
      "memory(GiB)": 70.5,
      "step": 52955,
      "token_acc": 0.8721804511278195,
      "train_speed(iter/s)": 1.449767
    },
    {
      "epoch": 2.2689687674049956,
      "grad_norm": 3.3791604042053223,
      "learning_rate": 5.723259703750186e-05,
      "loss": 0.18113222122192382,
      "memory(GiB)": 70.5,
      "step": 52960,
      "token_acc": 0.9401709401709402,
      "train_speed(iter/s)": 1.449772
    },
    {
      "epoch": 2.2691829827342445,
      "grad_norm": 2.5940539836883545,
      "learning_rate": 5.722593797867667e-05,
      "loss": 0.37963266372680665,
      "memory(GiB)": 70.5,
      "step": 52965,
      "token_acc": 0.9171597633136095,
      "train_speed(iter/s)": 1.449773
    },
    {
      "epoch": 2.2693971980634933,
      "grad_norm": 3.122728109359741,
      "learning_rate": 5.721927878894685e-05,
      "loss": 0.2870576620101929,
      "memory(GiB)": 70.5,
      "step": 52970,
      "token_acc": 0.9458333333333333,
      "train_speed(iter/s)": 1.449795
    },
    {
      "epoch": 2.2696114133927425,
      "grad_norm": 0.9123919010162354,
      "learning_rate": 5.721261946843302e-05,
      "loss": 0.4531064033508301,
      "memory(GiB)": 70.5,
      "step": 52975,
      "token_acc": 0.8980891719745223,
      "train_speed(iter/s)": 1.449811
    },
    {
      "epoch": 2.2698256287219913,
      "grad_norm": 3.9189770221710205,
      "learning_rate": 5.72059600172558e-05,
      "loss": 0.6268417835235596,
      "memory(GiB)": 70.5,
      "step": 52980,
      "token_acc": 0.8865979381443299,
      "train_speed(iter/s)": 1.449824
    },
    {
      "epoch": 2.27003984405124,
      "grad_norm": 0.5161292552947998,
      "learning_rate": 5.7199300435535884e-05,
      "loss": 0.4138816833496094,
      "memory(GiB)": 70.5,
      "step": 52985,
      "token_acc": 0.9336099585062241,
      "train_speed(iter/s)": 1.44984
    },
    {
      "epoch": 2.2702540593804894,
      "grad_norm": 3.9676201343536377,
      "learning_rate": 5.7192640723393874e-05,
      "loss": 0.29136953353881834,
      "memory(GiB)": 70.5,
      "step": 52990,
      "token_acc": 0.941358024691358,
      "train_speed(iter/s)": 1.449839
    },
    {
      "epoch": 2.270468274709738,
      "grad_norm": 2.9290401935577393,
      "learning_rate": 5.7185980880950426e-05,
      "loss": 0.5018796920776367,
      "memory(GiB)": 70.5,
      "step": 52995,
      "token_acc": 0.8929765886287625,
      "train_speed(iter/s)": 1.449837
    },
    {
      "epoch": 2.270682490038987,
      "grad_norm": 5.761385917663574,
      "learning_rate": 5.717932090832621e-05,
      "loss": 0.6170250415802002,
      "memory(GiB)": 70.5,
      "step": 53000,
      "token_acc": 0.8708487084870848,
      "train_speed(iter/s)": 1.44984
    },
    {
      "epoch": 2.270682490038987,
      "eval_loss": 2.3999388217926025,
      "eval_runtime": 13.9712,
      "eval_samples_per_second": 7.158,
      "eval_steps_per_second": 7.158,
      "eval_token_acc": 0.4684431977559607,
      "step": 53000
    },
    {
      "epoch": 2.2708967053682363,
      "grad_norm": 4.6669697761535645,
      "learning_rate": 5.7172660805641855e-05,
      "loss": 0.37383618354797366,
      "memory(GiB)": 70.5,
      "step": 53005,
      "token_acc": 0.5827263267429761,
      "train_speed(iter/s)": 1.449247
    },
    {
      "epoch": 2.271110920697485,
      "grad_norm": 3.10567045211792,
      "learning_rate": 5.716600057301802e-05,
      "loss": 0.31509671211242674,
      "memory(GiB)": 70.5,
      "step": 53010,
      "token_acc": 0.916923076923077,
      "train_speed(iter/s)": 1.449256
    },
    {
      "epoch": 2.271325136026734,
      "grad_norm": 3.6892271041870117,
      "learning_rate": 5.7159340210575355e-05,
      "loss": 0.5789093971252441,
      "memory(GiB)": 70.5,
      "step": 53015,
      "token_acc": 0.8961937716262975,
      "train_speed(iter/s)": 1.44926
    },
    {
      "epoch": 2.271539351355983,
      "grad_norm": 1.1169780492782593,
      "learning_rate": 5.715267971843453e-05,
      "loss": 0.5933608055114746,
      "memory(GiB)": 70.5,
      "step": 53020,
      "token_acc": 0.8392156862745098,
      "train_speed(iter/s)": 1.449285
    },
    {
      "epoch": 2.271753566685232,
      "grad_norm": 2.246265172958374,
      "learning_rate": 5.71460190967162e-05,
      "loss": 0.38626558780670167,
      "memory(GiB)": 70.5,
      "step": 53025,
      "token_acc": 0.9137931034482759,
      "train_speed(iter/s)": 1.449286
    },
    {
      "epoch": 2.271967782014481,
      "grad_norm": 0.37796053290367126,
      "learning_rate": 5.713935834554104e-05,
      "loss": 0.20568389892578126,
      "memory(GiB)": 70.5,
      "step": 53030,
      "token_acc": 0.9419354838709677,
      "train_speed(iter/s)": 1.449285
    },
    {
      "epoch": 2.27218199734373,
      "grad_norm": 2.7691256999969482,
      "learning_rate": 5.713269746502971e-05,
      "loss": 0.18548436164855958,
      "memory(GiB)": 70.5,
      "step": 53035,
      "token_acc": 0.9487179487179487,
      "train_speed(iter/s)": 1.449282
    },
    {
      "epoch": 2.272396212672979,
      "grad_norm": 5.244280815124512,
      "learning_rate": 5.7126036455302855e-05,
      "loss": 0.5616899013519288,
      "memory(GiB)": 70.5,
      "step": 53040,
      "token_acc": 0.8843537414965986,
      "train_speed(iter/s)": 1.449284
    },
    {
      "epoch": 2.2726104280022277,
      "grad_norm": 7.407625675201416,
      "learning_rate": 5.7119375316481175e-05,
      "loss": 0.4693611145019531,
      "memory(GiB)": 70.5,
      "step": 53045,
      "token_acc": 0.9121338912133892,
      "train_speed(iter/s)": 1.44929
    },
    {
      "epoch": 2.272824643331477,
      "grad_norm": 3.106170415878296,
      "learning_rate": 5.7112714048685324e-05,
      "loss": 0.36048135757446287,
      "memory(GiB)": 70.5,
      "step": 53050,
      "token_acc": 0.9278350515463918,
      "train_speed(iter/s)": 1.449288
    },
    {
      "epoch": 2.2730388586607257,
      "grad_norm": 0.24638964235782623,
      "learning_rate": 5.710605265203599e-05,
      "loss": 0.399113392829895,
      "memory(GiB)": 70.5,
      "step": 53055,
      "token_acc": 0.9139072847682119,
      "train_speed(iter/s)": 1.44929
    },
    {
      "epoch": 2.2732530739899746,
      "grad_norm": 4.88716983795166,
      "learning_rate": 5.7099391126653855e-05,
      "loss": 0.5733750820159912,
      "memory(GiB)": 70.5,
      "step": 53060,
      "token_acc": 0.8909774436090225,
      "train_speed(iter/s)": 1.449306
    },
    {
      "epoch": 2.273467289319224,
      "grad_norm": 1.6370623111724854,
      "learning_rate": 5.709272947265959e-05,
      "loss": 0.23565452098846434,
      "memory(GiB)": 70.5,
      "step": 53065,
      "token_acc": 0.9452054794520548,
      "train_speed(iter/s)": 1.44931
    },
    {
      "epoch": 2.2736815046484726,
      "grad_norm": 5.18342399597168,
      "learning_rate": 5.708606769017386e-05,
      "loss": 0.5440085411071778,
      "memory(GiB)": 70.5,
      "step": 53070,
      "token_acc": 0.8938053097345132,
      "train_speed(iter/s)": 1.449306
    },
    {
      "epoch": 2.2738957199777214,
      "grad_norm": 3.945046901702881,
      "learning_rate": 5.707940577931739e-05,
      "loss": 0.48295130729675295,
      "memory(GiB)": 70.5,
      "step": 53075,
      "token_acc": 0.8934169278996865,
      "train_speed(iter/s)": 1.449314
    },
    {
      "epoch": 2.2741099353069707,
      "grad_norm": 4.596092700958252,
      "learning_rate": 5.707274374021082e-05,
      "loss": 0.41078500747680663,
      "memory(GiB)": 70.5,
      "step": 53080,
      "token_acc": 0.9186440677966101,
      "train_speed(iter/s)": 1.449343
    },
    {
      "epoch": 2.2743241506362195,
      "grad_norm": 2.855907917022705,
      "learning_rate": 5.706608157297488e-05,
      "loss": 0.27781317234039304,
      "memory(GiB)": 70.5,
      "step": 53085,
      "token_acc": 0.9469387755102041,
      "train_speed(iter/s)": 1.44936
    },
    {
      "epoch": 2.2745383659654683,
      "grad_norm": 4.261691570281982,
      "learning_rate": 5.705941927773023e-05,
      "loss": 0.3178340673446655,
      "memory(GiB)": 70.5,
      "step": 53090,
      "token_acc": 0.9227799227799228,
      "train_speed(iter/s)": 1.449357
    },
    {
      "epoch": 2.2747525812947176,
      "grad_norm": 2.8425331115722656,
      "learning_rate": 5.70527568545976e-05,
      "loss": 0.5549401760101318,
      "memory(GiB)": 70.5,
      "step": 53095,
      "token_acc": 0.8940397350993378,
      "train_speed(iter/s)": 1.449367
    },
    {
      "epoch": 2.2749667966239664,
      "grad_norm": 5.540611267089844,
      "learning_rate": 5.704609430369764e-05,
      "loss": 0.43674049377441404,
      "memory(GiB)": 70.5,
      "step": 53100,
      "token_acc": 0.9187279151943463,
      "train_speed(iter/s)": 1.449369
    },
    {
      "epoch": 2.275181011953215,
      "grad_norm": 1.3810499906539917,
      "learning_rate": 5.703943162515109e-05,
      "loss": 0.38604881763458254,
      "memory(GiB)": 70.5,
      "step": 53105,
      "token_acc": 0.9221556886227545,
      "train_speed(iter/s)": 1.449383
    },
    {
      "epoch": 2.2753952272824645,
      "grad_norm": 5.327312469482422,
      "learning_rate": 5.703276881907861e-05,
      "loss": 0.4792295455932617,
      "memory(GiB)": 70.5,
      "step": 53110,
      "token_acc": 0.8984126984126984,
      "train_speed(iter/s)": 1.449387
    },
    {
      "epoch": 2.2756094426117133,
      "grad_norm": 2.284775495529175,
      "learning_rate": 5.7026105885600946e-05,
      "loss": 0.14739974737167358,
      "memory(GiB)": 70.5,
      "step": 53115,
      "token_acc": 0.9651162790697675,
      "train_speed(iter/s)": 1.44939
    },
    {
      "epoch": 2.275823657940962,
      "grad_norm": 6.925829887390137,
      "learning_rate": 5.701944282483877e-05,
      "loss": 0.2983029127120972,
      "memory(GiB)": 70.5,
      "step": 53120,
      "token_acc": 0.924924924924925,
      "train_speed(iter/s)": 1.449396
    },
    {
      "epoch": 2.2760378732702113,
      "grad_norm": 2.3106300830841064,
      "learning_rate": 5.7012779636912804e-05,
      "loss": 0.2451099395751953,
      "memory(GiB)": 70.5,
      "step": 53125,
      "token_acc": 0.9423076923076923,
      "train_speed(iter/s)": 1.449398
    },
    {
      "epoch": 2.27625208859946,
      "grad_norm": 2.023820638656616,
      "learning_rate": 5.700611632194377e-05,
      "loss": 0.31774191856384276,
      "memory(GiB)": 70.5,
      "step": 53130,
      "token_acc": 0.935361216730038,
      "train_speed(iter/s)": 1.449404
    },
    {
      "epoch": 2.276466303928709,
      "grad_norm": 3.096386671066284,
      "learning_rate": 5.699945288005235e-05,
      "loss": 0.4759627342224121,
      "memory(GiB)": 70.5,
      "step": 53135,
      "token_acc": 0.9219219219219219,
      "train_speed(iter/s)": 1.449408
    },
    {
      "epoch": 2.2766805192579582,
      "grad_norm": 5.507349491119385,
      "learning_rate": 5.699278931135929e-05,
      "loss": 0.2775786638259888,
      "memory(GiB)": 70.5,
      "step": 53140,
      "token_acc": 0.9349112426035503,
      "train_speed(iter/s)": 1.449402
    },
    {
      "epoch": 2.276894734587207,
      "grad_norm": 3.1055943965911865,
      "learning_rate": 5.6986125615985285e-05,
      "loss": 0.4317826271057129,
      "memory(GiB)": 70.5,
      "step": 53145,
      "token_acc": 0.9087719298245615,
      "train_speed(iter/s)": 1.449405
    },
    {
      "epoch": 2.277108949916456,
      "grad_norm": 4.6006083488464355,
      "learning_rate": 5.6979461794051056e-05,
      "loss": 0.3695951461791992,
      "memory(GiB)": 70.5,
      "step": 53150,
      "token_acc": 0.9106529209621993,
      "train_speed(iter/s)": 1.44941
    },
    {
      "epoch": 2.277323165245705,
      "grad_norm": 5.431859493255615,
      "learning_rate": 5.6972797845677325e-05,
      "loss": 0.510779857635498,
      "memory(GiB)": 70.5,
      "step": 53155,
      "token_acc": 0.8816793893129771,
      "train_speed(iter/s)": 1.44942
    },
    {
      "epoch": 2.277537380574954,
      "grad_norm": 2.378704786300659,
      "learning_rate": 5.696613377098484e-05,
      "loss": 0.3490100383758545,
      "memory(GiB)": 70.5,
      "step": 53160,
      "token_acc": 0.9260450160771704,
      "train_speed(iter/s)": 1.449424
    },
    {
      "epoch": 2.2777515959042027,
      "grad_norm": 8.274801254272461,
      "learning_rate": 5.695946957009429e-05,
      "loss": 0.571352195739746,
      "memory(GiB)": 70.5,
      "step": 53165,
      "token_acc": 0.8971428571428571,
      "train_speed(iter/s)": 1.449422
    },
    {
      "epoch": 2.277965811233452,
      "grad_norm": 2.288325786590576,
      "learning_rate": 5.6952805243126416e-05,
      "loss": 0.3491519451141357,
      "memory(GiB)": 70.5,
      "step": 53170,
      "token_acc": 0.9176470588235294,
      "train_speed(iter/s)": 1.449416
    },
    {
      "epoch": 2.278180026562701,
      "grad_norm": 3.4322919845581055,
      "learning_rate": 5.694614079020197e-05,
      "loss": 0.36034741401672366,
      "memory(GiB)": 70.5,
      "step": 53175,
      "token_acc": 0.9261992619926199,
      "train_speed(iter/s)": 1.449421
    },
    {
      "epoch": 2.2783942418919496,
      "grad_norm": 2.28483247756958,
      "learning_rate": 5.6939476211441664e-05,
      "loss": 0.45918974876403806,
      "memory(GiB)": 70.5,
      "step": 53180,
      "token_acc": 0.9024390243902439,
      "train_speed(iter/s)": 1.449419
    },
    {
      "epoch": 2.278608457221199,
      "grad_norm": 2.395932197570801,
      "learning_rate": 5.6932811506966236e-05,
      "loss": 0.5134274005889893,
      "memory(GiB)": 70.5,
      "step": 53185,
      "token_acc": 0.9076923076923077,
      "train_speed(iter/s)": 1.449423
    },
    {
      "epoch": 2.2788226725504477,
      "grad_norm": 3.1144320964813232,
      "learning_rate": 5.692614667689642e-05,
      "loss": 0.5457284450531006,
      "memory(GiB)": 70.5,
      "step": 53190,
      "token_acc": 0.9037800687285223,
      "train_speed(iter/s)": 1.449417
    },
    {
      "epoch": 2.2790368878796965,
      "grad_norm": 3.15972638130188,
      "learning_rate": 5.6919481721352954e-05,
      "loss": 0.2908227205276489,
      "memory(GiB)": 70.5,
      "step": 53195,
      "token_acc": 0.9442379182156134,
      "train_speed(iter/s)": 1.449416
    },
    {
      "epoch": 2.2792511032089458,
      "grad_norm": 3.317673921585083,
      "learning_rate": 5.691281664045659e-05,
      "loss": 0.342284107208252,
      "memory(GiB)": 70.5,
      "step": 53200,
      "token_acc": 0.927536231884058,
      "train_speed(iter/s)": 1.449416
    },
    {
      "epoch": 2.2794653185381946,
      "grad_norm": 5.9461445808410645,
      "learning_rate": 5.690615143432807e-05,
      "loss": 0.49057803153991697,
      "memory(GiB)": 70.5,
      "step": 53205,
      "token_acc": 0.8880866425992779,
      "train_speed(iter/s)": 1.449425
    },
    {
      "epoch": 2.2796795338674434,
      "grad_norm": 2.693390369415283,
      "learning_rate": 5.689948610308815e-05,
      "loss": 0.31540038585662844,
      "memory(GiB)": 70.5,
      "step": 53210,
      "token_acc": 0.9428571428571428,
      "train_speed(iter/s)": 1.449429
    },
    {
      "epoch": 2.2798937491966926,
      "grad_norm": 3.5278031826019287,
      "learning_rate": 5.689282064685755e-05,
      "loss": 0.1698897361755371,
      "memory(GiB)": 70.5,
      "step": 53215,
      "token_acc": 0.9554655870445344,
      "train_speed(iter/s)": 1.449432
    },
    {
      "epoch": 2.2801079645259414,
      "grad_norm": 5.995758056640625,
      "learning_rate": 5.688615506575704e-05,
      "loss": 0.40904674530029295,
      "memory(GiB)": 70.5,
      "step": 53220,
      "token_acc": 0.9133574007220217,
      "train_speed(iter/s)": 1.449438
    },
    {
      "epoch": 2.2803221798551903,
      "grad_norm": 1.389531135559082,
      "learning_rate": 5.687948935990737e-05,
      "loss": 0.3067673921585083,
      "memory(GiB)": 70.5,
      "step": 53225,
      "token_acc": 0.9226006191950464,
      "train_speed(iter/s)": 1.449453
    },
    {
      "epoch": 2.2805363951844395,
      "grad_norm": 1.5227221250534058,
      "learning_rate": 5.687282352942931e-05,
      "loss": 0.36159625053405764,
      "memory(GiB)": 70.5,
      "step": 53230,
      "token_acc": 0.9230769230769231,
      "train_speed(iter/s)": 1.449446
    },
    {
      "epoch": 2.2807506105136883,
      "grad_norm": 4.09245491027832,
      "learning_rate": 5.686615757444359e-05,
      "loss": 0.3823273181915283,
      "memory(GiB)": 70.5,
      "step": 53235,
      "token_acc": 0.9224806201550387,
      "train_speed(iter/s)": 1.449439
    },
    {
      "epoch": 2.280964825842937,
      "grad_norm": 4.6702799797058105,
      "learning_rate": 5.685949149507099e-05,
      "loss": 0.42411074638366697,
      "memory(GiB)": 70.5,
      "step": 53240,
      "token_acc": 0.9285714285714286,
      "train_speed(iter/s)": 1.449439
    },
    {
      "epoch": 2.2811790411721864,
      "grad_norm": 6.7948150634765625,
      "learning_rate": 5.6852825291432264e-05,
      "loss": 0.2802061319351196,
      "memory(GiB)": 70.5,
      "step": 53245,
      "token_acc": 0.9213483146067416,
      "train_speed(iter/s)": 1.449438
    },
    {
      "epoch": 2.281393256501435,
      "grad_norm": 2.3919928073883057,
      "learning_rate": 5.684615896364819e-05,
      "loss": 0.44316611289978025,
      "memory(GiB)": 70.5,
      "step": 53250,
      "token_acc": 0.9042904290429042,
      "train_speed(iter/s)": 1.449434
    },
    {
      "epoch": 2.281607471830684,
      "grad_norm": 3.2869982719421387,
      "learning_rate": 5.683949251183951e-05,
      "loss": 0.4902122974395752,
      "memory(GiB)": 70.5,
      "step": 53255,
      "token_acc": 0.8910891089108911,
      "train_speed(iter/s)": 1.449429
    },
    {
      "epoch": 2.2818216871599333,
      "grad_norm": 3.17828631401062,
      "learning_rate": 5.683282593612702e-05,
      "loss": 0.5613065719604492,
      "memory(GiB)": 70.5,
      "step": 53260,
      "token_acc": 0.8897338403041825,
      "train_speed(iter/s)": 1.449448
    },
    {
      "epoch": 2.282035902489182,
      "grad_norm": 3.125295639038086,
      "learning_rate": 5.682615923663147e-05,
      "loss": 0.40001716613769533,
      "memory(GiB)": 70.5,
      "step": 53265,
      "token_acc": 0.9049180327868852,
      "train_speed(iter/s)": 1.449478
    },
    {
      "epoch": 2.282250117818431,
      "grad_norm": 3.1407928466796875,
      "learning_rate": 5.681949241347364e-05,
      "loss": 0.2714265823364258,
      "memory(GiB)": 70.5,
      "step": 53270,
      "token_acc": 0.9479166666666666,
      "train_speed(iter/s)": 1.44947
    },
    {
      "epoch": 2.28246433314768,
      "grad_norm": 4.161417484283447,
      "learning_rate": 5.681282546677431e-05,
      "loss": 0.32826714515686034,
      "memory(GiB)": 70.5,
      "step": 53275,
      "token_acc": 0.9345794392523364,
      "train_speed(iter/s)": 1.449468
    },
    {
      "epoch": 2.282678548476929,
      "grad_norm": 4.024356365203857,
      "learning_rate": 5.6806158396654264e-05,
      "loss": 0.3191695213317871,
      "memory(GiB)": 70.5,
      "step": 53280,
      "token_acc": 0.9236641221374046,
      "train_speed(iter/s)": 1.449488
    },
    {
      "epoch": 2.282892763806178,
      "grad_norm": 4.003512859344482,
      "learning_rate": 5.679949120323426e-05,
      "loss": 0.44338092803955076,
      "memory(GiB)": 70.5,
      "step": 53285,
      "token_acc": 0.8867313915857605,
      "train_speed(iter/s)": 1.449496
    },
    {
      "epoch": 2.283106979135427,
      "grad_norm": 2.9352989196777344,
      "learning_rate": 5.6792823886635104e-05,
      "loss": 0.43652806282043455,
      "memory(GiB)": 70.5,
      "step": 53290,
      "token_acc": 0.910828025477707,
      "train_speed(iter/s)": 1.449504
    },
    {
      "epoch": 2.283321194464676,
      "grad_norm": 2.8504984378814697,
      "learning_rate": 5.678615644697758e-05,
      "loss": 0.2601557970046997,
      "memory(GiB)": 70.5,
      "step": 53295,
      "token_acc": 0.9541666666666667,
      "train_speed(iter/s)": 1.449523
    },
    {
      "epoch": 2.2835354097939247,
      "grad_norm": 6.868009090423584,
      "learning_rate": 5.6779488884382446e-05,
      "loss": 0.24890489578247071,
      "memory(GiB)": 70.5,
      "step": 53300,
      "token_acc": 0.9431438127090301,
      "train_speed(iter/s)": 1.449525
    },
    {
      "epoch": 2.283749625123174,
      "grad_norm": 2.26428484916687,
      "learning_rate": 5.677282119897053e-05,
      "loss": 0.2133488178253174,
      "memory(GiB)": 70.5,
      "step": 53305,
      "token_acc": 0.948051948051948,
      "train_speed(iter/s)": 1.449532
    },
    {
      "epoch": 2.2839638404524227,
      "grad_norm": 1.474932074546814,
      "learning_rate": 5.6766153390862585e-05,
      "loss": 0.3669632911682129,
      "memory(GiB)": 70.5,
      "step": 53310,
      "token_acc": 0.921875,
      "train_speed(iter/s)": 1.44953
    },
    {
      "epoch": 2.2841780557816715,
      "grad_norm": 5.377188682556152,
      "learning_rate": 5.675948546017943e-05,
      "loss": 0.49345989227294923,
      "memory(GiB)": 70.5,
      "step": 53315,
      "token_acc": 0.9011406844106464,
      "train_speed(iter/s)": 1.449529
    },
    {
      "epoch": 2.284392271110921,
      "grad_norm": 0.5170162320137024,
      "learning_rate": 5.6752817407041855e-05,
      "loss": 0.2383336067199707,
      "memory(GiB)": 70.5,
      "step": 53320,
      "token_acc": 0.9437086092715232,
      "train_speed(iter/s)": 1.449536
    },
    {
      "epoch": 2.2846064864401696,
      "grad_norm": 2.676469564437866,
      "learning_rate": 5.674614923157068e-05,
      "loss": 0.3076120615005493,
      "memory(GiB)": 70.5,
      "step": 53325,
      "token_acc": 0.927710843373494,
      "train_speed(iter/s)": 1.449555
    },
    {
      "epoch": 2.2848207017694184,
      "grad_norm": 1.796510100364685,
      "learning_rate": 5.6739480933886655e-05,
      "loss": 0.6351068019866943,
      "memory(GiB)": 70.5,
      "step": 53330,
      "token_acc": 0.863768115942029,
      "train_speed(iter/s)": 1.449564
    },
    {
      "epoch": 2.2850349170986677,
      "grad_norm": 5.7469482421875,
      "learning_rate": 5.6732812514110624e-05,
      "loss": 0.2867789030075073,
      "memory(GiB)": 70.5,
      "step": 53335,
      "token_acc": 0.9432624113475178,
      "train_speed(iter/s)": 1.44956
    },
    {
      "epoch": 2.2852491324279165,
      "grad_norm": 0.6336707472801208,
      "learning_rate": 5.672614397236337e-05,
      "loss": 0.2812535762786865,
      "memory(GiB)": 70.5,
      "step": 53340,
      "token_acc": 0.9434523809523809,
      "train_speed(iter/s)": 1.449558
    },
    {
      "epoch": 2.2854633477571653,
      "grad_norm": 4.821355819702148,
      "learning_rate": 5.671947530876571e-05,
      "loss": 0.37067503929138185,
      "memory(GiB)": 70.5,
      "step": 53345,
      "token_acc": 0.9413680781758957,
      "train_speed(iter/s)": 1.449551
    },
    {
      "epoch": 2.2856775630864146,
      "grad_norm": 3.747122287750244,
      "learning_rate": 5.671280652343846e-05,
      "loss": 0.31232738494873047,
      "memory(GiB)": 70.5,
      "step": 53350,
      "token_acc": 0.9403973509933775,
      "train_speed(iter/s)": 1.449548
    },
    {
      "epoch": 2.2858917784156634,
      "grad_norm": 2.251922845840454,
      "learning_rate": 5.670613761650242e-05,
      "loss": 0.5566195487976074,
      "memory(GiB)": 70.5,
      "step": 53355,
      "token_acc": 0.8925081433224755,
      "train_speed(iter/s)": 1.449548
    },
    {
      "epoch": 2.286105993744912,
      "grad_norm": 2.4166882038116455,
      "learning_rate": 5.6699468588078394e-05,
      "loss": 0.3651489973068237,
      "memory(GiB)": 70.5,
      "step": 53360,
      "token_acc": 0.9120879120879121,
      "train_speed(iter/s)": 1.449543
    },
    {
      "epoch": 2.2863202090741614,
      "grad_norm": 2.9951207637786865,
      "learning_rate": 5.669279943828723e-05,
      "loss": 0.2467723846435547,
      "memory(GiB)": 70.5,
      "step": 53365,
      "token_acc": 0.9488054607508533,
      "train_speed(iter/s)": 1.44956
    },
    {
      "epoch": 2.2865344244034103,
      "grad_norm": 5.133660316467285,
      "learning_rate": 5.6686130167249706e-05,
      "loss": 0.367284369468689,
      "memory(GiB)": 70.5,
      "step": 53370,
      "token_acc": 0.8953068592057761,
      "train_speed(iter/s)": 1.449565
    },
    {
      "epoch": 2.286748639732659,
      "grad_norm": 0.846076250076294,
      "learning_rate": 5.6679460775086676e-05,
      "loss": 0.20354270935058594,
      "memory(GiB)": 70.5,
      "step": 53375,
      "token_acc": 0.9558232931726908,
      "train_speed(iter/s)": 1.449568
    },
    {
      "epoch": 2.2869628550619083,
      "grad_norm": 6.270830154418945,
      "learning_rate": 5.667279126191896e-05,
      "loss": 0.47473459243774413,
      "memory(GiB)": 70.5,
      "step": 53380,
      "token_acc": 0.9192982456140351,
      "train_speed(iter/s)": 1.449573
    },
    {
      "epoch": 2.287177070391157,
      "grad_norm": 9.750495910644531,
      "learning_rate": 5.666612162786734e-05,
      "loss": 0.8128856658935547,
      "memory(GiB)": 70.5,
      "step": 53385,
      "token_acc": 0.84765625,
      "train_speed(iter/s)": 1.449604
    },
    {
      "epoch": 2.287391285720406,
      "grad_norm": 1.8908761739730835,
      "learning_rate": 5.665945187305268e-05,
      "loss": 0.3812835454940796,
      "memory(GiB)": 70.5,
      "step": 53390,
      "token_acc": 0.9375,
      "train_speed(iter/s)": 1.449612
    },
    {
      "epoch": 2.287605501049655,
      "grad_norm": 3.773660182952881,
      "learning_rate": 5.6652781997595814e-05,
      "loss": 0.5328668594360352,
      "memory(GiB)": 70.5,
      "step": 53395,
      "token_acc": 0.877742946708464,
      "train_speed(iter/s)": 1.449619
    },
    {
      "epoch": 2.287819716378904,
      "grad_norm": 2.356423854827881,
      "learning_rate": 5.6646112001617554e-05,
      "loss": 0.24006919860839843,
      "memory(GiB)": 70.5,
      "step": 53400,
      "token_acc": 0.9303030303030303,
      "train_speed(iter/s)": 1.449611
    },
    {
      "epoch": 2.288033931708153,
      "grad_norm": 3.5788700580596924,
      "learning_rate": 5.663944188523875e-05,
      "loss": 0.3900122165679932,
      "memory(GiB)": 70.5,
      "step": 53405,
      "token_acc": 0.915057915057915,
      "train_speed(iter/s)": 1.449612
    },
    {
      "epoch": 2.288248147037402,
      "grad_norm": 1.9418141841888428,
      "learning_rate": 5.663277164858023e-05,
      "loss": 0.33175044059753417,
      "memory(GiB)": 70.5,
      "step": 53410,
      "token_acc": 0.9275862068965517,
      "train_speed(iter/s)": 1.449618
    },
    {
      "epoch": 2.288462362366651,
      "grad_norm": 8.450907707214355,
      "learning_rate": 5.662610129176281e-05,
      "loss": 0.2387521743774414,
      "memory(GiB)": 70.5,
      "step": 53415,
      "token_acc": 0.9256505576208178,
      "train_speed(iter/s)": 1.449619
    },
    {
      "epoch": 2.2886765776958997,
      "grad_norm": 2.5113871097564697,
      "learning_rate": 5.661943081490736e-05,
      "loss": 0.39509007930755613,
      "memory(GiB)": 70.5,
      "step": 53420,
      "token_acc": 0.911504424778761,
      "train_speed(iter/s)": 1.449613
    },
    {
      "epoch": 2.288890793025149,
      "grad_norm": 3.9333574771881104,
      "learning_rate": 5.661276021813472e-05,
      "loss": 0.4428097724914551,
      "memory(GiB)": 70.5,
      "step": 53425,
      "token_acc": 0.9028776978417267,
      "train_speed(iter/s)": 1.449631
    },
    {
      "epoch": 2.289105008354398,
      "grad_norm": 1.680936574935913,
      "learning_rate": 5.6606089501565704e-05,
      "loss": 0.3767989158630371,
      "memory(GiB)": 70.5,
      "step": 53430,
      "token_acc": 0.9276315789473685,
      "train_speed(iter/s)": 1.449636
    },
    {
      "epoch": 2.2893192236836466,
      "grad_norm": 3.718277931213379,
      "learning_rate": 5.65994186653212e-05,
      "loss": 0.4427751064300537,
      "memory(GiB)": 70.5,
      "step": 53435,
      "token_acc": 0.9,
      "train_speed(iter/s)": 1.449639
    },
    {
      "epoch": 2.289533439012896,
      "grad_norm": 4.332479476928711,
      "learning_rate": 5.659274770952204e-05,
      "loss": 0.4826528072357178,
      "memory(GiB)": 70.5,
      "step": 53440,
      "token_acc": 0.9083333333333333,
      "train_speed(iter/s)": 1.449639
    },
    {
      "epoch": 2.2897476543421447,
      "grad_norm": 4.243422508239746,
      "learning_rate": 5.658607663428905e-05,
      "loss": 0.46933732032775877,
      "memory(GiB)": 70.5,
      "step": 53445,
      "token_acc": 0.8776223776223776,
      "train_speed(iter/s)": 1.449642
    },
    {
      "epoch": 2.2899618696713935,
      "grad_norm": 2.277090072631836,
      "learning_rate": 5.6579405439743114e-05,
      "loss": 0.23726811408996581,
      "memory(GiB)": 70.5,
      "step": 53450,
      "token_acc": 0.9431818181818182,
      "train_speed(iter/s)": 1.449645
    },
    {
      "epoch": 2.2901760850006427,
      "grad_norm": 0.2064744532108307,
      "learning_rate": 5.6572734126005076e-05,
      "loss": 0.23630006313323976,
      "memory(GiB)": 70.5,
      "step": 53455,
      "token_acc": 0.948339483394834,
      "train_speed(iter/s)": 1.44964
    },
    {
      "epoch": 2.2903903003298915,
      "grad_norm": 2.193551540374756,
      "learning_rate": 5.656606269319579e-05,
      "loss": 0.10102169513702393,
      "memory(GiB)": 70.5,
      "step": 53460,
      "token_acc": 0.977859778597786,
      "train_speed(iter/s)": 1.449641
    },
    {
      "epoch": 2.2906045156591404,
      "grad_norm": 3.3399651050567627,
      "learning_rate": 5.6559391141436126e-05,
      "loss": 0.5319972038269043,
      "memory(GiB)": 70.5,
      "step": 53465,
      "token_acc": 0.8973509933774835,
      "train_speed(iter/s)": 1.449657
    },
    {
      "epoch": 2.2908187309883896,
      "grad_norm": 10.238447189331055,
      "learning_rate": 5.655271947084694e-05,
      "loss": 0.32825703620910646,
      "memory(GiB)": 70.5,
      "step": 53470,
      "token_acc": 0.9495548961424333,
      "train_speed(iter/s)": 1.449674
    },
    {
      "epoch": 2.2910329463176384,
      "grad_norm": 0.8763352036476135,
      "learning_rate": 5.654604768154909e-05,
      "loss": 0.27101964950561525,
      "memory(GiB)": 70.5,
      "step": 53475,
      "token_acc": 0.9473684210526315,
      "train_speed(iter/s)": 1.44967
    },
    {
      "epoch": 2.2912471616468872,
      "grad_norm": 3.281989097595215,
      "learning_rate": 5.6539375773663436e-05,
      "loss": 0.5150269031524658,
      "memory(GiB)": 70.5,
      "step": 53480,
      "token_acc": 0.8811881188118812,
      "train_speed(iter/s)": 1.449669
    },
    {
      "epoch": 2.2914613769761365,
      "grad_norm": 6.666264057159424,
      "learning_rate": 5.653270374731087e-05,
      "loss": 0.3336836338043213,
      "memory(GiB)": 70.5,
      "step": 53485,
      "token_acc": 0.9403973509933775,
      "train_speed(iter/s)": 1.449675
    },
    {
      "epoch": 2.2916755923053853,
      "grad_norm": 5.3463969230651855,
      "learning_rate": 5.652603160261224e-05,
      "loss": 0.5435078620910645,
      "memory(GiB)": 70.5,
      "step": 53490,
      "token_acc": 0.8526315789473684,
      "train_speed(iter/s)": 1.449669
    },
    {
      "epoch": 2.291889807634634,
      "grad_norm": 6.436408519744873,
      "learning_rate": 5.651935933968843e-05,
      "loss": 0.33032329082489015,
      "memory(GiB)": 70.5,
      "step": 53495,
      "token_acc": 0.9065420560747663,
      "train_speed(iter/s)": 1.449664
    },
    {
      "epoch": 2.2921040229638834,
      "grad_norm": 1.5094674825668335,
      "learning_rate": 5.65126869586603e-05,
      "loss": 0.3972856760025024,
      "memory(GiB)": 70.5,
      "step": 53500,
      "token_acc": 0.9090909090909091,
      "train_speed(iter/s)": 1.449672
    },
    {
      "epoch": 2.2921040229638834,
      "eval_loss": 2.4498934745788574,
      "eval_runtime": 13.1215,
      "eval_samples_per_second": 7.621,
      "eval_steps_per_second": 7.621,
      "eval_token_acc": 0.45,
      "step": 53500
    },
    {
      "epoch": 2.292318238293132,
      "grad_norm": 5.801357746124268,
      "learning_rate": 5.650601445964874e-05,
      "loss": 0.2223287582397461,
      "memory(GiB)": 70.5,
      "step": 53505,
      "token_acc": 0.6092066601371204,
      "train_speed(iter/s)": 1.44912
    },
    {
      "epoch": 2.292532453622381,
      "grad_norm": 2.840301275253296,
      "learning_rate": 5.6499341842774637e-05,
      "loss": 0.28338189125061036,
      "memory(GiB)": 70.5,
      "step": 53510,
      "token_acc": 0.940625,
      "train_speed(iter/s)": 1.449124
    },
    {
      "epoch": 2.2927466689516303,
      "grad_norm": 2.8509740829467773,
      "learning_rate": 5.649266910815885e-05,
      "loss": 0.15979973077774048,
      "memory(GiB)": 70.5,
      "step": 53515,
      "token_acc": 0.9636363636363636,
      "train_speed(iter/s)": 1.449126
    },
    {
      "epoch": 2.292960884280879,
      "grad_norm": 6.476071357727051,
      "learning_rate": 5.648599625592227e-05,
      "loss": 0.479799747467041,
      "memory(GiB)": 70.5,
      "step": 53520,
      "token_acc": 0.9101123595505618,
      "train_speed(iter/s)": 1.449133
    },
    {
      "epoch": 2.293175099610128,
      "grad_norm": 0.17781279981136322,
      "learning_rate": 5.647932328618579e-05,
      "loss": 0.45985946655273435,
      "memory(GiB)": 70.5,
      "step": 53525,
      "token_acc": 0.9080118694362018,
      "train_speed(iter/s)": 1.449135
    },
    {
      "epoch": 2.293389314939377,
      "grad_norm": 6.220119953155518,
      "learning_rate": 5.647265019907027e-05,
      "loss": 0.4274289608001709,
      "memory(GiB)": 70.5,
      "step": 53530,
      "token_acc": 0.9206896551724137,
      "train_speed(iter/s)": 1.449138
    },
    {
      "epoch": 2.293603530268626,
      "grad_norm": 4.03661584854126,
      "learning_rate": 5.646597699469665e-05,
      "loss": 0.28065469264984133,
      "memory(GiB)": 70.5,
      "step": 53535,
      "token_acc": 0.9387755102040817,
      "train_speed(iter/s)": 1.449146
    },
    {
      "epoch": 2.2938177455978748,
      "grad_norm": 4.1724395751953125,
      "learning_rate": 5.645930367318577e-05,
      "loss": 0.422794771194458,
      "memory(GiB)": 70.5,
      "step": 53540,
      "token_acc": 0.890625,
      "train_speed(iter/s)": 1.449152
    },
    {
      "epoch": 2.294031960927124,
      "grad_norm": 3.000312089920044,
      "learning_rate": 5.645263023465854e-05,
      "loss": 0.18635308742523193,
      "memory(GiB)": 70.5,
      "step": 53545,
      "token_acc": 0.9640522875816994,
      "train_speed(iter/s)": 1.449159
    },
    {
      "epoch": 2.294246176256373,
      "grad_norm": 4.875197887420654,
      "learning_rate": 5.644595667923589e-05,
      "loss": 0.5027366638183594,
      "memory(GiB)": 70.5,
      "step": 53550,
      "token_acc": 0.8996138996138996,
      "train_speed(iter/s)": 1.449174
    },
    {
      "epoch": 2.2944603915856217,
      "grad_norm": 4.36314582824707,
      "learning_rate": 5.643928300703867e-05,
      "loss": 0.43693079948425295,
      "memory(GiB)": 70.5,
      "step": 53555,
      "token_acc": 0.9166666666666666,
      "train_speed(iter/s)": 1.449177
    },
    {
      "epoch": 2.294674606914871,
      "grad_norm": 3.1217849254608154,
      "learning_rate": 5.643260921818779e-05,
      "loss": 0.6142314910888672,
      "memory(GiB)": 70.5,
      "step": 53560,
      "token_acc": 0.8698630136986302,
      "train_speed(iter/s)": 1.449188
    },
    {
      "epoch": 2.2948888222441197,
      "grad_norm": 1.620611310005188,
      "learning_rate": 5.642593531280418e-05,
      "loss": 0.25156326293945314,
      "memory(GiB)": 70.5,
      "step": 53565,
      "token_acc": 0.952054794520548,
      "train_speed(iter/s)": 1.449206
    },
    {
      "epoch": 2.2951030375733685,
      "grad_norm": 5.62371826171875,
      "learning_rate": 5.6419261291008696e-05,
      "loss": 0.439546012878418,
      "memory(GiB)": 70.5,
      "step": 53570,
      "token_acc": 0.9060150375939849,
      "train_speed(iter/s)": 1.449203
    },
    {
      "epoch": 2.295317252902618,
      "grad_norm": 2.112898111343384,
      "learning_rate": 5.641258715292228e-05,
      "loss": 0.33036787509918214,
      "memory(GiB)": 70.5,
      "step": 53575,
      "token_acc": 0.933852140077821,
      "train_speed(iter/s)": 1.449204
    },
    {
      "epoch": 2.2955314682318666,
      "grad_norm": 0.17571553587913513,
      "learning_rate": 5.640591289866585e-05,
      "loss": 0.2202195405960083,
      "memory(GiB)": 70.5,
      "step": 53580,
      "token_acc": 0.9385665529010239,
      "train_speed(iter/s)": 1.449204
    },
    {
      "epoch": 2.2957456835611154,
      "grad_norm": 4.893132209777832,
      "learning_rate": 5.6399238528360285e-05,
      "loss": 0.3805395603179932,
      "memory(GiB)": 70.5,
      "step": 53585,
      "token_acc": 0.9133858267716536,
      "train_speed(iter/s)": 1.449204
    },
    {
      "epoch": 2.2959598988903647,
      "grad_norm": 3.3214588165283203,
      "learning_rate": 5.6392564042126514e-05,
      "loss": 0.1667158007621765,
      "memory(GiB)": 70.5,
      "step": 53590,
      "token_acc": 0.9718875502008032,
      "train_speed(iter/s)": 1.449205
    },
    {
      "epoch": 2.2961741142196135,
      "grad_norm": 2.1673429012298584,
      "learning_rate": 5.638588944008546e-05,
      "loss": 0.6437295913696289,
      "memory(GiB)": 70.5,
      "step": 53595,
      "token_acc": 0.8767123287671232,
      "train_speed(iter/s)": 1.449201
    },
    {
      "epoch": 2.2963883295488623,
      "grad_norm": 4.122439861297607,
      "learning_rate": 5.637921472235801e-05,
      "loss": 0.5037303447723389,
      "memory(GiB)": 70.5,
      "step": 53600,
      "token_acc": 0.8780487804878049,
      "train_speed(iter/s)": 1.4492
    },
    {
      "epoch": 2.2966025448781116,
      "grad_norm": 6.5001020431518555,
      "learning_rate": 5.63725398890651e-05,
      "loss": 0.4439727306365967,
      "memory(GiB)": 70.5,
      "step": 53605,
      "token_acc": 0.9060150375939849,
      "train_speed(iter/s)": 1.449208
    },
    {
      "epoch": 2.2968167602073604,
      "grad_norm": 6.516814231872559,
      "learning_rate": 5.636586494032766e-05,
      "loss": 0.30937848091125486,
      "memory(GiB)": 70.5,
      "step": 53610,
      "token_acc": 0.95,
      "train_speed(iter/s)": 1.449201
    },
    {
      "epoch": 2.297030975536609,
      "grad_norm": 3.292412042617798,
      "learning_rate": 5.635918987626661e-05,
      "loss": 0.7606129169464111,
      "memory(GiB)": 70.5,
      "step": 53615,
      "token_acc": 0.8367346938775511,
      "train_speed(iter/s)": 1.449206
    },
    {
      "epoch": 2.2972451908658584,
      "grad_norm": 1.9303717613220215,
      "learning_rate": 5.6352514697002865e-05,
      "loss": 0.418535852432251,
      "memory(GiB)": 70.5,
      "step": 53620,
      "token_acc": 0.9080459770114943,
      "train_speed(iter/s)": 1.449206
    },
    {
      "epoch": 2.2974594061951072,
      "grad_norm": 0.4974150061607361,
      "learning_rate": 5.6345839402657364e-05,
      "loss": 0.4640336513519287,
      "memory(GiB)": 70.5,
      "step": 53625,
      "token_acc": 0.9024390243902439,
      "train_speed(iter/s)": 1.449212
    },
    {
      "epoch": 2.297673621524356,
      "grad_norm": 5.9643402099609375,
      "learning_rate": 5.633916399335102e-05,
      "loss": 0.6320202827453614,
      "memory(GiB)": 70.5,
      "step": 53630,
      "token_acc": 0.9072164948453608,
      "train_speed(iter/s)": 1.449215
    },
    {
      "epoch": 2.2978878368536053,
      "grad_norm": 5.796878814697266,
      "learning_rate": 5.633248846920478e-05,
      "loss": 0.3148148775100708,
      "memory(GiB)": 70.5,
      "step": 53635,
      "token_acc": 0.9185667752442996,
      "train_speed(iter/s)": 1.449211
    },
    {
      "epoch": 2.298102052182854,
      "grad_norm": 2.6414058208465576,
      "learning_rate": 5.632581283033956e-05,
      "loss": 0.2180105686187744,
      "memory(GiB)": 70.5,
      "step": 53640,
      "token_acc": 0.9536679536679536,
      "train_speed(iter/s)": 1.449209
    },
    {
      "epoch": 2.298316267512103,
      "grad_norm": 7.705135345458984,
      "learning_rate": 5.631913707687632e-05,
      "loss": 0.4201181411743164,
      "memory(GiB)": 70.5,
      "step": 53645,
      "token_acc": 0.9207920792079208,
      "train_speed(iter/s)": 1.449212
    },
    {
      "epoch": 2.298530482841352,
      "grad_norm": 4.373175144195557,
      "learning_rate": 5.6312461208935964e-05,
      "loss": 0.2117168664932251,
      "memory(GiB)": 70.5,
      "step": 53650,
      "token_acc": 0.9541666666666667,
      "train_speed(iter/s)": 1.449214
    },
    {
      "epoch": 2.298744698170601,
      "grad_norm": 8.658500671386719,
      "learning_rate": 5.630578522663947e-05,
      "loss": 0.3177162170410156,
      "memory(GiB)": 70.5,
      "step": 53655,
      "token_acc": 0.9362416107382551,
      "train_speed(iter/s)": 1.449231
    },
    {
      "epoch": 2.29895891349985,
      "grad_norm": 3.002086877822876,
      "learning_rate": 5.629910913010775e-05,
      "loss": 0.3351463794708252,
      "memory(GiB)": 70.5,
      "step": 53660,
      "token_acc": 0.9295774647887324,
      "train_speed(iter/s)": 1.449252
    },
    {
      "epoch": 2.299173128829099,
      "grad_norm": 7.110208988189697,
      "learning_rate": 5.6292432919461777e-05,
      "loss": 0.32074005603790284,
      "memory(GiB)": 70.5,
      "step": 53665,
      "token_acc": 0.9341317365269461,
      "train_speed(iter/s)": 1.449263
    },
    {
      "epoch": 2.299387344158348,
      "grad_norm": 6.220852851867676,
      "learning_rate": 5.628575659482247e-05,
      "loss": 0.39553916454315186,
      "memory(GiB)": 70.5,
      "step": 53670,
      "token_acc": 0.9136490250696379,
      "train_speed(iter/s)": 1.449266
    },
    {
      "epoch": 2.2996015594875967,
      "grad_norm": 4.607945919036865,
      "learning_rate": 5.627908015631078e-05,
      "loss": 0.4637740135192871,
      "memory(GiB)": 70.5,
      "step": 53675,
      "token_acc": 0.9130434782608695,
      "train_speed(iter/s)": 1.449275
    },
    {
      "epoch": 2.299815774816846,
      "grad_norm": 0.25310367345809937,
      "learning_rate": 5.6272403604047663e-05,
      "loss": 0.118560528755188,
      "memory(GiB)": 70.5,
      "step": 53680,
      "token_acc": 0.9678571428571429,
      "train_speed(iter/s)": 1.449276
    },
    {
      "epoch": 2.3000299901460948,
      "grad_norm": 2.61967396736145,
      "learning_rate": 5.626572693815407e-05,
      "loss": 0.323476505279541,
      "memory(GiB)": 70.5,
      "step": 53685,
      "token_acc": 0.9414225941422594,
      "train_speed(iter/s)": 1.449283
    },
    {
      "epoch": 2.3002442054753436,
      "grad_norm": 5.965197563171387,
      "learning_rate": 5.625905015875096e-05,
      "loss": 0.42984418869018554,
      "memory(GiB)": 70.5,
      "step": 53690,
      "token_acc": 0.900990099009901,
      "train_speed(iter/s)": 1.449279
    },
    {
      "epoch": 2.300458420804593,
      "grad_norm": 0.6055848598480225,
      "learning_rate": 5.625237326595929e-05,
      "loss": 0.07638252377510071,
      "memory(GiB)": 70.5,
      "step": 53695,
      "token_acc": 0.9791044776119403,
      "train_speed(iter/s)": 1.449285
    },
    {
      "epoch": 2.3006726361338417,
      "grad_norm": 5.9280171394348145,
      "learning_rate": 5.624569625990002e-05,
      "loss": 0.290201473236084,
      "memory(GiB)": 70.5,
      "step": 53700,
      "token_acc": 0.9319727891156463,
      "train_speed(iter/s)": 1.449288
    },
    {
      "epoch": 2.3008868514630905,
      "grad_norm": 2.9993503093719482,
      "learning_rate": 5.623901914069407e-05,
      "loss": 0.2793882846832275,
      "memory(GiB)": 70.5,
      "step": 53705,
      "token_acc": 0.9364548494983278,
      "train_speed(iter/s)": 1.449291
    },
    {
      "epoch": 2.3011010667923397,
      "grad_norm": 4.700130939483643,
      "learning_rate": 5.623234190846247e-05,
      "loss": 0.47109642028808596,
      "memory(GiB)": 70.5,
      "step": 53710,
      "token_acc": 0.8865979381443299,
      "train_speed(iter/s)": 1.449293
    },
    {
      "epoch": 2.3013152821215885,
      "grad_norm": 3.830970048904419,
      "learning_rate": 5.6225664563326134e-05,
      "loss": 0.7237722873687744,
      "memory(GiB)": 70.5,
      "step": 53715,
      "token_acc": 0.8432055749128919,
      "train_speed(iter/s)": 1.449304
    },
    {
      "epoch": 2.3015294974508373,
      "grad_norm": 4.3970046043396,
      "learning_rate": 5.621898710540604e-05,
      "loss": 0.7009999752044678,
      "memory(GiB)": 70.5,
      "step": 53720,
      "token_acc": 0.8258064516129032,
      "train_speed(iter/s)": 1.44931
    },
    {
      "epoch": 2.3017437127800866,
      "grad_norm": 3.2931957244873047,
      "learning_rate": 5.621230953482317e-05,
      "loss": 0.32334561347961427,
      "memory(GiB)": 70.5,
      "step": 53725,
      "token_acc": 0.9350180505415162,
      "train_speed(iter/s)": 1.449313
    },
    {
      "epoch": 2.3019579281093354,
      "grad_norm": 3.591479778289795,
      "learning_rate": 5.620563185169848e-05,
      "loss": 0.3717966079711914,
      "memory(GiB)": 70.5,
      "step": 53730,
      "token_acc": 0.9204892966360856,
      "train_speed(iter/s)": 1.449312
    },
    {
      "epoch": 2.3021721434385842,
      "grad_norm": 6.51910924911499,
      "learning_rate": 5.6198954056152954e-05,
      "loss": 0.292827844619751,
      "memory(GiB)": 70.5,
      "step": 53735,
      "token_acc": 0.9098039215686274,
      "train_speed(iter/s)": 1.449328
    },
    {
      "epoch": 2.3023863587678335,
      "grad_norm": 5.207090854644775,
      "learning_rate": 5.6192276148307556e-05,
      "loss": 0.4586700439453125,
      "memory(GiB)": 70.5,
      "step": 53740,
      "token_acc": 0.8989547038327527,
      "train_speed(iter/s)": 1.449353
    },
    {
      "epoch": 2.3026005740970823,
      "grad_norm": 2.7928318977355957,
      "learning_rate": 5.618559812828327e-05,
      "loss": 0.28120615482330324,
      "memory(GiB)": 70.5,
      "step": 53745,
      "token_acc": 0.9385245901639344,
      "train_speed(iter/s)": 1.449358
    },
    {
      "epoch": 2.302814789426331,
      "grad_norm": 0.343016117811203,
      "learning_rate": 5.6178919996201064e-05,
      "loss": 0.3863049507141113,
      "memory(GiB)": 70.5,
      "step": 53750,
      "token_acc": 0.9124087591240876,
      "train_speed(iter/s)": 1.44936
    },
    {
      "epoch": 2.3030290047555804,
      "grad_norm": 0.34627610445022583,
      "learning_rate": 5.617224175218193e-05,
      "loss": 0.19911811351776124,
      "memory(GiB)": 70.5,
      "step": 53755,
      "token_acc": 0.9573770491803278,
      "train_speed(iter/s)": 1.449361
    },
    {
      "epoch": 2.303243220084829,
      "grad_norm": 3.4638726711273193,
      "learning_rate": 5.616556339634686e-05,
      "loss": 0.28048694133758545,
      "memory(GiB)": 70.5,
      "step": 53760,
      "token_acc": 0.9175627240143369,
      "train_speed(iter/s)": 1.449357
    },
    {
      "epoch": 2.303457435414078,
      "grad_norm": 0.843008279800415,
      "learning_rate": 5.61588849288168e-05,
      "loss": 0.17510461807250977,
      "memory(GiB)": 70.5,
      "step": 53765,
      "token_acc": 0.9652509652509652,
      "train_speed(iter/s)": 1.449352
    },
    {
      "epoch": 2.3036716507433272,
      "grad_norm": 2.9409186840057373,
      "learning_rate": 5.6152206349712776e-05,
      "loss": 0.41826720237731935,
      "memory(GiB)": 70.5,
      "step": 53770,
      "token_acc": 0.9124579124579124,
      "train_speed(iter/s)": 1.449347
    },
    {
      "epoch": 2.303885866072576,
      "grad_norm": 3.6663713455200195,
      "learning_rate": 5.614552765915575e-05,
      "loss": 0.3619333505630493,
      "memory(GiB)": 70.5,
      "step": 53775,
      "token_acc": 0.9305555555555556,
      "train_speed(iter/s)": 1.449363
    },
    {
      "epoch": 2.304100081401825,
      "grad_norm": 1.0253468751907349,
      "learning_rate": 5.613884885726675e-05,
      "loss": 0.1925184726715088,
      "memory(GiB)": 70.5,
      "step": 53780,
      "token_acc": 0.9615384615384616,
      "train_speed(iter/s)": 1.449361
    },
    {
      "epoch": 2.304314296731074,
      "grad_norm": 0.9378514885902405,
      "learning_rate": 5.6132169944166735e-05,
      "loss": 0.14609036445617676,
      "memory(GiB)": 70.5,
      "step": 53785,
      "token_acc": 0.9698996655518395,
      "train_speed(iter/s)": 1.449371
    },
    {
      "epoch": 2.304528512060323,
      "grad_norm": 2.8869709968566895,
      "learning_rate": 5.6125490919976696e-05,
      "loss": 0.303623104095459,
      "memory(GiB)": 70.5,
      "step": 53790,
      "token_acc": 0.9381443298969072,
      "train_speed(iter/s)": 1.44938
    },
    {
      "epoch": 2.3047427273895718,
      "grad_norm": 4.117764949798584,
      "learning_rate": 5.611881178481765e-05,
      "loss": 0.39959309101104734,
      "memory(GiB)": 70.5,
      "step": 53795,
      "token_acc": 0.9004524886877828,
      "train_speed(iter/s)": 1.449381
    },
    {
      "epoch": 2.304956942718821,
      "grad_norm": 1.7091422080993652,
      "learning_rate": 5.611213253881059e-05,
      "loss": 0.2821804523468018,
      "memory(GiB)": 70.5,
      "step": 53800,
      "token_acc": 0.9343065693430657,
      "train_speed(iter/s)": 1.449383
    },
    {
      "epoch": 2.30517115804807,
      "grad_norm": 2.5907328128814697,
      "learning_rate": 5.610545318207652e-05,
      "loss": 0.26749367713928224,
      "memory(GiB)": 70.5,
      "step": 53805,
      "token_acc": 0.9418604651162791,
      "train_speed(iter/s)": 1.449388
    },
    {
      "epoch": 2.3053853733773186,
      "grad_norm": 4.497104167938232,
      "learning_rate": 5.609877371473643e-05,
      "loss": 0.4631082534790039,
      "memory(GiB)": 70.5,
      "step": 53810,
      "token_acc": 0.9032258064516129,
      "train_speed(iter/s)": 1.449389
    },
    {
      "epoch": 2.305599588706568,
      "grad_norm": 3.301682233810425,
      "learning_rate": 5.6092094136911344e-05,
      "loss": 0.6042266368865967,
      "memory(GiB)": 70.5,
      "step": 53815,
      "token_acc": 0.8782894736842105,
      "train_speed(iter/s)": 1.449389
    },
    {
      "epoch": 2.3058138040358167,
      "grad_norm": 3.865720748901367,
      "learning_rate": 5.608541444872224e-05,
      "loss": 0.16694759130477904,
      "memory(GiB)": 70.5,
      "step": 53820,
      "token_acc": 0.9523809523809523,
      "train_speed(iter/s)": 1.449394
    },
    {
      "epoch": 2.3060280193650655,
      "grad_norm": 5.021277904510498,
      "learning_rate": 5.607873465029017e-05,
      "loss": 0.1715349793434143,
      "memory(GiB)": 70.5,
      "step": 53825,
      "token_acc": 0.9641434262948207,
      "train_speed(iter/s)": 1.449412
    },
    {
      "epoch": 2.3062422346943148,
      "grad_norm": 5.589904308319092,
      "learning_rate": 5.607205474173609e-05,
      "loss": 0.4337559700012207,
      "memory(GiB)": 70.5,
      "step": 53830,
      "token_acc": 0.9018181818181819,
      "train_speed(iter/s)": 1.449422
    },
    {
      "epoch": 2.3064564500235636,
      "grad_norm": 2.3857924938201904,
      "learning_rate": 5.606537472318105e-05,
      "loss": 0.3788615226745605,
      "memory(GiB)": 70.5,
      "step": 53835,
      "token_acc": 0.9156118143459916,
      "train_speed(iter/s)": 1.449424
    },
    {
      "epoch": 2.3066706653528124,
      "grad_norm": 2.1560347080230713,
      "learning_rate": 5.605869459474608e-05,
      "loss": 0.5390674591064453,
      "memory(GiB)": 70.5,
      "step": 53840,
      "token_acc": 0.9097472924187726,
      "train_speed(iter/s)": 1.449437
    },
    {
      "epoch": 2.3068848806820617,
      "grad_norm": 0.6594496965408325,
      "learning_rate": 5.6052014356552166e-05,
      "loss": 0.25436246395111084,
      "memory(GiB)": 70.5,
      "step": 53845,
      "token_acc": 0.9415807560137457,
      "train_speed(iter/s)": 1.449457
    },
    {
      "epoch": 2.3070990960113105,
      "grad_norm": 1.6889723539352417,
      "learning_rate": 5.6045334008720316e-05,
      "loss": 0.26104116439819336,
      "memory(GiB)": 70.5,
      "step": 53850,
      "token_acc": 0.9432624113475178,
      "train_speed(iter/s)": 1.44947
    },
    {
      "epoch": 2.3073133113405593,
      "grad_norm": 2.3454360961914062,
      "learning_rate": 5.603865355137159e-05,
      "loss": 0.455338716506958,
      "memory(GiB)": 70.5,
      "step": 53855,
      "token_acc": 0.9078212290502793,
      "train_speed(iter/s)": 1.449483
    },
    {
      "epoch": 2.3075275266698085,
      "grad_norm": 2.728752613067627,
      "learning_rate": 5.603197298462697e-05,
      "loss": 0.2548649549484253,
      "memory(GiB)": 70.5,
      "step": 53860,
      "token_acc": 0.9372549019607843,
      "train_speed(iter/s)": 1.449483
    },
    {
      "epoch": 2.3077417419990573,
      "grad_norm": 3.2312440872192383,
      "learning_rate": 5.60252923086075e-05,
      "loss": 0.2503353118896484,
      "memory(GiB)": 70.5,
      "step": 53865,
      "token_acc": 0.9471698113207547,
      "train_speed(iter/s)": 1.449482
    },
    {
      "epoch": 2.3079559573283066,
      "grad_norm": 1.8478693962097168,
      "learning_rate": 5.601861152343423e-05,
      "loss": 0.1925703763961792,
      "memory(GiB)": 70.5,
      "step": 53870,
      "token_acc": 0.9523809523809523,
      "train_speed(iter/s)": 1.449489
    },
    {
      "epoch": 2.3081701726575554,
      "grad_norm": 7.490016937255859,
      "learning_rate": 5.601193062922816e-05,
      "loss": 0.3407423973083496,
      "memory(GiB)": 70.5,
      "step": 53875,
      "token_acc": 0.9437229437229437,
      "train_speed(iter/s)": 1.449491
    },
    {
      "epoch": 2.3083843879868042,
      "grad_norm": 3.3790435791015625,
      "learning_rate": 5.600524962611032e-05,
      "loss": 0.32505862712860106,
      "memory(GiB)": 70.5,
      "step": 53880,
      "token_acc": 0.9315589353612167,
      "train_speed(iter/s)": 1.4495
    },
    {
      "epoch": 2.3085986033160535,
      "grad_norm": 4.06915807723999,
      "learning_rate": 5.5998568514201754e-05,
      "loss": 0.31341025829315183,
      "memory(GiB)": 70.5,
      "step": 53885,
      "token_acc": 0.9330855018587361,
      "train_speed(iter/s)": 1.449509
    },
    {
      "epoch": 2.3088128186453023,
      "grad_norm": 0.861772358417511,
      "learning_rate": 5.599188729362349e-05,
      "loss": 0.15059107542037964,
      "memory(GiB)": 70.5,
      "step": 53890,
      "token_acc": 0.956989247311828,
      "train_speed(iter/s)": 1.449505
    },
    {
      "epoch": 2.309027033974551,
      "grad_norm": 1.9860326051712036,
      "learning_rate": 5.598520596449657e-05,
      "loss": 0.33988428115844727,
      "memory(GiB)": 70.5,
      "step": 53895,
      "token_acc": 0.9358108108108109,
      "train_speed(iter/s)": 1.449506
    },
    {
      "epoch": 2.3092412493038004,
      "grad_norm": 4.868551254272461,
      "learning_rate": 5.597852452694202e-05,
      "loss": 0.41863741874694826,
      "memory(GiB)": 70.5,
      "step": 53900,
      "token_acc": 0.9210526315789473,
      "train_speed(iter/s)": 1.449508
    },
    {
      "epoch": 2.309455464633049,
      "grad_norm": 3.5520007610321045,
      "learning_rate": 5.5971842981080905e-05,
      "loss": 0.36502714157104493,
      "memory(GiB)": 70.5,
      "step": 53905,
      "token_acc": 0.9274447949526814,
      "train_speed(iter/s)": 1.449511
    },
    {
      "epoch": 2.309669679962298,
      "grad_norm": 7.9579877853393555,
      "learning_rate": 5.5965161327034234e-05,
      "loss": 0.433031702041626,
      "memory(GiB)": 70.5,
      "step": 53910,
      "token_acc": 0.9042553191489362,
      "train_speed(iter/s)": 1.449516
    },
    {
      "epoch": 2.3098838952915473,
      "grad_norm": 0.030878588557243347,
      "learning_rate": 5.595847956492308e-05,
      "loss": 0.3921220779418945,
      "memory(GiB)": 70.5,
      "step": 53915,
      "token_acc": 0.9301587301587302,
      "train_speed(iter/s)": 1.449519
    },
    {
      "epoch": 2.310098110620796,
      "grad_norm": 5.237154483795166,
      "learning_rate": 5.595179769486848e-05,
      "loss": 0.3952942371368408,
      "memory(GiB)": 70.5,
      "step": 53920,
      "token_acc": 0.9316546762589928,
      "train_speed(iter/s)": 1.449526
    },
    {
      "epoch": 2.310312325950045,
      "grad_norm": 3.2706494331359863,
      "learning_rate": 5.5945115716991484e-05,
      "loss": 0.2545742988586426,
      "memory(GiB)": 70.5,
      "step": 53925,
      "token_acc": 0.9304029304029304,
      "train_speed(iter/s)": 1.449519
    },
    {
      "epoch": 2.310526541279294,
      "grad_norm": 1.8500431776046753,
      "learning_rate": 5.5938433631413145e-05,
      "loss": 0.37685275077819824,
      "memory(GiB)": 70.5,
      "step": 53930,
      "token_acc": 0.9113924050632911,
      "train_speed(iter/s)": 1.44952
    },
    {
      "epoch": 2.310740756608543,
      "grad_norm": 7.551665306091309,
      "learning_rate": 5.5931751438254486e-05,
      "loss": 0.31137535572052,
      "memory(GiB)": 70.5,
      "step": 53935,
      "token_acc": 0.9575971731448764,
      "train_speed(iter/s)": 1.44952
    },
    {
      "epoch": 2.3109549719377918,
      "grad_norm": 42.9505500793457,
      "learning_rate": 5.59250691376366e-05,
      "loss": 0.46219935417175295,
      "memory(GiB)": 70.5,
      "step": 53940,
      "token_acc": 0.8985507246376812,
      "train_speed(iter/s)": 1.449519
    },
    {
      "epoch": 2.311169187267041,
      "grad_norm": 5.364593982696533,
      "learning_rate": 5.5918386729680535e-05,
      "loss": 0.15154176950454712,
      "memory(GiB)": 70.5,
      "step": 53945,
      "token_acc": 0.9473684210526315,
      "train_speed(iter/s)": 1.449517
    },
    {
      "epoch": 2.31138340259629,
      "grad_norm": 4.0888447761535645,
      "learning_rate": 5.591170421450733e-05,
      "loss": 0.44754953384399415,
      "memory(GiB)": 70.5,
      "step": 53950,
      "token_acc": 0.9075342465753424,
      "train_speed(iter/s)": 1.449519
    },
    {
      "epoch": 2.3115976179255386,
      "grad_norm": 1.5142426490783691,
      "learning_rate": 5.590502159223807e-05,
      "loss": 0.18826534748077392,
      "memory(GiB)": 70.5,
      "step": 53955,
      "token_acc": 0.9601328903654485,
      "train_speed(iter/s)": 1.449523
    },
    {
      "epoch": 2.311811833254788,
      "grad_norm": 3.106785535812378,
      "learning_rate": 5.58983388629938e-05,
      "loss": 0.3264858961105347,
      "memory(GiB)": 70.5,
      "step": 53960,
      "token_acc": 0.910958904109589,
      "train_speed(iter/s)": 1.449528
    },
    {
      "epoch": 2.3120260485840367,
      "grad_norm": 3.2899327278137207,
      "learning_rate": 5.589165602689559e-05,
      "loss": 0.4097161293029785,
      "memory(GiB)": 70.5,
      "step": 53965,
      "token_acc": 0.91875,
      "train_speed(iter/s)": 1.449522
    },
    {
      "epoch": 2.3122402639132855,
      "grad_norm": 4.264303684234619,
      "learning_rate": 5.588497308406451e-05,
      "loss": 0.4816551208496094,
      "memory(GiB)": 70.5,
      "step": 53970,
      "token_acc": 0.9029126213592233,
      "train_speed(iter/s)": 1.449521
    },
    {
      "epoch": 2.3124544792425348,
      "grad_norm": 5.246365070343018,
      "learning_rate": 5.5878290034621593e-05,
      "loss": 0.3177368640899658,
      "memory(GiB)": 70.5,
      "step": 53975,
      "token_acc": 0.9342857142857143,
      "train_speed(iter/s)": 1.449529
    },
    {
      "epoch": 2.3126686945717836,
      "grad_norm": 1.514316201210022,
      "learning_rate": 5.5871606878687956e-05,
      "loss": 0.29752888679504397,
      "memory(GiB)": 70.5,
      "step": 53980,
      "token_acc": 0.9390243902439024,
      "train_speed(iter/s)": 1.449529
    },
    {
      "epoch": 2.3128829099010324,
      "grad_norm": 3.822108030319214,
      "learning_rate": 5.586492361638466e-05,
      "loss": 0.3520516872406006,
      "memory(GiB)": 70.5,
      "step": 53985,
      "token_acc": 0.9290322580645162,
      "train_speed(iter/s)": 1.449526
    },
    {
      "epoch": 2.3130971252302817,
      "grad_norm": 3.0148708820343018,
      "learning_rate": 5.585824024783277e-05,
      "loss": 0.2564198970794678,
      "memory(GiB)": 70.5,
      "step": 53990,
      "token_acc": 0.9271523178807947,
      "train_speed(iter/s)": 1.449532
    },
    {
      "epoch": 2.3133113405595305,
      "grad_norm": 2.9119584560394287,
      "learning_rate": 5.585155677315336e-05,
      "loss": 0.2712787389755249,
      "memory(GiB)": 70.5,
      "step": 53995,
      "token_acc": 0.9250936329588015,
      "train_speed(iter/s)": 1.449532
    },
    {
      "epoch": 2.3135255558887793,
      "grad_norm": 3.3794896602630615,
      "learning_rate": 5.5844873192467506e-05,
      "loss": 0.24150660037994384,
      "memory(GiB)": 70.5,
      "step": 54000,
      "token_acc": 0.9468085106382979,
      "train_speed(iter/s)": 1.449543
    },
    {
      "epoch": 2.3135255558887793,
      "eval_loss": 2.5918097496032715,
      "eval_runtime": 13.4851,
      "eval_samples_per_second": 7.416,
      "eval_steps_per_second": 7.416,
      "eval_token_acc": 0.4373297002724796,
      "step": 54000
    },
    {
      "epoch": 2.3137397712180285,
      "grad_norm": 2.7610361576080322,
      "learning_rate": 5.583818950589629e-05,
      "loss": 0.7330290794372558,
      "memory(GiB)": 70.5,
      "step": 54005,
      "token_acc": 0.5722326454033771,
      "train_speed(iter/s)": 1.448986
    },
    {
      "epoch": 2.3139539865472774,
      "grad_norm": 1.332458734512329,
      "learning_rate": 5.583150571356079e-05,
      "loss": 0.3255995035171509,
      "memory(GiB)": 70.5,
      "step": 54010,
      "token_acc": 0.9250814332247557,
      "train_speed(iter/s)": 1.448987
    },
    {
      "epoch": 2.314168201876526,
      "grad_norm": 5.601319789886475,
      "learning_rate": 5.5824821815582104e-05,
      "loss": 0.3370448112487793,
      "memory(GiB)": 70.5,
      "step": 54015,
      "token_acc": 0.93359375,
      "train_speed(iter/s)": 1.449001
    },
    {
      "epoch": 2.3143824172057754,
      "grad_norm": 3.781092405319214,
      "learning_rate": 5.5818137812081306e-05,
      "loss": 0.48778977394104006,
      "memory(GiB)": 70.5,
      "step": 54020,
      "token_acc": 0.9010989010989011,
      "train_speed(iter/s)": 1.449016
    },
    {
      "epoch": 2.3145966325350242,
      "grad_norm": 2.7286956310272217,
      "learning_rate": 5.581145370317948e-05,
      "loss": 0.42888636589050294,
      "memory(GiB)": 70.5,
      "step": 54025,
      "token_acc": 0.9071729957805907,
      "train_speed(iter/s)": 1.449019
    },
    {
      "epoch": 2.314810847864273,
      "grad_norm": 2.818528890609741,
      "learning_rate": 5.5804769488997724e-05,
      "loss": 0.2654047250747681,
      "memory(GiB)": 70.5,
      "step": 54030,
      "token_acc": 0.948051948051948,
      "train_speed(iter/s)": 1.449024
    },
    {
      "epoch": 2.3150250631935223,
      "grad_norm": 1.1314167976379395,
      "learning_rate": 5.579808516965711e-05,
      "loss": 0.24881331920623778,
      "memory(GiB)": 70.5,
      "step": 54035,
      "token_acc": 0.9446494464944649,
      "train_speed(iter/s)": 1.449034
    },
    {
      "epoch": 2.315239278522771,
      "grad_norm": 4.439828872680664,
      "learning_rate": 5.579140074527877e-05,
      "loss": 0.4454522609710693,
      "memory(GiB)": 70.5,
      "step": 54040,
      "token_acc": 0.9080459770114943,
      "train_speed(iter/s)": 1.449031
    },
    {
      "epoch": 2.31545349385202,
      "grad_norm": 3.4717681407928467,
      "learning_rate": 5.578471621598376e-05,
      "loss": 0.5697812080383301,
      "memory(GiB)": 70.5,
      "step": 54045,
      "token_acc": 0.8664383561643836,
      "train_speed(iter/s)": 1.449031
    },
    {
      "epoch": 2.315667709181269,
      "grad_norm": 2.5451061725616455,
      "learning_rate": 5.5778031581893175e-05,
      "loss": 0.5431168556213379,
      "memory(GiB)": 70.5,
      "step": 54050,
      "token_acc": 0.9059233449477352,
      "train_speed(iter/s)": 1.449029
    },
    {
      "epoch": 2.315881924510518,
      "grad_norm": 4.578554153442383,
      "learning_rate": 5.5771346843128124e-05,
      "loss": 0.4977963924407959,
      "memory(GiB)": 70.5,
      "step": 54055,
      "token_acc": 0.8764044943820225,
      "train_speed(iter/s)": 1.44904
    },
    {
      "epoch": 2.316096139839767,
      "grad_norm": 1.485893964767456,
      "learning_rate": 5.576466199980973e-05,
      "loss": 0.6573754787445069,
      "memory(GiB)": 70.5,
      "step": 54060,
      "token_acc": 0.8844621513944223,
      "train_speed(iter/s)": 1.449055
    },
    {
      "epoch": 2.316310355169016,
      "grad_norm": 3.335533380508423,
      "learning_rate": 5.575797705205907e-05,
      "loss": 0.5168357849121094,
      "memory(GiB)": 70.5,
      "step": 54065,
      "token_acc": 0.8878504672897196,
      "train_speed(iter/s)": 1.44906
    },
    {
      "epoch": 2.316524570498265,
      "grad_norm": 2.343374013900757,
      "learning_rate": 5.5751291999997256e-05,
      "loss": 0.48432002067565916,
      "memory(GiB)": 70.5,
      "step": 54070,
      "token_acc": 0.9030303030303031,
      "train_speed(iter/s)": 1.449055
    },
    {
      "epoch": 2.3167387858275137,
      "grad_norm": 2.334937334060669,
      "learning_rate": 5.574460684374541e-05,
      "loss": 0.14840307235717773,
      "memory(GiB)": 70.5,
      "step": 54075,
      "token_acc": 0.9597069597069597,
      "train_speed(iter/s)": 1.449054
    },
    {
      "epoch": 2.316953001156763,
      "grad_norm": 6.315237998962402,
      "learning_rate": 5.573792158342459e-05,
      "loss": 0.38669734001159667,
      "memory(GiB)": 70.5,
      "step": 54080,
      "token_acc": 0.9401197604790419,
      "train_speed(iter/s)": 1.449057
    },
    {
      "epoch": 2.3171672164860118,
      "grad_norm": 6.712156295776367,
      "learning_rate": 5.573123621915595e-05,
      "loss": 0.5383927345275878,
      "memory(GiB)": 70.5,
      "step": 54085,
      "token_acc": 0.885558583106267,
      "train_speed(iter/s)": 1.449053
    },
    {
      "epoch": 2.3173814318152606,
      "grad_norm": 3.762136697769165,
      "learning_rate": 5.572455075106059e-05,
      "loss": 0.3192451953887939,
      "memory(GiB)": 70.5,
      "step": 54090,
      "token_acc": 0.9367816091954023,
      "train_speed(iter/s)": 1.449058
    },
    {
      "epoch": 2.31759564714451,
      "grad_norm": 1.1561225652694702,
      "learning_rate": 5.5717865179259624e-05,
      "loss": 0.24645051956176758,
      "memory(GiB)": 70.5,
      "step": 54095,
      "token_acc": 0.9454545454545454,
      "train_speed(iter/s)": 1.449062
    },
    {
      "epoch": 2.3178098624737586,
      "grad_norm": 3.715754747390747,
      "learning_rate": 5.571117950387417e-05,
      "loss": 0.3258678674697876,
      "memory(GiB)": 70.5,
      "step": 54100,
      "token_acc": 0.9283387622149837,
      "train_speed(iter/s)": 1.449056
    },
    {
      "epoch": 2.3180240778030075,
      "grad_norm": 2.510674238204956,
      "learning_rate": 5.570449372502534e-05,
      "loss": 0.3807116985321045,
      "memory(GiB)": 70.5,
      "step": 54105,
      "token_acc": 0.9205882352941176,
      "train_speed(iter/s)": 1.449055
    },
    {
      "epoch": 2.3182382931322567,
      "grad_norm": 3.9175047874450684,
      "learning_rate": 5.5697807842834245e-05,
      "loss": 0.4555692672729492,
      "memory(GiB)": 70.5,
      "step": 54110,
      "token_acc": 0.9067164179104478,
      "train_speed(iter/s)": 1.449047
    },
    {
      "epoch": 2.3184525084615055,
      "grad_norm": 4.0094218254089355,
      "learning_rate": 5.5691121857422034e-05,
      "loss": 0.37041702270507815,
      "memory(GiB)": 70.5,
      "step": 54115,
      "token_acc": 0.9180327868852459,
      "train_speed(iter/s)": 1.449054
    },
    {
      "epoch": 2.3186667237907543,
      "grad_norm": 3.383087158203125,
      "learning_rate": 5.568443576890979e-05,
      "loss": 0.2813273906707764,
      "memory(GiB)": 70.5,
      "step": 54120,
      "token_acc": 0.9405940594059405,
      "train_speed(iter/s)": 1.449066
    },
    {
      "epoch": 2.3188809391200036,
      "grad_norm": 4.195888042449951,
      "learning_rate": 5.567774957741867e-05,
      "loss": 0.32539892196655273,
      "memory(GiB)": 70.5,
      "step": 54125,
      "token_acc": 0.925,
      "train_speed(iter/s)": 1.44907
    },
    {
      "epoch": 2.3190951544492524,
      "grad_norm": 1.9411475658416748,
      "learning_rate": 5.56710632830698e-05,
      "loss": 0.16339231729507447,
      "memory(GiB)": 70.5,
      "step": 54130,
      "token_acc": 0.9629629629629629,
      "train_speed(iter/s)": 1.449075
    },
    {
      "epoch": 2.319309369778501,
      "grad_norm": 2.0709478855133057,
      "learning_rate": 5.5664376885984296e-05,
      "loss": 0.2719243049621582,
      "memory(GiB)": 70.5,
      "step": 54135,
      "token_acc": 0.9523809523809523,
      "train_speed(iter/s)": 1.449074
    },
    {
      "epoch": 2.3195235851077505,
      "grad_norm": 4.233088493347168,
      "learning_rate": 5.565769038628328e-05,
      "loss": 0.5276435375213623,
      "memory(GiB)": 70.5,
      "step": 54140,
      "token_acc": 0.900709219858156,
      "train_speed(iter/s)": 1.449077
    },
    {
      "epoch": 2.3197378004369993,
      "grad_norm": 5.070909023284912,
      "learning_rate": 5.5651003784087904e-05,
      "loss": 0.5683378219604492,
      "memory(GiB)": 70.5,
      "step": 54145,
      "token_acc": 0.8827586206896552,
      "train_speed(iter/s)": 1.449077
    },
    {
      "epoch": 2.319952015766248,
      "grad_norm": 3.3148036003112793,
      "learning_rate": 5.5644317079519296e-05,
      "loss": 0.4551424026489258,
      "memory(GiB)": 70.5,
      "step": 54150,
      "token_acc": 0.9278350515463918,
      "train_speed(iter/s)": 1.449083
    },
    {
      "epoch": 2.3201662310954974,
      "grad_norm": 1.736794114112854,
      "learning_rate": 5.5637630272698584e-05,
      "loss": 0.3034923791885376,
      "memory(GiB)": 70.5,
      "step": 54155,
      "token_acc": 0.9317507418397626,
      "train_speed(iter/s)": 1.449081
    },
    {
      "epoch": 2.320380446424746,
      "grad_norm": 2.270966053009033,
      "learning_rate": 5.56309433637469e-05,
      "loss": 0.19863184690475463,
      "memory(GiB)": 70.5,
      "step": 54160,
      "token_acc": 0.9575971731448764,
      "train_speed(iter/s)": 1.449079
    },
    {
      "epoch": 2.320594661753995,
      "grad_norm": 0.6561574935913086,
      "learning_rate": 5.562425635278541e-05,
      "loss": 0.3890302896499634,
      "memory(GiB)": 70.5,
      "step": 54165,
      "token_acc": 0.931899641577061,
      "train_speed(iter/s)": 1.449076
    },
    {
      "epoch": 2.3208088770832442,
      "grad_norm": 2.5561726093292236,
      "learning_rate": 5.561756923993523e-05,
      "loss": 0.2778343677520752,
      "memory(GiB)": 70.5,
      "step": 54170,
      "token_acc": 0.9359430604982206,
      "train_speed(iter/s)": 1.449077
    },
    {
      "epoch": 2.321023092412493,
      "grad_norm": 0.7962214350700378,
      "learning_rate": 5.561088202531752e-05,
      "loss": 0.3842479228973389,
      "memory(GiB)": 70.5,
      "step": 54175,
      "token_acc": 0.9296875,
      "train_speed(iter/s)": 1.449085
    },
    {
      "epoch": 2.321237307741742,
      "grad_norm": 4.649628639221191,
      "learning_rate": 5.5604194709053424e-05,
      "loss": 0.5672934532165528,
      "memory(GiB)": 70.5,
      "step": 54180,
      "token_acc": 0.8827586206896552,
      "train_speed(iter/s)": 1.449116
    },
    {
      "epoch": 2.321451523070991,
      "grad_norm": 0.2887682318687439,
      "learning_rate": 5.5597507291264087e-05,
      "loss": 0.24374496936798096,
      "memory(GiB)": 70.5,
      "step": 54185,
      "token_acc": 0.9403973509933775,
      "train_speed(iter/s)": 1.449116
    },
    {
      "epoch": 2.32166573840024,
      "grad_norm": 3.080707550048828,
      "learning_rate": 5.559081977207065e-05,
      "loss": 0.5035924911499023,
      "memory(GiB)": 70.5,
      "step": 54190,
      "token_acc": 0.906060606060606,
      "train_speed(iter/s)": 1.449121
    },
    {
      "epoch": 2.3218799537294887,
      "grad_norm": 3.7043676376342773,
      "learning_rate": 5.558413215159425e-05,
      "loss": 0.2914787769317627,
      "memory(GiB)": 70.5,
      "step": 54195,
      "token_acc": 0.9402985074626866,
      "train_speed(iter/s)": 1.449126
    },
    {
      "epoch": 2.322094169058738,
      "grad_norm": 4.072885990142822,
      "learning_rate": 5.557744442995607e-05,
      "loss": 0.4025119781494141,
      "memory(GiB)": 70.5,
      "step": 54200,
      "token_acc": 0.8990536277602523,
      "train_speed(iter/s)": 1.449121
    },
    {
      "epoch": 2.322308384387987,
      "grad_norm": 6.1111297607421875,
      "learning_rate": 5.5570756607277256e-05,
      "loss": 0.745305871963501,
      "memory(GiB)": 70.5,
      "step": 54205,
      "token_acc": 0.8333333333333334,
      "train_speed(iter/s)": 1.449111
    },
    {
      "epoch": 2.3225225997172356,
      "grad_norm": 0.6214466094970703,
      "learning_rate": 5.556406868367895e-05,
      "loss": 0.24229462146759034,
      "memory(GiB)": 70.5,
      "step": 54210,
      "token_acc": 0.9523809523809523,
      "train_speed(iter/s)": 1.449104
    },
    {
      "epoch": 2.322736815046485,
      "grad_norm": 3.3801615238189697,
      "learning_rate": 5.555738065928233e-05,
      "loss": 0.4670864105224609,
      "memory(GiB)": 70.5,
      "step": 54215,
      "token_acc": 0.884,
      "train_speed(iter/s)": 1.449106
    },
    {
      "epoch": 2.3229510303757337,
      "grad_norm": 0.8477426767349243,
      "learning_rate": 5.555069253420855e-05,
      "loss": 0.5601550102233886,
      "memory(GiB)": 70.5,
      "step": 54220,
      "token_acc": 0.8543046357615894,
      "train_speed(iter/s)": 1.449103
    },
    {
      "epoch": 2.3231652457049825,
      "grad_norm": 5.102475643157959,
      "learning_rate": 5.554400430857876e-05,
      "loss": 0.29851703643798827,
      "memory(GiB)": 70.5,
      "step": 54225,
      "token_acc": 0.9278996865203761,
      "train_speed(iter/s)": 1.449115
    },
    {
      "epoch": 2.3233794610342318,
      "grad_norm": 4.763238906860352,
      "learning_rate": 5.5537315982514135e-05,
      "loss": 0.46166143417358396,
      "memory(GiB)": 70.5,
      "step": 54230,
      "token_acc": 0.9205298013245033,
      "train_speed(iter/s)": 1.449113
    },
    {
      "epoch": 2.3235936763634806,
      "grad_norm": 3.0977251529693604,
      "learning_rate": 5.5530627556135826e-05,
      "loss": 0.38351123332977294,
      "memory(GiB)": 70.5,
      "step": 54235,
      "token_acc": 0.9011299435028248,
      "train_speed(iter/s)": 1.449117
    },
    {
      "epoch": 2.3238078916927294,
      "grad_norm": 1.0051701068878174,
      "learning_rate": 5.552393902956502e-05,
      "loss": 0.7136910438537598,
      "memory(GiB)": 70.5,
      "step": 54240,
      "token_acc": 0.8602150537634409,
      "train_speed(iter/s)": 1.449132
    },
    {
      "epoch": 2.3240221070219786,
      "grad_norm": 1.3971450328826904,
      "learning_rate": 5.551725040292288e-05,
      "loss": 0.28753612041473386,
      "memory(GiB)": 70.5,
      "step": 54245,
      "token_acc": 0.9306930693069307,
      "train_speed(iter/s)": 1.449133
    },
    {
      "epoch": 2.3242363223512275,
      "grad_norm": 0.5499507188796997,
      "learning_rate": 5.551056167633058e-05,
      "loss": 0.26681180000305177,
      "memory(GiB)": 70.5,
      "step": 54250,
      "token_acc": 0.946236559139785,
      "train_speed(iter/s)": 1.449141
    },
    {
      "epoch": 2.3244505376804763,
      "grad_norm": 3.9726357460021973,
      "learning_rate": 5.550387284990927e-05,
      "loss": 0.4292400360107422,
      "memory(GiB)": 70.5,
      "step": 54255,
      "token_acc": 0.9273356401384083,
      "train_speed(iter/s)": 1.449139
    },
    {
      "epoch": 2.3246647530097255,
      "grad_norm": 2.4778213500976562,
      "learning_rate": 5.549718392378014e-05,
      "loss": 0.2548077583312988,
      "memory(GiB)": 70.5,
      "step": 54260,
      "token_acc": 0.937007874015748,
      "train_speed(iter/s)": 1.449141
    },
    {
      "epoch": 2.3248789683389743,
      "grad_norm": 3.2474400997161865,
      "learning_rate": 5.549049489806437e-05,
      "loss": 0.3264917850494385,
      "memory(GiB)": 70.5,
      "step": 54265,
      "token_acc": 0.930921052631579,
      "train_speed(iter/s)": 1.449145
    },
    {
      "epoch": 2.325093183668223,
      "grad_norm": 1.2700748443603516,
      "learning_rate": 5.5483805772883133e-05,
      "loss": 0.38419513702392577,
      "memory(GiB)": 70.5,
      "step": 54270,
      "token_acc": 0.9208860759493671,
      "train_speed(iter/s)": 1.449152
    },
    {
      "epoch": 2.3253073989974724,
      "grad_norm": 4.850588798522949,
      "learning_rate": 5.547711654835761e-05,
      "loss": 0.5955772876739502,
      "memory(GiB)": 70.5,
      "step": 54275,
      "token_acc": 0.8772727272727273,
      "train_speed(iter/s)": 1.449164
    },
    {
      "epoch": 2.325521614326721,
      "grad_norm": 6.3297529220581055,
      "learning_rate": 5.5470427224609e-05,
      "loss": 0.5014420509338379,
      "memory(GiB)": 70.5,
      "step": 54280,
      "token_acc": 0.9075144508670521,
      "train_speed(iter/s)": 1.449158
    },
    {
      "epoch": 2.32573582965597,
      "grad_norm": 4.3065876960754395,
      "learning_rate": 5.5463737801758443e-05,
      "loss": 0.4487509250640869,
      "memory(GiB)": 70.5,
      "step": 54285,
      "token_acc": 0.8884758364312267,
      "train_speed(iter/s)": 1.449155
    },
    {
      "epoch": 2.3259500449852193,
      "grad_norm": 3.4933454990386963,
      "learning_rate": 5.545704827992717e-05,
      "loss": 0.3577310085296631,
      "memory(GiB)": 70.5,
      "step": 54290,
      "token_acc": 0.9150141643059491,
      "train_speed(iter/s)": 1.449151
    },
    {
      "epoch": 2.326164260314468,
      "grad_norm": 5.66727352142334,
      "learning_rate": 5.5450358659236336e-05,
      "loss": 0.7443987846374511,
      "memory(GiB)": 70.5,
      "step": 54295,
      "token_acc": 0.8524590163934426,
      "train_speed(iter/s)": 1.449161
    },
    {
      "epoch": 2.326378475643717,
      "grad_norm": 3.35476016998291,
      "learning_rate": 5.5443668939807156e-05,
      "loss": 0.48612356185913086,
      "memory(GiB)": 70.5,
      "step": 54300,
      "token_acc": 0.8823529411764706,
      "train_speed(iter/s)": 1.449161
    },
    {
      "epoch": 2.326592690972966,
      "grad_norm": 6.2548747062683105,
      "learning_rate": 5.5436979121760804e-05,
      "loss": 0.50778226852417,
      "memory(GiB)": 70.5,
      "step": 54305,
      "token_acc": 0.889589905362776,
      "train_speed(iter/s)": 1.449157
    },
    {
      "epoch": 2.326806906302215,
      "grad_norm": 2.2287044525146484,
      "learning_rate": 5.543028920521846e-05,
      "loss": 0.5408354282379151,
      "memory(GiB)": 70.5,
      "step": 54310,
      "token_acc": 0.8888888888888888,
      "train_speed(iter/s)": 1.449153
    },
    {
      "epoch": 2.327021121631464,
      "grad_norm": 2.646470069885254,
      "learning_rate": 5.542359919030133e-05,
      "loss": 0.38472325801849366,
      "memory(GiB)": 70.5,
      "step": 54315,
      "token_acc": 0.9088235294117647,
      "train_speed(iter/s)": 1.449153
    },
    {
      "epoch": 2.327235336960713,
      "grad_norm": 2.4435527324676514,
      "learning_rate": 5.541690907713063e-05,
      "loss": 0.32892141342163084,
      "memory(GiB)": 70.5,
      "step": 54320,
      "token_acc": 0.9335443037974683,
      "train_speed(iter/s)": 1.449153
    },
    {
      "epoch": 2.327449552289962,
      "grad_norm": 8.284196853637695,
      "learning_rate": 5.5410218865827534e-05,
      "loss": 0.189558744430542,
      "memory(GiB)": 70.5,
      "step": 54325,
      "token_acc": 0.9498207885304659,
      "train_speed(iter/s)": 1.449159
    },
    {
      "epoch": 2.3276637676192107,
      "grad_norm": 2.122724771499634,
      "learning_rate": 5.540352855651325e-05,
      "loss": 0.28056821823120115,
      "memory(GiB)": 70.5,
      "step": 54330,
      "token_acc": 0.9320388349514563,
      "train_speed(iter/s)": 1.449153
    },
    {
      "epoch": 2.32787798294846,
      "grad_norm": 1.291551113128662,
      "learning_rate": 5.539683814930898e-05,
      "loss": 0.44289684295654297,
      "memory(GiB)": 70.5,
      "step": 54335,
      "token_acc": 0.9088145896656535,
      "train_speed(iter/s)": 1.449155
    },
    {
      "epoch": 2.3280921982777087,
      "grad_norm": 2.3232617378234863,
      "learning_rate": 5.539014764433592e-05,
      "loss": 0.4488636016845703,
      "memory(GiB)": 70.5,
      "step": 54340,
      "token_acc": 0.8996865203761756,
      "train_speed(iter/s)": 1.449162
    },
    {
      "epoch": 2.3283064136069576,
      "grad_norm": 1.9009543657302856,
      "learning_rate": 5.538345704171527e-05,
      "loss": 0.28615665435791016,
      "memory(GiB)": 70.5,
      "step": 54345,
      "token_acc": 0.9278688524590164,
      "train_speed(iter/s)": 1.449157
    },
    {
      "epoch": 2.328520628936207,
      "grad_norm": 2.0203194618225098,
      "learning_rate": 5.537676634156827e-05,
      "loss": 0.22671544551849365,
      "memory(GiB)": 70.5,
      "step": 54350,
      "token_acc": 0.9492957746478873,
      "train_speed(iter/s)": 1.449158
    },
    {
      "epoch": 2.3287348442654556,
      "grad_norm": 3.7159264087677,
      "learning_rate": 5.537007554401608e-05,
      "loss": 0.507906150817871,
      "memory(GiB)": 70.5,
      "step": 54355,
      "token_acc": 0.9015544041450777,
      "train_speed(iter/s)": 1.449177
    },
    {
      "epoch": 2.3289490595947044,
      "grad_norm": 7.118109703063965,
      "learning_rate": 5.536338464917995e-05,
      "loss": 0.42833786010742186,
      "memory(GiB)": 70.5,
      "step": 54360,
      "token_acc": 0.9065040650406504,
      "train_speed(iter/s)": 1.449188
    },
    {
      "epoch": 2.3291632749239537,
      "grad_norm": 4.043100357055664,
      "learning_rate": 5.535669365718107e-05,
      "loss": 0.2873367786407471,
      "memory(GiB)": 70.5,
      "step": 54365,
      "token_acc": 0.9428571428571428,
      "train_speed(iter/s)": 1.449196
    },
    {
      "epoch": 2.3293774902532025,
      "grad_norm": 1.8733460903167725,
      "learning_rate": 5.535000256814066e-05,
      "loss": 0.37391340732574463,
      "memory(GiB)": 70.5,
      "step": 54370,
      "token_acc": 0.9176829268292683,
      "train_speed(iter/s)": 1.449199
    },
    {
      "epoch": 2.3295917055824513,
      "grad_norm": 3.437798023223877,
      "learning_rate": 5.534331138217993e-05,
      "loss": 0.39759979248046873,
      "memory(GiB)": 70.5,
      "step": 54375,
      "token_acc": 0.908,
      "train_speed(iter/s)": 1.449196
    },
    {
      "epoch": 2.3298059209117006,
      "grad_norm": 3.517801523208618,
      "learning_rate": 5.53366200994201e-05,
      "loss": 0.3423847913742065,
      "memory(GiB)": 70.5,
      "step": 54380,
      "token_acc": 0.9253246753246753,
      "train_speed(iter/s)": 1.449195
    },
    {
      "epoch": 2.3300201362409494,
      "grad_norm": 2.3866283893585205,
      "learning_rate": 5.532992871998239e-05,
      "loss": 0.44426631927490234,
      "memory(GiB)": 70.5,
      "step": 54385,
      "token_acc": 0.92,
      "train_speed(iter/s)": 1.449197
    },
    {
      "epoch": 2.330234351570198,
      "grad_norm": 0.17679674923419952,
      "learning_rate": 5.532323724398804e-05,
      "loss": 0.1542261004447937,
      "memory(GiB)": 70.5,
      "step": 54390,
      "token_acc": 0.9699570815450643,
      "train_speed(iter/s)": 1.449194
    },
    {
      "epoch": 2.3304485668994475,
      "grad_norm": 4.604583740234375,
      "learning_rate": 5.531654567155824e-05,
      "loss": 0.16093616485595702,
      "memory(GiB)": 70.5,
      "step": 54395,
      "token_acc": 0.966542750929368,
      "train_speed(iter/s)": 1.449205
    },
    {
      "epoch": 2.3306627822286963,
      "grad_norm": 2.7136995792388916,
      "learning_rate": 5.530985400281422e-05,
      "loss": 0.3458041429519653,
      "memory(GiB)": 70.5,
      "step": 54400,
      "token_acc": 0.9274193548387096,
      "train_speed(iter/s)": 1.44921
    },
    {
      "epoch": 2.330876997557945,
      "grad_norm": 4.146524429321289,
      "learning_rate": 5.530316223787723e-05,
      "loss": 0.344400954246521,
      "memory(GiB)": 70.5,
      "step": 54405,
      "token_acc": 0.9178082191780822,
      "train_speed(iter/s)": 1.449203
    },
    {
      "epoch": 2.3310912128871943,
      "grad_norm": 4.256633758544922,
      "learning_rate": 5.529647037686847e-05,
      "loss": 0.32012941837310793,
      "memory(GiB)": 70.5,
      "step": 54410,
      "token_acc": 0.9262820512820513,
      "train_speed(iter/s)": 1.449208
    },
    {
      "epoch": 2.331305428216443,
      "grad_norm": 3.950392723083496,
      "learning_rate": 5.528977841990919e-05,
      "loss": 0.2981738805770874,
      "memory(GiB)": 70.5,
      "step": 54415,
      "token_acc": 0.9288025889967637,
      "train_speed(iter/s)": 1.449217
    },
    {
      "epoch": 2.331519643545692,
      "grad_norm": 4.241466045379639,
      "learning_rate": 5.5283086367120594e-05,
      "loss": 0.4397602081298828,
      "memory(GiB)": 70.5,
      "step": 54420,
      "token_acc": 0.9195046439628483,
      "train_speed(iter/s)": 1.449218
    },
    {
      "epoch": 2.3317338588749412,
      "grad_norm": 2.4338972568511963,
      "learning_rate": 5.527639421862395e-05,
      "loss": 0.4448698997497559,
      "memory(GiB)": 70.5,
      "step": 54425,
      "token_acc": 0.9049295774647887,
      "train_speed(iter/s)": 1.449234
    },
    {
      "epoch": 2.33194807420419,
      "grad_norm": 4.225515842437744,
      "learning_rate": 5.526970197454047e-05,
      "loss": 0.46112523078918455,
      "memory(GiB)": 70.5,
      "step": 54430,
      "token_acc": 0.8947368421052632,
      "train_speed(iter/s)": 1.449235
    },
    {
      "epoch": 2.332162289533439,
      "grad_norm": 3.7345261573791504,
      "learning_rate": 5.52630096349914e-05,
      "loss": 0.6366782188415527,
      "memory(GiB)": 70.5,
      "step": 54435,
      "token_acc": 0.8553846153846154,
      "train_speed(iter/s)": 1.449236
    },
    {
      "epoch": 2.332376504862688,
      "grad_norm": 4.115697860717773,
      "learning_rate": 5.525631720009796e-05,
      "loss": 0.41658506393432615,
      "memory(GiB)": 70.5,
      "step": 54440,
      "token_acc": 0.8952380952380953,
      "train_speed(iter/s)": 1.449237
    },
    {
      "epoch": 2.332590720191937,
      "grad_norm": 2.2027361392974854,
      "learning_rate": 5.524962466998142e-05,
      "loss": 0.33987979888916015,
      "memory(GiB)": 70.5,
      "step": 54445,
      "token_acc": 0.9022082018927445,
      "train_speed(iter/s)": 1.449232
    },
    {
      "epoch": 2.3328049355211857,
      "grad_norm": 5.103825092315674,
      "learning_rate": 5.5242932044762994e-05,
      "loss": 0.25368366241455076,
      "memory(GiB)": 70.5,
      "step": 54450,
      "token_acc": 0.9493670886075949,
      "train_speed(iter/s)": 1.449224
    },
    {
      "epoch": 2.333019150850435,
      "grad_norm": 1.8616772890090942,
      "learning_rate": 5.523623932456394e-05,
      "loss": 0.1512528896331787,
      "memory(GiB)": 70.5,
      "step": 54455,
      "token_acc": 0.9624060150375939,
      "train_speed(iter/s)": 1.449223
    },
    {
      "epoch": 2.333233366179684,
      "grad_norm": 1.9309933185577393,
      "learning_rate": 5.522954650950549e-05,
      "loss": 0.3420664548873901,
      "memory(GiB)": 70.5,
      "step": 54460,
      "token_acc": 0.9289940828402367,
      "train_speed(iter/s)": 1.449225
    },
    {
      "epoch": 2.3334475815089326,
      "grad_norm": 3.4978270530700684,
      "learning_rate": 5.522285359970891e-05,
      "loss": 0.3365072011947632,
      "memory(GiB)": 70.5,
      "step": 54465,
      "token_acc": 0.9164265129682997,
      "train_speed(iter/s)": 1.449226
    },
    {
      "epoch": 2.333661796838182,
      "grad_norm": 6.93479061126709,
      "learning_rate": 5.521616059529543e-05,
      "loss": 0.6519536972045898,
      "memory(GiB)": 70.5,
      "step": 54470,
      "token_acc": 0.8575851393188855,
      "train_speed(iter/s)": 1.44922
    },
    {
      "epoch": 2.3338760121674307,
      "grad_norm": 4.032729148864746,
      "learning_rate": 5.5209467496386315e-05,
      "loss": 0.2671054363250732,
      "memory(GiB)": 70.5,
      "step": 54475,
      "token_acc": 0.9471947194719472,
      "train_speed(iter/s)": 1.449229
    },
    {
      "epoch": 2.3340902274966795,
      "grad_norm": 0.5366532802581787,
      "learning_rate": 5.5202774303102814e-05,
      "loss": 0.38132011890411377,
      "memory(GiB)": 70.5,
      "step": 54480,
      "token_acc": 0.9238410596026491,
      "train_speed(iter/s)": 1.449237
    },
    {
      "epoch": 2.3343044428259287,
      "grad_norm": 4.5426106452941895,
      "learning_rate": 5.519608101556616e-05,
      "loss": 0.47729787826538084,
      "memory(GiB)": 70.5,
      "step": 54485,
      "token_acc": 0.8786885245901639,
      "train_speed(iter/s)": 1.449242
    },
    {
      "epoch": 2.3345186581551776,
      "grad_norm": 2.0265843868255615,
      "learning_rate": 5.518938763389764e-05,
      "loss": 0.3303265333175659,
      "memory(GiB)": 70.5,
      "step": 54490,
      "token_acc": 0.9366666666666666,
      "train_speed(iter/s)": 1.449246
    },
    {
      "epoch": 2.3347328734844264,
      "grad_norm": 3.139803647994995,
      "learning_rate": 5.5182694158218476e-05,
      "loss": 0.47084755897521974,
      "memory(GiB)": 70.5,
      "step": 54495,
      "token_acc": 0.8989169675090253,
      "train_speed(iter/s)": 1.449242
    },
    {
      "epoch": 2.3349470888136756,
      "grad_norm": 1.4078712463378906,
      "learning_rate": 5.5176000588649946e-05,
      "loss": 0.2679582118988037,
      "memory(GiB)": 70.5,
      "step": 54500,
      "token_acc": 0.9385026737967914,
      "train_speed(iter/s)": 1.449231
    },
    {
      "epoch": 2.3349470888136756,
      "eval_loss": 2.4766149520874023,
      "eval_runtime": 13.4211,
      "eval_samples_per_second": 7.451,
      "eval_steps_per_second": 7.451,
      "eval_token_acc": 0.44,
      "step": 54500
    },
    {
      "epoch": 2.3351613041429244,
      "grad_norm": 2.0345373153686523,
      "learning_rate": 5.5169306925313324e-05,
      "loss": 0.232285475730896,
      "memory(GiB)": 70.5,
      "step": 54505,
      "token_acc": 0.5782567947516402,
      "train_speed(iter/s)": 1.448681
    },
    {
      "epoch": 2.3353755194721733,
      "grad_norm": 3.467186450958252,
      "learning_rate": 5.5162613168329856e-05,
      "loss": 0.5818545341491699,
      "memory(GiB)": 70.5,
      "step": 54510,
      "token_acc": 0.896551724137931,
      "train_speed(iter/s)": 1.448679
    },
    {
      "epoch": 2.3355897348014225,
      "grad_norm": 4.347537517547607,
      "learning_rate": 5.5155919317820806e-05,
      "loss": 0.31451687812805174,
      "memory(GiB)": 70.5,
      "step": 54515,
      "token_acc": 0.9212598425196851,
      "train_speed(iter/s)": 1.448683
    },
    {
      "epoch": 2.3358039501306713,
      "grad_norm": 3.291130304336548,
      "learning_rate": 5.514922537390744e-05,
      "loss": 0.24191052913665773,
      "memory(GiB)": 70.5,
      "step": 54520,
      "token_acc": 0.9283489096573209,
      "train_speed(iter/s)": 1.448686
    },
    {
      "epoch": 2.33601816545992,
      "grad_norm": 3.7675275802612305,
      "learning_rate": 5.5142531336711034e-05,
      "loss": 0.43506970405578616,
      "memory(GiB)": 70.5,
      "step": 54525,
      "token_acc": 0.9052631578947369,
      "train_speed(iter/s)": 1.448687
    },
    {
      "epoch": 2.3362323807891694,
      "grad_norm": 0.4027826189994812,
      "learning_rate": 5.513583720635283e-05,
      "loss": 0.3212038516998291,
      "memory(GiB)": 70.5,
      "step": 54530,
      "token_acc": 0.9351145038167938,
      "train_speed(iter/s)": 1.448686
    },
    {
      "epoch": 2.336446596118418,
      "grad_norm": 3.666111946105957,
      "learning_rate": 5.512914298295413e-05,
      "loss": 0.5975586414337158,
      "memory(GiB)": 70.5,
      "step": 54535,
      "token_acc": 0.8702290076335878,
      "train_speed(iter/s)": 1.448685
    },
    {
      "epoch": 2.336660811447667,
      "grad_norm": 4.327959060668945,
      "learning_rate": 5.51224486666362e-05,
      "loss": 0.597440528869629,
      "memory(GiB)": 70.5,
      "step": 54540,
      "token_acc": 0.8721311475409836,
      "train_speed(iter/s)": 1.448684
    },
    {
      "epoch": 2.3368750267769163,
      "grad_norm": 3.365518808364868,
      "learning_rate": 5.511575425752029e-05,
      "loss": 0.7189579486846924,
      "memory(GiB)": 70.5,
      "step": 54545,
      "token_acc": 0.8705035971223022,
      "train_speed(iter/s)": 1.448675
    },
    {
      "epoch": 2.337089242106165,
      "grad_norm": 2.760312080383301,
      "learning_rate": 5.510905975572771e-05,
      "loss": 0.5760009765625,
      "memory(GiB)": 70.5,
      "step": 54550,
      "token_acc": 0.8953846153846153,
      "train_speed(iter/s)": 1.448673
    },
    {
      "epoch": 2.337303457435414,
      "grad_norm": 3.0420753955841064,
      "learning_rate": 5.51023651613797e-05,
      "loss": 0.29367125034332275,
      "memory(GiB)": 70.5,
      "step": 54555,
      "token_acc": 0.9298892988929889,
      "train_speed(iter/s)": 1.448668
    },
    {
      "epoch": 2.337517672764663,
      "grad_norm": 1.2094660997390747,
      "learning_rate": 5.5095670474597574e-05,
      "loss": 0.4208981037139893,
      "memory(GiB)": 70.5,
      "step": 54560,
      "token_acc": 0.9137380191693291,
      "train_speed(iter/s)": 1.448675
    },
    {
      "epoch": 2.337731888093912,
      "grad_norm": 0.30365797877311707,
      "learning_rate": 5.508897569550259e-05,
      "loss": 0.22894582748413086,
      "memory(GiB)": 70.5,
      "step": 54565,
      "token_acc": 0.9512195121951219,
      "train_speed(iter/s)": 1.448667
    },
    {
      "epoch": 2.337946103423161,
      "grad_norm": 6.083972930908203,
      "learning_rate": 5.5082280824216046e-05,
      "loss": 0.5062716007232666,
      "memory(GiB)": 70.5,
      "step": 54570,
      "token_acc": 0.8735632183908046,
      "train_speed(iter/s)": 1.448677
    },
    {
      "epoch": 2.33816031875241,
      "grad_norm": 2.986250162124634,
      "learning_rate": 5.5075585860859206e-05,
      "loss": 0.4371354579925537,
      "memory(GiB)": 70.5,
      "step": 54575,
      "token_acc": 0.9076923076923077,
      "train_speed(iter/s)": 1.448687
    },
    {
      "epoch": 2.338374534081659,
      "grad_norm": 3.545308828353882,
      "learning_rate": 5.5068890805553374e-05,
      "loss": 0.2799223899841309,
      "memory(GiB)": 70.5,
      "step": 54580,
      "token_acc": 0.9555555555555556,
      "train_speed(iter/s)": 1.448694
    },
    {
      "epoch": 2.3385887494109077,
      "grad_norm": 2.352712631225586,
      "learning_rate": 5.506219565841983e-05,
      "loss": 0.3813108682632446,
      "memory(GiB)": 70.5,
      "step": 54585,
      "token_acc": 0.9312977099236641,
      "train_speed(iter/s)": 1.448703
    },
    {
      "epoch": 2.338802964740157,
      "grad_norm": 4.952893257141113,
      "learning_rate": 5.5055500419579866e-05,
      "loss": 0.5346709251403808,
      "memory(GiB)": 70.5,
      "step": 54590,
      "token_acc": 0.8696969696969697,
      "train_speed(iter/s)": 1.448715
    },
    {
      "epoch": 2.3390171800694057,
      "grad_norm": 5.971453666687012,
      "learning_rate": 5.5048805089154765e-05,
      "loss": 0.34707629680633545,
      "memory(GiB)": 70.5,
      "step": 54595,
      "token_acc": 0.9319148936170213,
      "train_speed(iter/s)": 1.448709
    },
    {
      "epoch": 2.3392313953986545,
      "grad_norm": 4.4381232261657715,
      "learning_rate": 5.504210966726582e-05,
      "loss": 0.34178762435913085,
      "memory(GiB)": 70.5,
      "step": 54600,
      "token_acc": 0.9310344827586207,
      "train_speed(iter/s)": 1.448712
    },
    {
      "epoch": 2.339445610727904,
      "grad_norm": 5.007004737854004,
      "learning_rate": 5.503541415403433e-05,
      "loss": 0.36654033660888674,
      "memory(GiB)": 70.5,
      "step": 54605,
      "token_acc": 0.9070631970260223,
      "train_speed(iter/s)": 1.448713
    },
    {
      "epoch": 2.3396598260571526,
      "grad_norm": 2.511691093444824,
      "learning_rate": 5.502871854958159e-05,
      "loss": 0.28156242370605467,
      "memory(GiB)": 70.5,
      "step": 54610,
      "token_acc": 0.9325513196480938,
      "train_speed(iter/s)": 1.44871
    },
    {
      "epoch": 2.3398740413864014,
      "grad_norm": 1.4969135522842407,
      "learning_rate": 5.502202285402889e-05,
      "loss": 0.5587126255035401,
      "memory(GiB)": 70.5,
      "step": 54615,
      "token_acc": 0.8690909090909091,
      "train_speed(iter/s)": 1.448715
    },
    {
      "epoch": 2.3400882567156507,
      "grad_norm": 3.313150644302368,
      "learning_rate": 5.5015327067497544e-05,
      "loss": 0.47501540184020996,
      "memory(GiB)": 70.5,
      "step": 54620,
      "token_acc": 0.8802395209580839,
      "train_speed(iter/s)": 1.448707
    },
    {
      "epoch": 2.3403024720448995,
      "grad_norm": 2.4516522884368896,
      "learning_rate": 5.500863119010885e-05,
      "loss": 0.32619657516479494,
      "memory(GiB)": 70.5,
      "step": 54625,
      "token_acc": 0.9157608695652174,
      "train_speed(iter/s)": 1.448701
    },
    {
      "epoch": 2.3405166873741483,
      "grad_norm": 2.675204038619995,
      "learning_rate": 5.500193522198409e-05,
      "loss": 0.2507157802581787,
      "memory(GiB)": 70.5,
      "step": 54630,
      "token_acc": 0.9377431906614786,
      "train_speed(iter/s)": 1.448703
    },
    {
      "epoch": 2.3407309027033976,
      "grad_norm": 3.196462869644165,
      "learning_rate": 5.499523916324459e-05,
      "loss": 0.4253035545349121,
      "memory(GiB)": 70.5,
      "step": 54635,
      "token_acc": 0.9080459770114943,
      "train_speed(iter/s)": 1.448705
    },
    {
      "epoch": 2.3409451180326464,
      "grad_norm": 6.949106216430664,
      "learning_rate": 5.498854301401164e-05,
      "loss": 0.5628348350524902,
      "memory(GiB)": 70.5,
      "step": 54640,
      "token_acc": 0.8852459016393442,
      "train_speed(iter/s)": 1.448707
    },
    {
      "epoch": 2.341159333361895,
      "grad_norm": 2.9725534915924072,
      "learning_rate": 5.4981846774406555e-05,
      "loss": 0.44736828804016116,
      "memory(GiB)": 70.5,
      "step": 54645,
      "token_acc": 0.9111969111969112,
      "train_speed(iter/s)": 1.448708
    },
    {
      "epoch": 2.3413735486911444,
      "grad_norm": 3.478980779647827,
      "learning_rate": 5.497515044455065e-05,
      "loss": 0.36940999031066896,
      "memory(GiB)": 70.5,
      "step": 54650,
      "token_acc": 0.936026936026936,
      "train_speed(iter/s)": 1.448718
    },
    {
      "epoch": 2.3415877640203933,
      "grad_norm": 11.000109672546387,
      "learning_rate": 5.496845402456522e-05,
      "loss": 0.459564733505249,
      "memory(GiB)": 70.5,
      "step": 54655,
      "token_acc": 0.9166666666666666,
      "train_speed(iter/s)": 1.44872
    },
    {
      "epoch": 2.341801979349642,
      "grad_norm": 5.034777641296387,
      "learning_rate": 5.496175751457159e-05,
      "loss": 0.260945463180542,
      "memory(GiB)": 70.5,
      "step": 54660,
      "token_acc": 0.9078014184397163,
      "train_speed(iter/s)": 1.448712
    },
    {
      "epoch": 2.3420161946788913,
      "grad_norm": 3.2083706855773926,
      "learning_rate": 5.495506091469106e-05,
      "loss": 0.31927878856658937,
      "memory(GiB)": 70.5,
      "step": 54665,
      "token_acc": 0.9337175792507204,
      "train_speed(iter/s)": 1.448712
    },
    {
      "epoch": 2.34223041000814,
      "grad_norm": 1.4760757684707642,
      "learning_rate": 5.494836422504497e-05,
      "loss": 0.3157083988189697,
      "memory(GiB)": 70.5,
      "step": 54670,
      "token_acc": 0.9261744966442953,
      "train_speed(iter/s)": 1.448721
    },
    {
      "epoch": 2.342444625337389,
      "grad_norm": 4.180158615112305,
      "learning_rate": 5.49416674457546e-05,
      "loss": 0.2443983554840088,
      "memory(GiB)": 70.5,
      "step": 54675,
      "token_acc": 0.9473684210526315,
      "train_speed(iter/s)": 1.448726
    },
    {
      "epoch": 2.342658840666638,
      "grad_norm": 3.7097086906433105,
      "learning_rate": 5.493497057694129e-05,
      "loss": 0.38625168800354004,
      "memory(GiB)": 70.5,
      "step": 54680,
      "token_acc": 0.9114754098360656,
      "train_speed(iter/s)": 1.448763
    },
    {
      "epoch": 2.342873055995887,
      "grad_norm": 3.3338510990142822,
      "learning_rate": 5.492827361872637e-05,
      "loss": 0.48162097930908204,
      "memory(GiB)": 70.5,
      "step": 54685,
      "token_acc": 0.920863309352518,
      "train_speed(iter/s)": 1.448766
    },
    {
      "epoch": 2.343087271325136,
      "grad_norm": 4.358829975128174,
      "learning_rate": 5.492157657123114e-05,
      "loss": 0.3793545961380005,
      "memory(GiB)": 70.5,
      "step": 54690,
      "token_acc": 0.9263803680981595,
      "train_speed(iter/s)": 1.448755
    },
    {
      "epoch": 2.343301486654385,
      "grad_norm": 5.751448154449463,
      "learning_rate": 5.4914879434576936e-05,
      "loss": 0.5676261425018311,
      "memory(GiB)": 70.5,
      "step": 54695,
      "token_acc": 0.905511811023622,
      "train_speed(iter/s)": 1.448765
    },
    {
      "epoch": 2.343515701983634,
      "grad_norm": 4.152568340301514,
      "learning_rate": 5.490818220888508e-05,
      "loss": 0.4024346828460693,
      "memory(GiB)": 70.5,
      "step": 54700,
      "token_acc": 0.8960674157303371,
      "train_speed(iter/s)": 1.448778
    },
    {
      "epoch": 2.3437299173128827,
      "grad_norm": 2.009751319885254,
      "learning_rate": 5.4901484894276914e-05,
      "loss": 0.47971444129943847,
      "memory(GiB)": 70.5,
      "step": 54705,
      "token_acc": 0.8908450704225352,
      "train_speed(iter/s)": 1.448776
    },
    {
      "epoch": 2.343944132642132,
      "grad_norm": 6.238495349884033,
      "learning_rate": 5.4894787490873746e-05,
      "loss": 0.4815852165222168,
      "memory(GiB)": 70.5,
      "step": 54710,
      "token_acc": 0.9086294416243654,
      "train_speed(iter/s)": 1.448777
    },
    {
      "epoch": 2.344158347971381,
      "grad_norm": 2.0660526752471924,
      "learning_rate": 5.48880899987969e-05,
      "loss": 0.49589691162109373,
      "memory(GiB)": 70.5,
      "step": 54715,
      "token_acc": 0.9034267912772586,
      "train_speed(iter/s)": 1.448791
    },
    {
      "epoch": 2.34437256330063,
      "grad_norm": 0.09132685512304306,
      "learning_rate": 5.488139241816771e-05,
      "loss": 0.20443391799926758,
      "memory(GiB)": 70.5,
      "step": 54720,
      "token_acc": 0.9578313253012049,
      "train_speed(iter/s)": 1.448797
    },
    {
      "epoch": 2.344586778629879,
      "grad_norm": 0.24600735306739807,
      "learning_rate": 5.487469474910754e-05,
      "loss": 0.20212278366088868,
      "memory(GiB)": 70.5,
      "step": 54725,
      "token_acc": 0.9484978540772532,
      "train_speed(iter/s)": 1.448794
    },
    {
      "epoch": 2.3448009939591277,
      "grad_norm": 6.704759120941162,
      "learning_rate": 5.486799699173768e-05,
      "loss": 0.31655848026275635,
      "memory(GiB)": 70.5,
      "step": 54730,
      "token_acc": 0.9416058394160584,
      "train_speed(iter/s)": 1.448792
    },
    {
      "epoch": 2.345015209288377,
      "grad_norm": 4.390979290008545,
      "learning_rate": 5.486129914617951e-05,
      "loss": 0.48533382415771487,
      "memory(GiB)": 70.5,
      "step": 54735,
      "token_acc": 0.8856304985337243,
      "train_speed(iter/s)": 1.448792
    },
    {
      "epoch": 2.3452294246176257,
      "grad_norm": 3.0387964248657227,
      "learning_rate": 5.485460121255434e-05,
      "loss": 0.39120934009552,
      "memory(GiB)": 70.5,
      "step": 54740,
      "token_acc": 0.90625,
      "train_speed(iter/s)": 1.448805
    },
    {
      "epoch": 2.3454436399468745,
      "grad_norm": 0.5075785517692566,
      "learning_rate": 5.484790319098351e-05,
      "loss": 0.39440288543701174,
      "memory(GiB)": 70.5,
      "step": 54745,
      "token_acc": 0.9049429657794676,
      "train_speed(iter/s)": 1.448814
    },
    {
      "epoch": 2.345657855276124,
      "grad_norm": 1.6312224864959717,
      "learning_rate": 5.4841205081588354e-05,
      "loss": 0.2955231904983521,
      "memory(GiB)": 70.5,
      "step": 54750,
      "token_acc": 0.9382239382239382,
      "train_speed(iter/s)": 1.448816
    },
    {
      "epoch": 2.3458720706053726,
      "grad_norm": 3.3077850341796875,
      "learning_rate": 5.483450688449024e-05,
      "loss": 0.19659414291381835,
      "memory(GiB)": 70.5,
      "step": 54755,
      "token_acc": 0.950354609929078,
      "train_speed(iter/s)": 1.448822
    },
    {
      "epoch": 2.3460862859346214,
      "grad_norm": 1.8094319105148315,
      "learning_rate": 5.482780859981049e-05,
      "loss": 0.42279973030090334,
      "memory(GiB)": 70.5,
      "step": 54760,
      "token_acc": 0.9171779141104295,
      "train_speed(iter/s)": 1.448825
    },
    {
      "epoch": 2.3463005012638707,
      "grad_norm": 3.3530495166778564,
      "learning_rate": 5.482111022767048e-05,
      "loss": 0.3348376274108887,
      "memory(GiB)": 70.5,
      "step": 54765,
      "token_acc": 0.9288389513108615,
      "train_speed(iter/s)": 1.448827
    },
    {
      "epoch": 2.3465147165931195,
      "grad_norm": 2.969212770462036,
      "learning_rate": 5.481441176819152e-05,
      "loss": 0.33481578826904296,
      "memory(GiB)": 70.5,
      "step": 54770,
      "token_acc": 0.9242902208201893,
      "train_speed(iter/s)": 1.448829
    },
    {
      "epoch": 2.3467289319223683,
      "grad_norm": 5.199581146240234,
      "learning_rate": 5.480771322149497e-05,
      "loss": 0.6244299411773682,
      "memory(GiB)": 70.5,
      "step": 54775,
      "token_acc": 0.8651026392961877,
      "train_speed(iter/s)": 1.448834
    },
    {
      "epoch": 2.3469431472516176,
      "grad_norm": 4.305105686187744,
      "learning_rate": 5.480101458770221e-05,
      "loss": 0.6714318275451661,
      "memory(GiB)": 70.5,
      "step": 54780,
      "token_acc": 0.8551236749116607,
      "train_speed(iter/s)": 1.448855
    },
    {
      "epoch": 2.3471573625808664,
      "grad_norm": 3.7247395515441895,
      "learning_rate": 5.479431586693454e-05,
      "loss": 0.2218801736831665,
      "memory(GiB)": 70.5,
      "step": 54785,
      "token_acc": 0.9458333333333333,
      "train_speed(iter/s)": 1.448868
    },
    {
      "epoch": 2.347371577910115,
      "grad_norm": 3.0545804500579834,
      "learning_rate": 5.478761705931334e-05,
      "loss": 0.3074420213699341,
      "memory(GiB)": 70.5,
      "step": 54790,
      "token_acc": 0.9302325581395349,
      "train_speed(iter/s)": 1.448872
    },
    {
      "epoch": 2.3475857932393644,
      "grad_norm": 1.4347295761108398,
      "learning_rate": 5.478091816495997e-05,
      "loss": 0.34061198234558104,
      "memory(GiB)": 70.5,
      "step": 54795,
      "token_acc": 0.9338842975206612,
      "train_speed(iter/s)": 1.448869
    },
    {
      "epoch": 2.3478000085686133,
      "grad_norm": 3.6501474380493164,
      "learning_rate": 5.4774219183995804e-05,
      "loss": 0.44470901489257814,
      "memory(GiB)": 70.5,
      "step": 54800,
      "token_acc": 0.9146005509641874,
      "train_speed(iter/s)": 1.448871
    },
    {
      "epoch": 2.348014223897862,
      "grad_norm": 8.084715843200684,
      "learning_rate": 5.476752011654215e-05,
      "loss": 0.4974452018737793,
      "memory(GiB)": 70.5,
      "step": 54805,
      "token_acc": 0.8968253968253969,
      "train_speed(iter/s)": 1.448887
    },
    {
      "epoch": 2.3482284392271113,
      "grad_norm": 3.607499599456787,
      "learning_rate": 5.4760820962720416e-05,
      "loss": 0.5124674320220948,
      "memory(GiB)": 70.5,
      "step": 54810,
      "token_acc": 0.8796296296296297,
      "train_speed(iter/s)": 1.448891
    },
    {
      "epoch": 2.34844265455636,
      "grad_norm": 3.40412974357605,
      "learning_rate": 5.475412172265193e-05,
      "loss": 0.4927422523498535,
      "memory(GiB)": 70.5,
      "step": 54815,
      "token_acc": 0.9097744360902256,
      "train_speed(iter/s)": 1.448889
    },
    {
      "epoch": 2.348656869885609,
      "grad_norm": 5.340081691741943,
      "learning_rate": 5.4747422396458085e-05,
      "loss": 0.47985310554504396,
      "memory(GiB)": 70.5,
      "step": 54820,
      "token_acc": 0.9125475285171103,
      "train_speed(iter/s)": 1.448896
    },
    {
      "epoch": 2.348871085214858,
      "grad_norm": 1.3284178972244263,
      "learning_rate": 5.4740722984260216e-05,
      "loss": 0.3664852619171143,
      "memory(GiB)": 70.5,
      "step": 54825,
      "token_acc": 0.9208333333333333,
      "train_speed(iter/s)": 1.448902
    },
    {
      "epoch": 2.349085300544107,
      "grad_norm": 2.0341227054595947,
      "learning_rate": 5.473402348617971e-05,
      "loss": 0.28169817924499513,
      "memory(GiB)": 70.5,
      "step": 54830,
      "token_acc": 0.9355828220858896,
      "train_speed(iter/s)": 1.448908
    },
    {
      "epoch": 2.349299515873356,
      "grad_norm": 4.103806972503662,
      "learning_rate": 5.472732390233792e-05,
      "loss": 0.4671617031097412,
      "memory(GiB)": 70.5,
      "step": 54835,
      "token_acc": 0.9029126213592233,
      "train_speed(iter/s)": 1.448907
    },
    {
      "epoch": 2.349513731202605,
      "grad_norm": 3.4400126934051514,
      "learning_rate": 5.472062423285623e-05,
      "loss": 0.4676655769348145,
      "memory(GiB)": 70.5,
      "step": 54840,
      "token_acc": 0.9068825910931174,
      "train_speed(iter/s)": 1.448898
    },
    {
      "epoch": 2.349727946531854,
      "grad_norm": 2.016002655029297,
      "learning_rate": 5.4713924477856006e-05,
      "loss": 0.38626389503479003,
      "memory(GiB)": 70.5,
      "step": 54845,
      "token_acc": 0.9084745762711864,
      "train_speed(iter/s)": 1.448896
    },
    {
      "epoch": 2.3499421618611027,
      "grad_norm": 3.794734239578247,
      "learning_rate": 5.470722463745862e-05,
      "loss": 0.4361108779907227,
      "memory(GiB)": 70.5,
      "step": 54850,
      "token_acc": 0.9275862068965517,
      "train_speed(iter/s)": 1.448904
    },
    {
      "epoch": 2.350156377190352,
      "grad_norm": 6.814071178436279,
      "learning_rate": 5.4700524711785436e-05,
      "loss": 0.5949673652648926,
      "memory(GiB)": 70.5,
      "step": 54855,
      "token_acc": 0.818407960199005,
      "train_speed(iter/s)": 1.448897
    },
    {
      "epoch": 2.350370592519601,
      "grad_norm": 3.8398618698120117,
      "learning_rate": 5.469382470095784e-05,
      "loss": 0.3697032928466797,
      "memory(GiB)": 70.5,
      "step": 54860,
      "token_acc": 0.927710843373494,
      "train_speed(iter/s)": 1.448915
    },
    {
      "epoch": 2.3505848078488496,
      "grad_norm": 2.0146751403808594,
      "learning_rate": 5.4687124605097196e-05,
      "loss": 0.6839057445526123,
      "memory(GiB)": 70.5,
      "step": 54865,
      "token_acc": 0.8720238095238095,
      "train_speed(iter/s)": 1.448919
    },
    {
      "epoch": 2.350799023178099,
      "grad_norm": 9.449298858642578,
      "learning_rate": 5.4680424424324914e-05,
      "loss": 0.44599413871765137,
      "memory(GiB)": 70.5,
      "step": 54870,
      "token_acc": 0.8929663608562691,
      "train_speed(iter/s)": 1.448915
    },
    {
      "epoch": 2.3510132385073477,
      "grad_norm": 0.7485092878341675,
      "learning_rate": 5.467372415876233e-05,
      "loss": 0.34730513095855714,
      "memory(GiB)": 70.5,
      "step": 54875,
      "token_acc": 0.9417808219178082,
      "train_speed(iter/s)": 1.448919
    },
    {
      "epoch": 2.3512274538365965,
      "grad_norm": 3.689138412475586,
      "learning_rate": 5.466702380853087e-05,
      "loss": 0.3434727430343628,
      "memory(GiB)": 70.5,
      "step": 54880,
      "token_acc": 0.9271255060728745,
      "train_speed(iter/s)": 1.448922
    },
    {
      "epoch": 2.3514416691658457,
      "grad_norm": 3.2595038414001465,
      "learning_rate": 5.4660323373751884e-05,
      "loss": 0.36938698291778566,
      "memory(GiB)": 70.5,
      "step": 54885,
      "token_acc": 0.9066147859922179,
      "train_speed(iter/s)": 1.448918
    },
    {
      "epoch": 2.3516558844950946,
      "grad_norm": 1.0526481866836548,
      "learning_rate": 5.465362285454677e-05,
      "loss": 0.3410006523132324,
      "memory(GiB)": 70.5,
      "step": 54890,
      "token_acc": 0.9217081850533808,
      "train_speed(iter/s)": 1.448924
    },
    {
      "epoch": 2.3518700998243434,
      "grad_norm": 0.6592255234718323,
      "learning_rate": 5.4646922251036924e-05,
      "loss": 0.217684006690979,
      "memory(GiB)": 70.5,
      "step": 54895,
      "token_acc": 0.9477611940298507,
      "train_speed(iter/s)": 1.448922
    },
    {
      "epoch": 2.3520843151535926,
      "grad_norm": 3.4127299785614014,
      "learning_rate": 5.464022156334371e-05,
      "loss": 0.5039616584777832,
      "memory(GiB)": 70.5,
      "step": 54900,
      "token_acc": 0.9041095890410958,
      "train_speed(iter/s)": 1.448925
    },
    {
      "epoch": 2.3522985304828414,
      "grad_norm": 3.118410110473633,
      "learning_rate": 5.463352079158852e-05,
      "loss": 0.24376914501190186,
      "memory(GiB)": 70.5,
      "step": 54905,
      "token_acc": 0.9166666666666666,
      "train_speed(iter/s)": 1.44894
    },
    {
      "epoch": 2.3525127458120902,
      "grad_norm": 1.9958930015563965,
      "learning_rate": 5.462681993589277e-05,
      "loss": 0.18064956665039061,
      "memory(GiB)": 70.5,
      "step": 54910,
      "token_acc": 0.96,
      "train_speed(iter/s)": 1.448942
    },
    {
      "epoch": 2.3527269611413395,
      "grad_norm": 3.0787875652313232,
      "learning_rate": 5.462011899637783e-05,
      "loss": 0.19415065050125122,
      "memory(GiB)": 70.5,
      "step": 54915,
      "token_acc": 0.9570957095709571,
      "train_speed(iter/s)": 1.448943
    },
    {
      "epoch": 2.3529411764705883,
      "grad_norm": 1.4844306707382202,
      "learning_rate": 5.4613417973165106e-05,
      "loss": 0.6858043193817138,
      "memory(GiB)": 70.5,
      "step": 54920,
      "token_acc": 0.8507462686567164,
      "train_speed(iter/s)": 1.448939
    },
    {
      "epoch": 2.353155391799837,
      "grad_norm": 3.0115673542022705,
      "learning_rate": 5.4606716866375985e-05,
      "loss": 0.25080204010009766,
      "memory(GiB)": 70.5,
      "step": 54925,
      "token_acc": 0.9389067524115756,
      "train_speed(iter/s)": 1.448944
    },
    {
      "epoch": 2.3533696071290864,
      "grad_norm": 2.4867000579833984,
      "learning_rate": 5.460001567613188e-05,
      "loss": 0.4379605770111084,
      "memory(GiB)": 70.5,
      "step": 54930,
      "token_acc": 0.9246575342465754,
      "train_speed(iter/s)": 1.448964
    },
    {
      "epoch": 2.353583822458335,
      "grad_norm": 4.0065155029296875,
      "learning_rate": 5.459331440255414e-05,
      "loss": 0.3709320306777954,
      "memory(GiB)": 70.5,
      "step": 54935,
      "token_acc": 0.9192982456140351,
      "train_speed(iter/s)": 1.448969
    },
    {
      "epoch": 2.353798037787584,
      "grad_norm": 5.483132362365723,
      "learning_rate": 5.458661304576422e-05,
      "loss": 0.5030012130737305,
      "memory(GiB)": 70.5,
      "step": 54940,
      "token_acc": 0.9094488188976378,
      "train_speed(iter/s)": 1.448963
    },
    {
      "epoch": 2.3540122531168333,
      "grad_norm": 2.0243680477142334,
      "learning_rate": 5.457991160588351e-05,
      "loss": 0.32144627571105955,
      "memory(GiB)": 70.5,
      "step": 54945,
      "token_acc": 0.9254901960784314,
      "train_speed(iter/s)": 1.448972
    },
    {
      "epoch": 2.354226468446082,
      "grad_norm": 3.2237117290496826,
      "learning_rate": 5.45732100830334e-05,
      "loss": 0.3822195529937744,
      "memory(GiB)": 70.5,
      "step": 54950,
      "token_acc": 0.909433962264151,
      "train_speed(iter/s)": 1.448982
    },
    {
      "epoch": 2.354440683775331,
      "grad_norm": 2.2958953380584717,
      "learning_rate": 5.4566508477335296e-05,
      "loss": 0.2880213975906372,
      "memory(GiB)": 70.5,
      "step": 54955,
      "token_acc": 0.931899641577061,
      "train_speed(iter/s)": 1.448988
    },
    {
      "epoch": 2.35465489910458,
      "grad_norm": 2.323312282562256,
      "learning_rate": 5.4559806788910606e-05,
      "loss": 0.3974114656448364,
      "memory(GiB)": 70.5,
      "step": 54960,
      "token_acc": 0.9180327868852459,
      "train_speed(iter/s)": 1.448986
    },
    {
      "epoch": 2.354869114433829,
      "grad_norm": 1.5930956602096558,
      "learning_rate": 5.455310501788075e-05,
      "loss": 0.1525997996330261,
      "memory(GiB)": 70.5,
      "step": 54965,
      "token_acc": 0.9616858237547893,
      "train_speed(iter/s)": 1.448975
    },
    {
      "epoch": 2.3550833297630778,
      "grad_norm": 2.9893481731414795,
      "learning_rate": 5.454640316436712e-05,
      "loss": 0.5507631778717041,
      "memory(GiB)": 70.5,
      "step": 54970,
      "token_acc": 0.9010238907849829,
      "train_speed(iter/s)": 1.44898
    },
    {
      "epoch": 2.355297545092327,
      "grad_norm": 1.9076547622680664,
      "learning_rate": 5.453970122849113e-05,
      "loss": 0.2704340696334839,
      "memory(GiB)": 70.5,
      "step": 54975,
      "token_acc": 0.933920704845815,
      "train_speed(iter/s)": 1.448986
    },
    {
      "epoch": 2.355511760421576,
      "grad_norm": 11.831310272216797,
      "learning_rate": 5.453299921037418e-05,
      "loss": 0.3260432004928589,
      "memory(GiB)": 70.5,
      "step": 54980,
      "token_acc": 0.927007299270073,
      "train_speed(iter/s)": 1.448978
    },
    {
      "epoch": 2.3557259757508247,
      "grad_norm": 2.675819158554077,
      "learning_rate": 5.452629711013773e-05,
      "loss": 0.5603820323944092,
      "memory(GiB)": 70.5,
      "step": 54985,
      "token_acc": 0.878125,
      "train_speed(iter/s)": 1.448981
    },
    {
      "epoch": 2.355940191080074,
      "grad_norm": 3.4541001319885254,
      "learning_rate": 5.451959492790313e-05,
      "loss": 0.17293593883514405,
      "memory(GiB)": 70.5,
      "step": 54990,
      "token_acc": 0.9556313993174061,
      "train_speed(iter/s)": 1.448986
    },
    {
      "epoch": 2.3561544064093227,
      "grad_norm": 3.0674033164978027,
      "learning_rate": 5.451289266379184e-05,
      "loss": 0.2837062835693359,
      "memory(GiB)": 70.5,
      "step": 54995,
      "token_acc": 0.9333333333333333,
      "train_speed(iter/s)": 1.448993
    },
    {
      "epoch": 2.3563686217385715,
      "grad_norm": 1.508364200592041,
      "learning_rate": 5.4506190317925275e-05,
      "loss": 0.39808950424194334,
      "memory(GiB)": 70.5,
      "step": 55000,
      "token_acc": 0.9295302013422819,
      "train_speed(iter/s)": 1.449011
    },
    {
      "epoch": 2.3563686217385715,
      "eval_loss": 2.496994972229004,
      "eval_runtime": 13.6414,
      "eval_samples_per_second": 7.331,
      "eval_steps_per_second": 7.331,
      "eval_token_acc": 0.43898809523809523,
      "step": 55000
    },
    {
      "epoch": 2.356582837067821,
      "grad_norm": 3.945523262023926,
      "learning_rate": 5.4499487890424826e-05,
      "loss": 0.5330152034759521,
      "memory(GiB)": 70.5,
      "step": 55005,
      "token_acc": 0.5708245243128964,
      "train_speed(iter/s)": 1.448455
    },
    {
      "epoch": 2.3567970523970696,
      "grad_norm": 2.2528886795043945,
      "learning_rate": 5.4492785381411936e-05,
      "loss": 0.44075589179992675,
      "memory(GiB)": 70.5,
      "step": 55010,
      "token_acc": 0.9178571428571428,
      "train_speed(iter/s)": 1.448467
    },
    {
      "epoch": 2.3570112677263184,
      "grad_norm": 4.847831726074219,
      "learning_rate": 5.4486082791008044e-05,
      "loss": 0.5679641723632812,
      "memory(GiB)": 70.5,
      "step": 55015,
      "token_acc": 0.8837209302325582,
      "train_speed(iter/s)": 1.448475
    },
    {
      "epoch": 2.3572254830555677,
      "grad_norm": 4.304424285888672,
      "learning_rate": 5.447938011933453e-05,
      "loss": 0.25655364990234375,
      "memory(GiB)": 70.5,
      "step": 55020,
      "token_acc": 0.9375,
      "train_speed(iter/s)": 1.448478
    },
    {
      "epoch": 2.3574396983848165,
      "grad_norm": 5.708155632019043,
      "learning_rate": 5.447267736651286e-05,
      "loss": 0.5851702213287353,
      "memory(GiB)": 70.5,
      "step": 55025,
      "token_acc": 0.875,
      "train_speed(iter/s)": 1.448484
    },
    {
      "epoch": 2.3576539137140653,
      "grad_norm": 3.800816297531128,
      "learning_rate": 5.446597453266444e-05,
      "loss": 0.48370981216430664,
      "memory(GiB)": 70.5,
      "step": 55030,
      "token_acc": 0.8918918918918919,
      "train_speed(iter/s)": 1.448481
    },
    {
      "epoch": 2.3578681290433146,
      "grad_norm": 0.29302966594696045,
      "learning_rate": 5.44592716179107e-05,
      "loss": 0.24502294063568114,
      "memory(GiB)": 70.5,
      "step": 55035,
      "token_acc": 0.9341085271317829,
      "train_speed(iter/s)": 1.44848
    },
    {
      "epoch": 2.3580823443725634,
      "grad_norm": 3.7983055114746094,
      "learning_rate": 5.445256862237308e-05,
      "loss": 0.44464893341064454,
      "memory(GiB)": 70.5,
      "step": 55040,
      "token_acc": 0.8962962962962963,
      "train_speed(iter/s)": 1.448473
    },
    {
      "epoch": 2.358296559701812,
      "grad_norm": 2.18605375289917,
      "learning_rate": 5.4445865546172995e-05,
      "loss": 0.2741574287414551,
      "memory(GiB)": 70.5,
      "step": 55045,
      "token_acc": 0.9207547169811321,
      "train_speed(iter/s)": 1.44847
    },
    {
      "epoch": 2.3585107750310614,
      "grad_norm": 3.73864483833313,
      "learning_rate": 5.4439162389431876e-05,
      "loss": 0.43577189445495607,
      "memory(GiB)": 70.5,
      "step": 55050,
      "token_acc": 0.90633608815427,
      "train_speed(iter/s)": 1.448475
    },
    {
      "epoch": 2.3587249903603102,
      "grad_norm": 4.087780475616455,
      "learning_rate": 5.443245915227117e-05,
      "loss": 0.30202105045318606,
      "memory(GiB)": 70.5,
      "step": 55055,
      "token_acc": 0.9224806201550387,
      "train_speed(iter/s)": 1.448483
    },
    {
      "epoch": 2.358939205689559,
      "grad_norm": 5.365493297576904,
      "learning_rate": 5.442575583481232e-05,
      "loss": 0.35280284881591795,
      "memory(GiB)": 70.5,
      "step": 55060,
      "token_acc": 0.9172661870503597,
      "train_speed(iter/s)": 1.448501
    },
    {
      "epoch": 2.3591534210188083,
      "grad_norm": 1.5115262269973755,
      "learning_rate": 5.441905243717674e-05,
      "loss": 0.463959264755249,
      "memory(GiB)": 70.5,
      "step": 55065,
      "token_acc": 0.9097222222222222,
      "train_speed(iter/s)": 1.448497
    },
    {
      "epoch": 2.359367636348057,
      "grad_norm": 2.9996426105499268,
      "learning_rate": 5.4412348959485894e-05,
      "loss": 0.4334695816040039,
      "memory(GiB)": 70.5,
      "step": 55070,
      "token_acc": 0.8937728937728938,
      "train_speed(iter/s)": 1.448486
    },
    {
      "epoch": 2.359581851677306,
      "grad_norm": 3.7456629276275635,
      "learning_rate": 5.4405645401861205e-05,
      "loss": 0.2805644989013672,
      "memory(GiB)": 70.5,
      "step": 55075,
      "token_acc": 0.9387755102040817,
      "train_speed(iter/s)": 1.448489
    },
    {
      "epoch": 2.359796067006555,
      "grad_norm": 3.1305575370788574,
      "learning_rate": 5.439894176442409e-05,
      "loss": 0.35301599502563474,
      "memory(GiB)": 70.5,
      "step": 55080,
      "token_acc": 0.9261213720316622,
      "train_speed(iter/s)": 1.448491
    },
    {
      "epoch": 2.360010282335804,
      "grad_norm": 0.6324419379234314,
      "learning_rate": 5.439223804729604e-05,
      "loss": 0.14790232181549073,
      "memory(GiB)": 70.5,
      "step": 55085,
      "token_acc": 0.9611307420494699,
      "train_speed(iter/s)": 1.448487
    },
    {
      "epoch": 2.360224497665053,
      "grad_norm": 1.7106901407241821,
      "learning_rate": 5.438553425059848e-05,
      "loss": 0.3613922595977783,
      "memory(GiB)": 70.5,
      "step": 55090,
      "token_acc": 0.9193548387096774,
      "train_speed(iter/s)": 1.448489
    },
    {
      "epoch": 2.360438712994302,
      "grad_norm": 3.5727460384368896,
      "learning_rate": 5.437883037445284e-05,
      "loss": 0.2650846004486084,
      "memory(GiB)": 70.5,
      "step": 55095,
      "token_acc": 0.9236363636363636,
      "train_speed(iter/s)": 1.44848
    },
    {
      "epoch": 2.360652928323551,
      "grad_norm": 6.916569232940674,
      "learning_rate": 5.43721264189806e-05,
      "loss": 0.4753739833831787,
      "memory(GiB)": 70.5,
      "step": 55100,
      "token_acc": 0.9186046511627907,
      "train_speed(iter/s)": 1.448484
    },
    {
      "epoch": 2.3608671436527997,
      "grad_norm": 2.5760231018066406,
      "learning_rate": 5.4365422384303164e-05,
      "loss": 0.2099174976348877,
      "memory(GiB)": 70.5,
      "step": 55105,
      "token_acc": 0.9562289562289562,
      "train_speed(iter/s)": 1.448491
    },
    {
      "epoch": 2.361081358982049,
      "grad_norm": 4.60403299331665,
      "learning_rate": 5.435871827054203e-05,
      "loss": 0.49581236839294435,
      "memory(GiB)": 70.5,
      "step": 55110,
      "token_acc": 0.9025157232704403,
      "train_speed(iter/s)": 1.448489
    },
    {
      "epoch": 2.3612955743112978,
      "grad_norm": 6.73586368560791,
      "learning_rate": 5.435201407781863e-05,
      "loss": 0.5708225250244141,
      "memory(GiB)": 70.5,
      "step": 55115,
      "token_acc": 0.8996539792387543,
      "train_speed(iter/s)": 1.448517
    },
    {
      "epoch": 2.3615097896405466,
      "grad_norm": 4.306656360626221,
      "learning_rate": 5.434530980625438e-05,
      "loss": 0.4340690612792969,
      "memory(GiB)": 70.5,
      "step": 55120,
      "token_acc": 0.9218241042345277,
      "train_speed(iter/s)": 1.448528
    },
    {
      "epoch": 2.361724004969796,
      "grad_norm": 0.9333075284957886,
      "learning_rate": 5.433860545597078e-05,
      "loss": 0.3950053215026855,
      "memory(GiB)": 70.5,
      "step": 55125,
      "token_acc": 0.9044585987261147,
      "train_speed(iter/s)": 1.44853
    },
    {
      "epoch": 2.3619382202990447,
      "grad_norm": 4.33928108215332,
      "learning_rate": 5.433190102708928e-05,
      "loss": 0.27051348686218263,
      "memory(GiB)": 70.5,
      "step": 55130,
      "token_acc": 0.937007874015748,
      "train_speed(iter/s)": 1.448533
    },
    {
      "epoch": 2.3621524356282935,
      "grad_norm": 1.222993016242981,
      "learning_rate": 5.432519651973133e-05,
      "loss": 0.21632211208343505,
      "memory(GiB)": 70.5,
      "step": 55135,
      "token_acc": 0.9546925566343042,
      "train_speed(iter/s)": 1.448533
    },
    {
      "epoch": 2.3623666509575427,
      "grad_norm": 3.887842893600464,
      "learning_rate": 5.431849193401838e-05,
      "loss": 0.27980899810791016,
      "memory(GiB)": 70.5,
      "step": 55140,
      "token_acc": 0.9148936170212766,
      "train_speed(iter/s)": 1.448528
    },
    {
      "epoch": 2.3625808662867915,
      "grad_norm": 0.5187107920646667,
      "learning_rate": 5.431178727007191e-05,
      "loss": 0.21198499202728271,
      "memory(GiB)": 70.5,
      "step": 55145,
      "token_acc": 0.9487179487179487,
      "train_speed(iter/s)": 1.448532
    },
    {
      "epoch": 2.3627950816160403,
      "grad_norm": 3.515005111694336,
      "learning_rate": 5.430508252801335e-05,
      "loss": 0.29717793464660647,
      "memory(GiB)": 70.5,
      "step": 55150,
      "token_acc": 0.9225352112676056,
      "train_speed(iter/s)": 1.448534
    },
    {
      "epoch": 2.3630092969452896,
      "grad_norm": 5.4751739501953125,
      "learning_rate": 5.42983777079642e-05,
      "loss": 0.48238444328308105,
      "memory(GiB)": 70.5,
      "step": 55155,
      "token_acc": 0.9045801526717557,
      "train_speed(iter/s)": 1.448529
    },
    {
      "epoch": 2.3632235122745384,
      "grad_norm": 2.2855305671691895,
      "learning_rate": 5.429167281004589e-05,
      "loss": 0.5223685741424561,
      "memory(GiB)": 70.5,
      "step": 55160,
      "token_acc": 0.8958990536277602,
      "train_speed(iter/s)": 1.448543
    },
    {
      "epoch": 2.3634377276037872,
      "grad_norm": 2.935891628265381,
      "learning_rate": 5.42849678343799e-05,
      "loss": 0.3862550973892212,
      "memory(GiB)": 70.5,
      "step": 55165,
      "token_acc": 0.9124087591240876,
      "train_speed(iter/s)": 1.448541
    },
    {
      "epoch": 2.3636519429330365,
      "grad_norm": 2.4137966632843018,
      "learning_rate": 5.4278262781087706e-05,
      "loss": 0.15492690801620485,
      "memory(GiB)": 70.5,
      "step": 55170,
      "token_acc": 0.9694656488549618,
      "train_speed(iter/s)": 1.448543
    },
    {
      "epoch": 2.3638661582622853,
      "grad_norm": 3.421884059906006,
      "learning_rate": 5.427155765029078e-05,
      "loss": 0.4528526306152344,
      "memory(GiB)": 70.5,
      "step": 55175,
      "token_acc": 0.9,
      "train_speed(iter/s)": 1.448547
    },
    {
      "epoch": 2.364080373591534,
      "grad_norm": 2.7021644115448,
      "learning_rate": 5.426485244211056e-05,
      "loss": 0.42345123291015624,
      "memory(GiB)": 70.5,
      "step": 55180,
      "token_acc": 0.9136212624584718,
      "train_speed(iter/s)": 1.448541
    },
    {
      "epoch": 2.3642945889207834,
      "grad_norm": 4.621204853057861,
      "learning_rate": 5.4258147156668545e-05,
      "loss": 0.6959856033325196,
      "memory(GiB)": 70.5,
      "step": 55185,
      "token_acc": 0.8528528528528528,
      "train_speed(iter/s)": 1.44853
    },
    {
      "epoch": 2.364508804250032,
      "grad_norm": 3.174862861633301,
      "learning_rate": 5.425144179408621e-05,
      "loss": 0.24636573791503907,
      "memory(GiB)": 70.5,
      "step": 55190,
      "token_acc": 0.9623824451410659,
      "train_speed(iter/s)": 1.44854
    },
    {
      "epoch": 2.364723019579281,
      "grad_norm": 1.2778573036193848,
      "learning_rate": 5.4244736354484994e-05,
      "loss": 0.2500413656234741,
      "memory(GiB)": 70.5,
      "step": 55195,
      "token_acc": 0.9501779359430605,
      "train_speed(iter/s)": 1.44854
    },
    {
      "epoch": 2.3649372349085303,
      "grad_norm": 2.3719308376312256,
      "learning_rate": 5.423803083798642e-05,
      "loss": 0.4668439865112305,
      "memory(GiB)": 70.5,
      "step": 55200,
      "token_acc": 0.8867313915857605,
      "train_speed(iter/s)": 1.448537
    },
    {
      "epoch": 2.365151450237779,
      "grad_norm": 3.2553982734680176,
      "learning_rate": 5.423132524471194e-05,
      "loss": 0.3799863576889038,
      "memory(GiB)": 70.5,
      "step": 55205,
      "token_acc": 0.9137254901960784,
      "train_speed(iter/s)": 1.448546
    },
    {
      "epoch": 2.365365665567028,
      "grad_norm": 2.9155383110046387,
      "learning_rate": 5.422461957478302e-05,
      "loss": 0.22402913570404054,
      "memory(GiB)": 70.5,
      "step": 55210,
      "token_acc": 0.9377289377289377,
      "train_speed(iter/s)": 1.448559
    },
    {
      "epoch": 2.365579880896277,
      "grad_norm": 3.3568711280822754,
      "learning_rate": 5.4217913828321166e-05,
      "loss": 0.24479999542236328,
      "memory(GiB)": 70.5,
      "step": 55215,
      "token_acc": 0.9378698224852071,
      "train_speed(iter/s)": 1.448556
    },
    {
      "epoch": 2.365794096225526,
      "grad_norm": 9.155698776245117,
      "learning_rate": 5.421120800544785e-05,
      "loss": 0.6192069053649902,
      "memory(GiB)": 70.5,
      "step": 55220,
      "token_acc": 0.8659003831417624,
      "train_speed(iter/s)": 1.448581
    },
    {
      "epoch": 2.3660083115547748,
      "grad_norm": 3.0822079181671143,
      "learning_rate": 5.420450210628454e-05,
      "loss": 0.3492306709289551,
      "memory(GiB)": 70.5,
      "step": 55225,
      "token_acc": 0.9298245614035088,
      "train_speed(iter/s)": 1.448597
    },
    {
      "epoch": 2.366222526884024,
      "grad_norm": 2.0736465454101562,
      "learning_rate": 5.4197796130952724e-05,
      "loss": 0.15809139013290405,
      "memory(GiB)": 70.5,
      "step": 55230,
      "token_acc": 0.9537037037037037,
      "train_speed(iter/s)": 1.448598
    },
    {
      "epoch": 2.366436742213273,
      "grad_norm": 0.5085158944129944,
      "learning_rate": 5.41910900795739e-05,
      "loss": 0.44775638580322263,
      "memory(GiB)": 70.5,
      "step": 55235,
      "token_acc": 0.9169960474308301,
      "train_speed(iter/s)": 1.448613
    },
    {
      "epoch": 2.3666509575425216,
      "grad_norm": 1.8827892541885376,
      "learning_rate": 5.418438395226954e-05,
      "loss": 0.29608726501464844,
      "memory(GiB)": 70.5,
      "step": 55240,
      "token_acc": 0.9401408450704225,
      "train_speed(iter/s)": 1.448625
    },
    {
      "epoch": 2.366865172871771,
      "grad_norm": 0.49625223875045776,
      "learning_rate": 5.417767774916116e-05,
      "loss": 0.5954806804656982,
      "memory(GiB)": 70.5,
      "step": 55245,
      "token_acc": 0.864406779661017,
      "train_speed(iter/s)": 1.448633
    },
    {
      "epoch": 2.3670793882010197,
      "grad_norm": 3.2143354415893555,
      "learning_rate": 5.417097147037021e-05,
      "loss": 0.4798429012298584,
      "memory(GiB)": 70.5,
      "step": 55250,
      "token_acc": 0.9003322259136213,
      "train_speed(iter/s)": 1.448639
    },
    {
      "epoch": 2.3672936035302685,
      "grad_norm": 3.4821720123291016,
      "learning_rate": 5.416426511601822e-05,
      "loss": 0.5504418849945069,
      "memory(GiB)": 70.5,
      "step": 55255,
      "token_acc": 0.8964401294498382,
      "train_speed(iter/s)": 1.448645
    },
    {
      "epoch": 2.3675078188595178,
      "grad_norm": 3.031144857406616,
      "learning_rate": 5.415755868622665e-05,
      "loss": 0.6363205432891845,
      "memory(GiB)": 70.5,
      "step": 55260,
      "token_acc": 0.896551724137931,
      "train_speed(iter/s)": 1.448646
    },
    {
      "epoch": 2.3677220341887666,
      "grad_norm": 4.798582553863525,
      "learning_rate": 5.4150852181116995e-05,
      "loss": 0.6234495639801025,
      "memory(GiB)": 70.5,
      "step": 55265,
      "token_acc": 0.8732394366197183,
      "train_speed(iter/s)": 1.448644
    },
    {
      "epoch": 2.3679362495180154,
      "grad_norm": 6.880427360534668,
      "learning_rate": 5.414414560081076e-05,
      "loss": 0.6265539169311524,
      "memory(GiB)": 70.5,
      "step": 55270,
      "token_acc": 0.8836477987421384,
      "train_speed(iter/s)": 1.448644
    },
    {
      "epoch": 2.3681504648472647,
      "grad_norm": 3.093266725540161,
      "learning_rate": 5.413743894542945e-05,
      "loss": 0.4588153839111328,
      "memory(GiB)": 70.5,
      "step": 55275,
      "token_acc": 0.8884615384615384,
      "train_speed(iter/s)": 1.448639
    },
    {
      "epoch": 2.3683646801765135,
      "grad_norm": 4.126387596130371,
      "learning_rate": 5.413073221509454e-05,
      "loss": 0.44532132148742676,
      "memory(GiB)": 70.5,
      "step": 55280,
      "token_acc": 0.9140893470790378,
      "train_speed(iter/s)": 1.448642
    },
    {
      "epoch": 2.3685788955057623,
      "grad_norm": 0.3858708441257477,
      "learning_rate": 5.412402540992756e-05,
      "loss": 0.42006778717041016,
      "memory(GiB)": 70.5,
      "step": 55285,
      "token_acc": 0.9154929577464789,
      "train_speed(iter/s)": 1.448644
    },
    {
      "epoch": 2.3687931108350115,
      "grad_norm": 5.490840911865234,
      "learning_rate": 5.4117318530049976e-05,
      "loss": 0.36324348449707033,
      "memory(GiB)": 70.5,
      "step": 55290,
      "token_acc": 0.9197530864197531,
      "train_speed(iter/s)": 1.448663
    },
    {
      "epoch": 2.3690073261642604,
      "grad_norm": 6.052123546600342,
      "learning_rate": 5.41106115755833e-05,
      "loss": 0.4248487949371338,
      "memory(GiB)": 70.5,
      "step": 55295,
      "token_acc": 0.9015151515151515,
      "train_speed(iter/s)": 1.44867
    },
    {
      "epoch": 2.369221541493509,
      "grad_norm": 3.4180164337158203,
      "learning_rate": 5.4103904546649063e-05,
      "loss": 0.4240254402160645,
      "memory(GiB)": 70.5,
      "step": 55300,
      "token_acc": 0.8830409356725146,
      "train_speed(iter/s)": 1.448667
    },
    {
      "epoch": 2.3694357568227584,
      "grad_norm": 3.2468059062957764,
      "learning_rate": 5.4097197443368716e-05,
      "loss": 0.3759260416030884,
      "memory(GiB)": 70.5,
      "step": 55305,
      "token_acc": 0.9395017793594306,
      "train_speed(iter/s)": 1.448668
    },
    {
      "epoch": 2.3696499721520072,
      "grad_norm": 2.947377920150757,
      "learning_rate": 5.4090490265863814e-05,
      "loss": 0.40709357261657714,
      "memory(GiB)": 70.5,
      "step": 55310,
      "token_acc": 0.9052631578947369,
      "train_speed(iter/s)": 1.448677
    },
    {
      "epoch": 2.369864187481256,
      "grad_norm": 3.6253888607025146,
      "learning_rate": 5.408378301425584e-05,
      "loss": 0.10892674922943116,
      "memory(GiB)": 70.5,
      "step": 55315,
      "token_acc": 0.9704797047970479,
      "train_speed(iter/s)": 1.448687
    },
    {
      "epoch": 2.3700784028105053,
      "grad_norm": 3.6965136528015137,
      "learning_rate": 5.40770756886663e-05,
      "loss": 0.4726593494415283,
      "memory(GiB)": 70.5,
      "step": 55320,
      "token_acc": 0.8878504672897196,
      "train_speed(iter/s)": 1.448699
    },
    {
      "epoch": 2.370292618139754,
      "grad_norm": 4.203708648681641,
      "learning_rate": 5.407036828921671e-05,
      "loss": 0.5767871856689453,
      "memory(GiB)": 70.5,
      "step": 55325,
      "token_acc": 0.8774834437086093,
      "train_speed(iter/s)": 1.448687
    },
    {
      "epoch": 2.370506833469003,
      "grad_norm": 2.844010591506958,
      "learning_rate": 5.406366081602859e-05,
      "loss": 0.31044907569885255,
      "memory(GiB)": 70.5,
      "step": 55330,
      "token_acc": 0.9401041666666666,
      "train_speed(iter/s)": 1.448685
    },
    {
      "epoch": 2.370721048798252,
      "grad_norm": 4.771903038024902,
      "learning_rate": 5.4056953269223445e-05,
      "loss": 0.6263085842132569,
      "memory(GiB)": 70.5,
      "step": 55335,
      "token_acc": 0.8644578313253012,
      "train_speed(iter/s)": 1.448691
    },
    {
      "epoch": 2.370935264127501,
      "grad_norm": 2.6001927852630615,
      "learning_rate": 5.405024564892277e-05,
      "loss": 0.6063377380371093,
      "memory(GiB)": 70.5,
      "step": 55340,
      "token_acc": 0.8595890410958904,
      "train_speed(iter/s)": 1.448688
    },
    {
      "epoch": 2.37114947945675,
      "grad_norm": 4.412602424621582,
      "learning_rate": 5.4043537955248094e-05,
      "loss": 0.3938585758209229,
      "memory(GiB)": 70.5,
      "step": 55345,
      "token_acc": 0.9054545454545454,
      "train_speed(iter/s)": 1.448691
    },
    {
      "epoch": 2.371363694785999,
      "grad_norm": 2.467076063156128,
      "learning_rate": 5.403683018832094e-05,
      "loss": 0.2379439353942871,
      "memory(GiB)": 70.5,
      "step": 55350,
      "token_acc": 0.9464285714285714,
      "train_speed(iter/s)": 1.448701
    },
    {
      "epoch": 2.371577910115248,
      "grad_norm": 2.868135929107666,
      "learning_rate": 5.4030122348262824e-05,
      "loss": 0.46555533409118655,
      "memory(GiB)": 70.5,
      "step": 55355,
      "token_acc": 0.8979591836734694,
      "train_speed(iter/s)": 1.448702
    },
    {
      "epoch": 2.3717921254444967,
      "grad_norm": 4.36163330078125,
      "learning_rate": 5.402341443519526e-05,
      "loss": 0.4676025867462158,
      "memory(GiB)": 70.5,
      "step": 55360,
      "token_acc": 0.8839590443686007,
      "train_speed(iter/s)": 1.448704
    },
    {
      "epoch": 2.372006340773746,
      "grad_norm": 4.566256999969482,
      "learning_rate": 5.4016706449239764e-05,
      "loss": 0.34829447269439695,
      "memory(GiB)": 70.5,
      "step": 55365,
      "token_acc": 0.9355932203389831,
      "train_speed(iter/s)": 1.448722
    },
    {
      "epoch": 2.3722205561029948,
      "grad_norm": 1.5845232009887695,
      "learning_rate": 5.400999839051788e-05,
      "loss": 0.27104527950286866,
      "memory(GiB)": 70.5,
      "step": 55370,
      "token_acc": 0.9252336448598131,
      "train_speed(iter/s)": 1.448739
    },
    {
      "epoch": 2.3724347714322436,
      "grad_norm": 1.2160667181015015,
      "learning_rate": 5.40032902591511e-05,
      "loss": 0.3324757099151611,
      "memory(GiB)": 70.5,
      "step": 55375,
      "token_acc": 0.9306930693069307,
      "train_speed(iter/s)": 1.448743
    },
    {
      "epoch": 2.372648986761493,
      "grad_norm": 4.299962043762207,
      "learning_rate": 5.399658205526096e-05,
      "loss": 0.3201579570770264,
      "memory(GiB)": 70.5,
      "step": 55380,
      "token_acc": 0.9281045751633987,
      "train_speed(iter/s)": 1.448749
    },
    {
      "epoch": 2.3728632020907416,
      "grad_norm": 3.842785120010376,
      "learning_rate": 5.398987377896898e-05,
      "loss": 0.28072280883789064,
      "memory(GiB)": 70.5,
      "step": 55385,
      "token_acc": 0.9340659340659341,
      "train_speed(iter/s)": 1.44876
    },
    {
      "epoch": 2.3730774174199905,
      "grad_norm": 2.3229212760925293,
      "learning_rate": 5.398316543039671e-05,
      "loss": 0.179887855052948,
      "memory(GiB)": 70.5,
      "step": 55390,
      "token_acc": 0.9576923076923077,
      "train_speed(iter/s)": 1.448754
    },
    {
      "epoch": 2.3732916327492397,
      "grad_norm": 2.8391542434692383,
      "learning_rate": 5.397645700966565e-05,
      "loss": 0.4315822601318359,
      "memory(GiB)": 70.5,
      "step": 55395,
      "token_acc": 0.9149797570850202,
      "train_speed(iter/s)": 1.448751
    },
    {
      "epoch": 2.3735058480784885,
      "grad_norm": 3.65451717376709,
      "learning_rate": 5.3969748516897354e-05,
      "loss": 0.3085920810699463,
      "memory(GiB)": 70.5,
      "step": 55400,
      "token_acc": 0.9496124031007752,
      "train_speed(iter/s)": 1.448757
    },
    {
      "epoch": 2.3737200634077373,
      "grad_norm": 3.7555980682373047,
      "learning_rate": 5.3963039952213336e-05,
      "loss": 0.30926387310028075,
      "memory(GiB)": 70.5,
      "step": 55405,
      "token_acc": 0.9402985074626866,
      "train_speed(iter/s)": 1.448752
    },
    {
      "epoch": 2.3739342787369866,
      "grad_norm": 2.081904649734497,
      "learning_rate": 5.395633131573512e-05,
      "loss": 0.4303161144256592,
      "memory(GiB)": 70.5,
      "step": 55410,
      "token_acc": 0.9041533546325878,
      "train_speed(iter/s)": 1.448751
    },
    {
      "epoch": 2.3741484940662354,
      "grad_norm": 2.6512467861175537,
      "learning_rate": 5.394962260758425e-05,
      "loss": 0.3677434206008911,
      "memory(GiB)": 70.5,
      "step": 55415,
      "token_acc": 0.9404761904761905,
      "train_speed(iter/s)": 1.448753
    },
    {
      "epoch": 2.374362709395484,
      "grad_norm": 6.695333480834961,
      "learning_rate": 5.394291382788228e-05,
      "loss": 0.40309438705444334,
      "memory(GiB)": 70.5,
      "step": 55420,
      "token_acc": 0.9015151515151515,
      "train_speed(iter/s)": 1.448761
    },
    {
      "epoch": 2.3745769247247335,
      "grad_norm": 5.40246057510376,
      "learning_rate": 5.39362049767507e-05,
      "loss": 0.2516184329986572,
      "memory(GiB)": 70.5,
      "step": 55425,
      "token_acc": 0.9550173010380623,
      "train_speed(iter/s)": 1.448781
    },
    {
      "epoch": 2.3747911400539823,
      "grad_norm": 4.41666841506958,
      "learning_rate": 5.3929496054311104e-05,
      "loss": 0.5556628227233886,
      "memory(GiB)": 70.5,
      "step": 55430,
      "token_acc": 0.8449367088607594,
      "train_speed(iter/s)": 1.448772
    },
    {
      "epoch": 2.375005355383231,
      "grad_norm": 3.0151805877685547,
      "learning_rate": 5.3922787060685e-05,
      "loss": 0.32575235366821287,
      "memory(GiB)": 70.5,
      "step": 55435,
      "token_acc": 0.9289940828402367,
      "train_speed(iter/s)": 1.448784
    },
    {
      "epoch": 2.3752195707124804,
      "grad_norm": 3.8827106952667236,
      "learning_rate": 5.391607799599391e-05,
      "loss": 0.7588991641998291,
      "memory(GiB)": 70.5,
      "step": 55440,
      "token_acc": 0.8161993769470405,
      "train_speed(iter/s)": 1.448794
    },
    {
      "epoch": 2.375433786041729,
      "grad_norm": 1.4717357158660889,
      "learning_rate": 5.39093688603594e-05,
      "loss": 0.3492881298065186,
      "memory(GiB)": 70.5,
      "step": 55445,
      "token_acc": 0.9357429718875502,
      "train_speed(iter/s)": 1.448794
    },
    {
      "epoch": 2.375648001370978,
      "grad_norm": 3.427417039871216,
      "learning_rate": 5.390265965390301e-05,
      "loss": 0.2513458490371704,
      "memory(GiB)": 70.5,
      "step": 55450,
      "token_acc": 0.9392712550607287,
      "train_speed(iter/s)": 1.448792
    },
    {
      "epoch": 2.3758622167002272,
      "grad_norm": 6.210406303405762,
      "learning_rate": 5.3895950376746266e-05,
      "loss": 0.46922807693481444,
      "memory(GiB)": 70.5,
      "step": 55455,
      "token_acc": 0.8959537572254336,
      "train_speed(iter/s)": 1.448782
    },
    {
      "epoch": 2.376076432029476,
      "grad_norm": 2.6158251762390137,
      "learning_rate": 5.388924102901074e-05,
      "loss": 0.3658011436462402,
      "memory(GiB)": 70.5,
      "step": 55460,
      "token_acc": 0.9236111111111112,
      "train_speed(iter/s)": 1.448794
    },
    {
      "epoch": 2.376290647358725,
      "grad_norm": 2.6341423988342285,
      "learning_rate": 5.388253161081795e-05,
      "loss": 0.40719308853149416,
      "memory(GiB)": 70.5,
      "step": 55465,
      "token_acc": 0.9074074074074074,
      "train_speed(iter/s)": 1.448808
    },
    {
      "epoch": 2.376504862687974,
      "grad_norm": 2.434204339981079,
      "learning_rate": 5.387582212228948e-05,
      "loss": 0.21494896411895753,
      "memory(GiB)": 70.5,
      "step": 55470,
      "token_acc": 0.935374149659864,
      "train_speed(iter/s)": 1.448823
    },
    {
      "epoch": 2.376719078017223,
      "grad_norm": 2.0047688484191895,
      "learning_rate": 5.3869112563546844e-05,
      "loss": 0.3292895078659058,
      "memory(GiB)": 70.5,
      "step": 55475,
      "token_acc": 0.9198606271777003,
      "train_speed(iter/s)": 1.448822
    },
    {
      "epoch": 2.3769332933464717,
      "grad_norm": 5.893100261688232,
      "learning_rate": 5.386240293471161e-05,
      "loss": 0.31114678382873534,
      "memory(GiB)": 70.5,
      "step": 55480,
      "token_acc": 0.9244604316546763,
      "train_speed(iter/s)": 1.44883
    },
    {
      "epoch": 2.377147508675721,
      "grad_norm": 2.1546850204467773,
      "learning_rate": 5.385569323590531e-05,
      "loss": 0.3630533695220947,
      "memory(GiB)": 70.5,
      "step": 55485,
      "token_acc": 0.9055374592833876,
      "train_speed(iter/s)": 1.44883
    },
    {
      "epoch": 2.37736172400497,
      "grad_norm": 2.104146957397461,
      "learning_rate": 5.3848983467249516e-05,
      "loss": 0.416066312789917,
      "memory(GiB)": 70.5,
      "step": 55490,
      "token_acc": 0.9159663865546218,
      "train_speed(iter/s)": 1.44884
    },
    {
      "epoch": 2.3775759393342186,
      "grad_norm": 3.73123836517334,
      "learning_rate": 5.384227362886578e-05,
      "loss": 0.21921019554138182,
      "memory(GiB)": 70.5,
      "step": 55495,
      "token_acc": 0.9528619528619529,
      "train_speed(iter/s)": 1.44884
    },
    {
      "epoch": 2.377790154663468,
      "grad_norm": 1.2561765909194946,
      "learning_rate": 5.3835563720875645e-05,
      "loss": 0.26819257736206054,
      "memory(GiB)": 70.5,
      "step": 55500,
      "token_acc": 0.9333333333333333,
      "train_speed(iter/s)": 1.448836
    },
    {
      "epoch": 2.377790154663468,
      "eval_loss": 2.4212427139282227,
      "eval_runtime": 14.1477,
      "eval_samples_per_second": 7.068,
      "eval_steps_per_second": 7.068,
      "eval_token_acc": 0.4216710182767624,
      "step": 55500
    },
    {
      "epoch": 2.3780043699927167,
      "grad_norm": 5.512554168701172,
      "learning_rate": 5.382885374340069e-05,
      "loss": 0.42247943878173827,
      "memory(GiB)": 70.5,
      "step": 55505,
      "token_acc": 0.5560836501901141,
      "train_speed(iter/s)": 1.44826
    },
    {
      "epoch": 2.3782185853219655,
      "grad_norm": 3.647158622741699,
      "learning_rate": 5.382214369656244e-05,
      "loss": 0.6329929828643799,
      "memory(GiB)": 70.5,
      "step": 55510,
      "token_acc": 0.8757396449704142,
      "train_speed(iter/s)": 1.448265
    },
    {
      "epoch": 2.3784328006512148,
      "grad_norm": 4.118147850036621,
      "learning_rate": 5.381543358048249e-05,
      "loss": 0.35364508628845215,
      "memory(GiB)": 70.5,
      "step": 55515,
      "token_acc": 0.9308943089430894,
      "train_speed(iter/s)": 1.448272
    },
    {
      "epoch": 2.3786470159804636,
      "grad_norm": 2.5067920684814453,
      "learning_rate": 5.380872339528237e-05,
      "loss": 0.2194195032119751,
      "memory(GiB)": 70.5,
      "step": 55520,
      "token_acc": 0.9506172839506173,
      "train_speed(iter/s)": 1.448271
    },
    {
      "epoch": 2.3788612313097124,
      "grad_norm": 1.0267360210418701,
      "learning_rate": 5.380201314108365e-05,
      "loss": 0.22396504878997803,
      "memory(GiB)": 70.5,
      "step": 55525,
      "token_acc": 0.9463414634146341,
      "train_speed(iter/s)": 1.44828
    },
    {
      "epoch": 2.3790754466389616,
      "grad_norm": 2.5550026893615723,
      "learning_rate": 5.3795302818007895e-05,
      "loss": 0.4167480945587158,
      "memory(GiB)": 70.5,
      "step": 55530,
      "token_acc": 0.9122807017543859,
      "train_speed(iter/s)": 1.448276
    },
    {
      "epoch": 2.3792896619682105,
      "grad_norm": 5.130678176879883,
      "learning_rate": 5.378859242617668e-05,
      "loss": 0.5844497680664062,
      "memory(GiB)": 70.5,
      "step": 55535,
      "token_acc": 0.8485915492957746,
      "train_speed(iter/s)": 1.448278
    },
    {
      "epoch": 2.3795038772974593,
      "grad_norm": 3.609571695327759,
      "learning_rate": 5.378188196571154e-05,
      "loss": 0.5490140914916992,
      "memory(GiB)": 70.5,
      "step": 55540,
      "token_acc": 0.8937728937728938,
      "train_speed(iter/s)": 1.448275
    },
    {
      "epoch": 2.3797180926267085,
      "grad_norm": 2.935757637023926,
      "learning_rate": 5.3775171436734084e-05,
      "loss": 0.32542009353637696,
      "memory(GiB)": 70.5,
      "step": 55545,
      "token_acc": 0.9372384937238494,
      "train_speed(iter/s)": 1.448278
    },
    {
      "epoch": 2.3799323079559573,
      "grad_norm": 3.4762632846832275,
      "learning_rate": 5.376846083936585e-05,
      "loss": 0.4537391662597656,
      "memory(GiB)": 70.5,
      "step": 55550,
      "token_acc": 0.903114186851211,
      "train_speed(iter/s)": 1.448281
    },
    {
      "epoch": 2.380146523285206,
      "grad_norm": 0.7526494860649109,
      "learning_rate": 5.376175017372841e-05,
      "loss": 0.09843238592147827,
      "memory(GiB)": 70.5,
      "step": 55555,
      "token_acc": 0.9602649006622517,
      "train_speed(iter/s)": 1.448298
    },
    {
      "epoch": 2.3803607386144554,
      "grad_norm": 1.3980340957641602,
      "learning_rate": 5.375503943994333e-05,
      "loss": 0.147769558429718,
      "memory(GiB)": 70.5,
      "step": 55560,
      "token_acc": 0.9657794676806084,
      "train_speed(iter/s)": 1.448299
    },
    {
      "epoch": 2.380574953943704,
      "grad_norm": 2.996971845626831,
      "learning_rate": 5.37483286381322e-05,
      "loss": 0.1717039465904236,
      "memory(GiB)": 70.5,
      "step": 55565,
      "token_acc": 0.9527896995708155,
      "train_speed(iter/s)": 1.448308
    },
    {
      "epoch": 2.380789169272953,
      "grad_norm": 2.8016679286956787,
      "learning_rate": 5.374161776841656e-05,
      "loss": 0.3512481689453125,
      "memory(GiB)": 70.5,
      "step": 55570,
      "token_acc": 0.9310344827586207,
      "train_speed(iter/s)": 1.44831
    },
    {
      "epoch": 2.3810033846022023,
      "grad_norm": 7.469133377075195,
      "learning_rate": 5.373490683091802e-05,
      "loss": 0.35848798751831057,
      "memory(GiB)": 70.5,
      "step": 55575,
      "token_acc": 0.9301587301587302,
      "train_speed(iter/s)": 1.448307
    },
    {
      "epoch": 2.381217599931451,
      "grad_norm": 4.1815876960754395,
      "learning_rate": 5.372819582575814e-05,
      "loss": 0.4287982940673828,
      "memory(GiB)": 70.5,
      "step": 55580,
      "token_acc": 0.9176029962546817,
      "train_speed(iter/s)": 1.448304
    },
    {
      "epoch": 2.3814318152607,
      "grad_norm": 2.185800313949585,
      "learning_rate": 5.372148475305849e-05,
      "loss": 0.30771048069000245,
      "memory(GiB)": 70.5,
      "step": 55585,
      "token_acc": 0.917981072555205,
      "train_speed(iter/s)": 1.448305
    },
    {
      "epoch": 2.381646030589949,
      "grad_norm": 3.0318002700805664,
      "learning_rate": 5.371477361294066e-05,
      "loss": 0.499638032913208,
      "memory(GiB)": 70.5,
      "step": 55590,
      "token_acc": 0.9014084507042254,
      "train_speed(iter/s)": 1.448305
    },
    {
      "epoch": 2.381860245919198,
      "grad_norm": 2.0863378047943115,
      "learning_rate": 5.370806240552623e-05,
      "loss": 0.22649540901184081,
      "memory(GiB)": 70.5,
      "step": 55595,
      "token_acc": 0.9493670886075949,
      "train_speed(iter/s)": 1.448314
    },
    {
      "epoch": 2.382074461248447,
      "grad_norm": 4.749948024749756,
      "learning_rate": 5.370135113093674e-05,
      "loss": 0.4511530876159668,
      "memory(GiB)": 70.5,
      "step": 55600,
      "token_acc": 0.8953488372093024,
      "train_speed(iter/s)": 1.448315
    },
    {
      "epoch": 2.382288676577696,
      "grad_norm": 2.191026210784912,
      "learning_rate": 5.369463978929382e-05,
      "loss": 0.3373162269592285,
      "memory(GiB)": 70.5,
      "step": 55605,
      "token_acc": 0.919093851132686,
      "train_speed(iter/s)": 1.448325
    },
    {
      "epoch": 2.382502891906945,
      "grad_norm": 4.848132610321045,
      "learning_rate": 5.3687928380719044e-05,
      "loss": 0.47725396156311034,
      "memory(GiB)": 70.5,
      "step": 55610,
      "token_acc": 0.9036544850498339,
      "train_speed(iter/s)": 1.448329
    },
    {
      "epoch": 2.3827171072361937,
      "grad_norm": 3.0771231651306152,
      "learning_rate": 5.368121690533396e-05,
      "loss": 0.30999300479888914,
      "memory(GiB)": 70.5,
      "step": 55615,
      "token_acc": 0.9378698224852071,
      "train_speed(iter/s)": 1.448334
    },
    {
      "epoch": 2.382931322565443,
      "grad_norm": 1.9778262376785278,
      "learning_rate": 5.3674505363260206e-05,
      "loss": 0.3222850561141968,
      "memory(GiB)": 70.5,
      "step": 55620,
      "token_acc": 0.9311740890688259,
      "train_speed(iter/s)": 1.448342
    },
    {
      "epoch": 2.3831455378946917,
      "grad_norm": 4.06095552444458,
      "learning_rate": 5.366779375461933e-05,
      "loss": 0.2530482769012451,
      "memory(GiB)": 70.5,
      "step": 55625,
      "token_acc": 0.9477124183006536,
      "train_speed(iter/s)": 1.448343
    },
    {
      "epoch": 2.3833597532239406,
      "grad_norm": 5.949102878570557,
      "learning_rate": 5.366108207953293e-05,
      "loss": 0.4944140911102295,
      "memory(GiB)": 70.5,
      "step": 55630,
      "token_acc": 0.8966666666666666,
      "train_speed(iter/s)": 1.448361
    },
    {
      "epoch": 2.38357396855319,
      "grad_norm": 7.1750359535217285,
      "learning_rate": 5.365437033812259e-05,
      "loss": 0.588493824005127,
      "memory(GiB)": 70.5,
      "step": 55635,
      "token_acc": 0.8907849829351536,
      "train_speed(iter/s)": 1.448367
    },
    {
      "epoch": 2.3837881838824386,
      "grad_norm": 3.303053617477417,
      "learning_rate": 5.3647658530509904e-05,
      "loss": 0.2984930515289307,
      "memory(GiB)": 70.5,
      "step": 55640,
      "token_acc": 0.932475884244373,
      "train_speed(iter/s)": 1.448372
    },
    {
      "epoch": 2.3840023992116874,
      "grad_norm": 3.807006597518921,
      "learning_rate": 5.364094665681646e-05,
      "loss": 0.3487492561340332,
      "memory(GiB)": 70.5,
      "step": 55645,
      "token_acc": 0.8991097922848664,
      "train_speed(iter/s)": 1.448376
    },
    {
      "epoch": 2.3842166145409367,
      "grad_norm": 2.844930410385132,
      "learning_rate": 5.363423471716386e-05,
      "loss": 0.4701141357421875,
      "memory(GiB)": 70.5,
      "step": 55650,
      "token_acc": 0.9035714285714286,
      "train_speed(iter/s)": 1.448392
    },
    {
      "epoch": 2.3844308298701855,
      "grad_norm": 0.42850908637046814,
      "learning_rate": 5.3627522711673675e-05,
      "loss": 0.367397141456604,
      "memory(GiB)": 70.5,
      "step": 55655,
      "token_acc": 0.9298892988929889,
      "train_speed(iter/s)": 1.44841
    },
    {
      "epoch": 2.3846450451994343,
      "grad_norm": 1.5564286708831787,
      "learning_rate": 5.362081064046753e-05,
      "loss": 0.4079939365386963,
      "memory(GiB)": 70.5,
      "step": 55660,
      "token_acc": 0.9034267912772586,
      "train_speed(iter/s)": 1.448424
    },
    {
      "epoch": 2.3848592605286836,
      "grad_norm": 0.32447004318237305,
      "learning_rate": 5.3614098503667e-05,
      "loss": 0.35881776809692384,
      "memory(GiB)": 70.5,
      "step": 55665,
      "token_acc": 0.929368029739777,
      "train_speed(iter/s)": 1.448427
    },
    {
      "epoch": 2.3850734758579324,
      "grad_norm": 1.2902460098266602,
      "learning_rate": 5.360738630139368e-05,
      "loss": 0.3912456750869751,
      "memory(GiB)": 70.5,
      "step": 55670,
      "token_acc": 0.9155844155844156,
      "train_speed(iter/s)": 1.448429
    },
    {
      "epoch": 2.385287691187181,
      "grad_norm": 5.855057716369629,
      "learning_rate": 5.360067403376916e-05,
      "loss": 0.7395027160644532,
      "memory(GiB)": 70.5,
      "step": 55675,
      "token_acc": 0.853035143769968,
      "train_speed(iter/s)": 1.448437
    },
    {
      "epoch": 2.3855019065164305,
      "grad_norm": 0.28911226987838745,
      "learning_rate": 5.359396170091508e-05,
      "loss": 0.18101595640182494,
      "memory(GiB)": 70.5,
      "step": 55680,
      "token_acc": 0.959731543624161,
      "train_speed(iter/s)": 1.448433
    },
    {
      "epoch": 2.3857161218456793,
      "grad_norm": 4.37897253036499,
      "learning_rate": 5.358724930295299e-05,
      "loss": 0.3475008010864258,
      "memory(GiB)": 70.5,
      "step": 55685,
      "token_acc": 0.9191176470588235,
      "train_speed(iter/s)": 1.448432
    },
    {
      "epoch": 2.385930337174928,
      "grad_norm": 4.733485698699951,
      "learning_rate": 5.3580536840004524e-05,
      "loss": 0.25060176849365234,
      "memory(GiB)": 70.5,
      "step": 55690,
      "token_acc": 0.91796875,
      "train_speed(iter/s)": 1.44845
    },
    {
      "epoch": 2.3861445525041773,
      "grad_norm": 3.310045003890991,
      "learning_rate": 5.3573824312191276e-05,
      "loss": 0.5855710983276368,
      "memory(GiB)": 70.5,
      "step": 55695,
      "token_acc": 0.875,
      "train_speed(iter/s)": 1.448477
    },
    {
      "epoch": 2.386358767833426,
      "grad_norm": 2.732161283493042,
      "learning_rate": 5.356711171963484e-05,
      "loss": 0.2628235101699829,
      "memory(GiB)": 70.5,
      "step": 55700,
      "token_acc": 0.9366515837104072,
      "train_speed(iter/s)": 1.448498
    },
    {
      "epoch": 2.386572983162675,
      "grad_norm": 2.4397850036621094,
      "learning_rate": 5.356039906245684e-05,
      "loss": 0.28980958461761475,
      "memory(GiB)": 70.5,
      "step": 55705,
      "token_acc": 0.9466666666666667,
      "train_speed(iter/s)": 1.448512
    },
    {
      "epoch": 2.3867871984919242,
      "grad_norm": 2.289607524871826,
      "learning_rate": 5.3553686340778875e-05,
      "loss": 0.5321062564849853,
      "memory(GiB)": 70.5,
      "step": 55710,
      "token_acc": 0.8922305764411027,
      "train_speed(iter/s)": 1.448517
    },
    {
      "epoch": 2.387001413821173,
      "grad_norm": 3.5839524269104004,
      "learning_rate": 5.354697355472252e-05,
      "loss": 0.33571295738220214,
      "memory(GiB)": 70.5,
      "step": 55715,
      "token_acc": 0.9209621993127147,
      "train_speed(iter/s)": 1.448516
    },
    {
      "epoch": 2.387215629150422,
      "grad_norm": 3.8604419231414795,
      "learning_rate": 5.354026070440944e-05,
      "loss": 0.5751075744628906,
      "memory(GiB)": 70.5,
      "step": 55720,
      "token_acc": 0.8795180722891566,
      "train_speed(iter/s)": 1.448522
    },
    {
      "epoch": 2.387429844479671,
      "grad_norm": 0.1341785490512848,
      "learning_rate": 5.35335477899612e-05,
      "loss": 0.25174143314361574,
      "memory(GiB)": 70.5,
      "step": 55725,
      "token_acc": 0.9563758389261745,
      "train_speed(iter/s)": 1.448543
    },
    {
      "epoch": 2.38764405980892,
      "grad_norm": 0.5768601298332214,
      "learning_rate": 5.352683481149944e-05,
      "loss": 0.45335373878479,
      "memory(GiB)": 70.5,
      "step": 55730,
      "token_acc": 0.916030534351145,
      "train_speed(iter/s)": 1.448561
    },
    {
      "epoch": 2.3878582751381687,
      "grad_norm": 4.497368335723877,
      "learning_rate": 5.352012176914575e-05,
      "loss": 0.3115269899368286,
      "memory(GiB)": 70.5,
      "step": 55735,
      "token_acc": 0.9188191881918819,
      "train_speed(iter/s)": 1.448561
    },
    {
      "epoch": 2.388072490467418,
      "grad_norm": 1.972151756286621,
      "learning_rate": 5.351340866302176e-05,
      "loss": 0.2950622797012329,
      "memory(GiB)": 70.5,
      "step": 55740,
      "token_acc": 0.9416666666666667,
      "train_speed(iter/s)": 1.448567
    },
    {
      "epoch": 2.388286705796667,
      "grad_norm": 2.273754119873047,
      "learning_rate": 5.350669549324907e-05,
      "loss": 0.5217100620269776,
      "memory(GiB)": 70.5,
      "step": 55745,
      "token_acc": 0.8733766233766234,
      "train_speed(iter/s)": 1.448567
    },
    {
      "epoch": 2.3885009211259156,
      "grad_norm": 3.560554027557373,
      "learning_rate": 5.3499982259949285e-05,
      "loss": 0.49999136924743653,
      "memory(GiB)": 70.5,
      "step": 55750,
      "token_acc": 0.8924050632911392,
      "train_speed(iter/s)": 1.448567
    },
    {
      "epoch": 2.388715136455165,
      "grad_norm": 5.235320568084717,
      "learning_rate": 5.349326896324407e-05,
      "loss": 0.47374372482299804,
      "memory(GiB)": 70.5,
      "step": 55755,
      "token_acc": 0.9021739130434783,
      "train_speed(iter/s)": 1.448567
    },
    {
      "epoch": 2.3889293517844137,
      "grad_norm": 1.4857321977615356,
      "learning_rate": 5.348655560325498e-05,
      "loss": 0.45328426361083984,
      "memory(GiB)": 70.5,
      "step": 55760,
      "token_acc": 0.88,
      "train_speed(iter/s)": 1.448565
    },
    {
      "epoch": 2.3891435671136625,
      "grad_norm": 2.591339111328125,
      "learning_rate": 5.347984218010369e-05,
      "loss": 0.4586019515991211,
      "memory(GiB)": 70.5,
      "step": 55765,
      "token_acc": 0.8877887788778878,
      "train_speed(iter/s)": 1.448559
    },
    {
      "epoch": 2.3893577824429117,
      "grad_norm": 3.4755699634552,
      "learning_rate": 5.347312869391179e-05,
      "loss": 0.5842247486114502,
      "memory(GiB)": 70.5,
      "step": 55770,
      "token_acc": 0.8745874587458746,
      "train_speed(iter/s)": 1.448555
    },
    {
      "epoch": 2.3895719977721606,
      "grad_norm": 0.6314675211906433,
      "learning_rate": 5.3466415144800893e-05,
      "loss": 0.21421704292297364,
      "memory(GiB)": 70.5,
      "step": 55775,
      "token_acc": 0.953125,
      "train_speed(iter/s)": 1.448558
    },
    {
      "epoch": 2.3897862131014094,
      "grad_norm": 1.1862355470657349,
      "learning_rate": 5.345970153289266e-05,
      "loss": 0.14773668050765992,
      "memory(GiB)": 70.5,
      "step": 55780,
      "token_acc": 0.953307392996109,
      "train_speed(iter/s)": 1.448576
    },
    {
      "epoch": 2.3900004284306586,
      "grad_norm": 2.85581111907959,
      "learning_rate": 5.345298785830866e-05,
      "loss": 0.31883835792541504,
      "memory(GiB)": 70.5,
      "step": 55785,
      "token_acc": 0.9205298013245033,
      "train_speed(iter/s)": 1.448597
    },
    {
      "epoch": 2.3902146437599074,
      "grad_norm": 0.869495153427124,
      "learning_rate": 5.344627412117055e-05,
      "loss": 0.15649499893188476,
      "memory(GiB)": 70.5,
      "step": 55790,
      "token_acc": 0.9610894941634242,
      "train_speed(iter/s)": 1.448612
    },
    {
      "epoch": 2.3904288590891563,
      "grad_norm": 6.974704742431641,
      "learning_rate": 5.343956032159996e-05,
      "loss": 0.697969627380371,
      "memory(GiB)": 70.5,
      "step": 55795,
      "token_acc": 0.8407643312101911,
      "train_speed(iter/s)": 1.448612
    },
    {
      "epoch": 2.3906430744184055,
      "grad_norm": 2.0980236530303955,
      "learning_rate": 5.34328464597185e-05,
      "loss": 0.3625503063201904,
      "memory(GiB)": 70.5,
      "step": 55800,
      "token_acc": 0.9137931034482759,
      "train_speed(iter/s)": 1.448627
    },
    {
      "epoch": 2.3908572897476543,
      "grad_norm": 1.3302059173583984,
      "learning_rate": 5.342613253564782e-05,
      "loss": 0.19783610105514526,
      "memory(GiB)": 70.5,
      "step": 55805,
      "token_acc": 0.962059620596206,
      "train_speed(iter/s)": 1.448629
    },
    {
      "epoch": 2.391071505076903,
      "grad_norm": 2.7161865234375,
      "learning_rate": 5.341941854950952e-05,
      "loss": 0.33534190654754636,
      "memory(GiB)": 70.5,
      "step": 55810,
      "token_acc": 0.9225352112676056,
      "train_speed(iter/s)": 1.44863
    },
    {
      "epoch": 2.3912857204061524,
      "grad_norm": 1.1375740766525269,
      "learning_rate": 5.341270450142526e-05,
      "loss": 0.18480079174041747,
      "memory(GiB)": 70.5,
      "step": 55815,
      "token_acc": 0.954225352112676,
      "train_speed(iter/s)": 1.448632
    },
    {
      "epoch": 2.391499935735401,
      "grad_norm": 3.300143003463745,
      "learning_rate": 5.340599039151665e-05,
      "loss": 0.4699354648590088,
      "memory(GiB)": 70.5,
      "step": 55820,
      "token_acc": 0.9016949152542373,
      "train_speed(iter/s)": 1.448625
    },
    {
      "epoch": 2.39171415106465,
      "grad_norm": 0.4782333970069885,
      "learning_rate": 5.339927621990533e-05,
      "loss": 0.40518627166748045,
      "memory(GiB)": 70.5,
      "step": 55825,
      "token_acc": 0.9102990033222591,
      "train_speed(iter/s)": 1.448648
    },
    {
      "epoch": 2.3919283663938993,
      "grad_norm": 2.1271920204162598,
      "learning_rate": 5.3392561986712916e-05,
      "loss": 0.3106904268264771,
      "memory(GiB)": 70.5,
      "step": 55830,
      "token_acc": 0.9304635761589404,
      "train_speed(iter/s)": 1.448668
    },
    {
      "epoch": 2.392142581723148,
      "grad_norm": 4.240818023681641,
      "learning_rate": 5.3385847692061075e-05,
      "loss": 0.3385958671569824,
      "memory(GiB)": 70.5,
      "step": 55835,
      "token_acc": 0.924812030075188,
      "train_speed(iter/s)": 1.44867
    },
    {
      "epoch": 2.392356797052397,
      "grad_norm": 5.698493957519531,
      "learning_rate": 5.337913333607143e-05,
      "loss": 0.3661458969116211,
      "memory(GiB)": 70.5,
      "step": 55840,
      "token_acc": 0.9166666666666666,
      "train_speed(iter/s)": 1.448677
    },
    {
      "epoch": 2.392571012381646,
      "grad_norm": 5.813741683959961,
      "learning_rate": 5.337241891886561e-05,
      "loss": 0.3804053544998169,
      "memory(GiB)": 70.5,
      "step": 55845,
      "token_acc": 0.918918918918919,
      "train_speed(iter/s)": 1.448693
    },
    {
      "epoch": 2.392785227710895,
      "grad_norm": 4.1236114501953125,
      "learning_rate": 5.3365704440565255e-05,
      "loss": 0.4583852767944336,
      "memory(GiB)": 70.5,
      "step": 55850,
      "token_acc": 0.8783783783783784,
      "train_speed(iter/s)": 1.448704
    },
    {
      "epoch": 2.392999443040144,
      "grad_norm": 5.113155364990234,
      "learning_rate": 5.335898990129202e-05,
      "loss": 0.37427258491516113,
      "memory(GiB)": 70.5,
      "step": 55855,
      "token_acc": 0.9176954732510288,
      "train_speed(iter/s)": 1.44871
    },
    {
      "epoch": 2.393213658369393,
      "grad_norm": 10.983378410339355,
      "learning_rate": 5.335227530116751e-05,
      "loss": 0.2851008653640747,
      "memory(GiB)": 70.5,
      "step": 55860,
      "token_acc": 0.9397590361445783,
      "train_speed(iter/s)": 1.448706
    },
    {
      "epoch": 2.393427873698642,
      "grad_norm": 5.31074333190918,
      "learning_rate": 5.3345560640313395e-05,
      "loss": 0.701351547241211,
      "memory(GiB)": 70.5,
      "step": 55865,
      "token_acc": 0.8863636363636364,
      "train_speed(iter/s)": 1.448721
    },
    {
      "epoch": 2.3936420890278907,
      "grad_norm": 1.6551504135131836,
      "learning_rate": 5.333884591885132e-05,
      "loss": 0.35407583713531493,
      "memory(GiB)": 70.5,
      "step": 55870,
      "token_acc": 0.9221183800623053,
      "train_speed(iter/s)": 1.448736
    },
    {
      "epoch": 2.39385630435714,
      "grad_norm": 3.0028772354125977,
      "learning_rate": 5.333213113690291e-05,
      "loss": 0.45178637504577634,
      "memory(GiB)": 70.5,
      "step": 55875,
      "token_acc": 0.9108910891089109,
      "train_speed(iter/s)": 1.448734
    },
    {
      "epoch": 2.3940705196863887,
      "grad_norm": 2.3111965656280518,
      "learning_rate": 5.3325416294589826e-05,
      "loss": 0.5815481185913086,
      "memory(GiB)": 70.5,
      "step": 55880,
      "token_acc": 0.8756476683937824,
      "train_speed(iter/s)": 1.448735
    },
    {
      "epoch": 2.3942847350156375,
      "grad_norm": 3.1413955688476562,
      "learning_rate": 5.331870139203371e-05,
      "loss": 0.43957977294921874,
      "memory(GiB)": 70.5,
      "step": 55885,
      "token_acc": 0.901060070671378,
      "train_speed(iter/s)": 1.448739
    },
    {
      "epoch": 2.394498950344887,
      "grad_norm": 2.6638739109039307,
      "learning_rate": 5.33119864293562e-05,
      "loss": 0.5322871685028077,
      "memory(GiB)": 70.5,
      "step": 55890,
      "token_acc": 0.8673740053050398,
      "train_speed(iter/s)": 1.44874
    },
    {
      "epoch": 2.3947131656741356,
      "grad_norm": 2.4004907608032227,
      "learning_rate": 5.3305271406678936e-05,
      "loss": 0.45093183517456054,
      "memory(GiB)": 70.5,
      "step": 55895,
      "token_acc": 0.8938906752411575,
      "train_speed(iter/s)": 1.448745
    },
    {
      "epoch": 2.3949273810033844,
      "grad_norm": 3.8414435386657715,
      "learning_rate": 5.329855632412359e-05,
      "loss": 0.5760745525360107,
      "memory(GiB)": 70.5,
      "step": 55900,
      "token_acc": 0.879746835443038,
      "train_speed(iter/s)": 1.448742
    },
    {
      "epoch": 2.3951415963326337,
      "grad_norm": 3.9126875400543213,
      "learning_rate": 5.329184118181181e-05,
      "loss": 0.5775054931640625,
      "memory(GiB)": 70.5,
      "step": 55905,
      "token_acc": 0.8790849673202614,
      "train_speed(iter/s)": 1.448747
    },
    {
      "epoch": 2.3953558116618825,
      "grad_norm": 2.8137943744659424,
      "learning_rate": 5.3285125979865234e-05,
      "loss": 0.5522202491760254,
      "memory(GiB)": 70.5,
      "step": 55910,
      "token_acc": 0.884,
      "train_speed(iter/s)": 1.448755
    },
    {
      "epoch": 2.3955700269911313,
      "grad_norm": 3.324411630630493,
      "learning_rate": 5.3278410718405514e-05,
      "loss": 0.36068997383117674,
      "memory(GiB)": 70.5,
      "step": 55915,
      "token_acc": 0.9227941176470589,
      "train_speed(iter/s)": 1.448758
    },
    {
      "epoch": 2.3957842423203806,
      "grad_norm": 4.997622013092041,
      "learning_rate": 5.327169539755431e-05,
      "loss": 0.35125293731689455,
      "memory(GiB)": 70.5,
      "step": 55920,
      "token_acc": 0.928082191780822,
      "train_speed(iter/s)": 1.448756
    },
    {
      "epoch": 2.3959984576496294,
      "grad_norm": 3.777920722961426,
      "learning_rate": 5.3264980017433284e-05,
      "loss": 0.3812370777130127,
      "memory(GiB)": 70.5,
      "step": 55925,
      "token_acc": 0.9040590405904059,
      "train_speed(iter/s)": 1.448764
    },
    {
      "epoch": 2.396212672978878,
      "grad_norm": 5.856020927429199,
      "learning_rate": 5.325826457816406e-05,
      "loss": 0.20560939311981202,
      "memory(GiB)": 70.5,
      "step": 55930,
      "token_acc": 0.9466666666666667,
      "train_speed(iter/s)": 1.448771
    },
    {
      "epoch": 2.3964268883081274,
      "grad_norm": 3.5261306762695312,
      "learning_rate": 5.325154907986833e-05,
      "loss": 0.20937891006469728,
      "memory(GiB)": 70.5,
      "step": 55935,
      "token_acc": 0.9523809523809523,
      "train_speed(iter/s)": 1.448785
    },
    {
      "epoch": 2.3966411036373763,
      "grad_norm": 5.476274490356445,
      "learning_rate": 5.324483352266775e-05,
      "loss": 0.41582584381103516,
      "memory(GiB)": 70.5,
      "step": 55940,
      "token_acc": 0.9311740890688259,
      "train_speed(iter/s)": 1.448792
    },
    {
      "epoch": 2.396855318966625,
      "grad_norm": 2.771097183227539,
      "learning_rate": 5.323811790668395e-05,
      "loss": 0.32744393348693845,
      "memory(GiB)": 70.5,
      "step": 55945,
      "token_acc": 0.917910447761194,
      "train_speed(iter/s)": 1.448804
    },
    {
      "epoch": 2.3970695342958743,
      "grad_norm": 4.485565662384033,
      "learning_rate": 5.323140223203862e-05,
      "loss": 0.3510725498199463,
      "memory(GiB)": 70.5,
      "step": 55950,
      "token_acc": 0.9246575342465754,
      "train_speed(iter/s)": 1.44882
    },
    {
      "epoch": 2.397283749625123,
      "grad_norm": 3.3701000213623047,
      "learning_rate": 5.322468649885341e-05,
      "loss": 0.3755953311920166,
      "memory(GiB)": 70.5,
      "step": 55955,
      "token_acc": 0.9292929292929293,
      "train_speed(iter/s)": 1.448819
    },
    {
      "epoch": 2.397497964954372,
      "grad_norm": 5.458912372589111,
      "learning_rate": 5.3217970707249955e-05,
      "loss": 0.4480452060699463,
      "memory(GiB)": 70.5,
      "step": 55960,
      "token_acc": 0.9111969111969112,
      "train_speed(iter/s)": 1.44882
    },
    {
      "epoch": 2.397712180283621,
      "grad_norm": 4.1462249755859375,
      "learning_rate": 5.3211254857349955e-05,
      "loss": 0.5099764347076416,
      "memory(GiB)": 70.5,
      "step": 55965,
      "token_acc": 0.8888888888888888,
      "train_speed(iter/s)": 1.44882
    },
    {
      "epoch": 2.39792639561287,
      "grad_norm": 3.484219789505005,
      "learning_rate": 5.320453894927506e-05,
      "loss": 0.46641716957092283,
      "memory(GiB)": 70.5,
      "step": 55970,
      "token_acc": 0.8918918918918919,
      "train_speed(iter/s)": 1.448819
    },
    {
      "epoch": 2.398140610942119,
      "grad_norm": 1.9813456535339355,
      "learning_rate": 5.319782298314694e-05,
      "loss": 0.2504000663757324,
      "memory(GiB)": 70.5,
      "step": 55975,
      "token_acc": 0.9310344827586207,
      "train_speed(iter/s)": 1.448819
    },
    {
      "epoch": 2.398354826271368,
      "grad_norm": 4.960549354553223,
      "learning_rate": 5.319110695908726e-05,
      "loss": 0.2602841377258301,
      "memory(GiB)": 70.5,
      "step": 55980,
      "token_acc": 0.9506578947368421,
      "train_speed(iter/s)": 1.448825
    },
    {
      "epoch": 2.398569041600617,
      "grad_norm": 5.302353858947754,
      "learning_rate": 5.318439087721768e-05,
      "loss": 0.2430504322052002,
      "memory(GiB)": 70.5,
      "step": 55985,
      "token_acc": 0.9519230769230769,
      "train_speed(iter/s)": 1.448835
    },
    {
      "epoch": 2.3987832569298657,
      "grad_norm": 2.214878797531128,
      "learning_rate": 5.3177674737659865e-05,
      "loss": 0.21371288299560548,
      "memory(GiB)": 70.5,
      "step": 55990,
      "token_acc": 0.9511400651465798,
      "train_speed(iter/s)": 1.448839
    },
    {
      "epoch": 2.398997472259115,
      "grad_norm": 5.35909366607666,
      "learning_rate": 5.31709585405355e-05,
      "loss": 0.1850544571876526,
      "memory(GiB)": 70.5,
      "step": 55995,
      "token_acc": 0.9656652360515021,
      "train_speed(iter/s)": 1.448842
    },
    {
      "epoch": 2.399211687588364,
      "grad_norm": 2.695124864578247,
      "learning_rate": 5.316424228596625e-05,
      "loss": 0.2646437644958496,
      "memory(GiB)": 70.5,
      "step": 56000,
      "token_acc": 0.9342560553633218,
      "train_speed(iter/s)": 1.448838
    },
    {
      "epoch": 2.399211687588364,
      "eval_loss": 2.4846913814544678,
      "eval_runtime": 13.5839,
      "eval_samples_per_second": 7.362,
      "eval_steps_per_second": 7.362,
      "eval_token_acc": 0.44010767160161507,
      "step": 56000
    },
    {
      "epoch": 2.3994259029176126,
      "grad_norm": 1.9825208187103271,
      "learning_rate": 5.315752597407376e-05,
      "loss": 0.36124730110168457,
      "memory(GiB)": 70.5,
      "step": 56005,
      "token_acc": 0.5681818181818182,
      "train_speed(iter/s)": 1.448294
    },
    {
      "epoch": 2.399640118246862,
      "grad_norm": 3.8767292499542236,
      "learning_rate": 5.315080960497975e-05,
      "loss": 0.2163395881652832,
      "memory(GiB)": 70.5,
      "step": 56010,
      "token_acc": 0.9493670886075949,
      "train_speed(iter/s)": 1.448295
    },
    {
      "epoch": 2.3998543335761107,
      "grad_norm": 2.0202856063842773,
      "learning_rate": 5.3144093178805856e-05,
      "loss": 0.19902645349502562,
      "memory(GiB)": 70.5,
      "step": 56015,
      "token_acc": 0.9549295774647887,
      "train_speed(iter/s)": 1.448296
    },
    {
      "epoch": 2.4000685489053595,
      "grad_norm": 3.1377642154693604,
      "learning_rate": 5.313737669567377e-05,
      "loss": 0.2871319055557251,
      "memory(GiB)": 70.5,
      "step": 56020,
      "token_acc": 0.9314641744548287,
      "train_speed(iter/s)": 1.448301
    },
    {
      "epoch": 2.4002827642346087,
      "grad_norm": 3.6116483211517334,
      "learning_rate": 5.313066015570516e-05,
      "loss": 0.2796665668487549,
      "memory(GiB)": 70.5,
      "step": 56025,
      "token_acc": 0.9318885448916409,
      "train_speed(iter/s)": 1.448296
    },
    {
      "epoch": 2.4004969795638575,
      "grad_norm": 5.88750696182251,
      "learning_rate": 5.312394355902171e-05,
      "loss": 0.3226002216339111,
      "memory(GiB)": 70.5,
      "step": 56030,
      "token_acc": 0.9424778761061947,
      "train_speed(iter/s)": 1.448315
    },
    {
      "epoch": 2.4007111948931064,
      "grad_norm": 5.102730751037598,
      "learning_rate": 5.3117226905745075e-05,
      "loss": 0.3361337661743164,
      "memory(GiB)": 70.5,
      "step": 56035,
      "token_acc": 0.9496402877697842,
      "train_speed(iter/s)": 1.448316
    },
    {
      "epoch": 2.4009254102223556,
      "grad_norm": 5.2283549308776855,
      "learning_rate": 5.311051019599698e-05,
      "loss": 0.3100406646728516,
      "memory(GiB)": 70.5,
      "step": 56040,
      "token_acc": 0.946875,
      "train_speed(iter/s)": 1.448318
    },
    {
      "epoch": 2.4011396255516044,
      "grad_norm": 0.3946548104286194,
      "learning_rate": 5.310379342989904e-05,
      "loss": 0.15176568031311036,
      "memory(GiB)": 70.5,
      "step": 56045,
      "token_acc": 0.9735849056603774,
      "train_speed(iter/s)": 1.448325
    },
    {
      "epoch": 2.4013538408808532,
      "grad_norm": 5.001772403717041,
      "learning_rate": 5.3097076607572984e-05,
      "loss": 0.41063451766967773,
      "memory(GiB)": 70.5,
      "step": 56050,
      "token_acc": 0.911042944785276,
      "train_speed(iter/s)": 1.448322
    },
    {
      "epoch": 2.4015680562101025,
      "grad_norm": 1.2193005084991455,
      "learning_rate": 5.309035972914049e-05,
      "loss": 0.26503193378448486,
      "memory(GiB)": 70.5,
      "step": 56055,
      "token_acc": 0.9363636363636364,
      "train_speed(iter/s)": 1.448336
    },
    {
      "epoch": 2.4017822715393513,
      "grad_norm": 2.221234083175659,
      "learning_rate": 5.308364279472322e-05,
      "loss": 0.6642908096313477,
      "memory(GiB)": 70.5,
      "step": 56060,
      "token_acc": 0.8763636363636363,
      "train_speed(iter/s)": 1.448334
    },
    {
      "epoch": 2.4019964868686,
      "grad_norm": 3.0077977180480957,
      "learning_rate": 5.3076925804442865e-05,
      "loss": 0.5386641502380372,
      "memory(GiB)": 70.5,
      "step": 56065,
      "token_acc": 0.8937007874015748,
      "train_speed(iter/s)": 1.448353
    },
    {
      "epoch": 2.4022107021978494,
      "grad_norm": 2.921441078186035,
      "learning_rate": 5.307020875842114e-05,
      "loss": 0.21866602897644044,
      "memory(GiB)": 70.5,
      "step": 56070,
      "token_acc": 0.9448275862068966,
      "train_speed(iter/s)": 1.448361
    },
    {
      "epoch": 2.402424917527098,
      "grad_norm": 3.4690520763397217,
      "learning_rate": 5.306349165677967e-05,
      "loss": 0.35247230529785156,
      "memory(GiB)": 70.5,
      "step": 56075,
      "token_acc": 0.9420731707317073,
      "train_speed(iter/s)": 1.448366
    },
    {
      "epoch": 2.402639132856347,
      "grad_norm": 2.436572790145874,
      "learning_rate": 5.3056774499640184e-05,
      "loss": 0.25343847274780273,
      "memory(GiB)": 70.5,
      "step": 56080,
      "token_acc": 0.9410029498525073,
      "train_speed(iter/s)": 1.448365
    },
    {
      "epoch": 2.4028533481855963,
      "grad_norm": 1.5096888542175293,
      "learning_rate": 5.305005728712437e-05,
      "loss": 0.4352680206298828,
      "memory(GiB)": 70.5,
      "step": 56085,
      "token_acc": 0.9191919191919192,
      "train_speed(iter/s)": 1.448369
    },
    {
      "epoch": 2.403067563514845,
      "grad_norm": 3.2785604000091553,
      "learning_rate": 5.304334001935389e-05,
      "loss": 0.2611887216567993,
      "memory(GiB)": 70.5,
      "step": 56090,
      "token_acc": 0.9444444444444444,
      "train_speed(iter/s)": 1.44837
    },
    {
      "epoch": 2.403281778844094,
      "grad_norm": 9.06693172454834,
      "learning_rate": 5.3036622696450466e-05,
      "loss": 0.4792226791381836,
      "memory(GiB)": 70.5,
      "step": 56095,
      "token_acc": 0.9157088122605364,
      "train_speed(iter/s)": 1.44839
    },
    {
      "epoch": 2.403495994173343,
      "grad_norm": 4.421489715576172,
      "learning_rate": 5.302990531853578e-05,
      "loss": 0.7595810890197754,
      "memory(GiB)": 70.5,
      "step": 56100,
      "token_acc": 0.8547854785478548,
      "train_speed(iter/s)": 1.44839
    },
    {
      "epoch": 2.403710209502592,
      "grad_norm": 0.09554526209831238,
      "learning_rate": 5.302318788573149e-05,
      "loss": 0.5346932411193848,
      "memory(GiB)": 70.5,
      "step": 56105,
      "token_acc": 0.8725868725868726,
      "train_speed(iter/s)": 1.448402
    },
    {
      "epoch": 2.4039244248318408,
      "grad_norm": 4.211864471435547,
      "learning_rate": 5.3016470398159344e-05,
      "loss": 0.478441858291626,
      "memory(GiB)": 70.5,
      "step": 56110,
      "token_acc": 0.9007633587786259,
      "train_speed(iter/s)": 1.448398
    },
    {
      "epoch": 2.40413864016109,
      "grad_norm": 4.15187406539917,
      "learning_rate": 5.3009752855941e-05,
      "loss": 0.36103134155273436,
      "memory(GiB)": 70.5,
      "step": 56115,
      "token_acc": 0.9375,
      "train_speed(iter/s)": 1.448407
    },
    {
      "epoch": 2.404352855490339,
      "grad_norm": 2.13680362701416,
      "learning_rate": 5.300303525919813e-05,
      "loss": 0.3550382614135742,
      "memory(GiB)": 70.5,
      "step": 56120,
      "token_acc": 0.9283276450511946,
      "train_speed(iter/s)": 1.448409
    },
    {
      "epoch": 2.4045670708195876,
      "grad_norm": 3.14548397064209,
      "learning_rate": 5.2996317608052494e-05,
      "loss": 0.2856159687042236,
      "memory(GiB)": 70.5,
      "step": 56125,
      "token_acc": 0.932806324110672,
      "train_speed(iter/s)": 1.448406
    },
    {
      "epoch": 2.404781286148837,
      "grad_norm": 0.9530471563339233,
      "learning_rate": 5.298959990262574e-05,
      "loss": 0.37140443325042727,
      "memory(GiB)": 70.5,
      "step": 56130,
      "token_acc": 0.9321428571428572,
      "train_speed(iter/s)": 1.448408
    },
    {
      "epoch": 2.4049955014780857,
      "grad_norm": 4.441066265106201,
      "learning_rate": 5.298288214303958e-05,
      "loss": 0.2979682445526123,
      "memory(GiB)": 70.5,
      "step": 56135,
      "token_acc": 0.9488054607508533,
      "train_speed(iter/s)": 1.44842
    },
    {
      "epoch": 2.4052097168073345,
      "grad_norm": 0.34450763463974,
      "learning_rate": 5.2976164329415725e-05,
      "loss": 0.1878295660018921,
      "memory(GiB)": 70.5,
      "step": 56140,
      "token_acc": 0.9464882943143813,
      "train_speed(iter/s)": 1.448424
    },
    {
      "epoch": 2.405423932136584,
      "grad_norm": 5.372649192810059,
      "learning_rate": 5.296944646187585e-05,
      "loss": 0.7006539344787598,
      "memory(GiB)": 70.5,
      "step": 56145,
      "token_acc": 0.8344827586206897,
      "train_speed(iter/s)": 1.448438
    },
    {
      "epoch": 2.4056381474658326,
      "grad_norm": 3.1320276260375977,
      "learning_rate": 5.296272854054166e-05,
      "loss": 0.24150094985961915,
      "memory(GiB)": 70.5,
      "step": 56150,
      "token_acc": 0.9385964912280702,
      "train_speed(iter/s)": 1.448442
    },
    {
      "epoch": 2.4058523627950814,
      "grad_norm": 2.7916314601898193,
      "learning_rate": 5.295601056553486e-05,
      "loss": 0.34076671600341796,
      "memory(GiB)": 70.5,
      "step": 56155,
      "token_acc": 0.9157088122605364,
      "train_speed(iter/s)": 1.448447
    },
    {
      "epoch": 2.4060665781243307,
      "grad_norm": 2.053184986114502,
      "learning_rate": 5.294929253697718e-05,
      "loss": 0.28090245723724366,
      "memory(GiB)": 70.5,
      "step": 56160,
      "token_acc": 0.9428571428571428,
      "train_speed(iter/s)": 1.448451
    },
    {
      "epoch": 2.4062807934535795,
      "grad_norm": 2.3889803886413574,
      "learning_rate": 5.294257445499028e-05,
      "loss": 0.2388866901397705,
      "memory(GiB)": 70.5,
      "step": 56165,
      "token_acc": 0.9454545454545454,
      "train_speed(iter/s)": 1.448467
    },
    {
      "epoch": 2.4064950087828283,
      "grad_norm": 4.341933727264404,
      "learning_rate": 5.29358563196959e-05,
      "loss": 0.31250050067901614,
      "memory(GiB)": 70.5,
      "step": 56170,
      "token_acc": 0.915625,
      "train_speed(iter/s)": 1.448466
    },
    {
      "epoch": 2.4067092241120775,
      "grad_norm": 0.20384594798088074,
      "learning_rate": 5.2929138131215715e-05,
      "loss": 0.2519153356552124,
      "memory(GiB)": 70.5,
      "step": 56175,
      "token_acc": 0.9326599326599326,
      "train_speed(iter/s)": 1.448463
    },
    {
      "epoch": 2.4069234394413264,
      "grad_norm": 4.9610185623168945,
      "learning_rate": 5.292241988967144e-05,
      "loss": 0.37999348640441893,
      "memory(GiB)": 70.5,
      "step": 56180,
      "token_acc": 0.9186046511627907,
      "train_speed(iter/s)": 1.448464
    },
    {
      "epoch": 2.407137654770575,
      "grad_norm": 1.8696271181106567,
      "learning_rate": 5.29157015951848e-05,
      "loss": 0.21249282360076904,
      "memory(GiB)": 70.5,
      "step": 56185,
      "token_acc": 0.9467455621301775,
      "train_speed(iter/s)": 1.448474
    },
    {
      "epoch": 2.4073518700998244,
      "grad_norm": 3.75742244720459,
      "learning_rate": 5.2908983247877475e-05,
      "loss": 0.3464756965637207,
      "memory(GiB)": 70.5,
      "step": 56190,
      "token_acc": 0.920863309352518,
      "train_speed(iter/s)": 1.44848
    },
    {
      "epoch": 2.4075660854290732,
      "grad_norm": 3.571605682373047,
      "learning_rate": 5.2902264847871196e-05,
      "loss": 0.5375184535980224,
      "memory(GiB)": 70.5,
      "step": 56195,
      "token_acc": 0.8907563025210085,
      "train_speed(iter/s)": 1.448486
    },
    {
      "epoch": 2.407780300758322,
      "grad_norm": 7.627288341522217,
      "learning_rate": 5.289554639528768e-05,
      "loss": 0.5123649597167969,
      "memory(GiB)": 70.5,
      "step": 56200,
      "token_acc": 0.9057750759878419,
      "train_speed(iter/s)": 1.448487
    },
    {
      "epoch": 2.4079945160875713,
      "grad_norm": 2.9474592208862305,
      "learning_rate": 5.2888827890248604e-05,
      "loss": 0.2936037540435791,
      "memory(GiB)": 70.5,
      "step": 56205,
      "token_acc": 0.9413919413919414,
      "train_speed(iter/s)": 1.448489
    },
    {
      "epoch": 2.40820873141682,
      "grad_norm": 4.59821081161499,
      "learning_rate": 5.288210933287572e-05,
      "loss": 0.5991519451141357,
      "memory(GiB)": 70.5,
      "step": 56210,
      "token_acc": 0.8765822784810127,
      "train_speed(iter/s)": 1.448503
    },
    {
      "epoch": 2.408422946746069,
      "grad_norm": 2.6456167697906494,
      "learning_rate": 5.287539072329072e-05,
      "loss": 0.361010217666626,
      "memory(GiB)": 70.5,
      "step": 56215,
      "token_acc": 0.9190031152647975,
      "train_speed(iter/s)": 1.448514
    },
    {
      "epoch": 2.408637162075318,
      "grad_norm": 2.1825172901153564,
      "learning_rate": 5.286867206161531e-05,
      "loss": 0.2567943334579468,
      "memory(GiB)": 70.5,
      "step": 56220,
      "token_acc": 0.9399293286219081,
      "train_speed(iter/s)": 1.448522
    },
    {
      "epoch": 2.408851377404567,
      "grad_norm": 0.1122029647231102,
      "learning_rate": 5.286195334797122e-05,
      "loss": 0.3278908967971802,
      "memory(GiB)": 70.5,
      "step": 56225,
      "token_acc": 0.9318181818181818,
      "train_speed(iter/s)": 1.448521
    },
    {
      "epoch": 2.409065592733816,
      "grad_norm": 7.962311744689941,
      "learning_rate": 5.285523458248015e-05,
      "loss": 0.25781261920928955,
      "memory(GiB)": 70.5,
      "step": 56230,
      "token_acc": 0.9539007092198581,
      "train_speed(iter/s)": 1.448538
    },
    {
      "epoch": 2.409279808063065,
      "grad_norm": 1.3966387510299683,
      "learning_rate": 5.284851576526383e-05,
      "loss": 0.37217121124267577,
      "memory(GiB)": 70.5,
      "step": 56235,
      "token_acc": 0.9044368600682594,
      "train_speed(iter/s)": 1.448544
    },
    {
      "epoch": 2.409494023392314,
      "grad_norm": 3.173149824142456,
      "learning_rate": 5.2841796896443986e-05,
      "loss": 0.19784202575683593,
      "memory(GiB)": 70.5,
      "step": 56240,
      "token_acc": 0.9645390070921985,
      "train_speed(iter/s)": 1.448548
    },
    {
      "epoch": 2.4097082387215627,
      "grad_norm": 4.4379191398620605,
      "learning_rate": 5.283507797614232e-05,
      "loss": 0.7588286399841309,
      "memory(GiB)": 70.5,
      "step": 56245,
      "token_acc": 0.8452830188679246,
      "train_speed(iter/s)": 1.448553
    },
    {
      "epoch": 2.409922454050812,
      "grad_norm": 0.17796368896961212,
      "learning_rate": 5.282835900448055e-05,
      "loss": 0.4204233646392822,
      "memory(GiB)": 70.5,
      "step": 56250,
      "token_acc": 0.9057239057239057,
      "train_speed(iter/s)": 1.448554
    },
    {
      "epoch": 2.4101366693800608,
      "grad_norm": 2.2227656841278076,
      "learning_rate": 5.282163998158042e-05,
      "loss": 0.38926622867584226,
      "memory(GiB)": 70.5,
      "step": 56255,
      "token_acc": 0.9003831417624522,
      "train_speed(iter/s)": 1.448566
    },
    {
      "epoch": 2.4103508847093096,
      "grad_norm": 3.9824512004852295,
      "learning_rate": 5.281492090756364e-05,
      "loss": 0.23527615070343016,
      "memory(GiB)": 70.5,
      "step": 56260,
      "token_acc": 0.9511278195488722,
      "train_speed(iter/s)": 1.448573
    },
    {
      "epoch": 2.410565100038559,
      "grad_norm": 2.8920414447784424,
      "learning_rate": 5.280820178255188e-05,
      "loss": 0.6403561592102051,
      "memory(GiB)": 70.5,
      "step": 56265,
      "token_acc": 0.8565891472868217,
      "train_speed(iter/s)": 1.448597
    },
    {
      "epoch": 2.4107793153678077,
      "grad_norm": 3.120342493057251,
      "learning_rate": 5.2801482606666955e-05,
      "loss": 0.2758676052093506,
      "memory(GiB)": 70.5,
      "step": 56270,
      "token_acc": 0.9391634980988594,
      "train_speed(iter/s)": 1.448603
    },
    {
      "epoch": 2.4109935306970565,
      "grad_norm": 4.590897560119629,
      "learning_rate": 5.279476338003053e-05,
      "loss": 0.5466650009155274,
      "memory(GiB)": 70.5,
      "step": 56275,
      "token_acc": 0.8691588785046729,
      "train_speed(iter/s)": 1.448604
    },
    {
      "epoch": 2.4112077460263057,
      "grad_norm": 1.8059934377670288,
      "learning_rate": 5.2788044102764345e-05,
      "loss": 0.29713680744171145,
      "memory(GiB)": 70.5,
      "step": 56280,
      "token_acc": 0.9420849420849421,
      "train_speed(iter/s)": 1.448603
    },
    {
      "epoch": 2.4114219613555545,
      "grad_norm": 0.12223837524652481,
      "learning_rate": 5.278132477499014e-05,
      "loss": 0.43532423973083495,
      "memory(GiB)": 70.5,
      "step": 56285,
      "token_acc": 0.9309090909090909,
      "train_speed(iter/s)": 1.448607
    },
    {
      "epoch": 2.4116361766848033,
      "grad_norm": 3.659809112548828,
      "learning_rate": 5.277460539682961e-05,
      "loss": 0.4632091522216797,
      "memory(GiB)": 70.5,
      "step": 56290,
      "token_acc": 0.9275862068965517,
      "train_speed(iter/s)": 1.448607
    },
    {
      "epoch": 2.4118503920140526,
      "grad_norm": 3.0942158699035645,
      "learning_rate": 5.276788596840451e-05,
      "loss": 0.456990909576416,
      "memory(GiB)": 70.5,
      "step": 56295,
      "token_acc": 0.9164086687306502,
      "train_speed(iter/s)": 1.448608
    },
    {
      "epoch": 2.4120646073433014,
      "grad_norm": 0.8891383409500122,
      "learning_rate": 5.276116648983656e-05,
      "loss": 0.22536242008209229,
      "memory(GiB)": 70.5,
      "step": 56300,
      "token_acc": 0.9540636042402827,
      "train_speed(iter/s)": 1.448612
    },
    {
      "epoch": 2.4122788226725502,
      "grad_norm": 2.8700602054595947,
      "learning_rate": 5.275444696124747e-05,
      "loss": 0.4959463119506836,
      "memory(GiB)": 70.5,
      "step": 56305,
      "token_acc": 0.8972602739726028,
      "train_speed(iter/s)": 1.448606
    },
    {
      "epoch": 2.4124930380017995,
      "grad_norm": 6.808250427246094,
      "learning_rate": 5.2747727382758993e-05,
      "loss": 0.34762349128723147,
      "memory(GiB)": 70.5,
      "step": 56310,
      "token_acc": 0.9148936170212766,
      "train_speed(iter/s)": 1.448603
    },
    {
      "epoch": 2.4127072533310483,
      "grad_norm": 3.783656597137451,
      "learning_rate": 5.274100775449288e-05,
      "loss": 0.2845951557159424,
      "memory(GiB)": 70.5,
      "step": 56315,
      "token_acc": 0.9384615384615385,
      "train_speed(iter/s)": 1.448604
    },
    {
      "epoch": 2.412921468660297,
      "grad_norm": 2.5037524700164795,
      "learning_rate": 5.2734288076570824e-05,
      "loss": 0.3973504066467285,
      "memory(GiB)": 70.5,
      "step": 56320,
      "token_acc": 0.9034749034749034,
      "train_speed(iter/s)": 1.448607
    },
    {
      "epoch": 2.4131356839895464,
      "grad_norm": 4.725710391998291,
      "learning_rate": 5.2727568349114576e-05,
      "loss": 0.5066546440124512,
      "memory(GiB)": 70.5,
      "step": 56325,
      "token_acc": 0.9021406727828746,
      "train_speed(iter/s)": 1.448611
    },
    {
      "epoch": 2.413349899318795,
      "grad_norm": 2.2745556831359863,
      "learning_rate": 5.2720848572245874e-05,
      "loss": 0.4830489635467529,
      "memory(GiB)": 70.5,
      "step": 56330,
      "token_acc": 0.9079754601226994,
      "train_speed(iter/s)": 1.448625
    },
    {
      "epoch": 2.413564114648044,
      "grad_norm": 2.526219129562378,
      "learning_rate": 5.271412874608644e-05,
      "loss": 0.2268143653869629,
      "memory(GiB)": 70.5,
      "step": 56335,
      "token_acc": 0.9541984732824428,
      "train_speed(iter/s)": 1.448616
    },
    {
      "epoch": 2.4137783299772932,
      "grad_norm": 3.7044289112091064,
      "learning_rate": 5.270740887075801e-05,
      "loss": 0.5305689334869385,
      "memory(GiB)": 70.5,
      "step": 56340,
      "token_acc": 0.9203821656050956,
      "train_speed(iter/s)": 1.448619
    },
    {
      "epoch": 2.413992545306542,
      "grad_norm": 1.7681632041931152,
      "learning_rate": 5.2700688946382345e-05,
      "loss": 0.4749757766723633,
      "memory(GiB)": 70.5,
      "step": 56345,
      "token_acc": 0.9328859060402684,
      "train_speed(iter/s)": 1.448629
    },
    {
      "epoch": 2.414206760635791,
      "grad_norm": 3.7864954471588135,
      "learning_rate": 5.269396897308117e-05,
      "loss": 0.3132654905319214,
      "memory(GiB)": 70.5,
      "step": 56350,
      "token_acc": 0.9097744360902256,
      "train_speed(iter/s)": 1.448633
    },
    {
      "epoch": 2.41442097596504,
      "grad_norm": 1.4219261407852173,
      "learning_rate": 5.2687248950976206e-05,
      "loss": 0.3461721420288086,
      "memory(GiB)": 70.5,
      "step": 56355,
      "token_acc": 0.9455128205128205,
      "train_speed(iter/s)": 1.448632
    },
    {
      "epoch": 2.414635191294289,
      "grad_norm": 3.898545026779175,
      "learning_rate": 5.268052888018922e-05,
      "loss": 0.5115819931030273,
      "memory(GiB)": 70.5,
      "step": 56360,
      "token_acc": 0.8987341772151899,
      "train_speed(iter/s)": 1.44865
    },
    {
      "epoch": 2.4148494066235378,
      "grad_norm": 1.1546623706817627,
      "learning_rate": 5.267380876084192e-05,
      "loss": 0.25722646713256836,
      "memory(GiB)": 70.5,
      "step": 56365,
      "token_acc": 0.9572649572649573,
      "train_speed(iter/s)": 1.448657
    },
    {
      "epoch": 2.415063621952787,
      "grad_norm": 1.8056498765945435,
      "learning_rate": 5.266708859305608e-05,
      "loss": 0.27641661167144777,
      "memory(GiB)": 70.5,
      "step": 56370,
      "token_acc": 0.9366666666666666,
      "train_speed(iter/s)": 1.448659
    },
    {
      "epoch": 2.415277837282036,
      "grad_norm": 4.183955669403076,
      "learning_rate": 5.266036837695344e-05,
      "loss": 0.35744481086730956,
      "memory(GiB)": 70.5,
      "step": 56375,
      "token_acc": 0.929368029739777,
      "train_speed(iter/s)": 1.448662
    },
    {
      "epoch": 2.4154920526112846,
      "grad_norm": 5.848021507263184,
      "learning_rate": 5.26536481126557e-05,
      "loss": 0.6974071502685547,
      "memory(GiB)": 70.5,
      "step": 56380,
      "token_acc": 0.8594771241830066,
      "train_speed(iter/s)": 1.44866
    },
    {
      "epoch": 2.415706267940534,
      "grad_norm": 1.9702016115188599,
      "learning_rate": 5.264692780028465e-05,
      "loss": 0.24514265060424806,
      "memory(GiB)": 70.5,
      "step": 56385,
      "token_acc": 0.950381679389313,
      "train_speed(iter/s)": 1.448664
    },
    {
      "epoch": 2.4159204832697827,
      "grad_norm": 2.199561834335327,
      "learning_rate": 5.264020743996203e-05,
      "loss": 0.5099337577819825,
      "memory(GiB)": 70.5,
      "step": 56390,
      "token_acc": 0.9084507042253521,
      "train_speed(iter/s)": 1.448656
    },
    {
      "epoch": 2.4161346985990315,
      "grad_norm": 3.2395362854003906,
      "learning_rate": 5.263348703180956e-05,
      "loss": 0.34684481620788576,
      "memory(GiB)": 70.5,
      "step": 56395,
      "token_acc": 0.9319727891156463,
      "train_speed(iter/s)": 1.448658
    },
    {
      "epoch": 2.4163489139282808,
      "grad_norm": 3.472533702850342,
      "learning_rate": 5.262676657594901e-05,
      "loss": 0.44282803535461424,
      "memory(GiB)": 70.5,
      "step": 56400,
      "token_acc": 0.9097222222222222,
      "train_speed(iter/s)": 1.448661
    },
    {
      "epoch": 2.4165631292575296,
      "grad_norm": 10.274219512939453,
      "learning_rate": 5.2620046072502124e-05,
      "loss": 0.388257098197937,
      "memory(GiB)": 70.5,
      "step": 56405,
      "token_acc": 0.9108527131782945,
      "train_speed(iter/s)": 1.448673
    },
    {
      "epoch": 2.4167773445867784,
      "grad_norm": 3.2739832401275635,
      "learning_rate": 5.2613325521590626e-05,
      "loss": 0.4377938747406006,
      "memory(GiB)": 70.5,
      "step": 56410,
      "token_acc": 0.8780487804878049,
      "train_speed(iter/s)": 1.448678
    },
    {
      "epoch": 2.4169915599160277,
      "grad_norm": 3.1359803676605225,
      "learning_rate": 5.26066049233363e-05,
      "loss": 0.39580204486846926,
      "memory(GiB)": 70.5,
      "step": 56415,
      "token_acc": 0.9195402298850575,
      "train_speed(iter/s)": 1.448678
    },
    {
      "epoch": 2.4172057752452765,
      "grad_norm": 5.284639835357666,
      "learning_rate": 5.259988427786088e-05,
      "loss": 0.26945109367370607,
      "memory(GiB)": 70.5,
      "step": 56420,
      "token_acc": 0.9528619528619529,
      "train_speed(iter/s)": 1.448681
    },
    {
      "epoch": 2.4174199905745253,
      "grad_norm": 4.51198673248291,
      "learning_rate": 5.259316358528611e-05,
      "loss": 0.6620871543884277,
      "memory(GiB)": 70.5,
      "step": 56425,
      "token_acc": 0.8783783783783784,
      "train_speed(iter/s)": 1.448695
    },
    {
      "epoch": 2.4176342059037745,
      "grad_norm": 0.3490581810474396,
      "learning_rate": 5.2586442845733765e-05,
      "loss": 0.4030364990234375,
      "memory(GiB)": 70.5,
      "step": 56430,
      "token_acc": 0.921311475409836,
      "train_speed(iter/s)": 1.448695
    },
    {
      "epoch": 2.4178484212330233,
      "grad_norm": 3.934793472290039,
      "learning_rate": 5.257972205932558e-05,
      "loss": 0.354177188873291,
      "memory(GiB)": 70.5,
      "step": 56435,
      "token_acc": 0.9354838709677419,
      "train_speed(iter/s)": 1.448698
    },
    {
      "epoch": 2.418062636562272,
      "grad_norm": 4.408319473266602,
      "learning_rate": 5.257300122618329e-05,
      "loss": 0.3419528007507324,
      "memory(GiB)": 70.5,
      "step": 56440,
      "token_acc": 0.9402985074626866,
      "train_speed(iter/s)": 1.448712
    },
    {
      "epoch": 2.4182768518915214,
      "grad_norm": 1.876868486404419,
      "learning_rate": 5.2566280346428687e-05,
      "loss": 0.2849609851837158,
      "memory(GiB)": 70.5,
      "step": 56445,
      "token_acc": 0.9251497005988024,
      "train_speed(iter/s)": 1.44871
    },
    {
      "epoch": 2.4184910672207702,
      "grad_norm": 2.8259975910186768,
      "learning_rate": 5.25595594201835e-05,
      "loss": 0.2023371934890747,
      "memory(GiB)": 70.5,
      "step": 56450,
      "token_acc": 0.9590443686006825,
      "train_speed(iter/s)": 1.448713
    },
    {
      "epoch": 2.418705282550019,
      "grad_norm": 3.452652931213379,
      "learning_rate": 5.2552838447569485e-05,
      "loss": 0.37628746032714844,
      "memory(GiB)": 70.5,
      "step": 56455,
      "token_acc": 0.9201277955271565,
      "train_speed(iter/s)": 1.448724
    },
    {
      "epoch": 2.4189194978792683,
      "grad_norm": 3.1604247093200684,
      "learning_rate": 5.254611742870842e-05,
      "loss": 0.39287748336791994,
      "memory(GiB)": 70.5,
      "step": 56460,
      "token_acc": 0.9154518950437318,
      "train_speed(iter/s)": 1.448737
    },
    {
      "epoch": 2.419133713208517,
      "grad_norm": 4.7367119789123535,
      "learning_rate": 5.253939636372206e-05,
      "loss": 0.6469476699829102,
      "memory(GiB)": 70.5,
      "step": 56465,
      "token_acc": 0.903448275862069,
      "train_speed(iter/s)": 1.448766
    },
    {
      "epoch": 2.419347928537766,
      "grad_norm": 2.2128183841705322,
      "learning_rate": 5.253267525273213e-05,
      "loss": 0.3725393295288086,
      "memory(GiB)": 70.5,
      "step": 56470,
      "token_acc": 0.9191919191919192,
      "train_speed(iter/s)": 1.448761
    },
    {
      "epoch": 2.419562143867015,
      "grad_norm": 1.5742478370666504,
      "learning_rate": 5.252595409586042e-05,
      "loss": 0.352056622505188,
      "memory(GiB)": 70.5,
      "step": 56475,
      "token_acc": 0.9174603174603174,
      "train_speed(iter/s)": 1.448768
    },
    {
      "epoch": 2.419776359196264,
      "grad_norm": 4.352084159851074,
      "learning_rate": 5.251923289322868e-05,
      "loss": 0.3967432975769043,
      "memory(GiB)": 70.5,
      "step": 56480,
      "token_acc": 0.92,
      "train_speed(iter/s)": 1.448768
    },
    {
      "epoch": 2.419990574525513,
      "grad_norm": 3.279132843017578,
      "learning_rate": 5.251251164495868e-05,
      "loss": 0.4569528579711914,
      "memory(GiB)": 70.5,
      "step": 56485,
      "token_acc": 0.9102564102564102,
      "train_speed(iter/s)": 1.448769
    },
    {
      "epoch": 2.420204789854762,
      "grad_norm": 6.558166027069092,
      "learning_rate": 5.250579035117217e-05,
      "loss": 0.48492913246154784,
      "memory(GiB)": 70.5,
      "step": 56490,
      "token_acc": 0.927007299270073,
      "train_speed(iter/s)": 1.448766
    },
    {
      "epoch": 2.420419005184011,
      "grad_norm": 3.9468138217926025,
      "learning_rate": 5.249906901199091e-05,
      "loss": 0.35587201118469236,
      "memory(GiB)": 70.5,
      "step": 56495,
      "token_acc": 0.9178571428571428,
      "train_speed(iter/s)": 1.448765
    },
    {
      "epoch": 2.4206332205132597,
      "grad_norm": 5.696479797363281,
      "learning_rate": 5.2492347627536686e-05,
      "loss": 0.9570916175842286,
      "memory(GiB)": 70.5,
      "step": 56500,
      "token_acc": 0.8149606299212598,
      "train_speed(iter/s)": 1.448769
    },
    {
      "epoch": 2.4206332205132597,
      "eval_loss": 2.4762532711029053,
      "eval_runtime": 13.4545,
      "eval_samples_per_second": 7.432,
      "eval_steps_per_second": 7.432,
      "eval_token_acc": 0.4435483870967742,
      "step": 56500
    },
    {
      "epoch": 2.420847435842509,
      "grad_norm": 7.150343418121338,
      "learning_rate": 5.248562619793124e-05,
      "loss": 0.595881175994873,
      "memory(GiB)": 70.5,
      "step": 56505,
      "token_acc": 0.5636540330417882,
      "train_speed(iter/s)": 1.448217
    },
    {
      "epoch": 2.4210616511717578,
      "grad_norm": 0.2951226830482483,
      "learning_rate": 5.247890472329634e-05,
      "loss": 0.3445908546447754,
      "memory(GiB)": 70.5,
      "step": 56510,
      "token_acc": 0.9255663430420712,
      "train_speed(iter/s)": 1.448223
    },
    {
      "epoch": 2.4212758665010066,
      "grad_norm": 2.2398247718811035,
      "learning_rate": 5.247218320375376e-05,
      "loss": 0.3862424612045288,
      "memory(GiB)": 70.5,
      "step": 56515,
      "token_acc": 0.9115384615384615,
      "train_speed(iter/s)": 1.448233
    },
    {
      "epoch": 2.421490081830256,
      "grad_norm": 3.302734136581421,
      "learning_rate": 5.246546163942526e-05,
      "loss": 0.28869736194610596,
      "memory(GiB)": 70.5,
      "step": 56520,
      "token_acc": 0.9525691699604744,
      "train_speed(iter/s)": 1.448227
    },
    {
      "epoch": 2.4217042971595046,
      "grad_norm": 1.9991284608840942,
      "learning_rate": 5.2458740030432595e-05,
      "loss": 0.23830883502960204,
      "memory(GiB)": 70.5,
      "step": 56525,
      "token_acc": 0.9365079365079365,
      "train_speed(iter/s)": 1.448229
    },
    {
      "epoch": 2.4219185124887534,
      "grad_norm": 1.3386024236679077,
      "learning_rate": 5.245201837689757e-05,
      "loss": 0.4394369602203369,
      "memory(GiB)": 70.5,
      "step": 56530,
      "token_acc": 0.9032258064516129,
      "train_speed(iter/s)": 1.448238
    },
    {
      "epoch": 2.4221327278180027,
      "grad_norm": 3.347008466720581,
      "learning_rate": 5.2445296678941935e-05,
      "loss": 0.17995870113372803,
      "memory(GiB)": 70.5,
      "step": 56535,
      "token_acc": 0.9651162790697675,
      "train_speed(iter/s)": 1.448244
    },
    {
      "epoch": 2.4223469431472515,
      "grad_norm": 2.0907716751098633,
      "learning_rate": 5.243857493668743e-05,
      "loss": 0.1879183053970337,
      "memory(GiB)": 70.5,
      "step": 56540,
      "token_acc": 0.9522388059701492,
      "train_speed(iter/s)": 1.448243
    },
    {
      "epoch": 2.4225611584765003,
      "grad_norm": 2.9270269870758057,
      "learning_rate": 5.2431853150255886e-05,
      "loss": 0.36714587211608884,
      "memory(GiB)": 70.5,
      "step": 56545,
      "token_acc": 0.9250936329588015,
      "train_speed(iter/s)": 1.448253
    },
    {
      "epoch": 2.4227753738057496,
      "grad_norm": 5.220797538757324,
      "learning_rate": 5.2425131319769024e-05,
      "loss": 0.7798663139343261,
      "memory(GiB)": 70.5,
      "step": 56550,
      "token_acc": 0.8051470588235294,
      "train_speed(iter/s)": 1.448269
    },
    {
      "epoch": 2.4229895891349984,
      "grad_norm": 1.8095414638519287,
      "learning_rate": 5.241840944534862e-05,
      "loss": 0.4704314708709717,
      "memory(GiB)": 70.5,
      "step": 56555,
      "token_acc": 0.8868501529051988,
      "train_speed(iter/s)": 1.448283
    },
    {
      "epoch": 2.423203804464247,
      "grad_norm": 3.4328105449676514,
      "learning_rate": 5.241168752711648e-05,
      "loss": 0.4425013065338135,
      "memory(GiB)": 70.5,
      "step": 56560,
      "token_acc": 0.896,
      "train_speed(iter/s)": 1.448286
    },
    {
      "epoch": 2.4234180197934965,
      "grad_norm": 4.415077209472656,
      "learning_rate": 5.240496556519435e-05,
      "loss": 0.49169297218322755,
      "memory(GiB)": 70.5,
      "step": 56565,
      "token_acc": 0.8895522388059701,
      "train_speed(iter/s)": 1.448294
    },
    {
      "epoch": 2.4236322351227453,
      "grad_norm": 0.13139604032039642,
      "learning_rate": 5.239824355970401e-05,
      "loss": 0.10269489288330078,
      "memory(GiB)": 70.5,
      "step": 56570,
      "token_acc": 0.967391304347826,
      "train_speed(iter/s)": 1.448299
    },
    {
      "epoch": 2.4238464504519945,
      "grad_norm": 0.7733641862869263,
      "learning_rate": 5.239152151076725e-05,
      "loss": 0.13380199670791626,
      "memory(GiB)": 70.5,
      "step": 56575,
      "token_acc": 0.9712230215827338,
      "train_speed(iter/s)": 1.448295
    },
    {
      "epoch": 2.4240606657812434,
      "grad_norm": 3.031653881072998,
      "learning_rate": 5.2384799418505824e-05,
      "loss": 0.20992257595062255,
      "memory(GiB)": 70.5,
      "step": 56580,
      "token_acc": 0.9494584837545126,
      "train_speed(iter/s)": 1.448294
    },
    {
      "epoch": 2.424274881110492,
      "grad_norm": 3.7143805027008057,
      "learning_rate": 5.237807728304152e-05,
      "loss": 0.2954482793807983,
      "memory(GiB)": 70.5,
      "step": 56585,
      "token_acc": 0.92578125,
      "train_speed(iter/s)": 1.448297
    },
    {
      "epoch": 2.4244890964397414,
      "grad_norm": 2.8441526889801025,
      "learning_rate": 5.2371355104496125e-05,
      "loss": 0.3840787410736084,
      "memory(GiB)": 70.5,
      "step": 56590,
      "token_acc": 0.9182156133828996,
      "train_speed(iter/s)": 1.448297
    },
    {
      "epoch": 2.4247033117689902,
      "grad_norm": 3.4041717052459717,
      "learning_rate": 5.236463288299139e-05,
      "loss": 0.2243553638458252,
      "memory(GiB)": 70.5,
      "step": 56595,
      "token_acc": 0.946969696969697,
      "train_speed(iter/s)": 1.44829
    },
    {
      "epoch": 2.424917527098239,
      "grad_norm": 1.8409174680709839,
      "learning_rate": 5.235791061864912e-05,
      "loss": 0.15853266716003417,
      "memory(GiB)": 70.5,
      "step": 56600,
      "token_acc": 0.9651567944250871,
      "train_speed(iter/s)": 1.448297
    },
    {
      "epoch": 2.4251317424274883,
      "grad_norm": 5.844822883605957,
      "learning_rate": 5.2351188311591093e-05,
      "loss": 0.44948477745056153,
      "memory(GiB)": 70.5,
      "step": 56605,
      "token_acc": 0.9080459770114943,
      "train_speed(iter/s)": 1.448307
    },
    {
      "epoch": 2.425345957756737,
      "grad_norm": 3.8850724697113037,
      "learning_rate": 5.234446596193907e-05,
      "loss": 0.3057550430297852,
      "memory(GiB)": 70.5,
      "step": 56610,
      "token_acc": 0.9395973154362416,
      "train_speed(iter/s)": 1.448313
    },
    {
      "epoch": 2.425560173085986,
      "grad_norm": 3.722764015197754,
      "learning_rate": 5.233774356981487e-05,
      "loss": 0.589443302154541,
      "memory(GiB)": 70.5,
      "step": 56615,
      "token_acc": 0.8783382789317508,
      "train_speed(iter/s)": 1.448312
    },
    {
      "epoch": 2.425774388415235,
      "grad_norm": 2.6088855266571045,
      "learning_rate": 5.233102113534024e-05,
      "loss": 0.6726843833923339,
      "memory(GiB)": 70.5,
      "step": 56620,
      "token_acc": 0.8715953307392996,
      "train_speed(iter/s)": 1.448303
    },
    {
      "epoch": 2.425988603744484,
      "grad_norm": 5.297031879425049,
      "learning_rate": 5.2324298658636974e-05,
      "loss": 0.4924017906188965,
      "memory(GiB)": 70.5,
      "step": 56625,
      "token_acc": 0.897887323943662,
      "train_speed(iter/s)": 1.448311
    },
    {
      "epoch": 2.426202819073733,
      "grad_norm": 1.4685853719711304,
      "learning_rate": 5.231757613982686e-05,
      "loss": 0.2652392864227295,
      "memory(GiB)": 70.5,
      "step": 56630,
      "token_acc": 0.9411764705882353,
      "train_speed(iter/s)": 1.44831
    },
    {
      "epoch": 2.426417034402982,
      "grad_norm": 4.596954345703125,
      "learning_rate": 5.2310853579031674e-05,
      "loss": 0.3882966279983521,
      "memory(GiB)": 70.5,
      "step": 56635,
      "token_acc": 0.9078947368421053,
      "train_speed(iter/s)": 1.448315
    },
    {
      "epoch": 2.426631249732231,
      "grad_norm": 0.4417217969894409,
      "learning_rate": 5.23041309763732e-05,
      "loss": 0.3644073247909546,
      "memory(GiB)": 70.5,
      "step": 56640,
      "token_acc": 0.9322709163346613,
      "train_speed(iter/s)": 1.44831
    },
    {
      "epoch": 2.4268454650614797,
      "grad_norm": 4.258556365966797,
      "learning_rate": 5.229740833197325e-05,
      "loss": 0.5097434997558594,
      "memory(GiB)": 70.5,
      "step": 56645,
      "token_acc": 0.8868501529051988,
      "train_speed(iter/s)": 1.448314
    },
    {
      "epoch": 2.427059680390729,
      "grad_norm": 3.718078851699829,
      "learning_rate": 5.2290685645953597e-05,
      "loss": 0.4244943618774414,
      "memory(GiB)": 70.5,
      "step": 56650,
      "token_acc": 0.9029850746268657,
      "train_speed(iter/s)": 1.448312
    },
    {
      "epoch": 2.4272738957199778,
      "grad_norm": 3.9190125465393066,
      "learning_rate": 5.2283962918436014e-05,
      "loss": 0.26002719402313235,
      "memory(GiB)": 70.5,
      "step": 56655,
      "token_acc": 0.9382239382239382,
      "train_speed(iter/s)": 1.448319
    },
    {
      "epoch": 2.4274881110492266,
      "grad_norm": 4.380746841430664,
      "learning_rate": 5.227724014954231e-05,
      "loss": 0.36347312927246095,
      "memory(GiB)": 70.5,
      "step": 56660,
      "token_acc": 0.926056338028169,
      "train_speed(iter/s)": 1.448326
    },
    {
      "epoch": 2.427702326378476,
      "grad_norm": 2.1761817932128906,
      "learning_rate": 5.227051733939425e-05,
      "loss": 0.46587376594543456,
      "memory(GiB)": 70.5,
      "step": 56665,
      "token_acc": 0.9144736842105263,
      "train_speed(iter/s)": 1.448322
    },
    {
      "epoch": 2.4279165417077246,
      "grad_norm": 2.2093684673309326,
      "learning_rate": 5.2263794488113635e-05,
      "loss": 0.27090744972229003,
      "memory(GiB)": 70.5,
      "step": 56670,
      "token_acc": 0.9542857142857143,
      "train_speed(iter/s)": 1.448327
    },
    {
      "epoch": 2.4281307570369735,
      "grad_norm": 3.7881946563720703,
      "learning_rate": 5.225707159582227e-05,
      "loss": 0.27616124153137206,
      "memory(GiB)": 70.5,
      "step": 56675,
      "token_acc": 0.9416666666666667,
      "train_speed(iter/s)": 1.448325
    },
    {
      "epoch": 2.4283449723662227,
      "grad_norm": 4.233097553253174,
      "learning_rate": 5.225034866264193e-05,
      "loss": 0.4729299545288086,
      "memory(GiB)": 70.5,
      "step": 56680,
      "token_acc": 0.8985507246376812,
      "train_speed(iter/s)": 1.448322
    },
    {
      "epoch": 2.4285591876954715,
      "grad_norm": 7.156883716583252,
      "learning_rate": 5.224362568869442e-05,
      "loss": 0.35352792739868166,
      "memory(GiB)": 70.5,
      "step": 56685,
      "token_acc": 0.9267399267399268,
      "train_speed(iter/s)": 1.44832
    },
    {
      "epoch": 2.4287734030247203,
      "grad_norm": 1.7449836730957031,
      "learning_rate": 5.223690267410153e-05,
      "loss": 0.26649866104125974,
      "memory(GiB)": 70.5,
      "step": 56690,
      "token_acc": 0.9446640316205533,
      "train_speed(iter/s)": 1.44832
    },
    {
      "epoch": 2.4289876183539696,
      "grad_norm": 2.476670503616333,
      "learning_rate": 5.223017961898504e-05,
      "loss": 0.6501718997955322,
      "memory(GiB)": 70.5,
      "step": 56695,
      "token_acc": 0.8664259927797834,
      "train_speed(iter/s)": 1.448321
    },
    {
      "epoch": 2.4292018336832184,
      "grad_norm": 4.336485862731934,
      "learning_rate": 5.222345652346675e-05,
      "loss": 0.3353621244430542,
      "memory(GiB)": 70.5,
      "step": 56700,
      "token_acc": 0.9403508771929825,
      "train_speed(iter/s)": 1.448343
    },
    {
      "epoch": 2.429416049012467,
      "grad_norm": 3.560464859008789,
      "learning_rate": 5.221673338766847e-05,
      "loss": 0.49829955101013185,
      "memory(GiB)": 70.5,
      "step": 56705,
      "token_acc": 0.9025157232704403,
      "train_speed(iter/s)": 1.448345
    },
    {
      "epoch": 2.4296302643417165,
      "grad_norm": 1.9422701597213745,
      "learning_rate": 5.221001021171198e-05,
      "loss": 0.45909790992736815,
      "memory(GiB)": 70.5,
      "step": 56710,
      "token_acc": 0.8990536277602523,
      "train_speed(iter/s)": 1.448357
    },
    {
      "epoch": 2.4298444796709653,
      "grad_norm": 5.138984680175781,
      "learning_rate": 5.220328699571908e-05,
      "loss": 0.4579333305358887,
      "memory(GiB)": 70.5,
      "step": 56715,
      "token_acc": 0.9096573208722741,
      "train_speed(iter/s)": 1.448367
    },
    {
      "epoch": 2.430058695000214,
      "grad_norm": 2.926255702972412,
      "learning_rate": 5.219656373981158e-05,
      "loss": 0.40799660682678224,
      "memory(GiB)": 70.5,
      "step": 56720,
      "token_acc": 0.9093959731543624,
      "train_speed(iter/s)": 1.448365
    },
    {
      "epoch": 2.4302729103294634,
      "grad_norm": 6.59411096572876,
      "learning_rate": 5.218984044411126e-05,
      "loss": 0.4676806449890137,
      "memory(GiB)": 70.5,
      "step": 56725,
      "token_acc": 0.9003436426116839,
      "train_speed(iter/s)": 1.448382
    },
    {
      "epoch": 2.430487125658712,
      "grad_norm": 1.5078972578048706,
      "learning_rate": 5.218311710873992e-05,
      "loss": 0.4594693183898926,
      "memory(GiB)": 70.5,
      "step": 56730,
      "token_acc": 0.9059233449477352,
      "train_speed(iter/s)": 1.448385
    },
    {
      "epoch": 2.430701340987961,
      "grad_norm": 1.1715627908706665,
      "learning_rate": 5.2176393733819376e-05,
      "loss": 0.293573260307312,
      "memory(GiB)": 70.5,
      "step": 56735,
      "token_acc": 0.9384615384615385,
      "train_speed(iter/s)": 1.448387
    },
    {
      "epoch": 2.4309155563172102,
      "grad_norm": 7.083529949188232,
      "learning_rate": 5.2169670319471406e-05,
      "loss": 0.40186057090759275,
      "memory(GiB)": 70.5,
      "step": 56740,
      "token_acc": 0.9063670411985019,
      "train_speed(iter/s)": 1.448397
    },
    {
      "epoch": 2.431129771646459,
      "grad_norm": 0.34995660185813904,
      "learning_rate": 5.216294686581783e-05,
      "loss": 0.3416635036468506,
      "memory(GiB)": 70.5,
      "step": 56745,
      "token_acc": 0.9377162629757786,
      "train_speed(iter/s)": 1.448404
    },
    {
      "epoch": 2.431343986975708,
      "grad_norm": 3.7364425659179688,
      "learning_rate": 5.215622337298044e-05,
      "loss": 0.41409101486206057,
      "memory(GiB)": 70.5,
      "step": 56750,
      "token_acc": 0.9198606271777003,
      "train_speed(iter/s)": 1.448425
    },
    {
      "epoch": 2.431558202304957,
      "grad_norm": 1.776629090309143,
      "learning_rate": 5.214949984108104e-05,
      "loss": 0.2303173065185547,
      "memory(GiB)": 70.5,
      "step": 56755,
      "token_acc": 0.9513888888888888,
      "train_speed(iter/s)": 1.448438
    },
    {
      "epoch": 2.431772417634206,
      "grad_norm": 4.4566168785095215,
      "learning_rate": 5.214277627024144e-05,
      "loss": 0.3365774154663086,
      "memory(GiB)": 70.5,
      "step": 56760,
      "token_acc": 0.9169435215946844,
      "train_speed(iter/s)": 1.448442
    },
    {
      "epoch": 2.4319866329634547,
      "grad_norm": 3.106457233428955,
      "learning_rate": 5.2136052660583444e-05,
      "loss": 0.400194787979126,
      "memory(GiB)": 70.5,
      "step": 56765,
      "token_acc": 0.911660777385159,
      "train_speed(iter/s)": 1.44844
    },
    {
      "epoch": 2.432200848292704,
      "grad_norm": 0.6109474301338196,
      "learning_rate": 5.212932901222883e-05,
      "loss": 0.26446075439453126,
      "memory(GiB)": 70.5,
      "step": 56770,
      "token_acc": 0.9369085173501577,
      "train_speed(iter/s)": 1.448439
    },
    {
      "epoch": 2.432415063621953,
      "grad_norm": 2.7874093055725098,
      "learning_rate": 5.212260532529945e-05,
      "loss": 0.3496942758560181,
      "memory(GiB)": 70.5,
      "step": 56775,
      "token_acc": 0.9236111111111112,
      "train_speed(iter/s)": 1.44844
    },
    {
      "epoch": 2.4326292789512016,
      "grad_norm": 3.9649486541748047,
      "learning_rate": 5.211588159991707e-05,
      "loss": 0.31619877815246583,
      "memory(GiB)": 70.5,
      "step": 56780,
      "token_acc": 0.9283387622149837,
      "train_speed(iter/s)": 1.448449
    },
    {
      "epoch": 2.432843494280451,
      "grad_norm": 3.536764144897461,
      "learning_rate": 5.210915783620349e-05,
      "loss": 0.49575209617614746,
      "memory(GiB)": 70.5,
      "step": 56785,
      "token_acc": 0.8867924528301887,
      "train_speed(iter/s)": 1.448453
    },
    {
      "epoch": 2.4330577096096997,
      "grad_norm": 3.9457309246063232,
      "learning_rate": 5.2102434034280566e-05,
      "loss": 0.3534814119338989,
      "memory(GiB)": 70.5,
      "step": 56790,
      "token_acc": 0.9251497005988024,
      "train_speed(iter/s)": 1.44845
    },
    {
      "epoch": 2.4332719249389485,
      "grad_norm": 2.296849012374878,
      "learning_rate": 5.2095710194270067e-05,
      "loss": 0.2899554491043091,
      "memory(GiB)": 70.5,
      "step": 56795,
      "token_acc": 0.9433198380566802,
      "train_speed(iter/s)": 1.448457
    },
    {
      "epoch": 2.4334861402681978,
      "grad_norm": 4.377267837524414,
      "learning_rate": 5.208898631629381e-05,
      "loss": 0.21058299541473388,
      "memory(GiB)": 70.5,
      "step": 56800,
      "token_acc": 0.9427480916030534,
      "train_speed(iter/s)": 1.448462
    },
    {
      "epoch": 2.4337003555974466,
      "grad_norm": 4.7649993896484375,
      "learning_rate": 5.208226240047362e-05,
      "loss": 0.38440356254577634,
      "memory(GiB)": 70.5,
      "step": 56805,
      "token_acc": 0.927710843373494,
      "train_speed(iter/s)": 1.448466
    },
    {
      "epoch": 2.4339145709266954,
      "grad_norm": 5.93859338760376,
      "learning_rate": 5.207553844693128e-05,
      "loss": 0.37232208251953125,
      "memory(GiB)": 70.5,
      "step": 56810,
      "token_acc": 0.9148936170212766,
      "train_speed(iter/s)": 1.448472
    },
    {
      "epoch": 2.4341287862559446,
      "grad_norm": 1.6571828126907349,
      "learning_rate": 5.206881445578861e-05,
      "loss": 0.3343423128128052,
      "memory(GiB)": 70.5,
      "step": 56815,
      "token_acc": 0.9319727891156463,
      "train_speed(iter/s)": 1.448469
    },
    {
      "epoch": 2.4343430015851935,
      "grad_norm": 4.519125938415527,
      "learning_rate": 5.206209042716742e-05,
      "loss": 0.4601716995239258,
      "memory(GiB)": 70.5,
      "step": 56820,
      "token_acc": 0.912,
      "train_speed(iter/s)": 1.448479
    },
    {
      "epoch": 2.4345572169144423,
      "grad_norm": 0.5034583210945129,
      "learning_rate": 5.205536636118955e-05,
      "loss": 0.38246452808380127,
      "memory(GiB)": 70.5,
      "step": 56825,
      "token_acc": 0.9252669039145908,
      "train_speed(iter/s)": 1.448489
    },
    {
      "epoch": 2.4347714322436915,
      "grad_norm": 0.7149195671081543,
      "learning_rate": 5.204864225797676e-05,
      "loss": 0.1221287727355957,
      "memory(GiB)": 70.5,
      "step": 56830,
      "token_acc": 0.9699248120300752,
      "train_speed(iter/s)": 1.448485
    },
    {
      "epoch": 2.4349856475729403,
      "grad_norm": 3.1677072048187256,
      "learning_rate": 5.204191811765092e-05,
      "loss": 0.3453385829925537,
      "memory(GiB)": 70.5,
      "step": 56835,
      "token_acc": 0.9230769230769231,
      "train_speed(iter/s)": 1.448485
    },
    {
      "epoch": 2.435199862902189,
      "grad_norm": 2.0008749961853027,
      "learning_rate": 5.203519394033382e-05,
      "loss": 0.24400105476379394,
      "memory(GiB)": 70.5,
      "step": 56840,
      "token_acc": 0.9323308270676691,
      "train_speed(iter/s)": 1.448486
    },
    {
      "epoch": 2.4354140782314384,
      "grad_norm": 2.495157241821289,
      "learning_rate": 5.202846972614726e-05,
      "loss": 0.26302547454833985,
      "memory(GiB)": 70.5,
      "step": 56845,
      "token_acc": 0.9431137724550899,
      "train_speed(iter/s)": 1.448489
    },
    {
      "epoch": 2.435628293560687,
      "grad_norm": 2.1651525497436523,
      "learning_rate": 5.2021745475213076e-05,
      "loss": 0.5120481491088867,
      "memory(GiB)": 70.5,
      "step": 56850,
      "token_acc": 0.906801007556675,
      "train_speed(iter/s)": 1.448488
    },
    {
      "epoch": 2.435842508889936,
      "grad_norm": 5.523556709289551,
      "learning_rate": 5.201502118765307e-05,
      "loss": 0.36449060440063474,
      "memory(GiB)": 70.5,
      "step": 56855,
      "token_acc": 0.9386281588447654,
      "train_speed(iter/s)": 1.44849
    },
    {
      "epoch": 2.4360567242191853,
      "grad_norm": 0.14099812507629395,
      "learning_rate": 5.200829686358906e-05,
      "loss": 0.2680016756057739,
      "memory(GiB)": 70.5,
      "step": 56860,
      "token_acc": 0.9457142857142857,
      "train_speed(iter/s)": 1.448498
    },
    {
      "epoch": 2.436270939548434,
      "grad_norm": 1.6898950338363647,
      "learning_rate": 5.2001572503142873e-05,
      "loss": 0.48560256958007814,
      "memory(GiB)": 70.5,
      "step": 56865,
      "token_acc": 0.9272727272727272,
      "train_speed(iter/s)": 1.448498
    },
    {
      "epoch": 2.436485154877683,
      "grad_norm": 3.3787007331848145,
      "learning_rate": 5.1994848106436334e-05,
      "loss": 0.2775826692581177,
      "memory(GiB)": 70.5,
      "step": 56870,
      "token_acc": 0.9391891891891891,
      "train_speed(iter/s)": 1.448499
    },
    {
      "epoch": 2.436699370206932,
      "grad_norm": 1.3520610332489014,
      "learning_rate": 5.198812367359123e-05,
      "loss": 0.5643519878387451,
      "memory(GiB)": 70.5,
      "step": 56875,
      "token_acc": 0.8885793871866295,
      "train_speed(iter/s)": 1.4485
    },
    {
      "epoch": 2.436913585536181,
      "grad_norm": 0.2658529281616211,
      "learning_rate": 5.198139920472942e-05,
      "loss": 0.14086084365844725,
      "memory(GiB)": 70.5,
      "step": 56880,
      "token_acc": 0.9560439560439561,
      "train_speed(iter/s)": 1.448513
    },
    {
      "epoch": 2.43712780086543,
      "grad_norm": 7.397921562194824,
      "learning_rate": 5.1974674699972684e-05,
      "loss": 0.7537872791290283,
      "memory(GiB)": 70.5,
      "step": 56885,
      "token_acc": 0.8487084870848709,
      "train_speed(iter/s)": 1.448521
    },
    {
      "epoch": 2.437342016194679,
      "grad_norm": 1.4973970651626587,
      "learning_rate": 5.196795015944288e-05,
      "loss": 0.7602391719818116,
      "memory(GiB)": 70.5,
      "step": 56890,
      "token_acc": 0.8187311178247734,
      "train_speed(iter/s)": 1.448538
    },
    {
      "epoch": 2.437556231523928,
      "grad_norm": 2.2041728496551514,
      "learning_rate": 5.19612255832618e-05,
      "loss": 0.3490167140960693,
      "memory(GiB)": 70.5,
      "step": 56895,
      "token_acc": 0.9113475177304965,
      "train_speed(iter/s)": 1.448537
    },
    {
      "epoch": 2.4377704468531767,
      "grad_norm": 4.621360778808594,
      "learning_rate": 5.195450097155128e-05,
      "loss": 0.4110256195068359,
      "memory(GiB)": 70.5,
      "step": 56900,
      "token_acc": 0.9175627240143369,
      "train_speed(iter/s)": 1.448548
    },
    {
      "epoch": 2.437984662182426,
      "grad_norm": 9.312942504882812,
      "learning_rate": 5.194777632443315e-05,
      "loss": 0.3526482582092285,
      "memory(GiB)": 70.5,
      "step": 56905,
      "token_acc": 0.9205776173285198,
      "train_speed(iter/s)": 1.448546
    },
    {
      "epoch": 2.4381988775116747,
      "grad_norm": 3.323967218399048,
      "learning_rate": 5.194105164202924e-05,
      "loss": 0.34964756965637206,
      "memory(GiB)": 70.5,
      "step": 56910,
      "token_acc": 0.93359375,
      "train_speed(iter/s)": 1.448545
    },
    {
      "epoch": 2.4384130928409236,
      "grad_norm": 1.2493937015533447,
      "learning_rate": 5.1934326924461326e-05,
      "loss": 0.1740780234336853,
      "memory(GiB)": 70.5,
      "step": 56915,
      "token_acc": 0.9637883008356546,
      "train_speed(iter/s)": 1.448547
    },
    {
      "epoch": 2.438627308170173,
      "grad_norm": 3.847851276397705,
      "learning_rate": 5.192760217185129e-05,
      "loss": 0.5197426795959472,
      "memory(GiB)": 70.5,
      "step": 56920,
      "token_acc": 0.8731884057971014,
      "train_speed(iter/s)": 1.448548
    },
    {
      "epoch": 2.4388415234994216,
      "grad_norm": 5.639786720275879,
      "learning_rate": 5.192087738432092e-05,
      "loss": 0.994933032989502,
      "memory(GiB)": 70.5,
      "step": 56925,
      "token_acc": 0.8038585209003215,
      "train_speed(iter/s)": 1.448557
    },
    {
      "epoch": 2.4390557388286704,
      "grad_norm": 2.8760182857513428,
      "learning_rate": 5.191415256199205e-05,
      "loss": 0.3375399589538574,
      "memory(GiB)": 70.5,
      "step": 56930,
      "token_acc": 0.9292307692307692,
      "train_speed(iter/s)": 1.448553
    },
    {
      "epoch": 2.4392699541579197,
      "grad_norm": 4.094425201416016,
      "learning_rate": 5.190742770498652e-05,
      "loss": 0.3077689647674561,
      "memory(GiB)": 70.5,
      "step": 56935,
      "token_acc": 0.9484536082474226,
      "train_speed(iter/s)": 1.448557
    },
    {
      "epoch": 2.4394841694871685,
      "grad_norm": 6.18977689743042,
      "learning_rate": 5.190070281342615e-05,
      "loss": 0.3598968744277954,
      "memory(GiB)": 70.5,
      "step": 56940,
      "token_acc": 0.9328859060402684,
      "train_speed(iter/s)": 1.448554
    },
    {
      "epoch": 2.4396983848164173,
      "grad_norm": 5.067746162414551,
      "learning_rate": 5.189397788743275e-05,
      "loss": 0.3462624788284302,
      "memory(GiB)": 70.5,
      "step": 56945,
      "token_acc": 0.9407407407407408,
      "train_speed(iter/s)": 1.448558
    },
    {
      "epoch": 2.4399126001456666,
      "grad_norm": 3.243006944656372,
      "learning_rate": 5.188725292712818e-05,
      "loss": 0.2595922231674194,
      "memory(GiB)": 70.5,
      "step": 56950,
      "token_acc": 0.9471830985915493,
      "train_speed(iter/s)": 1.448557
    },
    {
      "epoch": 2.4401268154749154,
      "grad_norm": 3.467949390411377,
      "learning_rate": 5.188052793263426e-05,
      "loss": 0.5685307025909424,
      "memory(GiB)": 70.5,
      "step": 56955,
      "token_acc": 0.8905660377358491,
      "train_speed(iter/s)": 1.448567
    },
    {
      "epoch": 2.440341030804164,
      "grad_norm": 3.8163371086120605,
      "learning_rate": 5.1873802904072786e-05,
      "loss": 0.2986143589019775,
      "memory(GiB)": 70.5,
      "step": 56960,
      "token_acc": 0.933852140077821,
      "train_speed(iter/s)": 1.448566
    },
    {
      "epoch": 2.4405552461334135,
      "grad_norm": 2.076935291290283,
      "learning_rate": 5.1867077841565635e-05,
      "loss": 0.22722980976104737,
      "memory(GiB)": 70.5,
      "step": 56965,
      "token_acc": 0.961038961038961,
      "train_speed(iter/s)": 1.448586
    },
    {
      "epoch": 2.4407694614626623,
      "grad_norm": 2.3600635528564453,
      "learning_rate": 5.186035274523461e-05,
      "loss": 0.3513511657714844,
      "memory(GiB)": 70.5,
      "step": 56970,
      "token_acc": 0.9128919860627178,
      "train_speed(iter/s)": 1.448588
    },
    {
      "epoch": 2.440983676791911,
      "grad_norm": 3.849141836166382,
      "learning_rate": 5.1853627615201536e-05,
      "loss": 0.15970182418823242,
      "memory(GiB)": 70.5,
      "step": 56975,
      "token_acc": 0.961038961038961,
      "train_speed(iter/s)": 1.448583
    },
    {
      "epoch": 2.4411978921211603,
      "grad_norm": 2.2628090381622314,
      "learning_rate": 5.184690245158829e-05,
      "loss": 0.32185912132263184,
      "memory(GiB)": 70.5,
      "step": 56980,
      "token_acc": 0.9243421052631579,
      "train_speed(iter/s)": 1.448582
    },
    {
      "epoch": 2.441412107450409,
      "grad_norm": 2.1634321212768555,
      "learning_rate": 5.1840177254516666e-05,
      "loss": 0.37788803577423097,
      "memory(GiB)": 70.5,
      "step": 56985,
      "token_acc": 0.9228295819935691,
      "train_speed(iter/s)": 1.448587
    },
    {
      "epoch": 2.441626322779658,
      "grad_norm": 2.570725679397583,
      "learning_rate": 5.183345202410849e-05,
      "loss": 0.3029686212539673,
      "memory(GiB)": 70.5,
      "step": 56990,
      "token_acc": 0.930921052631579,
      "train_speed(iter/s)": 1.448594
    },
    {
      "epoch": 2.441840538108907,
      "grad_norm": 6.6105780601501465,
      "learning_rate": 5.182672676048561e-05,
      "loss": 0.5242393493652344,
      "memory(GiB)": 70.5,
      "step": 56995,
      "token_acc": 0.8814814814814815,
      "train_speed(iter/s)": 1.448593
    },
    {
      "epoch": 2.442054753438156,
      "grad_norm": 1.8263847827911377,
      "learning_rate": 5.182000146376986e-05,
      "loss": 0.4684088706970215,
      "memory(GiB)": 70.5,
      "step": 57000,
      "token_acc": 0.9360902255639098,
      "train_speed(iter/s)": 1.448586
    },
    {
      "epoch": 2.442054753438156,
      "eval_loss": 2.337622880935669,
      "eval_runtime": 13.5194,
      "eval_samples_per_second": 7.397,
      "eval_steps_per_second": 7.397,
      "eval_token_acc": 0.46112600536193027,
      "step": 57000
    },
    {
      "epoch": 2.442268968767405,
      "grad_norm": 6.144504547119141,
      "learning_rate": 5.181327613408309e-05,
      "loss": 0.24183378219604493,
      "memory(GiB)": 70.5,
      "step": 57005,
      "token_acc": 0.5959692898272553,
      "train_speed(iter/s)": 1.448053
    },
    {
      "epoch": 2.442483184096654,
      "grad_norm": 1.335349678993225,
      "learning_rate": 5.1806550771547115e-05,
      "loss": 0.1728075385093689,
      "memory(GiB)": 70.5,
      "step": 57010,
      "token_acc": 0.9583333333333334,
      "train_speed(iter/s)": 1.448056
    },
    {
      "epoch": 2.442697399425903,
      "grad_norm": 2.4555814266204834,
      "learning_rate": 5.179982537628378e-05,
      "loss": 0.5658479690551758,
      "memory(GiB)": 70.5,
      "step": 57015,
      "token_acc": 0.9050847457627119,
      "train_speed(iter/s)": 1.448056
    },
    {
      "epoch": 2.4429116147551517,
      "grad_norm": 1.040018081665039,
      "learning_rate": 5.1793099948414925e-05,
      "loss": 0.4027434825897217,
      "memory(GiB)": 70.5,
      "step": 57020,
      "token_acc": 0.9057239057239057,
      "train_speed(iter/s)": 1.448065
    },
    {
      "epoch": 2.443125830084401,
      "grad_norm": 4.92796516418457,
      "learning_rate": 5.1786374488062375e-05,
      "loss": 0.28519158363342284,
      "memory(GiB)": 70.5,
      "step": 57025,
      "token_acc": 0.9527027027027027,
      "train_speed(iter/s)": 1.448069
    },
    {
      "epoch": 2.44334004541365,
      "grad_norm": 1.804032802581787,
      "learning_rate": 5.1779648995347975e-05,
      "loss": 0.142301607131958,
      "memory(GiB)": 70.5,
      "step": 57030,
      "token_acc": 0.9713114754098361,
      "train_speed(iter/s)": 1.448065
    },
    {
      "epoch": 2.4435542607428986,
      "grad_norm": 4.3377885818481445,
      "learning_rate": 5.177292347039358e-05,
      "loss": 0.4124687671661377,
      "memory(GiB)": 70.5,
      "step": 57035,
      "token_acc": 0.8960573476702509,
      "train_speed(iter/s)": 1.448063
    },
    {
      "epoch": 2.443768476072148,
      "grad_norm": 2.925485849380493,
      "learning_rate": 5.176619791332099e-05,
      "loss": 0.31764233112335205,
      "memory(GiB)": 70.5,
      "step": 57040,
      "token_acc": 0.910828025477707,
      "train_speed(iter/s)": 1.448064
    },
    {
      "epoch": 2.4439826914013967,
      "grad_norm": 4.367794036865234,
      "learning_rate": 5.175947232425207e-05,
      "loss": 0.4404900550842285,
      "memory(GiB)": 70.5,
      "step": 57045,
      "token_acc": 0.8940809968847352,
      "train_speed(iter/s)": 1.448077
    },
    {
      "epoch": 2.4441969067306455,
      "grad_norm": 5.157540321350098,
      "learning_rate": 5.1752746703308664e-05,
      "loss": 0.32676215171813966,
      "memory(GiB)": 70.5,
      "step": 57050,
      "token_acc": 0.9295392953929539,
      "train_speed(iter/s)": 1.448085
    },
    {
      "epoch": 2.4444111220598947,
      "grad_norm": 5.1797590255737305,
      "learning_rate": 5.174602105061262e-05,
      "loss": 0.5902118682861328,
      "memory(GiB)": 70.5,
      "step": 57055,
      "token_acc": 0.881578947368421,
      "train_speed(iter/s)": 1.448082
    },
    {
      "epoch": 2.4446253373891436,
      "grad_norm": 2.106867551803589,
      "learning_rate": 5.1739295366285745e-05,
      "loss": 0.3868129730224609,
      "memory(GiB)": 70.5,
      "step": 57060,
      "token_acc": 0.9281045751633987,
      "train_speed(iter/s)": 1.448076
    },
    {
      "epoch": 2.4448395527183924,
      "grad_norm": 3.035968065261841,
      "learning_rate": 5.173256965044991e-05,
      "loss": 0.1077705979347229,
      "memory(GiB)": 70.5,
      "step": 57065,
      "token_acc": 0.9639344262295082,
      "train_speed(iter/s)": 1.448081
    },
    {
      "epoch": 2.4450537680476416,
      "grad_norm": 0.25868186354637146,
      "learning_rate": 5.1725843903226966e-05,
      "loss": 0.3204088926315308,
      "memory(GiB)": 70.5,
      "step": 57070,
      "token_acc": 0.9274447949526814,
      "train_speed(iter/s)": 1.448087
    },
    {
      "epoch": 2.4452679833768904,
      "grad_norm": 3.27046799659729,
      "learning_rate": 5.171911812473872e-05,
      "loss": 0.3323599576950073,
      "memory(GiB)": 70.5,
      "step": 57075,
      "token_acc": 0.9358108108108109,
      "train_speed(iter/s)": 1.448123
    },
    {
      "epoch": 2.4454821987061393,
      "grad_norm": 2.8100695610046387,
      "learning_rate": 5.171239231510704e-05,
      "loss": 0.2608546257019043,
      "memory(GiB)": 70.5,
      "step": 57080,
      "token_acc": 0.9454545454545454,
      "train_speed(iter/s)": 1.448123
    },
    {
      "epoch": 2.4456964140353885,
      "grad_norm": 5.271791934967041,
      "learning_rate": 5.1705666474453785e-05,
      "loss": 0.4280370235443115,
      "memory(GiB)": 70.5,
      "step": 57085,
      "token_acc": 0.9078498293515358,
      "train_speed(iter/s)": 1.448144
    },
    {
      "epoch": 2.4459106293646373,
      "grad_norm": 1.4096628427505493,
      "learning_rate": 5.1698940602900756e-05,
      "loss": 0.35230939388275145,
      "memory(GiB)": 70.5,
      "step": 57090,
      "token_acc": 0.929368029739777,
      "train_speed(iter/s)": 1.448151
    },
    {
      "epoch": 2.446124844693886,
      "grad_norm": 2.1621456146240234,
      "learning_rate": 5.169221470056984e-05,
      "loss": 0.3582402944564819,
      "memory(GiB)": 70.5,
      "step": 57095,
      "token_acc": 0.9247311827956989,
      "train_speed(iter/s)": 1.448139
    },
    {
      "epoch": 2.4463390600231354,
      "grad_norm": 0.35775312781333923,
      "learning_rate": 5.168548876758288e-05,
      "loss": 0.2380190372467041,
      "memory(GiB)": 70.5,
      "step": 57100,
      "token_acc": 0.949685534591195,
      "train_speed(iter/s)": 1.448135
    },
    {
      "epoch": 2.446553275352384,
      "grad_norm": 2.0258853435516357,
      "learning_rate": 5.1678762804061685e-05,
      "loss": 0.2505171298980713,
      "memory(GiB)": 70.5,
      "step": 57105,
      "token_acc": 0.9493243243243243,
      "train_speed(iter/s)": 1.448142
    },
    {
      "epoch": 2.446767490681633,
      "grad_norm": 2.813734531402588,
      "learning_rate": 5.167203681012813e-05,
      "loss": 0.3606745958328247,
      "memory(GiB)": 70.5,
      "step": 57110,
      "token_acc": 0.9183006535947712,
      "train_speed(iter/s)": 1.448138
    },
    {
      "epoch": 2.4469817060108823,
      "grad_norm": 2.2597310543060303,
      "learning_rate": 5.1665310785904066e-05,
      "loss": 0.25474960803985597,
      "memory(GiB)": 70.5,
      "step": 57115,
      "token_acc": 0.9411764705882353,
      "train_speed(iter/s)": 1.448139
    },
    {
      "epoch": 2.447195921340131,
      "grad_norm": 2.9739768505096436,
      "learning_rate": 5.165858473151133e-05,
      "loss": 0.3156658411026001,
      "memory(GiB)": 70.5,
      "step": 57120,
      "token_acc": 0.9292604501607717,
      "train_speed(iter/s)": 1.448139
    },
    {
      "epoch": 2.44741013666938,
      "grad_norm": 4.254566669464111,
      "learning_rate": 5.165185864707178e-05,
      "loss": 0.25340938568115234,
      "memory(GiB)": 70.5,
      "step": 57125,
      "token_acc": 0.9377289377289377,
      "train_speed(iter/s)": 1.448137
    },
    {
      "epoch": 2.447624351998629,
      "grad_norm": 7.658082962036133,
      "learning_rate": 5.164513253270727e-05,
      "loss": 0.7418982028961182,
      "memory(GiB)": 70.5,
      "step": 57130,
      "token_acc": 0.8621908127208481,
      "train_speed(iter/s)": 1.448135
    },
    {
      "epoch": 2.447838567327878,
      "grad_norm": 2.461824893951416,
      "learning_rate": 5.163840638853963e-05,
      "loss": 0.5576932907104493,
      "memory(GiB)": 70.5,
      "step": 57135,
      "token_acc": 0.8884892086330936,
      "train_speed(iter/s)": 1.448153
    },
    {
      "epoch": 2.448052782657127,
      "grad_norm": 4.729228496551514,
      "learning_rate": 5.163168021469073e-05,
      "loss": 0.3876772165298462,
      "memory(GiB)": 70.5,
      "step": 57140,
      "token_acc": 0.9489795918367347,
      "train_speed(iter/s)": 1.448152
    },
    {
      "epoch": 2.448266997986376,
      "grad_norm": 4.5476202964782715,
      "learning_rate": 5.16249540112824e-05,
      "loss": 0.2736964702606201,
      "memory(GiB)": 70.5,
      "step": 57145,
      "token_acc": 0.9430604982206405,
      "train_speed(iter/s)": 1.448154
    },
    {
      "epoch": 2.448481213315625,
      "grad_norm": 5.482770919799805,
      "learning_rate": 5.161822777843651e-05,
      "loss": 0.5452134132385253,
      "memory(GiB)": 70.5,
      "step": 57150,
      "token_acc": 0.8788732394366198,
      "train_speed(iter/s)": 1.448151
    },
    {
      "epoch": 2.4486954286448737,
      "grad_norm": 1.8832621574401855,
      "learning_rate": 5.1611501516274904e-05,
      "loss": 0.2564457893371582,
      "memory(GiB)": 70.5,
      "step": 57155,
      "token_acc": 0.9490909090909091,
      "train_speed(iter/s)": 1.448154
    },
    {
      "epoch": 2.448909643974123,
      "grad_norm": 3.9060311317443848,
      "learning_rate": 5.160477522491943e-05,
      "loss": 0.4757274627685547,
      "memory(GiB)": 70.5,
      "step": 57160,
      "token_acc": 0.9041095890410958,
      "train_speed(iter/s)": 1.448153
    },
    {
      "epoch": 2.4491238593033717,
      "grad_norm": 3.2309885025024414,
      "learning_rate": 5.159804890449196e-05,
      "loss": 0.22482154369354249,
      "memory(GiB)": 70.5,
      "step": 57165,
      "token_acc": 0.9518900343642611,
      "train_speed(iter/s)": 1.448145
    },
    {
      "epoch": 2.4493380746326205,
      "grad_norm": 3.949028730392456,
      "learning_rate": 5.159132255511434e-05,
      "loss": 0.38207497596740725,
      "memory(GiB)": 70.5,
      "step": 57170,
      "token_acc": 0.9104477611940298,
      "train_speed(iter/s)": 1.448144
    },
    {
      "epoch": 2.44955228996187,
      "grad_norm": 3.718838691711426,
      "learning_rate": 5.15845961769084e-05,
      "loss": 0.45941834449768065,
      "memory(GiB)": 70.5,
      "step": 57175,
      "token_acc": 0.9171974522292994,
      "train_speed(iter/s)": 1.448162
    },
    {
      "epoch": 2.4497665052911186,
      "grad_norm": 0.8816488981246948,
      "learning_rate": 5.157786976999602e-05,
      "loss": 0.2516125202178955,
      "memory(GiB)": 70.5,
      "step": 57180,
      "token_acc": 0.9454545454545454,
      "train_speed(iter/s)": 1.448165
    },
    {
      "epoch": 2.4499807206203674,
      "grad_norm": 2.3906962871551514,
      "learning_rate": 5.157114333449906e-05,
      "loss": 0.4934391975402832,
      "memory(GiB)": 70.5,
      "step": 57185,
      "token_acc": 0.8977272727272727,
      "train_speed(iter/s)": 1.448169
    },
    {
      "epoch": 2.4501949359496167,
      "grad_norm": 3.526014804840088,
      "learning_rate": 5.1564416870539346e-05,
      "loss": 0.2576786279678345,
      "memory(GiB)": 70.5,
      "step": 57190,
      "token_acc": 0.9362549800796812,
      "train_speed(iter/s)": 1.448176
    },
    {
      "epoch": 2.4504091512788655,
      "grad_norm": 5.763206958770752,
      "learning_rate": 5.155769037823876e-05,
      "loss": 0.21323716640472412,
      "memory(GiB)": 70.5,
      "step": 57195,
      "token_acc": 0.9426229508196722,
      "train_speed(iter/s)": 1.448177
    },
    {
      "epoch": 2.4506233666081143,
      "grad_norm": 3.9867773056030273,
      "learning_rate": 5.155096385771917e-05,
      "loss": 0.6590302944183349,
      "memory(GiB)": 70.5,
      "step": 57200,
      "token_acc": 0.8551236749116607,
      "train_speed(iter/s)": 1.44818
    },
    {
      "epoch": 2.4508375819373636,
      "grad_norm": 3.44386625289917,
      "learning_rate": 5.1544237309102395e-05,
      "loss": 0.4201654434204102,
      "memory(GiB)": 70.5,
      "step": 57205,
      "token_acc": 0.9115384615384615,
      "train_speed(iter/s)": 1.448181
    },
    {
      "epoch": 2.4510517972666124,
      "grad_norm": 3.092787265777588,
      "learning_rate": 5.153751073251032e-05,
      "loss": 0.3629965305328369,
      "memory(GiB)": 70.5,
      "step": 57210,
      "token_acc": 0.9363295880149812,
      "train_speed(iter/s)": 1.448206
    },
    {
      "epoch": 2.451266012595861,
      "grad_norm": 4.947149753570557,
      "learning_rate": 5.15307841280648e-05,
      "loss": 0.9124042510986328,
      "memory(GiB)": 70.5,
      "step": 57215,
      "token_acc": 0.8036175710594315,
      "train_speed(iter/s)": 1.448233
    },
    {
      "epoch": 2.4514802279251104,
      "grad_norm": 3.6263175010681152,
      "learning_rate": 5.152405749588768e-05,
      "loss": 0.2827276706695557,
      "memory(GiB)": 70.5,
      "step": 57220,
      "token_acc": 0.9308176100628931,
      "train_speed(iter/s)": 1.448232
    },
    {
      "epoch": 2.4516944432543593,
      "grad_norm": 2.3771677017211914,
      "learning_rate": 5.151733083610083e-05,
      "loss": 0.25628745555877686,
      "memory(GiB)": 70.5,
      "step": 57225,
      "token_acc": 0.9368421052631579,
      "train_speed(iter/s)": 1.448239
    },
    {
      "epoch": 2.451908658583608,
      "grad_norm": 3.5029382705688477,
      "learning_rate": 5.15106041488261e-05,
      "loss": 0.3804809093475342,
      "memory(GiB)": 70.5,
      "step": 57230,
      "token_acc": 0.9111111111111111,
      "train_speed(iter/s)": 1.448242
    },
    {
      "epoch": 2.4521228739128573,
      "grad_norm": 3.273998498916626,
      "learning_rate": 5.1503877434185366e-05,
      "loss": 0.6043426036834717,
      "memory(GiB)": 70.5,
      "step": 57235,
      "token_acc": 0.8929889298892989,
      "train_speed(iter/s)": 1.448261
    },
    {
      "epoch": 2.452337089242106,
      "grad_norm": 3.550443172454834,
      "learning_rate": 5.149715069230049e-05,
      "loss": 0.48622884750366213,
      "memory(GiB)": 70.5,
      "step": 57240,
      "token_acc": 0.8996960486322189,
      "train_speed(iter/s)": 1.448272
    },
    {
      "epoch": 2.452551304571355,
      "grad_norm": 4.146138668060303,
      "learning_rate": 5.149042392329333e-05,
      "loss": 0.33394978046417234,
      "memory(GiB)": 70.5,
      "step": 57245,
      "token_acc": 0.9328621908127208,
      "train_speed(iter/s)": 1.448284
    },
    {
      "epoch": 2.452765519900604,
      "grad_norm": 5.634178161621094,
      "learning_rate": 5.148369712728572e-05,
      "loss": 0.45397200584411623,
      "memory(GiB)": 70.5,
      "step": 57250,
      "token_acc": 0.8928571428571429,
      "train_speed(iter/s)": 1.448291
    },
    {
      "epoch": 2.452979735229853,
      "grad_norm": 4.171021938323975,
      "learning_rate": 5.1476970304399565e-05,
      "loss": 0.47551565170288085,
      "memory(GiB)": 70.5,
      "step": 57255,
      "token_acc": 0.8843537414965986,
      "train_speed(iter/s)": 1.44829
    },
    {
      "epoch": 2.453193950559102,
      "grad_norm": 5.587617874145508,
      "learning_rate": 5.1470243454756694e-05,
      "loss": 0.3858364105224609,
      "memory(GiB)": 70.5,
      "step": 57260,
      "token_acc": 0.9143835616438356,
      "train_speed(iter/s)": 1.448294
    },
    {
      "epoch": 2.453408165888351,
      "grad_norm": 3.9496777057647705,
      "learning_rate": 5.146351657847898e-05,
      "loss": 0.3622389793395996,
      "memory(GiB)": 70.5,
      "step": 57265,
      "token_acc": 0.9233333333333333,
      "train_speed(iter/s)": 1.448309
    },
    {
      "epoch": 2.4536223812176,
      "grad_norm": 3.154157876968384,
      "learning_rate": 5.14567896756883e-05,
      "loss": 0.29033479690551756,
      "memory(GiB)": 70.5,
      "step": 57270,
      "token_acc": 0.9136212624584718,
      "train_speed(iter/s)": 1.448306
    },
    {
      "epoch": 2.4538365965468487,
      "grad_norm": 3.855154275894165,
      "learning_rate": 5.145006274650652e-05,
      "loss": 0.5654054641723633,
      "memory(GiB)": 70.5,
      "step": 57275,
      "token_acc": 0.8862876254180602,
      "train_speed(iter/s)": 1.448308
    },
    {
      "epoch": 2.454050811876098,
      "grad_norm": 4.873984336853027,
      "learning_rate": 5.144333579105547e-05,
      "loss": 0.2679815530776978,
      "memory(GiB)": 70.5,
      "step": 57280,
      "token_acc": 0.9507042253521126,
      "train_speed(iter/s)": 1.448297
    },
    {
      "epoch": 2.454265027205347,
      "grad_norm": 4.955414295196533,
      "learning_rate": 5.143660880945705e-05,
      "loss": 0.6150885581970215,
      "memory(GiB)": 70.5,
      "step": 57285,
      "token_acc": 0.8768115942028986,
      "train_speed(iter/s)": 1.448296
    },
    {
      "epoch": 2.4544792425345956,
      "grad_norm": 3.182302474975586,
      "learning_rate": 5.1429881801833116e-05,
      "loss": 0.29818115234375,
      "memory(GiB)": 70.5,
      "step": 57290,
      "token_acc": 0.9556451612903226,
      "train_speed(iter/s)": 1.448297
    },
    {
      "epoch": 2.454693457863845,
      "grad_norm": 3.328632116317749,
      "learning_rate": 5.1423154768305524e-05,
      "loss": 0.5018520832061768,
      "memory(GiB)": 70.5,
      "step": 57295,
      "token_acc": 0.9128919860627178,
      "train_speed(iter/s)": 1.448304
    },
    {
      "epoch": 2.4549076731930937,
      "grad_norm": 1.3337379693984985,
      "learning_rate": 5.1416427708996154e-05,
      "loss": 0.4940495014190674,
      "memory(GiB)": 70.5,
      "step": 57300,
      "token_acc": 0.8855218855218855,
      "train_speed(iter/s)": 1.44832
    },
    {
      "epoch": 2.4551218885223425,
      "grad_norm": 4.709545135498047,
      "learning_rate": 5.1409700624026855e-05,
      "loss": 0.5250825405120849,
      "memory(GiB)": 70.5,
      "step": 57305,
      "token_acc": 0.9080882352941176,
      "train_speed(iter/s)": 1.448333
    },
    {
      "epoch": 2.4553361038515917,
      "grad_norm": 2.801558256149292,
      "learning_rate": 5.1402973513519527e-05,
      "loss": 0.6051984786987304,
      "memory(GiB)": 70.5,
      "step": 57310,
      "token_acc": 0.8932806324110671,
      "train_speed(iter/s)": 1.448345
    },
    {
      "epoch": 2.4555503191808405,
      "grad_norm": 3.4132633209228516,
      "learning_rate": 5.139624637759601e-05,
      "loss": 0.44390435218811036,
      "memory(GiB)": 70.5,
      "step": 57315,
      "token_acc": 0.8901098901098901,
      "train_speed(iter/s)": 1.44835
    },
    {
      "epoch": 2.4557645345100894,
      "grad_norm": 6.438333511352539,
      "learning_rate": 5.138951921637817e-05,
      "loss": 0.4446430206298828,
      "memory(GiB)": 70.5,
      "step": 57320,
      "token_acc": 0.8978328173374613,
      "train_speed(iter/s)": 1.448353
    },
    {
      "epoch": 2.4559787498393386,
      "grad_norm": 3.5518391132354736,
      "learning_rate": 5.1382792029987904e-05,
      "loss": 0.34377572536468504,
      "memory(GiB)": 70.5,
      "step": 57325,
      "token_acc": 0.9236363636363636,
      "train_speed(iter/s)": 1.448355
    },
    {
      "epoch": 2.4561929651685874,
      "grad_norm": 1.894930362701416,
      "learning_rate": 5.137606481854705e-05,
      "loss": 0.4266801834106445,
      "memory(GiB)": 70.5,
      "step": 57330,
      "token_acc": 0.8981818181818182,
      "train_speed(iter/s)": 1.448373
    },
    {
      "epoch": 2.4564071804978362,
      "grad_norm": 3.741417169570923,
      "learning_rate": 5.136933758217749e-05,
      "loss": 0.37605106830596924,
      "memory(GiB)": 70.5,
      "step": 57335,
      "token_acc": 0.92,
      "train_speed(iter/s)": 1.448373
    },
    {
      "epoch": 2.4566213958270855,
      "grad_norm": 2.9244461059570312,
      "learning_rate": 5.13626103210011e-05,
      "loss": 0.16047637462615966,
      "memory(GiB)": 70.5,
      "step": 57340,
      "token_acc": 0.9659090909090909,
      "train_speed(iter/s)": 1.448374
    },
    {
      "epoch": 2.4568356111563343,
      "grad_norm": 2.7852649688720703,
      "learning_rate": 5.135588303513975e-05,
      "loss": 0.23168425559997557,
      "memory(GiB)": 70.5,
      "step": 57345,
      "token_acc": 0.9543859649122807,
      "train_speed(iter/s)": 1.448376
    },
    {
      "epoch": 2.457049826485583,
      "grad_norm": 2.2606663703918457,
      "learning_rate": 5.1349155724715294e-05,
      "loss": 0.45886988639831544,
      "memory(GiB)": 70.5,
      "step": 57350,
      "token_acc": 0.9183673469387755,
      "train_speed(iter/s)": 1.448382
    },
    {
      "epoch": 2.4572640418148324,
      "grad_norm": 2.3765628337860107,
      "learning_rate": 5.1342428389849626e-05,
      "loss": 0.25389719009399414,
      "memory(GiB)": 70.5,
      "step": 57355,
      "token_acc": 0.9444444444444444,
      "train_speed(iter/s)": 1.448381
    },
    {
      "epoch": 2.457478257144081,
      "grad_norm": 2.1347835063934326,
      "learning_rate": 5.133570103066462e-05,
      "loss": 0.3848104476928711,
      "memory(GiB)": 70.5,
      "step": 57360,
      "token_acc": 0.919093851132686,
      "train_speed(iter/s)": 1.448408
    },
    {
      "epoch": 2.45769247247333,
      "grad_norm": 4.5239691734313965,
      "learning_rate": 5.1328973647282116e-05,
      "loss": 0.2631680011749268,
      "memory(GiB)": 70.5,
      "step": 57365,
      "token_acc": 0.9288256227758007,
      "train_speed(iter/s)": 1.448402
    },
    {
      "epoch": 2.4579066878025793,
      "grad_norm": 3.230781316757202,
      "learning_rate": 5.1322246239824024e-05,
      "loss": 0.31971254348754885,
      "memory(GiB)": 70.5,
      "step": 57370,
      "token_acc": 0.9141914191419142,
      "train_speed(iter/s)": 1.448398
    },
    {
      "epoch": 2.458120903131828,
      "grad_norm": 3.502159595489502,
      "learning_rate": 5.131551880841219e-05,
      "loss": 0.32837982177734376,
      "memory(GiB)": 70.5,
      "step": 57375,
      "token_acc": 0.9043824701195219,
      "train_speed(iter/s)": 1.448416
    },
    {
      "epoch": 2.458335118461077,
      "grad_norm": 2.6337080001831055,
      "learning_rate": 5.1308791353168484e-05,
      "loss": 0.5119675159454345,
      "memory(GiB)": 70.5,
      "step": 57380,
      "token_acc": 0.9034749034749034,
      "train_speed(iter/s)": 1.448429
    },
    {
      "epoch": 2.458549333790326,
      "grad_norm": 2.750481128692627,
      "learning_rate": 5.130206387421482e-05,
      "loss": 0.46085262298583984,
      "memory(GiB)": 70.5,
      "step": 57385,
      "token_acc": 0.9185667752442996,
      "train_speed(iter/s)": 1.448446
    },
    {
      "epoch": 2.458763549119575,
      "grad_norm": 1.7483971118927002,
      "learning_rate": 5.1295336371673045e-05,
      "loss": 0.4210374355316162,
      "memory(GiB)": 70.5,
      "step": 57390,
      "token_acc": 0.9102990033222591,
      "train_speed(iter/s)": 1.448456
    },
    {
      "epoch": 2.4589777644488238,
      "grad_norm": 3.512218713760376,
      "learning_rate": 5.1288608845665034e-05,
      "loss": 0.6180743217468262,
      "memory(GiB)": 70.5,
      "step": 57395,
      "token_acc": 0.8725868725868726,
      "train_speed(iter/s)": 1.448467
    },
    {
      "epoch": 2.459191979778073,
      "grad_norm": 4.392849922180176,
      "learning_rate": 5.128188129631266e-05,
      "loss": 0.4831393718719482,
      "memory(GiB)": 70.5,
      "step": 57400,
      "token_acc": 0.9047619047619048,
      "train_speed(iter/s)": 1.448472
    },
    {
      "epoch": 2.459406195107322,
      "grad_norm": 0.13307121396064758,
      "learning_rate": 5.12751537237378e-05,
      "loss": 0.33095386028289797,
      "memory(GiB)": 70.5,
      "step": 57405,
      "token_acc": 0.9407665505226481,
      "train_speed(iter/s)": 1.448486
    },
    {
      "epoch": 2.4596204104365706,
      "grad_norm": 4.319854736328125,
      "learning_rate": 5.126842612806234e-05,
      "loss": 0.35591554641723633,
      "memory(GiB)": 70.5,
      "step": 57410,
      "token_acc": 0.9178082191780822,
      "train_speed(iter/s)": 1.448489
    },
    {
      "epoch": 2.45983462576582,
      "grad_norm": 0.690584659576416,
      "learning_rate": 5.1261698509408154e-05,
      "loss": 0.2808829307556152,
      "memory(GiB)": 70.5,
      "step": 57415,
      "token_acc": 0.9335443037974683,
      "train_speed(iter/s)": 1.44849
    },
    {
      "epoch": 2.4600488410950687,
      "grad_norm": 0.33131173253059387,
      "learning_rate": 5.125497086789711e-05,
      "loss": 0.4754952907562256,
      "memory(GiB)": 70.5,
      "step": 57420,
      "token_acc": 0.9037800687285223,
      "train_speed(iter/s)": 1.448507
    },
    {
      "epoch": 2.460263056424318,
      "grad_norm": 3.8474037647247314,
      "learning_rate": 5.1248243203651094e-05,
      "loss": 0.36409337520599366,
      "memory(GiB)": 70.5,
      "step": 57425,
      "token_acc": 0.8916967509025271,
      "train_speed(iter/s)": 1.448503
    },
    {
      "epoch": 2.460477271753567,
      "grad_norm": 4.821377277374268,
      "learning_rate": 5.124151551679198e-05,
      "loss": 0.33535501956939695,
      "memory(GiB)": 70.5,
      "step": 57430,
      "token_acc": 0.9256505576208178,
      "train_speed(iter/s)": 1.448509
    },
    {
      "epoch": 2.4606914870828156,
      "grad_norm": 3.6813952922821045,
      "learning_rate": 5.1234787807441655e-05,
      "loss": 0.20571620464324952,
      "memory(GiB)": 70.5,
      "step": 57435,
      "token_acc": 0.9405204460966543,
      "train_speed(iter/s)": 1.448525
    },
    {
      "epoch": 2.460905702412065,
      "grad_norm": 1.302983283996582,
      "learning_rate": 5.122806007572198e-05,
      "loss": 0.4556541442871094,
      "memory(GiB)": 70.5,
      "step": 57440,
      "token_acc": 0.9034267912772586,
      "train_speed(iter/s)": 1.448517
    },
    {
      "epoch": 2.4611199177413137,
      "grad_norm": 4.141223907470703,
      "learning_rate": 5.1221332321754855e-05,
      "loss": 0.3118530988693237,
      "memory(GiB)": 70.5,
      "step": 57445,
      "token_acc": 0.946236559139785,
      "train_speed(iter/s)": 1.448516
    },
    {
      "epoch": 2.4613341330705625,
      "grad_norm": 2.997743606567383,
      "learning_rate": 5.1214604545662135e-05,
      "loss": 0.3710240364074707,
      "memory(GiB)": 70.5,
      "step": 57450,
      "token_acc": 0.9153094462540716,
      "train_speed(iter/s)": 1.448517
    },
    {
      "epoch": 2.4615483483998117,
      "grad_norm": 5.682093143463135,
      "learning_rate": 5.120787674756573e-05,
      "loss": 0.20258989334106445,
      "memory(GiB)": 70.5,
      "step": 57455,
      "token_acc": 0.9691780821917808,
      "train_speed(iter/s)": 1.44852
    },
    {
      "epoch": 2.4617625637290605,
      "grad_norm": 1.3123506307601929,
      "learning_rate": 5.120114892758749e-05,
      "loss": 0.30606348514556886,
      "memory(GiB)": 70.5,
      "step": 57460,
      "token_acc": 0.9394812680115274,
      "train_speed(iter/s)": 1.448523
    },
    {
      "epoch": 2.4619767790583094,
      "grad_norm": 7.336658000946045,
      "learning_rate": 5.119442108584932e-05,
      "loss": 0.4541748046875,
      "memory(GiB)": 70.5,
      "step": 57465,
      "token_acc": 0.9094488188976378,
      "train_speed(iter/s)": 1.44853
    },
    {
      "epoch": 2.4621909943875586,
      "grad_norm": 2.516355514526367,
      "learning_rate": 5.11876932224731e-05,
      "loss": 0.3995200157165527,
      "memory(GiB)": 70.5,
      "step": 57470,
      "token_acc": 0.9120521172638436,
      "train_speed(iter/s)": 1.448535
    },
    {
      "epoch": 2.4624052097168074,
      "grad_norm": 5.464118957519531,
      "learning_rate": 5.11809653375807e-05,
      "loss": 0.3761723041534424,
      "memory(GiB)": 70.5,
      "step": 57475,
      "token_acc": 0.9296875,
      "train_speed(iter/s)": 1.448544
    },
    {
      "epoch": 2.4626194250460562,
      "grad_norm": 3.897918939590454,
      "learning_rate": 5.1174237431293994e-05,
      "loss": 0.2936774730682373,
      "memory(GiB)": 70.5,
      "step": 57480,
      "token_acc": 0.9328358208955224,
      "train_speed(iter/s)": 1.448549
    },
    {
      "epoch": 2.4628336403753055,
      "grad_norm": 0.7981911301612854,
      "learning_rate": 5.116750950373487e-05,
      "loss": 0.4814487934112549,
      "memory(GiB)": 70.5,
      "step": 57485,
      "token_acc": 0.8878504672897196,
      "train_speed(iter/s)": 1.448555
    },
    {
      "epoch": 2.4630478557045543,
      "grad_norm": 4.580133438110352,
      "learning_rate": 5.1160781555025225e-05,
      "loss": 0.3346451759338379,
      "memory(GiB)": 70.5,
      "step": 57490,
      "token_acc": 0.9461538461538461,
      "train_speed(iter/s)": 1.44856
    },
    {
      "epoch": 2.463262071033803,
      "grad_norm": 5.6508708000183105,
      "learning_rate": 5.115405358528693e-05,
      "loss": 0.5510771751403809,
      "memory(GiB)": 70.5,
      "step": 57495,
      "token_acc": 0.8915343915343915,
      "train_speed(iter/s)": 1.448574
    },
    {
      "epoch": 2.4634762863630524,
      "grad_norm": 0.6537868976593018,
      "learning_rate": 5.114732559464188e-05,
      "loss": 0.25106942653656006,
      "memory(GiB)": 70.5,
      "step": 57500,
      "token_acc": 0.940809968847352,
      "train_speed(iter/s)": 1.448572
    },
    {
      "epoch": 2.4634762863630524,
      "eval_loss": 2.226762294769287,
      "eval_runtime": 14.1431,
      "eval_samples_per_second": 7.071,
      "eval_steps_per_second": 7.071,
      "eval_token_acc": 0.4633821571238349,
      "step": 57500
    },
    {
      "epoch": 2.463690501692301,
      "grad_norm": 5.141593933105469,
      "learning_rate": 5.114059758321196e-05,
      "loss": 0.5656673431396484,
      "memory(GiB)": 70.5,
      "step": 57505,
      "token_acc": 0.5967153284671532,
      "train_speed(iter/s)": 1.448014
    },
    {
      "epoch": 2.46390471702155,
      "grad_norm": 3.721742630004883,
      "learning_rate": 5.1133869551119016e-05,
      "loss": 0.2736979961395264,
      "memory(GiB)": 70.5,
      "step": 57510,
      "token_acc": 0.9477351916376306,
      "train_speed(iter/s)": 1.448015
    },
    {
      "epoch": 2.4641189323507993,
      "grad_norm": 2.8623461723327637,
      "learning_rate": 5.112714149848499e-05,
      "loss": 0.6348925590515136,
      "memory(GiB)": 70.5,
      "step": 57515,
      "token_acc": 0.904,
      "train_speed(iter/s)": 1.448017
    },
    {
      "epoch": 2.464333147680048,
      "grad_norm": 2.298549175262451,
      "learning_rate": 5.112041342543171e-05,
      "loss": 0.19450544118881224,
      "memory(GiB)": 70.5,
      "step": 57520,
      "token_acc": 0.9494584837545126,
      "train_speed(iter/s)": 1.448021
    },
    {
      "epoch": 2.464547363009297,
      "grad_norm": 2.084829092025757,
      "learning_rate": 5.1113685332081094e-05,
      "loss": 0.3198352098464966,
      "memory(GiB)": 70.5,
      "step": 57525,
      "token_acc": 0.9441176470588235,
      "train_speed(iter/s)": 1.448025
    },
    {
      "epoch": 2.464761578338546,
      "grad_norm": 2.7829604148864746,
      "learning_rate": 5.110695721855505e-05,
      "loss": 0.25968480110168457,
      "memory(GiB)": 70.5,
      "step": 57530,
      "token_acc": 0.9496402877697842,
      "train_speed(iter/s)": 1.448028
    },
    {
      "epoch": 2.464975793667795,
      "grad_norm": 4.313577175140381,
      "learning_rate": 5.1100229084975424e-05,
      "loss": 0.42516179084777833,
      "memory(GiB)": 70.5,
      "step": 57535,
      "token_acc": 0.9036144578313253,
      "train_speed(iter/s)": 1.448034
    },
    {
      "epoch": 2.4651900089970438,
      "grad_norm": 6.713052749633789,
      "learning_rate": 5.109350093146411e-05,
      "loss": 0.4600831508636475,
      "memory(GiB)": 70.5,
      "step": 57540,
      "token_acc": 0.8984375,
      "train_speed(iter/s)": 1.448037
    },
    {
      "epoch": 2.465404224326293,
      "grad_norm": 4.533518314361572,
      "learning_rate": 5.108677275814301e-05,
      "loss": 0.32813096046447754,
      "memory(GiB)": 70.5,
      "step": 57545,
      "token_acc": 0.926829268292683,
      "train_speed(iter/s)": 1.448034
    },
    {
      "epoch": 2.465618439655542,
      "grad_norm": 2.270995855331421,
      "learning_rate": 5.108004456513399e-05,
      "loss": 0.18810672760009767,
      "memory(GiB)": 70.5,
      "step": 57550,
      "token_acc": 0.9421768707482994,
      "train_speed(iter/s)": 1.448033
    },
    {
      "epoch": 2.4658326549847907,
      "grad_norm": 5.517618179321289,
      "learning_rate": 5.107331635255895e-05,
      "loss": 0.2597689628601074,
      "memory(GiB)": 70.5,
      "step": 57555,
      "token_acc": 0.9407665505226481,
      "train_speed(iter/s)": 1.448049
    },
    {
      "epoch": 2.46604687031404,
      "grad_norm": 4.748538017272949,
      "learning_rate": 5.1066588120539785e-05,
      "loss": 0.2662620782852173,
      "memory(GiB)": 70.5,
      "step": 57560,
      "token_acc": 0.9486166007905138,
      "train_speed(iter/s)": 1.448069
    },
    {
      "epoch": 2.4662610856432887,
      "grad_norm": 0.1795201599597931,
      "learning_rate": 5.105985986919838e-05,
      "loss": 0.24135701656341552,
      "memory(GiB)": 70.5,
      "step": 57565,
      "token_acc": 0.9419354838709677,
      "train_speed(iter/s)": 1.448076
    },
    {
      "epoch": 2.4664753009725375,
      "grad_norm": 2.888547420501709,
      "learning_rate": 5.1053131598656614e-05,
      "loss": 0.48728437423706056,
      "memory(GiB)": 70.5,
      "step": 57570,
      "token_acc": 0.8882521489971347,
      "train_speed(iter/s)": 1.448071
    },
    {
      "epoch": 2.466689516301787,
      "grad_norm": 4.077663421630859,
      "learning_rate": 5.104640330903638e-05,
      "loss": 0.24443700313568115,
      "memory(GiB)": 70.5,
      "step": 57575,
      "token_acc": 0.9578651685393258,
      "train_speed(iter/s)": 1.448078
    },
    {
      "epoch": 2.4669037316310356,
      "grad_norm": 6.469759941101074,
      "learning_rate": 5.103967500045956e-05,
      "loss": 0.5081413269042969,
      "memory(GiB)": 70.5,
      "step": 57580,
      "token_acc": 0.8920863309352518,
      "train_speed(iter/s)": 1.448079
    },
    {
      "epoch": 2.4671179469602844,
      "grad_norm": 4.494875907897949,
      "learning_rate": 5.1032946673048067e-05,
      "loss": 0.4226790428161621,
      "memory(GiB)": 70.5,
      "step": 57585,
      "token_acc": 0.900355871886121,
      "train_speed(iter/s)": 1.448081
    },
    {
      "epoch": 2.4673321622895337,
      "grad_norm": 3.0619664192199707,
      "learning_rate": 5.102621832692378e-05,
      "loss": 0.4612852096557617,
      "memory(GiB)": 70.5,
      "step": 57590,
      "token_acc": 0.8993506493506493,
      "train_speed(iter/s)": 1.448082
    },
    {
      "epoch": 2.4675463776187825,
      "grad_norm": 3.9224090576171875,
      "learning_rate": 5.1019489962208555e-05,
      "loss": 0.4343403816223145,
      "memory(GiB)": 70.5,
      "step": 57595,
      "token_acc": 0.9077809798270894,
      "train_speed(iter/s)": 1.448084
    },
    {
      "epoch": 2.4677605929480313,
      "grad_norm": 3.3029725551605225,
      "learning_rate": 5.101276157902434e-05,
      "loss": 0.1526494264602661,
      "memory(GiB)": 70.5,
      "step": 57600,
      "token_acc": 0.9609120521172638,
      "train_speed(iter/s)": 1.448077
    },
    {
      "epoch": 2.4679748082772806,
      "grad_norm": 16.864526748657227,
      "learning_rate": 5.100603317749299e-05,
      "loss": 0.4483452796936035,
      "memory(GiB)": 70.5,
      "step": 57605,
      "token_acc": 0.9017857142857143,
      "train_speed(iter/s)": 1.448093
    },
    {
      "epoch": 2.4681890236065294,
      "grad_norm": 0.016532177105545998,
      "learning_rate": 5.099930475773641e-05,
      "loss": 0.24435489177703856,
      "memory(GiB)": 70.5,
      "step": 57610,
      "token_acc": 0.9420849420849421,
      "train_speed(iter/s)": 1.448097
    },
    {
      "epoch": 2.468403238935778,
      "grad_norm": 4.017344951629639,
      "learning_rate": 5.099257631987648e-05,
      "loss": 0.22484233379364013,
      "memory(GiB)": 70.5,
      "step": 57615,
      "token_acc": 0.9547169811320755,
      "train_speed(iter/s)": 1.448094
    },
    {
      "epoch": 2.4686174542650274,
      "grad_norm": 2.2246880531311035,
      "learning_rate": 5.098584786403512e-05,
      "loss": 0.3118997573852539,
      "memory(GiB)": 70.5,
      "step": 57620,
      "token_acc": 0.9235880398671097,
      "train_speed(iter/s)": 1.448088
    },
    {
      "epoch": 2.4688316695942762,
      "grad_norm": 0.4765454828739166,
      "learning_rate": 5.0979119390334175e-05,
      "loss": 0.3198455095291138,
      "memory(GiB)": 70.5,
      "step": 57625,
      "token_acc": 0.9290322580645162,
      "train_speed(iter/s)": 1.448086
    },
    {
      "epoch": 2.469045884923525,
      "grad_norm": 4.370665550231934,
      "learning_rate": 5.097239089889558e-05,
      "loss": 0.45493717193603517,
      "memory(GiB)": 70.5,
      "step": 57630,
      "token_acc": 0.9065743944636678,
      "train_speed(iter/s)": 1.448086
    },
    {
      "epoch": 2.4692601002527743,
      "grad_norm": 1.7771892547607422,
      "learning_rate": 5.0965662389841196e-05,
      "loss": 0.21089978218078614,
      "memory(GiB)": 70.5,
      "step": 57635,
      "token_acc": 0.9496402877697842,
      "train_speed(iter/s)": 1.448091
    },
    {
      "epoch": 2.469474315582023,
      "grad_norm": 1.1322224140167236,
      "learning_rate": 5.095893386329293e-05,
      "loss": 0.401251220703125,
      "memory(GiB)": 70.5,
      "step": 57640,
      "token_acc": 0.9151943462897526,
      "train_speed(iter/s)": 1.448088
    },
    {
      "epoch": 2.469688530911272,
      "grad_norm": 2.2274117469787598,
      "learning_rate": 5.0952205319372706e-05,
      "loss": 0.35601975917816164,
      "memory(GiB)": 70.5,
      "step": 57645,
      "token_acc": 0.9198473282442748,
      "train_speed(iter/s)": 1.448115
    },
    {
      "epoch": 2.469902746240521,
      "grad_norm": 2.631916046142578,
      "learning_rate": 5.094547675820237e-05,
      "loss": 0.20703794956207275,
      "memory(GiB)": 70.5,
      "step": 57650,
      "token_acc": 0.9628252788104089,
      "train_speed(iter/s)": 1.448116
    },
    {
      "epoch": 2.47011696156977,
      "grad_norm": 3.208961248397827,
      "learning_rate": 5.093874817990383e-05,
      "loss": 0.3639467477798462,
      "memory(GiB)": 70.5,
      "step": 57655,
      "token_acc": 0.9240924092409241,
      "train_speed(iter/s)": 1.448122
    },
    {
      "epoch": 2.470331176899019,
      "grad_norm": 2.897606134414673,
      "learning_rate": 5.0932019584599e-05,
      "loss": 0.19153220653533937,
      "memory(GiB)": 70.5,
      "step": 57660,
      "token_acc": 0.9578544061302682,
      "train_speed(iter/s)": 1.448115
    },
    {
      "epoch": 2.470545392228268,
      "grad_norm": 0.30485573410987854,
      "learning_rate": 5.092529097240976e-05,
      "loss": 0.15061994791030883,
      "memory(GiB)": 70.5,
      "step": 57665,
      "token_acc": 0.9759450171821306,
      "train_speed(iter/s)": 1.448115
    },
    {
      "epoch": 2.470759607557517,
      "grad_norm": 4.037619113922119,
      "learning_rate": 5.091856234345799e-05,
      "loss": 0.49530630111694335,
      "memory(GiB)": 70.5,
      "step": 57670,
      "token_acc": 0.8904109589041096,
      "train_speed(iter/s)": 1.448112
    },
    {
      "epoch": 2.4709738228867657,
      "grad_norm": 3.223482131958008,
      "learning_rate": 5.0911833697865607e-05,
      "loss": 0.1896933674812317,
      "memory(GiB)": 70.5,
      "step": 57675,
      "token_acc": 0.9528985507246377,
      "train_speed(iter/s)": 1.448111
    },
    {
      "epoch": 2.471188038216015,
      "grad_norm": 1.139317512512207,
      "learning_rate": 5.0905105035754516e-05,
      "loss": 0.32213854789733887,
      "memory(GiB)": 70.5,
      "step": 57680,
      "token_acc": 0.9220338983050848,
      "train_speed(iter/s)": 1.448125
    },
    {
      "epoch": 2.4714022535452638,
      "grad_norm": 5.615582466125488,
      "learning_rate": 5.089837635724658e-05,
      "loss": 0.5486551284790039,
      "memory(GiB)": 70.5,
      "step": 57685,
      "token_acc": 0.8740458015267175,
      "train_speed(iter/s)": 1.448142
    },
    {
      "epoch": 2.4716164688745126,
      "grad_norm": 2.2609503269195557,
      "learning_rate": 5.0891647662463724e-05,
      "loss": 0.33198723793029783,
      "memory(GiB)": 70.5,
      "step": 57690,
      "token_acc": 0.9311475409836065,
      "train_speed(iter/s)": 1.448142
    },
    {
      "epoch": 2.471830684203762,
      "grad_norm": 4.014735221862793,
      "learning_rate": 5.088491895152784e-05,
      "loss": 0.21634740829467775,
      "memory(GiB)": 70.5,
      "step": 57695,
      "token_acc": 0.9465020576131687,
      "train_speed(iter/s)": 1.448142
    },
    {
      "epoch": 2.4720448995330107,
      "grad_norm": 6.342479705810547,
      "learning_rate": 5.0878190224560804e-05,
      "loss": 0.19491324424743653,
      "memory(GiB)": 70.5,
      "step": 57700,
      "token_acc": 0.9466192170818505,
      "train_speed(iter/s)": 1.448142
    },
    {
      "epoch": 2.4722591148622595,
      "grad_norm": 3.2803385257720947,
      "learning_rate": 5.0871461481684546e-05,
      "loss": 0.16082704067230225,
      "memory(GiB)": 70.5,
      "step": 57705,
      "token_acc": 0.9597069597069597,
      "train_speed(iter/s)": 1.448144
    },
    {
      "epoch": 2.4724733301915087,
      "grad_norm": 3.5789096355438232,
      "learning_rate": 5.0864732723020915e-05,
      "loss": 0.38210196495056153,
      "memory(GiB)": 70.5,
      "step": 57710,
      "token_acc": 0.9438596491228071,
      "train_speed(iter/s)": 1.448158
    },
    {
      "epoch": 2.4726875455207575,
      "grad_norm": 4.992557525634766,
      "learning_rate": 5.085800394869187e-05,
      "loss": 0.6534647941589355,
      "memory(GiB)": 70.5,
      "step": 57715,
      "token_acc": 0.8659420289855072,
      "train_speed(iter/s)": 1.448153
    },
    {
      "epoch": 2.4729017608500063,
      "grad_norm": 5.504053115844727,
      "learning_rate": 5.0851275158819264e-05,
      "loss": 0.5103494167327881,
      "memory(GiB)": 70.5,
      "step": 57720,
      "token_acc": 0.9153094462540716,
      "train_speed(iter/s)": 1.448147
    },
    {
      "epoch": 2.4731159761792556,
      "grad_norm": 0.2236536741256714,
      "learning_rate": 5.084454635352501e-05,
      "loss": 0.20838935375213624,
      "memory(GiB)": 70.5,
      "step": 57725,
      "token_acc": 0.9505703422053232,
      "train_speed(iter/s)": 1.448142
    },
    {
      "epoch": 2.4733301915085044,
      "grad_norm": 1.6235387325286865,
      "learning_rate": 5.083781753293102e-05,
      "loss": 0.12348778247833252,
      "memory(GiB)": 70.5,
      "step": 57730,
      "token_acc": 0.9701492537313433,
      "train_speed(iter/s)": 1.448142
    },
    {
      "epoch": 2.4735444068377532,
      "grad_norm": 2.560702085494995,
      "learning_rate": 5.083108869715918e-05,
      "loss": 0.34062347412109373,
      "memory(GiB)": 70.5,
      "step": 57735,
      "token_acc": 0.9233870967741935,
      "train_speed(iter/s)": 1.448157
    },
    {
      "epoch": 2.4737586221670025,
      "grad_norm": 8.288564682006836,
      "learning_rate": 5.082435984633137e-05,
      "loss": 0.6879231929779053,
      "memory(GiB)": 70.5,
      "step": 57740,
      "token_acc": 0.8644688644688645,
      "train_speed(iter/s)": 1.448155
    },
    {
      "epoch": 2.4739728374962513,
      "grad_norm": 1.5602251291275024,
      "learning_rate": 5.081763098056951e-05,
      "loss": 0.3509143114089966,
      "memory(GiB)": 70.5,
      "step": 57745,
      "token_acc": 0.9330985915492958,
      "train_speed(iter/s)": 1.448148
    },
    {
      "epoch": 2.4741870528255,
      "grad_norm": 7.003243446350098,
      "learning_rate": 5.08109020999955e-05,
      "loss": 0.6695644378662109,
      "memory(GiB)": 70.5,
      "step": 57750,
      "token_acc": 0.8600682593856656,
      "train_speed(iter/s)": 1.448155
    },
    {
      "epoch": 2.4744012681547494,
      "grad_norm": 8.481746673583984,
      "learning_rate": 5.080417320473124e-05,
      "loss": 0.5123307228088378,
      "memory(GiB)": 70.5,
      "step": 57755,
      "token_acc": 0.9157894736842105,
      "train_speed(iter/s)": 1.448148
    },
    {
      "epoch": 2.474615483483998,
      "grad_norm": 3.320241928100586,
      "learning_rate": 5.0797444294898644e-05,
      "loss": 0.3713593721389771,
      "memory(GiB)": 70.5,
      "step": 57760,
      "token_acc": 0.9310344827586207,
      "train_speed(iter/s)": 1.448148
    },
    {
      "epoch": 2.474829698813247,
      "grad_norm": 3.2255969047546387,
      "learning_rate": 5.079071537061959e-05,
      "loss": 0.4024803638458252,
      "memory(GiB)": 70.5,
      "step": 57765,
      "token_acc": 0.911660777385159,
      "train_speed(iter/s)": 1.448146
    },
    {
      "epoch": 2.4750439141424962,
      "grad_norm": 2.117729663848877,
      "learning_rate": 5.078398643201597e-05,
      "loss": 0.43294405937194824,
      "memory(GiB)": 70.5,
      "step": 57770,
      "token_acc": 0.9063444108761329,
      "train_speed(iter/s)": 1.44815
    },
    {
      "epoch": 2.475258129471745,
      "grad_norm": 2.1570982933044434,
      "learning_rate": 5.077725747920972e-05,
      "loss": 0.16863411664962769,
      "memory(GiB)": 70.5,
      "step": 57775,
      "token_acc": 0.9661016949152542,
      "train_speed(iter/s)": 1.448151
    },
    {
      "epoch": 2.475472344800994,
      "grad_norm": 1.0152091979980469,
      "learning_rate": 5.07705285123227e-05,
      "loss": 0.1779167413711548,
      "memory(GiB)": 70.5,
      "step": 57780,
      "token_acc": 0.9562289562289562,
      "train_speed(iter/s)": 1.448153
    },
    {
      "epoch": 2.475686560130243,
      "grad_norm": 5.921262264251709,
      "learning_rate": 5.076379953147684e-05,
      "loss": 0.3118840456008911,
      "memory(GiB)": 70.5,
      "step": 57785,
      "token_acc": 0.9355932203389831,
      "train_speed(iter/s)": 1.448155
    },
    {
      "epoch": 2.475900775459492,
      "grad_norm": 3.110541820526123,
      "learning_rate": 5.075707053679404e-05,
      "loss": 0.2043220043182373,
      "memory(GiB)": 70.5,
      "step": 57790,
      "token_acc": 0.9507042253521126,
      "train_speed(iter/s)": 1.448151
    },
    {
      "epoch": 2.4761149907887408,
      "grad_norm": 4.457925319671631,
      "learning_rate": 5.075034152839621e-05,
      "loss": 0.3023625612258911,
      "memory(GiB)": 70.5,
      "step": 57795,
      "token_acc": 0.9347826086956522,
      "train_speed(iter/s)": 1.448147
    },
    {
      "epoch": 2.47632920611799,
      "grad_norm": 4.281535625457764,
      "learning_rate": 5.074361250640521e-05,
      "loss": 0.38251986503601076,
      "memory(GiB)": 70.5,
      "step": 57800,
      "token_acc": 0.9052631578947369,
      "train_speed(iter/s)": 1.44815
    },
    {
      "epoch": 2.476543421447239,
      "grad_norm": 1.8090054988861084,
      "learning_rate": 5.0736883470942986e-05,
      "loss": 0.21448130607604982,
      "memory(GiB)": 70.5,
      "step": 57805,
      "token_acc": 0.9570957095709571,
      "train_speed(iter/s)": 1.448156
    },
    {
      "epoch": 2.4767576367764876,
      "grad_norm": 3.3664722442626953,
      "learning_rate": 5.0730154422131424e-05,
      "loss": 0.4634557723999023,
      "memory(GiB)": 70.5,
      "step": 57810,
      "token_acc": 0.9110320284697508,
      "train_speed(iter/s)": 1.448162
    },
    {
      "epoch": 2.476971852105737,
      "grad_norm": 1.7194995880126953,
      "learning_rate": 5.072342536009245e-05,
      "loss": 0.5181403636932373,
      "memory(GiB)": 70.5,
      "step": 57815,
      "token_acc": 0.9090909090909091,
      "train_speed(iter/s)": 1.448158
    },
    {
      "epoch": 2.4771860674349857,
      "grad_norm": 5.165866374969482,
      "learning_rate": 5.071669628494792e-05,
      "loss": 0.5838961124420166,
      "memory(GiB)": 70.5,
      "step": 57820,
      "token_acc": 0.8958333333333334,
      "train_speed(iter/s)": 1.44817
    },
    {
      "epoch": 2.4774002827642345,
      "grad_norm": 4.031564712524414,
      "learning_rate": 5.070996719681977e-05,
      "loss": 0.4997495174407959,
      "memory(GiB)": 70.5,
      "step": 57825,
      "token_acc": 0.9122807017543859,
      "train_speed(iter/s)": 1.448183
    },
    {
      "epoch": 2.4776144980934838,
      "grad_norm": 3.0841140747070312,
      "learning_rate": 5.070323809582991e-05,
      "loss": 0.36577553749084474,
      "memory(GiB)": 70.5,
      "step": 57830,
      "token_acc": 0.9226006191950464,
      "train_speed(iter/s)": 1.448181
    },
    {
      "epoch": 2.4778287134227326,
      "grad_norm": 2.436889171600342,
      "learning_rate": 5.0696508982100225e-05,
      "loss": 0.5106980323791503,
      "memory(GiB)": 70.5,
      "step": 57835,
      "token_acc": 0.8781512605042017,
      "train_speed(iter/s)": 1.448183
    },
    {
      "epoch": 2.4780429287519814,
      "grad_norm": 4.704957485198975,
      "learning_rate": 5.0689779855752616e-05,
      "loss": 0.49423532485961913,
      "memory(GiB)": 70.5,
      "step": 57840,
      "token_acc": 0.9027777777777778,
      "train_speed(iter/s)": 1.448195
    },
    {
      "epoch": 2.4782571440812307,
      "grad_norm": 4.427624702453613,
      "learning_rate": 5.068305071690902e-05,
      "loss": 0.4680153846740723,
      "memory(GiB)": 70.5,
      "step": 57845,
      "token_acc": 0.909433962264151,
      "train_speed(iter/s)": 1.44821
    },
    {
      "epoch": 2.4784713594104795,
      "grad_norm": 0.4787992537021637,
      "learning_rate": 5.067632156569131e-05,
      "loss": 0.30900299549102783,
      "memory(GiB)": 70.5,
      "step": 57850,
      "token_acc": 0.9138576779026217,
      "train_speed(iter/s)": 1.448202
    },
    {
      "epoch": 2.4786855747397283,
      "grad_norm": 3.6225392818450928,
      "learning_rate": 5.066959240222138e-05,
      "loss": 0.32021512985229494,
      "memory(GiB)": 70.5,
      "step": 57855,
      "token_acc": 0.9495268138801262,
      "train_speed(iter/s)": 1.448204
    },
    {
      "epoch": 2.4788997900689775,
      "grad_norm": 2.7160630226135254,
      "learning_rate": 5.066286322662118e-05,
      "loss": 0.43352417945861815,
      "memory(GiB)": 70.5,
      "step": 57860,
      "token_acc": 0.9090909090909091,
      "train_speed(iter/s)": 1.448208
    },
    {
      "epoch": 2.4791140053982264,
      "grad_norm": 3.8975117206573486,
      "learning_rate": 5.0656134039012593e-05,
      "loss": 0.5031645774841309,
      "memory(GiB)": 70.5,
      "step": 57865,
      "token_acc": 0.8854961832061069,
      "train_speed(iter/s)": 1.448205
    },
    {
      "epoch": 2.479328220727475,
      "grad_norm": 5.569057464599609,
      "learning_rate": 5.06494048395175e-05,
      "loss": 0.3610517501831055,
      "memory(GiB)": 70.5,
      "step": 57870,
      "token_acc": 0.9333333333333333,
      "train_speed(iter/s)": 1.448208
    },
    {
      "epoch": 2.4795424360567244,
      "grad_norm": 1.5605252981185913,
      "learning_rate": 5.064267562825785e-05,
      "loss": 0.20415079593658447,
      "memory(GiB)": 70.5,
      "step": 57875,
      "token_acc": 0.95703125,
      "train_speed(iter/s)": 1.448209
    },
    {
      "epoch": 2.4797566513859732,
      "grad_norm": 4.2009992599487305,
      "learning_rate": 5.0635946405355525e-05,
      "loss": 0.27608556747436525,
      "memory(GiB)": 70.5,
      "step": 57880,
      "token_acc": 0.9368029739776952,
      "train_speed(iter/s)": 1.448226
    },
    {
      "epoch": 2.479970866715222,
      "grad_norm": 2.1549198627471924,
      "learning_rate": 5.062921717093243e-05,
      "loss": 0.3411139488220215,
      "memory(GiB)": 70.5,
      "step": 57885,
      "token_acc": 0.9283489096573209,
      "train_speed(iter/s)": 1.448234
    },
    {
      "epoch": 2.4801850820444713,
      "grad_norm": 3.6851730346679688,
      "learning_rate": 5.062248792511048e-05,
      "loss": 0.489317798614502,
      "memory(GiB)": 70.5,
      "step": 57890,
      "token_acc": 0.910828025477707,
      "train_speed(iter/s)": 1.448234
    },
    {
      "epoch": 2.48039929737372,
      "grad_norm": 3.2298247814178467,
      "learning_rate": 5.061575866801157e-05,
      "loss": 0.6305659770965576,
      "memory(GiB)": 70.5,
      "step": 57895,
      "token_acc": 0.8571428571428571,
      "train_speed(iter/s)": 1.448254
    },
    {
      "epoch": 2.480613512702969,
      "grad_norm": 1.344207763671875,
      "learning_rate": 5.0609029399757615e-05,
      "loss": 0.14408282041549683,
      "memory(GiB)": 70.5,
      "step": 57900,
      "token_acc": 0.9659442724458205,
      "train_speed(iter/s)": 1.448262
    },
    {
      "epoch": 2.480827728032218,
      "grad_norm": 6.299310684204102,
      "learning_rate": 5.060230012047052e-05,
      "loss": 0.4464579582214355,
      "memory(GiB)": 70.5,
      "step": 57905,
      "token_acc": 0.8996138996138996,
      "train_speed(iter/s)": 1.448282
    },
    {
      "epoch": 2.481041943361467,
      "grad_norm": 4.062583923339844,
      "learning_rate": 5.059557083027221e-05,
      "loss": 0.38767390251159667,
      "memory(GiB)": 70.5,
      "step": 57910,
      "token_acc": 0.8976109215017065,
      "train_speed(iter/s)": 1.448281
    },
    {
      "epoch": 2.481256158690716,
      "grad_norm": 2.4842631816864014,
      "learning_rate": 5.058884152928455e-05,
      "loss": 0.22927021980285645,
      "memory(GiB)": 70.5,
      "step": 57915,
      "token_acc": 0.9531772575250836,
      "train_speed(iter/s)": 1.448297
    },
    {
      "epoch": 2.481470374019965,
      "grad_norm": 3.3886702060699463,
      "learning_rate": 5.0582112217629494e-05,
      "loss": 0.39917612075805664,
      "memory(GiB)": 70.5,
      "step": 57920,
      "token_acc": 0.917981072555205,
      "train_speed(iter/s)": 1.448304
    },
    {
      "epoch": 2.481684589349214,
      "grad_norm": 3.3726518154144287,
      "learning_rate": 5.0575382895428914e-05,
      "loss": 0.3868204832077026,
      "memory(GiB)": 70.5,
      "step": 57925,
      "token_acc": 0.9236111111111112,
      "train_speed(iter/s)": 1.448295
    },
    {
      "epoch": 2.4818988046784627,
      "grad_norm": 0.673920214176178,
      "learning_rate": 5.0568653562804734e-05,
      "loss": 0.19283438920974733,
      "memory(GiB)": 70.5,
      "step": 57930,
      "token_acc": 0.9563758389261745,
      "train_speed(iter/s)": 1.448304
    },
    {
      "epoch": 2.482113020007712,
      "grad_norm": 3.4440228939056396,
      "learning_rate": 5.056192421987888e-05,
      "loss": 0.3311715841293335,
      "memory(GiB)": 70.5,
      "step": 57935,
      "token_acc": 0.9056603773584906,
      "train_speed(iter/s)": 1.448302
    },
    {
      "epoch": 2.4823272353369608,
      "grad_norm": 2.9458343982696533,
      "learning_rate": 5.055519486677322e-05,
      "loss": 0.3579057455062866,
      "memory(GiB)": 70.5,
      "step": 57940,
      "token_acc": 0.9203187250996016,
      "train_speed(iter/s)": 1.448305
    },
    {
      "epoch": 2.4825414506662096,
      "grad_norm": 5.038288593292236,
      "learning_rate": 5.0548465503609697e-05,
      "loss": 0.3333864450454712,
      "memory(GiB)": 70.5,
      "step": 57945,
      "token_acc": 0.9191176470588235,
      "train_speed(iter/s)": 1.448296
    },
    {
      "epoch": 2.482755665995459,
      "grad_norm": 2.120593547821045,
      "learning_rate": 5.054173613051021e-05,
      "loss": 0.28450026512146,
      "memory(GiB)": 70.5,
      "step": 57950,
      "token_acc": 0.9382716049382716,
      "train_speed(iter/s)": 1.4483
    },
    {
      "epoch": 2.4829698813247076,
      "grad_norm": 3.570071220397949,
      "learning_rate": 5.0535006747596646e-05,
      "loss": 0.2659111022949219,
      "memory(GiB)": 70.5,
      "step": 57955,
      "token_acc": 0.9342105263157895,
      "train_speed(iter/s)": 1.4483
    },
    {
      "epoch": 2.4831840966539565,
      "grad_norm": 11.674662590026855,
      "learning_rate": 5.052827735499095e-05,
      "loss": 0.4510330677032471,
      "memory(GiB)": 70.5,
      "step": 57960,
      "token_acc": 0.8670886075949367,
      "train_speed(iter/s)": 1.448315
    },
    {
      "epoch": 2.4833983119832057,
      "grad_norm": 4.965940952301025,
      "learning_rate": 5.0521547952815005e-05,
      "loss": 0.36631026268005373,
      "memory(GiB)": 70.5,
      "step": 57965,
      "token_acc": 0.9330985915492958,
      "train_speed(iter/s)": 1.448318
    },
    {
      "epoch": 2.4836125273124545,
      "grad_norm": 3.598508834838867,
      "learning_rate": 5.0514818541190745e-05,
      "loss": 0.2621077299118042,
      "memory(GiB)": 70.5,
      "step": 57970,
      "token_acc": 0.9413793103448276,
      "train_speed(iter/s)": 1.448319
    },
    {
      "epoch": 2.4838267426417033,
      "grad_norm": 2.4188621044158936,
      "learning_rate": 5.050808912024004e-05,
      "loss": 0.24543557167053223,
      "memory(GiB)": 70.5,
      "step": 57975,
      "token_acc": 0.9501779359430605,
      "train_speed(iter/s)": 1.44832
    },
    {
      "epoch": 2.4840409579709526,
      "grad_norm": 3.3372976779937744,
      "learning_rate": 5.050135969008485e-05,
      "loss": 0.33246328830718996,
      "memory(GiB)": 70.5,
      "step": 57980,
      "token_acc": 0.9285714285714286,
      "train_speed(iter/s)": 1.448321
    },
    {
      "epoch": 2.4842551733002014,
      "grad_norm": 3.425675392150879,
      "learning_rate": 5.049463025084703e-05,
      "loss": 0.22016820907592774,
      "memory(GiB)": 70.5,
      "step": 57985,
      "token_acc": 0.949685534591195,
      "train_speed(iter/s)": 1.448333
    },
    {
      "epoch": 2.48446938862945,
      "grad_norm": 14.959691047668457,
      "learning_rate": 5.0487900802648544e-05,
      "loss": 0.43864688873291013,
      "memory(GiB)": 70.5,
      "step": 57990,
      "token_acc": 0.9033333333333333,
      "train_speed(iter/s)": 1.448346
    },
    {
      "epoch": 2.4846836039586995,
      "grad_norm": 3.4138286113739014,
      "learning_rate": 5.048117134561128e-05,
      "loss": 0.40889759063720704,
      "memory(GiB)": 70.5,
      "step": 57995,
      "token_acc": 0.9059233449477352,
      "train_speed(iter/s)": 1.448339
    },
    {
      "epoch": 2.4848978192879483,
      "grad_norm": 2.4841935634613037,
      "learning_rate": 5.0474441879857125e-05,
      "loss": 0.2819089889526367,
      "memory(GiB)": 70.5,
      "step": 58000,
      "token_acc": 0.9266409266409267,
      "train_speed(iter/s)": 1.448339
    },
    {
      "epoch": 2.4848978192879483,
      "eval_loss": 2.525204658508301,
      "eval_runtime": 13.2612,
      "eval_samples_per_second": 7.541,
      "eval_steps_per_second": 7.541,
      "eval_token_acc": 0.4610303830911493,
      "step": 58000
    },
    {
      "epoch": 2.485112034617197,
      "grad_norm": 3.5615322589874268,
      "learning_rate": 5.046771240550801e-05,
      "loss": 0.4144239902496338,
      "memory(GiB)": 70.5,
      "step": 58005,
      "token_acc": 0.5921787709497207,
      "train_speed(iter/s)": 1.447814
    },
    {
      "epoch": 2.4853262499464464,
      "grad_norm": 4.912576198577881,
      "learning_rate": 5.0460982922685865e-05,
      "loss": 0.4326457500457764,
      "memory(GiB)": 70.5,
      "step": 58010,
      "token_acc": 0.9097222222222222,
      "train_speed(iter/s)": 1.447816
    },
    {
      "epoch": 2.485540465275695,
      "grad_norm": 4.670139789581299,
      "learning_rate": 5.045425343151255e-05,
      "loss": 0.2512061357498169,
      "memory(GiB)": 70.5,
      "step": 58015,
      "token_acc": 0.9477124183006536,
      "train_speed(iter/s)": 1.44783
    },
    {
      "epoch": 2.485754680604944,
      "grad_norm": 1.2623980045318604,
      "learning_rate": 5.044752393211004e-05,
      "loss": 0.15283788442611695,
      "memory(GiB)": 70.5,
      "step": 58020,
      "token_acc": 0.9659863945578231,
      "train_speed(iter/s)": 1.447831
    },
    {
      "epoch": 2.4859688959341932,
      "grad_norm": 4.146984100341797,
      "learning_rate": 5.044079442460021e-05,
      "loss": 0.2501493453979492,
      "memory(GiB)": 70.5,
      "step": 58025,
      "token_acc": 0.9413680781758957,
      "train_speed(iter/s)": 1.447836
    },
    {
      "epoch": 2.486183111263442,
      "grad_norm": 9.228221893310547,
      "learning_rate": 5.043406490910497e-05,
      "loss": 0.5813421249389649,
      "memory(GiB)": 70.5,
      "step": 58030,
      "token_acc": 0.89198606271777,
      "train_speed(iter/s)": 1.447843
    },
    {
      "epoch": 2.486397326592691,
      "grad_norm": 4.899510860443115,
      "learning_rate": 5.0427335385746244e-05,
      "loss": 0.6823376655578614,
      "memory(GiB)": 70.5,
      "step": 58035,
      "token_acc": 0.8818443804034583,
      "train_speed(iter/s)": 1.447846
    },
    {
      "epoch": 2.48661154192194,
      "grad_norm": 5.592764377593994,
      "learning_rate": 5.042060585464592e-05,
      "loss": 0.6560054302215577,
      "memory(GiB)": 70.5,
      "step": 58040,
      "token_acc": 0.8827586206896552,
      "train_speed(iter/s)": 1.447868
    },
    {
      "epoch": 2.486825757251189,
      "grad_norm": 1.8296306133270264,
      "learning_rate": 5.0413876315925925e-05,
      "loss": 0.2164611339569092,
      "memory(GiB)": 70.5,
      "step": 58045,
      "token_acc": 0.9446153846153846,
      "train_speed(iter/s)": 1.447872
    },
    {
      "epoch": 2.4870399725804377,
      "grad_norm": 2.7461724281311035,
      "learning_rate": 5.040714676970819e-05,
      "loss": 0.3907480239868164,
      "memory(GiB)": 70.5,
      "step": 58050,
      "token_acc": 0.9288256227758007,
      "train_speed(iter/s)": 1.447878
    },
    {
      "epoch": 2.487254187909687,
      "grad_norm": 2.466661214828491,
      "learning_rate": 5.04004172161146e-05,
      "loss": 0.44435667991638184,
      "memory(GiB)": 70.5,
      "step": 58055,
      "token_acc": 0.9083969465648855,
      "train_speed(iter/s)": 1.44789
    },
    {
      "epoch": 2.487468403238936,
      "grad_norm": 1.4530051946640015,
      "learning_rate": 5.039368765526708e-05,
      "loss": 0.4670563220977783,
      "memory(GiB)": 70.5,
      "step": 58060,
      "token_acc": 0.9081272084805654,
      "train_speed(iter/s)": 1.447901
    },
    {
      "epoch": 2.4876826185681846,
      "grad_norm": 0.8356004953384399,
      "learning_rate": 5.038695808728754e-05,
      "loss": 0.15135031938552856,
      "memory(GiB)": 70.5,
      "step": 58065,
      "token_acc": 0.972318339100346,
      "train_speed(iter/s)": 1.447903
    },
    {
      "epoch": 2.487896833897434,
      "grad_norm": 3.0948617458343506,
      "learning_rate": 5.038022851229789e-05,
      "loss": 0.4650623321533203,
      "memory(GiB)": 70.5,
      "step": 58070,
      "token_acc": 0.8793103448275862,
      "train_speed(iter/s)": 1.447899
    },
    {
      "epoch": 2.4881110492266827,
      "grad_norm": 1.290993332862854,
      "learning_rate": 5.037349893042005e-05,
      "loss": 0.23324911594390868,
      "memory(GiB)": 70.5,
      "step": 58075,
      "token_acc": 0.9487179487179487,
      "train_speed(iter/s)": 1.447907
    },
    {
      "epoch": 2.4883252645559315,
      "grad_norm": 2.0615110397338867,
      "learning_rate": 5.036676934177591e-05,
      "loss": 0.31691946983337405,
      "memory(GiB)": 70.5,
      "step": 58080,
      "token_acc": 0.9292307692307692,
      "train_speed(iter/s)": 1.447918
    },
    {
      "epoch": 2.4885394798851808,
      "grad_norm": 2.5442302227020264,
      "learning_rate": 5.036003974648741e-05,
      "loss": 0.27466464042663574,
      "memory(GiB)": 70.5,
      "step": 58085,
      "token_acc": 0.9264705882352942,
      "train_speed(iter/s)": 1.447926
    },
    {
      "epoch": 2.4887536952144296,
      "grad_norm": 3.909088134765625,
      "learning_rate": 5.0353310144676445e-05,
      "loss": 0.6377777099609375,
      "memory(GiB)": 70.5,
      "step": 58090,
      "token_acc": 0.8910256410256411,
      "train_speed(iter/s)": 1.447924
    },
    {
      "epoch": 2.4889679105436784,
      "grad_norm": 2.121277093887329,
      "learning_rate": 5.034658053646495e-05,
      "loss": 0.29391729831695557,
      "memory(GiB)": 70.5,
      "step": 58095,
      "token_acc": 0.9263803680981595,
      "train_speed(iter/s)": 1.447927
    },
    {
      "epoch": 2.4891821258729276,
      "grad_norm": 4.233802318572998,
      "learning_rate": 5.033985092197481e-05,
      "loss": 0.49867701530456543,
      "memory(GiB)": 70.5,
      "step": 58100,
      "token_acc": 0.9,
      "train_speed(iter/s)": 1.447931
    },
    {
      "epoch": 2.4893963412021765,
      "grad_norm": 3.2582767009735107,
      "learning_rate": 5.033312130132796e-05,
      "loss": 0.39182727336883544,
      "memory(GiB)": 70.5,
      "step": 58105,
      "token_acc": 0.9144736842105263,
      "train_speed(iter/s)": 1.447933
    },
    {
      "epoch": 2.4896105565314253,
      "grad_norm": 0.8822880983352661,
      "learning_rate": 5.03263916746463e-05,
      "loss": 0.3140188455581665,
      "memory(GiB)": 70.5,
      "step": 58110,
      "token_acc": 0.9204892966360856,
      "train_speed(iter/s)": 1.447958
    },
    {
      "epoch": 2.4898247718606745,
      "grad_norm": 6.402811527252197,
      "learning_rate": 5.031966204205175e-05,
      "loss": 0.5472658157348633,
      "memory(GiB)": 70.5,
      "step": 58115,
      "token_acc": 0.8867924528301887,
      "train_speed(iter/s)": 1.447973
    },
    {
      "epoch": 2.4900389871899233,
      "grad_norm": 3.8917136192321777,
      "learning_rate": 5.0312932403666214e-05,
      "loss": 0.704986572265625,
      "memory(GiB)": 70.5,
      "step": 58120,
      "token_acc": 0.8275862068965517,
      "train_speed(iter/s)": 1.44798
    },
    {
      "epoch": 2.490253202519172,
      "grad_norm": 3.404987335205078,
      "learning_rate": 5.0306202759611634e-05,
      "loss": 0.3738913059234619,
      "memory(GiB)": 70.5,
      "step": 58125,
      "token_acc": 0.9017857142857143,
      "train_speed(iter/s)": 1.448003
    },
    {
      "epoch": 2.4904674178484214,
      "grad_norm": 5.4538702964782715,
      "learning_rate": 5.0299473110009876e-05,
      "loss": 0.6012606620788574,
      "memory(GiB)": 70.5,
      "step": 58130,
      "token_acc": 0.8788819875776398,
      "train_speed(iter/s)": 1.448015
    },
    {
      "epoch": 2.49068163317767,
      "grad_norm": 1.8098759651184082,
      "learning_rate": 5.0292743454982905e-05,
      "loss": 0.3407072782516479,
      "memory(GiB)": 70.5,
      "step": 58135,
      "token_acc": 0.9239130434782609,
      "train_speed(iter/s)": 1.448032
    },
    {
      "epoch": 2.490895848506919,
      "grad_norm": 2.2439239025115967,
      "learning_rate": 5.028601379465261e-05,
      "loss": 0.3112943649291992,
      "memory(GiB)": 70.5,
      "step": 58140,
      "token_acc": 0.934375,
      "train_speed(iter/s)": 1.448031
    },
    {
      "epoch": 2.4911100638361683,
      "grad_norm": 4.009323596954346,
      "learning_rate": 5.0279284129140894e-05,
      "loss": 0.3397305965423584,
      "memory(GiB)": 70.5,
      "step": 58145,
      "token_acc": 0.9178082191780822,
      "train_speed(iter/s)": 1.448028
    },
    {
      "epoch": 2.491324279165417,
      "grad_norm": 4.77995491027832,
      "learning_rate": 5.027255445856969e-05,
      "loss": 0.3978678464889526,
      "memory(GiB)": 70.5,
      "step": 58150,
      "token_acc": 0.9161849710982659,
      "train_speed(iter/s)": 1.448028
    },
    {
      "epoch": 2.491538494494666,
      "grad_norm": 1.452418565750122,
      "learning_rate": 5.0265824783060914e-05,
      "loss": 0.4963284969329834,
      "memory(GiB)": 70.5,
      "step": 58155,
      "token_acc": 0.8721311475409836,
      "train_speed(iter/s)": 1.448032
    },
    {
      "epoch": 2.491752709823915,
      "grad_norm": 2.7235355377197266,
      "learning_rate": 5.025909510273645e-05,
      "loss": 0.3268429279327393,
      "memory(GiB)": 70.5,
      "step": 58160,
      "token_acc": 0.9273504273504274,
      "train_speed(iter/s)": 1.44803
    },
    {
      "epoch": 2.491966925153164,
      "grad_norm": 2.0628857612609863,
      "learning_rate": 5.025236541771826e-05,
      "loss": 0.39425551891326904,
      "memory(GiB)": 70.5,
      "step": 58165,
      "token_acc": 0.9224489795918367,
      "train_speed(iter/s)": 1.448018
    },
    {
      "epoch": 2.492181140482413,
      "grad_norm": 2.8351871967315674,
      "learning_rate": 5.0245635728128225e-05,
      "loss": 0.5423977375030518,
      "memory(GiB)": 70.5,
      "step": 58170,
      "token_acc": 0.916058394160584,
      "train_speed(iter/s)": 1.448023
    },
    {
      "epoch": 2.492395355811662,
      "grad_norm": 1.747424602508545,
      "learning_rate": 5.023890603408827e-05,
      "loss": 0.31359641551971434,
      "memory(GiB)": 70.5,
      "step": 58175,
      "token_acc": 0.9342560553633218,
      "train_speed(iter/s)": 1.448031
    },
    {
      "epoch": 2.492609571140911,
      "grad_norm": 2.159369707107544,
      "learning_rate": 5.0232176335720314e-05,
      "loss": 0.3227251052856445,
      "memory(GiB)": 70.5,
      "step": 58180,
      "token_acc": 0.9263565891472868,
      "train_speed(iter/s)": 1.448036
    },
    {
      "epoch": 2.4928237864701597,
      "grad_norm": 3.9651904106140137,
      "learning_rate": 5.0225446633146247e-05,
      "loss": 0.5251911640167236,
      "memory(GiB)": 70.5,
      "step": 58185,
      "token_acc": 0.8949152542372881,
      "train_speed(iter/s)": 1.448043
    },
    {
      "epoch": 2.493038001799409,
      "grad_norm": 6.2718095779418945,
      "learning_rate": 5.021871692648801e-05,
      "loss": 0.26261334419250487,
      "memory(GiB)": 70.5,
      "step": 58190,
      "token_acc": 0.9292604501607717,
      "train_speed(iter/s)": 1.448054
    },
    {
      "epoch": 2.4932522171286577,
      "grad_norm": 3.2178328037261963,
      "learning_rate": 5.0211987215867516e-05,
      "loss": 0.14038885831832887,
      "memory(GiB)": 70.5,
      "step": 58195,
      "token_acc": 0.9768339768339769,
      "train_speed(iter/s)": 1.448043
    },
    {
      "epoch": 2.4934664324579066,
      "grad_norm": 3.5306203365325928,
      "learning_rate": 5.020525750140668e-05,
      "loss": 0.34163966178894045,
      "memory(GiB)": 70.5,
      "step": 58200,
      "token_acc": 0.9096774193548387,
      "train_speed(iter/s)": 1.448044
    },
    {
      "epoch": 2.493680647787156,
      "grad_norm": 4.089174747467041,
      "learning_rate": 5.01985277832274e-05,
      "loss": 0.44449739456176757,
      "memory(GiB)": 70.5,
      "step": 58205,
      "token_acc": 0.8823529411764706,
      "train_speed(iter/s)": 1.44805
    },
    {
      "epoch": 2.4938948631164046,
      "grad_norm": 5.325443267822266,
      "learning_rate": 5.0191798061451614e-05,
      "loss": 0.5127364158630371,
      "memory(GiB)": 70.5,
      "step": 58210,
      "token_acc": 0.8839590443686007,
      "train_speed(iter/s)": 1.448054
    },
    {
      "epoch": 2.4941090784456534,
      "grad_norm": 4.069386959075928,
      "learning_rate": 5.0185068336201215e-05,
      "loss": 0.27183146476745607,
      "memory(GiB)": 70.5,
      "step": 58215,
      "token_acc": 0.940983606557377,
      "train_speed(iter/s)": 1.448064
    },
    {
      "epoch": 2.4943232937749027,
      "grad_norm": 1.456366777420044,
      "learning_rate": 5.0178338607598144e-05,
      "loss": 0.3775474071502686,
      "memory(GiB)": 70.5,
      "step": 58220,
      "token_acc": 0.9102990033222591,
      "train_speed(iter/s)": 1.448056
    },
    {
      "epoch": 2.4945375091041515,
      "grad_norm": 4.074248790740967,
      "learning_rate": 5.0171608875764286e-05,
      "loss": 0.20277223587036133,
      "memory(GiB)": 70.5,
      "step": 58225,
      "token_acc": 0.9588014981273408,
      "train_speed(iter/s)": 1.448047
    },
    {
      "epoch": 2.4947517244334003,
      "grad_norm": 4.0218610763549805,
      "learning_rate": 5.0164879140821586e-05,
      "loss": 0.48090085983276365,
      "memory(GiB)": 70.5,
      "step": 58230,
      "token_acc": 0.8996138996138996,
      "train_speed(iter/s)": 1.448043
    },
    {
      "epoch": 2.4949659397626496,
      "grad_norm": 2.432323455810547,
      "learning_rate": 5.015814940289193e-05,
      "loss": 0.3804868221282959,
      "memory(GiB)": 70.5,
      "step": 58235,
      "token_acc": 0.9233128834355828,
      "train_speed(iter/s)": 1.448048
    },
    {
      "epoch": 2.4951801550918984,
      "grad_norm": 3.281125783920288,
      "learning_rate": 5.015141966209726e-05,
      "loss": 0.5362614154815674,
      "memory(GiB)": 70.5,
      "step": 58240,
      "token_acc": 0.8990536277602523,
      "train_speed(iter/s)": 1.448059
    },
    {
      "epoch": 2.495394370421147,
      "grad_norm": 1.484585165977478,
      "learning_rate": 5.014468991855947e-05,
      "loss": 0.3260998010635376,
      "memory(GiB)": 70.5,
      "step": 58245,
      "token_acc": 0.9532374100719424,
      "train_speed(iter/s)": 1.448063
    },
    {
      "epoch": 2.4956085857503965,
      "grad_norm": 2.8264541625976562,
      "learning_rate": 5.01379601724005e-05,
      "loss": 0.5451457023620605,
      "memory(GiB)": 70.5,
      "step": 58250,
      "token_acc": 0.8949152542372881,
      "train_speed(iter/s)": 1.448062
    },
    {
      "epoch": 2.4958228010796453,
      "grad_norm": 3.5189356803894043,
      "learning_rate": 5.013123042374226e-05,
      "loss": 0.3798977375030518,
      "memory(GiB)": 70.5,
      "step": 58255,
      "token_acc": 0.9215686274509803,
      "train_speed(iter/s)": 1.448064
    },
    {
      "epoch": 2.496037016408894,
      "grad_norm": 1.1913162469863892,
      "learning_rate": 5.012450067270663e-05,
      "loss": 0.509389591217041,
      "memory(GiB)": 70.5,
      "step": 58260,
      "token_acc": 0.8821428571428571,
      "train_speed(iter/s)": 1.448075
    },
    {
      "epoch": 2.4962512317381433,
      "grad_norm": 3.0768730640411377,
      "learning_rate": 5.0117770919415566e-05,
      "loss": 0.2642954111099243,
      "memory(GiB)": 70.5,
      "step": 58265,
      "token_acc": 0.9390243902439024,
      "train_speed(iter/s)": 1.448074
    },
    {
      "epoch": 2.496465447067392,
      "grad_norm": 0.03239154815673828,
      "learning_rate": 5.011104116399098e-05,
      "loss": 0.4092276096343994,
      "memory(GiB)": 70.5,
      "step": 58270,
      "token_acc": 0.9164086687306502,
      "train_speed(iter/s)": 1.448075
    },
    {
      "epoch": 2.496679662396641,
      "grad_norm": 2.109123706817627,
      "learning_rate": 5.010431140655477e-05,
      "loss": 0.3383918523788452,
      "memory(GiB)": 70.5,
      "step": 58275,
      "token_acc": 0.9228486646884273,
      "train_speed(iter/s)": 1.44807
    },
    {
      "epoch": 2.49689387772589,
      "grad_norm": 0.7426810264587402,
      "learning_rate": 5.009758164722887e-05,
      "loss": 0.30419254302978516,
      "memory(GiB)": 70.5,
      "step": 58280,
      "token_acc": 0.9230769230769231,
      "train_speed(iter/s)": 1.448075
    },
    {
      "epoch": 2.497108093055139,
      "grad_norm": 3.5431630611419678,
      "learning_rate": 5.0090851886135184e-05,
      "loss": 0.4205626010894775,
      "memory(GiB)": 70.5,
      "step": 58285,
      "token_acc": 0.9117647058823529,
      "train_speed(iter/s)": 1.448071
    },
    {
      "epoch": 2.497322308384388,
      "grad_norm": 5.5162248611450195,
      "learning_rate": 5.0084122123395615e-05,
      "loss": 0.5568991661071777,
      "memory(GiB)": 70.5,
      "step": 58290,
      "token_acc": 0.9137931034482759,
      "train_speed(iter/s)": 1.448081
    },
    {
      "epoch": 2.497536523713637,
      "grad_norm": 7.706772804260254,
      "learning_rate": 5.007739235913211e-05,
      "loss": 0.6286866188049316,
      "memory(GiB)": 70.5,
      "step": 58295,
      "token_acc": 0.8888888888888888,
      "train_speed(iter/s)": 1.448093
    },
    {
      "epoch": 2.497750739042886,
      "grad_norm": 4.615623950958252,
      "learning_rate": 5.0070662593466564e-05,
      "loss": 0.278727388381958,
      "memory(GiB)": 70.5,
      "step": 58300,
      "token_acc": 0.9438596491228071,
      "train_speed(iter/s)": 1.448093
    },
    {
      "epoch": 2.4979649543721347,
      "grad_norm": 4.400970458984375,
      "learning_rate": 5.00639328265209e-05,
      "loss": 0.3347862482070923,
      "memory(GiB)": 70.5,
      "step": 58305,
      "token_acc": 0.9473684210526315,
      "train_speed(iter/s)": 1.448106
    },
    {
      "epoch": 2.498179169701384,
      "grad_norm": 7.017396450042725,
      "learning_rate": 5.0057203058417044e-05,
      "loss": 0.38214712142944335,
      "memory(GiB)": 70.5,
      "step": 58310,
      "token_acc": 0.8955223880597015,
      "train_speed(iter/s)": 1.448125
    },
    {
      "epoch": 2.498393385030633,
      "grad_norm": 3.0798943042755127,
      "learning_rate": 5.00504732892769e-05,
      "loss": 0.35723731517791746,
      "memory(GiB)": 70.5,
      "step": 58315,
      "token_acc": 0.9180327868852459,
      "train_speed(iter/s)": 1.448129
    },
    {
      "epoch": 2.4986076003598816,
      "grad_norm": 2.596384286880493,
      "learning_rate": 5.004374351922236e-05,
      "loss": 0.37736010551452637,
      "memory(GiB)": 70.5,
      "step": 58320,
      "token_acc": 0.9191919191919192,
      "train_speed(iter/s)": 1.44814
    },
    {
      "epoch": 2.498821815689131,
      "grad_norm": 7.9264631271362305,
      "learning_rate": 5.003701374837539e-05,
      "loss": 0.4606457710266113,
      "memory(GiB)": 70.5,
      "step": 58325,
      "token_acc": 0.9127725856697819,
      "train_speed(iter/s)": 1.448137
    },
    {
      "epoch": 2.4990360310183797,
      "grad_norm": 1.3245102167129517,
      "learning_rate": 5.003028397685787e-05,
      "loss": 0.27433998584747316,
      "memory(GiB)": 70.5,
      "step": 58330,
      "token_acc": 0.9356223175965666,
      "train_speed(iter/s)": 1.448144
    },
    {
      "epoch": 2.4992502463476285,
      "grad_norm": 1.7104305028915405,
      "learning_rate": 5.0023554204791724e-05,
      "loss": 0.40608820915222166,
      "memory(GiB)": 70.5,
      "step": 58335,
      "token_acc": 0.9252669039145908,
      "train_speed(iter/s)": 1.448157
    },
    {
      "epoch": 2.4994644616768777,
      "grad_norm": 1.575256109237671,
      "learning_rate": 5.001682443229888e-05,
      "loss": 0.5543204784393311,
      "memory(GiB)": 70.5,
      "step": 58340,
      "token_acc": 0.8895705521472392,
      "train_speed(iter/s)": 1.448165
    },
    {
      "epoch": 2.4996786770061266,
      "grad_norm": 5.293137073516846,
      "learning_rate": 5.001009465950125e-05,
      "loss": 0.31023263931274414,
      "memory(GiB)": 70.5,
      "step": 58345,
      "token_acc": 0.934375,
      "train_speed(iter/s)": 1.448162
    },
    {
      "epoch": 2.4998928923353754,
      "grad_norm": 3.4097847938537598,
      "learning_rate": 5.000336488652074e-05,
      "loss": 0.5272829055786132,
      "memory(GiB)": 70.5,
      "step": 58350,
      "token_acc": 0.9015151515151515,
      "train_speed(iter/s)": 1.448164
    },
    {
      "epoch": 2.5001071076646246,
      "grad_norm": 3.1294682025909424,
      "learning_rate": 4.9996635113479265e-05,
      "loss": 0.405879545211792,
      "memory(GiB)": 70.5,
      "step": 58355,
      "token_acc": 0.896797153024911,
      "train_speed(iter/s)": 1.448168
    },
    {
      "epoch": 2.5003213229938734,
      "grad_norm": 3.038503646850586,
      "learning_rate": 4.9989905340498755e-05,
      "loss": 0.22734394073486328,
      "memory(GiB)": 70.5,
      "step": 58360,
      "token_acc": 0.9397590361445783,
      "train_speed(iter/s)": 1.448167
    },
    {
      "epoch": 2.5005355383231223,
      "grad_norm": 2.4757087230682373,
      "learning_rate": 4.998317556770111e-05,
      "loss": 0.5674033164978027,
      "memory(GiB)": 70.5,
      "step": 58365,
      "token_acc": 0.8807017543859649,
      "train_speed(iter/s)": 1.448177
    },
    {
      "epoch": 2.5007497536523715,
      "grad_norm": 2.4566822052001953,
      "learning_rate": 4.9976445795208274e-05,
      "loss": 0.19135011434555055,
      "memory(GiB)": 70.5,
      "step": 58370,
      "token_acc": 0.9588014981273408,
      "train_speed(iter/s)": 1.448171
    },
    {
      "epoch": 2.5009639689816203,
      "grad_norm": 1.818909764289856,
      "learning_rate": 4.996971602314214e-05,
      "loss": 0.17835628986358643,
      "memory(GiB)": 70.5,
      "step": 58375,
      "token_acc": 0.95625,
      "train_speed(iter/s)": 1.448179
    },
    {
      "epoch": 2.501178184310869,
      "grad_norm": 4.807403564453125,
      "learning_rate": 4.996298625162462e-05,
      "loss": 0.43394861221313474,
      "memory(GiB)": 70.5,
      "step": 58380,
      "token_acc": 0.8898071625344353,
      "train_speed(iter/s)": 1.44819
    },
    {
      "epoch": 2.5013923996401184,
      "grad_norm": 0.9165571928024292,
      "learning_rate": 4.9956256480777643e-05,
      "loss": 0.3144109010696411,
      "memory(GiB)": 70.5,
      "step": 58385,
      "token_acc": 0.9494949494949495,
      "train_speed(iter/s)": 1.44819
    },
    {
      "epoch": 2.501606614969367,
      "grad_norm": 4.4611897468566895,
      "learning_rate": 4.994952671072312e-05,
      "loss": 0.2970869779586792,
      "memory(GiB)": 70.5,
      "step": 58390,
      "token_acc": 0.9236641221374046,
      "train_speed(iter/s)": 1.448205
    },
    {
      "epoch": 2.501820830298616,
      "grad_norm": 2.220470666885376,
      "learning_rate": 4.994279694158297e-05,
      "loss": 0.504002046585083,
      "memory(GiB)": 70.5,
      "step": 58395,
      "token_acc": 0.8653846153846154,
      "train_speed(iter/s)": 1.448204
    },
    {
      "epoch": 2.5020350456278653,
      "grad_norm": 6.326952934265137,
      "learning_rate": 4.993606717347911e-05,
      "loss": 0.533213758468628,
      "memory(GiB)": 70.5,
      "step": 58400,
      "token_acc": 0.8877887788778878,
      "train_speed(iter/s)": 1.448217
    },
    {
      "epoch": 2.502249260957114,
      "grad_norm": 3.6657912731170654,
      "learning_rate": 4.992933740653345e-05,
      "loss": 0.2991269588470459,
      "memory(GiB)": 70.5,
      "step": 58405,
      "token_acc": 0.9380165289256198,
      "train_speed(iter/s)": 1.448222
    },
    {
      "epoch": 2.502463476286363,
      "grad_norm": 3.5209083557128906,
      "learning_rate": 4.99226076408679e-05,
      "loss": 0.39585447311401367,
      "memory(GiB)": 70.5,
      "step": 58410,
      "token_acc": 0.9290780141843972,
      "train_speed(iter/s)": 1.448234
    },
    {
      "epoch": 2.502677691615612,
      "grad_norm": 2.3035995960235596,
      "learning_rate": 4.99158778766044e-05,
      "loss": 0.27551932334899903,
      "memory(GiB)": 70.5,
      "step": 58415,
      "token_acc": 0.9385665529010239,
      "train_speed(iter/s)": 1.448228
    },
    {
      "epoch": 2.502891906944861,
      "grad_norm": 8.118408203125,
      "learning_rate": 4.990914811386484e-05,
      "loss": 0.4993506908416748,
      "memory(GiB)": 70.5,
      "step": 58420,
      "token_acc": 0.9003436426116839,
      "train_speed(iter/s)": 1.448236
    },
    {
      "epoch": 2.50310612227411,
      "grad_norm": 0.4034695029258728,
      "learning_rate": 4.990241835277116e-05,
      "loss": 0.14012649059295654,
      "memory(GiB)": 70.5,
      "step": 58425,
      "token_acc": 0.9601449275362319,
      "train_speed(iter/s)": 1.448244
    },
    {
      "epoch": 2.503320337603359,
      "grad_norm": 2.0542659759521484,
      "learning_rate": 4.989568859344523e-05,
      "loss": 0.4128554821014404,
      "memory(GiB)": 70.5,
      "step": 58430,
      "token_acc": 0.91015625,
      "train_speed(iter/s)": 1.448251
    },
    {
      "epoch": 2.503534552932608,
      "grad_norm": 1.44866943359375,
      "learning_rate": 4.988895883600902e-05,
      "loss": 0.4091980457305908,
      "memory(GiB)": 70.5,
      "step": 58435,
      "token_acc": 0.9256505576208178,
      "train_speed(iter/s)": 1.448256
    },
    {
      "epoch": 2.5037487682618567,
      "grad_norm": 2.3448643684387207,
      "learning_rate": 4.988222908058443e-05,
      "loss": 0.4954817295074463,
      "memory(GiB)": 70.5,
      "step": 58440,
      "token_acc": 0.8970099667774086,
      "train_speed(iter/s)": 1.448248
    },
    {
      "epoch": 2.503962983591106,
      "grad_norm": 3.786768913269043,
      "learning_rate": 4.987549932729337e-05,
      "loss": 0.3222055912017822,
      "memory(GiB)": 70.5,
      "step": 58445,
      "token_acc": 0.9363295880149812,
      "train_speed(iter/s)": 1.448257
    },
    {
      "epoch": 2.5041771989203547,
      "grad_norm": 2.693272590637207,
      "learning_rate": 4.986876957625776e-05,
      "loss": 0.2051058292388916,
      "memory(GiB)": 70.5,
      "step": 58450,
      "token_acc": 0.9465020576131687,
      "train_speed(iter/s)": 1.448258
    },
    {
      "epoch": 2.5043914142496035,
      "grad_norm": 2.4201745986938477,
      "learning_rate": 4.98620398275995e-05,
      "loss": 0.3882559061050415,
      "memory(GiB)": 70.5,
      "step": 58455,
      "token_acc": 0.9075907590759076,
      "train_speed(iter/s)": 1.448263
    },
    {
      "epoch": 2.504605629578853,
      "grad_norm": 4.781452655792236,
      "learning_rate": 4.9855310081440535e-05,
      "loss": 0.3230464935302734,
      "memory(GiB)": 70.5,
      "step": 58460,
      "token_acc": 0.9256505576208178,
      "train_speed(iter/s)": 1.448268
    },
    {
      "epoch": 2.5048198449081016,
      "grad_norm": 5.058071136474609,
      "learning_rate": 4.984858033790275e-05,
      "loss": 0.2954325437545776,
      "memory(GiB)": 70.5,
      "step": 58465,
      "token_acc": 0.9475409836065574,
      "train_speed(iter/s)": 1.448272
    },
    {
      "epoch": 2.5050340602373504,
      "grad_norm": 3.1975784301757812,
      "learning_rate": 4.984185059710808e-05,
      "loss": 0.32850806713104247,
      "memory(GiB)": 70.5,
      "step": 58470,
      "token_acc": 0.9210526315789473,
      "train_speed(iter/s)": 1.448272
    },
    {
      "epoch": 2.5052482755665997,
      "grad_norm": 1.7963240146636963,
      "learning_rate": 4.983512085917843e-05,
      "loss": 0.29418106079101564,
      "memory(GiB)": 70.5,
      "step": 58475,
      "token_acc": 0.9381818181818182,
      "train_speed(iter/s)": 1.448276
    },
    {
      "epoch": 2.5054624908958485,
      "grad_norm": 1.9475735425949097,
      "learning_rate": 4.9828391124235726e-05,
      "loss": 0.5832791328430176,
      "memory(GiB)": 70.5,
      "step": 58480,
      "token_acc": 0.8935483870967742,
      "train_speed(iter/s)": 1.448273
    },
    {
      "epoch": 2.5056767062250973,
      "grad_norm": 4.075699329376221,
      "learning_rate": 4.982166139240188e-05,
      "loss": 0.5196787357330322,
      "memory(GiB)": 70.5,
      "step": 58485,
      "token_acc": 0.898360655737705,
      "train_speed(iter/s)": 1.448282
    },
    {
      "epoch": 2.5058909215543466,
      "grad_norm": 2.09134840965271,
      "learning_rate": 4.98149316637988e-05,
      "loss": 0.18351829051971436,
      "memory(GiB)": 70.5,
      "step": 58490,
      "token_acc": 0.9695945945945946,
      "train_speed(iter/s)": 1.448282
    },
    {
      "epoch": 2.5061051368835954,
      "grad_norm": 3.6568830013275146,
      "learning_rate": 4.9808201938548404e-05,
      "loss": 0.2519824981689453,
      "memory(GiB)": 70.5,
      "step": 58495,
      "token_acc": 0.934931506849315,
      "train_speed(iter/s)": 1.448293
    },
    {
      "epoch": 2.506319352212844,
      "grad_norm": 2.3840742111206055,
      "learning_rate": 4.980147221677262e-05,
      "loss": 0.3262258768081665,
      "memory(GiB)": 70.5,
      "step": 58500,
      "token_acc": 0.9344262295081968,
      "train_speed(iter/s)": 1.448295
    },
    {
      "epoch": 2.506319352212844,
      "eval_loss": 2.7483203411102295,
      "eval_runtime": 13.677,
      "eval_samples_per_second": 7.312,
      "eval_steps_per_second": 7.312,
      "eval_token_acc": 0.4309559939301973,
      "step": 58500
    },
    {
      "epoch": 2.5065335675420934,
      "grad_norm": 1.4123412370681763,
      "learning_rate": 4.979474249859333e-05,
      "loss": 0.2034893035888672,
      "memory(GiB)": 70.5,
      "step": 58505,
      "token_acc": 0.5931321540062435,
      "train_speed(iter/s)": 1.447772
    },
    {
      "epoch": 2.5067477828713423,
      "grad_norm": 2.4410712718963623,
      "learning_rate": 4.978801278413248e-05,
      "loss": 0.5382270336151123,
      "memory(GiB)": 70.5,
      "step": 58510,
      "token_acc": 0.8793103448275862,
      "train_speed(iter/s)": 1.447783
    },
    {
      "epoch": 2.506961998200591,
      "grad_norm": 6.281691074371338,
      "learning_rate": 4.9781283073511995e-05,
      "loss": 0.5185661315917969,
      "memory(GiB)": 70.5,
      "step": 58515,
      "token_acc": 0.8888888888888888,
      "train_speed(iter/s)": 1.447787
    },
    {
      "epoch": 2.5071762135298403,
      "grad_norm": 2.3794264793395996,
      "learning_rate": 4.977455336685376e-05,
      "loss": 0.10395948886871338,
      "memory(GiB)": 70.5,
      "step": 58520,
      "token_acc": 0.976271186440678,
      "train_speed(iter/s)": 1.447787
    },
    {
      "epoch": 2.507390428859089,
      "grad_norm": 1.4468313455581665,
      "learning_rate": 4.97678236642797e-05,
      "loss": 0.06567342877388001,
      "memory(GiB)": 70.5,
      "step": 58525,
      "token_acc": 0.9879154078549849,
      "train_speed(iter/s)": 1.447796
    },
    {
      "epoch": 2.507604644188338,
      "grad_norm": 4.0089216232299805,
      "learning_rate": 4.9761093965911746e-05,
      "loss": 0.4924482345581055,
      "memory(GiB)": 70.5,
      "step": 58530,
      "token_acc": 0.9014084507042254,
      "train_speed(iter/s)": 1.447793
    },
    {
      "epoch": 2.507818859517587,
      "grad_norm": 1.6455928087234497,
      "learning_rate": 4.975436427187178e-05,
      "loss": 0.35918564796447755,
      "memory(GiB)": 70.5,
      "step": 58535,
      "token_acc": 0.9272727272727272,
      "train_speed(iter/s)": 1.447794
    },
    {
      "epoch": 2.508033074846836,
      "grad_norm": 3.1892027854919434,
      "learning_rate": 4.974763458228175e-05,
      "loss": 0.664127779006958,
      "memory(GiB)": 70.5,
      "step": 58540,
      "token_acc": 0.8798701298701299,
      "train_speed(iter/s)": 1.447807
    },
    {
      "epoch": 2.508247290176085,
      "grad_norm": 4.029596328735352,
      "learning_rate": 4.9740904897263554e-05,
      "loss": 0.27950119972229004,
      "memory(GiB)": 70.5,
      "step": 58545,
      "token_acc": 0.9469964664310954,
      "train_speed(iter/s)": 1.447806
    },
    {
      "epoch": 2.508461505505334,
      "grad_norm": 2.1736371517181396,
      "learning_rate": 4.97341752169391e-05,
      "loss": 0.42523980140686035,
      "memory(GiB)": 70.5,
      "step": 58550,
      "token_acc": 0.91015625,
      "train_speed(iter/s)": 1.447807
    },
    {
      "epoch": 2.508675720834583,
      "grad_norm": 1.1972453594207764,
      "learning_rate": 4.972744554143032e-05,
      "loss": 0.4808037757873535,
      "memory(GiB)": 70.5,
      "step": 58555,
      "token_acc": 0.895910780669145,
      "train_speed(iter/s)": 1.447819
    },
    {
      "epoch": 2.5088899361638317,
      "grad_norm": 2.3787925243377686,
      "learning_rate": 4.9720715870859124e-05,
      "loss": 0.5269412994384766,
      "memory(GiB)": 70.5,
      "step": 58560,
      "token_acc": 0.9098039215686274,
      "train_speed(iter/s)": 1.447827
    },
    {
      "epoch": 2.509104151493081,
      "grad_norm": 4.575430393218994,
      "learning_rate": 4.971398620534741e-05,
      "loss": 0.27805418968200685,
      "memory(GiB)": 70.5,
      "step": 58565,
      "token_acc": 0.9330543933054394,
      "train_speed(iter/s)": 1.447835
    },
    {
      "epoch": 2.50931836682233,
      "grad_norm": 2.0042223930358887,
      "learning_rate": 4.970725654501712e-05,
      "loss": 0.3376027822494507,
      "memory(GiB)": 70.5,
      "step": 58570,
      "token_acc": 0.932475884244373,
      "train_speed(iter/s)": 1.447832
    },
    {
      "epoch": 2.5095325821515786,
      "grad_norm": 4.169680595397949,
      "learning_rate": 4.970052688999012e-05,
      "loss": 0.22165563106536865,
      "memory(GiB)": 70.5,
      "step": 58575,
      "token_acc": 0.9479553903345725,
      "train_speed(iter/s)": 1.447828
    },
    {
      "epoch": 2.509746797480828,
      "grad_norm": 4.801746368408203,
      "learning_rate": 4.969379724038837e-05,
      "loss": 0.3306748867034912,
      "memory(GiB)": 70.5,
      "step": 58580,
      "token_acc": 0.9314079422382672,
      "train_speed(iter/s)": 1.447824
    },
    {
      "epoch": 2.5099610128100767,
      "grad_norm": 5.458007335662842,
      "learning_rate": 4.9687067596333784e-05,
      "loss": 0.2910116195678711,
      "memory(GiB)": 70.5,
      "step": 58585,
      "token_acc": 0.9348659003831418,
      "train_speed(iter/s)": 1.447827
    },
    {
      "epoch": 2.5101752281393255,
      "grad_norm": 3.47196102142334,
      "learning_rate": 4.968033795794827e-05,
      "loss": 0.6117453575134277,
      "memory(GiB)": 70.5,
      "step": 58590,
      "token_acc": 0.8852459016393442,
      "train_speed(iter/s)": 1.447841
    },
    {
      "epoch": 2.5103894434685747,
      "grad_norm": 0.6650385856628418,
      "learning_rate": 4.967360832535371e-05,
      "loss": 0.21337389945983887,
      "memory(GiB)": 70.5,
      "step": 58595,
      "token_acc": 0.9407894736842105,
      "train_speed(iter/s)": 1.447832
    },
    {
      "epoch": 2.5106036587978235,
      "grad_norm": 3.8012688159942627,
      "learning_rate": 4.9666878698672054e-05,
      "loss": 0.2890504837036133,
      "memory(GiB)": 70.5,
      "step": 58600,
      "token_acc": 0.9339622641509434,
      "train_speed(iter/s)": 1.44784
    },
    {
      "epoch": 2.5108178741270724,
      "grad_norm": 4.200118541717529,
      "learning_rate": 4.96601490780252e-05,
      "loss": 0.372768759727478,
      "memory(GiB)": 70.5,
      "step": 58605,
      "token_acc": 0.9041533546325878,
      "train_speed(iter/s)": 1.447839
    },
    {
      "epoch": 2.5110320894563216,
      "grad_norm": 4.129665374755859,
      "learning_rate": 4.965341946353506e-05,
      "loss": 0.4233363628387451,
      "memory(GiB)": 70.5,
      "step": 58610,
      "token_acc": 0.9033816425120773,
      "train_speed(iter/s)": 1.447857
    },
    {
      "epoch": 2.5112463047855704,
      "grad_norm": 2.7676234245300293,
      "learning_rate": 4.964668985532357e-05,
      "loss": 0.2722019672393799,
      "memory(GiB)": 70.5,
      "step": 58615,
      "token_acc": 0.9321428571428572,
      "train_speed(iter/s)": 1.447859
    },
    {
      "epoch": 2.5114605201148192,
      "grad_norm": 0.7598388195037842,
      "learning_rate": 4.96399602535126e-05,
      "loss": 0.4779960155487061,
      "memory(GiB)": 70.5,
      "step": 58620,
      "token_acc": 0.9044943820224719,
      "train_speed(iter/s)": 1.447867
    },
    {
      "epoch": 2.5116747354440685,
      "grad_norm": 5.265523433685303,
      "learning_rate": 4.9633230658224106e-05,
      "loss": 0.4203805923461914,
      "memory(GiB)": 70.5,
      "step": 58625,
      "token_acc": 0.9068825910931174,
      "train_speed(iter/s)": 1.447871
    },
    {
      "epoch": 2.5118889507733173,
      "grad_norm": 2.3079326152801514,
      "learning_rate": 4.9626501069579975e-05,
      "loss": 0.3628975868225098,
      "memory(GiB)": 70.5,
      "step": 58630,
      "token_acc": 0.9288389513108615,
      "train_speed(iter/s)": 1.44787
    },
    {
      "epoch": 2.512103166102566,
      "grad_norm": 4.5716705322265625,
      "learning_rate": 4.961977148770212e-05,
      "loss": 0.27283854484558107,
      "memory(GiB)": 70.5,
      "step": 58635,
      "token_acc": 0.93359375,
      "train_speed(iter/s)": 1.447887
    },
    {
      "epoch": 2.5123173814318154,
      "grad_norm": 1.9725183248519897,
      "learning_rate": 4.961304191271248e-05,
      "loss": 0.408354663848877,
      "memory(GiB)": 70.5,
      "step": 58640,
      "token_acc": 0.9133574007220217,
      "train_speed(iter/s)": 1.447887
    },
    {
      "epoch": 2.512531596761064,
      "grad_norm": 5.859982967376709,
      "learning_rate": 4.960631234473294e-05,
      "loss": 0.401885986328125,
      "memory(GiB)": 70.5,
      "step": 58645,
      "token_acc": 0.9090909090909091,
      "train_speed(iter/s)": 1.447896
    },
    {
      "epoch": 2.512745812090313,
      "grad_norm": 2.2652432918548584,
      "learning_rate": 4.9599582783885404e-05,
      "loss": 0.4647829055786133,
      "memory(GiB)": 70.5,
      "step": 58650,
      "token_acc": 0.8960573476702509,
      "train_speed(iter/s)": 1.447902
    },
    {
      "epoch": 2.5129600274195623,
      "grad_norm": 3.4274375438690186,
      "learning_rate": 4.959285323029181e-05,
      "loss": 0.3295647144317627,
      "memory(GiB)": 70.5,
      "step": 58655,
      "token_acc": 0.9180887372013652,
      "train_speed(iter/s)": 1.447909
    },
    {
      "epoch": 2.513174242748811,
      "grad_norm": 0.6767504215240479,
      "learning_rate": 4.958612368407407e-05,
      "loss": 0.35027987957000734,
      "memory(GiB)": 70.5,
      "step": 58660,
      "token_acc": 0.9148936170212766,
      "train_speed(iter/s)": 1.447916
    },
    {
      "epoch": 2.51338845807806,
      "grad_norm": 6.250726699829102,
      "learning_rate": 4.957939414535409e-05,
      "loss": 0.37266619205474855,
      "memory(GiB)": 70.5,
      "step": 58665,
      "token_acc": 0.9078947368421053,
      "train_speed(iter/s)": 1.447913
    },
    {
      "epoch": 2.513602673407309,
      "grad_norm": 3.255220413208008,
      "learning_rate": 4.9572664614253774e-05,
      "loss": 0.368271541595459,
      "memory(GiB)": 70.5,
      "step": 58670,
      "token_acc": 0.9350180505415162,
      "train_speed(iter/s)": 1.447908
    },
    {
      "epoch": 2.513816888736558,
      "grad_norm": 0.28916800022125244,
      "learning_rate": 4.9565935090895046e-05,
      "loss": 0.5092487335205078,
      "memory(GiB)": 70.5,
      "step": 58675,
      "token_acc": 0.9063829787234042,
      "train_speed(iter/s)": 1.44792
    },
    {
      "epoch": 2.5140311040658068,
      "grad_norm": 4.301886081695557,
      "learning_rate": 4.95592055753998e-05,
      "loss": 0.6435919284820557,
      "memory(GiB)": 70.5,
      "step": 58680,
      "token_acc": 0.8803680981595092,
      "train_speed(iter/s)": 1.447905
    },
    {
      "epoch": 2.514245319395056,
      "grad_norm": 1.3764773607254028,
      "learning_rate": 4.9552476067889967e-05,
      "loss": 0.49982562065124514,
      "memory(GiB)": 70.5,
      "step": 58685,
      "token_acc": 0.8964497041420119,
      "train_speed(iter/s)": 1.447904
    },
    {
      "epoch": 2.514459534724305,
      "grad_norm": 4.101471900939941,
      "learning_rate": 4.954574656848745e-05,
      "loss": 0.7152890205383301,
      "memory(GiB)": 70.5,
      "step": 58690,
      "token_acc": 0.8370607028753994,
      "train_speed(iter/s)": 1.447904
    },
    {
      "epoch": 2.5146737500535536,
      "grad_norm": 3.0584850311279297,
      "learning_rate": 4.953901707731415e-05,
      "loss": 0.2525299072265625,
      "memory(GiB)": 70.5,
      "step": 58695,
      "token_acc": 0.9568527918781726,
      "train_speed(iter/s)": 1.447907
    },
    {
      "epoch": 2.514887965382803,
      "grad_norm": 2.7116949558258057,
      "learning_rate": 4.9532287594491996e-05,
      "loss": 0.2901188850402832,
      "memory(GiB)": 70.5,
      "step": 58700,
      "token_acc": 0.9375,
      "train_speed(iter/s)": 1.447904
    },
    {
      "epoch": 2.5151021807120517,
      "grad_norm": 1.9368447065353394,
      "learning_rate": 4.95255581201429e-05,
      "loss": 0.14266457557678222,
      "memory(GiB)": 70.5,
      "step": 58705,
      "token_acc": 0.9701986754966887,
      "train_speed(iter/s)": 1.447908
    },
    {
      "epoch": 2.5153163960413005,
      "grad_norm": 4.395059585571289,
      "learning_rate": 4.951882865438875e-05,
      "loss": 0.42879419326782225,
      "memory(GiB)": 70.5,
      "step": 58710,
      "token_acc": 0.8947368421052632,
      "train_speed(iter/s)": 1.447925
    },
    {
      "epoch": 2.51553061137055,
      "grad_norm": 2.9210100173950195,
      "learning_rate": 4.951209919735148e-05,
      "loss": 0.34883530139923097,
      "memory(GiB)": 70.5,
      "step": 58715,
      "token_acc": 0.9300291545189504,
      "train_speed(iter/s)": 1.447935
    },
    {
      "epoch": 2.5157448266997986,
      "grad_norm": 2.3298914432525635,
      "learning_rate": 4.9505369749152975e-05,
      "loss": 0.4781391143798828,
      "memory(GiB)": 70.5,
      "step": 58720,
      "token_acc": 0.9028776978417267,
      "train_speed(iter/s)": 1.44795
    },
    {
      "epoch": 2.5159590420290474,
      "grad_norm": 3.896411418914795,
      "learning_rate": 4.9498640309915156e-05,
      "loss": 0.2648519515991211,
      "memory(GiB)": 70.5,
      "step": 58725,
      "token_acc": 0.9322709163346613,
      "train_speed(iter/s)": 1.447955
    },
    {
      "epoch": 2.5161732573582967,
      "grad_norm": 2.6048104763031006,
      "learning_rate": 4.9491910879759956e-05,
      "loss": 0.6436981201171875,
      "memory(GiB)": 70.5,
      "step": 58730,
      "token_acc": 0.8508474576271187,
      "train_speed(iter/s)": 1.447952
    },
    {
      "epoch": 2.5163874726875455,
      "grad_norm": 3.54612398147583,
      "learning_rate": 4.9485181458809273e-05,
      "loss": 0.5082064628601074,
      "memory(GiB)": 70.5,
      "step": 58735,
      "token_acc": 0.8909774436090225,
      "train_speed(iter/s)": 1.447962
    },
    {
      "epoch": 2.5166016880167943,
      "grad_norm": 0.2870037257671356,
      "learning_rate": 4.947845204718499e-05,
      "loss": 0.15071842670440674,
      "memory(GiB)": 70.5,
      "step": 58740,
      "token_acc": 0.959731543624161,
      "train_speed(iter/s)": 1.447956
    },
    {
      "epoch": 2.5168159033460435,
      "grad_norm": 2.7171897888183594,
      "learning_rate": 4.947172264500905e-05,
      "loss": 0.2913355350494385,
      "memory(GiB)": 70.5,
      "step": 58745,
      "token_acc": 0.9438202247191011,
      "train_speed(iter/s)": 1.44796
    },
    {
      "epoch": 2.5170301186752924,
      "grad_norm": 3.3847708702087402,
      "learning_rate": 4.9464993252403366e-05,
      "loss": 0.5615349769592285,
      "memory(GiB)": 70.5,
      "step": 58750,
      "token_acc": 0.8892988929889298,
      "train_speed(iter/s)": 1.447967
    },
    {
      "epoch": 2.517244334004541,
      "grad_norm": 2.961794137954712,
      "learning_rate": 4.945826386948981e-05,
      "loss": 0.37916734218597414,
      "memory(GiB)": 70.5,
      "step": 58755,
      "token_acc": 0.922509225092251,
      "train_speed(iter/s)": 1.447977
    },
    {
      "epoch": 2.5174585493337904,
      "grad_norm": 2.222403049468994,
      "learning_rate": 4.9451534496390315e-05,
      "loss": 0.25006699562072754,
      "memory(GiB)": 70.5,
      "step": 58760,
      "token_acc": 0.9304347826086956,
      "train_speed(iter/s)": 1.447975
    },
    {
      "epoch": 2.5176727646630392,
      "grad_norm": 1.989259958267212,
      "learning_rate": 4.944480513322678e-05,
      "loss": 0.27332708835601804,
      "memory(GiB)": 70.5,
      "step": 58765,
      "token_acc": 0.9228295819935691,
      "train_speed(iter/s)": 1.44799
    },
    {
      "epoch": 2.517886979992288,
      "grad_norm": 1.2248071432113647,
      "learning_rate": 4.943807578012114e-05,
      "loss": 0.34197134971618653,
      "memory(GiB)": 70.5,
      "step": 58770,
      "token_acc": 0.9183673469387755,
      "train_speed(iter/s)": 1.447999
    },
    {
      "epoch": 2.5181011953215373,
      "grad_norm": 3.228273868560791,
      "learning_rate": 4.943134643719528e-05,
      "loss": 0.39010910987854003,
      "memory(GiB)": 70.5,
      "step": 58775,
      "token_acc": 0.9543859649122807,
      "train_speed(iter/s)": 1.447999
    },
    {
      "epoch": 2.518315410650786,
      "grad_norm": 2.630650758743286,
      "learning_rate": 4.94246171045711e-05,
      "loss": 0.25847930908203126,
      "memory(GiB)": 70.5,
      "step": 58780,
      "token_acc": 0.9510204081632653,
      "train_speed(iter/s)": 1.448
    },
    {
      "epoch": 2.518529625980035,
      "grad_norm": 2.851236581802368,
      "learning_rate": 4.941788778237053e-05,
      "loss": 0.3757209777832031,
      "memory(GiB)": 70.5,
      "step": 58785,
      "token_acc": 0.9130434782608695,
      "train_speed(iter/s)": 1.448001
    },
    {
      "epoch": 2.518743841309284,
      "grad_norm": 1.6079667806625366,
      "learning_rate": 4.941115847071547e-05,
      "loss": 0.30015885829925537,
      "memory(GiB)": 70.5,
      "step": 58790,
      "token_acc": 0.9473684210526315,
      "train_speed(iter/s)": 1.448017
    },
    {
      "epoch": 2.518958056638533,
      "grad_norm": 1.5499424934387207,
      "learning_rate": 4.9404429169727815e-05,
      "loss": 0.4352890968322754,
      "memory(GiB)": 70.5,
      "step": 58795,
      "token_acc": 0.9205776173285198,
      "train_speed(iter/s)": 1.448017
    },
    {
      "epoch": 2.519172271967782,
      "grad_norm": 4.70640754699707,
      "learning_rate": 4.9397699879529475e-05,
      "loss": 0.3444368362426758,
      "memory(GiB)": 70.5,
      "step": 58800,
      "token_acc": 0.9292929292929293,
      "train_speed(iter/s)": 1.448029
    },
    {
      "epoch": 2.519386487297031,
      "grad_norm": 3.467071533203125,
      "learning_rate": 4.939097060024239e-05,
      "loss": 0.2430823564529419,
      "memory(GiB)": 70.5,
      "step": 58805,
      "token_acc": 0.9480122324159022,
      "train_speed(iter/s)": 1.448027
    },
    {
      "epoch": 2.51960070262628,
      "grad_norm": 0.7759162783622742,
      "learning_rate": 4.9384241331988444e-05,
      "loss": 0.39481167793273925,
      "memory(GiB)": 70.5,
      "step": 58810,
      "token_acc": 0.9022556390977443,
      "train_speed(iter/s)": 1.448029
    },
    {
      "epoch": 2.5198149179555287,
      "grad_norm": 3.7817556858062744,
      "learning_rate": 4.937751207488953e-05,
      "loss": 0.3152715444564819,
      "memory(GiB)": 70.5,
      "step": 58815,
      "token_acc": 0.93125,
      "train_speed(iter/s)": 1.448035
    },
    {
      "epoch": 2.520029133284778,
      "grad_norm": 2.790290355682373,
      "learning_rate": 4.937078282906758e-05,
      "loss": 0.22903094291687012,
      "memory(GiB)": 70.5,
      "step": 58820,
      "token_acc": 0.9476923076923077,
      "train_speed(iter/s)": 1.448047
    },
    {
      "epoch": 2.5202433486140268,
      "grad_norm": 3.4690370559692383,
      "learning_rate": 4.936405359464448e-05,
      "loss": 0.15675041675567628,
      "memory(GiB)": 70.5,
      "step": 58825,
      "token_acc": 0.9507575757575758,
      "train_speed(iter/s)": 1.448055
    },
    {
      "epoch": 2.5204575639432756,
      "grad_norm": 2.3843865394592285,
      "learning_rate": 4.9357324371742156e-05,
      "loss": 0.32299563884735105,
      "memory(GiB)": 70.5,
      "step": 58830,
      "token_acc": 0.9227799227799228,
      "train_speed(iter/s)": 1.448059
    },
    {
      "epoch": 2.520671779272525,
      "grad_norm": 3.646042823791504,
      "learning_rate": 4.93505951604825e-05,
      "loss": 0.31419057846069337,
      "memory(GiB)": 70.5,
      "step": 58835,
      "token_acc": 0.9398496240601504,
      "train_speed(iter/s)": 1.448059
    },
    {
      "epoch": 2.5208859946017736,
      "grad_norm": 4.305171489715576,
      "learning_rate": 4.9343865960987425e-05,
      "loss": 0.7653546333312988,
      "memory(GiB)": 70.5,
      "step": 58840,
      "token_acc": 0.8609022556390977,
      "train_speed(iter/s)": 1.448082
    },
    {
      "epoch": 2.5211002099310225,
      "grad_norm": 3.3429465293884277,
      "learning_rate": 4.9337136773378836e-05,
      "loss": 0.5332307815551758,
      "memory(GiB)": 70.5,
      "step": 58845,
      "token_acc": 0.8862068965517241,
      "train_speed(iter/s)": 1.448078
    },
    {
      "epoch": 2.5213144252602717,
      "grad_norm": 4.075344085693359,
      "learning_rate": 4.933040759777863e-05,
      "loss": 0.251200795173645,
      "memory(GiB)": 70.5,
      "step": 58850,
      "token_acc": 0.935251798561151,
      "train_speed(iter/s)": 1.448076
    },
    {
      "epoch": 2.5215286405895205,
      "grad_norm": 3.369629144668579,
      "learning_rate": 4.9323678434308713e-05,
      "loss": 0.32784082889556887,
      "memory(GiB)": 70.5,
      "step": 58855,
      "token_acc": 0.9248366013071896,
      "train_speed(iter/s)": 1.44808
    },
    {
      "epoch": 2.5217428559187693,
      "grad_norm": 1.806627869606018,
      "learning_rate": 4.9316949283091004e-05,
      "loss": 0.16780433654785157,
      "memory(GiB)": 70.5,
      "step": 58860,
      "token_acc": 0.9508196721311475,
      "train_speed(iter/s)": 1.448088
    },
    {
      "epoch": 2.5219570712480186,
      "grad_norm": 2.4678027629852295,
      "learning_rate": 4.9310220144247396e-05,
      "loss": 0.2607236623764038,
      "memory(GiB)": 70.5,
      "step": 58865,
      "token_acc": 0.9395017793594306,
      "train_speed(iter/s)": 1.448093
    },
    {
      "epoch": 2.5221712865772674,
      "grad_norm": 1.4347301721572876,
      "learning_rate": 4.930349101789978e-05,
      "loss": 0.45713090896606445,
      "memory(GiB)": 70.5,
      "step": 58870,
      "token_acc": 0.898876404494382,
      "train_speed(iter/s)": 1.448097
    },
    {
      "epoch": 2.5223855019065162,
      "grad_norm": 0.05418318510055542,
      "learning_rate": 4.9296761904170095e-05,
      "loss": 0.35408523082733157,
      "memory(GiB)": 70.5,
      "step": 58875,
      "token_acc": 0.9318885448916409,
      "train_speed(iter/s)": 1.448095
    },
    {
      "epoch": 2.5225997172357655,
      "grad_norm": 6.982428073883057,
      "learning_rate": 4.9290032803180234e-05,
      "loss": 0.49468564987182617,
      "memory(GiB)": 70.5,
      "step": 58880,
      "token_acc": 0.9297658862876255,
      "train_speed(iter/s)": 1.448093
    },
    {
      "epoch": 2.5228139325650143,
      "grad_norm": 3.5002925395965576,
      "learning_rate": 4.928330371505208e-05,
      "loss": 0.3986830472946167,
      "memory(GiB)": 70.5,
      "step": 58885,
      "token_acc": 0.9172413793103448,
      "train_speed(iter/s)": 1.448093
    },
    {
      "epoch": 2.523028147894263,
      "grad_norm": 4.23842716217041,
      "learning_rate": 4.927657463990757e-05,
      "loss": 0.4949055194854736,
      "memory(GiB)": 70.5,
      "step": 58890,
      "token_acc": 0.8933823529411765,
      "train_speed(iter/s)": 1.448099
    },
    {
      "epoch": 2.5232423632235124,
      "grad_norm": 5.50463342666626,
      "learning_rate": 4.926984557786859e-05,
      "loss": 0.634669303894043,
      "memory(GiB)": 70.5,
      "step": 58895,
      "token_acc": 0.8576271186440678,
      "train_speed(iter/s)": 1.448112
    },
    {
      "epoch": 2.523456578552761,
      "grad_norm": 3.6052258014678955,
      "learning_rate": 4.926311652905702e-05,
      "loss": 0.21661653518676757,
      "memory(GiB)": 70.5,
      "step": 58900,
      "token_acc": 0.96,
      "train_speed(iter/s)": 1.448114
    },
    {
      "epoch": 2.52367079388201,
      "grad_norm": 3.627699136734009,
      "learning_rate": 4.9256387493594805e-05,
      "loss": 0.3708128213882446,
      "memory(GiB)": 70.5,
      "step": 58905,
      "token_acc": 0.9080459770114943,
      "train_speed(iter/s)": 1.448107
    },
    {
      "epoch": 2.5238850092112592,
      "grad_norm": 6.0818705558776855,
      "learning_rate": 4.924965847160381e-05,
      "loss": 0.6890861511230468,
      "memory(GiB)": 70.5,
      "step": 58910,
      "token_acc": 0.8540145985401459,
      "train_speed(iter/s)": 1.448123
    },
    {
      "epoch": 2.524099224540508,
      "grad_norm": 3.2669668197631836,
      "learning_rate": 4.924292946320597e-05,
      "loss": 0.41802067756652833,
      "memory(GiB)": 70.5,
      "step": 58915,
      "token_acc": 0.91,
      "train_speed(iter/s)": 1.448122
    },
    {
      "epoch": 2.524313439869757,
      "grad_norm": 3.162588596343994,
      "learning_rate": 4.923620046852318e-05,
      "loss": 0.3112445831298828,
      "memory(GiB)": 70.5,
      "step": 58920,
      "token_acc": 0.9253731343283582,
      "train_speed(iter/s)": 1.44812
    },
    {
      "epoch": 2.524527655199006,
      "grad_norm": 2.4474568367004395,
      "learning_rate": 4.9229471487677316e-05,
      "loss": 0.37276554107666016,
      "memory(GiB)": 70.5,
      "step": 58925,
      "token_acc": 0.932,
      "train_speed(iter/s)": 1.448125
    },
    {
      "epoch": 2.524741870528255,
      "grad_norm": 4.540578365325928,
      "learning_rate": 4.9222742520790314e-05,
      "loss": 0.4140131950378418,
      "memory(GiB)": 70.5,
      "step": 58930,
      "token_acc": 0.9174041297935103,
      "train_speed(iter/s)": 1.448128
    },
    {
      "epoch": 2.5249560858575038,
      "grad_norm": 2.1798505783081055,
      "learning_rate": 4.9216013567984055e-05,
      "loss": 0.16476099491119384,
      "memory(GiB)": 70.5,
      "step": 58935,
      "token_acc": 0.9633333333333334,
      "train_speed(iter/s)": 1.44813
    },
    {
      "epoch": 2.525170301186753,
      "grad_norm": 3.962891101837158,
      "learning_rate": 4.920928462938044e-05,
      "loss": 0.4475104808807373,
      "memory(GiB)": 70.5,
      "step": 58940,
      "token_acc": 0.9049180327868852,
      "train_speed(iter/s)": 1.44814
    },
    {
      "epoch": 2.525384516516002,
      "grad_norm": 5.507608890533447,
      "learning_rate": 4.9202555705101355e-05,
      "loss": 0.44591064453125,
      "memory(GiB)": 70.5,
      "step": 58945,
      "token_acc": 0.8896103896103896,
      "train_speed(iter/s)": 1.448141
    },
    {
      "epoch": 2.5255987318452506,
      "grad_norm": 9.782048225402832,
      "learning_rate": 4.919582679526875e-05,
      "loss": 0.5619991779327392,
      "memory(GiB)": 70.5,
      "step": 58950,
      "token_acc": 0.8844884488448845,
      "train_speed(iter/s)": 1.44814
    },
    {
      "epoch": 2.5258129471745,
      "grad_norm": 4.097883701324463,
      "learning_rate": 4.918909790000449e-05,
      "loss": 0.6445967197418213,
      "memory(GiB)": 70.5,
      "step": 58955,
      "token_acc": 0.8664596273291926,
      "train_speed(iter/s)": 1.44814
    },
    {
      "epoch": 2.5260271625037487,
      "grad_norm": 3.3517541885375977,
      "learning_rate": 4.918236901943049e-05,
      "loss": 0.38232927322387694,
      "memory(GiB)": 70.5,
      "step": 58960,
      "token_acc": 0.9118773946360154,
      "train_speed(iter/s)": 1.448134
    },
    {
      "epoch": 2.5262413778329975,
      "grad_norm": 3.197361707687378,
      "learning_rate": 4.917564015366864e-05,
      "loss": 0.3969565868377686,
      "memory(GiB)": 70.5,
      "step": 58965,
      "token_acc": 0.8908450704225352,
      "train_speed(iter/s)": 1.448133
    },
    {
      "epoch": 2.5264555931622468,
      "grad_norm": 0.5433465838432312,
      "learning_rate": 4.9168911302840834e-05,
      "loss": 0.22356815338134767,
      "memory(GiB)": 70.5,
      "step": 58970,
      "token_acc": 0.9439655172413793,
      "train_speed(iter/s)": 1.448142
    },
    {
      "epoch": 2.5266698084914956,
      "grad_norm": 2.85564923286438,
      "learning_rate": 4.916218246706899e-05,
      "loss": 0.3832036256790161,
      "memory(GiB)": 70.5,
      "step": 58975,
      "token_acc": 0.9130434782608695,
      "train_speed(iter/s)": 1.448153
    },
    {
      "epoch": 2.5268840238207444,
      "grad_norm": 2.8711578845977783,
      "learning_rate": 4.9155453646475e-05,
      "loss": 0.4896231651306152,
      "memory(GiB)": 70.5,
      "step": 58980,
      "token_acc": 0.8952702702702703,
      "train_speed(iter/s)": 1.448151
    },
    {
      "epoch": 2.5270982391499937,
      "grad_norm": 1.5234606266021729,
      "learning_rate": 4.914872484118074e-05,
      "loss": 0.44480252265930176,
      "memory(GiB)": 70.5,
      "step": 58985,
      "token_acc": 0.9121338912133892,
      "train_speed(iter/s)": 1.448153
    },
    {
      "epoch": 2.5273124544792425,
      "grad_norm": 3.071272134780884,
      "learning_rate": 4.914199605130814e-05,
      "loss": 0.5242734432220459,
      "memory(GiB)": 70.5,
      "step": 58990,
      "token_acc": 0.9014925373134328,
      "train_speed(iter/s)": 1.448156
    },
    {
      "epoch": 2.5275266698084913,
      "grad_norm": 2.112407684326172,
      "learning_rate": 4.913526727697909e-05,
      "loss": 0.30191280841827395,
      "memory(GiB)": 70.5,
      "step": 58995,
      "token_acc": 0.9402985074626866,
      "train_speed(iter/s)": 1.448161
    },
    {
      "epoch": 2.5277408851377405,
      "grad_norm": 4.005379676818848,
      "learning_rate": 4.912853851831547e-05,
      "loss": 0.4606758117675781,
      "memory(GiB)": 70.5,
      "step": 59000,
      "token_acc": 0.8941176470588236,
      "train_speed(iter/s)": 1.448172
    },
    {
      "epoch": 2.5277408851377405,
      "eval_loss": 2.4196512699127197,
      "eval_runtime": 13.3337,
      "eval_samples_per_second": 7.5,
      "eval_steps_per_second": 7.5,
      "eval_token_acc": 0.43239795918367346,
      "step": 59000
    },
    {
      "epoch": 2.5279551004669893,
      "grad_norm": 2.5390141010284424,
      "learning_rate": 4.9121809775439214e-05,
      "loss": 0.4370736122131348,
      "memory(GiB)": 70.5,
      "step": 59005,
      "token_acc": 0.545367717287488,
      "train_speed(iter/s)": 1.44765
    },
    {
      "epoch": 2.528169315796238,
      "grad_norm": 2.717944383621216,
      "learning_rate": 4.911508104847218e-05,
      "loss": 0.36449761390686036,
      "memory(GiB)": 70.5,
      "step": 59010,
      "token_acc": 0.9151943462897526,
      "train_speed(iter/s)": 1.447651
    },
    {
      "epoch": 2.5283835311254874,
      "grad_norm": 2.189587354660034,
      "learning_rate": 4.910835233753629e-05,
      "loss": 0.4286686897277832,
      "memory(GiB)": 70.5,
      "step": 59015,
      "token_acc": 0.9031413612565445,
      "train_speed(iter/s)": 1.44765
    },
    {
      "epoch": 2.5285977464547362,
      "grad_norm": 2.4126620292663574,
      "learning_rate": 4.9101623642753416e-05,
      "loss": 0.64586501121521,
      "memory(GiB)": 70.5,
      "step": 59020,
      "token_acc": 0.8918918918918919,
      "train_speed(iter/s)": 1.447662
    },
    {
      "epoch": 2.528811961783985,
      "grad_norm": 8.587518692016602,
      "learning_rate": 4.909489496424549e-05,
      "loss": 0.17564696073532104,
      "memory(GiB)": 70.5,
      "step": 59025,
      "token_acc": 0.9453781512605042,
      "train_speed(iter/s)": 1.447667
    },
    {
      "epoch": 2.5290261771132343,
      "grad_norm": 5.01985502243042,
      "learning_rate": 4.9088166302134385e-05,
      "loss": 0.6571852684020996,
      "memory(GiB)": 70.5,
      "step": 59030,
      "token_acc": 0.8547854785478548,
      "train_speed(iter/s)": 1.447667
    },
    {
      "epoch": 2.529240392442483,
      "grad_norm": 2.383903741836548,
      "learning_rate": 4.908143765654201e-05,
      "loss": 0.27752697467803955,
      "memory(GiB)": 70.5,
      "step": 59035,
      "token_acc": 0.945054945054945,
      "train_speed(iter/s)": 1.447668
    },
    {
      "epoch": 2.529454607771732,
      "grad_norm": 2.24817156791687,
      "learning_rate": 4.907470902759026e-05,
      "loss": 0.17322503328323363,
      "memory(GiB)": 70.5,
      "step": 59040,
      "token_acc": 0.9563492063492064,
      "train_speed(iter/s)": 1.447644
    },
    {
      "epoch": 2.529668823100981,
      "grad_norm": 4.541551113128662,
      "learning_rate": 4.906798041540101e-05,
      "loss": 0.6654854774475097,
      "memory(GiB)": 70.5,
      "step": 59045,
      "token_acc": 0.87890625,
      "train_speed(iter/s)": 1.447658
    },
    {
      "epoch": 2.52988303843023,
      "grad_norm": 2.1386265754699707,
      "learning_rate": 4.906125182009618e-05,
      "loss": 0.4121506690979004,
      "memory(GiB)": 70.5,
      "step": 59050,
      "token_acc": 0.8986928104575164,
      "train_speed(iter/s)": 1.447653
    },
    {
      "epoch": 2.530097253759479,
      "grad_norm": 2.4872655868530273,
      "learning_rate": 4.905452324179764e-05,
      "loss": 0.145536470413208,
      "memory(GiB)": 70.5,
      "step": 59055,
      "token_acc": 0.9765625,
      "train_speed(iter/s)": 1.447654
    },
    {
      "epoch": 2.530311469088728,
      "grad_norm": 3.2195944786071777,
      "learning_rate": 4.904779468062731e-05,
      "loss": 0.4111196517944336,
      "memory(GiB)": 70.5,
      "step": 59060,
      "token_acc": 0.9011406844106464,
      "train_speed(iter/s)": 1.447669
    },
    {
      "epoch": 2.530525684417977,
      "grad_norm": 5.074983596801758,
      "learning_rate": 4.904106613670707e-05,
      "loss": 0.3333961725234985,
      "memory(GiB)": 70.5,
      "step": 59065,
      "token_acc": 0.9288025889967637,
      "train_speed(iter/s)": 1.447666
    },
    {
      "epoch": 2.5307398997472257,
      "grad_norm": 1.6135588884353638,
      "learning_rate": 4.9034337610158815e-05,
      "loss": 0.19834024906158448,
      "memory(GiB)": 70.5,
      "step": 59070,
      "token_acc": 0.9629629629629629,
      "train_speed(iter/s)": 1.447679
    },
    {
      "epoch": 2.530954115076475,
      "grad_norm": 3.32763671875,
      "learning_rate": 4.9027609101104444e-05,
      "loss": 0.287885856628418,
      "memory(GiB)": 70.5,
      "step": 59075,
      "token_acc": 0.952,
      "train_speed(iter/s)": 1.447684
    },
    {
      "epoch": 2.5311683304057238,
      "grad_norm": 5.014883995056152,
      "learning_rate": 4.902088060966585e-05,
      "loss": 0.22803654670715331,
      "memory(GiB)": 70.5,
      "step": 59080,
      "token_acc": 0.9462915601023018,
      "train_speed(iter/s)": 1.447703
    },
    {
      "epoch": 2.5313825457349726,
      "grad_norm": 3.176724910736084,
      "learning_rate": 4.90141521359649e-05,
      "loss": 0.5737852573394775,
      "memory(GiB)": 70.5,
      "step": 59085,
      "token_acc": 0.8774928774928775,
      "train_speed(iter/s)": 1.447725
    },
    {
      "epoch": 2.531596761064222,
      "grad_norm": 2.0917797088623047,
      "learning_rate": 4.900742368012353e-05,
      "loss": 0.3293910980224609,
      "memory(GiB)": 70.5,
      "step": 59090,
      "token_acc": 0.9157088122605364,
      "train_speed(iter/s)": 1.44772
    },
    {
      "epoch": 2.5318109763934706,
      "grad_norm": 2.8381834030151367,
      "learning_rate": 4.9000695242263586e-05,
      "loss": 0.4488013744354248,
      "memory(GiB)": 70.5,
      "step": 59095,
      "token_acc": 0.8996960486322189,
      "train_speed(iter/s)": 1.447735
    },
    {
      "epoch": 2.5320251917227194,
      "grad_norm": 2.029451370239258,
      "learning_rate": 4.8993966822507006e-05,
      "loss": 0.23902637958526612,
      "memory(GiB)": 70.5,
      "step": 59100,
      "token_acc": 0.9598393574297188,
      "train_speed(iter/s)": 1.447733
    },
    {
      "epoch": 2.5322394070519687,
      "grad_norm": 6.024895668029785,
      "learning_rate": 4.898723842097566e-05,
      "loss": 0.4117762088775635,
      "memory(GiB)": 70.5,
      "step": 59105,
      "token_acc": 0.9218241042345277,
      "train_speed(iter/s)": 1.447734
    },
    {
      "epoch": 2.5324536223812175,
      "grad_norm": 5.9803571701049805,
      "learning_rate": 4.898051003779144e-05,
      "loss": 0.47714786529541015,
      "memory(GiB)": 70.5,
      "step": 59110,
      "token_acc": 0.9070631970260223,
      "train_speed(iter/s)": 1.447745
    },
    {
      "epoch": 2.5326678377104663,
      "grad_norm": 5.734964847564697,
      "learning_rate": 4.8973781673076236e-05,
      "loss": 0.3076761245727539,
      "memory(GiB)": 70.5,
      "step": 59115,
      "token_acc": 0.9176470588235294,
      "train_speed(iter/s)": 1.447742
    },
    {
      "epoch": 2.5328820530397156,
      "grad_norm": 2.923720598220825,
      "learning_rate": 4.896705332695194e-05,
      "loss": 0.16880486011505128,
      "memory(GiB)": 70.5,
      "step": 59120,
      "token_acc": 0.9585987261146497,
      "train_speed(iter/s)": 1.447745
    },
    {
      "epoch": 2.5330962683689644,
      "grad_norm": 3.9532177448272705,
      "learning_rate": 4.896032499954045e-05,
      "loss": 0.2662095546722412,
      "memory(GiB)": 70.5,
      "step": 59125,
      "token_acc": 0.9340659340659341,
      "train_speed(iter/s)": 1.447751
    },
    {
      "epoch": 2.533310483698213,
      "grad_norm": 3.533195734024048,
      "learning_rate": 4.895359669096363e-05,
      "loss": 0.6065425395965576,
      "memory(GiB)": 70.5,
      "step": 59130,
      "token_acc": 0.8700787401574803,
      "train_speed(iter/s)": 1.447769
    },
    {
      "epoch": 2.5335246990274625,
      "grad_norm": 3.8125109672546387,
      "learning_rate": 4.8946868401343404e-05,
      "loss": 0.3855398178100586,
      "memory(GiB)": 70.5,
      "step": 59135,
      "token_acc": 0.920265780730897,
      "train_speed(iter/s)": 1.447787
    },
    {
      "epoch": 2.5337389143567113,
      "grad_norm": 2.1476705074310303,
      "learning_rate": 4.894014013080163e-05,
      "loss": 0.24307565689086913,
      "memory(GiB)": 70.5,
      "step": 59140,
      "token_acc": 0.9411764705882353,
      "train_speed(iter/s)": 1.447787
    },
    {
      "epoch": 2.53395312968596,
      "grad_norm": 3.232288122177124,
      "learning_rate": 4.893341187946022e-05,
      "loss": 0.3228936195373535,
      "memory(GiB)": 70.5,
      "step": 59145,
      "token_acc": 0.9250936329588015,
      "train_speed(iter/s)": 1.447787
    },
    {
      "epoch": 2.5341673450152093,
      "grad_norm": 2.432175874710083,
      "learning_rate": 4.8926683647441065e-05,
      "loss": 0.1828052282333374,
      "memory(GiB)": 70.5,
      "step": 59150,
      "token_acc": 0.9675675675675676,
      "train_speed(iter/s)": 1.447797
    },
    {
      "epoch": 2.534381560344458,
      "grad_norm": 5.612984657287598,
      "learning_rate": 4.891995543486602e-05,
      "loss": 0.6008591651916504,
      "memory(GiB)": 70.5,
      "step": 59155,
      "token_acc": 0.8582089552238806,
      "train_speed(iter/s)": 1.447823
    },
    {
      "epoch": 2.534595775673707,
      "grad_norm": 5.478182792663574,
      "learning_rate": 4.8913227241857016e-05,
      "loss": 0.19764493703842162,
      "memory(GiB)": 70.5,
      "step": 59160,
      "token_acc": 0.9563636363636364,
      "train_speed(iter/s)": 1.447826
    },
    {
      "epoch": 2.5348099910029562,
      "grad_norm": 1.0537967681884766,
      "learning_rate": 4.8906499068535917e-05,
      "loss": 0.5231286525726319,
      "memory(GiB)": 70.5,
      "step": 59165,
      "token_acc": 0.8959731543624161,
      "train_speed(iter/s)": 1.447836
    },
    {
      "epoch": 2.535024206332205,
      "grad_norm": 3.067488670349121,
      "learning_rate": 4.889977091502459e-05,
      "loss": 0.357782769203186,
      "memory(GiB)": 70.5,
      "step": 59170,
      "token_acc": 0.900709219858156,
      "train_speed(iter/s)": 1.447846
    },
    {
      "epoch": 2.535238421661454,
      "grad_norm": 1.4149047136306763,
      "learning_rate": 4.889304278144495e-05,
      "loss": 0.10418986082077027,
      "memory(GiB)": 70.5,
      "step": 59175,
      "token_acc": 0.9735973597359736,
      "train_speed(iter/s)": 1.447843
    },
    {
      "epoch": 2.535452636990703,
      "grad_norm": 4.032512664794922,
      "learning_rate": 4.88863146679189e-05,
      "loss": 0.44106593132019045,
      "memory(GiB)": 70.5,
      "step": 59180,
      "token_acc": 0.9193083573487032,
      "train_speed(iter/s)": 1.447839
    },
    {
      "epoch": 2.535666852319952,
      "grad_norm": 3.6200549602508545,
      "learning_rate": 4.88795865745683e-05,
      "loss": 0.1590280771255493,
      "memory(GiB)": 70.5,
      "step": 59185,
      "token_acc": 0.9676258992805755,
      "train_speed(iter/s)": 1.447843
    },
    {
      "epoch": 2.5358810676492007,
      "grad_norm": 2.0708882808685303,
      "learning_rate": 4.887285850151503e-05,
      "loss": 0.5199456691741944,
      "memory(GiB)": 70.5,
      "step": 59190,
      "token_acc": 0.9027237354085603,
      "train_speed(iter/s)": 1.447857
    },
    {
      "epoch": 2.53609528297845,
      "grad_norm": 3.165858745574951,
      "learning_rate": 4.8866130448880995e-05,
      "loss": 0.3282433748245239,
      "memory(GiB)": 70.5,
      "step": 59195,
      "token_acc": 0.9246575342465754,
      "train_speed(iter/s)": 1.447861
    },
    {
      "epoch": 2.536309498307699,
      "grad_norm": 3.77192759513855,
      "learning_rate": 4.885940241678806e-05,
      "loss": 0.3978853464126587,
      "memory(GiB)": 70.5,
      "step": 59200,
      "token_acc": 0.9111842105263158,
      "train_speed(iter/s)": 1.447854
    },
    {
      "epoch": 2.5365237136369476,
      "grad_norm": 5.563136100769043,
      "learning_rate": 4.885267440535813e-05,
      "loss": 0.4899578094482422,
      "memory(GiB)": 70.5,
      "step": 59205,
      "token_acc": 0.9210526315789473,
      "train_speed(iter/s)": 1.447869
    },
    {
      "epoch": 2.536737928966197,
      "grad_norm": 8.118234634399414,
      "learning_rate": 4.8845946414713076e-05,
      "loss": 0.5838555335998535,
      "memory(GiB)": 70.5,
      "step": 59210,
      "token_acc": 0.8690909090909091,
      "train_speed(iter/s)": 1.447865
    },
    {
      "epoch": 2.5369521442954457,
      "grad_norm": 0.3368057608604431,
      "learning_rate": 4.883921844497478e-05,
      "loss": 0.42038669586181643,
      "memory(GiB)": 70.5,
      "step": 59215,
      "token_acc": 0.921161825726141,
      "train_speed(iter/s)": 1.447866
    },
    {
      "epoch": 2.5371663596246945,
      "grad_norm": 0.454548716545105,
      "learning_rate": 4.883249049626514e-05,
      "loss": 0.17383211851119995,
      "memory(GiB)": 70.5,
      "step": 59220,
      "token_acc": 0.9527272727272728,
      "train_speed(iter/s)": 1.447873
    },
    {
      "epoch": 2.5373805749539438,
      "grad_norm": 3.5904698371887207,
      "learning_rate": 4.882576256870604e-05,
      "loss": 0.26928999423980715,
      "memory(GiB)": 70.5,
      "step": 59225,
      "token_acc": 0.9511400651465798,
      "train_speed(iter/s)": 1.447876
    },
    {
      "epoch": 2.5375947902831926,
      "grad_norm": 3.3946967124938965,
      "learning_rate": 4.8819034662419326e-05,
      "loss": 0.513791847229004,
      "memory(GiB)": 70.5,
      "step": 59230,
      "token_acc": 0.9003215434083601,
      "train_speed(iter/s)": 1.447894
    },
    {
      "epoch": 2.5378090056124414,
      "grad_norm": 3.8333775997161865,
      "learning_rate": 4.881230677752693e-05,
      "loss": 0.4037765026092529,
      "memory(GiB)": 70.5,
      "step": 59235,
      "token_acc": 0.9133574007220217,
      "train_speed(iter/s)": 1.447891
    },
    {
      "epoch": 2.5380232209416906,
      "grad_norm": 2.9136526584625244,
      "learning_rate": 4.880557891415068e-05,
      "loss": 0.4130918025970459,
      "memory(GiB)": 70.5,
      "step": 59240,
      "token_acc": 0.896774193548387,
      "train_speed(iter/s)": 1.447913
    },
    {
      "epoch": 2.5382374362709395,
      "grad_norm": 1.0213927030563354,
      "learning_rate": 4.87988510724125e-05,
      "loss": 0.34643917083740233,
      "memory(GiB)": 70.5,
      "step": 59245,
      "token_acc": 0.9233449477351916,
      "train_speed(iter/s)": 1.447927
    },
    {
      "epoch": 2.5384516516001883,
      "grad_norm": 7.9885053634643555,
      "learning_rate": 4.8792123252434276e-05,
      "loss": 0.26111769676208496,
      "memory(GiB)": 70.5,
      "step": 59250,
      "token_acc": 0.9222614840989399,
      "train_speed(iter/s)": 1.447922
    },
    {
      "epoch": 2.5386658669294375,
      "grad_norm": 4.7541022300720215,
      "learning_rate": 4.878539545433787e-05,
      "loss": 0.3065299987792969,
      "memory(GiB)": 70.5,
      "step": 59255,
      "token_acc": 0.930835734870317,
      "train_speed(iter/s)": 1.447934
    },
    {
      "epoch": 2.5388800822586863,
      "grad_norm": 4.858361721038818,
      "learning_rate": 4.877866767824515e-05,
      "loss": 0.5336041450500488,
      "memory(GiB)": 70.5,
      "step": 59260,
      "token_acc": 0.8940809968847352,
      "train_speed(iter/s)": 1.447933
    },
    {
      "epoch": 2.539094297587935,
      "grad_norm": 7.071676731109619,
      "learning_rate": 4.877193992427803e-05,
      "loss": 0.5510545253753663,
      "memory(GiB)": 70.5,
      "step": 59265,
      "token_acc": 0.8606271777003485,
      "train_speed(iter/s)": 1.447931
    },
    {
      "epoch": 2.5393085129171844,
      "grad_norm": 3.0350918769836426,
      "learning_rate": 4.876521219255836e-05,
      "loss": 0.3652268171310425,
      "memory(GiB)": 70.5,
      "step": 59270,
      "token_acc": 0.9215686274509803,
      "train_speed(iter/s)": 1.447937
    },
    {
      "epoch": 2.539522728246433,
      "grad_norm": 2.3156015872955322,
      "learning_rate": 4.8758484483208024e-05,
      "loss": 0.42890100479125975,
      "memory(GiB)": 70.5,
      "step": 59275,
      "token_acc": 0.9027777777777778,
      "train_speed(iter/s)": 1.44794
    },
    {
      "epoch": 2.539736943575682,
      "grad_norm": 1.942608118057251,
      "learning_rate": 4.875175679634892e-05,
      "loss": 0.3514684200286865,
      "memory(GiB)": 70.5,
      "step": 59280,
      "token_acc": 0.9239130434782609,
      "train_speed(iter/s)": 1.44795
    },
    {
      "epoch": 2.5399511589049313,
      "grad_norm": 6.506754398345947,
      "learning_rate": 4.87450291321029e-05,
      "loss": 0.5576425552368164,
      "memory(GiB)": 70.5,
      "step": 59285,
      "token_acc": 0.8804347826086957,
      "train_speed(iter/s)": 1.447987
    },
    {
      "epoch": 2.54016537423418,
      "grad_norm": 2.794224739074707,
      "learning_rate": 4.873830149059186e-05,
      "loss": 0.23311614990234375,
      "memory(GiB)": 70.5,
      "step": 59290,
      "token_acc": 0.9538461538461539,
      "train_speed(iter/s)": 1.44799
    },
    {
      "epoch": 2.540379589563429,
      "grad_norm": 7.5165114402771,
      "learning_rate": 4.873157387193767e-05,
      "loss": 0.332576847076416,
      "memory(GiB)": 70.5,
      "step": 59295,
      "token_acc": 0.9163498098859315,
      "train_speed(iter/s)": 1.447989
    },
    {
      "epoch": 2.540593804892678,
      "grad_norm": 2.47064208984375,
      "learning_rate": 4.872484627626221e-05,
      "loss": 0.216333270072937,
      "memory(GiB)": 70.5,
      "step": 59300,
      "token_acc": 0.9625,
      "train_speed(iter/s)": 1.447996
    },
    {
      "epoch": 2.540808020221927,
      "grad_norm": 0.882618248462677,
      "learning_rate": 4.871811870368736e-05,
      "loss": 0.28080775737762453,
      "memory(GiB)": 70.5,
      "step": 59305,
      "token_acc": 0.9429530201342282,
      "train_speed(iter/s)": 1.448001
    },
    {
      "epoch": 2.541022235551176,
      "grad_norm": 6.353883266448975,
      "learning_rate": 4.8711391154335e-05,
      "loss": 0.7432687759399415,
      "memory(GiB)": 70.5,
      "step": 59310,
      "token_acc": 0.8362573099415205,
      "train_speed(iter/s)": 1.448013
    },
    {
      "epoch": 2.541236450880425,
      "grad_norm": 3.1140832901000977,
      "learning_rate": 4.870466362832696e-05,
      "loss": 0.5825001716613769,
      "memory(GiB)": 70.5,
      "step": 59315,
      "token_acc": 0.8922558922558923,
      "train_speed(iter/s)": 1.448025
    },
    {
      "epoch": 2.541450666209674,
      "grad_norm": 2.0459728240966797,
      "learning_rate": 4.869793612578518e-05,
      "loss": 0.6274656295776367,
      "memory(GiB)": 70.5,
      "step": 59320,
      "token_acc": 0.8636363636363636,
      "train_speed(iter/s)": 1.44804
    },
    {
      "epoch": 2.5416648815389227,
      "grad_norm": 2.4760591983795166,
      "learning_rate": 4.869120864683151e-05,
      "loss": 0.2313126802444458,
      "memory(GiB)": 70.5,
      "step": 59325,
      "token_acc": 0.9344827586206896,
      "train_speed(iter/s)": 1.448037
    },
    {
      "epoch": 2.541879096868172,
      "grad_norm": 5.765625476837158,
      "learning_rate": 4.868448119158783e-05,
      "loss": 0.5057467460632324,
      "memory(GiB)": 70.5,
      "step": 59330,
      "token_acc": 0.8900709219858156,
      "train_speed(iter/s)": 1.448034
    },
    {
      "epoch": 2.5420933121974207,
      "grad_norm": 1.124779224395752,
      "learning_rate": 4.8677753760175995e-05,
      "loss": 0.2358386516571045,
      "memory(GiB)": 70.5,
      "step": 59335,
      "token_acc": 0.9596412556053812,
      "train_speed(iter/s)": 1.448052
    },
    {
      "epoch": 2.5423075275266696,
      "grad_norm": 1.5786714553833008,
      "learning_rate": 4.8671026352717895e-05,
      "loss": 0.2807002067565918,
      "memory(GiB)": 70.5,
      "step": 59340,
      "token_acc": 0.940959409594096,
      "train_speed(iter/s)": 1.448055
    },
    {
      "epoch": 2.542521742855919,
      "grad_norm": 5.257143497467041,
      "learning_rate": 4.866429896933539e-05,
      "loss": 0.43343257904052734,
      "memory(GiB)": 70.5,
      "step": 59345,
      "token_acc": 0.9172661870503597,
      "train_speed(iter/s)": 1.448072
    },
    {
      "epoch": 2.5427359581851676,
      "grad_norm": 3.8641347885131836,
      "learning_rate": 4.865757161015038e-05,
      "loss": 0.5644326686859131,
      "memory(GiB)": 70.5,
      "step": 59350,
      "token_acc": 0.8668730650154799,
      "train_speed(iter/s)": 1.44808
    },
    {
      "epoch": 2.5429501735144164,
      "grad_norm": 2.4359049797058105,
      "learning_rate": 4.865084427528471e-05,
      "loss": 0.1649085760116577,
      "memory(GiB)": 70.5,
      "step": 59355,
      "token_acc": 0.958041958041958,
      "train_speed(iter/s)": 1.448085
    },
    {
      "epoch": 2.5431643888436657,
      "grad_norm": 4.000796318054199,
      "learning_rate": 4.864411696486026e-05,
      "loss": 0.5393502235412597,
      "memory(GiB)": 70.5,
      "step": 59360,
      "token_acc": 0.8825910931174089,
      "train_speed(iter/s)": 1.448086
    },
    {
      "epoch": 2.5433786041729145,
      "grad_norm": 7.503458499908447,
      "learning_rate": 4.863738967899891e-05,
      "loss": 0.39565396308898926,
      "memory(GiB)": 70.5,
      "step": 59365,
      "token_acc": 0.8843283582089553,
      "train_speed(iter/s)": 1.448102
    },
    {
      "epoch": 2.5435928195021633,
      "grad_norm": 3.3021175861358643,
      "learning_rate": 4.8630662417822526e-05,
      "loss": 0.42720942497253417,
      "memory(GiB)": 70.5,
      "step": 59370,
      "token_acc": 0.9158576051779935,
      "train_speed(iter/s)": 1.448107
    },
    {
      "epoch": 2.5438070348314126,
      "grad_norm": 5.499824523925781,
      "learning_rate": 4.8623935181452966e-05,
      "loss": 0.24418351650238038,
      "memory(GiB)": 70.5,
      "step": 59375,
      "token_acc": 0.9548872180451128,
      "train_speed(iter/s)": 1.448111
    },
    {
      "epoch": 2.5440212501606614,
      "grad_norm": 4.118307590484619,
      "learning_rate": 4.861720797001212e-05,
      "loss": 0.44422292709350586,
      "memory(GiB)": 70.5,
      "step": 59380,
      "token_acc": 0.9352941176470588,
      "train_speed(iter/s)": 1.44811
    },
    {
      "epoch": 2.54423546548991,
      "grad_norm": 3.3075711727142334,
      "learning_rate": 4.8610480783621835e-05,
      "loss": 0.6434619903564454,
      "memory(GiB)": 70.5,
      "step": 59385,
      "token_acc": 0.8434504792332268,
      "train_speed(iter/s)": 1.44811
    },
    {
      "epoch": 2.5444496808191595,
      "grad_norm": 5.194568634033203,
      "learning_rate": 4.860375362240399e-05,
      "loss": 0.4686881542205811,
      "memory(GiB)": 70.5,
      "step": 59390,
      "token_acc": 0.9127725856697819,
      "train_speed(iter/s)": 1.44812
    },
    {
      "epoch": 2.5446638961484083,
      "grad_norm": 4.58898401260376,
      "learning_rate": 4.859702648648047e-05,
      "loss": 0.38907995223999026,
      "memory(GiB)": 70.5,
      "step": 59395,
      "token_acc": 0.9014084507042254,
      "train_speed(iter/s)": 1.448132
    },
    {
      "epoch": 2.544878111477657,
      "grad_norm": 5.020251274108887,
      "learning_rate": 4.859029937597314e-05,
      "loss": 0.6481900691986084,
      "memory(GiB)": 70.5,
      "step": 59400,
      "token_acc": 0.857566765578635,
      "train_speed(iter/s)": 1.448129
    },
    {
      "epoch": 2.5450923268069063,
      "grad_norm": 2.5202810764312744,
      "learning_rate": 4.858357229100385e-05,
      "loss": 0.4843702793121338,
      "memory(GiB)": 70.5,
      "step": 59405,
      "token_acc": 0.8914285714285715,
      "train_speed(iter/s)": 1.448132
    },
    {
      "epoch": 2.545306542136155,
      "grad_norm": 1.633677363395691,
      "learning_rate": 4.857684523169449e-05,
      "loss": 0.5076782703399658,
      "memory(GiB)": 70.5,
      "step": 59410,
      "token_acc": 0.8777777777777778,
      "train_speed(iter/s)": 1.448134
    },
    {
      "epoch": 2.545520757465404,
      "grad_norm": 3.159020185470581,
      "learning_rate": 4.8570118198166896e-05,
      "loss": 0.6669922828674316,
      "memory(GiB)": 70.5,
      "step": 59415,
      "token_acc": 0.8823529411764706,
      "train_speed(iter/s)": 1.448137
    },
    {
      "epoch": 2.545734972794653,
      "grad_norm": 2.585453987121582,
      "learning_rate": 4.8563391190542954e-05,
      "loss": 0.5105390548706055,
      "memory(GiB)": 70.5,
      "step": 59420,
      "token_acc": 0.9121621621621622,
      "train_speed(iter/s)": 1.448152
    },
    {
      "epoch": 2.545949188123902,
      "grad_norm": 5.528973579406738,
      "learning_rate": 4.855666420894454e-05,
      "loss": 0.37211041450500487,
      "memory(GiB)": 70.5,
      "step": 59425,
      "token_acc": 0.9255663430420712,
      "train_speed(iter/s)": 1.448163
    },
    {
      "epoch": 2.546163403453151,
      "grad_norm": 3.5127639770507812,
      "learning_rate": 4.85499372534935e-05,
      "loss": 0.2787866830825806,
      "memory(GiB)": 70.5,
      "step": 59430,
      "token_acc": 0.945054945054945,
      "train_speed(iter/s)": 1.448164
    },
    {
      "epoch": 2.5463776187824,
      "grad_norm": 2.4585540294647217,
      "learning_rate": 4.8543210324311704e-05,
      "loss": 0.7508837699890136,
      "memory(GiB)": 70.5,
      "step": 59435,
      "token_acc": 0.8296089385474861,
      "train_speed(iter/s)": 1.448178
    },
    {
      "epoch": 2.546591834111649,
      "grad_norm": 1.796675443649292,
      "learning_rate": 4.8536483421521025e-05,
      "loss": 0.4490503787994385,
      "memory(GiB)": 70.5,
      "step": 59440,
      "token_acc": 0.8820058997050148,
      "train_speed(iter/s)": 1.44819
    },
    {
      "epoch": 2.5468060494408977,
      "grad_norm": 0.5752619504928589,
      "learning_rate": 4.852975654524332e-05,
      "loss": 0.09454126954078675,
      "memory(GiB)": 70.5,
      "step": 59445,
      "token_acc": 0.9814126394052045,
      "train_speed(iter/s)": 1.448191
    },
    {
      "epoch": 2.547020264770147,
      "grad_norm": 3.753777265548706,
      "learning_rate": 4.852302969560046e-05,
      "loss": 0.34363656044006347,
      "memory(GiB)": 70.5,
      "step": 59450,
      "token_acc": 0.9163346613545816,
      "train_speed(iter/s)": 1.448197
    },
    {
      "epoch": 2.547234480099396,
      "grad_norm": 2.963494062423706,
      "learning_rate": 4.8516302872714295e-05,
      "loss": 0.32582085132598876,
      "memory(GiB)": 70.5,
      "step": 59455,
      "token_acc": 0.9304029304029304,
      "train_speed(iter/s)": 1.448195
    },
    {
      "epoch": 2.5474486954286446,
      "grad_norm": 6.849099159240723,
      "learning_rate": 4.8509576076706695e-05,
      "loss": 0.411700439453125,
      "memory(GiB)": 70.5,
      "step": 59460,
      "token_acc": 0.905511811023622,
      "train_speed(iter/s)": 1.448198
    },
    {
      "epoch": 2.547662910757894,
      "grad_norm": 5.0922369956970215,
      "learning_rate": 4.8502849307699504e-05,
      "loss": 0.6163081169128418,
      "memory(GiB)": 70.5,
      "step": 59465,
      "token_acc": 0.8505747126436781,
      "train_speed(iter/s)": 1.448195
    },
    {
      "epoch": 2.5478771260871427,
      "grad_norm": 3.163170099258423,
      "learning_rate": 4.849612256581463e-05,
      "loss": 0.26701428890228274,
      "memory(GiB)": 70.5,
      "step": 59470,
      "token_acc": 0.9513888888888888,
      "train_speed(iter/s)": 1.448196
    },
    {
      "epoch": 2.5480913414163915,
      "grad_norm": 2.6607658863067627,
      "learning_rate": 4.8489395851173905e-05,
      "loss": 0.2719823598861694,
      "memory(GiB)": 70.5,
      "step": 59475,
      "token_acc": 0.9537815126050421,
      "train_speed(iter/s)": 1.4482
    },
    {
      "epoch": 2.5483055567456407,
      "grad_norm": 1.4077775478363037,
      "learning_rate": 4.848266916389918e-05,
      "loss": 0.5447182655334473,
      "memory(GiB)": 70.5,
      "step": 59480,
      "token_acc": 0.8754208754208754,
      "train_speed(iter/s)": 1.448201
    },
    {
      "epoch": 2.5485197720748896,
      "grad_norm": 5.19551420211792,
      "learning_rate": 4.847594250411234e-05,
      "loss": 0.7500299453735352,
      "memory(GiB)": 70.5,
      "step": 59485,
      "token_acc": 0.844311377245509,
      "train_speed(iter/s)": 1.448229
    },
    {
      "epoch": 2.5487339874041384,
      "grad_norm": 1.6267571449279785,
      "learning_rate": 4.8469215871935216e-05,
      "loss": 0.3494712352752686,
      "memory(GiB)": 70.5,
      "step": 59490,
      "token_acc": 0.9323843416370107,
      "train_speed(iter/s)": 1.448231
    },
    {
      "epoch": 2.5489482027333876,
      "grad_norm": 1.624430537223816,
      "learning_rate": 4.846248926748969e-05,
      "loss": 0.0843917727470398,
      "memory(GiB)": 70.5,
      "step": 59495,
      "token_acc": 0.9821428571428571,
      "train_speed(iter/s)": 1.448223
    },
    {
      "epoch": 2.5491624180626364,
      "grad_norm": 3.7649996280670166,
      "learning_rate": 4.845576269089762e-05,
      "loss": 0.2392256736755371,
      "memory(GiB)": 70.5,
      "step": 59500,
      "token_acc": 0.9477351916376306,
      "train_speed(iter/s)": 1.448227
    },
    {
      "epoch": 2.5491624180626364,
      "eval_loss": 2.5696957111358643,
      "eval_runtime": 13.4677,
      "eval_samples_per_second": 7.425,
      "eval_steps_per_second": 7.425,
      "eval_token_acc": 0.4478442280945758,
      "step": 59500
    },
    {
      "epoch": 2.5493766333918852,
      "grad_norm": 3.3883144855499268,
      "learning_rate": 4.844903614228084e-05,
      "loss": 0.3842835664749146,
      "memory(GiB)": 70.5,
      "step": 59505,
      "token_acc": 0.5963912630579298,
      "train_speed(iter/s)": 1.447706
    },
    {
      "epoch": 2.5495908487211345,
      "grad_norm": 1.9546549320220947,
      "learning_rate": 4.844230962176124e-05,
      "loss": 0.35518512725830076,
      "memory(GiB)": 70.5,
      "step": 59510,
      "token_acc": 0.9288256227758007,
      "train_speed(iter/s)": 1.447704
    },
    {
      "epoch": 2.5498050640503833,
      "grad_norm": 4.506442546844482,
      "learning_rate": 4.8435583129460666e-05,
      "loss": 0.5375897884368896,
      "memory(GiB)": 70.5,
      "step": 59515,
      "token_acc": 0.8842105263157894,
      "train_speed(iter/s)": 1.447703
    },
    {
      "epoch": 2.550019279379632,
      "grad_norm": 1.333950400352478,
      "learning_rate": 4.842885666550095e-05,
      "loss": 0.29455602169036865,
      "memory(GiB)": 70.5,
      "step": 59520,
      "token_acc": 0.9298892988929889,
      "train_speed(iter/s)": 1.447722
    },
    {
      "epoch": 2.5502334947088814,
      "grad_norm": 4.731009006500244,
      "learning_rate": 4.842213023000399e-05,
      "loss": 0.29827070236206055,
      "memory(GiB)": 70.5,
      "step": 59525,
      "token_acc": 0.9391025641025641,
      "train_speed(iter/s)": 1.447723
    },
    {
      "epoch": 2.55044771003813,
      "grad_norm": 1.379414439201355,
      "learning_rate": 4.841540382309161e-05,
      "loss": 0.2122262954711914,
      "memory(GiB)": 70.5,
      "step": 59530,
      "token_acc": 0.9559322033898305,
      "train_speed(iter/s)": 1.447727
    },
    {
      "epoch": 2.550661925367379,
      "grad_norm": 0.3963235318660736,
      "learning_rate": 4.8408677444885685e-05,
      "loss": 0.3103933811187744,
      "memory(GiB)": 70.5,
      "step": 59535,
      "token_acc": 0.9471544715447154,
      "train_speed(iter/s)": 1.447738
    },
    {
      "epoch": 2.5508761406966283,
      "grad_norm": 6.360567569732666,
      "learning_rate": 4.840195109550804e-05,
      "loss": 0.5649425029754639,
      "memory(GiB)": 70.5,
      "step": 59540,
      "token_acc": 0.8786885245901639,
      "train_speed(iter/s)": 1.447751
    },
    {
      "epoch": 2.551090356025877,
      "grad_norm": 2.0468454360961914,
      "learning_rate": 4.8395224775080574e-05,
      "loss": 0.6063085556030273,
      "memory(GiB)": 70.5,
      "step": 59545,
      "token_acc": 0.875,
      "train_speed(iter/s)": 1.447743
    },
    {
      "epoch": 2.5513045713551263,
      "grad_norm": 2.779343605041504,
      "learning_rate": 4.83884984837251e-05,
      "loss": 0.550475025177002,
      "memory(GiB)": 70.5,
      "step": 59550,
      "token_acc": 0.8904109589041096,
      "train_speed(iter/s)": 1.447749
    },
    {
      "epoch": 2.551518786684375,
      "grad_norm": 6.863926887512207,
      "learning_rate": 4.83817722215635e-05,
      "loss": 0.39963555335998535,
      "memory(GiB)": 70.5,
      "step": 59555,
      "token_acc": 0.9041916167664671,
      "train_speed(iter/s)": 1.44776
    },
    {
      "epoch": 2.551733002013624,
      "grad_norm": 4.308107852935791,
      "learning_rate": 4.837504598871762e-05,
      "loss": 0.2791240930557251,
      "memory(GiB)": 70.5,
      "step": 59560,
      "token_acc": 0.9471830985915493,
      "train_speed(iter/s)": 1.447761
    },
    {
      "epoch": 2.551947217342873,
      "grad_norm": 2.2922146320343018,
      "learning_rate": 4.8368319785309285e-05,
      "loss": 0.36616692543029783,
      "memory(GiB)": 70.5,
      "step": 59565,
      "token_acc": 0.9256198347107438,
      "train_speed(iter/s)": 1.447768
    },
    {
      "epoch": 2.552161432672122,
      "grad_norm": 3.6156551837921143,
      "learning_rate": 4.836159361146038e-05,
      "loss": 0.561351728439331,
      "memory(GiB)": 70.5,
      "step": 59570,
      "token_acc": 0.8717105263157895,
      "train_speed(iter/s)": 1.447777
    },
    {
      "epoch": 2.552375648001371,
      "grad_norm": 1.4867196083068848,
      "learning_rate": 4.835486746729274e-05,
      "loss": 0.1662299394607544,
      "memory(GiB)": 70.5,
      "step": 59575,
      "token_acc": 0.9628099173553719,
      "train_speed(iter/s)": 1.447783
    },
    {
      "epoch": 2.55258986333062,
      "grad_norm": 5.098706245422363,
      "learning_rate": 4.834814135292822e-05,
      "loss": 0.4768869876861572,
      "memory(GiB)": 70.5,
      "step": 59580,
      "token_acc": 0.9205298013245033,
      "train_speed(iter/s)": 1.447793
    },
    {
      "epoch": 2.552804078659869,
      "grad_norm": 2.662602186203003,
      "learning_rate": 4.834141526848868e-05,
      "loss": 0.5864229679107666,
      "memory(GiB)": 70.5,
      "step": 59585,
      "token_acc": 0.8794520547945206,
      "train_speed(iter/s)": 1.447801
    },
    {
      "epoch": 2.5530182939891177,
      "grad_norm": 1.0740177631378174,
      "learning_rate": 4.833468921409594e-05,
      "loss": 0.33481361865997317,
      "memory(GiB)": 70.5,
      "step": 59590,
      "token_acc": 0.9311594202898551,
      "train_speed(iter/s)": 1.447802
    },
    {
      "epoch": 2.553232509318367,
      "grad_norm": 8.25197696685791,
      "learning_rate": 4.832796318987188e-05,
      "loss": 0.48386383056640625,
      "memory(GiB)": 70.5,
      "step": 59595,
      "token_acc": 0.8859649122807017,
      "train_speed(iter/s)": 1.447814
    },
    {
      "epoch": 2.553446724647616,
      "grad_norm": 5.341479778289795,
      "learning_rate": 4.832123719593834e-05,
      "loss": 0.6009721755981445,
      "memory(GiB)": 70.5,
      "step": 59600,
      "token_acc": 0.8668941979522184,
      "train_speed(iter/s)": 1.447842
    },
    {
      "epoch": 2.5536609399768646,
      "grad_norm": 2.3513998985290527,
      "learning_rate": 4.831451123241715e-05,
      "loss": 0.3301408767700195,
      "memory(GiB)": 70.5,
      "step": 59605,
      "token_acc": 0.931899641577061,
      "train_speed(iter/s)": 1.447851
    },
    {
      "epoch": 2.553875155306114,
      "grad_norm": 1.1586573123931885,
      "learning_rate": 4.8307785299430156e-05,
      "loss": 0.2040421962738037,
      "memory(GiB)": 70.5,
      "step": 59610,
      "token_acc": 0.9597855227882037,
      "train_speed(iter/s)": 1.447845
    },
    {
      "epoch": 2.5540893706353627,
      "grad_norm": 0.07761450856924057,
      "learning_rate": 4.830105939709924e-05,
      "loss": 0.25692222118377683,
      "memory(GiB)": 70.5,
      "step": 59615,
      "token_acc": 0.9403508771929825,
      "train_speed(iter/s)": 1.44785
    },
    {
      "epoch": 2.5543035859646115,
      "grad_norm": 2.773683786392212,
      "learning_rate": 4.8294333525546234e-05,
      "loss": 0.35431063175201416,
      "memory(GiB)": 70.5,
      "step": 59620,
      "token_acc": 0.9256965944272446,
      "train_speed(iter/s)": 1.447846
    },
    {
      "epoch": 2.5545178012938607,
      "grad_norm": 1.7285358905792236,
      "learning_rate": 4.828760768489295e-05,
      "loss": 0.22576169967651366,
      "memory(GiB)": 70.5,
      "step": 59625,
      "token_acc": 0.9448275862068966,
      "train_speed(iter/s)": 1.44785
    },
    {
      "epoch": 2.5547320166231096,
      "grad_norm": 7.6263747215271,
      "learning_rate": 4.8280881875261284e-05,
      "loss": 0.4621800422668457,
      "memory(GiB)": 70.5,
      "step": 59630,
      "token_acc": 0.8692307692307693,
      "train_speed(iter/s)": 1.44785
    },
    {
      "epoch": 2.5549462319523584,
      "grad_norm": 2.083186388015747,
      "learning_rate": 4.8274156096773046e-05,
      "loss": 0.48786358833312987,
      "memory(GiB)": 70.5,
      "step": 59635,
      "token_acc": 0.908745247148289,
      "train_speed(iter/s)": 1.44785
    },
    {
      "epoch": 2.5551604472816076,
      "grad_norm": 1.861074686050415,
      "learning_rate": 4.8267430349550094e-05,
      "loss": 0.33250038623809813,
      "memory(GiB)": 70.5,
      "step": 59640,
      "token_acc": 0.9266666666666666,
      "train_speed(iter/s)": 1.447868
    },
    {
      "epoch": 2.5553746626108564,
      "grad_norm": 4.608387470245361,
      "learning_rate": 4.826070463371427e-05,
      "loss": 0.4491335391998291,
      "memory(GiB)": 70.5,
      "step": 59645,
      "token_acc": 0.905511811023622,
      "train_speed(iter/s)": 1.447863
    },
    {
      "epoch": 2.5555888779401053,
      "grad_norm": 9.06170654296875,
      "learning_rate": 4.8253978949387394e-05,
      "loss": 0.40519256591796876,
      "memory(GiB)": 70.5,
      "step": 59650,
      "token_acc": 0.9121338912133892,
      "train_speed(iter/s)": 1.447881
    },
    {
      "epoch": 2.5558030932693545,
      "grad_norm": 4.077483177185059,
      "learning_rate": 4.824725329669135e-05,
      "loss": 0.7050768852233886,
      "memory(GiB)": 70.5,
      "step": 59655,
      "token_acc": 0.8470588235294118,
      "train_speed(iter/s)": 1.447892
    },
    {
      "epoch": 2.5560173085986033,
      "grad_norm": 3.5801122188568115,
      "learning_rate": 4.824052767574795e-05,
      "loss": 0.34255430698394773,
      "memory(GiB)": 70.5,
      "step": 59660,
      "token_acc": 0.9150326797385621,
      "train_speed(iter/s)": 1.447892
    },
    {
      "epoch": 2.556231523927852,
      "grad_norm": 3.0205016136169434,
      "learning_rate": 4.823380208667903e-05,
      "loss": 0.35816664695739747,
      "memory(GiB)": 70.5,
      "step": 59665,
      "token_acc": 0.9143835616438356,
      "train_speed(iter/s)": 1.447894
    },
    {
      "epoch": 2.5564457392571014,
      "grad_norm": 2.7499518394470215,
      "learning_rate": 4.8227076529606455e-05,
      "loss": 0.32712767124176023,
      "memory(GiB)": 70.5,
      "step": 59670,
      "token_acc": 0.9394812680115274,
      "train_speed(iter/s)": 1.447903
    },
    {
      "epoch": 2.55665995458635,
      "grad_norm": 0.40258464217185974,
      "learning_rate": 4.8220351004652036e-05,
      "loss": 0.32467973232269287,
      "memory(GiB)": 70.5,
      "step": 59675,
      "token_acc": 0.9298245614035088,
      "train_speed(iter/s)": 1.447908
    },
    {
      "epoch": 2.556874169915599,
      "grad_norm": 3.7844717502593994,
      "learning_rate": 4.8213625511937644e-05,
      "loss": 0.3515667200088501,
      "memory(GiB)": 70.5,
      "step": 59680,
      "token_acc": 0.9139344262295082,
      "train_speed(iter/s)": 1.447923
    },
    {
      "epoch": 2.5570883852448483,
      "grad_norm": 2.702881336212158,
      "learning_rate": 4.820690005158508e-05,
      "loss": 0.18180389404296876,
      "memory(GiB)": 70.5,
      "step": 59685,
      "token_acc": 0.9537037037037037,
      "train_speed(iter/s)": 1.447924
    },
    {
      "epoch": 2.557302600574097,
      "grad_norm": 0.5031715035438538,
      "learning_rate": 4.820017462371622e-05,
      "loss": 0.13924756050109863,
      "memory(GiB)": 70.5,
      "step": 59690,
      "token_acc": 0.9617834394904459,
      "train_speed(iter/s)": 1.447929
    },
    {
      "epoch": 2.557516815903346,
      "grad_norm": 2.2283997535705566,
      "learning_rate": 4.819344922845288e-05,
      "loss": 0.3457207202911377,
      "memory(GiB)": 70.5,
      "step": 59695,
      "token_acc": 0.9047619047619048,
      "train_speed(iter/s)": 1.447935
    },
    {
      "epoch": 2.557731031232595,
      "grad_norm": 3.4762163162231445,
      "learning_rate": 4.818672386591691e-05,
      "loss": 0.4823345184326172,
      "memory(GiB)": 70.5,
      "step": 59700,
      "token_acc": 0.8985507246376812,
      "train_speed(iter/s)": 1.447942
    },
    {
      "epoch": 2.557945246561844,
      "grad_norm": 3.996432065963745,
      "learning_rate": 4.817999853623014e-05,
      "loss": 0.2878229856491089,
      "memory(GiB)": 70.5,
      "step": 59705,
      "token_acc": 0.9568345323741008,
      "train_speed(iter/s)": 1.447942
    },
    {
      "epoch": 2.558159461891093,
      "grad_norm": 5.647372722625732,
      "learning_rate": 4.8173273239514396e-05,
      "loss": 0.5637889862060547,
      "memory(GiB)": 70.5,
      "step": 59710,
      "token_acc": 0.8717201166180758,
      "train_speed(iter/s)": 1.447938
    },
    {
      "epoch": 2.558373677220342,
      "grad_norm": 0.5163751244544983,
      "learning_rate": 4.816654797589153e-05,
      "loss": 0.3420542240142822,
      "memory(GiB)": 70.5,
      "step": 59715,
      "token_acc": 0.9273356401384083,
      "train_speed(iter/s)": 1.447938
    },
    {
      "epoch": 2.558587892549591,
      "grad_norm": 5.486770153045654,
      "learning_rate": 4.815982274548335e-05,
      "loss": 0.47229843139648436,
      "memory(GiB)": 70.5,
      "step": 59720,
      "token_acc": 0.9308176100628931,
      "train_speed(iter/s)": 1.44794
    },
    {
      "epoch": 2.5588021078788397,
      "grad_norm": 4.09434700012207,
      "learning_rate": 4.815309754841172e-05,
      "loss": 0.35894510746002195,
      "memory(GiB)": 70.5,
      "step": 59725,
      "token_acc": 0.9413793103448276,
      "train_speed(iter/s)": 1.447956
    },
    {
      "epoch": 2.559016323208089,
      "grad_norm": 7.591298580169678,
      "learning_rate": 4.814637238479847e-05,
      "loss": 0.582444715499878,
      "memory(GiB)": 70.5,
      "step": 59730,
      "token_acc": 0.9069069069069069,
      "train_speed(iter/s)": 1.447956
    },
    {
      "epoch": 2.5592305385373377,
      "grad_norm": 2.6433913707733154,
      "learning_rate": 4.8139647254765404e-05,
      "loss": 0.5797430515289307,
      "memory(GiB)": 70.5,
      "step": 59735,
      "token_acc": 0.9030303030303031,
      "train_speed(iter/s)": 1.44796
    },
    {
      "epoch": 2.5594447538665865,
      "grad_norm": 4.770023822784424,
      "learning_rate": 4.8132922158434384e-05,
      "loss": 0.48235182762145995,
      "memory(GiB)": 70.5,
      "step": 59740,
      "token_acc": 0.9186991869918699,
      "train_speed(iter/s)": 1.44798
    },
    {
      "epoch": 2.559658969195836,
      "grad_norm": 0.2188655585050583,
      "learning_rate": 4.812619709592723e-05,
      "loss": 0.38612320423126223,
      "memory(GiB)": 70.5,
      "step": 59745,
      "token_acc": 0.9241379310344827,
      "train_speed(iter/s)": 1.447977
    },
    {
      "epoch": 2.5598731845250846,
      "grad_norm": 2.42170786857605,
      "learning_rate": 4.8119472067365766e-05,
      "loss": 0.24583377838134765,
      "memory(GiB)": 70.5,
      "step": 59750,
      "token_acc": 0.9341085271317829,
      "train_speed(iter/s)": 1.447974
    },
    {
      "epoch": 2.5600873998543334,
      "grad_norm": 4.364752292633057,
      "learning_rate": 4.8112747072871836e-05,
      "loss": 0.49868106842041016,
      "memory(GiB)": 70.5,
      "step": 59755,
      "token_acc": 0.9044368600682594,
      "train_speed(iter/s)": 1.447972
    },
    {
      "epoch": 2.5603016151835827,
      "grad_norm": 3.600128412246704,
      "learning_rate": 4.8106022112567247e-05,
      "loss": 0.5274038314819336,
      "memory(GiB)": 70.5,
      "step": 59760,
      "token_acc": 0.8850574712643678,
      "train_speed(iter/s)": 1.447968
    },
    {
      "epoch": 2.5605158305128315,
      "grad_norm": 4.17810583114624,
      "learning_rate": 4.809929718657386e-05,
      "loss": 0.3343848705291748,
      "memory(GiB)": 70.5,
      "step": 59765,
      "token_acc": 0.9311594202898551,
      "train_speed(iter/s)": 1.447971
    },
    {
      "epoch": 2.5607300458420803,
      "grad_norm": 4.271091461181641,
      "learning_rate": 4.809257229501348e-05,
      "loss": 0.4508793830871582,
      "memory(GiB)": 70.5,
      "step": 59770,
      "token_acc": 0.9193548387096774,
      "train_speed(iter/s)": 1.447974
    },
    {
      "epoch": 2.5609442611713296,
      "grad_norm": 4.327223300933838,
      "learning_rate": 4.8085847438007955e-05,
      "loss": 0.3066711902618408,
      "memory(GiB)": 70.5,
      "step": 59775,
      "token_acc": 0.9274193548387096,
      "train_speed(iter/s)": 1.447982
    },
    {
      "epoch": 2.5611584765005784,
      "grad_norm": 5.182854175567627,
      "learning_rate": 4.807912261567908e-05,
      "loss": 0.5948902130126953,
      "memory(GiB)": 70.5,
      "step": 59780,
      "token_acc": 0.8960573476702509,
      "train_speed(iter/s)": 1.447978
    },
    {
      "epoch": 2.561372691829827,
      "grad_norm": 4.554727554321289,
      "learning_rate": 4.807239782814872e-05,
      "loss": 0.2834742546081543,
      "memory(GiB)": 70.5,
      "step": 59785,
      "token_acc": 0.9331103678929766,
      "train_speed(iter/s)": 1.447975
    },
    {
      "epoch": 2.5615869071590764,
      "grad_norm": 5.3155999183654785,
      "learning_rate": 4.8065673075538685e-05,
      "loss": 0.42073354721069334,
      "memory(GiB)": 70.5,
      "step": 59790,
      "token_acc": 0.9157509157509157,
      "train_speed(iter/s)": 1.447966
    },
    {
      "epoch": 2.5618011224883253,
      "grad_norm": 2.112886905670166,
      "learning_rate": 4.805894835797078e-05,
      "loss": 0.35428922176361083,
      "memory(GiB)": 70.5,
      "step": 59795,
      "token_acc": 0.9147982062780269,
      "train_speed(iter/s)": 1.447965
    },
    {
      "epoch": 2.562015337817574,
      "grad_norm": 0.9821924567222595,
      "learning_rate": 4.805222367556685e-05,
      "loss": 0.2463534355163574,
      "memory(GiB)": 70.5,
      "step": 59800,
      "token_acc": 0.9422382671480144,
      "train_speed(iter/s)": 1.447967
    },
    {
      "epoch": 2.5622295531468233,
      "grad_norm": 0.07259444147348404,
      "learning_rate": 4.804549902844873e-05,
      "loss": 0.1659997820854187,
      "memory(GiB)": 70.5,
      "step": 59805,
      "token_acc": 0.9672131147540983,
      "train_speed(iter/s)": 1.447975
    },
    {
      "epoch": 2.562443768476072,
      "grad_norm": 4.364706516265869,
      "learning_rate": 4.8038774416738205e-05,
      "loss": 0.4457086563110352,
      "memory(GiB)": 70.5,
      "step": 59810,
      "token_acc": 0.8694029850746269,
      "train_speed(iter/s)": 1.447981
    },
    {
      "epoch": 2.562657983805321,
      "grad_norm": 1.0139411687850952,
      "learning_rate": 4.803204984055714e-05,
      "loss": 0.22575559616088867,
      "memory(GiB)": 70.5,
      "step": 59815,
      "token_acc": 0.9614035087719298,
      "train_speed(iter/s)": 1.447995
    },
    {
      "epoch": 2.56287219913457,
      "grad_norm": 2.945647954940796,
      "learning_rate": 4.802532530002733e-05,
      "loss": 0.3220551013946533,
      "memory(GiB)": 70.5,
      "step": 59820,
      "token_acc": 0.9273927392739274,
      "train_speed(iter/s)": 1.447997
    },
    {
      "epoch": 2.563086414463819,
      "grad_norm": 5.617775917053223,
      "learning_rate": 4.801860079527061e-05,
      "loss": 0.558200454711914,
      "memory(GiB)": 70.5,
      "step": 59825,
      "token_acc": 0.8679867986798679,
      "train_speed(iter/s)": 1.44801
    },
    {
      "epoch": 2.563300629793068,
      "grad_norm": 2.0984723567962646,
      "learning_rate": 4.8011876326408796e-05,
      "loss": 0.32879412174224854,
      "memory(GiB)": 70.5,
      "step": 59830,
      "token_acc": 0.9422382671480144,
      "train_speed(iter/s)": 1.448013
    },
    {
      "epoch": 2.563514845122317,
      "grad_norm": 2.5113375186920166,
      "learning_rate": 4.8005151893563684e-05,
      "loss": 0.4408135890960693,
      "memory(GiB)": 70.5,
      "step": 59835,
      "token_acc": 0.9034749034749034,
      "train_speed(iter/s)": 1.448005
    },
    {
      "epoch": 2.563729060451566,
      "grad_norm": 3.6893577575683594,
      "learning_rate": 4.799842749685713e-05,
      "loss": 0.2574336290359497,
      "memory(GiB)": 70.5,
      "step": 59840,
      "token_acc": 0.9590443686006825,
      "train_speed(iter/s)": 1.44802
    },
    {
      "epoch": 2.5639432757808147,
      "grad_norm": 3.612748622894287,
      "learning_rate": 4.799170313641095e-05,
      "loss": 0.2859429121017456,
      "memory(GiB)": 70.5,
      "step": 59845,
      "token_acc": 0.9376947040498442,
      "train_speed(iter/s)": 1.448023
    },
    {
      "epoch": 2.564157491110064,
      "grad_norm": 2.6843903064727783,
      "learning_rate": 4.798497881234695e-05,
      "loss": 0.46192069053649903,
      "memory(GiB)": 70.5,
      "step": 59850,
      "token_acc": 0.9096989966555183,
      "train_speed(iter/s)": 1.448031
    },
    {
      "epoch": 2.564371706439313,
      "grad_norm": 3.20641827583313,
      "learning_rate": 4.7978254524786935e-05,
      "loss": 0.3943788051605225,
      "memory(GiB)": 70.5,
      "step": 59855,
      "token_acc": 0.9224806201550387,
      "train_speed(iter/s)": 1.448036
    },
    {
      "epoch": 2.5645859217685616,
      "grad_norm": 1.0374454259872437,
      "learning_rate": 4.7971530273852754e-05,
      "loss": 0.29730203151702883,
      "memory(GiB)": 70.5,
      "step": 59860,
      "token_acc": 0.9257950530035336,
      "train_speed(iter/s)": 1.448033
    },
    {
      "epoch": 2.564800137097811,
      "grad_norm": 0.2911221385002136,
      "learning_rate": 4.796480605966619e-05,
      "loss": 0.17471543550491334,
      "memory(GiB)": 70.5,
      "step": 59865,
      "token_acc": 0.9624060150375939,
      "train_speed(iter/s)": 1.448036
    },
    {
      "epoch": 2.5650143524270597,
      "grad_norm": 4.456498146057129,
      "learning_rate": 4.795808188234909e-05,
      "loss": 0.350221061706543,
      "memory(GiB)": 70.5,
      "step": 59870,
      "token_acc": 0.9343065693430657,
      "train_speed(iter/s)": 1.448051
    },
    {
      "epoch": 2.5652285677563085,
      "grad_norm": 4.248950004577637,
      "learning_rate": 4.795135774202324e-05,
      "loss": 0.33110666275024414,
      "memory(GiB)": 70.5,
      "step": 59875,
      "token_acc": 0.9227799227799228,
      "train_speed(iter/s)": 1.448052
    },
    {
      "epoch": 2.5654427830855577,
      "grad_norm": 4.937633037567139,
      "learning_rate": 4.794463363881047e-05,
      "loss": 0.45792832374572756,
      "memory(GiB)": 70.5,
      "step": 59880,
      "token_acc": 0.9246575342465754,
      "train_speed(iter/s)": 1.44805
    },
    {
      "epoch": 2.5656569984148065,
      "grad_norm": 0.9009456038475037,
      "learning_rate": 4.793790957283259e-05,
      "loss": 0.1758955240249634,
      "memory(GiB)": 70.5,
      "step": 59885,
      "token_acc": 0.9584905660377359,
      "train_speed(iter/s)": 1.44805
    },
    {
      "epoch": 2.565871213744056,
      "grad_norm": 2.798630714416504,
      "learning_rate": 4.7931185544211416e-05,
      "loss": 0.28858470916748047,
      "memory(GiB)": 70.5,
      "step": 59890,
      "token_acc": 0.95,
      "train_speed(iter/s)": 1.448055
    },
    {
      "epoch": 2.5660854290733046,
      "grad_norm": 2.0210230350494385,
      "learning_rate": 4.7924461553068745e-05,
      "loss": 0.2711117506027222,
      "memory(GiB)": 70.5,
      "step": 59895,
      "token_acc": 0.9393939393939394,
      "train_speed(iter/s)": 1.448049
    },
    {
      "epoch": 2.5662996444025534,
      "grad_norm": 1.1994293928146362,
      "learning_rate": 4.7917737599526415e-05,
      "loss": 0.4530925273895264,
      "memory(GiB)": 70.5,
      "step": 59900,
      "token_acc": 0.9021406727828746,
      "train_speed(iter/s)": 1.448054
    },
    {
      "epoch": 2.5665138597318027,
      "grad_norm": 0.9524989128112793,
      "learning_rate": 4.791101368370619e-05,
      "loss": 0.33599343299865725,
      "memory(GiB)": 70.5,
      "step": 59905,
      "token_acc": 0.9359430604982206,
      "train_speed(iter/s)": 1.448072
    },
    {
      "epoch": 2.5667280750610515,
      "grad_norm": 2.2706387042999268,
      "learning_rate": 4.790428980572994e-05,
      "loss": 0.263342547416687,
      "memory(GiB)": 70.5,
      "step": 59910,
      "token_acc": 0.939799331103679,
      "train_speed(iter/s)": 1.448062
    },
    {
      "epoch": 2.5669422903903003,
      "grad_norm": 2.5851426124572754,
      "learning_rate": 4.789756596571944e-05,
      "loss": 0.25719990730285647,
      "memory(GiB)": 70.5,
      "step": 59915,
      "token_acc": 0.9477611940298507,
      "train_speed(iter/s)": 1.448063
    },
    {
      "epoch": 2.5671565057195496,
      "grad_norm": 0.4263951778411865,
      "learning_rate": 4.789084216379651e-05,
      "loss": 0.406453275680542,
      "memory(GiB)": 70.5,
      "step": 59920,
      "token_acc": 0.9178571428571428,
      "train_speed(iter/s)": 1.448085
    },
    {
      "epoch": 2.5673707210487984,
      "grad_norm": 2.311314344406128,
      "learning_rate": 4.788411840008294e-05,
      "loss": 0.26244940757751467,
      "memory(GiB)": 70.5,
      "step": 59925,
      "token_acc": 0.9503105590062112,
      "train_speed(iter/s)": 1.44809
    },
    {
      "epoch": 2.567584936378047,
      "grad_norm": 3.697009801864624,
      "learning_rate": 4.7877394674700564e-05,
      "loss": 0.6918257236480713,
      "memory(GiB)": 70.5,
      "step": 59930,
      "token_acc": 0.8368794326241135,
      "train_speed(iter/s)": 1.4481
    },
    {
      "epoch": 2.5677991517072964,
      "grad_norm": 2.991582155227661,
      "learning_rate": 4.787067098777117e-05,
      "loss": 0.38728172779083253,
      "memory(GiB)": 70.5,
      "step": 59935,
      "token_acc": 0.89419795221843,
      "train_speed(iter/s)": 1.448106
    },
    {
      "epoch": 2.5680133670365453,
      "grad_norm": 2.416715145111084,
      "learning_rate": 4.786394733941657e-05,
      "loss": 0.2688279390335083,
      "memory(GiB)": 70.5,
      "step": 59940,
      "token_acc": 0.9296636085626911,
      "train_speed(iter/s)": 1.448108
    },
    {
      "epoch": 2.568227582365794,
      "grad_norm": 2.2965245246887207,
      "learning_rate": 4.785722372975857e-05,
      "loss": 0.5917043209075927,
      "memory(GiB)": 70.5,
      "step": 59945,
      "token_acc": 0.8988095238095238,
      "train_speed(iter/s)": 1.448119
    },
    {
      "epoch": 2.5684417976950433,
      "grad_norm": 3.7120425701141357,
      "learning_rate": 4.785050015891897e-05,
      "loss": 0.37626471519470217,
      "memory(GiB)": 70.5,
      "step": 59950,
      "token_acc": 0.9323843416370107,
      "train_speed(iter/s)": 1.448133
    },
    {
      "epoch": 2.568656013024292,
      "grad_norm": 2.9719607830047607,
      "learning_rate": 4.7843776627019567e-05,
      "loss": 0.2030038833618164,
      "memory(GiB)": 70.5,
      "step": 59955,
      "token_acc": 0.9546925566343042,
      "train_speed(iter/s)": 1.448139
    },
    {
      "epoch": 2.568870228353541,
      "grad_norm": 3.667565107345581,
      "learning_rate": 4.7837053134182183e-05,
      "loss": 0.16624733209609985,
      "memory(GiB)": 70.5,
      "step": 59960,
      "token_acc": 0.9624060150375939,
      "train_speed(iter/s)": 1.448142
    },
    {
      "epoch": 2.56908444368279,
      "grad_norm": 2.4923243522644043,
      "learning_rate": 4.78303296805286e-05,
      "loss": 0.5576051712036133,
      "memory(GiB)": 70.5,
      "step": 59965,
      "token_acc": 0.8885714285714286,
      "train_speed(iter/s)": 1.448147
    },
    {
      "epoch": 2.569298659012039,
      "grad_norm": 7.0875139236450195,
      "learning_rate": 4.782360626618064e-05,
      "loss": 0.342251181602478,
      "memory(GiB)": 70.5,
      "step": 59970,
      "token_acc": 0.931740614334471,
      "train_speed(iter/s)": 1.448154
    },
    {
      "epoch": 2.569512874341288,
      "grad_norm": 3.3962533473968506,
      "learning_rate": 4.78168828912601e-05,
      "loss": 0.34715795516967773,
      "memory(GiB)": 70.5,
      "step": 59975,
      "token_acc": 0.9302325581395349,
      "train_speed(iter/s)": 1.448173
    },
    {
      "epoch": 2.569727089670537,
      "grad_norm": 3.3974130153656006,
      "learning_rate": 4.781015955588875e-05,
      "loss": 0.5359176635742188,
      "memory(GiB)": 70.5,
      "step": 59980,
      "token_acc": 0.9146757679180887,
      "train_speed(iter/s)": 1.448185
    },
    {
      "epoch": 2.569941304999786,
      "grad_norm": 4.8437910079956055,
      "learning_rate": 4.7803436260188425e-05,
      "loss": 0.3897327661514282,
      "memory(GiB)": 70.5,
      "step": 59985,
      "token_acc": 0.912,
      "train_speed(iter/s)": 1.448193
    },
    {
      "epoch": 2.5701555203290347,
      "grad_norm": 1.839425802230835,
      "learning_rate": 4.779671300428092e-05,
      "loss": 0.4272324562072754,
      "memory(GiB)": 70.5,
      "step": 59990,
      "token_acc": 0.93125,
      "train_speed(iter/s)": 1.448191
    },
    {
      "epoch": 2.570369735658284,
      "grad_norm": 6.209967613220215,
      "learning_rate": 4.778998978828803e-05,
      "loss": 0.5003615379333496,
      "memory(GiB)": 70.5,
      "step": 59995,
      "token_acc": 0.8859934853420195,
      "train_speed(iter/s)": 1.448191
    },
    {
      "epoch": 2.570583950987533,
      "grad_norm": 0.027519801631569862,
      "learning_rate": 4.7783266612331536e-05,
      "loss": 0.3855245590209961,
      "memory(GiB)": 70.5,
      "step": 60000,
      "token_acc": 0.9099378881987578,
      "train_speed(iter/s)": 1.448191
    },
    {
      "epoch": 2.570583950987533,
      "eval_loss": 2.485543966293335,
      "eval_runtime": 13.7382,
      "eval_samples_per_second": 7.279,
      "eval_steps_per_second": 7.279,
      "eval_token_acc": 0.4395750332005312,
      "step": 60000
    },
    {
      "epoch": 2.5707981663167816,
      "grad_norm": 1.1381382942199707,
      "learning_rate": 4.777654347653326e-05,
      "loss": 0.22443218231201173,
      "memory(GiB)": 70.5,
      "step": 60005,
      "token_acc": 0.5863723608445297,
      "train_speed(iter/s)": 1.447672
    },
    {
      "epoch": 2.571012381646031,
      "grad_norm": 1.8169747591018677,
      "learning_rate": 4.776982038101497e-05,
      "loss": 0.4408287525177002,
      "memory(GiB)": 70.5,
      "step": 60010,
      "token_acc": 0.8856209150326797,
      "train_speed(iter/s)": 1.447684
    },
    {
      "epoch": 2.5712265969752797,
      "grad_norm": 1.6088435649871826,
      "learning_rate": 4.776309732589849e-05,
      "loss": 0.3304621934890747,
      "memory(GiB)": 70.5,
      "step": 60015,
      "token_acc": 0.9172661870503597,
      "train_speed(iter/s)": 1.447693
    },
    {
      "epoch": 2.5714408123045285,
      "grad_norm": 3.9175102710723877,
      "learning_rate": 4.775637431130559e-05,
      "loss": 0.48352870941162107,
      "memory(GiB)": 70.5,
      "step": 60020,
      "token_acc": 0.908256880733945,
      "train_speed(iter/s)": 1.447697
    },
    {
      "epoch": 2.5716550276337777,
      "grad_norm": 3.2655248641967773,
      "learning_rate": 4.774965133735808e-05,
      "loss": 0.3541638612747192,
      "memory(GiB)": 70.5,
      "step": 60025,
      "token_acc": 0.9320987654320988,
      "train_speed(iter/s)": 1.44769
    },
    {
      "epoch": 2.5718692429630265,
      "grad_norm": 2.8271894454956055,
      "learning_rate": 4.7742928404177746e-05,
      "loss": 0.5174476623535156,
      "memory(GiB)": 70.5,
      "step": 60030,
      "token_acc": 0.9047619047619048,
      "train_speed(iter/s)": 1.447692
    },
    {
      "epoch": 2.5720834582922754,
      "grad_norm": 3.5721967220306396,
      "learning_rate": 4.773620551188638e-05,
      "loss": 0.25433690547943116,
      "memory(GiB)": 70.5,
      "step": 60035,
      "token_acc": 0.9433962264150944,
      "train_speed(iter/s)": 1.447694
    },
    {
      "epoch": 2.5722976736215246,
      "grad_norm": 3.71600341796875,
      "learning_rate": 4.772948266060577e-05,
      "loss": 0.3170119524002075,
      "memory(GiB)": 70.5,
      "step": 60040,
      "token_acc": 0.9379310344827586,
      "train_speed(iter/s)": 1.447698
    },
    {
      "epoch": 2.5725118889507734,
      "grad_norm": 3.3705546855926514,
      "learning_rate": 4.772275985045772e-05,
      "loss": 0.2885743618011475,
      "memory(GiB)": 70.5,
      "step": 60045,
      "token_acc": 0.933852140077821,
      "train_speed(iter/s)": 1.447712
    },
    {
      "epoch": 2.5727261042800222,
      "grad_norm": 3.6419620513916016,
      "learning_rate": 4.7716037081564004e-05,
      "loss": 0.27875490188598634,
      "memory(GiB)": 70.5,
      "step": 60050,
      "token_acc": 0.9377289377289377,
      "train_speed(iter/s)": 1.447716
    },
    {
      "epoch": 2.5729403196092715,
      "grad_norm": 3.7369956970214844,
      "learning_rate": 4.7709314354046415e-05,
      "loss": 0.4204849720001221,
      "memory(GiB)": 70.5,
      "step": 60055,
      "token_acc": 0.9125874125874126,
      "train_speed(iter/s)": 1.447721
    },
    {
      "epoch": 2.5731545349385203,
      "grad_norm": 3.706280469894409,
      "learning_rate": 4.7702591668026745e-05,
      "loss": 0.367569637298584,
      "memory(GiB)": 70.5,
      "step": 60060,
      "token_acc": 0.9147727272727273,
      "train_speed(iter/s)": 1.447717
    },
    {
      "epoch": 2.573368750267769,
      "grad_norm": 3.8305013179779053,
      "learning_rate": 4.769586902362679e-05,
      "loss": 0.44542760848999025,
      "memory(GiB)": 70.5,
      "step": 60065,
      "token_acc": 0.909967845659164,
      "train_speed(iter/s)": 1.447732
    },
    {
      "epoch": 2.5735829655970184,
      "grad_norm": 1.3875317573547363,
      "learning_rate": 4.768914642096833e-05,
      "loss": 0.2813662052154541,
      "memory(GiB)": 70.5,
      "step": 60070,
      "token_acc": 0.9306122448979591,
      "train_speed(iter/s)": 1.447748
    },
    {
      "epoch": 2.573797180926267,
      "grad_norm": 3.3030571937561035,
      "learning_rate": 4.768242386017315e-05,
      "loss": 0.3589199066162109,
      "memory(GiB)": 70.5,
      "step": 60075,
      "token_acc": 0.9181494661921709,
      "train_speed(iter/s)": 1.447763
    },
    {
      "epoch": 2.574011396255516,
      "grad_norm": 4.693004608154297,
      "learning_rate": 4.767570134136304e-05,
      "loss": 0.21158759593963622,
      "memory(GiB)": 70.5,
      "step": 60080,
      "token_acc": 0.9633699633699634,
      "train_speed(iter/s)": 1.447769
    },
    {
      "epoch": 2.5742256115847653,
      "grad_norm": 1.227569580078125,
      "learning_rate": 4.766897886465977e-05,
      "loss": 0.33424789905548097,
      "memory(GiB)": 70.5,
      "step": 60085,
      "token_acc": 0.9197530864197531,
      "train_speed(iter/s)": 1.447772
    },
    {
      "epoch": 2.574439826914014,
      "grad_norm": 5.6646928787231445,
      "learning_rate": 4.766225643018514e-05,
      "loss": 0.35194690227508546,
      "memory(GiB)": 70.5,
      "step": 60090,
      "token_acc": 0.9348534201954397,
      "train_speed(iter/s)": 1.447779
    },
    {
      "epoch": 2.574654042243263,
      "grad_norm": 3.7881453037261963,
      "learning_rate": 4.765553403806094e-05,
      "loss": 0.20416855812072754,
      "memory(GiB)": 70.5,
      "step": 60095,
      "token_acc": 0.9467213114754098,
      "train_speed(iter/s)": 1.447775
    },
    {
      "epoch": 2.574868257572512,
      "grad_norm": 5.964277267456055,
      "learning_rate": 4.764881168840892e-05,
      "loss": 0.33675355911254884,
      "memory(GiB)": 70.5,
      "step": 60100,
      "token_acc": 0.9419795221843004,
      "train_speed(iter/s)": 1.447782
    },
    {
      "epoch": 2.575082472901761,
      "grad_norm": 2.3206729888916016,
      "learning_rate": 4.7642089381350895e-05,
      "loss": 0.31956484317779543,
      "memory(GiB)": 70.5,
      "step": 60105,
      "token_acc": 0.9377162629757786,
      "train_speed(iter/s)": 1.447796
    },
    {
      "epoch": 2.5752966882310098,
      "grad_norm": 2.7029953002929688,
      "learning_rate": 4.763536711700862e-05,
      "loss": 0.5436374187469483,
      "memory(GiB)": 70.5,
      "step": 60110,
      "token_acc": 0.892271662763466,
      "train_speed(iter/s)": 1.447794
    },
    {
      "epoch": 2.575510903560259,
      "grad_norm": 5.29086446762085,
      "learning_rate": 4.76286448955039e-05,
      "loss": 0.36979126930236816,
      "memory(GiB)": 70.5,
      "step": 60115,
      "token_acc": 0.9144981412639405,
      "train_speed(iter/s)": 1.447799
    },
    {
      "epoch": 2.575725118889508,
      "grad_norm": 2.8965978622436523,
      "learning_rate": 4.76219227169585e-05,
      "loss": 0.3297891139984131,
      "memory(GiB)": 70.5,
      "step": 60120,
      "token_acc": 0.9201388888888888,
      "train_speed(iter/s)": 1.447808
    },
    {
      "epoch": 2.5759393342187566,
      "grad_norm": 3.5996007919311523,
      "learning_rate": 4.7615200581494194e-05,
      "loss": 0.3904033899307251,
      "memory(GiB)": 70.5,
      "step": 60125,
      "token_acc": 0.9219330855018587,
      "train_speed(iter/s)": 1.447817
    },
    {
      "epoch": 2.576153549548006,
      "grad_norm": 2.684722900390625,
      "learning_rate": 4.7608478489232756e-05,
      "loss": 0.6034920692443848,
      "memory(GiB)": 70.5,
      "step": 60130,
      "token_acc": 0.8909657320872274,
      "train_speed(iter/s)": 1.44782
    },
    {
      "epoch": 2.5763677648772547,
      "grad_norm": 5.065707683563232,
      "learning_rate": 4.760175644029599e-05,
      "loss": 0.5713113784790039,
      "memory(GiB)": 70.5,
      "step": 60135,
      "token_acc": 0.8928571428571429,
      "train_speed(iter/s)": 1.447838
    },
    {
      "epoch": 2.5765819802065035,
      "grad_norm": 1.6584800481796265,
      "learning_rate": 4.759503443480566e-05,
      "loss": 0.39683923721313474,
      "memory(GiB)": 70.5,
      "step": 60140,
      "token_acc": 0.9181494661921709,
      "train_speed(iter/s)": 1.447835
    },
    {
      "epoch": 2.576796195535753,
      "grad_norm": 3.07021427154541,
      "learning_rate": 4.758831247288353e-05,
      "loss": 0.3121178388595581,
      "memory(GiB)": 70.5,
      "step": 60145,
      "token_acc": 0.9273356401384083,
      "train_speed(iter/s)": 1.447836
    },
    {
      "epoch": 2.5770104108650016,
      "grad_norm": 1.45337975025177,
      "learning_rate": 4.758159055465138e-05,
      "loss": 0.386388373374939,
      "memory(GiB)": 70.5,
      "step": 60150,
      "token_acc": 0.9065155807365439,
      "train_speed(iter/s)": 1.447846
    },
    {
      "epoch": 2.5772246261942504,
      "grad_norm": 3.80178165435791,
      "learning_rate": 4.757486868023099e-05,
      "loss": 0.18699262142181397,
      "memory(GiB)": 70.5,
      "step": 60155,
      "token_acc": 0.9606557377049181,
      "train_speed(iter/s)": 1.447851
    },
    {
      "epoch": 2.5774388415234997,
      "grad_norm": 3.4728643894195557,
      "learning_rate": 4.756814684974413e-05,
      "loss": 0.4727576732635498,
      "memory(GiB)": 70.5,
      "step": 60160,
      "token_acc": 0.8932926829268293,
      "train_speed(iter/s)": 1.447847
    },
    {
      "epoch": 2.5776530568527485,
      "grad_norm": 2.707319498062134,
      "learning_rate": 4.756142506331258e-05,
      "loss": 0.26353609561920166,
      "memory(GiB)": 70.5,
      "step": 60165,
      "token_acc": 0.9428571428571428,
      "train_speed(iter/s)": 1.447846
    },
    {
      "epoch": 2.5778672721819973,
      "grad_norm": 4.827116966247559,
      "learning_rate": 4.755470332105808e-05,
      "loss": 0.6284004211425781,
      "memory(GiB)": 70.5,
      "step": 60170,
      "token_acc": 0.8671328671328671,
      "train_speed(iter/s)": 1.447856
    },
    {
      "epoch": 2.5780814875112466,
      "grad_norm": 1.8508152961730957,
      "learning_rate": 4.754798162310244e-05,
      "loss": 0.2751585006713867,
      "memory(GiB)": 70.5,
      "step": 60175,
      "token_acc": 0.9466666666666667,
      "train_speed(iter/s)": 1.447851
    },
    {
      "epoch": 2.5782957028404954,
      "grad_norm": 3.247572183609009,
      "learning_rate": 4.7541259969567416e-05,
      "loss": 0.4391640186309814,
      "memory(GiB)": 70.5,
      "step": 60180,
      "token_acc": 0.8884892086330936,
      "train_speed(iter/s)": 1.447845
    },
    {
      "epoch": 2.578509918169744,
      "grad_norm": 6.647392749786377,
      "learning_rate": 4.753453836057476e-05,
      "loss": 0.4789111614227295,
      "memory(GiB)": 70.5,
      "step": 60185,
      "token_acc": 0.900355871886121,
      "train_speed(iter/s)": 1.447846
    },
    {
      "epoch": 2.5787241334989934,
      "grad_norm": 4.709986686706543,
      "learning_rate": 4.752781679624626e-05,
      "loss": 0.3820672512054443,
      "memory(GiB)": 70.5,
      "step": 60190,
      "token_acc": 0.8974358974358975,
      "train_speed(iter/s)": 1.447859
    },
    {
      "epoch": 2.5789383488282422,
      "grad_norm": 7.168796062469482,
      "learning_rate": 4.7521095276703676e-05,
      "loss": 0.5937058925628662,
      "memory(GiB)": 70.5,
      "step": 60195,
      "token_acc": 0.8888888888888888,
      "train_speed(iter/s)": 1.447869
    },
    {
      "epoch": 2.579152564157491,
      "grad_norm": 4.107027053833008,
      "learning_rate": 4.7514373802068786e-05,
      "loss": 0.208231782913208,
      "memory(GiB)": 70.5,
      "step": 60200,
      "token_acc": 0.9602888086642599,
      "train_speed(iter/s)": 1.44788
    },
    {
      "epoch": 2.5793667794867403,
      "grad_norm": 1.1706066131591797,
      "learning_rate": 4.750765237246332e-05,
      "loss": 0.32257418632507323,
      "memory(GiB)": 70.5,
      "step": 60205,
      "token_acc": 0.9362880886426593,
      "train_speed(iter/s)": 1.447882
    },
    {
      "epoch": 2.579580994815989,
      "grad_norm": 3.938340187072754,
      "learning_rate": 4.750093098800909e-05,
      "loss": 0.32186074256896974,
      "memory(GiB)": 70.5,
      "step": 60210,
      "token_acc": 0.927797833935018,
      "train_speed(iter/s)": 1.447888
    },
    {
      "epoch": 2.579795210145238,
      "grad_norm": 1.9333864450454712,
      "learning_rate": 4.749420964882783e-05,
      "loss": 0.4448897361755371,
      "memory(GiB)": 70.5,
      "step": 60215,
      "token_acc": 0.89937106918239,
      "train_speed(iter/s)": 1.447901
    },
    {
      "epoch": 2.580009425474487,
      "grad_norm": 4.461699485778809,
      "learning_rate": 4.748748835504133e-05,
      "loss": 0.43119988441467283,
      "memory(GiB)": 70.5,
      "step": 60220,
      "token_acc": 0.9163346613545816,
      "train_speed(iter/s)": 1.447911
    },
    {
      "epoch": 2.580223640803736,
      "grad_norm": 2.672562599182129,
      "learning_rate": 4.7480767106771326e-05,
      "loss": 0.25748820304870607,
      "memory(GiB)": 70.5,
      "step": 60225,
      "token_acc": 0.9438596491228071,
      "train_speed(iter/s)": 1.447906
    },
    {
      "epoch": 2.580437856132985,
      "grad_norm": 2.108863353729248,
      "learning_rate": 4.7474045904139586e-05,
      "loss": 0.16033059358596802,
      "memory(GiB)": 70.5,
      "step": 60230,
      "token_acc": 0.9598393574297188,
      "train_speed(iter/s)": 1.447904
    },
    {
      "epoch": 2.580652071462234,
      "grad_norm": 4.010164260864258,
      "learning_rate": 4.746732474726788e-05,
      "loss": 0.40812244415283205,
      "memory(GiB)": 70.5,
      "step": 60235,
      "token_acc": 0.899641577060932,
      "train_speed(iter/s)": 1.447901
    },
    {
      "epoch": 2.580866286791483,
      "grad_norm": 4.638872146606445,
      "learning_rate": 4.7460603636277956e-05,
      "loss": 0.34308204650878904,
      "memory(GiB)": 70.5,
      "step": 60240,
      "token_acc": 0.939209726443769,
      "train_speed(iter/s)": 1.447905
    },
    {
      "epoch": 2.5810805021207317,
      "grad_norm": 1.7302275896072388,
      "learning_rate": 4.7453882571291584e-05,
      "loss": 0.3614074468612671,
      "memory(GiB)": 70.5,
      "step": 60245,
      "token_acc": 0.9178082191780822,
      "train_speed(iter/s)": 1.447899
    },
    {
      "epoch": 2.581294717449981,
      "grad_norm": 2.185835599899292,
      "learning_rate": 4.7447161552430526e-05,
      "loss": 0.3719921112060547,
      "memory(GiB)": 70.5,
      "step": 60250,
      "token_acc": 0.9498327759197325,
      "train_speed(iter/s)": 1.447901
    },
    {
      "epoch": 2.5815089327792298,
      "grad_norm": 1.9284125566482544,
      "learning_rate": 4.744044057981651e-05,
      "loss": 0.41980533599853515,
      "memory(GiB)": 70.5,
      "step": 60255,
      "token_acc": 0.9210526315789473,
      "train_speed(iter/s)": 1.447901
    },
    {
      "epoch": 2.5817231481084786,
      "grad_norm": 3.5374372005462646,
      "learning_rate": 4.743371965357133e-05,
      "loss": 0.4420769691467285,
      "memory(GiB)": 70.5,
      "step": 60260,
      "token_acc": 0.9191616766467066,
      "train_speed(iter/s)": 1.44789
    },
    {
      "epoch": 2.581937363437728,
      "grad_norm": 4.022443771362305,
      "learning_rate": 4.742699877381673e-05,
      "loss": 0.522889232635498,
      "memory(GiB)": 70.5,
      "step": 60265,
      "token_acc": 0.8977635782747604,
      "train_speed(iter/s)": 1.447888
    },
    {
      "epoch": 2.5821515787669767,
      "grad_norm": 0.6864205598831177,
      "learning_rate": 4.7420277940674446e-05,
      "loss": 0.33846774101257326,
      "memory(GiB)": 70.5,
      "step": 60270,
      "token_acc": 0.9291044776119403,
      "train_speed(iter/s)": 1.447886
    },
    {
      "epoch": 2.5823657940962255,
      "grad_norm": 3.242974281311035,
      "learning_rate": 4.741355715426623e-05,
      "loss": 0.4755284309387207,
      "memory(GiB)": 70.5,
      "step": 60275,
      "token_acc": 0.9084249084249084,
      "train_speed(iter/s)": 1.447886
    },
    {
      "epoch": 2.5825800094254747,
      "grad_norm": 1.6700787544250488,
      "learning_rate": 4.7406836414713884e-05,
      "loss": 0.2544086456298828,
      "memory(GiB)": 70.5,
      "step": 60280,
      "token_acc": 0.9315589353612167,
      "train_speed(iter/s)": 1.447895
    },
    {
      "epoch": 2.5827942247547235,
      "grad_norm": 3.9087960720062256,
      "learning_rate": 4.7400115722139126e-05,
      "loss": 0.49435086250305177,
      "memory(GiB)": 70.5,
      "step": 60285,
      "token_acc": 0.8996655518394648,
      "train_speed(iter/s)": 1.447896
    },
    {
      "epoch": 2.5830084400839723,
      "grad_norm": 2.6562886238098145,
      "learning_rate": 4.73933950766637e-05,
      "loss": 0.49962821006774905,
      "memory(GiB)": 70.5,
      "step": 60290,
      "token_acc": 0.8851351351351351,
      "train_speed(iter/s)": 1.447902
    },
    {
      "epoch": 2.5832226554132216,
      "grad_norm": 2.7710065841674805,
      "learning_rate": 4.738667447840938e-05,
      "loss": 0.4193872451782227,
      "memory(GiB)": 70.5,
      "step": 60295,
      "token_acc": 0.9090909090909091,
      "train_speed(iter/s)": 1.447907
    },
    {
      "epoch": 2.5834368707424704,
      "grad_norm": 2.733945369720459,
      "learning_rate": 4.737995392749789e-05,
      "loss": 0.27397933006286623,
      "memory(GiB)": 70.5,
      "step": 60300,
      "token_acc": 0.9440559440559441,
      "train_speed(iter/s)": 1.447919
    },
    {
      "epoch": 2.5836510860717192,
      "grad_norm": 5.273605823516846,
      "learning_rate": 4.7373233424051e-05,
      "loss": 0.2678699493408203,
      "memory(GiB)": 70.5,
      "step": 60305,
      "token_acc": 0.9291666666666667,
      "train_speed(iter/s)": 1.447916
    },
    {
      "epoch": 2.5838653014009685,
      "grad_norm": 4.914461135864258,
      "learning_rate": 4.7366512968190454e-05,
      "loss": 0.2666964530944824,
      "memory(GiB)": 70.5,
      "step": 60310,
      "token_acc": 0.928082191780822,
      "train_speed(iter/s)": 1.447919
    },
    {
      "epoch": 2.5840795167302173,
      "grad_norm": 5.7336859703063965,
      "learning_rate": 4.735979256003798e-05,
      "loss": 0.6646286964416503,
      "memory(GiB)": 70.5,
      "step": 60315,
      "token_acc": 0.8510028653295129,
      "train_speed(iter/s)": 1.447922
    },
    {
      "epoch": 2.584293732059466,
      "grad_norm": 3.097414255142212,
      "learning_rate": 4.735307219971536e-05,
      "loss": 0.28466019630432127,
      "memory(GiB)": 70.5,
      "step": 60320,
      "token_acc": 0.9395770392749244,
      "train_speed(iter/s)": 1.447926
    },
    {
      "epoch": 2.5845079473887154,
      "grad_norm": 2.224999189376831,
      "learning_rate": 4.734635188734432e-05,
      "loss": 0.24528899192810058,
      "memory(GiB)": 70.5,
      "step": 60325,
      "token_acc": 0.9537366548042705,
      "train_speed(iter/s)": 1.447929
    },
    {
      "epoch": 2.584722162717964,
      "grad_norm": 4.774545192718506,
      "learning_rate": 4.7339631623046585e-05,
      "loss": 0.38866190910339354,
      "memory(GiB)": 70.5,
      "step": 60330,
      "token_acc": 0.9122807017543859,
      "train_speed(iter/s)": 1.447932
    },
    {
      "epoch": 2.584936378047213,
      "grad_norm": 3.5021963119506836,
      "learning_rate": 4.7332911406943934e-05,
      "loss": 0.5829997062683105,
      "memory(GiB)": 70.5,
      "step": 60335,
      "token_acc": 0.8571428571428571,
      "train_speed(iter/s)": 1.447942
    },
    {
      "epoch": 2.5851505933764622,
      "grad_norm": 3.051359176635742,
      "learning_rate": 4.732619123915809e-05,
      "loss": 0.7341436386108399,
      "memory(GiB)": 70.5,
      "step": 60340,
      "token_acc": 0.8477011494252874,
      "train_speed(iter/s)": 1.44794
    },
    {
      "epoch": 2.585364808705711,
      "grad_norm": 0.3335005044937134,
      "learning_rate": 4.7319471119810805e-05,
      "loss": 0.2635643482208252,
      "memory(GiB)": 70.5,
      "step": 60345,
      "token_acc": 0.9523809523809523,
      "train_speed(iter/s)": 1.447946
    },
    {
      "epoch": 2.58557902403496,
      "grad_norm": 6.343498706817627,
      "learning_rate": 4.731275104902379e-05,
      "loss": 0.5091739177703858,
      "memory(GiB)": 70.5,
      "step": 60350,
      "token_acc": 0.8976608187134503,
      "train_speed(iter/s)": 1.447947
    },
    {
      "epoch": 2.585793239364209,
      "grad_norm": 8.01653003692627,
      "learning_rate": 4.730603102691884e-05,
      "loss": 0.5547235488891602,
      "memory(GiB)": 70.5,
      "step": 60355,
      "token_acc": 0.8738738738738738,
      "train_speed(iter/s)": 1.44795
    },
    {
      "epoch": 2.586007454693458,
      "grad_norm": 2.999973773956299,
      "learning_rate": 4.729931105361765e-05,
      "loss": 0.11593474149703979,
      "memory(GiB)": 70.5,
      "step": 60360,
      "token_acc": 0.9737704918032787,
      "train_speed(iter/s)": 1.44795
    },
    {
      "epoch": 2.5862216700227068,
      "grad_norm": 2.3081393241882324,
      "learning_rate": 4.7292591129241985e-05,
      "loss": 0.29404406547546386,
      "memory(GiB)": 70.5,
      "step": 60365,
      "token_acc": 0.9424920127795527,
      "train_speed(iter/s)": 1.447961
    },
    {
      "epoch": 2.586435885351956,
      "grad_norm": 4.058884143829346,
      "learning_rate": 4.728587125391357e-05,
      "loss": 0.6605926036834717,
      "memory(GiB)": 70.5,
      "step": 60370,
      "token_acc": 0.8485915492957746,
      "train_speed(iter/s)": 1.447974
    },
    {
      "epoch": 2.586650100681205,
      "grad_norm": 3.030366897583008,
      "learning_rate": 4.727915142775414e-05,
      "loss": 0.5186580657958985,
      "memory(GiB)": 70.5,
      "step": 60375,
      "token_acc": 0.896551724137931,
      "train_speed(iter/s)": 1.447969
    },
    {
      "epoch": 2.5868643160104536,
      "grad_norm": 1.7996788024902344,
      "learning_rate": 4.7272431650885436e-05,
      "loss": 0.4500833034515381,
      "memory(GiB)": 70.5,
      "step": 60380,
      "token_acc": 0.889273356401384,
      "train_speed(iter/s)": 1.447976
    },
    {
      "epoch": 2.587078531339703,
      "grad_norm": 4.038987159729004,
      "learning_rate": 4.726571192342919e-05,
      "loss": 0.5077277183532715,
      "memory(GiB)": 70.5,
      "step": 60385,
      "token_acc": 0.8979591836734694,
      "train_speed(iter/s)": 1.447988
    },
    {
      "epoch": 2.5872927466689517,
      "grad_norm": 1.9564566612243652,
      "learning_rate": 4.7258992245507134e-05,
      "loss": 0.3286271572113037,
      "memory(GiB)": 70.5,
      "step": 60390,
      "token_acc": 0.9169675090252708,
      "train_speed(iter/s)": 1.447988
    },
    {
      "epoch": 2.5875069619982005,
      "grad_norm": 4.410405158996582,
      "learning_rate": 4.725227261724101e-05,
      "loss": 0.3835892200469971,
      "memory(GiB)": 70.5,
      "step": 60395,
      "token_acc": 0.9230769230769231,
      "train_speed(iter/s)": 1.447995
    },
    {
      "epoch": 2.5877211773274498,
      "grad_norm": 2.365983486175537,
      "learning_rate": 4.7245553038752535e-05,
      "loss": 0.524315071105957,
      "memory(GiB)": 70.5,
      "step": 60400,
      "token_acc": 0.9074074074074074,
      "train_speed(iter/s)": 1.447998
    },
    {
      "epoch": 2.5879353926566986,
      "grad_norm": 4.99817419052124,
      "learning_rate": 4.7238833510163475e-05,
      "loss": 0.6506525993347168,
      "memory(GiB)": 70.5,
      "step": 60405,
      "token_acc": 0.8593272171253823,
      "train_speed(iter/s)": 1.448008
    },
    {
      "epoch": 2.5881496079859474,
      "grad_norm": 3.0099880695343018,
      "learning_rate": 4.723211403159552e-05,
      "loss": 0.3287004232406616,
      "memory(GiB)": 70.5,
      "step": 60410,
      "token_acc": 0.9243986254295533,
      "train_speed(iter/s)": 1.448012
    },
    {
      "epoch": 2.5883638233151967,
      "grad_norm": 0.5817801356315613,
      "learning_rate": 4.722539460317041e-05,
      "loss": 0.2938045263290405,
      "memory(GiB)": 70.5,
      "step": 60415,
      "token_acc": 0.935251798561151,
      "train_speed(iter/s)": 1.448011
    },
    {
      "epoch": 2.5885780386444455,
      "grad_norm": 2.3794286251068115,
      "learning_rate": 4.721867522500989e-05,
      "loss": 0.4382997989654541,
      "memory(GiB)": 70.5,
      "step": 60420,
      "token_acc": 0.8980263157894737,
      "train_speed(iter/s)": 1.448003
    },
    {
      "epoch": 2.5887922539736943,
      "grad_norm": 3.553734064102173,
      "learning_rate": 4.721195589723565e-05,
      "loss": 0.5794327735900879,
      "memory(GiB)": 70.5,
      "step": 60425,
      "token_acc": 0.8776978417266187,
      "train_speed(iter/s)": 1.448015
    },
    {
      "epoch": 2.5890064693029435,
      "grad_norm": 4.03762149810791,
      "learning_rate": 4.7205236619969474e-05,
      "loss": 0.4883126735687256,
      "memory(GiB)": 70.5,
      "step": 60430,
      "token_acc": 0.891156462585034,
      "train_speed(iter/s)": 1.448024
    },
    {
      "epoch": 2.5892206846321923,
      "grad_norm": 1.555511236190796,
      "learning_rate": 4.719851739333305e-05,
      "loss": 0.49085707664489747,
      "memory(GiB)": 70.5,
      "step": 60435,
      "token_acc": 0.8972602739726028,
      "train_speed(iter/s)": 1.448026
    },
    {
      "epoch": 2.589434899961441,
      "grad_norm": 1.5766478776931763,
      "learning_rate": 4.7191798217448115e-05,
      "loss": 0.1579961895942688,
      "memory(GiB)": 70.5,
      "step": 60440,
      "token_acc": 0.9562043795620438,
      "train_speed(iter/s)": 1.448022
    },
    {
      "epoch": 2.5896491152906904,
      "grad_norm": 3.8613152503967285,
      "learning_rate": 4.718507909243638e-05,
      "loss": 0.6547273635864258,
      "memory(GiB)": 70.5,
      "step": 60445,
      "token_acc": 0.8615384615384616,
      "train_speed(iter/s)": 1.448035
    },
    {
      "epoch": 2.5898633306199392,
      "grad_norm": 0.37722423672676086,
      "learning_rate": 4.7178360018419585e-05,
      "loss": 0.21776931285858153,
      "memory(GiB)": 70.5,
      "step": 60450,
      "token_acc": 0.9666666666666667,
      "train_speed(iter/s)": 1.448034
    },
    {
      "epoch": 2.590077545949188,
      "grad_norm": 2.233877658843994,
      "learning_rate": 4.717164099551945e-05,
      "loss": 0.22224733829498292,
      "memory(GiB)": 70.5,
      "step": 60455,
      "token_acc": 0.9578947368421052,
      "train_speed(iter/s)": 1.448046
    },
    {
      "epoch": 2.5902917612784373,
      "grad_norm": 5.721165657043457,
      "learning_rate": 4.7164922023857686e-05,
      "loss": 0.3255039691925049,
      "memory(GiB)": 70.5,
      "step": 60460,
      "token_acc": 0.9288389513108615,
      "train_speed(iter/s)": 1.448046
    },
    {
      "epoch": 2.590505976607686,
      "grad_norm": 1.6180912256240845,
      "learning_rate": 4.7158203103556026e-05,
      "loss": 0.2504727840423584,
      "memory(GiB)": 70.5,
      "step": 60465,
      "token_acc": 0.9309090909090909,
      "train_speed(iter/s)": 1.448055
    },
    {
      "epoch": 2.590720191936935,
      "grad_norm": 0.3569997549057007,
      "learning_rate": 4.715148423473618e-05,
      "loss": 0.47603044509887693,
      "memory(GiB)": 70.5,
      "step": 60470,
      "token_acc": 0.9130434782608695,
      "train_speed(iter/s)": 1.448065
    },
    {
      "epoch": 2.590934407266184,
      "grad_norm": 4.741114616394043,
      "learning_rate": 4.714476541751986e-05,
      "loss": 0.3079944610595703,
      "memory(GiB)": 70.5,
      "step": 60475,
      "token_acc": 0.9158249158249159,
      "train_speed(iter/s)": 1.448079
    },
    {
      "epoch": 2.591148622595433,
      "grad_norm": 3.7710187435150146,
      "learning_rate": 4.71380466520288e-05,
      "loss": 0.434136962890625,
      "memory(GiB)": 70.5,
      "step": 60480,
      "token_acc": 0.8723404255319149,
      "train_speed(iter/s)": 1.448103
    },
    {
      "epoch": 2.591362837924682,
      "grad_norm": 2.027892827987671,
      "learning_rate": 4.7131327938384706e-05,
      "loss": 0.46236701011657716,
      "memory(GiB)": 70.5,
      "step": 60485,
      "token_acc": 0.8909774436090225,
      "train_speed(iter/s)": 1.448117
    },
    {
      "epoch": 2.591577053253931,
      "grad_norm": 3.273721933364868,
      "learning_rate": 4.71246092767093e-05,
      "loss": 0.3173551082611084,
      "memory(GiB)": 70.5,
      "step": 60490,
      "token_acc": 0.9429657794676806,
      "train_speed(iter/s)": 1.448135
    },
    {
      "epoch": 2.59179126858318,
      "grad_norm": 2.8388357162475586,
      "learning_rate": 4.7117890667124306e-05,
      "loss": 0.46428093910217283,
      "memory(GiB)": 70.5,
      "step": 60495,
      "token_acc": 0.9115853658536586,
      "train_speed(iter/s)": 1.448134
    },
    {
      "epoch": 2.5920054839124287,
      "grad_norm": 1.9578522443771362,
      "learning_rate": 4.7111172109751394e-05,
      "loss": 0.2468388557434082,
      "memory(GiB)": 70.5,
      "step": 60500,
      "token_acc": 0.9467084639498433,
      "train_speed(iter/s)": 1.448141
    },
    {
      "epoch": 2.5920054839124287,
      "eval_loss": 2.6442084312438965,
      "eval_runtime": 13.4046,
      "eval_samples_per_second": 7.46,
      "eval_steps_per_second": 7.46,
      "eval_token_acc": 0.4451697127937337,
      "step": 60500
    },
    {
      "epoch": 2.592219699241678,
      "grad_norm": 5.455618858337402,
      "learning_rate": 4.7104453604712326e-05,
      "loss": 0.5210098266601563,
      "memory(GiB)": 70.5,
      "step": 60505,
      "token_acc": 0.560077519379845,
      "train_speed(iter/s)": 1.447647
    },
    {
      "epoch": 2.5924339145709268,
      "grad_norm": 1.9609270095825195,
      "learning_rate": 4.70977351521288e-05,
      "loss": 0.19270493984222412,
      "memory(GiB)": 70.5,
      "step": 60510,
      "token_acc": 0.9516129032258065,
      "train_speed(iter/s)": 1.447651
    },
    {
      "epoch": 2.5926481299001756,
      "grad_norm": 4.425224304199219,
      "learning_rate": 4.709101675212253e-05,
      "loss": 0.25781586170196535,
      "memory(GiB)": 70.5,
      "step": 60515,
      "token_acc": 0.950354609929078,
      "train_speed(iter/s)": 1.44765
    },
    {
      "epoch": 2.592862345229425,
      "grad_norm": 2.222116470336914,
      "learning_rate": 4.7084298404815206e-05,
      "loss": 0.3616279363632202,
      "memory(GiB)": 70.5,
      "step": 60520,
      "token_acc": 0.9233333333333333,
      "train_speed(iter/s)": 1.447657
    },
    {
      "epoch": 2.5930765605586736,
      "grad_norm": 3.503779888153076,
      "learning_rate": 4.7077580110328566e-05,
      "loss": 0.3498535633087158,
      "memory(GiB)": 70.5,
      "step": 60525,
      "token_acc": 0.935374149659864,
      "train_speed(iter/s)": 1.447661
    },
    {
      "epoch": 2.5932907758879225,
      "grad_norm": 2.3220016956329346,
      "learning_rate": 4.7070861868784296e-05,
      "loss": 0.44051227569580076,
      "memory(GiB)": 70.5,
      "step": 60530,
      "token_acc": 0.8978328173374613,
      "train_speed(iter/s)": 1.447664
    },
    {
      "epoch": 2.5935049912171717,
      "grad_norm": 1.4216413497924805,
      "learning_rate": 4.706414368030412e-05,
      "loss": 0.3088659763336182,
      "memory(GiB)": 70.5,
      "step": 60535,
      "token_acc": 0.9486404833836858,
      "train_speed(iter/s)": 1.447666
    },
    {
      "epoch": 2.5937192065464205,
      "grad_norm": 4.3216938972473145,
      "learning_rate": 4.705742554500973e-05,
      "loss": 0.7728950023651123,
      "memory(GiB)": 70.5,
      "step": 60540,
      "token_acc": 0.8250950570342205,
      "train_speed(iter/s)": 1.447663
    },
    {
      "epoch": 2.5939334218756693,
      "grad_norm": 0.14809566736221313,
      "learning_rate": 4.705070746302283e-05,
      "loss": 0.29857447147369387,
      "memory(GiB)": 70.5,
      "step": 60545,
      "token_acc": 0.9421768707482994,
      "train_speed(iter/s)": 1.44766
    },
    {
      "epoch": 2.5941476372049186,
      "grad_norm": 2.551111936569214,
      "learning_rate": 4.704398943446514e-05,
      "loss": 0.38049893379211425,
      "memory(GiB)": 70.5,
      "step": 60550,
      "token_acc": 0.90625,
      "train_speed(iter/s)": 1.447653
    },
    {
      "epoch": 2.5943618525341674,
      "grad_norm": 0.7078120708465576,
      "learning_rate": 4.703727145945836e-05,
      "loss": 0.4422726631164551,
      "memory(GiB)": 70.5,
      "step": 60555,
      "token_acc": 0.9210526315789473,
      "train_speed(iter/s)": 1.447657
    },
    {
      "epoch": 2.594576067863416,
      "grad_norm": 1.32964289188385,
      "learning_rate": 4.7030553538124166e-05,
      "loss": 0.40230140686035154,
      "memory(GiB)": 70.5,
      "step": 60560,
      "token_acc": 0.9084507042253521,
      "train_speed(iter/s)": 1.447654
    },
    {
      "epoch": 2.5947902831926655,
      "grad_norm": 4.943514823913574,
      "learning_rate": 4.70238356705843e-05,
      "loss": 0.584286880493164,
      "memory(GiB)": 70.5,
      "step": 60565,
      "token_acc": 0.8848314606741573,
      "train_speed(iter/s)": 1.447666
    },
    {
      "epoch": 2.5950044985219143,
      "grad_norm": 3.8251378536224365,
      "learning_rate": 4.701711785696042e-05,
      "loss": 0.21801586151123048,
      "memory(GiB)": 70.5,
      "step": 60570,
      "token_acc": 0.9523809523809523,
      "train_speed(iter/s)": 1.447669
    },
    {
      "epoch": 2.595218713851163,
      "grad_norm": 2.0930769443511963,
      "learning_rate": 4.7010400097374264e-05,
      "loss": 0.2556967258453369,
      "memory(GiB)": 70.5,
      "step": 60575,
      "token_acc": 0.9361702127659575,
      "train_speed(iter/s)": 1.44767
    },
    {
      "epoch": 2.5954329291804124,
      "grad_norm": 4.63015604019165,
      "learning_rate": 4.7003682391947504e-05,
      "loss": 0.45989289283752444,
      "memory(GiB)": 70.5,
      "step": 60580,
      "token_acc": 0.9097744360902256,
      "train_speed(iter/s)": 1.44767
    },
    {
      "epoch": 2.595647144509661,
      "grad_norm": 4.47753381729126,
      "learning_rate": 4.699696474080186e-05,
      "loss": 0.48909816741943357,
      "memory(GiB)": 70.5,
      "step": 60585,
      "token_acc": 0.9039145907473309,
      "train_speed(iter/s)": 1.44766
    },
    {
      "epoch": 2.59586135983891,
      "grad_norm": 2.4120049476623535,
      "learning_rate": 4.699024714405901e-05,
      "loss": 0.6141268253326416,
      "memory(GiB)": 70.5,
      "step": 60590,
      "token_acc": 0.8673139158576052,
      "train_speed(iter/s)": 1.447663
    },
    {
      "epoch": 2.5960755751681592,
      "grad_norm": 5.437417030334473,
      "learning_rate": 4.698352960184067e-05,
      "loss": 0.4967046737670898,
      "memory(GiB)": 70.5,
      "step": 60595,
      "token_acc": 0.9215686274509803,
      "train_speed(iter/s)": 1.447656
    },
    {
      "epoch": 2.596289790497408,
      "grad_norm": 1.0533580780029297,
      "learning_rate": 4.697681211426851e-05,
      "loss": 0.5386630535125733,
      "memory(GiB)": 70.5,
      "step": 60600,
      "token_acc": 0.8782051282051282,
      "train_speed(iter/s)": 1.447662
    },
    {
      "epoch": 2.596504005826657,
      "grad_norm": 1.635386347770691,
      "learning_rate": 4.697009468146423e-05,
      "loss": 0.1809403657913208,
      "memory(GiB)": 70.5,
      "step": 60605,
      "token_acc": 0.9633333333333334,
      "train_speed(iter/s)": 1.447671
    },
    {
      "epoch": 2.596718221155906,
      "grad_norm": 1.9664092063903809,
      "learning_rate": 4.6963377303549546e-05,
      "loss": 0.28527662754058836,
      "memory(GiB)": 70.5,
      "step": 60610,
      "token_acc": 0.9357429718875502,
      "train_speed(iter/s)": 1.447678
    },
    {
      "epoch": 2.596932436485155,
      "grad_norm": 1.3140555620193481,
      "learning_rate": 4.6956659980646125e-05,
      "loss": 0.3305500030517578,
      "memory(GiB)": 70.5,
      "step": 60615,
      "token_acc": 0.922509225092251,
      "train_speed(iter/s)": 1.447671
    },
    {
      "epoch": 2.5971466518144037,
      "grad_norm": 3.8656704425811768,
      "learning_rate": 4.6949942712875645e-05,
      "loss": 0.5263751983642578,
      "memory(GiB)": 70.5,
      "step": 60620,
      "token_acc": 0.875,
      "train_speed(iter/s)": 1.447682
    },
    {
      "epoch": 2.597360867143653,
      "grad_norm": 10.720698356628418,
      "learning_rate": 4.6943225500359834e-05,
      "loss": 0.289869499206543,
      "memory(GiB)": 70.5,
      "step": 60625,
      "token_acc": 0.9283387622149837,
      "train_speed(iter/s)": 1.447679
    },
    {
      "epoch": 2.597575082472902,
      "grad_norm": 2.902771234512329,
      "learning_rate": 4.693650834322034e-05,
      "loss": 0.2443085193634033,
      "memory(GiB)": 70.5,
      "step": 60630,
      "token_acc": 0.9507692307692308,
      "train_speed(iter/s)": 1.447681
    },
    {
      "epoch": 2.5977892978021506,
      "grad_norm": 4.407103538513184,
      "learning_rate": 4.6929791241578894e-05,
      "loss": 0.34438519477844237,
      "memory(GiB)": 70.5,
      "step": 60635,
      "token_acc": 0.9163346613545816,
      "train_speed(iter/s)": 1.447683
    },
    {
      "epoch": 2.5980035131314,
      "grad_norm": 3.4050419330596924,
      "learning_rate": 4.6923074195557146e-05,
      "loss": 0.4900501251220703,
      "memory(GiB)": 70.5,
      "step": 60640,
      "token_acc": 0.8918918918918919,
      "train_speed(iter/s)": 1.447696
    },
    {
      "epoch": 2.5982177284606487,
      "grad_norm": 3.9710922241210938,
      "learning_rate": 4.691635720527679e-05,
      "loss": 0.3450563907623291,
      "memory(GiB)": 70.5,
      "step": 60645,
      "token_acc": 0.9411764705882353,
      "train_speed(iter/s)": 1.447699
    },
    {
      "epoch": 2.5984319437898975,
      "grad_norm": 2.6441543102264404,
      "learning_rate": 4.690964027085951e-05,
      "loss": 0.3017172336578369,
      "memory(GiB)": 70.5,
      "step": 60650,
      "token_acc": 0.9470198675496688,
      "train_speed(iter/s)": 1.447699
    },
    {
      "epoch": 2.5986461591191468,
      "grad_norm": 5.007290840148926,
      "learning_rate": 4.6902923392427014e-05,
      "loss": 0.3038146734237671,
      "memory(GiB)": 70.5,
      "step": 60655,
      "token_acc": 0.9210526315789473,
      "train_speed(iter/s)": 1.447714
    },
    {
      "epoch": 2.5988603744483956,
      "grad_norm": 6.709249973297119,
      "learning_rate": 4.689620657010097e-05,
      "loss": 0.6449096202850342,
      "memory(GiB)": 70.5,
      "step": 60660,
      "token_acc": 0.9047619047619048,
      "train_speed(iter/s)": 1.447722
    },
    {
      "epoch": 2.5990745897776444,
      "grad_norm": 3.652158737182617,
      "learning_rate": 4.688948980400304e-05,
      "loss": 0.2705942153930664,
      "memory(GiB)": 70.5,
      "step": 60665,
      "token_acc": 0.9389067524115756,
      "train_speed(iter/s)": 1.447716
    },
    {
      "epoch": 2.5992888051068936,
      "grad_norm": 4.2619309425354,
      "learning_rate": 4.688277309425494e-05,
      "loss": 0.4591989517211914,
      "memory(GiB)": 70.5,
      "step": 60670,
      "token_acc": 0.9131944444444444,
      "train_speed(iter/s)": 1.447734
    },
    {
      "epoch": 2.5995030204361425,
      "grad_norm": 5.205097198486328,
      "learning_rate": 4.68760564409783e-05,
      "loss": 0.5499157905578613,
      "memory(GiB)": 70.5,
      "step": 60675,
      "token_acc": 0.8962536023054755,
      "train_speed(iter/s)": 1.447744
    },
    {
      "epoch": 2.5997172357653913,
      "grad_norm": 2.482200860977173,
      "learning_rate": 4.686933984429485e-05,
      "loss": 0.27013206481933594,
      "memory(GiB)": 70.5,
      "step": 60680,
      "token_acc": 0.9444444444444444,
      "train_speed(iter/s)": 1.447745
    },
    {
      "epoch": 2.5999314510946405,
      "grad_norm": 3.5334665775299072,
      "learning_rate": 4.686262330432625e-05,
      "loss": 0.5267004013061524,
      "memory(GiB)": 70.5,
      "step": 60685,
      "token_acc": 0.8943396226415095,
      "train_speed(iter/s)": 1.447744
    },
    {
      "epoch": 2.6001456664238893,
      "grad_norm": 5.26168155670166,
      "learning_rate": 4.685590682119415e-05,
      "loss": 0.5887321949005127,
      "memory(GiB)": 70.5,
      "step": 60690,
      "token_acc": 0.872852233676976,
      "train_speed(iter/s)": 1.447743
    },
    {
      "epoch": 2.600359881753138,
      "grad_norm": 3.7986979484558105,
      "learning_rate": 4.684919039502027e-05,
      "loss": 0.44018120765686036,
      "memory(GiB)": 70.5,
      "step": 60695,
      "token_acc": 0.8984962406015038,
      "train_speed(iter/s)": 1.447755
    },
    {
      "epoch": 2.6005740970823874,
      "grad_norm": 4.495683670043945,
      "learning_rate": 4.6842474025926255e-05,
      "loss": 0.41028175354003904,
      "memory(GiB)": 70.5,
      "step": 60700,
      "token_acc": 0.924,
      "train_speed(iter/s)": 1.447757
    },
    {
      "epoch": 2.600788312411636,
      "grad_norm": 2.4619457721710205,
      "learning_rate": 4.683575771403377e-05,
      "loss": 0.2892031669616699,
      "memory(GiB)": 70.5,
      "step": 60705,
      "token_acc": 0.9393939393939394,
      "train_speed(iter/s)": 1.447762
    },
    {
      "epoch": 2.601002527740885,
      "grad_norm": 0.7367138862609863,
      "learning_rate": 4.6829041459464525e-05,
      "loss": 0.16452488899230958,
      "memory(GiB)": 70.5,
      "step": 60710,
      "token_acc": 0.9495268138801262,
      "train_speed(iter/s)": 1.447759
    },
    {
      "epoch": 2.6012167430701343,
      "grad_norm": 1.2945938110351562,
      "learning_rate": 4.6822325262340147e-05,
      "loss": 0.6337702751159668,
      "memory(GiB)": 70.5,
      "step": 60715,
      "token_acc": 0.8495821727019499,
      "train_speed(iter/s)": 1.447747
    },
    {
      "epoch": 2.601430958399383,
      "grad_norm": 3.2140657901763916,
      "learning_rate": 4.6815609122782336e-05,
      "loss": 0.40223207473754885,
      "memory(GiB)": 70.5,
      "step": 60720,
      "token_acc": 0.9145907473309609,
      "train_speed(iter/s)": 1.44776
    },
    {
      "epoch": 2.601645173728632,
      "grad_norm": 2.1076714992523193,
      "learning_rate": 4.680889304091275e-05,
      "loss": 0.18363965749740602,
      "memory(GiB)": 70.5,
      "step": 60725,
      "token_acc": 0.959731543624161,
      "train_speed(iter/s)": 1.44777
    },
    {
      "epoch": 2.601859389057881,
      "grad_norm": 5.327023029327393,
      "learning_rate": 4.680217701685306e-05,
      "loss": 0.5576025009155273,
      "memory(GiB)": 70.5,
      "step": 60730,
      "token_acc": 0.8888888888888888,
      "train_speed(iter/s)": 1.447769
    },
    {
      "epoch": 2.60207360438713,
      "grad_norm": 3.61332631111145,
      "learning_rate": 4.679546105072494e-05,
      "loss": 0.5410922050476075,
      "memory(GiB)": 70.5,
      "step": 60735,
      "token_acc": 0.8817204301075269,
      "train_speed(iter/s)": 1.447768
    },
    {
      "epoch": 2.602287819716379,
      "grad_norm": 1.7338221073150635,
      "learning_rate": 4.678874514265005e-05,
      "loss": 0.22180099487304689,
      "memory(GiB)": 70.5,
      "step": 60740,
      "token_acc": 0.950354609929078,
      "train_speed(iter/s)": 1.447766
    },
    {
      "epoch": 2.602502035045628,
      "grad_norm": 3.031604766845703,
      "learning_rate": 4.6782029292750056e-05,
      "loss": 0.3083348751068115,
      "memory(GiB)": 70.5,
      "step": 60745,
      "token_acc": 0.9285714285714286,
      "train_speed(iter/s)": 1.447761
    },
    {
      "epoch": 2.602716250374877,
      "grad_norm": 2.0370779037475586,
      "learning_rate": 4.677531350114661e-05,
      "loss": 0.34260537624359133,
      "memory(GiB)": 70.5,
      "step": 60750,
      "token_acc": 0.9401408450704225,
      "train_speed(iter/s)": 1.447766
    },
    {
      "epoch": 2.6029304657041257,
      "grad_norm": 0.49238574504852295,
      "learning_rate": 4.6768597767961395e-05,
      "loss": 0.20678403377532958,
      "memory(GiB)": 70.5,
      "step": 60755,
      "token_acc": 0.954248366013072,
      "train_speed(iter/s)": 1.44777
    },
    {
      "epoch": 2.603144681033375,
      "grad_norm": 7.070004463195801,
      "learning_rate": 4.676188209331606e-05,
      "loss": 0.6888382911682129,
      "memory(GiB)": 70.5,
      "step": 60760,
      "token_acc": 0.8320610687022901,
      "train_speed(iter/s)": 1.447767
    },
    {
      "epoch": 2.6033588963626237,
      "grad_norm": 3.8945791721343994,
      "learning_rate": 4.675516647733226e-05,
      "loss": 0.36170191764831544,
      "memory(GiB)": 70.5,
      "step": 60765,
      "token_acc": 0.9368421052631579,
      "train_speed(iter/s)": 1.447766
    },
    {
      "epoch": 2.6035731116918726,
      "grad_norm": 1.4458872079849243,
      "learning_rate": 4.674845092013168e-05,
      "loss": 0.3155383586883545,
      "memory(GiB)": 70.5,
      "step": 60770,
      "token_acc": 0.9191616766467066,
      "train_speed(iter/s)": 1.447765
    },
    {
      "epoch": 2.603787327021122,
      "grad_norm": 0.10186082124710083,
      "learning_rate": 4.674173542183594e-05,
      "loss": 0.3137260913848877,
      "memory(GiB)": 70.5,
      "step": 60775,
      "token_acc": 0.9381818181818182,
      "train_speed(iter/s)": 1.447756
    },
    {
      "epoch": 2.6040015423503706,
      "grad_norm": 1.5183030366897583,
      "learning_rate": 4.673501998256674e-05,
      "loss": 0.3031401872634888,
      "memory(GiB)": 70.5,
      "step": 60780,
      "token_acc": 0.9378531073446328,
      "train_speed(iter/s)": 1.44776
    },
    {
      "epoch": 2.6042157576796194,
      "grad_norm": 2.4537510871887207,
      "learning_rate": 4.672830460244571e-05,
      "loss": 0.34311106204986574,
      "memory(GiB)": 70.5,
      "step": 60785,
      "token_acc": 0.9210526315789473,
      "train_speed(iter/s)": 1.447756
    },
    {
      "epoch": 2.6044299730088687,
      "grad_norm": 4.552237033843994,
      "learning_rate": 4.6721589281594504e-05,
      "loss": 0.6056631088256836,
      "memory(GiB)": 70.5,
      "step": 60790,
      "token_acc": 0.8793774319066148,
      "train_speed(iter/s)": 1.447767
    },
    {
      "epoch": 2.6046441883381175,
      "grad_norm": 3.182973623275757,
      "learning_rate": 4.671487402013477e-05,
      "loss": 0.4031537532806396,
      "memory(GiB)": 70.5,
      "step": 60795,
      "token_acc": 0.9093851132686084,
      "train_speed(iter/s)": 1.447766
    },
    {
      "epoch": 2.6048584036673663,
      "grad_norm": 6.786487102508545,
      "learning_rate": 4.6708158818188195e-05,
      "loss": 0.25377497673034666,
      "memory(GiB)": 70.5,
      "step": 60800,
      "token_acc": 0.940677966101695,
      "train_speed(iter/s)": 1.447767
    },
    {
      "epoch": 2.6050726189966156,
      "grad_norm": 1.8015286922454834,
      "learning_rate": 4.670144367587642e-05,
      "loss": 0.4555095672607422,
      "memory(GiB)": 70.5,
      "step": 60805,
      "token_acc": 0.910958904109589,
      "train_speed(iter/s)": 1.447768
    },
    {
      "epoch": 2.6052868343258644,
      "grad_norm": 5.0275163650512695,
      "learning_rate": 4.669472859332106e-05,
      "loss": 0.6324678421020508,
      "memory(GiB)": 70.5,
      "step": 60810,
      "token_acc": 0.8291814946619217,
      "train_speed(iter/s)": 1.447768
    },
    {
      "epoch": 2.605501049655113,
      "grad_norm": 3.30828595161438,
      "learning_rate": 4.668801357064382e-05,
      "loss": 0.3066544055938721,
      "memory(GiB)": 70.5,
      "step": 60815,
      "token_acc": 0.9356913183279743,
      "train_speed(iter/s)": 1.447772
    },
    {
      "epoch": 2.6057152649843625,
      "grad_norm": 3.501913547515869,
      "learning_rate": 4.66812986079663e-05,
      "loss": 0.48357553482055665,
      "memory(GiB)": 70.5,
      "step": 60820,
      "token_acc": 0.9255014326647565,
      "train_speed(iter/s)": 1.447784
    },
    {
      "epoch": 2.6059294803136113,
      "grad_norm": 1.6611212491989136,
      "learning_rate": 4.667458370541018e-05,
      "loss": 0.3010150909423828,
      "memory(GiB)": 70.5,
      "step": 60825,
      "token_acc": 0.936026936026936,
      "train_speed(iter/s)": 1.447793
    },
    {
      "epoch": 2.60614369564286,
      "grad_norm": 3.157522439956665,
      "learning_rate": 4.6667868863097096e-05,
      "loss": 0.46028976440429686,
      "memory(GiB)": 70.5,
      "step": 60830,
      "token_acc": 0.9142857142857143,
      "train_speed(iter/s)": 1.447785
    },
    {
      "epoch": 2.6063579109721093,
      "grad_norm": 2.0559728145599365,
      "learning_rate": 4.666115408114869e-05,
      "loss": 0.3169586658477783,
      "memory(GiB)": 70.5,
      "step": 60835,
      "token_acc": 0.9226006191950464,
      "train_speed(iter/s)": 1.447792
    },
    {
      "epoch": 2.606572126301358,
      "grad_norm": 3.592005491256714,
      "learning_rate": 4.665443935968662e-05,
      "loss": 0.5828954219818115,
      "memory(GiB)": 70.5,
      "step": 60840,
      "token_acc": 0.8810289389067524,
      "train_speed(iter/s)": 1.447808
    },
    {
      "epoch": 2.606786341630607,
      "grad_norm": 2.944977045059204,
      "learning_rate": 4.664772469883251e-05,
      "loss": 0.5570123672485352,
      "memory(GiB)": 70.5,
      "step": 60845,
      "token_acc": 0.8841059602649006,
      "train_speed(iter/s)": 1.447827
    },
    {
      "epoch": 2.607000556959856,
      "grad_norm": 4.093582630157471,
      "learning_rate": 4.6641010098708006e-05,
      "loss": 0.3378610610961914,
      "memory(GiB)": 70.5,
      "step": 60850,
      "token_acc": 0.9166666666666666,
      "train_speed(iter/s)": 1.447828
    },
    {
      "epoch": 2.607214772289105,
      "grad_norm": 2.312037229537964,
      "learning_rate": 4.6634295559434756e-05,
      "loss": 0.32152981758117677,
      "memory(GiB)": 70.5,
      "step": 60855,
      "token_acc": 0.9233449477351916,
      "train_speed(iter/s)": 1.447832
    },
    {
      "epoch": 2.607428987618354,
      "grad_norm": 5.2473859786987305,
      "learning_rate": 4.66275810811344e-05,
      "loss": 0.3803919792175293,
      "memory(GiB)": 70.5,
      "step": 60860,
      "token_acc": 0.9063545150501672,
      "train_speed(iter/s)": 1.447834
    },
    {
      "epoch": 2.607643202947603,
      "grad_norm": 2.344916820526123,
      "learning_rate": 4.662086666392859e-05,
      "loss": 0.2897505521774292,
      "memory(GiB)": 70.5,
      "step": 60865,
      "token_acc": 0.932806324110672,
      "train_speed(iter/s)": 1.447831
    },
    {
      "epoch": 2.607857418276852,
      "grad_norm": 1.085307240486145,
      "learning_rate": 4.661415230793892e-05,
      "loss": 0.4487272262573242,
      "memory(GiB)": 70.5,
      "step": 60870,
      "token_acc": 0.9057750759878419,
      "train_speed(iter/s)": 1.447846
    },
    {
      "epoch": 2.6080716336061007,
      "grad_norm": 1.8810433149337769,
      "learning_rate": 4.660743801328709e-05,
      "loss": 0.27440452575683594,
      "memory(GiB)": 70.5,
      "step": 60875,
      "token_acc": 0.9351145038167938,
      "train_speed(iter/s)": 1.447844
    },
    {
      "epoch": 2.60828584893535,
      "grad_norm": 3.7924022674560547,
      "learning_rate": 4.6600723780094677e-05,
      "loss": 0.5172390937805176,
      "memory(GiB)": 70.5,
      "step": 60880,
      "token_acc": 0.9033232628398792,
      "train_speed(iter/s)": 1.447846
    },
    {
      "epoch": 2.608500064264599,
      "grad_norm": 2.473771095275879,
      "learning_rate": 4.659400960848336e-05,
      "loss": 0.32001686096191406,
      "memory(GiB)": 70.5,
      "step": 60885,
      "token_acc": 0.916058394160584,
      "train_speed(iter/s)": 1.44785
    },
    {
      "epoch": 2.6087142795938476,
      "grad_norm": 5.24526309967041,
      "learning_rate": 4.658729549857476e-05,
      "loss": 0.23298847675323486,
      "memory(GiB)": 70.5,
      "step": 60890,
      "token_acc": 0.9385113268608414,
      "train_speed(iter/s)": 1.447848
    },
    {
      "epoch": 2.608928494923097,
      "grad_norm": 2.500899314880371,
      "learning_rate": 4.658058145049048e-05,
      "loss": 0.3936495065689087,
      "memory(GiB)": 70.5,
      "step": 60895,
      "token_acc": 0.9278350515463918,
      "train_speed(iter/s)": 1.44785
    },
    {
      "epoch": 2.6091427102523457,
      "grad_norm": 5.952851295471191,
      "learning_rate": 4.65738674643522e-05,
      "loss": 0.33632917404174806,
      "memory(GiB)": 70.5,
      "step": 60900,
      "token_acc": 0.9280575539568345,
      "train_speed(iter/s)": 1.447849
    },
    {
      "epoch": 2.6093569255815945,
      "grad_norm": 3.7259738445281982,
      "learning_rate": 4.656715354028151e-05,
      "loss": 0.5246819496154785,
      "memory(GiB)": 70.5,
      "step": 60905,
      "token_acc": 0.9058441558441559,
      "train_speed(iter/s)": 1.447849
    },
    {
      "epoch": 2.6095711409108437,
      "grad_norm": 2.985167980194092,
      "learning_rate": 4.656043967840005e-05,
      "loss": 0.37523512840270995,
      "memory(GiB)": 70.5,
      "step": 60910,
      "token_acc": 0.9087837837837838,
      "train_speed(iter/s)": 1.447852
    },
    {
      "epoch": 2.6097853562400926,
      "grad_norm": 5.155113697052002,
      "learning_rate": 4.655372587882946e-05,
      "loss": 0.504874849319458,
      "memory(GiB)": 70.5,
      "step": 60915,
      "token_acc": 0.8740740740740741,
      "train_speed(iter/s)": 1.44785
    },
    {
      "epoch": 2.6099995715693414,
      "grad_norm": 3.18463397026062,
      "learning_rate": 4.654701214169135e-05,
      "loss": 0.47247848510742185,
      "memory(GiB)": 70.5,
      "step": 60920,
      "token_acc": 0.9,
      "train_speed(iter/s)": 1.447857
    },
    {
      "epoch": 2.6102137868985906,
      "grad_norm": 5.03803014755249,
      "learning_rate": 4.654029846710737e-05,
      "loss": 0.45287518501281737,
      "memory(GiB)": 70.5,
      "step": 60925,
      "token_acc": 0.9060150375939849,
      "train_speed(iter/s)": 1.44786
    },
    {
      "epoch": 2.6104280022278394,
      "grad_norm": 2.4391653537750244,
      "learning_rate": 4.653358485519912e-05,
      "loss": 0.467210578918457,
      "memory(GiB)": 70.5,
      "step": 60930,
      "token_acc": 0.8969072164948454,
      "train_speed(iter/s)": 1.447878
    },
    {
      "epoch": 2.6106422175570883,
      "grad_norm": 2.162118434906006,
      "learning_rate": 4.652687130608823e-05,
      "loss": 0.12419147491455078,
      "memory(GiB)": 70.5,
      "step": 60935,
      "token_acc": 0.972972972972973,
      "train_speed(iter/s)": 1.447877
    },
    {
      "epoch": 2.6108564328863375,
      "grad_norm": 4.262059688568115,
      "learning_rate": 4.652015781989631e-05,
      "loss": 0.1827659249305725,
      "memory(GiB)": 70.5,
      "step": 60940,
      "token_acc": 0.9633699633699634,
      "train_speed(iter/s)": 1.447885
    },
    {
      "epoch": 2.6110706482155863,
      "grad_norm": 2.880875825881958,
      "learning_rate": 4.651344439674501e-05,
      "loss": 0.39275124073028567,
      "memory(GiB)": 70.5,
      "step": 60945,
      "token_acc": 0.9166666666666666,
      "train_speed(iter/s)": 1.447888
    },
    {
      "epoch": 2.611284863544835,
      "grad_norm": 0.837633490562439,
      "learning_rate": 4.650673103675594e-05,
      "loss": 0.2944060802459717,
      "memory(GiB)": 70.5,
      "step": 60950,
      "token_acc": 0.9345454545454546,
      "train_speed(iter/s)": 1.44789
    },
    {
      "epoch": 2.6114990788740844,
      "grad_norm": 3.201894521713257,
      "learning_rate": 4.6500017740050706e-05,
      "loss": 0.21110835075378417,
      "memory(GiB)": 70.5,
      "step": 60955,
      "token_acc": 0.9568345323741008,
      "train_speed(iter/s)": 1.447888
    },
    {
      "epoch": 2.611713294203333,
      "grad_norm": 4.154411315917969,
      "learning_rate": 4.649330450675095e-05,
      "loss": 0.34996752738952636,
      "memory(GiB)": 70.5,
      "step": 60960,
      "token_acc": 0.9155405405405406,
      "train_speed(iter/s)": 1.447899
    },
    {
      "epoch": 2.611927509532582,
      "grad_norm": 3.238879919052124,
      "learning_rate": 4.6486591336978246e-05,
      "loss": 0.5037455558776855,
      "memory(GiB)": 70.5,
      "step": 60965,
      "token_acc": 0.8664122137404581,
      "train_speed(iter/s)": 1.447911
    },
    {
      "epoch": 2.6121417248618313,
      "grad_norm": 0.6944129467010498,
      "learning_rate": 4.647987823085426e-05,
      "loss": 0.25643789768218994,
      "memory(GiB)": 70.5,
      "step": 60970,
      "token_acc": 0.946031746031746,
      "train_speed(iter/s)": 1.447913
    },
    {
      "epoch": 2.61235594019108,
      "grad_norm": 3.059786558151245,
      "learning_rate": 4.647316518850058e-05,
      "loss": 0.4083270072937012,
      "memory(GiB)": 70.5,
      "step": 60975,
      "token_acc": 0.8986013986013986,
      "train_speed(iter/s)": 1.447927
    },
    {
      "epoch": 2.612570155520329,
      "grad_norm": 8.93424129486084,
      "learning_rate": 4.64664522100388e-05,
      "loss": 0.47240409851074217,
      "memory(GiB)": 70.5,
      "step": 60980,
      "token_acc": 0.9179331306990881,
      "train_speed(iter/s)": 1.447939
    },
    {
      "epoch": 2.612784370849578,
      "grad_norm": 4.825551509857178,
      "learning_rate": 4.645973929559058e-05,
      "loss": 0.46715087890625,
      "memory(GiB)": 70.5,
      "step": 60985,
      "token_acc": 0.8951048951048951,
      "train_speed(iter/s)": 1.44794
    },
    {
      "epoch": 2.612998586178827,
      "grad_norm": 3.7721621990203857,
      "learning_rate": 4.645302644527749e-05,
      "loss": 0.39283850193023684,
      "memory(GiB)": 70.5,
      "step": 60990,
      "token_acc": 0.934375,
      "train_speed(iter/s)": 1.447953
    },
    {
      "epoch": 2.6132128015080758,
      "grad_norm": 7.77725887298584,
      "learning_rate": 4.644631365922114e-05,
      "loss": 0.2526139736175537,
      "memory(GiB)": 70.5,
      "step": 60995,
      "token_acc": 0.9370629370629371,
      "train_speed(iter/s)": 1.447952
    },
    {
      "epoch": 2.613427016837325,
      "grad_norm": 6.5873823165893555,
      "learning_rate": 4.643960093754318e-05,
      "loss": 0.60037202835083,
      "memory(GiB)": 70.5,
      "step": 61000,
      "token_acc": 0.8798449612403101,
      "train_speed(iter/s)": 1.447949
    },
    {
      "epoch": 2.613427016837325,
      "eval_loss": 2.461714267730713,
      "eval_runtime": 13.3333,
      "eval_samples_per_second": 7.5,
      "eval_steps_per_second": 7.5,
      "eval_token_acc": 0.4368131868131868,
      "step": 61000
    },
    {
      "epoch": 2.613641232166574,
      "grad_norm": 2.6111600399017334,
      "learning_rate": 4.643288828036517e-05,
      "loss": 0.5382713317871094,
      "memory(GiB)": 70.5,
      "step": 61005,
      "token_acc": 0.5736137667304015,
      "train_speed(iter/s)": 1.44745
    },
    {
      "epoch": 2.6138554474958227,
      "grad_norm": 3.1024057865142822,
      "learning_rate": 4.642617568780874e-05,
      "loss": 0.27578437328338623,
      "memory(GiB)": 70.5,
      "step": 61010,
      "token_acc": 0.9504504504504504,
      "train_speed(iter/s)": 1.44745
    },
    {
      "epoch": 2.614069662825072,
      "grad_norm": 6.908020973205566,
      "learning_rate": 4.6419463159995474e-05,
      "loss": 0.5480142593383789,
      "memory(GiB)": 70.5,
      "step": 61015,
      "token_acc": 0.890625,
      "train_speed(iter/s)": 1.447456
    },
    {
      "epoch": 2.6142838781543207,
      "grad_norm": 4.949659824371338,
      "learning_rate": 4.6412750697047014e-05,
      "loss": 0.7011131286621094,
      "memory(GiB)": 70.5,
      "step": 61020,
      "token_acc": 0.8743589743589744,
      "train_speed(iter/s)": 1.447464
    },
    {
      "epoch": 2.6144980934835695,
      "grad_norm": 3.3422505855560303,
      "learning_rate": 4.640603829908493e-05,
      "loss": 0.36664843559265137,
      "memory(GiB)": 70.5,
      "step": 61025,
      "token_acc": 0.9157509157509157,
      "train_speed(iter/s)": 1.447461
    },
    {
      "epoch": 2.614712308812819,
      "grad_norm": 0.6027071475982666,
      "learning_rate": 4.6399325966230835e-05,
      "loss": 0.25500025749206545,
      "memory(GiB)": 70.5,
      "step": 61030,
      "token_acc": 0.9392857142857143,
      "train_speed(iter/s)": 1.447466
    },
    {
      "epoch": 2.6149265241420676,
      "grad_norm": 3.85408878326416,
      "learning_rate": 4.6392613698606336e-05,
      "loss": 0.33144607543945315,
      "memory(GiB)": 70.5,
      "step": 61035,
      "token_acc": 0.918918918918919,
      "train_speed(iter/s)": 1.447467
    },
    {
      "epoch": 2.6151407394713164,
      "grad_norm": 5.336202144622803,
      "learning_rate": 4.638590149633301e-05,
      "loss": 0.4289818286895752,
      "memory(GiB)": 70.5,
      "step": 61040,
      "token_acc": 0.89937106918239,
      "train_speed(iter/s)": 1.447464
    },
    {
      "epoch": 2.6153549548005657,
      "grad_norm": 0.08405853807926178,
      "learning_rate": 4.637918935953248e-05,
      "loss": 0.30386712551116946,
      "memory(GiB)": 70.5,
      "step": 61045,
      "token_acc": 0.93359375,
      "train_speed(iter/s)": 1.447472
    },
    {
      "epoch": 2.6155691701298145,
      "grad_norm": 3.3498878479003906,
      "learning_rate": 4.637247728832633e-05,
      "loss": 0.24630346298217773,
      "memory(GiB)": 70.5,
      "step": 61050,
      "token_acc": 0.9380804953560371,
      "train_speed(iter/s)": 1.44749
    },
    {
      "epoch": 2.6157833854590633,
      "grad_norm": 2.81543231010437,
      "learning_rate": 4.636576528283615e-05,
      "loss": 0.24284920692443848,
      "memory(GiB)": 70.5,
      "step": 61055,
      "token_acc": 0.9350180505415162,
      "train_speed(iter/s)": 1.447497
    },
    {
      "epoch": 2.6159976007883126,
      "grad_norm": 3.7184712886810303,
      "learning_rate": 4.635905334318355e-05,
      "loss": 0.3060037851333618,
      "memory(GiB)": 70.5,
      "step": 61060,
      "token_acc": 0.9251968503937008,
      "train_speed(iter/s)": 1.447513
    },
    {
      "epoch": 2.6162118161175614,
      "grad_norm": 2.512726068496704,
      "learning_rate": 4.635234146949011e-05,
      "loss": 0.30994091033935545,
      "memory(GiB)": 70.5,
      "step": 61065,
      "token_acc": 0.9285714285714286,
      "train_speed(iter/s)": 1.447509
    },
    {
      "epoch": 2.61642603144681,
      "grad_norm": 1.0270386934280396,
      "learning_rate": 4.6345629661877425e-05,
      "loss": 0.13326451778411866,
      "memory(GiB)": 70.5,
      "step": 61070,
      "token_acc": 0.9705882352941176,
      "train_speed(iter/s)": 1.447522
    },
    {
      "epoch": 2.6166402467760594,
      "grad_norm": 4.618277072906494,
      "learning_rate": 4.6338917920467096e-05,
      "loss": 0.27915329933166505,
      "memory(GiB)": 70.5,
      "step": 61075,
      "token_acc": 0.9411764705882353,
      "train_speed(iter/s)": 1.447525
    },
    {
      "epoch": 2.6168544621053083,
      "grad_norm": 2.306737184524536,
      "learning_rate": 4.633220624538069e-05,
      "loss": 0.2820326805114746,
      "memory(GiB)": 70.5,
      "step": 61080,
      "token_acc": 0.9283154121863799,
      "train_speed(iter/s)": 1.447526
    },
    {
      "epoch": 2.617068677434557,
      "grad_norm": 2.9499623775482178,
      "learning_rate": 4.632549463673981e-05,
      "loss": 0.3850246906280518,
      "memory(GiB)": 70.5,
      "step": 61085,
      "token_acc": 0.9134948096885813,
      "train_speed(iter/s)": 1.44754
    },
    {
      "epoch": 2.6172828927638063,
      "grad_norm": 4.513622760772705,
      "learning_rate": 4.631878309466603e-05,
      "loss": 0.6449522018432617,
      "memory(GiB)": 70.5,
      "step": 61090,
      "token_acc": 0.8587896253602305,
      "train_speed(iter/s)": 1.447557
    },
    {
      "epoch": 2.617497108093055,
      "grad_norm": 2.218764066696167,
      "learning_rate": 4.6312071619280974e-05,
      "loss": 0.19780592918395995,
      "memory(GiB)": 70.5,
      "step": 61095,
      "token_acc": 0.955719557195572,
      "train_speed(iter/s)": 1.447553
    },
    {
      "epoch": 2.617711323422304,
      "grad_norm": 3.4889888763427734,
      "learning_rate": 4.630536021070618e-05,
      "loss": 0.46076068878173826,
      "memory(GiB)": 70.5,
      "step": 61100,
      "token_acc": 0.9169435215946844,
      "train_speed(iter/s)": 1.447568
    },
    {
      "epoch": 2.617925538751553,
      "grad_norm": 3.520646810531616,
      "learning_rate": 4.629864886906326e-05,
      "loss": 0.3748875617980957,
      "memory(GiB)": 70.5,
      "step": 61105,
      "token_acc": 0.9188034188034188,
      "train_speed(iter/s)": 1.447567
    },
    {
      "epoch": 2.618139754080802,
      "grad_norm": 7.738424777984619,
      "learning_rate": 4.629193759447378e-05,
      "loss": 0.07544230222702027,
      "memory(GiB)": 70.5,
      "step": 61110,
      "token_acc": 0.9753521126760564,
      "train_speed(iter/s)": 1.447586
    },
    {
      "epoch": 2.618353969410051,
      "grad_norm": 7.525439739227295,
      "learning_rate": 4.628522638705934e-05,
      "loss": 0.25493407249450684,
      "memory(GiB)": 70.5,
      "step": 61115,
      "token_acc": 0.9491525423728814,
      "train_speed(iter/s)": 1.447578
    },
    {
      "epoch": 2.6185681847393,
      "grad_norm": 4.958010196685791,
      "learning_rate": 4.6278515246941514e-05,
      "loss": 0.39889748096466066,
      "memory(GiB)": 70.5,
      "step": 61120,
      "token_acc": 0.9201388888888888,
      "train_speed(iter/s)": 1.447577
    },
    {
      "epoch": 2.618782400068549,
      "grad_norm": 2.4816713333129883,
      "learning_rate": 4.6271804174241864e-05,
      "loss": 0.14290163516998292,
      "memory(GiB)": 70.5,
      "step": 61125,
      "token_acc": 0.9545454545454546,
      "train_speed(iter/s)": 1.447574
    },
    {
      "epoch": 2.6189966153977977,
      "grad_norm": 2.412806510925293,
      "learning_rate": 4.6265093169081986e-05,
      "loss": 0.23992767333984374,
      "memory(GiB)": 70.5,
      "step": 61130,
      "token_acc": 0.950354609929078,
      "train_speed(iter/s)": 1.447576
    },
    {
      "epoch": 2.619210830727047,
      "grad_norm": 4.461517333984375,
      "learning_rate": 4.625838223158345e-05,
      "loss": 0.3668162107467651,
      "memory(GiB)": 70.5,
      "step": 61135,
      "token_acc": 0.928082191780822,
      "train_speed(iter/s)": 1.447591
    },
    {
      "epoch": 2.619425046056296,
      "grad_norm": 2.872967481613159,
      "learning_rate": 4.6251671361867813e-05,
      "loss": 0.38693130016326904,
      "memory(GiB)": 70.5,
      "step": 61140,
      "token_acc": 0.9140893470790378,
      "train_speed(iter/s)": 1.447587
    },
    {
      "epoch": 2.6196392613855446,
      "grad_norm": 3.1546249389648438,
      "learning_rate": 4.6244960560056686e-05,
      "loss": 0.4322534084320068,
      "memory(GiB)": 70.5,
      "step": 61145,
      "token_acc": 0.9274447949526814,
      "train_speed(iter/s)": 1.447593
    },
    {
      "epoch": 2.619853476714794,
      "grad_norm": 4.419399261474609,
      "learning_rate": 4.623824982627161e-05,
      "loss": 0.5643083095550537,
      "memory(GiB)": 70.5,
      "step": 61150,
      "token_acc": 0.8913043478260869,
      "train_speed(iter/s)": 1.447599
    },
    {
      "epoch": 2.6200676920440427,
      "grad_norm": 2.526902437210083,
      "learning_rate": 4.623153916063417e-05,
      "loss": 0.32895348072052,
      "memory(GiB)": 70.5,
      "step": 61155,
      "token_acc": 0.914396887159533,
      "train_speed(iter/s)": 1.447589
    },
    {
      "epoch": 2.6202819073732915,
      "grad_norm": 4.858348369598389,
      "learning_rate": 4.6224828563265934e-05,
      "loss": 0.4167595863342285,
      "memory(GiB)": 70.5,
      "step": 61160,
      "token_acc": 0.9047619047619048,
      "train_speed(iter/s)": 1.447602
    },
    {
      "epoch": 2.6204961227025407,
      "grad_norm": 1.1871503591537476,
      "learning_rate": 4.6218118034288456e-05,
      "loss": 0.19755810499191284,
      "memory(GiB)": 70.5,
      "step": 61165,
      "token_acc": 0.9529085872576177,
      "train_speed(iter/s)": 1.447603
    },
    {
      "epoch": 2.6207103380317895,
      "grad_norm": 3.7741103172302246,
      "learning_rate": 4.6211407573823326e-05,
      "loss": 0.393303656578064,
      "memory(GiB)": 70.5,
      "step": 61170,
      "token_acc": 0.9281437125748503,
      "train_speed(iter/s)": 1.447602
    },
    {
      "epoch": 2.6209245533610384,
      "grad_norm": 2.7356488704681396,
      "learning_rate": 4.620469718199211e-05,
      "loss": 0.2894193172454834,
      "memory(GiB)": 70.5,
      "step": 61175,
      "token_acc": 0.9188405797101449,
      "train_speed(iter/s)": 1.44761
    },
    {
      "epoch": 2.6211387686902876,
      "grad_norm": 2.7515976428985596,
      "learning_rate": 4.619798685891637e-05,
      "loss": 0.39373738765716554,
      "memory(GiB)": 70.5,
      "step": 61180,
      "token_acc": 0.9,
      "train_speed(iter/s)": 1.447614
    },
    {
      "epoch": 2.6213529840195364,
      "grad_norm": 2.151256561279297,
      "learning_rate": 4.6191276604717645e-05,
      "loss": 0.1543282151222229,
      "memory(GiB)": 70.5,
      "step": 61185,
      "token_acc": 0.9571984435797666,
      "train_speed(iter/s)": 1.447623
    },
    {
      "epoch": 2.6215671993487852,
      "grad_norm": 4.776877403259277,
      "learning_rate": 4.618456641951753e-05,
      "loss": 0.3121748447418213,
      "memory(GiB)": 70.5,
      "step": 61190,
      "token_acc": 0.9363295880149812,
      "train_speed(iter/s)": 1.447635
    },
    {
      "epoch": 2.6217814146780345,
      "grad_norm": 4.848793029785156,
      "learning_rate": 4.617785630343757e-05,
      "loss": 0.6679186820983887,
      "memory(GiB)": 70.5,
      "step": 61195,
      "token_acc": 0.8533333333333334,
      "train_speed(iter/s)": 1.447647
    },
    {
      "epoch": 2.6219956300072833,
      "grad_norm": 8.620506286621094,
      "learning_rate": 4.617114625659932e-05,
      "loss": 0.3462846040725708,
      "memory(GiB)": 70.5,
      "step": 61200,
      "token_acc": 0.9197530864197531,
      "train_speed(iter/s)": 1.447641
    },
    {
      "epoch": 2.622209845336532,
      "grad_norm": 1.1203548908233643,
      "learning_rate": 4.6164436279124366e-05,
      "loss": 0.3764320135116577,
      "memory(GiB)": 70.5,
      "step": 61205,
      "token_acc": 0.920863309352518,
      "train_speed(iter/s)": 1.447651
    },
    {
      "epoch": 2.6224240606657814,
      "grad_norm": 3.275834083557129,
      "learning_rate": 4.615772637113423e-05,
      "loss": 0.29796297550201417,
      "memory(GiB)": 70.5,
      "step": 61210,
      "token_acc": 0.9256505576208178,
      "train_speed(iter/s)": 1.447648
    },
    {
      "epoch": 2.62263827599503,
      "grad_norm": 2.415708541870117,
      "learning_rate": 4.61510165327505e-05,
      "loss": 0.34885492324829104,
      "memory(GiB)": 70.5,
      "step": 61215,
      "token_acc": 0.9275862068965517,
      "train_speed(iter/s)": 1.447653
    },
    {
      "epoch": 2.622852491324279,
      "grad_norm": 3.5703694820404053,
      "learning_rate": 4.6144306764094714e-05,
      "loss": 0.1636880159378052,
      "memory(GiB)": 70.5,
      "step": 61220,
      "token_acc": 0.9642857142857143,
      "train_speed(iter/s)": 1.447653
    },
    {
      "epoch": 2.6230667066535283,
      "grad_norm": 2.6125476360321045,
      "learning_rate": 4.613759706528842e-05,
      "loss": 0.3171872138977051,
      "memory(GiB)": 70.5,
      "step": 61225,
      "token_acc": 0.9314516129032258,
      "train_speed(iter/s)": 1.447651
    },
    {
      "epoch": 2.623280921982777,
      "grad_norm": 3.5805389881134033,
      "learning_rate": 4.613088743645318e-05,
      "loss": 0.4536094665527344,
      "memory(GiB)": 70.5,
      "step": 61230,
      "token_acc": 0.9049180327868852,
      "train_speed(iter/s)": 1.44766
    },
    {
      "epoch": 2.623495137312026,
      "grad_norm": 4.039298057556152,
      "learning_rate": 4.612417787771055e-05,
      "loss": 0.19941155910491942,
      "memory(GiB)": 70.5,
      "step": 61235,
      "token_acc": 0.9400749063670412,
      "train_speed(iter/s)": 1.447664
    },
    {
      "epoch": 2.623709352641275,
      "grad_norm": 1.9940903186798096,
      "learning_rate": 4.6117468389182053e-05,
      "loss": 0.32521762847900393,
      "memory(GiB)": 70.5,
      "step": 61240,
      "token_acc": 0.9224489795918367,
      "train_speed(iter/s)": 1.447675
    },
    {
      "epoch": 2.623923567970524,
      "grad_norm": 3.3047726154327393,
      "learning_rate": 4.6110758970989264e-05,
      "loss": 0.27944657802581785,
      "memory(GiB)": 70.5,
      "step": 61245,
      "token_acc": 0.9290780141843972,
      "train_speed(iter/s)": 1.447674
    },
    {
      "epoch": 2.6241377832997728,
      "grad_norm": 3.0350568294525146,
      "learning_rate": 4.610404962325374e-05,
      "loss": 0.3547337532043457,
      "memory(GiB)": 70.5,
      "step": 61250,
      "token_acc": 0.9144981412639405,
      "train_speed(iter/s)": 1.447672
    },
    {
      "epoch": 2.624351998629022,
      "grad_norm": 5.566816329956055,
      "learning_rate": 4.6097340346097004e-05,
      "loss": 0.23143272399902343,
      "memory(GiB)": 70.5,
      "step": 61255,
      "token_acc": 0.9635258358662614,
      "train_speed(iter/s)": 1.447673
    },
    {
      "epoch": 2.624566213958271,
      "grad_norm": 2.43613600730896,
      "learning_rate": 4.609063113964061e-05,
      "loss": 0.3809990406036377,
      "memory(GiB)": 70.5,
      "step": 61260,
      "token_acc": 0.9186991869918699,
      "train_speed(iter/s)": 1.44768
    },
    {
      "epoch": 2.6247804292875196,
      "grad_norm": 3.6608526706695557,
      "learning_rate": 4.608392200400611e-05,
      "loss": 0.4996376037597656,
      "memory(GiB)": 70.5,
      "step": 61265,
      "token_acc": 0.8796296296296297,
      "train_speed(iter/s)": 1.447679
    },
    {
      "epoch": 2.624994644616769,
      "grad_norm": 8.440574645996094,
      "learning_rate": 4.607721293931502e-05,
      "loss": 0.30780644416809083,
      "memory(GiB)": 70.5,
      "step": 61270,
      "token_acc": 0.9288702928870293,
      "train_speed(iter/s)": 1.447688
    },
    {
      "epoch": 2.6252088599460177,
      "grad_norm": 5.852423667907715,
      "learning_rate": 4.607050394568891e-05,
      "loss": 0.23564231395721436,
      "memory(GiB)": 70.5,
      "step": 61275,
      "token_acc": 0.9502262443438914,
      "train_speed(iter/s)": 1.447696
    },
    {
      "epoch": 2.6254230752752665,
      "grad_norm": 7.746718406677246,
      "learning_rate": 4.6063795023249303e-05,
      "loss": 0.31722733974456785,
      "memory(GiB)": 70.5,
      "step": 61280,
      "token_acc": 0.9298245614035088,
      "train_speed(iter/s)": 1.447696
    },
    {
      "epoch": 2.625637290604516,
      "grad_norm": 4.058821201324463,
      "learning_rate": 4.605708617211774e-05,
      "loss": 0.19441094398498535,
      "memory(GiB)": 70.5,
      "step": 61285,
      "token_acc": 0.9517684887459807,
      "train_speed(iter/s)": 1.447698
    },
    {
      "epoch": 2.6258515059337646,
      "grad_norm": 4.198193550109863,
      "learning_rate": 4.605037739241576e-05,
      "loss": 0.3677348613739014,
      "memory(GiB)": 70.5,
      "step": 61290,
      "token_acc": 0.9274809160305344,
      "train_speed(iter/s)": 1.447698
    },
    {
      "epoch": 2.6260657212630134,
      "grad_norm": 3.317779779434204,
      "learning_rate": 4.604366868426489e-05,
      "loss": 0.46806998252868653,
      "memory(GiB)": 70.5,
      "step": 61295,
      "token_acc": 0.8962962962962963,
      "train_speed(iter/s)": 1.44771
    },
    {
      "epoch": 2.6262799365922627,
      "grad_norm": 5.683505058288574,
      "learning_rate": 4.603696004778669e-05,
      "loss": 0.5702770233154297,
      "memory(GiB)": 70.5,
      "step": 61300,
      "token_acc": 0.8884892086330936,
      "train_speed(iter/s)": 1.447716
    },
    {
      "epoch": 2.6264941519215115,
      "grad_norm": 3.980203151702881,
      "learning_rate": 4.603025148310267e-05,
      "loss": 0.5325785636901855,
      "memory(GiB)": 70.5,
      "step": 61305,
      "token_acc": 0.9033457249070632,
      "train_speed(iter/s)": 1.447738
    },
    {
      "epoch": 2.6267083672507603,
      "grad_norm": 1.6444588899612427,
      "learning_rate": 4.602354299033435e-05,
      "loss": 0.514310884475708,
      "memory(GiB)": 70.5,
      "step": 61310,
      "token_acc": 0.8958990536277602,
      "train_speed(iter/s)": 1.44775
    },
    {
      "epoch": 2.6269225825800095,
      "grad_norm": 3.5431947708129883,
      "learning_rate": 4.601683456960329e-05,
      "loss": 0.36957426071166993,
      "memory(GiB)": 70.5,
      "step": 61315,
      "token_acc": 0.9269662921348315,
      "train_speed(iter/s)": 1.447755
    },
    {
      "epoch": 2.6271367979092584,
      "grad_norm": 2.6261146068573,
      "learning_rate": 4.601012622103102e-05,
      "loss": 0.2423548936843872,
      "memory(GiB)": 70.5,
      "step": 61320,
      "token_acc": 0.9330855018587361,
      "train_speed(iter/s)": 1.447761
    },
    {
      "epoch": 2.627351013238507,
      "grad_norm": 4.542873859405518,
      "learning_rate": 4.600341794473905e-05,
      "loss": 0.33140134811401367,
      "memory(GiB)": 70.5,
      "step": 61325,
      "token_acc": 0.9219858156028369,
      "train_speed(iter/s)": 1.44777
    },
    {
      "epoch": 2.6275652285677564,
      "grad_norm": 2.5103797912597656,
      "learning_rate": 4.599670974084891e-05,
      "loss": 0.24002795219421386,
      "memory(GiB)": 70.5,
      "step": 61330,
      "token_acc": 0.9459459459459459,
      "train_speed(iter/s)": 1.447772
    },
    {
      "epoch": 2.6277794438970052,
      "grad_norm": 1.6654372215270996,
      "learning_rate": 4.599000160948214e-05,
      "loss": 0.4216325283050537,
      "memory(GiB)": 70.5,
      "step": 61335,
      "token_acc": 0.9310344827586207,
      "train_speed(iter/s)": 1.447777
    },
    {
      "epoch": 2.627993659226254,
      "grad_norm": 4.151538372039795,
      "learning_rate": 4.598329355076024e-05,
      "loss": 0.30303568840026857,
      "memory(GiB)": 70.5,
      "step": 61340,
      "token_acc": 0.9384615384615385,
      "train_speed(iter/s)": 1.447783
    },
    {
      "epoch": 2.6282078745555033,
      "grad_norm": 3.6377053260803223,
      "learning_rate": 4.597658556480475e-05,
      "loss": 0.4145235061645508,
      "memory(GiB)": 70.5,
      "step": 61345,
      "token_acc": 0.916,
      "train_speed(iter/s)": 1.447784
    },
    {
      "epoch": 2.628422089884752,
      "grad_norm": 2.3340649604797363,
      "learning_rate": 4.5969877651737194e-05,
      "loss": 0.44047861099243163,
      "memory(GiB)": 70.5,
      "step": 61350,
      "token_acc": 0.916955017301038,
      "train_speed(iter/s)": 1.447789
    },
    {
      "epoch": 2.628636305214001,
      "grad_norm": 2.935323715209961,
      "learning_rate": 4.596316981167906e-05,
      "loss": 0.3603860855102539,
      "memory(GiB)": 70.5,
      "step": 61355,
      "token_acc": 0.913312693498452,
      "train_speed(iter/s)": 1.447792
    },
    {
      "epoch": 2.62885052054325,
      "grad_norm": 1.3486486673355103,
      "learning_rate": 4.595646204475192e-05,
      "loss": 0.2365210771560669,
      "memory(GiB)": 70.5,
      "step": 61360,
      "token_acc": 0.954954954954955,
      "train_speed(iter/s)": 1.447792
    },
    {
      "epoch": 2.629064735872499,
      "grad_norm": 2.7939846515655518,
      "learning_rate": 4.594975435107726e-05,
      "loss": 0.22652871608734132,
      "memory(GiB)": 70.5,
      "step": 61365,
      "token_acc": 0.9669117647058824,
      "train_speed(iter/s)": 1.447792
    },
    {
      "epoch": 2.629278951201748,
      "grad_norm": 3.061826467514038,
      "learning_rate": 4.594304673077658e-05,
      "loss": 0.267567777633667,
      "memory(GiB)": 70.5,
      "step": 61370,
      "token_acc": 0.9346590909090909,
      "train_speed(iter/s)": 1.447789
    },
    {
      "epoch": 2.629493166530997,
      "grad_norm": 5.2847065925598145,
      "learning_rate": 4.593633918397143e-05,
      "loss": 0.41947040557861326,
      "memory(GiB)": 70.5,
      "step": 61375,
      "token_acc": 0.9080118694362018,
      "train_speed(iter/s)": 1.447798
    },
    {
      "epoch": 2.629707381860246,
      "grad_norm": 2.2360448837280273,
      "learning_rate": 4.592963171078331e-05,
      "loss": 0.2866261720657349,
      "memory(GiB)": 70.5,
      "step": 61380,
      "token_acc": 0.9364548494983278,
      "train_speed(iter/s)": 1.447797
    },
    {
      "epoch": 2.6299215971894947,
      "grad_norm": 0.3754637539386749,
      "learning_rate": 4.59229243113337e-05,
      "loss": 0.05782880187034607,
      "memory(GiB)": 70.5,
      "step": 61385,
      "token_acc": 0.9873949579831933,
      "train_speed(iter/s)": 1.44781
    },
    {
      "epoch": 2.630135812518744,
      "grad_norm": 1.939903974533081,
      "learning_rate": 4.5916216985744164e-05,
      "loss": 0.46329636573791505,
      "memory(GiB)": 70.5,
      "step": 61390,
      "token_acc": 0.8978102189781022,
      "train_speed(iter/s)": 1.447809
    },
    {
      "epoch": 2.6303500278479928,
      "grad_norm": 0.9144127368927002,
      "learning_rate": 4.590950973413619e-05,
      "loss": 0.24540886878967286,
      "memory(GiB)": 70.5,
      "step": 61395,
      "token_acc": 0.9551569506726457,
      "train_speed(iter/s)": 1.447825
    },
    {
      "epoch": 2.6305642431772416,
      "grad_norm": 4.979918003082275,
      "learning_rate": 4.5902802556631275e-05,
      "loss": 0.437441349029541,
      "memory(GiB)": 70.5,
      "step": 61400,
      "token_acc": 0.9051987767584098,
      "train_speed(iter/s)": 1.447836
    },
    {
      "epoch": 2.630778458506491,
      "grad_norm": 6.291593551635742,
      "learning_rate": 4.589609545335095e-05,
      "loss": 0.6274298667907715,
      "memory(GiB)": 70.5,
      "step": 61405,
      "token_acc": 0.8755186721991701,
      "train_speed(iter/s)": 1.447837
    },
    {
      "epoch": 2.6309926738357396,
      "grad_norm": 5.523523807525635,
      "learning_rate": 4.58893884244167e-05,
      "loss": 0.8953953742980957,
      "memory(GiB)": 70.5,
      "step": 61410,
      "token_acc": 0.8064516129032258,
      "train_speed(iter/s)": 1.447846
    },
    {
      "epoch": 2.6312068891649885,
      "grad_norm": 0.5055042505264282,
      "learning_rate": 4.588268146995003e-05,
      "loss": 0.22902591228485109,
      "memory(GiB)": 70.5,
      "step": 61415,
      "token_acc": 0.9517241379310345,
      "train_speed(iter/s)": 1.447853
    },
    {
      "epoch": 2.6314211044942377,
      "grad_norm": 6.477840900421143,
      "learning_rate": 4.587597459007246e-05,
      "loss": 0.41686525344848635,
      "memory(GiB)": 70.5,
      "step": 61420,
      "token_acc": 0.9028213166144201,
      "train_speed(iter/s)": 1.447858
    },
    {
      "epoch": 2.6316353198234865,
      "grad_norm": 1.3132541179656982,
      "learning_rate": 4.586926778490547e-05,
      "loss": 0.35986416339874266,
      "memory(GiB)": 70.5,
      "step": 61425,
      "token_acc": 0.9245283018867925,
      "train_speed(iter/s)": 1.447862
    },
    {
      "epoch": 2.6318495351527353,
      "grad_norm": 6.469356060028076,
      "learning_rate": 4.586256105457056e-05,
      "loss": 0.32283830642700195,
      "memory(GiB)": 70.5,
      "step": 61430,
      "token_acc": 0.9457364341085271,
      "train_speed(iter/s)": 1.447861
    },
    {
      "epoch": 2.6320637504819846,
      "grad_norm": 2.3179619312286377,
      "learning_rate": 4.585585439918925e-05,
      "loss": 0.38277230262756345,
      "memory(GiB)": 70.5,
      "step": 61435,
      "token_acc": 0.9090909090909091,
      "train_speed(iter/s)": 1.447868
    },
    {
      "epoch": 2.6322779658112334,
      "grad_norm": 4.5965776443481445,
      "learning_rate": 4.5849147818883017e-05,
      "loss": 0.4863728046417236,
      "memory(GiB)": 70.5,
      "step": 61440,
      "token_acc": 0.9076433121019108,
      "train_speed(iter/s)": 1.447873
    },
    {
      "epoch": 2.6324921811404822,
      "grad_norm": 4.076902866363525,
      "learning_rate": 4.584244131377338e-05,
      "loss": 0.5520884990692139,
      "memory(GiB)": 70.5,
      "step": 61445,
      "token_acc": 0.8786885245901639,
      "train_speed(iter/s)": 1.447882
    },
    {
      "epoch": 2.6327063964697315,
      "grad_norm": 2.34574556350708,
      "learning_rate": 4.5835734883981804e-05,
      "loss": 0.3781766891479492,
      "memory(GiB)": 70.5,
      "step": 61450,
      "token_acc": 0.9184397163120568,
      "train_speed(iter/s)": 1.447889
    },
    {
      "epoch": 2.6329206117989803,
      "grad_norm": 3.5890491008758545,
      "learning_rate": 4.5829028529629794e-05,
      "loss": 0.3574995994567871,
      "memory(GiB)": 70.5,
      "step": 61455,
      "token_acc": 0.916083916083916,
      "train_speed(iter/s)": 1.44789
    },
    {
      "epoch": 2.633134827128229,
      "grad_norm": 1.8861055374145508,
      "learning_rate": 4.5822322250838836e-05,
      "loss": 0.48732542991638184,
      "memory(GiB)": 70.5,
      "step": 61460,
      "token_acc": 0.9032258064516129,
      "train_speed(iter/s)": 1.447883
    },
    {
      "epoch": 2.6333490424574784,
      "grad_norm": 2.201122522354126,
      "learning_rate": 4.5815616047730455e-05,
      "loss": 0.18884475231170655,
      "memory(GiB)": 70.5,
      "step": 61465,
      "token_acc": 0.9607843137254902,
      "train_speed(iter/s)": 1.447883
    },
    {
      "epoch": 2.633563257786727,
      "grad_norm": 7.763796806335449,
      "learning_rate": 4.580890992042611e-05,
      "loss": 0.5929625034332275,
      "memory(GiB)": 70.5,
      "step": 61470,
      "token_acc": 0.8874172185430463,
      "train_speed(iter/s)": 1.44788
    },
    {
      "epoch": 2.633777473115976,
      "grad_norm": 3.2763404846191406,
      "learning_rate": 4.580220386904728e-05,
      "loss": 0.18027902841567994,
      "memory(GiB)": 70.5,
      "step": 61475,
      "token_acc": 0.9598214285714286,
      "train_speed(iter/s)": 1.447882
    },
    {
      "epoch": 2.6339916884452252,
      "grad_norm": 3.47609806060791,
      "learning_rate": 4.579549789371548e-05,
      "loss": 0.5458856582641601,
      "memory(GiB)": 70.5,
      "step": 61480,
      "token_acc": 0.8744939271255061,
      "train_speed(iter/s)": 1.447899
    },
    {
      "epoch": 2.634205903774474,
      "grad_norm": 0.16181060671806335,
      "learning_rate": 4.578879199455216e-05,
      "loss": 0.25810463428497316,
      "memory(GiB)": 70.5,
      "step": 61485,
      "token_acc": 0.9450171821305842,
      "train_speed(iter/s)": 1.447899
    },
    {
      "epoch": 2.634420119103723,
      "grad_norm": 6.021367073059082,
      "learning_rate": 4.5782086171678845e-05,
      "loss": 0.43481292724609377,
      "memory(GiB)": 70.5,
      "step": 61490,
      "token_acc": 0.929368029739777,
      "train_speed(iter/s)": 1.447902
    },
    {
      "epoch": 2.634634334432972,
      "grad_norm": 3.4224863052368164,
      "learning_rate": 4.577538042521699e-05,
      "loss": 0.3320859432220459,
      "memory(GiB)": 70.5,
      "step": 61495,
      "token_acc": 0.9085173501577287,
      "train_speed(iter/s)": 1.447898
    },
    {
      "epoch": 2.634848549762221,
      "grad_norm": 3.517878770828247,
      "learning_rate": 4.5768674755288074e-05,
      "loss": 0.522334098815918,
      "memory(GiB)": 70.5,
      "step": 61500,
      "token_acc": 0.9057239057239057,
      "train_speed(iter/s)": 1.447914
    },
    {
      "epoch": 2.634848549762221,
      "eval_loss": 2.412055730819702,
      "eval_runtime": 12.8555,
      "eval_samples_per_second": 7.779,
      "eval_steps_per_second": 7.779,
      "eval_token_acc": 0.44429347826086957,
      "step": 61500
    },
    {
      "epoch": 2.6350627650914697,
      "grad_norm": 2.461435079574585,
      "learning_rate": 4.576196916201359e-05,
      "loss": 0.22640254497528076,
      "memory(GiB)": 70.5,
      "step": 61505,
      "token_acc": 0.5833333333333334,
      "train_speed(iter/s)": 1.447453
    },
    {
      "epoch": 2.635276980420719,
      "grad_norm": 0.3752152621746063,
      "learning_rate": 4.575526364551501e-05,
      "loss": 0.20357902050018312,
      "memory(GiB)": 70.5,
      "step": 61510,
      "token_acc": 0.9546742209631728,
      "train_speed(iter/s)": 1.447447
    },
    {
      "epoch": 2.635491195749968,
      "grad_norm": 3.8056607246398926,
      "learning_rate": 4.5748558205913814e-05,
      "loss": 0.3291881561279297,
      "memory(GiB)": 70.5,
      "step": 61515,
      "token_acc": 0.9294478527607362,
      "train_speed(iter/s)": 1.447452
    },
    {
      "epoch": 2.6357054110792166,
      "grad_norm": 3.2258739471435547,
      "learning_rate": 4.5741852843331466e-05,
      "loss": 0.34124050140380857,
      "memory(GiB)": 70.5,
      "step": 61520,
      "token_acc": 0.9098360655737705,
      "train_speed(iter/s)": 1.447461
    },
    {
      "epoch": 2.635919626408466,
      "grad_norm": 4.251286506652832,
      "learning_rate": 4.5735147557889445e-05,
      "loss": 0.289488697052002,
      "memory(GiB)": 70.5,
      "step": 61525,
      "token_acc": 0.9260450160771704,
      "train_speed(iter/s)": 1.447465
    },
    {
      "epoch": 2.6361338417377147,
      "grad_norm": 3.049596071243286,
      "learning_rate": 4.5728442349709244e-05,
      "loss": 0.3340094804763794,
      "memory(GiB)": 70.5,
      "step": 61530,
      "token_acc": 0.9388379204892966,
      "train_speed(iter/s)": 1.447469
    },
    {
      "epoch": 2.6363480570669635,
      "grad_norm": 1.6077907085418701,
      "learning_rate": 4.5721737218912285e-05,
      "loss": 0.49300594329833985,
      "memory(GiB)": 70.5,
      "step": 61535,
      "token_acc": 0.8993055555555556,
      "train_speed(iter/s)": 1.447468
    },
    {
      "epoch": 2.6365622723962128,
      "grad_norm": 2.965414524078369,
      "learning_rate": 4.57150321656201e-05,
      "loss": 0.6063614845275879,
      "memory(GiB)": 70.5,
      "step": 61540,
      "token_acc": 0.8653846153846154,
      "train_speed(iter/s)": 1.447465
    },
    {
      "epoch": 2.6367764877254616,
      "grad_norm": 2.651120185852051,
      "learning_rate": 4.5708327189954116e-05,
      "loss": 0.46217942237854004,
      "memory(GiB)": 70.5,
      "step": 61545,
      "token_acc": 0.9003322259136213,
      "train_speed(iter/s)": 1.447467
    },
    {
      "epoch": 2.6369907030547104,
      "grad_norm": 2.8855948448181152,
      "learning_rate": 4.5701622292035815e-05,
      "loss": 0.34079155921936033,
      "memory(GiB)": 70.5,
      "step": 61550,
      "token_acc": 0.9297658862876255,
      "train_speed(iter/s)": 1.447465
    },
    {
      "epoch": 2.6372049183839597,
      "grad_norm": 2.38625431060791,
      "learning_rate": 4.569491747198666e-05,
      "loss": 0.2869521141052246,
      "memory(GiB)": 70.5,
      "step": 61555,
      "token_acc": 0.9273504273504274,
      "train_speed(iter/s)": 1.447463
    },
    {
      "epoch": 2.6374191337132085,
      "grad_norm": 4.381589889526367,
      "learning_rate": 4.56882127299281e-05,
      "loss": 0.31996893882751465,
      "memory(GiB)": 70.5,
      "step": 61560,
      "token_acc": 0.9202453987730062,
      "train_speed(iter/s)": 1.447464
    },
    {
      "epoch": 2.6376333490424573,
      "grad_norm": 4.983942031860352,
      "learning_rate": 4.568150806598163e-05,
      "loss": 0.5336143493652343,
      "memory(GiB)": 70.5,
      "step": 61565,
      "token_acc": 0.8808664259927798,
      "train_speed(iter/s)": 1.447468
    },
    {
      "epoch": 2.6378475643717065,
      "grad_norm": 1.943608045578003,
      "learning_rate": 4.567480348026869e-05,
      "loss": 0.30729892253875735,
      "memory(GiB)": 70.5,
      "step": 61570,
      "token_acc": 0.9197080291970803,
      "train_speed(iter/s)": 1.447469
    },
    {
      "epoch": 2.6380617797009553,
      "grad_norm": 1.6030519008636475,
      "learning_rate": 4.566809897291073e-05,
      "loss": 0.3169023275375366,
      "memory(GiB)": 70.5,
      "step": 61575,
      "token_acc": 0.9356913183279743,
      "train_speed(iter/s)": 1.447468
    },
    {
      "epoch": 2.638275995030204,
      "grad_norm": 7.661046028137207,
      "learning_rate": 4.566139454402923e-05,
      "loss": 0.5195615768432618,
      "memory(GiB)": 70.5,
      "step": 61580,
      "token_acc": 0.9176470588235294,
      "train_speed(iter/s)": 1.447466
    },
    {
      "epoch": 2.6384902103594534,
      "grad_norm": 4.996121406555176,
      "learning_rate": 4.565469019374563e-05,
      "loss": 0.5801838874816895,
      "memory(GiB)": 70.5,
      "step": 61585,
      "token_acc": 0.8823529411764706,
      "train_speed(iter/s)": 1.447479
    },
    {
      "epoch": 2.6387044256887022,
      "grad_norm": 3.533048152923584,
      "learning_rate": 4.5647985922181405e-05,
      "loss": 0.5621556282043457,
      "memory(GiB)": 70.5,
      "step": 61590,
      "token_acc": 0.8932038834951457,
      "train_speed(iter/s)": 1.447479
    },
    {
      "epoch": 2.638918641017951,
      "grad_norm": 2.9299230575561523,
      "learning_rate": 4.564128172945799e-05,
      "loss": 0.37748355865478517,
      "memory(GiB)": 70.5,
      "step": 61595,
      "token_acc": 0.9357429718875502,
      "train_speed(iter/s)": 1.447474
    },
    {
      "epoch": 2.6391328563472003,
      "grad_norm": 4.254628658294678,
      "learning_rate": 4.563457761569685e-05,
      "loss": 0.5746063709259033,
      "memory(GiB)": 70.5,
      "step": 61600,
      "token_acc": 0.8842443729903537,
      "train_speed(iter/s)": 1.447477
    },
    {
      "epoch": 2.639347071676449,
      "grad_norm": 4.1840949058532715,
      "learning_rate": 4.56278735810194e-05,
      "loss": 0.3969834327697754,
      "memory(GiB)": 70.5,
      "step": 61605,
      "token_acc": 0.9098039215686274,
      "train_speed(iter/s)": 1.447477
    },
    {
      "epoch": 2.639561287005698,
      "grad_norm": 2.6185483932495117,
      "learning_rate": 4.562116962554716e-05,
      "loss": 0.3301081657409668,
      "memory(GiB)": 70.5,
      "step": 61610,
      "token_acc": 0.9172661870503597,
      "train_speed(iter/s)": 1.447477
    },
    {
      "epoch": 2.639775502334947,
      "grad_norm": 3.593273162841797,
      "learning_rate": 4.561446574940153e-05,
      "loss": 0.26254639625549314,
      "memory(GiB)": 70.5,
      "step": 61615,
      "token_acc": 0.9498432601880877,
      "train_speed(iter/s)": 1.447491
    },
    {
      "epoch": 2.639989717664196,
      "grad_norm": 3.780306816101074,
      "learning_rate": 4.560776195270396e-05,
      "loss": 0.6180973052978516,
      "memory(GiB)": 70.5,
      "step": 61620,
      "token_acc": 0.8904593639575972,
      "train_speed(iter/s)": 1.447508
    },
    {
      "epoch": 2.640203932993445,
      "grad_norm": 2.176625967025757,
      "learning_rate": 4.5601058235575914e-05,
      "loss": 0.20591967105865477,
      "memory(GiB)": 70.5,
      "step": 61625,
      "token_acc": 0.9494949494949495,
      "train_speed(iter/s)": 1.447509
    },
    {
      "epoch": 2.640418148322694,
      "grad_norm": 0.5674892067909241,
      "learning_rate": 4.559435459813881e-05,
      "loss": 0.2882565498352051,
      "memory(GiB)": 70.5,
      "step": 61630,
      "token_acc": 0.9547325102880658,
      "train_speed(iter/s)": 1.447513
    },
    {
      "epoch": 2.640632363651943,
      "grad_norm": 12.422568321228027,
      "learning_rate": 4.558765104051412e-05,
      "loss": 0.4681526184082031,
      "memory(GiB)": 70.5,
      "step": 61635,
      "token_acc": 0.9212328767123288,
      "train_speed(iter/s)": 1.447532
    },
    {
      "epoch": 2.6408465789811917,
      "grad_norm": 2.130526065826416,
      "learning_rate": 4.558094756282327e-05,
      "loss": 0.5061566829681396,
      "memory(GiB)": 70.5,
      "step": 61640,
      "token_acc": 0.909375,
      "train_speed(iter/s)": 1.44753
    },
    {
      "epoch": 2.641060794310441,
      "grad_norm": 1.3075767755508423,
      "learning_rate": 4.557424416518768e-05,
      "loss": 0.4304489612579346,
      "memory(GiB)": 70.5,
      "step": 61645,
      "token_acc": 0.9265734265734266,
      "train_speed(iter/s)": 1.44753
    },
    {
      "epoch": 2.6412750096396898,
      "grad_norm": 0.9399771094322205,
      "learning_rate": 4.556754084772883e-05,
      "loss": 0.18796178102493286,
      "memory(GiB)": 70.5,
      "step": 61650,
      "token_acc": 0.946236559139785,
      "train_speed(iter/s)": 1.447521
    },
    {
      "epoch": 2.6414892249689386,
      "grad_norm": 3.8090062141418457,
      "learning_rate": 4.556083761056814e-05,
      "loss": 0.19445762634277344,
      "memory(GiB)": 70.5,
      "step": 61655,
      "token_acc": 0.9478827361563518,
      "train_speed(iter/s)": 1.447517
    },
    {
      "epoch": 2.641703440298188,
      "grad_norm": 2.6742045879364014,
      "learning_rate": 4.5554134453827024e-05,
      "loss": 0.37818431854248047,
      "memory(GiB)": 70.5,
      "step": 61660,
      "token_acc": 0.9139072847682119,
      "train_speed(iter/s)": 1.447525
    },
    {
      "epoch": 2.6419176556274366,
      "grad_norm": 2.1844875812530518,
      "learning_rate": 4.554743137762694e-05,
      "loss": 0.4525002479553223,
      "memory(GiB)": 70.5,
      "step": 61665,
      "token_acc": 0.9057971014492754,
      "train_speed(iter/s)": 1.447533
    },
    {
      "epoch": 2.6421318709566854,
      "grad_norm": 6.542811870574951,
      "learning_rate": 4.554072838208931e-05,
      "loss": 0.3769400119781494,
      "memory(GiB)": 70.5,
      "step": 61670,
      "token_acc": 0.9163763066202091,
      "train_speed(iter/s)": 1.447535
    },
    {
      "epoch": 2.6423460862859347,
      "grad_norm": 5.116458415985107,
      "learning_rate": 4.553402546733557e-05,
      "loss": 0.5813519477844238,
      "memory(GiB)": 70.5,
      "step": 61675,
      "token_acc": 0.8703071672354948,
      "train_speed(iter/s)": 1.447534
    },
    {
      "epoch": 2.6425603016151835,
      "grad_norm": 2.21981143951416,
      "learning_rate": 4.552732263348713e-05,
      "loss": 0.43384761810302735,
      "memory(GiB)": 70.5,
      "step": 61680,
      "token_acc": 0.8983050847457628,
      "train_speed(iter/s)": 1.44753
    },
    {
      "epoch": 2.6427745169444323,
      "grad_norm": 1.4639217853546143,
      "learning_rate": 4.5520619880665466e-05,
      "loss": 0.24800541400909423,
      "memory(GiB)": 70.5,
      "step": 61685,
      "token_acc": 0.9625850340136054,
      "train_speed(iter/s)": 1.447525
    },
    {
      "epoch": 2.6429887322736816,
      "grad_norm": 3.018535614013672,
      "learning_rate": 4.551391720899196e-05,
      "loss": 0.37110195159912107,
      "memory(GiB)": 70.5,
      "step": 61690,
      "token_acc": 0.9257950530035336,
      "train_speed(iter/s)": 1.447533
    },
    {
      "epoch": 2.6432029476029304,
      "grad_norm": 2.7520089149475098,
      "learning_rate": 4.5507214618588055e-05,
      "loss": 0.3076845645904541,
      "memory(GiB)": 70.5,
      "step": 61695,
      "token_acc": 0.9431818181818182,
      "train_speed(iter/s)": 1.447547
    },
    {
      "epoch": 2.643417162932179,
      "grad_norm": 5.0172271728515625,
      "learning_rate": 4.5500512109575186e-05,
      "loss": 0.4185813903808594,
      "memory(GiB)": 70.5,
      "step": 61700,
      "token_acc": 0.8989169675090253,
      "train_speed(iter/s)": 1.447555
    },
    {
      "epoch": 2.6436313782614285,
      "grad_norm": 4.614552021026611,
      "learning_rate": 4.549380968207474e-05,
      "loss": 0.4791110515594482,
      "memory(GiB)": 70.5,
      "step": 61705,
      "token_acc": 0.8888888888888888,
      "train_speed(iter/s)": 1.447556
    },
    {
      "epoch": 2.6438455935906773,
      "grad_norm": 2.823154926300049,
      "learning_rate": 4.5487107336208166e-05,
      "loss": 0.200669264793396,
      "memory(GiB)": 70.5,
      "step": 61710,
      "token_acc": 0.951417004048583,
      "train_speed(iter/s)": 1.447567
    },
    {
      "epoch": 2.644059808919926,
      "grad_norm": 3.1636853218078613,
      "learning_rate": 4.548040507209689e-05,
      "loss": 0.36113929748535156,
      "memory(GiB)": 70.5,
      "step": 61715,
      "token_acc": 0.9292307692307692,
      "train_speed(iter/s)": 1.447573
    },
    {
      "epoch": 2.6442740242491753,
      "grad_norm": 3.198113203048706,
      "learning_rate": 4.547370288986229e-05,
      "loss": 0.2868433237075806,
      "memory(GiB)": 70.5,
      "step": 61720,
      "token_acc": 0.9343283582089552,
      "train_speed(iter/s)": 1.447572
    },
    {
      "epoch": 2.644488239578424,
      "grad_norm": 1.5984017848968506,
      "learning_rate": 4.546700078962582e-05,
      "loss": 0.23110063076019288,
      "memory(GiB)": 70.5,
      "step": 61725,
      "token_acc": 0.9483282674772037,
      "train_speed(iter/s)": 1.447576
    },
    {
      "epoch": 2.644702454907673,
      "grad_norm": 3.524688482284546,
      "learning_rate": 4.5460298771508885e-05,
      "loss": 0.3024256944656372,
      "memory(GiB)": 70.5,
      "step": 61730,
      "token_acc": 0.9486166007905138,
      "train_speed(iter/s)": 1.447582
    },
    {
      "epoch": 2.6449166702369222,
      "grad_norm": 2.2486536502838135,
      "learning_rate": 4.54535968356329e-05,
      "loss": 0.2127291202545166,
      "memory(GiB)": 70.5,
      "step": 61735,
      "token_acc": 0.9503311258278145,
      "train_speed(iter/s)": 1.447586
    },
    {
      "epoch": 2.645130885566171,
      "grad_norm": 0.7443834543228149,
      "learning_rate": 4.544689498211927e-05,
      "loss": 0.5230721473693848,
      "memory(GiB)": 70.5,
      "step": 61740,
      "token_acc": 0.8943894389438944,
      "train_speed(iter/s)": 1.447601
    },
    {
      "epoch": 2.64534510089542,
      "grad_norm": 6.602192401885986,
      "learning_rate": 4.54401932110894e-05,
      "loss": 0.3551377773284912,
      "memory(GiB)": 70.5,
      "step": 61745,
      "token_acc": 0.9291044776119403,
      "train_speed(iter/s)": 1.447601
    },
    {
      "epoch": 2.645559316224669,
      "grad_norm": 2.611539125442505,
      "learning_rate": 4.543349152266472e-05,
      "loss": 0.3158955335617065,
      "memory(GiB)": 70.5,
      "step": 61750,
      "token_acc": 0.9240506329113924,
      "train_speed(iter/s)": 1.4476
    },
    {
      "epoch": 2.645773531553918,
      "grad_norm": 4.033263683319092,
      "learning_rate": 4.54267899169666e-05,
      "loss": 0.36622159481048583,
      "memory(GiB)": 70.5,
      "step": 61755,
      "token_acc": 0.9123505976095617,
      "train_speed(iter/s)": 1.447598
    },
    {
      "epoch": 2.6459877468831667,
      "grad_norm": 2.268050193786621,
      "learning_rate": 4.54200883941165e-05,
      "loss": 0.5759293079376221,
      "memory(GiB)": 70.5,
      "step": 61760,
      "token_acc": 0.8551724137931035,
      "train_speed(iter/s)": 1.447599
    },
    {
      "epoch": 2.646201962212416,
      "grad_norm": 3.341790199279785,
      "learning_rate": 4.541338695423578e-05,
      "loss": 0.5484394073486328,
      "memory(GiB)": 70.5,
      "step": 61765,
      "token_acc": 0.8850174216027874,
      "train_speed(iter/s)": 1.447598
    },
    {
      "epoch": 2.646416177541665,
      "grad_norm": 6.018964767456055,
      "learning_rate": 4.5406685597445866e-05,
      "loss": 0.3176295042037964,
      "memory(GiB)": 70.5,
      "step": 61770,
      "token_acc": 0.937037037037037,
      "train_speed(iter/s)": 1.447595
    },
    {
      "epoch": 2.6466303928709136,
      "grad_norm": 6.782587051391602,
      "learning_rate": 4.539998432386814e-05,
      "loss": 0.5410772323608398,
      "memory(GiB)": 70.5,
      "step": 61775,
      "token_acc": 0.8711864406779661,
      "train_speed(iter/s)": 1.447591
    },
    {
      "epoch": 2.646844608200163,
      "grad_norm": 5.127666473388672,
      "learning_rate": 4.5393283133624026e-05,
      "loss": 0.19411921501159668,
      "memory(GiB)": 70.5,
      "step": 61780,
      "token_acc": 0.94921875,
      "train_speed(iter/s)": 1.447596
    },
    {
      "epoch": 2.6470588235294117,
      "grad_norm": 3.432521343231201,
      "learning_rate": 4.5386582026834906e-05,
      "loss": 0.44103713035583497,
      "memory(GiB)": 70.5,
      "step": 61785,
      "token_acc": 0.9178082191780822,
      "train_speed(iter/s)": 1.447593
    },
    {
      "epoch": 2.6472730388586605,
      "grad_norm": 0.8241600394248962,
      "learning_rate": 4.5379881003622174e-05,
      "loss": 0.3440232753753662,
      "memory(GiB)": 70.5,
      "step": 61790,
      "token_acc": 0.9257950530035336,
      "train_speed(iter/s)": 1.447596
    },
    {
      "epoch": 2.6474872541879098,
      "grad_norm": 4.59395170211792,
      "learning_rate": 4.537318006410724e-05,
      "loss": 0.23594017028808595,
      "memory(GiB)": 70.5,
      "step": 61795,
      "token_acc": 0.9507042253521126,
      "train_speed(iter/s)": 1.447588
    },
    {
      "epoch": 2.6477014695171586,
      "grad_norm": 5.28005838394165,
      "learning_rate": 4.53664792084115e-05,
      "loss": 0.6669252395629883,
      "memory(GiB)": 70.5,
      "step": 61800,
      "token_acc": 0.8548387096774194,
      "train_speed(iter/s)": 1.447584
    },
    {
      "epoch": 2.6479156848464074,
      "grad_norm": 5.439007759094238,
      "learning_rate": 4.535977843665631e-05,
      "loss": 0.5724901676177978,
      "memory(GiB)": 70.5,
      "step": 61805,
      "token_acc": 0.8789625360230547,
      "train_speed(iter/s)": 1.447581
    },
    {
      "epoch": 2.6481299001756566,
      "grad_norm": 5.23031759262085,
      "learning_rate": 4.53530777489631e-05,
      "loss": 0.5377740859985352,
      "memory(GiB)": 70.5,
      "step": 61810,
      "token_acc": 0.8883928571428571,
      "train_speed(iter/s)": 1.447585
    },
    {
      "epoch": 2.6483441155049054,
      "grad_norm": 5.360401153564453,
      "learning_rate": 4.534637714545324e-05,
      "loss": 0.3579395294189453,
      "memory(GiB)": 70.5,
      "step": 61815,
      "token_acc": 0.9169329073482428,
      "train_speed(iter/s)": 1.447577
    },
    {
      "epoch": 2.6485583308341543,
      "grad_norm": 0.7323693037033081,
      "learning_rate": 4.533967662624813e-05,
      "loss": 0.31434359550476076,
      "memory(GiB)": 70.5,
      "step": 61820,
      "token_acc": 0.937037037037037,
      "train_speed(iter/s)": 1.447583
    },
    {
      "epoch": 2.6487725461634035,
      "grad_norm": 2.0621631145477295,
      "learning_rate": 4.533297619146915e-05,
      "loss": 0.4119595527648926,
      "memory(GiB)": 70.5,
      "step": 61825,
      "token_acc": 0.9113924050632911,
      "train_speed(iter/s)": 1.447586
    },
    {
      "epoch": 2.6489867614926523,
      "grad_norm": 12.524123191833496,
      "learning_rate": 4.532627584123766e-05,
      "loss": 0.6590642929077148,
      "memory(GiB)": 70.5,
      "step": 61830,
      "token_acc": 0.8669064748201439,
      "train_speed(iter/s)": 1.447614
    },
    {
      "epoch": 2.649200976821901,
      "grad_norm": 3.0450568199157715,
      "learning_rate": 4.531957557567509e-05,
      "loss": 0.22728297710418702,
      "memory(GiB)": 70.5,
      "step": 61835,
      "token_acc": 0.9488817891373802,
      "train_speed(iter/s)": 1.447619
    },
    {
      "epoch": 2.6494151921511504,
      "grad_norm": 1.6804946660995483,
      "learning_rate": 4.5312875394902795e-05,
      "loss": 0.36830203533172606,
      "memory(GiB)": 70.5,
      "step": 61840,
      "token_acc": 0.9276729559748428,
      "train_speed(iter/s)": 1.447622
    },
    {
      "epoch": 2.649629407480399,
      "grad_norm": 4.561955451965332,
      "learning_rate": 4.530617529904218e-05,
      "loss": 0.4207762718200684,
      "memory(GiB)": 70.5,
      "step": 61845,
      "token_acc": 0.8958904109589041,
      "train_speed(iter/s)": 1.447622
    },
    {
      "epoch": 2.649843622809648,
      "grad_norm": 2.235570192337036,
      "learning_rate": 4.529947528821457e-05,
      "loss": 0.4551135540008545,
      "memory(GiB)": 70.5,
      "step": 61850,
      "token_acc": 0.9163763066202091,
      "train_speed(iter/s)": 1.44763
    },
    {
      "epoch": 2.6500578381388973,
      "grad_norm": 2.9894652366638184,
      "learning_rate": 4.52927753625414e-05,
      "loss": 0.3946289777755737,
      "memory(GiB)": 70.5,
      "step": 61855,
      "token_acc": 0.9249329758713136,
      "train_speed(iter/s)": 1.447629
    },
    {
      "epoch": 2.650272053468146,
      "grad_norm": 2.86881160736084,
      "learning_rate": 4.528607552214401e-05,
      "loss": 0.498002290725708,
      "memory(GiB)": 70.5,
      "step": 61860,
      "token_acc": 0.8906752411575563,
      "train_speed(iter/s)": 1.447628
    },
    {
      "epoch": 2.650486268797395,
      "grad_norm": 3.005465269088745,
      "learning_rate": 4.527937576714378e-05,
      "loss": 0.5542258739471435,
      "memory(GiB)": 70.5,
      "step": 61865,
      "token_acc": 0.8921568627450981,
      "train_speed(iter/s)": 1.447618
    },
    {
      "epoch": 2.650700484126644,
      "grad_norm": 3.4489707946777344,
      "learning_rate": 4.527267609766209e-05,
      "loss": 0.5069169998168945,
      "memory(GiB)": 70.5,
      "step": 61870,
      "token_acc": 0.8804347826086957,
      "train_speed(iter/s)": 1.447614
    },
    {
      "epoch": 2.650914699455893,
      "grad_norm": 3.322847843170166,
      "learning_rate": 4.52659765138203e-05,
      "loss": 0.47964982986450194,
      "memory(GiB)": 70.5,
      "step": 61875,
      "token_acc": 0.9024390243902439,
      "train_speed(iter/s)": 1.447614
    },
    {
      "epoch": 2.651128914785142,
      "grad_norm": 3.1377198696136475,
      "learning_rate": 4.5259277015739796e-05,
      "loss": 0.37734332084655764,
      "memory(GiB)": 70.5,
      "step": 61880,
      "token_acc": 0.9090909090909091,
      "train_speed(iter/s)": 1.447608
    },
    {
      "epoch": 2.651343130114391,
      "grad_norm": 1.858526587486267,
      "learning_rate": 4.525257760354194e-05,
      "loss": 0.34901251792907717,
      "memory(GiB)": 70.5,
      "step": 61885,
      "token_acc": 0.9116465863453815,
      "train_speed(iter/s)": 1.447604
    },
    {
      "epoch": 2.65155734544364,
      "grad_norm": 2.7254104614257812,
      "learning_rate": 4.5245878277348084e-05,
      "loss": 0.24496827125549317,
      "memory(GiB)": 70.5,
      "step": 61890,
      "token_acc": 0.9380165289256198,
      "train_speed(iter/s)": 1.447603
    },
    {
      "epoch": 2.6517715607728887,
      "grad_norm": 2.1868069171905518,
      "learning_rate": 4.523917903727961e-05,
      "loss": 0.4473905563354492,
      "memory(GiB)": 70.5,
      "step": 61895,
      "token_acc": 0.9096573208722741,
      "train_speed(iter/s)": 1.447611
    },
    {
      "epoch": 2.651985776102138,
      "grad_norm": 0.798876941204071,
      "learning_rate": 4.5232479883457865e-05,
      "loss": 0.45054874420166013,
      "memory(GiB)": 70.5,
      "step": 61900,
      "token_acc": 0.8996960486322189,
      "train_speed(iter/s)": 1.447612
    },
    {
      "epoch": 2.6521999914313867,
      "grad_norm": 2.8011605739593506,
      "learning_rate": 4.522578081600421e-05,
      "loss": 0.1952047109603882,
      "memory(GiB)": 70.5,
      "step": 61905,
      "token_acc": 0.9553903345724907,
      "train_speed(iter/s)": 1.447618
    },
    {
      "epoch": 2.6524142067606356,
      "grad_norm": 3.1155450344085693,
      "learning_rate": 4.521908183504002e-05,
      "loss": 0.6918132305145264,
      "memory(GiB)": 70.5,
      "step": 61910,
      "token_acc": 0.8283582089552238,
      "train_speed(iter/s)": 1.447622
    },
    {
      "epoch": 2.652628422089885,
      "grad_norm": 4.067039966583252,
      "learning_rate": 4.521238294068667e-05,
      "loss": 0.5355288982391357,
      "memory(GiB)": 70.5,
      "step": 61915,
      "token_acc": 0.8844884488448845,
      "train_speed(iter/s)": 1.447621
    },
    {
      "epoch": 2.6528426374191336,
      "grad_norm": 3.7300891876220703,
      "learning_rate": 4.520568413306547e-05,
      "loss": 0.4307830333709717,
      "memory(GiB)": 70.5,
      "step": 61920,
      "token_acc": 0.9140127388535032,
      "train_speed(iter/s)": 1.44762
    },
    {
      "epoch": 2.6530568527483824,
      "grad_norm": 4.879171848297119,
      "learning_rate": 4.519898541229781e-05,
      "loss": 0.45722060203552245,
      "memory(GiB)": 70.5,
      "step": 61925,
      "token_acc": 0.9019607843137255,
      "train_speed(iter/s)": 1.447621
    },
    {
      "epoch": 2.6532710680776317,
      "grad_norm": 2.188586950302124,
      "learning_rate": 4.519228677850504e-05,
      "loss": 0.35382134914398194,
      "memory(GiB)": 70.5,
      "step": 61930,
      "token_acc": 0.9195804195804196,
      "train_speed(iter/s)": 1.447623
    },
    {
      "epoch": 2.6534852834068805,
      "grad_norm": 4.501918792724609,
      "learning_rate": 4.5185588231808486e-05,
      "loss": 0.3405893564224243,
      "memory(GiB)": 70.5,
      "step": 61935,
      "token_acc": 0.9046153846153846,
      "train_speed(iter/s)": 1.447639
    },
    {
      "epoch": 2.6536994987361293,
      "grad_norm": 2.791771411895752,
      "learning_rate": 4.517888977232953e-05,
      "loss": 0.5824811935424805,
      "memory(GiB)": 70.5,
      "step": 61940,
      "token_acc": 0.8947368421052632,
      "train_speed(iter/s)": 1.447637
    },
    {
      "epoch": 2.6539137140653786,
      "grad_norm": 1.8375006914138794,
      "learning_rate": 4.5172191400189515e-05,
      "loss": 0.2747244119644165,
      "memory(GiB)": 70.5,
      "step": 61945,
      "token_acc": 0.9446366782006921,
      "train_speed(iter/s)": 1.447641
    },
    {
      "epoch": 2.6541279293946274,
      "grad_norm": 3.816554069519043,
      "learning_rate": 4.516549311550977e-05,
      "loss": 0.47806944847106936,
      "memory(GiB)": 70.5,
      "step": 61950,
      "token_acc": 0.9096989966555183,
      "train_speed(iter/s)": 1.447653
    },
    {
      "epoch": 2.654342144723876,
      "grad_norm": 4.5717267990112305,
      "learning_rate": 4.515879491841166e-05,
      "loss": 0.3377795696258545,
      "memory(GiB)": 70.5,
      "step": 61955,
      "token_acc": 0.9230769230769231,
      "train_speed(iter/s)": 1.447668
    },
    {
      "epoch": 2.6545563600531255,
      "grad_norm": 1.6245028972625732,
      "learning_rate": 4.515209680901651e-05,
      "loss": 0.47426528930664064,
      "memory(GiB)": 70.5,
      "step": 61960,
      "token_acc": 0.9,
      "train_speed(iter/s)": 1.447682
    },
    {
      "epoch": 2.6547705753823743,
      "grad_norm": 0.8550208210945129,
      "learning_rate": 4.514539878744568e-05,
      "loss": 0.19966109991073608,
      "memory(GiB)": 70.5,
      "step": 61965,
      "token_acc": 0.96415770609319,
      "train_speed(iter/s)": 1.447694
    },
    {
      "epoch": 2.654984790711623,
      "grad_norm": 4.214755058288574,
      "learning_rate": 4.5138700853820516e-05,
      "loss": 0.5378626823425293,
      "memory(GiB)": 70.5,
      "step": 61970,
      "token_acc": 0.9017341040462428,
      "train_speed(iter/s)": 1.447696
    },
    {
      "epoch": 2.6551990060408723,
      "grad_norm": 1.872337818145752,
      "learning_rate": 4.513200300826232e-05,
      "loss": 0.14181779623031615,
      "memory(GiB)": 70.5,
      "step": 61975,
      "token_acc": 0.9602446483180428,
      "train_speed(iter/s)": 1.447699
    },
    {
      "epoch": 2.655413221370121,
      "grad_norm": 7.91402530670166,
      "learning_rate": 4.512530525089246e-05,
      "loss": 0.22990975379943848,
      "memory(GiB)": 70.5,
      "step": 61980,
      "token_acc": 0.9375,
      "train_speed(iter/s)": 1.447712
    },
    {
      "epoch": 2.65562743669937,
      "grad_norm": 0.9903507232666016,
      "learning_rate": 4.511860758183229e-05,
      "loss": 0.24826087951660156,
      "memory(GiB)": 70.5,
      "step": 61985,
      "token_acc": 0.9523809523809523,
      "train_speed(iter/s)": 1.44772
    },
    {
      "epoch": 2.655841652028619,
      "grad_norm": 4.321025848388672,
      "learning_rate": 4.511191000120312e-05,
      "loss": 0.3794630289077759,
      "memory(GiB)": 70.5,
      "step": 61990,
      "token_acc": 0.9225589225589226,
      "train_speed(iter/s)": 1.447726
    },
    {
      "epoch": 2.656055867357868,
      "grad_norm": 1.890407919883728,
      "learning_rate": 4.510521250912627e-05,
      "loss": 0.181824791431427,
      "memory(GiB)": 70.5,
      "step": 61995,
      "token_acc": 0.9537953795379538,
      "train_speed(iter/s)": 1.447726
    },
    {
      "epoch": 2.656270082687117,
      "grad_norm": 2.8949079513549805,
      "learning_rate": 4.50985151057231e-05,
      "loss": 0.3622307777404785,
      "memory(GiB)": 70.5,
      "step": 62000,
      "token_acc": 0.9222972972972973,
      "train_speed(iter/s)": 1.447721
    },
    {
      "epoch": 2.656270082687117,
      "eval_loss": 2.4479222297668457,
      "eval_runtime": 13.0015,
      "eval_samples_per_second": 7.691,
      "eval_steps_per_second": 7.691,
      "eval_token_acc": 0.45161290322580644,
      "step": 62000
    },
    {
      "epoch": 2.656484298016366,
      "grad_norm": 6.188794136047363,
      "learning_rate": 4.509181779111493e-05,
      "loss": 0.4362116813659668,
      "memory(GiB)": 70.5,
      "step": 62005,
      "token_acc": 0.5863770977295163,
      "train_speed(iter/s)": 1.447263
    },
    {
      "epoch": 2.656698513345615,
      "grad_norm": 2.930385112762451,
      "learning_rate": 4.508512056542307e-05,
      "loss": 0.33515353202819825,
      "memory(GiB)": 70.5,
      "step": 62010,
      "token_acc": 0.944,
      "train_speed(iter/s)": 1.447278
    },
    {
      "epoch": 2.6569127286748637,
      "grad_norm": 6.253642559051514,
      "learning_rate": 4.507842342876887e-05,
      "loss": 0.41450185775756837,
      "memory(GiB)": 70.5,
      "step": 62015,
      "token_acc": 0.9238410596026491,
      "train_speed(iter/s)": 1.447285
    },
    {
      "epoch": 2.657126944004113,
      "grad_norm": 3.6871767044067383,
      "learning_rate": 4.507172638127364e-05,
      "loss": 0.37525343894958496,
      "memory(GiB)": 70.5,
      "step": 62020,
      "token_acc": 0.9063670411985019,
      "train_speed(iter/s)": 1.447288
    },
    {
      "epoch": 2.657341159333362,
      "grad_norm": 3.435983180999756,
      "learning_rate": 4.5065029423058726e-05,
      "loss": 0.22835855484008788,
      "memory(GiB)": 70.5,
      "step": 62025,
      "token_acc": 0.9480968858131488,
      "train_speed(iter/s)": 1.44729
    },
    {
      "epoch": 2.6575553746626106,
      "grad_norm": 7.841897010803223,
      "learning_rate": 4.505833255424543e-05,
      "loss": 0.34644601345062254,
      "memory(GiB)": 70.5,
      "step": 62030,
      "token_acc": 0.9368421052631579,
      "train_speed(iter/s)": 1.447296
    },
    {
      "epoch": 2.65776958999186,
      "grad_norm": 3.4957785606384277,
      "learning_rate": 4.505163577495506e-05,
      "loss": 0.2834619998931885,
      "memory(GiB)": 70.5,
      "step": 62035,
      "token_acc": 0.9429429429429429,
      "train_speed(iter/s)": 1.447301
    },
    {
      "epoch": 2.6579838053211087,
      "grad_norm": 2.7655091285705566,
      "learning_rate": 4.504493908530896e-05,
      "loss": 0.2255397081375122,
      "memory(GiB)": 70.5,
      "step": 62040,
      "token_acc": 0.9457364341085271,
      "train_speed(iter/s)": 1.447312
    },
    {
      "epoch": 2.6581980206503575,
      "grad_norm": 2.2170956134796143,
      "learning_rate": 4.5038242485428436e-05,
      "loss": 0.12379798889160157,
      "memory(GiB)": 70.5,
      "step": 62045,
      "token_acc": 0.9862385321100917,
      "train_speed(iter/s)": 1.447315
    },
    {
      "epoch": 2.6584122359796067,
      "grad_norm": 3.158536672592163,
      "learning_rate": 4.503154597543479e-05,
      "loss": 0.4423708915710449,
      "memory(GiB)": 70.5,
      "step": 62050,
      "token_acc": 0.9212827988338192,
      "train_speed(iter/s)": 1.447319
    },
    {
      "epoch": 2.6586264513088556,
      "grad_norm": 3.0011682510375977,
      "learning_rate": 4.5024849555449353e-05,
      "loss": 0.45866665840148924,
      "memory(GiB)": 70.5,
      "step": 62055,
      "token_acc": 0.9227799227799228,
      "train_speed(iter/s)": 1.447325
    },
    {
      "epoch": 2.6588406666381044,
      "grad_norm": 4.572297096252441,
      "learning_rate": 4.501815322559345e-05,
      "loss": 0.5289100646972656,
      "memory(GiB)": 70.5,
      "step": 62060,
      "token_acc": 0.875,
      "train_speed(iter/s)": 1.447338
    },
    {
      "epoch": 2.6590548819673536,
      "grad_norm": 7.501572608947754,
      "learning_rate": 4.501145698598836e-05,
      "loss": 0.458814001083374,
      "memory(GiB)": 70.5,
      "step": 62065,
      "token_acc": 0.9222614840989399,
      "train_speed(iter/s)": 1.447368
    },
    {
      "epoch": 2.6592690972966024,
      "grad_norm": 4.163656711578369,
      "learning_rate": 4.500476083675542e-05,
      "loss": 0.6144587993621826,
      "memory(GiB)": 70.5,
      "step": 62070,
      "token_acc": 0.879245283018868,
      "train_speed(iter/s)": 1.447381
    },
    {
      "epoch": 2.6594833126258512,
      "grad_norm": 1.4386930465698242,
      "learning_rate": 4.499806477801592e-05,
      "loss": 0.3060781240463257,
      "memory(GiB)": 70.5,
      "step": 62075,
      "token_acc": 0.9409448818897638,
      "train_speed(iter/s)": 1.447384
    },
    {
      "epoch": 2.6596975279551005,
      "grad_norm": 2.068629264831543,
      "learning_rate": 4.499136880989116e-05,
      "loss": 0.20511746406555176,
      "memory(GiB)": 70.5,
      "step": 62080,
      "token_acc": 0.9403508771929825,
      "train_speed(iter/s)": 1.447383
    },
    {
      "epoch": 2.6599117432843493,
      "grad_norm": 2.6252760887145996,
      "learning_rate": 4.498467293250246e-05,
      "loss": 0.23621025085449218,
      "memory(GiB)": 70.5,
      "step": 62085,
      "token_acc": 0.9253731343283582,
      "train_speed(iter/s)": 1.44739
    },
    {
      "epoch": 2.660125958613598,
      "grad_norm": 4.683954238891602,
      "learning_rate": 4.497797714597112e-05,
      "loss": 0.67561354637146,
      "memory(GiB)": 70.5,
      "step": 62090,
      "token_acc": 0.8795180722891566,
      "train_speed(iter/s)": 1.447399
    },
    {
      "epoch": 2.6603401739428474,
      "grad_norm": 3.367122173309326,
      "learning_rate": 4.4971281450418425e-05,
      "loss": 0.22562475204467775,
      "memory(GiB)": 70.5,
      "step": 62095,
      "token_acc": 0.9393063583815029,
      "train_speed(iter/s)": 1.447402
    },
    {
      "epoch": 2.660554389272096,
      "grad_norm": 6.0975494384765625,
      "learning_rate": 4.496458584596569e-05,
      "loss": 0.37267913818359377,
      "memory(GiB)": 70.5,
      "step": 62100,
      "token_acc": 0.9230769230769231,
      "train_speed(iter/s)": 1.447406
    },
    {
      "epoch": 2.660768604601345,
      "grad_norm": 1.219221591949463,
      "learning_rate": 4.495789033273419e-05,
      "loss": 0.46807408332824707,
      "memory(GiB)": 70.5,
      "step": 62105,
      "token_acc": 0.92,
      "train_speed(iter/s)": 1.44741
    },
    {
      "epoch": 2.6609828199305943,
      "grad_norm": 2.703113555908203,
      "learning_rate": 4.495119491084526e-05,
      "loss": 0.17241687774658204,
      "memory(GiB)": 70.5,
      "step": 62110,
      "token_acc": 0.9485530546623794,
      "train_speed(iter/s)": 1.447418
    },
    {
      "epoch": 2.661197035259843,
      "grad_norm": 2.2936196327209473,
      "learning_rate": 4.4944499580420166e-05,
      "loss": 0.271669864654541,
      "memory(GiB)": 70.5,
      "step": 62115,
      "token_acc": 0.9406528189910979,
      "train_speed(iter/s)": 1.447425
    },
    {
      "epoch": 2.661411250589092,
      "grad_norm": 4.713520526885986,
      "learning_rate": 4.4937804341580184e-05,
      "loss": 0.624672269821167,
      "memory(GiB)": 70.5,
      "step": 62120,
      "token_acc": 0.8866666666666667,
      "train_speed(iter/s)": 1.447435
    },
    {
      "epoch": 2.661625465918341,
      "grad_norm": 5.517458915710449,
      "learning_rate": 4.4931109194446624e-05,
      "loss": 0.2576157093048096,
      "memory(GiB)": 70.5,
      "step": 62125,
      "token_acc": 0.9490445859872612,
      "train_speed(iter/s)": 1.447442
    },
    {
      "epoch": 2.66183968124759,
      "grad_norm": 3.057835817337036,
      "learning_rate": 4.49244141391408e-05,
      "loss": 0.3207888126373291,
      "memory(GiB)": 70.5,
      "step": 62130,
      "token_acc": 0.920265780730897,
      "train_speed(iter/s)": 1.447441
    },
    {
      "epoch": 2.6620538965768388,
      "grad_norm": 8.213821411132812,
      "learning_rate": 4.4917719175783965e-05,
      "loss": 0.2501098871231079,
      "memory(GiB)": 70.5,
      "step": 62135,
      "token_acc": 0.956989247311828,
      "train_speed(iter/s)": 1.447444
    },
    {
      "epoch": 2.662268111906088,
      "grad_norm": 1.2636791467666626,
      "learning_rate": 4.491102430449741e-05,
      "loss": 0.21295928955078125,
      "memory(GiB)": 70.5,
      "step": 62140,
      "token_acc": 0.9581749049429658,
      "train_speed(iter/s)": 1.447439
    },
    {
      "epoch": 2.662482327235337,
      "grad_norm": 3.1308646202087402,
      "learning_rate": 4.490432952540243e-05,
      "loss": 0.268076753616333,
      "memory(GiB)": 70.5,
      "step": 62145,
      "token_acc": 0.9337748344370861,
      "train_speed(iter/s)": 1.447446
    },
    {
      "epoch": 2.6626965425645857,
      "grad_norm": 0.8392356634140015,
      "learning_rate": 4.489763483862031e-05,
      "loss": 0.22498054504394532,
      "memory(GiB)": 70.5,
      "step": 62150,
      "token_acc": 0.9556962025316456,
      "train_speed(iter/s)": 1.447461
    },
    {
      "epoch": 2.662910757893835,
      "grad_norm": 0.9999603033065796,
      "learning_rate": 4.4890940244272305e-05,
      "loss": 0.43745903968811034,
      "memory(GiB)": 70.5,
      "step": 62155,
      "token_acc": 0.9172661870503597,
      "train_speed(iter/s)": 1.447464
    },
    {
      "epoch": 2.6631249732230837,
      "grad_norm": 3.2843410968780518,
      "learning_rate": 4.488424574247972e-05,
      "loss": 0.41991491317749025,
      "memory(GiB)": 70.5,
      "step": 62160,
      "token_acc": 0.9233333333333333,
      "train_speed(iter/s)": 1.447456
    },
    {
      "epoch": 2.6633391885523325,
      "grad_norm": 0.5478345155715942,
      "learning_rate": 4.4877551333363814e-05,
      "loss": 0.4388895034790039,
      "memory(GiB)": 70.5,
      "step": 62165,
      "token_acc": 0.9051987767584098,
      "train_speed(iter/s)": 1.447472
    },
    {
      "epoch": 2.663553403881582,
      "grad_norm": 2.8743066787719727,
      "learning_rate": 4.487085701704588e-05,
      "loss": 0.3616382360458374,
      "memory(GiB)": 70.5,
      "step": 62170,
      "token_acc": 0.940959409594096,
      "train_speed(iter/s)": 1.447478
    },
    {
      "epoch": 2.6637676192108306,
      "grad_norm": 9.986801147460938,
      "learning_rate": 4.4864162793647184e-05,
      "loss": 0.30351901054382324,
      "memory(GiB)": 70.5,
      "step": 62175,
      "token_acc": 0.9433333333333334,
      "train_speed(iter/s)": 1.447475
    },
    {
      "epoch": 2.6639818345400794,
      "grad_norm": 4.64256477355957,
      "learning_rate": 4.4857468663288985e-05,
      "loss": 0.40125384330749514,
      "memory(GiB)": 70.5,
      "step": 62180,
      "token_acc": 0.9022222222222223,
      "train_speed(iter/s)": 1.447486
    },
    {
      "epoch": 2.6641960498693287,
      "grad_norm": 2.0142953395843506,
      "learning_rate": 4.485077462609258e-05,
      "loss": 0.2647902011871338,
      "memory(GiB)": 70.5,
      "step": 62185,
      "token_acc": 0.9444444444444444,
      "train_speed(iter/s)": 1.447481
    },
    {
      "epoch": 2.6644102651985775,
      "grad_norm": 4.031135082244873,
      "learning_rate": 4.484408068217922e-05,
      "loss": 0.39009039402008056,
      "memory(GiB)": 70.5,
      "step": 62190,
      "token_acc": 0.9242424242424242,
      "train_speed(iter/s)": 1.447482
    },
    {
      "epoch": 2.6646244805278263,
      "grad_norm": 2.006535768508911,
      "learning_rate": 4.4837386831670155e-05,
      "loss": 0.4520547866821289,
      "memory(GiB)": 70.5,
      "step": 62195,
      "token_acc": 0.9122137404580153,
      "train_speed(iter/s)": 1.447488
    },
    {
      "epoch": 2.6648386958570756,
      "grad_norm": 4.003526210784912,
      "learning_rate": 4.4830693074686675e-05,
      "loss": 0.4088658332824707,
      "memory(GiB)": 70.5,
      "step": 62200,
      "token_acc": 0.9148936170212766,
      "train_speed(iter/s)": 1.447503
    },
    {
      "epoch": 2.6650529111863244,
      "grad_norm": 1.7813329696655273,
      "learning_rate": 4.482399941135005e-05,
      "loss": 0.3011425256729126,
      "memory(GiB)": 70.5,
      "step": 62205,
      "token_acc": 0.9475409836065574,
      "train_speed(iter/s)": 1.447503
    },
    {
      "epoch": 2.665267126515573,
      "grad_norm": 3.1795668601989746,
      "learning_rate": 4.481730584178153e-05,
      "loss": 0.565117597579956,
      "memory(GiB)": 70.5,
      "step": 62210,
      "token_acc": 0.8715277777777778,
      "train_speed(iter/s)": 1.447522
    },
    {
      "epoch": 2.6654813418448224,
      "grad_norm": 1.9905132055282593,
      "learning_rate": 4.481061236610238e-05,
      "loss": 0.15180439949035646,
      "memory(GiB)": 70.5,
      "step": 62215,
      "token_acc": 0.9715302491103203,
      "train_speed(iter/s)": 1.44753
    },
    {
      "epoch": 2.6656955571740713,
      "grad_norm": 1.9156246185302734,
      "learning_rate": 4.480391898443386e-05,
      "loss": 0.3886182069778442,
      "memory(GiB)": 70.5,
      "step": 62220,
      "token_acc": 0.9259259259259259,
      "train_speed(iter/s)": 1.447539
    },
    {
      "epoch": 2.66590977250332,
      "grad_norm": 4.19224214553833,
      "learning_rate": 4.4797225696897205e-05,
      "loss": 0.38079047203063965,
      "memory(GiB)": 70.5,
      "step": 62225,
      "token_acc": 0.9338235294117647,
      "train_speed(iter/s)": 1.447541
    },
    {
      "epoch": 2.6661239878325693,
      "grad_norm": 5.043607711791992,
      "learning_rate": 4.4790532503613696e-05,
      "loss": 0.7618361473083496,
      "memory(GiB)": 70.5,
      "step": 62230,
      "token_acc": 0.8421052631578947,
      "train_speed(iter/s)": 1.447531
    },
    {
      "epoch": 2.666338203161818,
      "grad_norm": 4.006303310394287,
      "learning_rate": 4.4783839404704587e-05,
      "loss": 0.44088053703308105,
      "memory(GiB)": 70.5,
      "step": 62235,
      "token_acc": 0.9174603174603174,
      "train_speed(iter/s)": 1.447523
    },
    {
      "epoch": 2.666552418491067,
      "grad_norm": 4.6570844650268555,
      "learning_rate": 4.47771464002911e-05,
      "loss": 0.2712312459945679,
      "memory(GiB)": 70.5,
      "step": 62240,
      "token_acc": 0.9372549019607843,
      "train_speed(iter/s)": 1.447539
    },
    {
      "epoch": 2.666766633820316,
      "grad_norm": 4.354842185974121,
      "learning_rate": 4.4770453490494526e-05,
      "loss": 0.89688081741333,
      "memory(GiB)": 70.5,
      "step": 62245,
      "token_acc": 0.8308823529411765,
      "train_speed(iter/s)": 1.44756
    },
    {
      "epoch": 2.666980849149565,
      "grad_norm": 6.075008869171143,
      "learning_rate": 4.476376067543607e-05,
      "loss": 0.4759481430053711,
      "memory(GiB)": 70.5,
      "step": 62250,
      "token_acc": 0.893687707641196,
      "train_speed(iter/s)": 1.447559
    },
    {
      "epoch": 2.6671950644788143,
      "grad_norm": 3.2484171390533447,
      "learning_rate": 4.475706795523702e-05,
      "loss": 0.4639185905456543,
      "memory(GiB)": 70.5,
      "step": 62255,
      "token_acc": 0.9098039215686274,
      "train_speed(iter/s)": 1.447562
    },
    {
      "epoch": 2.667409279808063,
      "grad_norm": 1.8316489458084106,
      "learning_rate": 4.47503753300186e-05,
      "loss": 0.3672872304916382,
      "memory(GiB)": 70.5,
      "step": 62260,
      "token_acc": 0.9139784946236559,
      "train_speed(iter/s)": 1.447559
    },
    {
      "epoch": 2.667623495137312,
      "grad_norm": 3.964089870452881,
      "learning_rate": 4.474368279990205e-05,
      "loss": 0.36299350261688235,
      "memory(GiB)": 70.5,
      "step": 62265,
      "token_acc": 0.9240924092409241,
      "train_speed(iter/s)": 1.447563
    },
    {
      "epoch": 2.667837710466561,
      "grad_norm": 0.6748683452606201,
      "learning_rate": 4.47369903650086e-05,
      "loss": 0.19935842752456664,
      "memory(GiB)": 70.5,
      "step": 62270,
      "token_acc": 0.9473684210526315,
      "train_speed(iter/s)": 1.44757
    },
    {
      "epoch": 2.66805192579581,
      "grad_norm": 4.881246089935303,
      "learning_rate": 4.4730298025459536e-05,
      "loss": 0.5943005084991455,
      "memory(GiB)": 70.5,
      "step": 62275,
      "token_acc": 0.9012345679012346,
      "train_speed(iter/s)": 1.4476
    },
    {
      "epoch": 2.6682661411250588,
      "grad_norm": 5.013237476348877,
      "learning_rate": 4.4723605781376056e-05,
      "loss": 0.5519759654998779,
      "memory(GiB)": 70.5,
      "step": 62280,
      "token_acc": 0.8745644599303136,
      "train_speed(iter/s)": 1.447601
    },
    {
      "epoch": 2.668480356454308,
      "grad_norm": 5.1350531578063965,
      "learning_rate": 4.47169136328794e-05,
      "loss": 0.19264392852783202,
      "memory(GiB)": 70.5,
      "step": 62285,
      "token_acc": 0.951310861423221,
      "train_speed(iter/s)": 1.447614
    },
    {
      "epoch": 2.668694571783557,
      "grad_norm": 0.4157807230949402,
      "learning_rate": 4.471022158009082e-05,
      "loss": 0.17727173566818238,
      "memory(GiB)": 70.5,
      "step": 62290,
      "token_acc": 0.965034965034965,
      "train_speed(iter/s)": 1.447623
    },
    {
      "epoch": 2.6689087871128057,
      "grad_norm": 2.1172196865081787,
      "learning_rate": 4.470352962313154e-05,
      "loss": 0.33814690113067625,
      "memory(GiB)": 70.5,
      "step": 62295,
      "token_acc": 0.9385474860335196,
      "train_speed(iter/s)": 1.447635
    },
    {
      "epoch": 2.669123002442055,
      "grad_norm": 4.236176490783691,
      "learning_rate": 4.4696837762122777e-05,
      "loss": 0.4015036582946777,
      "memory(GiB)": 70.5,
      "step": 62300,
      "token_acc": 0.9222614840989399,
      "train_speed(iter/s)": 1.447641
    },
    {
      "epoch": 2.6693372177713037,
      "grad_norm": 0.11673542857170105,
      "learning_rate": 4.469014599718579e-05,
      "loss": 0.3423347234725952,
      "memory(GiB)": 70.5,
      "step": 62305,
      "token_acc": 0.9172932330827067,
      "train_speed(iter/s)": 1.447638
    },
    {
      "epoch": 2.6695514331005525,
      "grad_norm": 0.4165034294128418,
      "learning_rate": 4.468345432844177e-05,
      "loss": 0.3770503759384155,
      "memory(GiB)": 70.5,
      "step": 62310,
      "token_acc": 0.9230769230769231,
      "train_speed(iter/s)": 1.447639
    },
    {
      "epoch": 2.669765648429802,
      "grad_norm": 0.24340839684009552,
      "learning_rate": 4.4676762756011974e-05,
      "loss": 0.492935037612915,
      "memory(GiB)": 70.5,
      "step": 62315,
      "token_acc": 0.8696969696969697,
      "train_speed(iter/s)": 1.447638
    },
    {
      "epoch": 2.6699798637590506,
      "grad_norm": 5.654083251953125,
      "learning_rate": 4.467007128001762e-05,
      "loss": 0.3606488943099976,
      "memory(GiB)": 70.5,
      "step": 62320,
      "token_acc": 0.9238410596026491,
      "train_speed(iter/s)": 1.447643
    },
    {
      "epoch": 2.6701940790882994,
      "grad_norm": 3.500302791595459,
      "learning_rate": 4.466337990057991e-05,
      "loss": 0.3748777866363525,
      "memory(GiB)": 70.5,
      "step": 62325,
      "token_acc": 0.9090909090909091,
      "train_speed(iter/s)": 1.447645
    },
    {
      "epoch": 2.6704082944175487,
      "grad_norm": 2.648968458175659,
      "learning_rate": 4.4656688617820095e-05,
      "loss": 0.5630839347839356,
      "memory(GiB)": 70.5,
      "step": 62330,
      "token_acc": 0.856687898089172,
      "train_speed(iter/s)": 1.447647
    },
    {
      "epoch": 2.6706225097467975,
      "grad_norm": 4.108028888702393,
      "learning_rate": 4.464999743185937e-05,
      "loss": 0.3390624761581421,
      "memory(GiB)": 70.5,
      "step": 62335,
      "token_acc": 0.9336099585062241,
      "train_speed(iter/s)": 1.447642
    },
    {
      "epoch": 2.6708367250760463,
      "grad_norm": 0.3022342324256897,
      "learning_rate": 4.464330634281895e-05,
      "loss": 0.2710545778274536,
      "memory(GiB)": 70.5,
      "step": 62340,
      "token_acc": 0.927536231884058,
      "train_speed(iter/s)": 1.447645
    },
    {
      "epoch": 2.6710509404052956,
      "grad_norm": 2.3988196849823,
      "learning_rate": 4.4636615350820054e-05,
      "loss": 0.14255814552307128,
      "memory(GiB)": 70.5,
      "step": 62345,
      "token_acc": 0.9766666666666667,
      "train_speed(iter/s)": 1.447649
    },
    {
      "epoch": 2.6712651557345444,
      "grad_norm": 3.5349950790405273,
      "learning_rate": 4.462992445598392e-05,
      "loss": 0.4753734111785889,
      "memory(GiB)": 70.5,
      "step": 62350,
      "token_acc": 0.9129032258064517,
      "train_speed(iter/s)": 1.447655
    },
    {
      "epoch": 2.671479371063793,
      "grad_norm": 6.476291656494141,
      "learning_rate": 4.462323365843174e-05,
      "loss": 0.5088140964508057,
      "memory(GiB)": 70.5,
      "step": 62355,
      "token_acc": 0.9018181818181819,
      "train_speed(iter/s)": 1.447656
    },
    {
      "epoch": 2.6716935863930424,
      "grad_norm": 2.9321882724761963,
      "learning_rate": 4.4616542958284725e-05,
      "loss": 0.28748035430908203,
      "memory(GiB)": 70.5,
      "step": 62360,
      "token_acc": 0.9437086092715232,
      "train_speed(iter/s)": 1.447662
    },
    {
      "epoch": 2.6719078017222913,
      "grad_norm": 7.791177272796631,
      "learning_rate": 4.460985235566409e-05,
      "loss": 0.27793643474578855,
      "memory(GiB)": 70.5,
      "step": 62365,
      "token_acc": 0.931740614334471,
      "train_speed(iter/s)": 1.44766
    },
    {
      "epoch": 2.67212201705154,
      "grad_norm": 0.062391966581344604,
      "learning_rate": 4.4603161850691025e-05,
      "loss": 0.3525341033935547,
      "memory(GiB)": 70.5,
      "step": 62370,
      "token_acc": 0.9258160237388724,
      "train_speed(iter/s)": 1.447655
    },
    {
      "epoch": 2.6723362323807893,
      "grad_norm": 3.9771525859832764,
      "learning_rate": 4.459647144348675e-05,
      "loss": 0.7660824298858643,
      "memory(GiB)": 70.5,
      "step": 62375,
      "token_acc": 0.8521739130434782,
      "train_speed(iter/s)": 1.447659
    },
    {
      "epoch": 2.672550447710038,
      "grad_norm": 3.972144842147827,
      "learning_rate": 4.458978113417248e-05,
      "loss": 0.20133619308471679,
      "memory(GiB)": 70.5,
      "step": 62380,
      "token_acc": 0.9586206896551724,
      "train_speed(iter/s)": 1.447663
    },
    {
      "epoch": 2.672764663039287,
      "grad_norm": 4.696717262268066,
      "learning_rate": 4.4583090922869375e-05,
      "loss": 0.45039615631103513,
      "memory(GiB)": 70.5,
      "step": 62385,
      "token_acc": 0.8848684210526315,
      "train_speed(iter/s)": 1.447663
    },
    {
      "epoch": 2.672978878368536,
      "grad_norm": 1.9007459878921509,
      "learning_rate": 4.457640080969868e-05,
      "loss": 0.24563612937927246,
      "memory(GiB)": 70.5,
      "step": 62390,
      "token_acc": 0.941358024691358,
      "train_speed(iter/s)": 1.447661
    },
    {
      "epoch": 2.673193093697785,
      "grad_norm": 3.1224498748779297,
      "learning_rate": 4.456971079478155e-05,
      "loss": 0.5925087928771973,
      "memory(GiB)": 70.5,
      "step": 62395,
      "token_acc": 0.8835616438356164,
      "train_speed(iter/s)": 1.447669
    },
    {
      "epoch": 2.673407309027034,
      "grad_norm": 5.533380508422852,
      "learning_rate": 4.456302087823922e-05,
      "loss": 0.34356322288513186,
      "memory(GiB)": 70.5,
      "step": 62400,
      "token_acc": 0.926829268292683,
      "train_speed(iter/s)": 1.447671
    },
    {
      "epoch": 2.673621524356283,
      "grad_norm": 2.393078565597534,
      "learning_rate": 4.455633106019287e-05,
      "loss": 0.4533069133758545,
      "memory(GiB)": 70.5,
      "step": 62405,
      "token_acc": 0.9175627240143369,
      "train_speed(iter/s)": 1.447673
    },
    {
      "epoch": 2.673835739685532,
      "grad_norm": 0.07072113454341888,
      "learning_rate": 4.4549641340763676e-05,
      "loss": 0.4326894760131836,
      "memory(GiB)": 70.5,
      "step": 62410,
      "token_acc": 0.9052631578947369,
      "train_speed(iter/s)": 1.447676
    },
    {
      "epoch": 2.6740499550147807,
      "grad_norm": 3.368162155151367,
      "learning_rate": 4.454295172007285e-05,
      "loss": 0.41844024658203127,
      "memory(GiB)": 70.5,
      "step": 62415,
      "token_acc": 0.9219653179190751,
      "train_speed(iter/s)": 1.447673
    },
    {
      "epoch": 2.67426417034403,
      "grad_norm": 6.23519229888916,
      "learning_rate": 4.4536262198241555e-05,
      "loss": 0.255311918258667,
      "memory(GiB)": 70.5,
      "step": 62420,
      "token_acc": 0.9606557377049181,
      "train_speed(iter/s)": 1.447674
    },
    {
      "epoch": 2.674478385673279,
      "grad_norm": 1.3809280395507812,
      "learning_rate": 4.4529572775391014e-05,
      "loss": 0.37593066692352295,
      "memory(GiB)": 70.5,
      "step": 62425,
      "token_acc": 0.9180327868852459,
      "train_speed(iter/s)": 1.447676
    },
    {
      "epoch": 2.6746926010025276,
      "grad_norm": 2.3045454025268555,
      "learning_rate": 4.4522883451642386e-05,
      "loss": 0.24141299724578857,
      "memory(GiB)": 70.5,
      "step": 62430,
      "token_acc": 0.9493243243243243,
      "train_speed(iter/s)": 1.447676
    },
    {
      "epoch": 2.674906816331777,
      "grad_norm": 6.614663600921631,
      "learning_rate": 4.451619422711687e-05,
      "loss": 0.6233209609985352,
      "memory(GiB)": 70.5,
      "step": 62435,
      "token_acc": 0.8776758409785933,
      "train_speed(iter/s)": 1.447669
    },
    {
      "epoch": 2.6751210316610257,
      "grad_norm": 1.599133014678955,
      "learning_rate": 4.4509505101935636e-05,
      "loss": 0.4985771179199219,
      "memory(GiB)": 70.5,
      "step": 62440,
      "token_acc": 0.8852459016393442,
      "train_speed(iter/s)": 1.447671
    },
    {
      "epoch": 2.6753352469902745,
      "grad_norm": 1.482329249382019,
      "learning_rate": 4.450281607621987e-05,
      "loss": 0.32178659439086915,
      "memory(GiB)": 70.5,
      "step": 62445,
      "token_acc": 0.9308176100628931,
      "train_speed(iter/s)": 1.44768
    },
    {
      "epoch": 2.6755494623195237,
      "grad_norm": 4.699796676635742,
      "learning_rate": 4.449612715009075e-05,
      "loss": 0.6197531700134278,
      "memory(GiB)": 70.5,
      "step": 62450,
      "token_acc": 0.8639240506329114,
      "train_speed(iter/s)": 1.447686
    },
    {
      "epoch": 2.6757636776487725,
      "grad_norm": 3.2139315605163574,
      "learning_rate": 4.4489438323669435e-05,
      "loss": 0.3811391592025757,
      "memory(GiB)": 70.5,
      "step": 62455,
      "token_acc": 0.9247648902821317,
      "train_speed(iter/s)": 1.44771
    },
    {
      "epoch": 2.6759778929780214,
      "grad_norm": 2.952954053878784,
      "learning_rate": 4.448274959707713e-05,
      "loss": 0.5657593250274658,
      "memory(GiB)": 70.5,
      "step": 62460,
      "token_acc": 0.8660130718954249,
      "train_speed(iter/s)": 1.447707
    },
    {
      "epoch": 2.6761921083072706,
      "grad_norm": 1.3432409763336182,
      "learning_rate": 4.447606097043499e-05,
      "loss": 0.216054105758667,
      "memory(GiB)": 70.5,
      "step": 62465,
      "token_acc": 0.9557522123893806,
      "train_speed(iter/s)": 1.44771
    },
    {
      "epoch": 2.6764063236365194,
      "grad_norm": 2.007343292236328,
      "learning_rate": 4.4469372443864185e-05,
      "loss": 0.3902971506118774,
      "memory(GiB)": 70.5,
      "step": 62470,
      "token_acc": 0.9112627986348123,
      "train_speed(iter/s)": 1.447715
    },
    {
      "epoch": 2.6766205389657682,
      "grad_norm": 2.974259853363037,
      "learning_rate": 4.4462684017485884e-05,
      "loss": 0.21773128509521483,
      "memory(GiB)": 70.5,
      "step": 62475,
      "token_acc": 0.9448275862068966,
      "train_speed(iter/s)": 1.447727
    },
    {
      "epoch": 2.6768347542950175,
      "grad_norm": 1.4690396785736084,
      "learning_rate": 4.445599569142127e-05,
      "loss": 0.25847735404968264,
      "memory(GiB)": 70.5,
      "step": 62480,
      "token_acc": 0.9531772575250836,
      "train_speed(iter/s)": 1.447726
    },
    {
      "epoch": 2.6770489696242663,
      "grad_norm": 3.5662496089935303,
      "learning_rate": 4.444930746579147e-05,
      "loss": 0.4562369346618652,
      "memory(GiB)": 70.5,
      "step": 62485,
      "token_acc": 0.8978102189781022,
      "train_speed(iter/s)": 1.447725
    },
    {
      "epoch": 2.677263184953515,
      "grad_norm": 1.7665257453918457,
      "learning_rate": 4.444261934071769e-05,
      "loss": 0.20178804397583008,
      "memory(GiB)": 70.5,
      "step": 62490,
      "token_acc": 0.9607843137254902,
      "train_speed(iter/s)": 1.447729
    },
    {
      "epoch": 2.6774774002827644,
      "grad_norm": 0.15136446058750153,
      "learning_rate": 4.443593131632105e-05,
      "loss": 0.38600869178771974,
      "memory(GiB)": 70.5,
      "step": 62495,
      "token_acc": 0.9119318181818182,
      "train_speed(iter/s)": 1.447741
    },
    {
      "epoch": 2.677691615612013,
      "grad_norm": 2.030184030532837,
      "learning_rate": 4.442924339272275e-05,
      "loss": 0.3512770652770996,
      "memory(GiB)": 70.5,
      "step": 62500,
      "token_acc": 0.9230769230769231,
      "train_speed(iter/s)": 1.447763
    },
    {
      "epoch": 2.677691615612013,
      "eval_loss": 2.3742074966430664,
      "eval_runtime": 13.6968,
      "eval_samples_per_second": 7.301,
      "eval_steps_per_second": 7.301,
      "eval_token_acc": 0.4540540540540541,
      "step": 62500
    },
    {
      "epoch": 2.677905830941262,
      "grad_norm": 4.145299434661865,
      "learning_rate": 4.442255557004393e-05,
      "loss": 0.4555978775024414,
      "memory(GiB)": 70.5,
      "step": 62505,
      "token_acc": 0.5715695952615992,
      "train_speed(iter/s)": 1.447273
    },
    {
      "epoch": 2.6781200462705113,
      "grad_norm": 0.8118100762367249,
      "learning_rate": 4.441586784840576e-05,
      "loss": 0.07326777577400208,
      "memory(GiB)": 70.5,
      "step": 62510,
      "token_acc": 0.9834710743801653,
      "train_speed(iter/s)": 1.447274
    },
    {
      "epoch": 2.67833426159976,
      "grad_norm": 2.789337635040283,
      "learning_rate": 4.440918022792937e-05,
      "loss": 0.3287363052368164,
      "memory(GiB)": 70.5,
      "step": 62515,
      "token_acc": 0.929368029739777,
      "train_speed(iter/s)": 1.447289
    },
    {
      "epoch": 2.678548476929009,
      "grad_norm": 2.113752603530884,
      "learning_rate": 4.440249270873593e-05,
      "loss": 0.3011852025985718,
      "memory(GiB)": 70.5,
      "step": 62520,
      "token_acc": 0.9409448818897638,
      "train_speed(iter/s)": 1.447296
    },
    {
      "epoch": 2.678762692258258,
      "grad_norm": 3.925823211669922,
      "learning_rate": 4.439580529094659e-05,
      "loss": 0.3577587127685547,
      "memory(GiB)": 70.5,
      "step": 62525,
      "token_acc": 0.9197080291970803,
      "train_speed(iter/s)": 1.447296
    },
    {
      "epoch": 2.678976907587507,
      "grad_norm": 3.3004872798919678,
      "learning_rate": 4.4389117974682484e-05,
      "loss": 0.5625218391418457,
      "memory(GiB)": 70.5,
      "step": 62530,
      "token_acc": 0.9136212624584718,
      "train_speed(iter/s)": 1.447302
    },
    {
      "epoch": 2.6791911229167558,
      "grad_norm": 3.3272581100463867,
      "learning_rate": 4.4382430760064774e-05,
      "loss": 0.32215204238891604,
      "memory(GiB)": 70.5,
      "step": 62535,
      "token_acc": 0.9370629370629371,
      "train_speed(iter/s)": 1.447306
    },
    {
      "epoch": 2.679405338246005,
      "grad_norm": 4.458067417144775,
      "learning_rate": 4.4375743647214596e-05,
      "loss": 0.3722968101501465,
      "memory(GiB)": 70.5,
      "step": 62540,
      "token_acc": 0.9209621993127147,
      "train_speed(iter/s)": 1.447303
    },
    {
      "epoch": 2.679619553575254,
      "grad_norm": 5.582276344299316,
      "learning_rate": 4.436905663625311e-05,
      "loss": 0.5283791542053222,
      "memory(GiB)": 70.5,
      "step": 62545,
      "token_acc": 0.8785425101214575,
      "train_speed(iter/s)": 1.447309
    },
    {
      "epoch": 2.6798337689045026,
      "grad_norm": 3.107813596725464,
      "learning_rate": 4.436236972730144e-05,
      "loss": 0.5672366619110107,
      "memory(GiB)": 70.5,
      "step": 62550,
      "token_acc": 0.8560311284046692,
      "train_speed(iter/s)": 1.447306
    },
    {
      "epoch": 2.680047984233752,
      "grad_norm": 4.1710591316223145,
      "learning_rate": 4.435568292048072e-05,
      "loss": 0.4705760955810547,
      "memory(GiB)": 70.5,
      "step": 62555,
      "token_acc": 0.8943661971830986,
      "train_speed(iter/s)": 1.447318
    },
    {
      "epoch": 2.6802621995630007,
      "grad_norm": 2.6885411739349365,
      "learning_rate": 4.4348996215912114e-05,
      "loss": 0.3069709062576294,
      "memory(GiB)": 70.5,
      "step": 62560,
      "token_acc": 0.933579335793358,
      "train_speed(iter/s)": 1.447335
    },
    {
      "epoch": 2.6804764148922495,
      "grad_norm": 2.937551259994507,
      "learning_rate": 4.434230961371674e-05,
      "loss": 0.6702749252319335,
      "memory(GiB)": 70.5,
      "step": 62565,
      "token_acc": 0.8981723237597912,
      "train_speed(iter/s)": 1.447337
    },
    {
      "epoch": 2.680690630221499,
      "grad_norm": 4.211277484893799,
      "learning_rate": 4.433562311401571e-05,
      "loss": 0.4159238338470459,
      "memory(GiB)": 70.5,
      "step": 62570,
      "token_acc": 0.9079365079365079,
      "train_speed(iter/s)": 1.447335
    },
    {
      "epoch": 2.6809048455507476,
      "grad_norm": 2.659636974334717,
      "learning_rate": 4.43289367169302e-05,
      "loss": 0.3950314998626709,
      "memory(GiB)": 70.5,
      "step": 62575,
      "token_acc": 0.91875,
      "train_speed(iter/s)": 1.447337
    },
    {
      "epoch": 2.6811190608799964,
      "grad_norm": 3.4124321937561035,
      "learning_rate": 4.4322250422581326e-05,
      "loss": 0.24736375808715821,
      "memory(GiB)": 70.5,
      "step": 62580,
      "token_acc": 0.9434628975265018,
      "train_speed(iter/s)": 1.447333
    },
    {
      "epoch": 2.6813332762092457,
      "grad_norm": 2.8699426651000977,
      "learning_rate": 4.431556423109021e-05,
      "loss": 0.4144914627075195,
      "memory(GiB)": 70.5,
      "step": 62585,
      "token_acc": 0.9069148936170213,
      "train_speed(iter/s)": 1.447344
    },
    {
      "epoch": 2.6815474915384945,
      "grad_norm": 0.2609194219112396,
      "learning_rate": 4.430887814257798e-05,
      "loss": 0.43549046516418455,
      "memory(GiB)": 70.5,
      "step": 62590,
      "token_acc": 0.9177631578947368,
      "train_speed(iter/s)": 1.447346
    },
    {
      "epoch": 2.6817617068677437,
      "grad_norm": 11.140837669372559,
      "learning_rate": 4.430219215716576e-05,
      "loss": 0.26322734355926514,
      "memory(GiB)": 70.5,
      "step": 62595,
      "token_acc": 0.9186440677966101,
      "train_speed(iter/s)": 1.447345
    },
    {
      "epoch": 2.6819759221969925,
      "grad_norm": 3.288661241531372,
      "learning_rate": 4.429550627497467e-05,
      "loss": 0.2932554006576538,
      "memory(GiB)": 70.5,
      "step": 62600,
      "token_acc": 0.927536231884058,
      "train_speed(iter/s)": 1.44735
    },
    {
      "epoch": 2.6821901375262414,
      "grad_norm": 4.707742214202881,
      "learning_rate": 4.428882049612584e-05,
      "loss": 0.4940946102142334,
      "memory(GiB)": 70.5,
      "step": 62605,
      "token_acc": 0.8966565349544073,
      "train_speed(iter/s)": 1.447344
    },
    {
      "epoch": 2.6824043528554906,
      "grad_norm": 3.106504440307617,
      "learning_rate": 4.428213482074039e-05,
      "loss": 0.3149724960327148,
      "memory(GiB)": 70.5,
      "step": 62610,
      "token_acc": 0.9385113268608414,
      "train_speed(iter/s)": 1.447339
    },
    {
      "epoch": 2.6826185681847394,
      "grad_norm": 3.8156683444976807,
      "learning_rate": 4.427544924893941e-05,
      "loss": 0.44593062400817873,
      "memory(GiB)": 70.5,
      "step": 62615,
      "token_acc": 0.937007874015748,
      "train_speed(iter/s)": 1.447344
    },
    {
      "epoch": 2.6828327835139882,
      "grad_norm": 4.160550117492676,
      "learning_rate": 4.426876378084406e-05,
      "loss": 0.4735736846923828,
      "memory(GiB)": 70.5,
      "step": 62620,
      "token_acc": 0.9283489096573209,
      "train_speed(iter/s)": 1.447349
    },
    {
      "epoch": 2.6830469988432375,
      "grad_norm": 2.1456682682037354,
      "learning_rate": 4.426207841657543e-05,
      "loss": 0.4026142120361328,
      "memory(GiB)": 70.5,
      "step": 62625,
      "token_acc": 0.8798586572438163,
      "train_speed(iter/s)": 1.447349
    },
    {
      "epoch": 2.6832612141724863,
      "grad_norm": 3.410428285598755,
      "learning_rate": 4.425539315625462e-05,
      "loss": 0.20670638084411622,
      "memory(GiB)": 70.5,
      "step": 62630,
      "token_acc": 0.947565543071161,
      "train_speed(iter/s)": 1.447367
    },
    {
      "epoch": 2.683475429501735,
      "grad_norm": 4.5037078857421875,
      "learning_rate": 4.424870800000276e-05,
      "loss": 0.35214216709136964,
      "memory(GiB)": 70.5,
      "step": 62635,
      "token_acc": 0.9218241042345277,
      "train_speed(iter/s)": 1.44738
    },
    {
      "epoch": 2.6836896448309844,
      "grad_norm": 6.571510314941406,
      "learning_rate": 4.424202294794093e-05,
      "loss": 0.3896992921829224,
      "memory(GiB)": 70.5,
      "step": 62640,
      "token_acc": 0.9174041297935103,
      "train_speed(iter/s)": 1.447381
    },
    {
      "epoch": 2.683903860160233,
      "grad_norm": 2.7848527431488037,
      "learning_rate": 4.423533800019026e-05,
      "loss": 0.377701997756958,
      "memory(GiB)": 70.5,
      "step": 62645,
      "token_acc": 0.9192307692307692,
      "train_speed(iter/s)": 1.447384
    },
    {
      "epoch": 2.684118075489482,
      "grad_norm": 3.359452724456787,
      "learning_rate": 4.422865315687187e-05,
      "loss": 0.2985809803009033,
      "memory(GiB)": 70.5,
      "step": 62650,
      "token_acc": 0.9222222222222223,
      "train_speed(iter/s)": 1.44739
    },
    {
      "epoch": 2.6843322908187313,
      "grad_norm": 2.0841283798217773,
      "learning_rate": 4.4221968418106844e-05,
      "loss": 0.29588093757629397,
      "memory(GiB)": 70.5,
      "step": 62655,
      "token_acc": 0.948220064724919,
      "train_speed(iter/s)": 1.44739
    },
    {
      "epoch": 2.68454650614798,
      "grad_norm": 0.2556278109550476,
      "learning_rate": 4.421528378401626e-05,
      "loss": 0.22843804359436035,
      "memory(GiB)": 70.5,
      "step": 62660,
      "token_acc": 0.9471698113207547,
      "train_speed(iter/s)": 1.447391
    },
    {
      "epoch": 2.684760721477229,
      "grad_norm": 4.95668888092041,
      "learning_rate": 4.420859925472125e-05,
      "loss": 0.5178972244262695,
      "memory(GiB)": 70.5,
      "step": 62665,
      "token_acc": 0.9099378881987578,
      "train_speed(iter/s)": 1.447404
    },
    {
      "epoch": 2.684974936806478,
      "grad_norm": 3.0805540084838867,
      "learning_rate": 4.42019148303429e-05,
      "loss": 0.753924036026001,
      "memory(GiB)": 70.5,
      "step": 62670,
      "token_acc": 0.8601823708206687,
      "train_speed(iter/s)": 1.447416
    },
    {
      "epoch": 2.685189152135727,
      "grad_norm": 2.0419833660125732,
      "learning_rate": 4.419523051100229e-05,
      "loss": 0.5576873779296875,
      "memory(GiB)": 70.5,
      "step": 62675,
      "token_acc": 0.8766233766233766,
      "train_speed(iter/s)": 1.44743
    },
    {
      "epoch": 2.6854033674649758,
      "grad_norm": 4.344888687133789,
      "learning_rate": 4.418854629682053e-05,
      "loss": 0.5703277111053466,
      "memory(GiB)": 70.5,
      "step": 62680,
      "token_acc": 0.8870431893687708,
      "train_speed(iter/s)": 1.447428
    },
    {
      "epoch": 2.685617582794225,
      "grad_norm": 0.5150325298309326,
      "learning_rate": 4.41818621879187e-05,
      "loss": 0.7700783252716065,
      "memory(GiB)": 70.5,
      "step": 62685,
      "token_acc": 0.8676923076923077,
      "train_speed(iter/s)": 1.447462
    },
    {
      "epoch": 2.685831798123474,
      "grad_norm": 2.055495262145996,
      "learning_rate": 4.41751781844179e-05,
      "loss": 0.07775970101356507,
      "memory(GiB)": 70.5,
      "step": 62690,
      "token_acc": 0.9818181818181818,
      "train_speed(iter/s)": 1.447463
    },
    {
      "epoch": 2.6860460134527226,
      "grad_norm": 1.3722928762435913,
      "learning_rate": 4.416849428643922e-05,
      "loss": 0.5592421054840088,
      "memory(GiB)": 70.5,
      "step": 62695,
      "token_acc": 0.8774373259052924,
      "train_speed(iter/s)": 1.447469
    },
    {
      "epoch": 2.686260228781972,
      "grad_norm": 1.6199452877044678,
      "learning_rate": 4.416181049410372e-05,
      "loss": 0.28538951873779295,
      "memory(GiB)": 70.5,
      "step": 62700,
      "token_acc": 0.9552238805970149,
      "train_speed(iter/s)": 1.447475
    },
    {
      "epoch": 2.6864744441112207,
      "grad_norm": 5.531240463256836,
      "learning_rate": 4.415512680753251e-05,
      "loss": 0.3770728588104248,
      "memory(GiB)": 70.5,
      "step": 62705,
      "token_acc": 0.9377049180327869,
      "train_speed(iter/s)": 1.447477
    },
    {
      "epoch": 2.6866886594404695,
      "grad_norm": 2.096184492111206,
      "learning_rate": 4.414844322684667e-05,
      "loss": 0.3095993518829346,
      "memory(GiB)": 70.5,
      "step": 62710,
      "token_acc": 0.9321533923303835,
      "train_speed(iter/s)": 1.447473
    },
    {
      "epoch": 2.686902874769719,
      "grad_norm": 11.800418853759766,
      "learning_rate": 4.414175975216724e-05,
      "loss": 0.35005435943603513,
      "memory(GiB)": 70.5,
      "step": 62715,
      "token_acc": 0.92,
      "train_speed(iter/s)": 1.447486
    },
    {
      "epoch": 2.6871170900989676,
      "grad_norm": 2.22708797454834,
      "learning_rate": 4.413507638361534e-05,
      "loss": 0.41910924911499026,
      "memory(GiB)": 70.5,
      "step": 62720,
      "token_acc": 0.9170305676855895,
      "train_speed(iter/s)": 1.447493
    },
    {
      "epoch": 2.6873313054282164,
      "grad_norm": 3.320981740951538,
      "learning_rate": 4.412839312131204e-05,
      "loss": 0.5126067638397217,
      "memory(GiB)": 70.5,
      "step": 62725,
      "token_acc": 0.8901515151515151,
      "train_speed(iter/s)": 1.447506
    },
    {
      "epoch": 2.6875455207574657,
      "grad_norm": 1.8621397018432617,
      "learning_rate": 4.41217099653784e-05,
      "loss": 0.4814084529876709,
      "memory(GiB)": 70.5,
      "step": 62730,
      "token_acc": 0.8954248366013072,
      "train_speed(iter/s)": 1.447516
    },
    {
      "epoch": 2.6877597360867145,
      "grad_norm": 3.1632602214813232,
      "learning_rate": 4.411502691593551e-05,
      "loss": 0.4468897819519043,
      "memory(GiB)": 70.5,
      "step": 62735,
      "token_acc": 0.9078014184397163,
      "train_speed(iter/s)": 1.447513
    },
    {
      "epoch": 2.6879739514159633,
      "grad_norm": 2.2920820713043213,
      "learning_rate": 4.410834397310443e-05,
      "loss": 0.25765442848205566,
      "memory(GiB)": 70.5,
      "step": 62740,
      "token_acc": 0.9579579579579579,
      "train_speed(iter/s)": 1.447521
    },
    {
      "epoch": 2.6881881667452125,
      "grad_norm": 2.7502663135528564,
      "learning_rate": 4.410166113700621e-05,
      "loss": 0.6375481605529785,
      "memory(GiB)": 70.5,
      "step": 62745,
      "token_acc": 0.8556701030927835,
      "train_speed(iter/s)": 1.447529
    },
    {
      "epoch": 2.6884023820744614,
      "grad_norm": 0.7795251607894897,
      "learning_rate": 4.4094978407761936e-05,
      "loss": 0.3453514099121094,
      "memory(GiB)": 70.5,
      "step": 62750,
      "token_acc": 0.916,
      "train_speed(iter/s)": 1.44753
    },
    {
      "epoch": 2.68861659740371,
      "grad_norm": 3.6598055362701416,
      "learning_rate": 4.408829578549268e-05,
      "loss": 0.2537302255630493,
      "memory(GiB)": 70.5,
      "step": 62755,
      "token_acc": 0.937007874015748,
      "train_speed(iter/s)": 1.447528
    },
    {
      "epoch": 2.6888308127329594,
      "grad_norm": 3.3972690105438232,
      "learning_rate": 4.4081613270319476e-05,
      "loss": 0.3418891429901123,
      "memory(GiB)": 70.5,
      "step": 62760,
      "token_acc": 0.910394265232975,
      "train_speed(iter/s)": 1.447522
    },
    {
      "epoch": 2.6890450280622082,
      "grad_norm": 2.679300546646118,
      "learning_rate": 4.407493086236341e-05,
      "loss": 0.35912585258483887,
      "memory(GiB)": 70.5,
      "step": 62765,
      "token_acc": 0.90234375,
      "train_speed(iter/s)": 1.447518
    },
    {
      "epoch": 2.689259243391457,
      "grad_norm": 3.471464157104492,
      "learning_rate": 4.406824856174552e-05,
      "loss": 0.2813483715057373,
      "memory(GiB)": 70.5,
      "step": 62770,
      "token_acc": 0.9335548172757475,
      "train_speed(iter/s)": 1.447526
    },
    {
      "epoch": 2.6894734587207063,
      "grad_norm": 5.069715976715088,
      "learning_rate": 4.406156636858688e-05,
      "loss": 0.35245299339294434,
      "memory(GiB)": 70.5,
      "step": 62775,
      "token_acc": 0.9238754325259516,
      "train_speed(iter/s)": 1.447525
    },
    {
      "epoch": 2.689687674049955,
      "grad_norm": 2.847865104675293,
      "learning_rate": 4.4054884283008534e-05,
      "loss": 0.3333984375,
      "memory(GiB)": 70.5,
      "step": 62780,
      "token_acc": 0.9333333333333333,
      "train_speed(iter/s)": 1.447521
    },
    {
      "epoch": 2.689901889379204,
      "grad_norm": 2.9036197662353516,
      "learning_rate": 4.404820230513153e-05,
      "loss": 0.6692329406738281,
      "memory(GiB)": 70.5,
      "step": 62785,
      "token_acc": 0.8627450980392157,
      "train_speed(iter/s)": 1.447535
    },
    {
      "epoch": 2.690116104708453,
      "grad_norm": 3.0980613231658936,
      "learning_rate": 4.404152043507692e-05,
      "loss": 0.28593313694000244,
      "memory(GiB)": 70.5,
      "step": 62790,
      "token_acc": 0.9365079365079365,
      "train_speed(iter/s)": 1.447543
    },
    {
      "epoch": 2.690330320037702,
      "grad_norm": 0.02017628401517868,
      "learning_rate": 4.4034838672965764e-05,
      "loss": 0.3849677801132202,
      "memory(GiB)": 70.5,
      "step": 62795,
      "token_acc": 0.9254658385093167,
      "train_speed(iter/s)": 1.447546
    },
    {
      "epoch": 2.690544535366951,
      "grad_norm": 4.203407287597656,
      "learning_rate": 4.4028157018919106e-05,
      "loss": 0.3528479814529419,
      "memory(GiB)": 70.5,
      "step": 62800,
      "token_acc": 0.909433962264151,
      "train_speed(iter/s)": 1.447539
    },
    {
      "epoch": 2.6907587506962,
      "grad_norm": 3.6012959480285645,
      "learning_rate": 4.4021475473057984e-05,
      "loss": 0.3061349391937256,
      "memory(GiB)": 70.5,
      "step": 62805,
      "token_acc": 0.9246575342465754,
      "train_speed(iter/s)": 1.447539
    },
    {
      "epoch": 2.690972966025449,
      "grad_norm": 6.448614120483398,
      "learning_rate": 4.401479403550344e-05,
      "loss": 0.2852522850036621,
      "memory(GiB)": 70.5,
      "step": 62810,
      "token_acc": 0.9312977099236641,
      "train_speed(iter/s)": 1.447549
    },
    {
      "epoch": 2.6911871813546977,
      "grad_norm": 3.053342819213867,
      "learning_rate": 4.400811270637652e-05,
      "loss": 0.19390342235565186,
      "memory(GiB)": 70.5,
      "step": 62815,
      "token_acc": 0.9611940298507463,
      "train_speed(iter/s)": 1.447549
    },
    {
      "epoch": 2.691401396683947,
      "grad_norm": 3.524334669113159,
      "learning_rate": 4.400143148579826e-05,
      "loss": 0.665482473373413,
      "memory(GiB)": 70.5,
      "step": 62820,
      "token_acc": 0.875,
      "train_speed(iter/s)": 1.447546
    },
    {
      "epoch": 2.6916156120131958,
      "grad_norm": 0.8630567789077759,
      "learning_rate": 4.399475037388969e-05,
      "loss": 0.23399031162261963,
      "memory(GiB)": 70.5,
      "step": 62825,
      "token_acc": 0.9416058394160584,
      "train_speed(iter/s)": 1.44755
    },
    {
      "epoch": 2.6918298273424446,
      "grad_norm": 1.3126429319381714,
      "learning_rate": 4.398806937077185e-05,
      "loss": 0.31683566570281985,
      "memory(GiB)": 70.5,
      "step": 62830,
      "token_acc": 0.9405940594059405,
      "train_speed(iter/s)": 1.447549
    },
    {
      "epoch": 2.692044042671694,
      "grad_norm": 2.459117889404297,
      "learning_rate": 4.398138847656578e-05,
      "loss": 0.5016665458679199,
      "memory(GiB)": 70.5,
      "step": 62835,
      "token_acc": 0.8722741433021807,
      "train_speed(iter/s)": 1.447563
    },
    {
      "epoch": 2.6922582580009427,
      "grad_norm": 1.3627525568008423,
      "learning_rate": 4.3974707691392503e-05,
      "loss": 0.3127125263214111,
      "memory(GiB)": 70.5,
      "step": 62840,
      "token_acc": 0.9365558912386707,
      "train_speed(iter/s)": 1.447564
    },
    {
      "epoch": 2.6924724733301915,
      "grad_norm": 2.897458076477051,
      "learning_rate": 4.396802701537304e-05,
      "loss": 0.40622668266296386,
      "memory(GiB)": 70.5,
      "step": 62845,
      "token_acc": 0.9121621621621622,
      "train_speed(iter/s)": 1.447565
    },
    {
      "epoch": 2.6926866886594407,
      "grad_norm": 2.681706190109253,
      "learning_rate": 4.396134644862844e-05,
      "loss": 0.33518352508544924,
      "memory(GiB)": 70.5,
      "step": 62850,
      "token_acc": 0.9488054607508533,
      "train_speed(iter/s)": 1.447574
    },
    {
      "epoch": 2.6929009039886895,
      "grad_norm": 6.306046485900879,
      "learning_rate": 4.395466599127971e-05,
      "loss": 0.4672982692718506,
      "memory(GiB)": 70.5,
      "step": 62855,
      "token_acc": 0.8905775075987842,
      "train_speed(iter/s)": 1.447576
    },
    {
      "epoch": 2.6931151193179383,
      "grad_norm": 4.770489692687988,
      "learning_rate": 4.3947985643447866e-05,
      "loss": 0.26877219676971437,
      "memory(GiB)": 70.5,
      "step": 62860,
      "token_acc": 0.9228187919463087,
      "train_speed(iter/s)": 1.447594
    },
    {
      "epoch": 2.6933293346471876,
      "grad_norm": 3.2695963382720947,
      "learning_rate": 4.394130540525392e-05,
      "loss": 0.32145204544067385,
      "memory(GiB)": 70.5,
      "step": 62865,
      "token_acc": 0.9195402298850575,
      "train_speed(iter/s)": 1.447594
    },
    {
      "epoch": 2.6935435499764364,
      "grad_norm": 4.191781520843506,
      "learning_rate": 4.393462527681894e-05,
      "loss": 0.4408303737640381,
      "memory(GiB)": 70.5,
      "step": 62870,
      "token_acc": 0.8831168831168831,
      "train_speed(iter/s)": 1.447608
    },
    {
      "epoch": 2.6937577653056852,
      "grad_norm": 7.554002285003662,
      "learning_rate": 4.39279452582639e-05,
      "loss": 0.43377046585083007,
      "memory(GiB)": 70.5,
      "step": 62875,
      "token_acc": 0.9228395061728395,
      "train_speed(iter/s)": 1.447624
    },
    {
      "epoch": 2.6939719806349345,
      "grad_norm": 3.4975521564483643,
      "learning_rate": 4.3921265349709844e-05,
      "loss": 0.39728431701660155,
      "memory(GiB)": 70.5,
      "step": 62880,
      "token_acc": 0.9105960264900662,
      "train_speed(iter/s)": 1.447621
    },
    {
      "epoch": 2.6941861959641833,
      "grad_norm": 6.700943946838379,
      "learning_rate": 4.391458555127777e-05,
      "loss": 0.3234791994094849,
      "memory(GiB)": 70.5,
      "step": 62885,
      "token_acc": 0.9283018867924528,
      "train_speed(iter/s)": 1.447624
    },
    {
      "epoch": 2.694400411293432,
      "grad_norm": 4.013463020324707,
      "learning_rate": 4.390790586308867e-05,
      "loss": 0.4613466262817383,
      "memory(GiB)": 70.5,
      "step": 62890,
      "token_acc": 0.9064748201438849,
      "train_speed(iter/s)": 1.447648
    },
    {
      "epoch": 2.6946146266226814,
      "grad_norm": 4.478011131286621,
      "learning_rate": 4.390122628526358e-05,
      "loss": 0.8812132835388183,
      "memory(GiB)": 70.5,
      "step": 62895,
      "token_acc": 0.8361774744027304,
      "train_speed(iter/s)": 1.447665
    },
    {
      "epoch": 2.69482884195193,
      "grad_norm": 3.2755448818206787,
      "learning_rate": 4.38945468179235e-05,
      "loss": 0.3072239398956299,
      "memory(GiB)": 70.5,
      "step": 62900,
      "token_acc": 0.9415807560137457,
      "train_speed(iter/s)": 1.447669
    },
    {
      "epoch": 2.695043057281179,
      "grad_norm": 4.341145992279053,
      "learning_rate": 4.3887867461189416e-05,
      "loss": 0.3014104127883911,
      "memory(GiB)": 70.5,
      "step": 62905,
      "token_acc": 0.9457364341085271,
      "train_speed(iter/s)": 1.447665
    },
    {
      "epoch": 2.6952572726104282,
      "grad_norm": 5.72363805770874,
      "learning_rate": 4.388118821518236e-05,
      "loss": 0.2478041648864746,
      "memory(GiB)": 70.5,
      "step": 62910,
      "token_acc": 0.9416058394160584,
      "train_speed(iter/s)": 1.447675
    },
    {
      "epoch": 2.695471487939677,
      "grad_norm": 2.1828114986419678,
      "learning_rate": 4.3874509080023315e-05,
      "loss": 0.3195215702056885,
      "memory(GiB)": 70.5,
      "step": 62915,
      "token_acc": 0.9057239057239057,
      "train_speed(iter/s)": 1.447674
    },
    {
      "epoch": 2.695685703268926,
      "grad_norm": 4.725935935974121,
      "learning_rate": 4.3867830055833284e-05,
      "loss": 0.49680542945861816,
      "memory(GiB)": 70.5,
      "step": 62920,
      "token_acc": 0.875,
      "train_speed(iter/s)": 1.447668
    },
    {
      "epoch": 2.695899918598175,
      "grad_norm": 4.044095039367676,
      "learning_rate": 4.386115114273328e-05,
      "loss": 0.41925849914550783,
      "memory(GiB)": 70.5,
      "step": 62925,
      "token_acc": 0.9178082191780822,
      "train_speed(iter/s)": 1.447662
    },
    {
      "epoch": 2.696114133927424,
      "grad_norm": 6.429652690887451,
      "learning_rate": 4.385447234084426e-05,
      "loss": 0.40684189796447756,
      "memory(GiB)": 70.5,
      "step": 62930,
      "token_acc": 0.9288537549407114,
      "train_speed(iter/s)": 1.447666
    },
    {
      "epoch": 2.6963283492566728,
      "grad_norm": 0.6925517320632935,
      "learning_rate": 4.384779365028722e-05,
      "loss": 0.14581238031387328,
      "memory(GiB)": 70.5,
      "step": 62935,
      "token_acc": 0.9625468164794008,
      "train_speed(iter/s)": 1.447665
    },
    {
      "epoch": 2.696542564585922,
      "grad_norm": 2.2698352336883545,
      "learning_rate": 4.38411150711832e-05,
      "loss": 0.3435510635375977,
      "memory(GiB)": 70.5,
      "step": 62940,
      "token_acc": 0.9204152249134948,
      "train_speed(iter/s)": 1.44767
    },
    {
      "epoch": 2.696756779915171,
      "grad_norm": 6.57139778137207,
      "learning_rate": 4.383443660365316e-05,
      "loss": 0.3891897201538086,
      "memory(GiB)": 70.5,
      "step": 62945,
      "token_acc": 0.9101123595505618,
      "train_speed(iter/s)": 1.447666
    },
    {
      "epoch": 2.6969709952444196,
      "grad_norm": 2.77087664604187,
      "learning_rate": 4.3827758247818075e-05,
      "loss": 0.20450782775878906,
      "memory(GiB)": 70.5,
      "step": 62950,
      "token_acc": 0.954248366013072,
      "train_speed(iter/s)": 1.447661
    },
    {
      "epoch": 2.697185210573669,
      "grad_norm": 5.028747081756592,
      "learning_rate": 4.382108000379894e-05,
      "loss": 0.4343697547912598,
      "memory(GiB)": 70.5,
      "step": 62955,
      "token_acc": 0.8971631205673759,
      "train_speed(iter/s)": 1.447657
    },
    {
      "epoch": 2.6973994259029177,
      "grad_norm": 0.08896806091070175,
      "learning_rate": 4.381440187171675e-05,
      "loss": 0.3048293113708496,
      "memory(GiB)": 70.5,
      "step": 62960,
      "token_acc": 0.9337748344370861,
      "train_speed(iter/s)": 1.447657
    },
    {
      "epoch": 2.6976136412321665,
      "grad_norm": 5.543375492095947,
      "learning_rate": 4.380772385169245e-05,
      "loss": 0.5845470905303956,
      "memory(GiB)": 70.5,
      "step": 62965,
      "token_acc": 0.8576642335766423,
      "train_speed(iter/s)": 1.447668
    },
    {
      "epoch": 2.6978278565614158,
      "grad_norm": 1.4817026853561401,
      "learning_rate": 4.3801045943847064e-05,
      "loss": 0.22683207988739013,
      "memory(GiB)": 70.5,
      "step": 62970,
      "token_acc": 0.9494949494949495,
      "train_speed(iter/s)": 1.447666
    },
    {
      "epoch": 2.6980420718906646,
      "grad_norm": 7.120710372924805,
      "learning_rate": 4.3794368148301525e-05,
      "loss": 0.49210367202758787,
      "memory(GiB)": 70.5,
      "step": 62975,
      "token_acc": 0.8804347826086957,
      "train_speed(iter/s)": 1.447668
    },
    {
      "epoch": 2.6982562872199134,
      "grad_norm": 2.2951016426086426,
      "learning_rate": 4.378769046517685e-05,
      "loss": 0.30957343578338625,
      "memory(GiB)": 70.5,
      "step": 62980,
      "token_acc": 0.9290780141843972,
      "train_speed(iter/s)": 1.447666
    },
    {
      "epoch": 2.6984705025491627,
      "grad_norm": 3.5682291984558105,
      "learning_rate": 4.3781012894593975e-05,
      "loss": 0.30461099147796633,
      "memory(GiB)": 70.5,
      "step": 62985,
      "token_acc": 0.9363957597173145,
      "train_speed(iter/s)": 1.447668
    },
    {
      "epoch": 2.6986847178784115,
      "grad_norm": 3.3019087314605713,
      "learning_rate": 4.377433543667388e-05,
      "loss": 0.3384881496429443,
      "memory(GiB)": 70.5,
      "step": 62990,
      "token_acc": 0.9463722397476341,
      "train_speed(iter/s)": 1.447668
    },
    {
      "epoch": 2.6988989332076603,
      "grad_norm": 6.223130226135254,
      "learning_rate": 4.376765809153755e-05,
      "loss": 0.504764461517334,
      "memory(GiB)": 70.5,
      "step": 62995,
      "token_acc": 0.9030303030303031,
      "train_speed(iter/s)": 1.447663
    },
    {
      "epoch": 2.6991131485369095,
      "grad_norm": 4.839898586273193,
      "learning_rate": 4.376098085930594e-05,
      "loss": 0.4773582935333252,
      "memory(GiB)": 70.5,
      "step": 63000,
      "token_acc": 0.9090909090909091,
      "train_speed(iter/s)": 1.447666
    },
    {
      "epoch": 2.6991131485369095,
      "eval_loss": 2.6757211685180664,
      "eval_runtime": 14.0026,
      "eval_samples_per_second": 7.142,
      "eval_steps_per_second": 7.142,
      "eval_token_acc": 0.4282178217821782,
      "step": 63000
    },
    {
      "epoch": 2.6993273638661583,
      "grad_norm": 4.911745071411133,
      "learning_rate": 4.375430374010001e-05,
      "loss": 0.40027856826782227,
      "memory(GiB)": 70.5,
      "step": 63005,
      "token_acc": 0.5459662288930581,
      "train_speed(iter/s)": 1.44718
    },
    {
      "epoch": 2.699541579195407,
      "grad_norm": 1.2048588991165161,
      "learning_rate": 4.3747626734040716e-05,
      "loss": 0.17251538038253783,
      "memory(GiB)": 70.5,
      "step": 63010,
      "token_acc": 0.9486404833836858,
      "train_speed(iter/s)": 1.447173
    },
    {
      "epoch": 2.6997557945246564,
      "grad_norm": 2.815121650695801,
      "learning_rate": 4.374094984124904e-05,
      "loss": 0.7350337505340576,
      "memory(GiB)": 70.5,
      "step": 63015,
      "token_acc": 0.8402555910543131,
      "train_speed(iter/s)": 1.447188
    },
    {
      "epoch": 2.6999700098539052,
      "grad_norm": 4.631516456604004,
      "learning_rate": 4.3734273061845926e-05,
      "loss": 0.42221593856811523,
      "memory(GiB)": 70.5,
      "step": 63020,
      "token_acc": 0.8947368421052632,
      "train_speed(iter/s)": 1.447194
    },
    {
      "epoch": 2.700184225183154,
      "grad_norm": 2.4700801372528076,
      "learning_rate": 4.372759639595234e-05,
      "loss": 0.2731067419052124,
      "memory(GiB)": 70.5,
      "step": 63025,
      "token_acc": 0.9467680608365019,
      "train_speed(iter/s)": 1.447201
    },
    {
      "epoch": 2.7003984405124033,
      "grad_norm": 3.4681127071380615,
      "learning_rate": 4.3720919843689236e-05,
      "loss": 0.15780282020568848,
      "memory(GiB)": 70.5,
      "step": 63030,
      "token_acc": 0.9592592592592593,
      "train_speed(iter/s)": 1.447194
    },
    {
      "epoch": 2.700612655841652,
      "grad_norm": 0.08073275536298752,
      "learning_rate": 4.371424340517754e-05,
      "loss": 0.2566578149795532,
      "memory(GiB)": 70.5,
      "step": 63035,
      "token_acc": 0.9473684210526315,
      "train_speed(iter/s)": 1.447173
    },
    {
      "epoch": 2.700826871170901,
      "grad_norm": 4.326213836669922,
      "learning_rate": 4.3707567080538235e-05,
      "loss": 0.35116479396820066,
      "memory(GiB)": 70.5,
      "step": 63040,
      "token_acc": 0.9338235294117647,
      "train_speed(iter/s)": 1.447183
    },
    {
      "epoch": 2.70104108650015,
      "grad_norm": 3.23868989944458,
      "learning_rate": 4.370089086989225e-05,
      "loss": 0.484804105758667,
      "memory(GiB)": 70.5,
      "step": 63045,
      "token_acc": 0.896551724137931,
      "train_speed(iter/s)": 1.447185
    },
    {
      "epoch": 2.701255301829399,
      "grad_norm": 4.342711448669434,
      "learning_rate": 4.369421477336054e-05,
      "loss": 0.3775313138961792,
      "memory(GiB)": 70.5,
      "step": 63050,
      "token_acc": 0.9081272084805654,
      "train_speed(iter/s)": 1.447195
    },
    {
      "epoch": 2.701469517158648,
      "grad_norm": 0.6932234764099121,
      "learning_rate": 4.368753879106404e-05,
      "loss": 0.15355197191238404,
      "memory(GiB)": 70.5,
      "step": 63055,
      "token_acc": 0.9473684210526315,
      "train_speed(iter/s)": 1.447201
    },
    {
      "epoch": 2.701683732487897,
      "grad_norm": 1.7476184368133545,
      "learning_rate": 4.368086292312369e-05,
      "loss": 0.35852599143981934,
      "memory(GiB)": 70.5,
      "step": 63060,
      "token_acc": 0.92,
      "train_speed(iter/s)": 1.447199
    },
    {
      "epoch": 2.701897947817146,
      "grad_norm": 2.707198143005371,
      "learning_rate": 4.367418716966045e-05,
      "loss": 0.33435373306274413,
      "memory(GiB)": 70.5,
      "step": 63065,
      "token_acc": 0.9351535836177475,
      "train_speed(iter/s)": 1.447196
    },
    {
      "epoch": 2.7021121631463947,
      "grad_norm": 1.8437947034835815,
      "learning_rate": 4.366751153079525e-05,
      "loss": 0.20994036197662352,
      "memory(GiB)": 70.5,
      "step": 63070,
      "token_acc": 0.9628252788104089,
      "train_speed(iter/s)": 1.447204
    },
    {
      "epoch": 2.702326378475644,
      "grad_norm": 4.162490367889404,
      "learning_rate": 4.3660836006649e-05,
      "loss": 0.40768895149230955,
      "memory(GiB)": 70.5,
      "step": 63075,
      "token_acc": 0.9201277955271565,
      "train_speed(iter/s)": 1.447216
    },
    {
      "epoch": 2.7025405938048928,
      "grad_norm": 4.4268903732299805,
      "learning_rate": 4.365416059734266e-05,
      "loss": 0.34325194358825684,
      "memory(GiB)": 70.5,
      "step": 63080,
      "token_acc": 0.9183673469387755,
      "train_speed(iter/s)": 1.447215
    },
    {
      "epoch": 2.7027548091341416,
      "grad_norm": 4.833093643188477,
      "learning_rate": 4.364748530299714e-05,
      "loss": 0.557254695892334,
      "memory(GiB)": 70.5,
      "step": 63085,
      "token_acc": 0.9068100358422939,
      "train_speed(iter/s)": 1.447219
    },
    {
      "epoch": 2.702969024463391,
      "grad_norm": 6.19686222076416,
      "learning_rate": 4.364081012373339e-05,
      "loss": 0.3484412431716919,
      "memory(GiB)": 70.5,
      "step": 63090,
      "token_acc": 0.9205298013245033,
      "train_speed(iter/s)": 1.44722
    },
    {
      "epoch": 2.7031832397926396,
      "grad_norm": 4.593024253845215,
      "learning_rate": 4.363413505967233e-05,
      "loss": 0.3468609094619751,
      "memory(GiB)": 70.5,
      "step": 63095,
      "token_acc": 0.9194139194139194,
      "train_speed(iter/s)": 1.447233
    },
    {
      "epoch": 2.7033974551218884,
      "grad_norm": 0.3892802298069,
      "learning_rate": 4.36274601109349e-05,
      "loss": 0.18218854665756226,
      "memory(GiB)": 70.5,
      "step": 63100,
      "token_acc": 0.9463087248322147,
      "train_speed(iter/s)": 1.447229
    },
    {
      "epoch": 2.7036116704511377,
      "grad_norm": 1.1087315082550049,
      "learning_rate": 4.3620785277642004e-05,
      "loss": 0.21635661125183106,
      "memory(GiB)": 70.5,
      "step": 63105,
      "token_acc": 0.9540229885057471,
      "train_speed(iter/s)": 1.447229
    },
    {
      "epoch": 2.7038258857803865,
      "grad_norm": 3.458427906036377,
      "learning_rate": 4.3614110559914555e-05,
      "loss": 0.3509517669677734,
      "memory(GiB)": 70.5,
      "step": 63110,
      "token_acc": 0.933993399339934,
      "train_speed(iter/s)": 1.447232
    },
    {
      "epoch": 2.7040401011096353,
      "grad_norm": 3.0557100772857666,
      "learning_rate": 4.360743595787349e-05,
      "loss": 0.4397778034210205,
      "memory(GiB)": 70.5,
      "step": 63115,
      "token_acc": 0.8986928104575164,
      "train_speed(iter/s)": 1.44722
    },
    {
      "epoch": 2.7042543164388846,
      "grad_norm": 4.620411396026611,
      "learning_rate": 4.360076147163972e-05,
      "loss": 0.34035615921020507,
      "memory(GiB)": 70.5,
      "step": 63120,
      "token_acc": 0.9347079037800687,
      "train_speed(iter/s)": 1.447213
    },
    {
      "epoch": 2.7044685317681334,
      "grad_norm": 5.604130268096924,
      "learning_rate": 4.3594087101334164e-05,
      "loss": 0.3975877046585083,
      "memory(GiB)": 70.5,
      "step": 63125,
      "token_acc": 0.9256965944272446,
      "train_speed(iter/s)": 1.447218
    },
    {
      "epoch": 2.704682747097382,
      "grad_norm": 3.9504542350769043,
      "learning_rate": 4.3587412847077726e-05,
      "loss": 0.5005442142486572,
      "memory(GiB)": 70.5,
      "step": 63130,
      "token_acc": 0.903125,
      "train_speed(iter/s)": 1.447226
    },
    {
      "epoch": 2.7048969624266315,
      "grad_norm": 2.3871257305145264,
      "learning_rate": 4.358073870899131e-05,
      "loss": 0.11631497144699096,
      "memory(GiB)": 70.5,
      "step": 63135,
      "token_acc": 0.9713375796178344,
      "train_speed(iter/s)": 1.447231
    },
    {
      "epoch": 2.7051111777558803,
      "grad_norm": 2.9666812419891357,
      "learning_rate": 4.3574064687195846e-05,
      "loss": 0.31323943138122556,
      "memory(GiB)": 70.5,
      "step": 63140,
      "token_acc": 0.9348659003831418,
      "train_speed(iter/s)": 1.447238
    },
    {
      "epoch": 2.705325393085129,
      "grad_norm": 3.550665855407715,
      "learning_rate": 4.356739078181223e-05,
      "loss": 0.30730609893798827,
      "memory(GiB)": 70.5,
      "step": 63145,
      "token_acc": 0.9269102990033222,
      "train_speed(iter/s)": 1.447233
    },
    {
      "epoch": 2.7055396084143783,
      "grad_norm": 3.079688310623169,
      "learning_rate": 4.356071699296135e-05,
      "loss": 0.28371553421020507,
      "memory(GiB)": 70.5,
      "step": 63150,
      "token_acc": 0.95,
      "train_speed(iter/s)": 1.447247
    },
    {
      "epoch": 2.705753823743627,
      "grad_norm": 4.671093940734863,
      "learning_rate": 4.3554043320764134e-05,
      "loss": 0.5016465663909913,
      "memory(GiB)": 70.5,
      "step": 63155,
      "token_acc": 0.9,
      "train_speed(iter/s)": 1.447249
    },
    {
      "epoch": 2.705968039072876,
      "grad_norm": 2.204268455505371,
      "learning_rate": 4.354736976534145e-05,
      "loss": 0.42434234619140626,
      "memory(GiB)": 70.5,
      "step": 63160,
      "token_acc": 0.9108910891089109,
      "train_speed(iter/s)": 1.447251
    },
    {
      "epoch": 2.7061822544021252,
      "grad_norm": 1.8168326616287231,
      "learning_rate": 4.354069632681423e-05,
      "loss": 0.6371042251586914,
      "memory(GiB)": 70.5,
      "step": 63165,
      "token_acc": 0.8743016759776536,
      "train_speed(iter/s)": 1.447275
    },
    {
      "epoch": 2.706396469731374,
      "grad_norm": 4.034434795379639,
      "learning_rate": 4.353402300530336e-05,
      "loss": 0.4516075611114502,
      "memory(GiB)": 70.5,
      "step": 63170,
      "token_acc": 0.9060150375939849,
      "train_speed(iter/s)": 1.447272
    },
    {
      "epoch": 2.706610685060623,
      "grad_norm": 3.790156602859497,
      "learning_rate": 4.352734980092973e-05,
      "loss": 0.5216668605804443,
      "memory(GiB)": 70.5,
      "step": 63175,
      "token_acc": 0.9011627906976745,
      "train_speed(iter/s)": 1.447285
    },
    {
      "epoch": 2.706824900389872,
      "grad_norm": 4.36681604385376,
      "learning_rate": 4.352067671381422e-05,
      "loss": 0.5129871845245362,
      "memory(GiB)": 70.5,
      "step": 63180,
      "token_acc": 0.9049295774647887,
      "train_speed(iter/s)": 1.4473
    },
    {
      "epoch": 2.707039115719121,
      "grad_norm": 3.076903820037842,
      "learning_rate": 4.3514003744077745e-05,
      "loss": 0.23592181205749513,
      "memory(GiB)": 70.5,
      "step": 63185,
      "token_acc": 0.930379746835443,
      "train_speed(iter/s)": 1.447303
    },
    {
      "epoch": 2.7072533310483697,
      "grad_norm": 6.116319179534912,
      "learning_rate": 4.350733089184117e-05,
      "loss": 0.25504231452941895,
      "memory(GiB)": 70.5,
      "step": 63190,
      "token_acc": 0.9311594202898551,
      "train_speed(iter/s)": 1.447302
    },
    {
      "epoch": 2.707467546377619,
      "grad_norm": 8.163044929504395,
      "learning_rate": 4.3500658157225375e-05,
      "loss": 0.39110240936279295,
      "memory(GiB)": 70.5,
      "step": 63195,
      "token_acc": 0.921146953405018,
      "train_speed(iter/s)": 1.447301
    },
    {
      "epoch": 2.707681761706868,
      "grad_norm": 0.26342299580574036,
      "learning_rate": 4.3493985540351265e-05,
      "loss": 0.33121671676635744,
      "memory(GiB)": 70.5,
      "step": 63200,
      "token_acc": 0.9302325581395349,
      "train_speed(iter/s)": 1.447302
    },
    {
      "epoch": 2.7078959770361166,
      "grad_norm": 1.835461974143982,
      "learning_rate": 4.34873130413397e-05,
      "loss": 0.33591859340667723,
      "memory(GiB)": 70.5,
      "step": 63205,
      "token_acc": 0.9448051948051948,
      "train_speed(iter/s)": 1.447306
    },
    {
      "epoch": 2.708110192365366,
      "grad_norm": 2.737363338470459,
      "learning_rate": 4.348064066031159e-05,
      "loss": 0.47972941398620605,
      "memory(GiB)": 70.5,
      "step": 63210,
      "token_acc": 0.8875,
      "train_speed(iter/s)": 1.447298
    },
    {
      "epoch": 2.7083244076946147,
      "grad_norm": 4.43945837020874,
      "learning_rate": 4.3473968397387774e-05,
      "loss": 0.3023594856262207,
      "memory(GiB)": 70.5,
      "step": 63215,
      "token_acc": 0.9194139194139194,
      "train_speed(iter/s)": 1.447287
    },
    {
      "epoch": 2.7085386230238635,
      "grad_norm": 3.2999284267425537,
      "learning_rate": 4.3467296252689144e-05,
      "loss": 0.24434220790863037,
      "memory(GiB)": 70.5,
      "step": 63220,
      "token_acc": 0.9397163120567376,
      "train_speed(iter/s)": 1.447284
    },
    {
      "epoch": 2.7087528383531128,
      "grad_norm": 1.298545002937317,
      "learning_rate": 4.3460624226336576e-05,
      "loss": 0.23886899948120116,
      "memory(GiB)": 70.5,
      "step": 63225,
      "token_acc": 0.9417808219178082,
      "train_speed(iter/s)": 1.447288
    },
    {
      "epoch": 2.7089670536823616,
      "grad_norm": 5.507147789001465,
      "learning_rate": 4.345395231845094e-05,
      "loss": 0.5268346309661865,
      "memory(GiB)": 70.5,
      "step": 63230,
      "token_acc": 0.8857142857142857,
      "train_speed(iter/s)": 1.447293
    },
    {
      "epoch": 2.7091812690116104,
      "grad_norm": 5.395366668701172,
      "learning_rate": 4.344728052915307e-05,
      "loss": 0.3226576089859009,
      "memory(GiB)": 70.5,
      "step": 63235,
      "token_acc": 0.9355932203389831,
      "train_speed(iter/s)": 1.447285
    },
    {
      "epoch": 2.7093954843408596,
      "grad_norm": 2.7400753498077393,
      "learning_rate": 4.344060885856387e-05,
      "loss": 0.2315037727355957,
      "memory(GiB)": 70.5,
      "step": 63240,
      "token_acc": 0.9366197183098591,
      "train_speed(iter/s)": 1.447275
    },
    {
      "epoch": 2.7096096996701085,
      "grad_norm": 2.813922643661499,
      "learning_rate": 4.343393730680421e-05,
      "loss": 0.2222830295562744,
      "memory(GiB)": 70.5,
      "step": 63245,
      "token_acc": 0.9511278195488722,
      "train_speed(iter/s)": 1.447282
    },
    {
      "epoch": 2.7098239149993573,
      "grad_norm": 5.465986251831055,
      "learning_rate": 4.3427265873994935e-05,
      "loss": 0.635386610031128,
      "memory(GiB)": 70.5,
      "step": 63250,
      "token_acc": 0.8623481781376519,
      "train_speed(iter/s)": 1.447279
    },
    {
      "epoch": 2.7100381303286065,
      "grad_norm": 0.40652868151664734,
      "learning_rate": 4.342059456025689e-05,
      "loss": 0.22955875396728515,
      "memory(GiB)": 70.5,
      "step": 63255,
      "token_acc": 0.9407665505226481,
      "train_speed(iter/s)": 1.447279
    },
    {
      "epoch": 2.7102523456578553,
      "grad_norm": 3.083129644393921,
      "learning_rate": 4.341392336571096e-05,
      "loss": 0.4051100730895996,
      "memory(GiB)": 70.5,
      "step": 63260,
      "token_acc": 0.8875,
      "train_speed(iter/s)": 1.447294
    },
    {
      "epoch": 2.710466560987104,
      "grad_norm": 6.798651695251465,
      "learning_rate": 4.340725229047797e-05,
      "loss": 0.7617060661315918,
      "memory(GiB)": 70.5,
      "step": 63265,
      "token_acc": 0.8565891472868217,
      "train_speed(iter/s)": 1.447306
    },
    {
      "epoch": 2.7106807763163534,
      "grad_norm": 2.3345556259155273,
      "learning_rate": 4.3400581334678805e-05,
      "loss": 0.49373736381530764,
      "memory(GiB)": 70.5,
      "step": 63270,
      "token_acc": 0.8980392156862745,
      "train_speed(iter/s)": 1.44731
    },
    {
      "epoch": 2.710894991645602,
      "grad_norm": 4.784095287322998,
      "learning_rate": 4.33939104984343e-05,
      "loss": 0.5778711318969727,
      "memory(GiB)": 70.5,
      "step": 63275,
      "token_acc": 0.8870292887029289,
      "train_speed(iter/s)": 1.447319
    },
    {
      "epoch": 2.711109206974851,
      "grad_norm": 10.476367950439453,
      "learning_rate": 4.338723978186529e-05,
      "loss": 0.3944443464279175,
      "memory(GiB)": 70.5,
      "step": 63280,
      "token_acc": 0.9144981412639405,
      "train_speed(iter/s)": 1.447319
    },
    {
      "epoch": 2.7113234223041003,
      "grad_norm": 3.3069252967834473,
      "learning_rate": 4.338056918509265e-05,
      "loss": 0.2422435998916626,
      "memory(GiB)": 70.5,
      "step": 63285,
      "token_acc": 0.9608540925266904,
      "train_speed(iter/s)": 1.447324
    },
    {
      "epoch": 2.711537637633349,
      "grad_norm": 4.561628818511963,
      "learning_rate": 4.33738987082372e-05,
      "loss": 0.36191110610961913,
      "memory(GiB)": 70.5,
      "step": 63290,
      "token_acc": 0.9025270758122743,
      "train_speed(iter/s)": 1.447322
    },
    {
      "epoch": 2.711751852962598,
      "grad_norm": 4.774181842803955,
      "learning_rate": 4.336722835141979e-05,
      "loss": 0.7002363204956055,
      "memory(GiB)": 70.5,
      "step": 63295,
      "token_acc": 0.871875,
      "train_speed(iter/s)": 1.447329
    },
    {
      "epoch": 2.711966068291847,
      "grad_norm": 2.9743661880493164,
      "learning_rate": 4.3360558114761266e-05,
      "loss": 0.37065820693969725,
      "memory(GiB)": 70.5,
      "step": 63300,
      "token_acc": 0.9183673469387755,
      "train_speed(iter/s)": 1.44733
    },
    {
      "epoch": 2.712180283621096,
      "grad_norm": 4.3011064529418945,
      "learning_rate": 4.3353887998382444e-05,
      "loss": 0.39388892650604246,
      "memory(GiB)": 70.5,
      "step": 63305,
      "token_acc": 0.8983050847457628,
      "train_speed(iter/s)": 1.447331
    },
    {
      "epoch": 2.712394498950345,
      "grad_norm": 2.430797815322876,
      "learning_rate": 4.334721800240418e-05,
      "loss": 0.31942176818847656,
      "memory(GiB)": 70.5,
      "step": 63310,
      "token_acc": 0.9345454545454546,
      "train_speed(iter/s)": 1.44735
    },
    {
      "epoch": 2.712608714279594,
      "grad_norm": 4.454470634460449,
      "learning_rate": 4.3340548126947316e-05,
      "loss": 0.33848023414611816,
      "memory(GiB)": 70.5,
      "step": 63315,
      "token_acc": 0.9313304721030042,
      "train_speed(iter/s)": 1.447356
    },
    {
      "epoch": 2.712822929608843,
      "grad_norm": 3.037752866744995,
      "learning_rate": 4.333387837213267e-05,
      "loss": 0.43710908889770506,
      "memory(GiB)": 70.5,
      "step": 63320,
      "token_acc": 0.8967551622418879,
      "train_speed(iter/s)": 1.447362
    },
    {
      "epoch": 2.7130371449380917,
      "grad_norm": 5.213731288909912,
      "learning_rate": 4.332720873808106e-05,
      "loss": 0.47892584800720217,
      "memory(GiB)": 70.5,
      "step": 63325,
      "token_acc": 0.9113475177304965,
      "train_speed(iter/s)": 1.447368
    },
    {
      "epoch": 2.713251360267341,
      "grad_norm": 3.9847629070281982,
      "learning_rate": 4.332053922491333e-05,
      "loss": 0.484360933303833,
      "memory(GiB)": 70.5,
      "step": 63330,
      "token_acc": 0.8921568627450981,
      "train_speed(iter/s)": 1.447374
    },
    {
      "epoch": 2.7134655755965897,
      "grad_norm": 0.15512599050998688,
      "learning_rate": 4.33138698327503e-05,
      "loss": 0.13870052099227906,
      "memory(GiB)": 70.5,
      "step": 63335,
      "token_acc": 0.9751552795031055,
      "train_speed(iter/s)": 1.447376
    },
    {
      "epoch": 2.7136797909258386,
      "grad_norm": 2.7393388748168945,
      "learning_rate": 4.3307200561712777e-05,
      "loss": 0.2813058614730835,
      "memory(GiB)": 70.5,
      "step": 63340,
      "token_acc": 0.91875,
      "train_speed(iter/s)": 1.447375
    },
    {
      "epoch": 2.713894006255088,
      "grad_norm": 4.162505149841309,
      "learning_rate": 4.330053141192161e-05,
      "loss": 0.3164257049560547,
      "memory(GiB)": 70.5,
      "step": 63345,
      "token_acc": 0.9326923076923077,
      "train_speed(iter/s)": 1.447374
    },
    {
      "epoch": 2.7141082215843366,
      "grad_norm": 7.244020462036133,
      "learning_rate": 4.3293862383497594e-05,
      "loss": 0.5244711875915528,
      "memory(GiB)": 70.5,
      "step": 63350,
      "token_acc": 0.8837920489296636,
      "train_speed(iter/s)": 1.447377
    },
    {
      "epoch": 2.7143224369135854,
      "grad_norm": 1.4966429471969604,
      "learning_rate": 4.3287193476561555e-05,
      "loss": 0.3611196994781494,
      "memory(GiB)": 70.5,
      "step": 63355,
      "token_acc": 0.9190031152647975,
      "train_speed(iter/s)": 1.447374
    },
    {
      "epoch": 2.7145366522428347,
      "grad_norm": 0.21932768821716309,
      "learning_rate": 4.32805246912343e-05,
      "loss": 0.1652053713798523,
      "memory(GiB)": 70.5,
      "step": 63360,
      "token_acc": 0.9554317548746518,
      "train_speed(iter/s)": 1.447377
    },
    {
      "epoch": 2.7147508675720835,
      "grad_norm": 2.1013407707214355,
      "learning_rate": 4.327385602763664e-05,
      "loss": 0.39332821369171145,
      "memory(GiB)": 70.5,
      "step": 63365,
      "token_acc": 0.9090909090909091,
      "train_speed(iter/s)": 1.447376
    },
    {
      "epoch": 2.7149650829013323,
      "grad_norm": 3.783369302749634,
      "learning_rate": 4.32671874858894e-05,
      "loss": 0.3342350244522095,
      "memory(GiB)": 70.5,
      "step": 63370,
      "token_acc": 0.9348534201954397,
      "train_speed(iter/s)": 1.447383
    },
    {
      "epoch": 2.7151792982305816,
      "grad_norm": 3.9622983932495117,
      "learning_rate": 4.326051906611337e-05,
      "loss": 0.4542851448059082,
      "memory(GiB)": 70.5,
      "step": 63375,
      "token_acc": 0.8913043478260869,
      "train_speed(iter/s)": 1.447396
    },
    {
      "epoch": 2.7153935135598304,
      "grad_norm": 0.9275841116905212,
      "learning_rate": 4.325385076842934e-05,
      "loss": 0.15359079837799072,
      "memory(GiB)": 70.5,
      "step": 63380,
      "token_acc": 0.9689922480620154,
      "train_speed(iter/s)": 1.4474
    },
    {
      "epoch": 2.715607728889079,
      "grad_norm": 2.1068787574768066,
      "learning_rate": 4.3247182592958136e-05,
      "loss": 0.5807925224304199,
      "memory(GiB)": 70.5,
      "step": 63385,
      "token_acc": 0.9015873015873016,
      "train_speed(iter/s)": 1.447417
    },
    {
      "epoch": 2.7158219442183285,
      "grad_norm": 3.070470094680786,
      "learning_rate": 4.3240514539820574e-05,
      "loss": 0.33278689384460447,
      "memory(GiB)": 70.5,
      "step": 63390,
      "token_acc": 0.9101123595505618,
      "train_speed(iter/s)": 1.447417
    },
    {
      "epoch": 2.7160361595475773,
      "grad_norm": 7.610358238220215,
      "learning_rate": 4.323384660913743e-05,
      "loss": 0.538487720489502,
      "memory(GiB)": 70.5,
      "step": 63395,
      "token_acc": 0.9149659863945578,
      "train_speed(iter/s)": 1.447423
    },
    {
      "epoch": 2.716250374876826,
      "grad_norm": 4.04231071472168,
      "learning_rate": 4.322717880102949e-05,
      "loss": 0.4324038505554199,
      "memory(GiB)": 70.5,
      "step": 63400,
      "token_acc": 0.9053497942386831,
      "train_speed(iter/s)": 1.447422
    },
    {
      "epoch": 2.7164645902060753,
      "grad_norm": 3.5368432998657227,
      "learning_rate": 4.3220511115617565e-05,
      "loss": 0.3954612731933594,
      "memory(GiB)": 70.5,
      "step": 63405,
      "token_acc": 0.927007299270073,
      "train_speed(iter/s)": 1.44742
    },
    {
      "epoch": 2.716678805535324,
      "grad_norm": 2.523486614227295,
      "learning_rate": 4.321384355302244e-05,
      "loss": 0.42231502532958987,
      "memory(GiB)": 70.5,
      "step": 63410,
      "token_acc": 0.889763779527559,
      "train_speed(iter/s)": 1.447413
    },
    {
      "epoch": 2.716893020864573,
      "grad_norm": 4.687292098999023,
      "learning_rate": 4.320717611336491e-05,
      "loss": 0.6610712051391602,
      "memory(GiB)": 70.5,
      "step": 63415,
      "token_acc": 0.8703071672354948,
      "train_speed(iter/s)": 1.447426
    },
    {
      "epoch": 2.717107236193822,
      "grad_norm": 2.514007806777954,
      "learning_rate": 4.320050879676575e-05,
      "loss": 0.09602398276329041,
      "memory(GiB)": 70.5,
      "step": 63420,
      "token_acc": 0.9754098360655737,
      "train_speed(iter/s)": 1.447433
    },
    {
      "epoch": 2.717321451523071,
      "grad_norm": 4.149065017700195,
      "learning_rate": 4.3193841603345755e-05,
      "loss": 0.3664699077606201,
      "memory(GiB)": 70.5,
      "step": 63425,
      "token_acc": 0.9084745762711864,
      "train_speed(iter/s)": 1.447437
    },
    {
      "epoch": 2.71753566685232,
      "grad_norm": 2.073883295059204,
      "learning_rate": 4.318717453322571e-05,
      "loss": 0.2986651659011841,
      "memory(GiB)": 70.5,
      "step": 63430,
      "token_acc": 0.9197080291970803,
      "train_speed(iter/s)": 1.447455
    },
    {
      "epoch": 2.717749882181569,
      "grad_norm": 3.9252090454101562,
      "learning_rate": 4.318050758652638e-05,
      "loss": 0.3984020233154297,
      "memory(GiB)": 70.5,
      "step": 63435,
      "token_acc": 0.926984126984127,
      "train_speed(iter/s)": 1.447451
    },
    {
      "epoch": 2.717964097510818,
      "grad_norm": 4.237318515777588,
      "learning_rate": 4.317384076336855e-05,
      "loss": 0.47126474380493166,
      "memory(GiB)": 70.5,
      "step": 63440,
      "token_acc": 0.9112627986348123,
      "train_speed(iter/s)": 1.447451
    },
    {
      "epoch": 2.7181783128400667,
      "grad_norm": 7.401182174682617,
      "learning_rate": 4.3167174063873004e-05,
      "loss": 0.40613422393798826,
      "memory(GiB)": 70.5,
      "step": 63445,
      "token_acc": 0.9186991869918699,
      "train_speed(iter/s)": 1.447445
    },
    {
      "epoch": 2.718392528169316,
      "grad_norm": 0.8761941194534302,
      "learning_rate": 4.3160507488160504e-05,
      "loss": 0.5329716205596924,
      "memory(GiB)": 70.5,
      "step": 63450,
      "token_acc": 0.9137931034482759,
      "train_speed(iter/s)": 1.44745
    },
    {
      "epoch": 2.718606743498565,
      "grad_norm": 1.4616321325302124,
      "learning_rate": 4.3153841036351814e-05,
      "loss": 0.5584182739257812,
      "memory(GiB)": 70.5,
      "step": 63455,
      "token_acc": 0.8731343283582089,
      "train_speed(iter/s)": 1.447458
    },
    {
      "epoch": 2.7188209588278136,
      "grad_norm": 1.3787574768066406,
      "learning_rate": 4.314717470856774e-05,
      "loss": 0.19487109184265136,
      "memory(GiB)": 70.5,
      "step": 63460,
      "token_acc": 0.9608433734939759,
      "train_speed(iter/s)": 1.447464
    },
    {
      "epoch": 2.719035174157063,
      "grad_norm": 2.733083963394165,
      "learning_rate": 4.314050850492902e-05,
      "loss": 0.6218723297119141,
      "memory(GiB)": 70.5,
      "step": 63465,
      "token_acc": 0.874251497005988,
      "train_speed(iter/s)": 1.447482
    },
    {
      "epoch": 2.7192493894863117,
      "grad_norm": 2.867466926574707,
      "learning_rate": 4.313384242555641e-05,
      "loss": 0.39052605628967285,
      "memory(GiB)": 70.5,
      "step": 63470,
      "token_acc": 0.910828025477707,
      "train_speed(iter/s)": 1.447479
    },
    {
      "epoch": 2.7194636048155605,
      "grad_norm": 6.095458507537842,
      "learning_rate": 4.31271764705707e-05,
      "loss": 0.5973820686340332,
      "memory(GiB)": 70.5,
      "step": 63475,
      "token_acc": 0.8451178451178452,
      "train_speed(iter/s)": 1.447487
    },
    {
      "epoch": 2.7196778201448097,
      "grad_norm": 3.061824083328247,
      "learning_rate": 4.3120510640092636e-05,
      "loss": 0.2771646976470947,
      "memory(GiB)": 70.5,
      "step": 63480,
      "token_acc": 0.9348659003831418,
      "train_speed(iter/s)": 1.44749
    },
    {
      "epoch": 2.7198920354740586,
      "grad_norm": 3.168989658355713,
      "learning_rate": 4.311384493424297e-05,
      "loss": 0.3605653285980225,
      "memory(GiB)": 70.5,
      "step": 63485,
      "token_acc": 0.9340277777777778,
      "train_speed(iter/s)": 1.4475
    },
    {
      "epoch": 2.7201062508033074,
      "grad_norm": 2.567735433578491,
      "learning_rate": 4.310717935314247e-05,
      "loss": 0.27093617916107177,
      "memory(GiB)": 70.5,
      "step": 63490,
      "token_acc": 0.9307479224376731,
      "train_speed(iter/s)": 1.447497
    },
    {
      "epoch": 2.7203204661325566,
      "grad_norm": 3.240954875946045,
      "learning_rate": 4.3100513896911865e-05,
      "loss": 0.25567576885223386,
      "memory(GiB)": 70.5,
      "step": 63495,
      "token_acc": 0.9547038327526133,
      "train_speed(iter/s)": 1.447489
    },
    {
      "epoch": 2.7205346814618054,
      "grad_norm": 2.4474005699157715,
      "learning_rate": 4.309384856567194e-05,
      "loss": 0.5246871948242188,
      "memory(GiB)": 70.5,
      "step": 63500,
      "token_acc": 0.9194444444444444,
      "train_speed(iter/s)": 1.447491
    },
    {
      "epoch": 2.7205346814618054,
      "eval_loss": 2.436755418777466,
      "eval_runtime": 13.8731,
      "eval_samples_per_second": 7.208,
      "eval_steps_per_second": 7.208,
      "eval_token_acc": 0.43543956043956045,
      "step": 63500
    },
    {
      "epoch": 2.7207488967910542,
      "grad_norm": 2.254228115081787,
      "learning_rate": 4.3087183359543426e-05,
      "loss": 0.6216618537902832,
      "memory(GiB)": 70.5,
      "step": 63505,
      "token_acc": 0.557013118062563,
      "train_speed(iter/s)": 1.447013
    },
    {
      "epoch": 2.7209631121203035,
      "grad_norm": 6.9640302658081055,
      "learning_rate": 4.308051827864705e-05,
      "loss": 0.4501436710357666,
      "memory(GiB)": 70.5,
      "step": 63510,
      "token_acc": 0.9263565891472868,
      "train_speed(iter/s)": 1.447012
    },
    {
      "epoch": 2.7211773274495523,
      "grad_norm": 0.6108056306838989,
      "learning_rate": 4.3073853323103604e-05,
      "loss": 0.3076782703399658,
      "memory(GiB)": 70.5,
      "step": 63515,
      "token_acc": 0.934931506849315,
      "train_speed(iter/s)": 1.447028
    },
    {
      "epoch": 2.721391542778801,
      "grad_norm": 2.232466697692871,
      "learning_rate": 4.3067188493033796e-05,
      "loss": 0.5162205696105957,
      "memory(GiB)": 70.5,
      "step": 63520,
      "token_acc": 0.890282131661442,
      "train_speed(iter/s)": 1.447046
    },
    {
      "epoch": 2.7216057581080504,
      "grad_norm": 3.5204226970672607,
      "learning_rate": 4.3060523788558355e-05,
      "loss": 0.28899593353271485,
      "memory(GiB)": 70.5,
      "step": 63525,
      "token_acc": 0.9373134328358209,
      "train_speed(iter/s)": 1.44705
    },
    {
      "epoch": 2.721819973437299,
      "grad_norm": 3.48346209526062,
      "learning_rate": 4.3053859209798025e-05,
      "loss": 0.3979550838470459,
      "memory(GiB)": 70.5,
      "step": 63530,
      "token_acc": 0.9169675090252708,
      "train_speed(iter/s)": 1.447049
    },
    {
      "epoch": 2.722034188766548,
      "grad_norm": 5.722189426422119,
      "learning_rate": 4.3047194756873575e-05,
      "loss": 0.3066288471221924,
      "memory(GiB)": 70.5,
      "step": 63535,
      "token_acc": 0.9288389513108615,
      "train_speed(iter/s)": 1.447042
    },
    {
      "epoch": 2.7222484040957973,
      "grad_norm": 3.939880847930908,
      "learning_rate": 4.3040530429905715e-05,
      "loss": 0.5340934753417969,
      "memory(GiB)": 70.5,
      "step": 63540,
      "token_acc": 0.8745098039215686,
      "train_speed(iter/s)": 1.447045
    },
    {
      "epoch": 2.722462619425046,
      "grad_norm": 2.9286043643951416,
      "learning_rate": 4.3033866229015166e-05,
      "loss": 0.30812132358551025,
      "memory(GiB)": 70.5,
      "step": 63545,
      "token_acc": 0.926056338028169,
      "train_speed(iter/s)": 1.447038
    },
    {
      "epoch": 2.722676834754295,
      "grad_norm": 3.466496706008911,
      "learning_rate": 4.302720215432268e-05,
      "loss": 0.5473494529724121,
      "memory(GiB)": 70.5,
      "step": 63550,
      "token_acc": 0.903125,
      "train_speed(iter/s)": 1.447042
    },
    {
      "epoch": 2.722891050083544,
      "grad_norm": 4.540406227111816,
      "learning_rate": 4.302053820594895e-05,
      "loss": 0.34674811363220215,
      "memory(GiB)": 70.5,
      "step": 63555,
      "token_acc": 0.9169329073482428,
      "train_speed(iter/s)": 1.447045
    },
    {
      "epoch": 2.723105265412793,
      "grad_norm": 3.987926959991455,
      "learning_rate": 4.301387438401473e-05,
      "loss": 0.5371238231658936,
      "memory(GiB)": 70.5,
      "step": 63560,
      "token_acc": 0.8827586206896552,
      "train_speed(iter/s)": 1.447047
    },
    {
      "epoch": 2.7233194807420418,
      "grad_norm": 2.1184909343719482,
      "learning_rate": 4.300721068864073e-05,
      "loss": 0.3658773183822632,
      "memory(GiB)": 70.5,
      "step": 63565,
      "token_acc": 0.9123287671232877,
      "train_speed(iter/s)": 1.44706
    },
    {
      "epoch": 2.723533696071291,
      "grad_norm": 1.4582535028457642,
      "learning_rate": 4.3000547119947656e-05,
      "loss": 0.2094902753829956,
      "memory(GiB)": 70.5,
      "step": 63570,
      "token_acc": 0.9419354838709677,
      "train_speed(iter/s)": 1.447059
    },
    {
      "epoch": 2.72374791140054,
      "grad_norm": 1.813159465789795,
      "learning_rate": 4.2993883678056246e-05,
      "loss": 0.37538168430328367,
      "memory(GiB)": 70.5,
      "step": 63575,
      "token_acc": 0.9002770083102493,
      "train_speed(iter/s)": 1.44706
    },
    {
      "epoch": 2.7239621267297887,
      "grad_norm": 0.5982832312583923,
      "learning_rate": 4.298722036308721e-05,
      "loss": 0.19820359945297242,
      "memory(GiB)": 70.5,
      "step": 63580,
      "token_acc": 0.9618320610687023,
      "train_speed(iter/s)": 1.447068
    },
    {
      "epoch": 2.724176342059038,
      "grad_norm": 4.246555805206299,
      "learning_rate": 4.298055717516124e-05,
      "loss": 0.25366127490997314,
      "memory(GiB)": 70.5,
      "step": 63585,
      "token_acc": 0.960431654676259,
      "train_speed(iter/s)": 1.447068
    },
    {
      "epoch": 2.7243905573882867,
      "grad_norm": 1.6391431093215942,
      "learning_rate": 4.297389411439908e-05,
      "loss": 0.15423260927200316,
      "memory(GiB)": 70.5,
      "step": 63590,
      "token_acc": 0.9669669669669669,
      "train_speed(iter/s)": 1.447071
    },
    {
      "epoch": 2.7246047727175355,
      "grad_norm": 6.118751525878906,
      "learning_rate": 4.2967231180921395e-05,
      "loss": 0.32827277183532716,
      "memory(GiB)": 70.5,
      "step": 63595,
      "token_acc": 0.9222614840989399,
      "train_speed(iter/s)": 1.447083
    },
    {
      "epoch": 2.724818988046785,
      "grad_norm": 4.028990268707275,
      "learning_rate": 4.296056837484894e-05,
      "loss": 0.26759800910949705,
      "memory(GiB)": 70.5,
      "step": 63600,
      "token_acc": 0.9477351916376306,
      "train_speed(iter/s)": 1.447083
    },
    {
      "epoch": 2.7250332033760336,
      "grad_norm": 3.1350364685058594,
      "learning_rate": 4.295390569630236e-05,
      "loss": 0.3870536327362061,
      "memory(GiB)": 70.5,
      "step": 63605,
      "token_acc": 0.89375,
      "train_speed(iter/s)": 1.447082
    },
    {
      "epoch": 2.7252474187052824,
      "grad_norm": 3.611405372619629,
      "learning_rate": 4.294724314540241e-05,
      "loss": 0.18212423324584961,
      "memory(GiB)": 70.5,
      "step": 63610,
      "token_acc": 0.9450171821305842,
      "train_speed(iter/s)": 1.447078
    },
    {
      "epoch": 2.7254616340345317,
      "grad_norm": 2.0281624794006348,
      "learning_rate": 4.294058072226976e-05,
      "loss": 0.139784574508667,
      "memory(GiB)": 70.5,
      "step": 63615,
      "token_acc": 0.9606741573033708,
      "train_speed(iter/s)": 1.447075
    },
    {
      "epoch": 2.7256758493637805,
      "grad_norm": 1.9775567054748535,
      "learning_rate": 4.293391842702513e-05,
      "loss": 0.35311226844787597,
      "memory(GiB)": 70.5,
      "step": 63620,
      "token_acc": 0.9239543726235742,
      "train_speed(iter/s)": 1.447083
    },
    {
      "epoch": 2.7258900646930293,
      "grad_norm": 0.4522967040538788,
      "learning_rate": 4.2927256259789184e-05,
      "loss": 0.5474803447723389,
      "memory(GiB)": 70.5,
      "step": 63625,
      "token_acc": 0.8938356164383562,
      "train_speed(iter/s)": 1.447108
    },
    {
      "epoch": 2.7261042800222786,
      "grad_norm": 0.4936099946498871,
      "learning_rate": 4.292059422068262e-05,
      "loss": 0.16295785903930665,
      "memory(GiB)": 70.5,
      "step": 63630,
      "token_acc": 0.967391304347826,
      "train_speed(iter/s)": 1.447112
    },
    {
      "epoch": 2.7263184953515274,
      "grad_norm": 3.1984105110168457,
      "learning_rate": 4.291393230982614e-05,
      "loss": 0.3867784023284912,
      "memory(GiB)": 70.5,
      "step": 63635,
      "token_acc": 0.9209621993127147,
      "train_speed(iter/s)": 1.447113
    },
    {
      "epoch": 2.726532710680776,
      "grad_norm": 2.702345609664917,
      "learning_rate": 4.290727052734042e-05,
      "loss": 0.6766353130340577,
      "memory(GiB)": 70.5,
      "step": 63640,
      "token_acc": 0.861198738170347,
      "train_speed(iter/s)": 1.447114
    },
    {
      "epoch": 2.7267469260100254,
      "grad_norm": 2.078977584838867,
      "learning_rate": 4.290060887334616e-05,
      "loss": 0.2396895170211792,
      "memory(GiB)": 70.5,
      "step": 63645,
      "token_acc": 0.9473684210526315,
      "train_speed(iter/s)": 1.447118
    },
    {
      "epoch": 2.7269611413392743,
      "grad_norm": 4.204092025756836,
      "learning_rate": 4.289394734796402e-05,
      "loss": 0.4931086540222168,
      "memory(GiB)": 70.5,
      "step": 63650,
      "token_acc": 0.9192982456140351,
      "train_speed(iter/s)": 1.447127
    },
    {
      "epoch": 2.727175356668523,
      "grad_norm": 5.024911403656006,
      "learning_rate": 4.288728595131469e-05,
      "loss": 0.3871969938278198,
      "memory(GiB)": 70.5,
      "step": 63655,
      "token_acc": 0.9194630872483222,
      "train_speed(iter/s)": 1.447142
    },
    {
      "epoch": 2.7273895719977723,
      "grad_norm": 3.2780964374542236,
      "learning_rate": 4.2880624683518844e-05,
      "loss": 0.3431878566741943,
      "memory(GiB)": 70.5,
      "step": 63660,
      "token_acc": 0.9138461538461539,
      "train_speed(iter/s)": 1.447147
    },
    {
      "epoch": 2.727603787327021,
      "grad_norm": 4.205585956573486,
      "learning_rate": 4.287396354469717e-05,
      "loss": 0.4683064460754395,
      "memory(GiB)": 70.5,
      "step": 63665,
      "token_acc": 0.8978102189781022,
      "train_speed(iter/s)": 1.447159
    },
    {
      "epoch": 2.72781800265627,
      "grad_norm": 3.8435750007629395,
      "learning_rate": 4.286730253497032e-05,
      "loss": 0.3377640962600708,
      "memory(GiB)": 70.5,
      "step": 63670,
      "token_acc": 0.9307228915662651,
      "train_speed(iter/s)": 1.447163
    },
    {
      "epoch": 2.728032217985519,
      "grad_norm": 3.1966934204101562,
      "learning_rate": 4.286064165445896e-05,
      "loss": 0.25565409660339355,
      "memory(GiB)": 70.5,
      "step": 63675,
      "token_acc": 0.9383561643835616,
      "train_speed(iter/s)": 1.447169
    },
    {
      "epoch": 2.728246433314768,
      "grad_norm": 4.5644917488098145,
      "learning_rate": 4.28539809032838e-05,
      "loss": 0.4781313896179199,
      "memory(GiB)": 70.5,
      "step": 63680,
      "token_acc": 0.8976109215017065,
      "train_speed(iter/s)": 1.447186
    },
    {
      "epoch": 2.728460648644017,
      "grad_norm": 3.819481372833252,
      "learning_rate": 4.284732028156548e-05,
      "loss": 0.26508274078369143,
      "memory(GiB)": 70.5,
      "step": 63685,
      "token_acc": 0.9578544061302682,
      "train_speed(iter/s)": 1.447202
    },
    {
      "epoch": 2.728674863973266,
      "grad_norm": 4.339139461517334,
      "learning_rate": 4.284065978942465e-05,
      "loss": 0.42593965530395506,
      "memory(GiB)": 70.5,
      "step": 63690,
      "token_acc": 0.9202898550724637,
      "train_speed(iter/s)": 1.447201
    },
    {
      "epoch": 2.728889079302515,
      "grad_norm": 3.950843334197998,
      "learning_rate": 4.2833999426982e-05,
      "loss": 0.35227968692779543,
      "memory(GiB)": 70.5,
      "step": 63695,
      "token_acc": 0.9288256227758007,
      "train_speed(iter/s)": 1.447201
    },
    {
      "epoch": 2.7291032946317637,
      "grad_norm": 3.7715885639190674,
      "learning_rate": 4.282733919435815e-05,
      "loss": 0.4615791320800781,
      "memory(GiB)": 70.5,
      "step": 63700,
      "token_acc": 0.8878205128205128,
      "train_speed(iter/s)": 1.447219
    },
    {
      "epoch": 2.729317509961013,
      "grad_norm": 3.6411731243133545,
      "learning_rate": 4.28206790916738e-05,
      "loss": 0.4126612186431885,
      "memory(GiB)": 70.5,
      "step": 63705,
      "token_acc": 0.8929765886287625,
      "train_speed(iter/s)": 1.447209
    },
    {
      "epoch": 2.729531725290262,
      "grad_norm": 3.9073657989501953,
      "learning_rate": 4.281401911904958e-05,
      "loss": 0.3841430187225342,
      "memory(GiB)": 70.5,
      "step": 63710,
      "token_acc": 0.924187725631769,
      "train_speed(iter/s)": 1.447211
    },
    {
      "epoch": 2.7297459406195106,
      "grad_norm": 2.7440602779388428,
      "learning_rate": 4.280735927660613e-05,
      "loss": 0.5026887416839599,
      "memory(GiB)": 70.5,
      "step": 63715,
      "token_acc": 0.8927335640138409,
      "train_speed(iter/s)": 1.447238
    },
    {
      "epoch": 2.72996015594876,
      "grad_norm": 2.465942859649658,
      "learning_rate": 4.2800699564464134e-05,
      "loss": 0.15744903087615966,
      "memory(GiB)": 70.5,
      "step": 63720,
      "token_acc": 0.9630996309963099,
      "train_speed(iter/s)": 1.447248
    },
    {
      "epoch": 2.7301743712780087,
      "grad_norm": 3.316317319869995,
      "learning_rate": 4.279403998274421e-05,
      "loss": 0.4373174667358398,
      "memory(GiB)": 70.5,
      "step": 63725,
      "token_acc": 0.8872727272727273,
      "train_speed(iter/s)": 1.447256
    },
    {
      "epoch": 2.7303885866072575,
      "grad_norm": 2.9077565670013428,
      "learning_rate": 4.2787380531567e-05,
      "loss": 0.3251603603363037,
      "memory(GiB)": 70.5,
      "step": 63730,
      "token_acc": 0.9228395061728395,
      "train_speed(iter/s)": 1.447259
    },
    {
      "epoch": 2.7306028019365067,
      "grad_norm": 0.6026391386985779,
      "learning_rate": 4.278072121105318e-05,
      "loss": 0.40250697135925295,
      "memory(GiB)": 70.5,
      "step": 63735,
      "token_acc": 0.9243421052631579,
      "train_speed(iter/s)": 1.447264
    },
    {
      "epoch": 2.7308170172657555,
      "grad_norm": 2.3489692211151123,
      "learning_rate": 4.277406202132335e-05,
      "loss": 0.6065227031707764,
      "memory(GiB)": 70.5,
      "step": 63740,
      "token_acc": 0.9049180327868852,
      "train_speed(iter/s)": 1.447268
    },
    {
      "epoch": 2.7310312325950044,
      "grad_norm": 4.983358383178711,
      "learning_rate": 4.276740296249817e-05,
      "loss": 0.40277557373046874,
      "memory(GiB)": 70.5,
      "step": 63745,
      "token_acc": 0.9172413793103448,
      "train_speed(iter/s)": 1.447291
    },
    {
      "epoch": 2.7312454479242536,
      "grad_norm": 3.7504494190216064,
      "learning_rate": 4.276074403469825e-05,
      "loss": 0.4164095401763916,
      "memory(GiB)": 70.5,
      "step": 63750,
      "token_acc": 0.91796875,
      "train_speed(iter/s)": 1.447295
    },
    {
      "epoch": 2.7314596632535024,
      "grad_norm": 0.3652341663837433,
      "learning_rate": 4.275408523804427e-05,
      "loss": 0.22440226078033448,
      "memory(GiB)": 70.5,
      "step": 63755,
      "token_acc": 0.9505703422053232,
      "train_speed(iter/s)": 1.447291
    },
    {
      "epoch": 2.7316738785827512,
      "grad_norm": 1.586742877960205,
      "learning_rate": 4.274742657265682e-05,
      "loss": 0.22504866123199463,
      "memory(GiB)": 70.5,
      "step": 63760,
      "token_acc": 0.9411764705882353,
      "train_speed(iter/s)": 1.447291
    },
    {
      "epoch": 2.7318880939120005,
      "grad_norm": 1.4565062522888184,
      "learning_rate": 4.2740768038656546e-05,
      "loss": 0.3017827749252319,
      "memory(GiB)": 70.5,
      "step": 63765,
      "token_acc": 0.9301310043668122,
      "train_speed(iter/s)": 1.447288
    },
    {
      "epoch": 2.7321023092412493,
      "grad_norm": 2.194143056869507,
      "learning_rate": 4.2734109636164074e-05,
      "loss": 0.21719827651977539,
      "memory(GiB)": 70.5,
      "step": 63770,
      "token_acc": 0.9442724458204335,
      "train_speed(iter/s)": 1.447299
    },
    {
      "epoch": 2.732316524570498,
      "grad_norm": 3.7003014087677,
      "learning_rate": 4.2727451365300014e-05,
      "loss": 0.3753760099411011,
      "memory(GiB)": 70.5,
      "step": 63775,
      "token_acc": 0.9233716475095786,
      "train_speed(iter/s)": 1.447303
    },
    {
      "epoch": 2.7325307398997474,
      "grad_norm": 0.8799652457237244,
      "learning_rate": 4.272079322618501e-05,
      "loss": 0.5823846340179444,
      "memory(GiB)": 70.5,
      "step": 63780,
      "token_acc": 0.8931034482758621,
      "train_speed(iter/s)": 1.447317
    },
    {
      "epoch": 2.732744955228996,
      "grad_norm": 3.988002300262451,
      "learning_rate": 4.271413521893965e-05,
      "loss": 0.335337495803833,
      "memory(GiB)": 70.5,
      "step": 63785,
      "token_acc": 0.9213836477987422,
      "train_speed(iter/s)": 1.447324
    },
    {
      "epoch": 2.732959170558245,
      "grad_norm": 3.2943079471588135,
      "learning_rate": 4.270747734368457e-05,
      "loss": 0.32047698497772215,
      "memory(GiB)": 70.5,
      "step": 63790,
      "token_acc": 0.9233576642335767,
      "train_speed(iter/s)": 1.447328
    },
    {
      "epoch": 2.7331733858874943,
      "grad_norm": 4.8098602294921875,
      "learning_rate": 4.270081960054038e-05,
      "loss": 0.2359396457672119,
      "memory(GiB)": 70.5,
      "step": 63795,
      "token_acc": 0.9536231884057971,
      "train_speed(iter/s)": 1.44733
    },
    {
      "epoch": 2.733387601216743,
      "grad_norm": 1.5428937673568726,
      "learning_rate": 4.269416198962768e-05,
      "loss": 0.24677281379699706,
      "memory(GiB)": 70.5,
      "step": 63800,
      "token_acc": 0.9545454545454546,
      "train_speed(iter/s)": 1.447319
    },
    {
      "epoch": 2.733601816545992,
      "grad_norm": 0.0616576224565506,
      "learning_rate": 4.26875045110671e-05,
      "loss": 0.25650749206542967,
      "memory(GiB)": 70.5,
      "step": 63805,
      "token_acc": 0.9434628975265018,
      "train_speed(iter/s)": 1.44732
    },
    {
      "epoch": 2.733816031875241,
      "grad_norm": 6.584847927093506,
      "learning_rate": 4.268084716497924e-05,
      "loss": 0.3341339111328125,
      "memory(GiB)": 70.5,
      "step": 63810,
      "token_acc": 0.926923076923077,
      "train_speed(iter/s)": 1.44734
    },
    {
      "epoch": 2.73403024720449,
      "grad_norm": 2.52010440826416,
      "learning_rate": 4.267418995148468e-05,
      "loss": 0.4328632354736328,
      "memory(GiB)": 70.5,
      "step": 63815,
      "token_acc": 0.9141104294478528,
      "train_speed(iter/s)": 1.447355
    },
    {
      "epoch": 2.7342444625337388,
      "grad_norm": 1.9377225637435913,
      "learning_rate": 4.266753287070406e-05,
      "loss": 0.3990891695022583,
      "memory(GiB)": 70.5,
      "step": 63820,
      "token_acc": 0.897887323943662,
      "train_speed(iter/s)": 1.447361
    },
    {
      "epoch": 2.734458677862988,
      "grad_norm": 1.9031126499176025,
      "learning_rate": 4.266087592275794e-05,
      "loss": 0.48194184303283694,
      "memory(GiB)": 70.5,
      "step": 63825,
      "token_acc": 0.8978328173374613,
      "train_speed(iter/s)": 1.44736
    },
    {
      "epoch": 2.734672893192237,
      "grad_norm": 2.664780616760254,
      "learning_rate": 4.265421910776694e-05,
      "loss": 0.25226213932037356,
      "memory(GiB)": 70.5,
      "step": 63830,
      "token_acc": 0.9358108108108109,
      "train_speed(iter/s)": 1.447361
    },
    {
      "epoch": 2.7348871085214856,
      "grad_norm": 0.3105071783065796,
      "learning_rate": 4.2647562425851666e-05,
      "loss": 0.2549535512924194,
      "memory(GiB)": 70.5,
      "step": 63835,
      "token_acc": 0.943089430894309,
      "train_speed(iter/s)": 1.447357
    },
    {
      "epoch": 2.735101323850735,
      "grad_norm": 1.2024283409118652,
      "learning_rate": 4.26409058771327e-05,
      "loss": 0.3383232831954956,
      "memory(GiB)": 70.5,
      "step": 63840,
      "token_acc": 0.9370860927152318,
      "train_speed(iter/s)": 1.447362
    },
    {
      "epoch": 2.7353155391799837,
      "grad_norm": 1.7536181211471558,
      "learning_rate": 4.2634249461730616e-05,
      "loss": 0.16095118522644042,
      "memory(GiB)": 70.5,
      "step": 63845,
      "token_acc": 0.9679715302491103,
      "train_speed(iter/s)": 1.447366
    },
    {
      "epoch": 2.7355297545092325,
      "grad_norm": 1.2627317905426025,
      "learning_rate": 4.262759317976602e-05,
      "loss": 0.21236779689788818,
      "memory(GiB)": 70.5,
      "step": 63850,
      "token_acc": 0.9533333333333334,
      "train_speed(iter/s)": 1.447366
    },
    {
      "epoch": 2.735743969838482,
      "grad_norm": 0.07331901043653488,
      "learning_rate": 4.262093703135949e-05,
      "loss": 0.5469540119171142,
      "memory(GiB)": 70.5,
      "step": 63855,
      "token_acc": 0.8761609907120743,
      "train_speed(iter/s)": 1.447369
    },
    {
      "epoch": 2.7359581851677306,
      "grad_norm": 4.700119972229004,
      "learning_rate": 4.26142810166316e-05,
      "loss": 0.24162690639495848,
      "memory(GiB)": 70.5,
      "step": 63860,
      "token_acc": 0.9486301369863014,
      "train_speed(iter/s)": 1.447378
    },
    {
      "epoch": 2.7361724004969794,
      "grad_norm": 5.054917335510254,
      "learning_rate": 4.260762513570294e-05,
      "loss": 0.3848599910736084,
      "memory(GiB)": 70.5,
      "step": 63865,
      "token_acc": 0.921146953405018,
      "train_speed(iter/s)": 1.447368
    },
    {
      "epoch": 2.7363866158262287,
      "grad_norm": 3.0197629928588867,
      "learning_rate": 4.260096938869409e-05,
      "loss": 0.3273277282714844,
      "memory(GiB)": 70.5,
      "step": 63870,
      "token_acc": 0.9300699300699301,
      "train_speed(iter/s)": 1.447366
    },
    {
      "epoch": 2.7366008311554775,
      "grad_norm": 3.503068447113037,
      "learning_rate": 4.2594313775725616e-05,
      "loss": 0.3825935125350952,
      "memory(GiB)": 70.5,
      "step": 63875,
      "token_acc": 0.917981072555205,
      "train_speed(iter/s)": 1.447376
    },
    {
      "epoch": 2.7368150464847263,
      "grad_norm": 4.2593488693237305,
      "learning_rate": 4.25876582969181e-05,
      "loss": 0.45152816772460935,
      "memory(GiB)": 70.5,
      "step": 63880,
      "token_acc": 0.919093851132686,
      "train_speed(iter/s)": 1.447389
    },
    {
      "epoch": 2.7370292618139755,
      "grad_norm": 1.9009124040603638,
      "learning_rate": 4.258100295239209e-05,
      "loss": 0.35864834785461425,
      "memory(GiB)": 70.5,
      "step": 63885,
      "token_acc": 0.9195804195804196,
      "train_speed(iter/s)": 1.44741
    },
    {
      "epoch": 2.7372434771432244,
      "grad_norm": 2.5433084964752197,
      "learning_rate": 4.25743477422682e-05,
      "loss": 0.2646726131439209,
      "memory(GiB)": 70.5,
      "step": 63890,
      "token_acc": 0.9452887537993921,
      "train_speed(iter/s)": 1.447421
    },
    {
      "epoch": 2.737457692472473,
      "grad_norm": 1.99435555934906,
      "learning_rate": 4.2567692666666945e-05,
      "loss": 0.2526238918304443,
      "memory(GiB)": 70.5,
      "step": 63895,
      "token_acc": 0.9463087248322147,
      "train_speed(iter/s)": 1.447421
    },
    {
      "epoch": 2.7376719078017224,
      "grad_norm": 4.662778854370117,
      "learning_rate": 4.2561037725708904e-05,
      "loss": 0.13605034351348877,
      "memory(GiB)": 70.5,
      "step": 63900,
      "token_acc": 0.9741379310344828,
      "train_speed(iter/s)": 1.447426
    },
    {
      "epoch": 2.7378861231309712,
      "grad_norm": 5.414318084716797,
      "learning_rate": 4.2554382919514645e-05,
      "loss": 0.4961839199066162,
      "memory(GiB)": 70.5,
      "step": 63905,
      "token_acc": 0.9079365079365079,
      "train_speed(iter/s)": 1.44743
    },
    {
      "epoch": 2.73810033846022,
      "grad_norm": 0.2597482204437256,
      "learning_rate": 4.254772824820474e-05,
      "loss": 0.11105364561080933,
      "memory(GiB)": 70.5,
      "step": 63910,
      "token_acc": 0.975609756097561,
      "train_speed(iter/s)": 1.447446
    },
    {
      "epoch": 2.7383145537894693,
      "grad_norm": 4.398972988128662,
      "learning_rate": 4.254107371189973e-05,
      "loss": 0.23820953369140624,
      "memory(GiB)": 70.5,
      "step": 63915,
      "token_acc": 0.9563636363636364,
      "train_speed(iter/s)": 1.447451
    },
    {
      "epoch": 2.738528769118718,
      "grad_norm": 6.118549346923828,
      "learning_rate": 4.253441931072015e-05,
      "loss": 0.401507568359375,
      "memory(GiB)": 70.5,
      "step": 63920,
      "token_acc": 0.9093959731543624,
      "train_speed(iter/s)": 1.44745
    },
    {
      "epoch": 2.738742984447967,
      "grad_norm": 0.10441772639751434,
      "learning_rate": 4.2527765044786576e-05,
      "loss": 0.5281307697296143,
      "memory(GiB)": 70.5,
      "step": 63925,
      "token_acc": 0.9164179104477612,
      "train_speed(iter/s)": 1.447454
    },
    {
      "epoch": 2.738957199777216,
      "grad_norm": 2.123169183731079,
      "learning_rate": 4.252111091421954e-05,
      "loss": 0.30581936836242674,
      "memory(GiB)": 70.5,
      "step": 63930,
      "token_acc": 0.9322033898305084,
      "train_speed(iter/s)": 1.447455
    },
    {
      "epoch": 2.739171415106465,
      "grad_norm": 1.9047958850860596,
      "learning_rate": 4.251445691913961e-05,
      "loss": 0.29887259006500244,
      "memory(GiB)": 70.5,
      "step": 63935,
      "token_acc": 0.9396551724137931,
      "train_speed(iter/s)": 1.447455
    },
    {
      "epoch": 2.739385630435714,
      "grad_norm": 0.8516576886177063,
      "learning_rate": 4.250780305966731e-05,
      "loss": 0.1533438205718994,
      "memory(GiB)": 70.5,
      "step": 63940,
      "token_acc": 0.9688581314878892,
      "train_speed(iter/s)": 1.447457
    },
    {
      "epoch": 2.739599845764963,
      "grad_norm": 1.502975583076477,
      "learning_rate": 4.2501149335923176e-05,
      "loss": 0.16991833448410035,
      "memory(GiB)": 70.5,
      "step": 63945,
      "token_acc": 0.9625850340136054,
      "train_speed(iter/s)": 1.447458
    },
    {
      "epoch": 2.739814061094212,
      "grad_norm": 2.778970241546631,
      "learning_rate": 4.2494495748027776e-05,
      "loss": 0.2557036876678467,
      "memory(GiB)": 70.5,
      "step": 63950,
      "token_acc": 0.9432835820895522,
      "train_speed(iter/s)": 1.447464
    },
    {
      "epoch": 2.7400282764234607,
      "grad_norm": 5.11224365234375,
      "learning_rate": 4.2487842296101615e-05,
      "loss": 0.30615081787109377,
      "memory(GiB)": 70.5,
      "step": 63955,
      "token_acc": 0.9196787148594378,
      "train_speed(iter/s)": 1.447467
    },
    {
      "epoch": 2.74024249175271,
      "grad_norm": 1.9087446928024292,
      "learning_rate": 4.248118898026523e-05,
      "loss": 0.2384951114654541,
      "memory(GiB)": 70.5,
      "step": 63960,
      "token_acc": 0.9375,
      "train_speed(iter/s)": 1.447467
    },
    {
      "epoch": 2.7404567070819588,
      "grad_norm": 4.852374076843262,
      "learning_rate": 4.247453580063917e-05,
      "loss": 0.5609960556030273,
      "memory(GiB)": 70.5,
      "step": 63965,
      "token_acc": 0.8684931506849315,
      "train_speed(iter/s)": 1.44746
    },
    {
      "epoch": 2.7406709224112076,
      "grad_norm": 3.1022226810455322,
      "learning_rate": 4.246788275734393e-05,
      "loss": 0.24230875968933105,
      "memory(GiB)": 70.5,
      "step": 63970,
      "token_acc": 0.9469964664310954,
      "train_speed(iter/s)": 1.447476
    },
    {
      "epoch": 2.740885137740457,
      "grad_norm": 4.598024845123291,
      "learning_rate": 4.2461229850500075e-05,
      "loss": 0.6560426712036133,
      "memory(GiB)": 70.5,
      "step": 63975,
      "token_acc": 0.8636363636363636,
      "train_speed(iter/s)": 1.447474
    },
    {
      "epoch": 2.7410993530697056,
      "grad_norm": 2.8321053981781006,
      "learning_rate": 4.245457708022813e-05,
      "loss": 0.35940191745758054,
      "memory(GiB)": 70.5,
      "step": 63980,
      "token_acc": 0.9097472924187726,
      "train_speed(iter/s)": 1.44747
    },
    {
      "epoch": 2.7413135683989545,
      "grad_norm": 6.34235954284668,
      "learning_rate": 4.244792444664859e-05,
      "loss": 0.3224613904953003,
      "memory(GiB)": 70.5,
      "step": 63985,
      "token_acc": 0.9319526627218935,
      "train_speed(iter/s)": 1.44747
    },
    {
      "epoch": 2.7415277837282037,
      "grad_norm": 3.5585460662841797,
      "learning_rate": 4.2441271949881975e-05,
      "loss": 0.3728576421737671,
      "memory(GiB)": 70.5,
      "step": 63990,
      "token_acc": 0.925531914893617,
      "train_speed(iter/s)": 1.447476
    },
    {
      "epoch": 2.7417419990574525,
      "grad_norm": 3.4094674587249756,
      "learning_rate": 4.2434619590048817e-05,
      "loss": 0.2550528049468994,
      "memory(GiB)": 70.5,
      "step": 63995,
      "token_acc": 0.9484126984126984,
      "train_speed(iter/s)": 1.447492
    },
    {
      "epoch": 2.7419562143867013,
      "grad_norm": 8.502140998840332,
      "learning_rate": 4.242796736726963e-05,
      "loss": 0.6555193424224853,
      "memory(GiB)": 70.5,
      "step": 64000,
      "token_acc": 0.8808664259927798,
      "train_speed(iter/s)": 1.447493
    },
    {
      "epoch": 2.7419562143867013,
      "eval_loss": 2.356330156326294,
      "eval_runtime": 13.1511,
      "eval_samples_per_second": 7.604,
      "eval_steps_per_second": 7.604,
      "eval_token_acc": 0.4607329842931937,
      "step": 64000
    },
    {
      "epoch": 2.7421704297159506,
      "grad_norm": 5.234201431274414,
      "learning_rate": 4.24213152816649e-05,
      "loss": 0.689316987991333,
      "memory(GiB)": 70.5,
      "step": 64005,
      "token_acc": 0.5663117134559535,
      "train_speed(iter/s)": 1.447037
    },
    {
      "epoch": 2.7423846450451994,
      "grad_norm": 4.1237969398498535,
      "learning_rate": 4.241466333335517e-05,
      "loss": 0.5017897605895996,
      "memory(GiB)": 70.5,
      "step": 64010,
      "token_acc": 0.8932806324110671,
      "train_speed(iter/s)": 1.447037
    },
    {
      "epoch": 2.742598860374448,
      "grad_norm": 4.889407634735107,
      "learning_rate": 4.240801152246091e-05,
      "loss": 0.32562599182128904,
      "memory(GiB)": 70.5,
      "step": 64015,
      "token_acc": 0.909433962264151,
      "train_speed(iter/s)": 1.447036
    },
    {
      "epoch": 2.7428130757036975,
      "grad_norm": 1.8664137125015259,
      "learning_rate": 4.2401359849102653e-05,
      "loss": 0.4960677146911621,
      "memory(GiB)": 70.5,
      "step": 64020,
      "token_acc": 0.9096573208722741,
      "train_speed(iter/s)": 1.447037
    },
    {
      "epoch": 2.7430272910329463,
      "grad_norm": 3.156277894973755,
      "learning_rate": 4.2394708313400894e-05,
      "loss": 0.6060359954833985,
      "memory(GiB)": 70.5,
      "step": 64025,
      "token_acc": 0.8654353562005277,
      "train_speed(iter/s)": 1.447034
    },
    {
      "epoch": 2.743241506362195,
      "grad_norm": 5.700826168060303,
      "learning_rate": 4.238805691547612e-05,
      "loss": 0.45258069038391113,
      "memory(GiB)": 70.5,
      "step": 64030,
      "token_acc": 0.90625,
      "train_speed(iter/s)": 1.447041
    },
    {
      "epoch": 2.7434557216914444,
      "grad_norm": 2.147225856781006,
      "learning_rate": 4.238140565544885e-05,
      "loss": 0.1516585111618042,
      "memory(GiB)": 70.5,
      "step": 64035,
      "token_acc": 0.9626436781609196,
      "train_speed(iter/s)": 1.447036
    },
    {
      "epoch": 2.743669937020693,
      "grad_norm": 3.1151797771453857,
      "learning_rate": 4.237475453343955e-05,
      "loss": 0.8099445343017578,
      "memory(GiB)": 70.5,
      "step": 64040,
      "token_acc": 0.8454810495626822,
      "train_speed(iter/s)": 1.447047
    },
    {
      "epoch": 2.743884152349942,
      "grad_norm": 5.937415599822998,
      "learning_rate": 4.236810354956872e-05,
      "loss": 0.42780122756958006,
      "memory(GiB)": 70.5,
      "step": 64045,
      "token_acc": 0.8888888888888888,
      "train_speed(iter/s)": 1.447047
    },
    {
      "epoch": 2.7440983676791912,
      "grad_norm": 1.790346384048462,
      "learning_rate": 4.236145270395685e-05,
      "loss": 0.3047647953033447,
      "memory(GiB)": 70.5,
      "step": 64050,
      "token_acc": 0.9287833827893175,
      "train_speed(iter/s)": 1.447049
    },
    {
      "epoch": 2.74431258300844,
      "grad_norm": 3.745429039001465,
      "learning_rate": 4.2354801996724444e-05,
      "loss": 0.2527316570281982,
      "memory(GiB)": 70.5,
      "step": 64055,
      "token_acc": 0.9498069498069498,
      "train_speed(iter/s)": 1.447041
    },
    {
      "epoch": 2.744526798337689,
      "grad_norm": 9.209460258483887,
      "learning_rate": 4.2348151427991974e-05,
      "loss": 0.29998552799224854,
      "memory(GiB)": 70.5,
      "step": 64060,
      "token_acc": 0.9425981873111783,
      "train_speed(iter/s)": 1.447055
    },
    {
      "epoch": 2.744741013666938,
      "grad_norm": 2.4422948360443115,
      "learning_rate": 4.234150099787991e-05,
      "loss": 0.41063637733459474,
      "memory(GiB)": 70.5,
      "step": 64065,
      "token_acc": 0.8923611111111112,
      "train_speed(iter/s)": 1.447067
    },
    {
      "epoch": 2.744955228996187,
      "grad_norm": 3.244544267654419,
      "learning_rate": 4.233485070650874e-05,
      "loss": 0.23713653087615966,
      "memory(GiB)": 70.5,
      "step": 64070,
      "token_acc": 0.9361702127659575,
      "train_speed(iter/s)": 1.447061
    },
    {
      "epoch": 2.7451694443254357,
      "grad_norm": 2.2838523387908936,
      "learning_rate": 4.2328200553998944e-05,
      "loss": 0.1583117961883545,
      "memory(GiB)": 70.5,
      "step": 64075,
      "token_acc": 0.9424920127795527,
      "train_speed(iter/s)": 1.447074
    },
    {
      "epoch": 2.745383659654685,
      "grad_norm": 1.8464423418045044,
      "learning_rate": 4.2321550540470996e-05,
      "loss": 0.28962907791137693,
      "memory(GiB)": 70.5,
      "step": 64080,
      "token_acc": 0.9451219512195121,
      "train_speed(iter/s)": 1.447074
    },
    {
      "epoch": 2.745597874983934,
      "grad_norm": 4.462709426879883,
      "learning_rate": 4.231490066604536e-05,
      "loss": 0.5141269207000733,
      "memory(GiB)": 70.5,
      "step": 64085,
      "token_acc": 0.9017543859649123,
      "train_speed(iter/s)": 1.44709
    },
    {
      "epoch": 2.7458120903131826,
      "grad_norm": 3.7157177925109863,
      "learning_rate": 4.23082509308425e-05,
      "loss": 0.4260213375091553,
      "memory(GiB)": 70.5,
      "step": 64090,
      "token_acc": 0.8816793893129771,
      "train_speed(iter/s)": 1.447102
    },
    {
      "epoch": 2.746026305642432,
      "grad_norm": 4.9435882568359375,
      "learning_rate": 4.23016013349829e-05,
      "loss": 0.35941166877746583,
      "memory(GiB)": 70.5,
      "step": 64095,
      "token_acc": 0.9423076923076923,
      "train_speed(iter/s)": 1.447116
    },
    {
      "epoch": 2.7462405209716807,
      "grad_norm": 4.961340427398682,
      "learning_rate": 4.229495187858701e-05,
      "loss": 0.4193395137786865,
      "memory(GiB)": 70.5,
      "step": 64100,
      "token_acc": 0.8923076923076924,
      "train_speed(iter/s)": 1.447118
    },
    {
      "epoch": 2.7464547363009295,
      "grad_norm": 1.027000904083252,
      "learning_rate": 4.2288302561775295e-05,
      "loss": 0.20475525856018068,
      "memory(GiB)": 70.5,
      "step": 64105,
      "token_acc": 0.9571428571428572,
      "train_speed(iter/s)": 1.447121
    },
    {
      "epoch": 2.7466689516301788,
      "grad_norm": 3.707071304321289,
      "learning_rate": 4.228165338466821e-05,
      "loss": 0.3381448745727539,
      "memory(GiB)": 70.5,
      "step": 64110,
      "token_acc": 0.9267605633802817,
      "train_speed(iter/s)": 1.447124
    },
    {
      "epoch": 2.7468831669594276,
      "grad_norm": 0.3154057562351227,
      "learning_rate": 4.227500434738622e-05,
      "loss": 0.43197131156921387,
      "memory(GiB)": 70.5,
      "step": 64115,
      "token_acc": 0.8980263157894737,
      "train_speed(iter/s)": 1.447133
    },
    {
      "epoch": 2.7470973822886764,
      "grad_norm": 4.355676174163818,
      "learning_rate": 4.226835545004975e-05,
      "loss": 0.6952884197235107,
      "memory(GiB)": 70.5,
      "step": 64120,
      "token_acc": 0.8544061302681992,
      "train_speed(iter/s)": 1.447129
    },
    {
      "epoch": 2.7473115976179256,
      "grad_norm": 2.641995668411255,
      "learning_rate": 4.226170669277929e-05,
      "loss": 0.5974457740783692,
      "memory(GiB)": 70.5,
      "step": 64125,
      "token_acc": 0.8689138576779026,
      "train_speed(iter/s)": 1.447134
    },
    {
      "epoch": 2.7475258129471745,
      "grad_norm": 2.8492748737335205,
      "learning_rate": 4.225505807569529e-05,
      "loss": 0.484539270401001,
      "memory(GiB)": 70.5,
      "step": 64130,
      "token_acc": 0.903448275862069,
      "train_speed(iter/s)": 1.447137
    },
    {
      "epoch": 2.7477400282764233,
      "grad_norm": 2.9282448291778564,
      "learning_rate": 4.224840959891815e-05,
      "loss": 0.37242951393127444,
      "memory(GiB)": 70.5,
      "step": 64135,
      "token_acc": 0.9288256227758007,
      "train_speed(iter/s)": 1.447134
    },
    {
      "epoch": 2.7479542436056725,
      "grad_norm": 3.0713088512420654,
      "learning_rate": 4.224176126256836e-05,
      "loss": 0.3685158729553223,
      "memory(GiB)": 70.5,
      "step": 64140,
      "token_acc": 0.9239766081871345,
      "train_speed(iter/s)": 1.447135
    },
    {
      "epoch": 2.7481684589349213,
      "grad_norm": 3.255164861679077,
      "learning_rate": 4.223511306676634e-05,
      "loss": 0.2650378942489624,
      "memory(GiB)": 70.5,
      "step": 64145,
      "token_acc": 0.9463087248322147,
      "train_speed(iter/s)": 1.447142
    },
    {
      "epoch": 2.74838267426417,
      "grad_norm": 2.6378471851348877,
      "learning_rate": 4.222846501163253e-05,
      "loss": 0.30159883499145507,
      "memory(GiB)": 70.5,
      "step": 64150,
      "token_acc": 0.9537953795379538,
      "train_speed(iter/s)": 1.447149
    },
    {
      "epoch": 2.7485968895934194,
      "grad_norm": 2.477562189102173,
      "learning_rate": 4.222181709728736e-05,
      "loss": 0.4517836093902588,
      "memory(GiB)": 70.5,
      "step": 64155,
      "token_acc": 0.9007352941176471,
      "train_speed(iter/s)": 1.447165
    },
    {
      "epoch": 2.7488111049226682,
      "grad_norm": 3.0279853343963623,
      "learning_rate": 4.221516932385128e-05,
      "loss": 0.17286239862442015,
      "memory(GiB)": 70.5,
      "step": 64160,
      "token_acc": 0.964516129032258,
      "train_speed(iter/s)": 1.447163
    },
    {
      "epoch": 2.749025320251917,
      "grad_norm": 0.4168773889541626,
      "learning_rate": 4.220852169144471e-05,
      "loss": 0.4140986442565918,
      "memory(GiB)": 70.5,
      "step": 64165,
      "token_acc": 0.9043478260869565,
      "train_speed(iter/s)": 1.447161
    },
    {
      "epoch": 2.7492395355811663,
      "grad_norm": 3.7749009132385254,
      "learning_rate": 4.2201874200188074e-05,
      "loss": 0.25414111614227297,
      "memory(GiB)": 70.5,
      "step": 64170,
      "token_acc": 0.9470198675496688,
      "train_speed(iter/s)": 1.447158
    },
    {
      "epoch": 2.749453750910415,
      "grad_norm": 0.6360145807266235,
      "learning_rate": 4.2195226850201796e-05,
      "loss": 0.2575418949127197,
      "memory(GiB)": 70.5,
      "step": 64175,
      "token_acc": 0.9460431654676259,
      "train_speed(iter/s)": 1.44717
    },
    {
      "epoch": 2.749667966239664,
      "grad_norm": 5.229663848876953,
      "learning_rate": 4.2188579641606316e-05,
      "loss": 0.5130187511444092,
      "memory(GiB)": 70.5,
      "step": 64180,
      "token_acc": 0.8892405063291139,
      "train_speed(iter/s)": 1.447169
    },
    {
      "epoch": 2.749882181568913,
      "grad_norm": 1.9810059070587158,
      "learning_rate": 4.218193257452204e-05,
      "loss": 0.4143965244293213,
      "memory(GiB)": 70.5,
      "step": 64185,
      "token_acc": 0.926829268292683,
      "train_speed(iter/s)": 1.447175
    },
    {
      "epoch": 2.750096396898162,
      "grad_norm": 1.5099080801010132,
      "learning_rate": 4.217528564906938e-05,
      "loss": 0.2960068941116333,
      "memory(GiB)": 70.5,
      "step": 64190,
      "token_acc": 0.931899641577061,
      "train_speed(iter/s)": 1.447179
    },
    {
      "epoch": 2.750310612227411,
      "grad_norm": 3.1403489112854004,
      "learning_rate": 4.2168638865368756e-05,
      "loss": 0.6273831844329834,
      "memory(GiB)": 70.5,
      "step": 64195,
      "token_acc": 0.8693181818181818,
      "train_speed(iter/s)": 1.447189
    },
    {
      "epoch": 2.75052482755666,
      "grad_norm": 3.271702527999878,
      "learning_rate": 4.2161992223540606e-05,
      "loss": 0.5167066097259522,
      "memory(GiB)": 70.5,
      "step": 64200,
      "token_acc": 0.9033457249070632,
      "train_speed(iter/s)": 1.447204
    },
    {
      "epoch": 2.750739042885909,
      "grad_norm": 4.084289073944092,
      "learning_rate": 4.215534572370531e-05,
      "loss": 0.16831663846969605,
      "memory(GiB)": 70.5,
      "step": 64205,
      "token_acc": 0.9728997289972899,
      "train_speed(iter/s)": 1.447208
    },
    {
      "epoch": 2.7509532582151577,
      "grad_norm": 1.7818299531936646,
      "learning_rate": 4.214869936598329e-05,
      "loss": 0.3341160774230957,
      "memory(GiB)": 70.5,
      "step": 64210,
      "token_acc": 0.9505703422053232,
      "train_speed(iter/s)": 1.447206
    },
    {
      "epoch": 2.751167473544407,
      "grad_norm": 5.160538673400879,
      "learning_rate": 4.214205315049494e-05,
      "loss": 0.24617865085601806,
      "memory(GiB)": 70.5,
      "step": 64215,
      "token_acc": 0.9424460431654677,
      "train_speed(iter/s)": 1.447206
    },
    {
      "epoch": 2.7513816888736558,
      "grad_norm": 3.3697612285614014,
      "learning_rate": 4.2135407077360667e-05,
      "loss": 0.6224346160888672,
      "memory(GiB)": 70.5,
      "step": 64220,
      "token_acc": 0.8554216867469879,
      "train_speed(iter/s)": 1.447208
    },
    {
      "epoch": 2.7515959042029046,
      "grad_norm": 3.025794744491577,
      "learning_rate": 4.2128761146700884e-05,
      "loss": 0.3127118110656738,
      "memory(GiB)": 70.5,
      "step": 64225,
      "token_acc": 0.934931506849315,
      "train_speed(iter/s)": 1.447213
    },
    {
      "epoch": 2.751810119532154,
      "grad_norm": 3.1108360290527344,
      "learning_rate": 4.2122115358635975e-05,
      "loss": 0.296408486366272,
      "memory(GiB)": 70.5,
      "step": 64230,
      "token_acc": 0.9407114624505929,
      "train_speed(iter/s)": 1.44722
    },
    {
      "epoch": 2.7520243348614026,
      "grad_norm": 0.1007022112607956,
      "learning_rate": 4.2115469713286325e-05,
      "loss": 0.28120102882385256,
      "memory(GiB)": 70.5,
      "step": 64235,
      "token_acc": 0.9107806691449815,
      "train_speed(iter/s)": 1.447227
    },
    {
      "epoch": 2.7522385501906514,
      "grad_norm": 4.331879615783691,
      "learning_rate": 4.210882421077235e-05,
      "loss": 0.6418715476989746,
      "memory(GiB)": 70.5,
      "step": 64240,
      "token_acc": 0.8716417910447761,
      "train_speed(iter/s)": 1.447221
    },
    {
      "epoch": 2.7524527655199007,
      "grad_norm": 8.471258163452148,
      "learning_rate": 4.210217885121442e-05,
      "loss": 0.27043609619140624,
      "memory(GiB)": 70.5,
      "step": 64245,
      "token_acc": 0.9339622641509434,
      "train_speed(iter/s)": 1.447216
    },
    {
      "epoch": 2.7526669808491495,
      "grad_norm": 4.238602161407471,
      "learning_rate": 4.209553363473293e-05,
      "loss": 0.3701355218887329,
      "memory(GiB)": 70.5,
      "step": 64250,
      "token_acc": 0.9121621621621622,
      "train_speed(iter/s)": 1.44722
    },
    {
      "epoch": 2.7528811961783983,
      "grad_norm": 4.8680291175842285,
      "learning_rate": 4.208888856144826e-05,
      "loss": 0.3940586566925049,
      "memory(GiB)": 70.5,
      "step": 64255,
      "token_acc": 0.9198813056379822,
      "train_speed(iter/s)": 1.447219
    },
    {
      "epoch": 2.7530954115076476,
      "grad_norm": 2.576105833053589,
      "learning_rate": 4.2082243631480795e-05,
      "loss": 0.2913111686706543,
      "memory(GiB)": 70.5,
      "step": 64260,
      "token_acc": 0.9438596491228071,
      "train_speed(iter/s)": 1.447222
    },
    {
      "epoch": 2.7533096268368964,
      "grad_norm": 5.844583988189697,
      "learning_rate": 4.207559884495092e-05,
      "loss": 0.4956247329711914,
      "memory(GiB)": 70.5,
      "step": 64265,
      "token_acc": 0.9045643153526971,
      "train_speed(iter/s)": 1.447226
    },
    {
      "epoch": 2.753523842166145,
      "grad_norm": 2.1192967891693115,
      "learning_rate": 4.2068954201978985e-05,
      "loss": 0.26144044399261473,
      "memory(GiB)": 70.5,
      "step": 64270,
      "token_acc": 0.9459459459459459,
      "train_speed(iter/s)": 1.447233
    },
    {
      "epoch": 2.7537380574953945,
      "grad_norm": 3.906113624572754,
      "learning_rate": 4.2062309702685404e-05,
      "loss": 0.3883247375488281,
      "memory(GiB)": 70.5,
      "step": 64275,
      "token_acc": 0.9197080291970803,
      "train_speed(iter/s)": 1.447249
    },
    {
      "epoch": 2.7539522728246433,
      "grad_norm": 2.5599873065948486,
      "learning_rate": 4.205566534719052e-05,
      "loss": 0.30041463375091554,
      "memory(GiB)": 70.5,
      "step": 64280,
      "token_acc": 0.9259259259259259,
      "train_speed(iter/s)": 1.447247
    },
    {
      "epoch": 2.754166488153892,
      "grad_norm": 3.517768383026123,
      "learning_rate": 4.204902113561472e-05,
      "loss": 0.3461506128311157,
      "memory(GiB)": 70.5,
      "step": 64285,
      "token_acc": 0.9210526315789473,
      "train_speed(iter/s)": 1.447259
    },
    {
      "epoch": 2.7543807034831413,
      "grad_norm": 1.597086787223816,
      "learning_rate": 4.204237706807836e-05,
      "loss": 0.6599215507507324,
      "memory(GiB)": 70.5,
      "step": 64290,
      "token_acc": 0.851963746223565,
      "train_speed(iter/s)": 1.447276
    },
    {
      "epoch": 2.75459491881239,
      "grad_norm": 2.812886953353882,
      "learning_rate": 4.20357331447018e-05,
      "loss": 0.5245871543884277,
      "memory(GiB)": 70.5,
      "step": 64295,
      "token_acc": 0.8994413407821229,
      "train_speed(iter/s)": 1.447277
    },
    {
      "epoch": 2.754809134141639,
      "grad_norm": 0.40455085039138794,
      "learning_rate": 4.202908936560541e-05,
      "loss": 0.42578749656677245,
      "memory(GiB)": 70.5,
      "step": 64300,
      "token_acc": 0.929368029739777,
      "train_speed(iter/s)": 1.447282
    },
    {
      "epoch": 2.7550233494708882,
      "grad_norm": 4.056870937347412,
      "learning_rate": 4.202244573090954e-05,
      "loss": 0.31157944202423093,
      "memory(GiB)": 70.5,
      "step": 64305,
      "token_acc": 0.927710843373494,
      "train_speed(iter/s)": 1.447282
    },
    {
      "epoch": 2.755237564800137,
      "grad_norm": 0.20379763841629028,
      "learning_rate": 4.2015802240734554e-05,
      "loss": 0.26846387386322024,
      "memory(GiB)": 70.5,
      "step": 64310,
      "token_acc": 0.9493243243243243,
      "train_speed(iter/s)": 1.447287
    },
    {
      "epoch": 2.755451780129386,
      "grad_norm": 2.1695361137390137,
      "learning_rate": 4.200915889520079e-05,
      "loss": 0.28403141498565676,
      "memory(GiB)": 70.5,
      "step": 64315,
      "token_acc": 0.9315960912052117,
      "train_speed(iter/s)": 1.447296
    },
    {
      "epoch": 2.755665995458635,
      "grad_norm": 0.8568649291992188,
      "learning_rate": 4.2002515694428616e-05,
      "loss": 0.42678537368774416,
      "memory(GiB)": 70.5,
      "step": 64320,
      "token_acc": 0.921161825726141,
      "train_speed(iter/s)": 1.447301
    },
    {
      "epoch": 2.755880210787884,
      "grad_norm": 2.4218404293060303,
      "learning_rate": 4.1995872638538375e-05,
      "loss": 0.3117112636566162,
      "memory(GiB)": 70.5,
      "step": 64325,
      "token_acc": 0.9364161849710982,
      "train_speed(iter/s)": 1.447308
    },
    {
      "epoch": 2.7560944261171327,
      "grad_norm": 5.570744037628174,
      "learning_rate": 4.1989229727650416e-05,
      "loss": 0.49114260673522947,
      "memory(GiB)": 70.5,
      "step": 64330,
      "token_acc": 0.9113924050632911,
      "train_speed(iter/s)": 1.447313
    },
    {
      "epoch": 2.756308641446382,
      "grad_norm": 4.874022960662842,
      "learning_rate": 4.1982586961885054e-05,
      "loss": 0.40097436904907224,
      "memory(GiB)": 70.5,
      "step": 64335,
      "token_acc": 0.9134948096885813,
      "train_speed(iter/s)": 1.44731
    },
    {
      "epoch": 2.756522856775631,
      "grad_norm": 1.8916562795639038,
      "learning_rate": 4.1975944341362646e-05,
      "loss": 0.20904288291931153,
      "memory(GiB)": 70.5,
      "step": 64340,
      "token_acc": 0.95,
      "train_speed(iter/s)": 1.447313
    },
    {
      "epoch": 2.7567370721048796,
      "grad_norm": 3.9541051387786865,
      "learning_rate": 4.196930186620355e-05,
      "loss": 0.3687300682067871,
      "memory(GiB)": 70.5,
      "step": 64345,
      "token_acc": 0.9187192118226601,
      "train_speed(iter/s)": 1.447317
    },
    {
      "epoch": 2.756951287434129,
      "grad_norm": 0.6775537729263306,
      "learning_rate": 4.196265953652809e-05,
      "loss": 0.3274896860122681,
      "memory(GiB)": 70.5,
      "step": 64350,
      "token_acc": 0.9382239382239382,
      "train_speed(iter/s)": 1.447326
    },
    {
      "epoch": 2.7571655027633777,
      "grad_norm": 8.297306060791016,
      "learning_rate": 4.195601735245658e-05,
      "loss": 0.7100034236907959,
      "memory(GiB)": 70.5,
      "step": 64355,
      "token_acc": 0.8550295857988166,
      "train_speed(iter/s)": 1.447336
    },
    {
      "epoch": 2.7573797180926265,
      "grad_norm": 5.865365982055664,
      "learning_rate": 4.194937531410937e-05,
      "loss": 0.37453982830047605,
      "memory(GiB)": 70.5,
      "step": 64360,
      "token_acc": 0.9441176470588235,
      "train_speed(iter/s)": 1.447363
    },
    {
      "epoch": 2.7575939334218758,
      "grad_norm": 2.12463116645813,
      "learning_rate": 4.1942733421606764e-05,
      "loss": 0.43750791549682616,
      "memory(GiB)": 70.5,
      "step": 64365,
      "token_acc": 0.9064748201438849,
      "train_speed(iter/s)": 1.447363
    },
    {
      "epoch": 2.7578081487511246,
      "grad_norm": 1.0944751501083374,
      "learning_rate": 4.193609167506912e-05,
      "loss": 0.49049787521362304,
      "memory(GiB)": 70.5,
      "step": 64370,
      "token_acc": 0.9139784946236559,
      "train_speed(iter/s)": 1.447362
    },
    {
      "epoch": 2.7580223640803734,
      "grad_norm": 2.8608176708221436,
      "learning_rate": 4.1929450074616734e-05,
      "loss": 0.471663236618042,
      "memory(GiB)": 70.5,
      "step": 64375,
      "token_acc": 0.8950437317784257,
      "train_speed(iter/s)": 1.447369
    },
    {
      "epoch": 2.7582365794096226,
      "grad_norm": 0.720837414264679,
      "learning_rate": 4.192280862036992e-05,
      "loss": 0.29541356563568116,
      "memory(GiB)": 70.5,
      "step": 64380,
      "token_acc": 0.9449838187702265,
      "train_speed(iter/s)": 1.447369
    },
    {
      "epoch": 2.7584507947388714,
      "grad_norm": 3.3965132236480713,
      "learning_rate": 4.1916167312449014e-05,
      "loss": 0.335845947265625,
      "memory(GiB)": 70.5,
      "step": 64385,
      "token_acc": 0.9411764705882353,
      "train_speed(iter/s)": 1.447371
    },
    {
      "epoch": 2.7586650100681203,
      "grad_norm": 4.045267105102539,
      "learning_rate": 4.1909526150974326e-05,
      "loss": 0.16934466361999512,
      "memory(GiB)": 70.5,
      "step": 64390,
      "token_acc": 0.9512987012987013,
      "train_speed(iter/s)": 1.447373
    },
    {
      "epoch": 2.7588792253973695,
      "grad_norm": 2.699507713317871,
      "learning_rate": 4.190288513606615e-05,
      "loss": 0.13958394527435303,
      "memory(GiB)": 70.5,
      "step": 64395,
      "token_acc": 0.9698996655518395,
      "train_speed(iter/s)": 1.447376
    },
    {
      "epoch": 2.7590934407266183,
      "grad_norm": 0.5227271318435669,
      "learning_rate": 4.189624426784481e-05,
      "loss": 0.22514455318450927,
      "memory(GiB)": 70.5,
      "step": 64400,
      "token_acc": 0.928082191780822,
      "train_speed(iter/s)": 1.44737
    },
    {
      "epoch": 2.759307656055867,
      "grad_norm": 2.830543041229248,
      "learning_rate": 4.18896035464306e-05,
      "loss": 0.4722576141357422,
      "memory(GiB)": 70.5,
      "step": 64405,
      "token_acc": 0.8951310861423221,
      "train_speed(iter/s)": 1.447369
    },
    {
      "epoch": 2.7595218713851164,
      "grad_norm": 1.9185919761657715,
      "learning_rate": 4.188296297194384e-05,
      "loss": 0.07396316528320312,
      "memory(GiB)": 70.5,
      "step": 64410,
      "token_acc": 0.9771863117870723,
      "train_speed(iter/s)": 1.44738
    },
    {
      "epoch": 2.759736086714365,
      "grad_norm": 2.418405532836914,
      "learning_rate": 4.18763225445048e-05,
      "loss": 0.2585972785949707,
      "memory(GiB)": 70.5,
      "step": 64415,
      "token_acc": 0.9464285714285714,
      "train_speed(iter/s)": 1.447383
    },
    {
      "epoch": 2.759950302043614,
      "grad_norm": 1.9479100704193115,
      "learning_rate": 4.1869682264233826e-05,
      "loss": 0.29885573387145997,
      "memory(GiB)": 70.5,
      "step": 64420,
      "token_acc": 0.9424460431654677,
      "train_speed(iter/s)": 1.447397
    },
    {
      "epoch": 2.7601645173728633,
      "grad_norm": 2.0083351135253906,
      "learning_rate": 4.186304213125116e-05,
      "loss": 0.32686920166015626,
      "memory(GiB)": 70.5,
      "step": 64425,
      "token_acc": 0.91796875,
      "train_speed(iter/s)": 1.447402
    },
    {
      "epoch": 2.760378732702112,
      "grad_norm": 4.134090900421143,
      "learning_rate": 4.185640214567714e-05,
      "loss": 0.6171991348266601,
      "memory(GiB)": 70.5,
      "step": 64430,
      "token_acc": 0.8490566037735849,
      "train_speed(iter/s)": 1.447404
    },
    {
      "epoch": 2.760592948031361,
      "grad_norm": 2.885958671569824,
      "learning_rate": 4.184976230763203e-05,
      "loss": 0.2849236488342285,
      "memory(GiB)": 70.5,
      "step": 64435,
      "token_acc": 0.9324324324324325,
      "train_speed(iter/s)": 1.447402
    },
    {
      "epoch": 2.76080716336061,
      "grad_norm": 2.3937363624572754,
      "learning_rate": 4.1843122617236106e-05,
      "loss": 0.4060819625854492,
      "memory(GiB)": 70.5,
      "step": 64440,
      "token_acc": 0.9273356401384083,
      "train_speed(iter/s)": 1.447408
    },
    {
      "epoch": 2.761021378689859,
      "grad_norm": 3.775437116622925,
      "learning_rate": 4.183648307460969e-05,
      "loss": 0.3258893251419067,
      "memory(GiB)": 70.5,
      "step": 64445,
      "token_acc": 0.926056338028169,
      "train_speed(iter/s)": 1.447428
    },
    {
      "epoch": 2.761235594019108,
      "grad_norm": 5.188766956329346,
      "learning_rate": 4.182984367987302e-05,
      "loss": 0.45186190605163573,
      "memory(GiB)": 70.5,
      "step": 64450,
      "token_acc": 0.8951048951048951,
      "train_speed(iter/s)": 1.447444
    },
    {
      "epoch": 2.761449809348357,
      "grad_norm": 4.472078800201416,
      "learning_rate": 4.182320443314641e-05,
      "loss": 0.34918889999389646,
      "memory(GiB)": 70.5,
      "step": 64455,
      "token_acc": 0.9166666666666666,
      "train_speed(iter/s)": 1.447444
    },
    {
      "epoch": 2.761664024677606,
      "grad_norm": 3.6090171337127686,
      "learning_rate": 4.181656533455013e-05,
      "loss": 0.5202494621276855,
      "memory(GiB)": 70.5,
      "step": 64460,
      "token_acc": 0.8961038961038961,
      "train_speed(iter/s)": 1.447443
    },
    {
      "epoch": 2.7618782400068547,
      "grad_norm": 4.033676624298096,
      "learning_rate": 4.1809926384204426e-05,
      "loss": 0.44240412712097166,
      "memory(GiB)": 70.5,
      "step": 64465,
      "token_acc": 0.8850574712643678,
      "train_speed(iter/s)": 1.447456
    },
    {
      "epoch": 2.762092455336104,
      "grad_norm": 2.78326153755188,
      "learning_rate": 4.18032875822296e-05,
      "loss": 0.30789010524749755,
      "memory(GiB)": 70.5,
      "step": 64470,
      "token_acc": 0.9347079037800687,
      "train_speed(iter/s)": 1.447461
    },
    {
      "epoch": 2.7623066706653527,
      "grad_norm": 3.7348554134368896,
      "learning_rate": 4.179664892874591e-05,
      "loss": 0.4051199913024902,
      "memory(GiB)": 70.5,
      "step": 64475,
      "token_acc": 0.9292929292929293,
      "train_speed(iter/s)": 1.447458
    },
    {
      "epoch": 2.7625208859946015,
      "grad_norm": 2.7712533473968506,
      "learning_rate": 4.17900104238736e-05,
      "loss": 0.41397881507873535,
      "memory(GiB)": 70.5,
      "step": 64480,
      "token_acc": 0.8842443729903537,
      "train_speed(iter/s)": 1.447461
    },
    {
      "epoch": 2.762735101323851,
      "grad_norm": 1.29079008102417,
      "learning_rate": 4.1783372067732977e-05,
      "loss": 0.48822813034057616,
      "memory(GiB)": 70.5,
      "step": 64485,
      "token_acc": 0.8859060402684564,
      "train_speed(iter/s)": 1.447479
    },
    {
      "epoch": 2.7629493166530996,
      "grad_norm": 0.25128626823425293,
      "learning_rate": 4.177673386044425e-05,
      "loss": 0.26605615615844724,
      "memory(GiB)": 70.5,
      "step": 64490,
      "token_acc": 0.9439655172413793,
      "train_speed(iter/s)": 1.447485
    },
    {
      "epoch": 2.7631635319823484,
      "grad_norm": 2.483635187149048,
      "learning_rate": 4.177009580212773e-05,
      "loss": 0.410248327255249,
      "memory(GiB)": 70.5,
      "step": 64495,
      "token_acc": 0.8969465648854962,
      "train_speed(iter/s)": 1.447499
    },
    {
      "epoch": 2.7633777473115977,
      "grad_norm": 3.9132144451141357,
      "learning_rate": 4.176345789290363e-05,
      "loss": 0.604255199432373,
      "memory(GiB)": 70.5,
      "step": 64500,
      "token_acc": 0.8783382789317508,
      "train_speed(iter/s)": 1.447497
    },
    {
      "epoch": 2.7633777473115977,
      "eval_loss": 2.5938799381256104,
      "eval_runtime": 12.752,
      "eval_samples_per_second": 7.842,
      "eval_steps_per_second": 7.842,
      "eval_token_acc": 0.4528061224489796,
      "step": 64500
    },
    {
      "epoch": 2.7635919626408465,
      "grad_norm": 3.3909194469451904,
      "learning_rate": 4.175682013289223e-05,
      "loss": 0.22704715728759767,
      "memory(GiB)": 70.5,
      "step": 64505,
      "token_acc": 0.5754082612872238,
      "train_speed(iter/s)": 1.44706
    },
    {
      "epoch": 2.7638061779700953,
      "grad_norm": 4.658672332763672,
      "learning_rate": 4.1750182522213745e-05,
      "loss": 0.4202091217041016,
      "memory(GiB)": 70.5,
      "step": 64510,
      "token_acc": 0.9036144578313253,
      "train_speed(iter/s)": 1.447077
    },
    {
      "epoch": 2.7640203932993446,
      "grad_norm": 4.664797782897949,
      "learning_rate": 4.174354506098847e-05,
      "loss": 0.5492270946502685,
      "memory(GiB)": 70.5,
      "step": 64515,
      "token_acc": 0.8896797153024911,
      "train_speed(iter/s)": 1.447078
    },
    {
      "epoch": 2.7642346086285934,
      "grad_norm": 3.524773120880127,
      "learning_rate": 4.1736907749336603e-05,
      "loss": 0.23233861923217775,
      "memory(GiB)": 70.5,
      "step": 64520,
      "token_acc": 0.954225352112676,
      "train_speed(iter/s)": 1.447086
    },
    {
      "epoch": 2.764448823957842,
      "grad_norm": 4.936490535736084,
      "learning_rate": 4.17302705873784e-05,
      "loss": 0.4504572868347168,
      "memory(GiB)": 70.5,
      "step": 64525,
      "token_acc": 0.9039145907473309,
      "train_speed(iter/s)": 1.447086
    },
    {
      "epoch": 2.7646630392870915,
      "grad_norm": 4.39907169342041,
      "learning_rate": 4.172363357523412e-05,
      "loss": 0.37729334831237793,
      "memory(GiB)": 70.5,
      "step": 64530,
      "token_acc": 0.8954248366013072,
      "train_speed(iter/s)": 1.447086
    },
    {
      "epoch": 2.7648772546163403,
      "grad_norm": 5.258445739746094,
      "learning_rate": 4.1716996713023976e-05,
      "loss": 0.3056314468383789,
      "memory(GiB)": 70.5,
      "step": 64535,
      "token_acc": 0.9427609427609428,
      "train_speed(iter/s)": 1.447091
    },
    {
      "epoch": 2.765091469945589,
      "grad_norm": 2.3570480346679688,
      "learning_rate": 4.17103600008682e-05,
      "loss": 0.5240492820739746,
      "memory(GiB)": 70.5,
      "step": 64540,
      "token_acc": 0.8918918918918919,
      "train_speed(iter/s)": 1.447117
    },
    {
      "epoch": 2.7653056852748383,
      "grad_norm": 3.910691022872925,
      "learning_rate": 4.170372343888703e-05,
      "loss": 0.40659055709838865,
      "memory(GiB)": 70.5,
      "step": 64545,
      "token_acc": 0.9116719242902208,
      "train_speed(iter/s)": 1.447122
    },
    {
      "epoch": 2.765519900604087,
      "grad_norm": 4.172811985015869,
      "learning_rate": 4.169708702720069e-05,
      "loss": 0.34165616035461427,
      "memory(GiB)": 70.5,
      "step": 64550,
      "token_acc": 0.9135338345864662,
      "train_speed(iter/s)": 1.447138
    },
    {
      "epoch": 2.765734115933336,
      "grad_norm": 2.178283929824829,
      "learning_rate": 4.169045076592942e-05,
      "loss": 0.2027437686920166,
      "memory(GiB)": 70.5,
      "step": 64555,
      "token_acc": 0.9522184300341296,
      "train_speed(iter/s)": 1.447143
    },
    {
      "epoch": 2.765948331262585,
      "grad_norm": 1.4516924619674683,
      "learning_rate": 4.168381465519342e-05,
      "loss": 0.30718603134155276,
      "memory(GiB)": 70.5,
      "step": 64560,
      "token_acc": 0.9354838709677419,
      "train_speed(iter/s)": 1.447151
    },
    {
      "epoch": 2.766162546591834,
      "grad_norm": 3.997983694076538,
      "learning_rate": 4.167717869511291e-05,
      "loss": 0.373547625541687,
      "memory(GiB)": 70.5,
      "step": 64565,
      "token_acc": 0.9318181818181818,
      "train_speed(iter/s)": 1.44715
    },
    {
      "epoch": 2.766376761921083,
      "grad_norm": 3.704028367996216,
      "learning_rate": 4.167054288580812e-05,
      "loss": 0.31400165557861326,
      "memory(GiB)": 70.5,
      "step": 64570,
      "token_acc": 0.9192307692307692,
      "train_speed(iter/s)": 1.447152
    },
    {
      "epoch": 2.766590977250332,
      "grad_norm": 0.57720947265625,
      "learning_rate": 4.166390722739926e-05,
      "loss": 0.4853196144104004,
      "memory(GiB)": 70.5,
      "step": 64575,
      "token_acc": 0.9083969465648855,
      "train_speed(iter/s)": 1.447152
    },
    {
      "epoch": 2.766805192579581,
      "grad_norm": 1.3825042247772217,
      "learning_rate": 4.165727172000655e-05,
      "loss": 0.5712833881378174,
      "memory(GiB)": 70.5,
      "step": 64580,
      "token_acc": 0.8986486486486487,
      "train_speed(iter/s)": 1.447169
    },
    {
      "epoch": 2.7670194079088297,
      "grad_norm": 2.686846971511841,
      "learning_rate": 4.165063636375018e-05,
      "loss": 0.38083834648132325,
      "memory(GiB)": 70.5,
      "step": 64585,
      "token_acc": 0.9336870026525199,
      "train_speed(iter/s)": 1.447166
    },
    {
      "epoch": 2.767233623238079,
      "grad_norm": 2.648146867752075,
      "learning_rate": 4.164400115875037e-05,
      "loss": 0.499160099029541,
      "memory(GiB)": 70.5,
      "step": 64590,
      "token_acc": 0.8706624605678234,
      "train_speed(iter/s)": 1.447162
    },
    {
      "epoch": 2.767447838567328,
      "grad_norm": 1.5507270097732544,
      "learning_rate": 4.1637366105127315e-05,
      "loss": 0.2310617446899414,
      "memory(GiB)": 70.5,
      "step": 64595,
      "token_acc": 0.9552715654952076,
      "train_speed(iter/s)": 1.447182
    },
    {
      "epoch": 2.7676620538965766,
      "grad_norm": 2.697460889816284,
      "learning_rate": 4.163073120300122e-05,
      "loss": 0.27885434627532957,
      "memory(GiB)": 70.5,
      "step": 64600,
      "token_acc": 0.9320388349514563,
      "train_speed(iter/s)": 1.447181
    },
    {
      "epoch": 2.767876269225826,
      "grad_norm": 1.3462733030319214,
      "learning_rate": 4.162409645249228e-05,
      "loss": 0.22039551734924318,
      "memory(GiB)": 70.5,
      "step": 64605,
      "token_acc": 0.9528985507246377,
      "train_speed(iter/s)": 1.447188
    },
    {
      "epoch": 2.7680904845550747,
      "grad_norm": 0.4477658271789551,
      "learning_rate": 4.1617461853720685e-05,
      "loss": 0.4889101505279541,
      "memory(GiB)": 70.5,
      "step": 64610,
      "token_acc": 0.9267399267399268,
      "train_speed(iter/s)": 1.447197
    },
    {
      "epoch": 2.7683046998843235,
      "grad_norm": 3.747922897338867,
      "learning_rate": 4.161082740680664e-05,
      "loss": 0.5222739219665528,
      "memory(GiB)": 70.5,
      "step": 64615,
      "token_acc": 0.8797814207650273,
      "train_speed(iter/s)": 1.447202
    },
    {
      "epoch": 2.7685189152135727,
      "grad_norm": 3.24414324760437,
      "learning_rate": 4.160419311187033e-05,
      "loss": 0.5671875,
      "memory(GiB)": 70.5,
      "step": 64620,
      "token_acc": 0.8557046979865772,
      "train_speed(iter/s)": 1.447201
    },
    {
      "epoch": 2.7687331305428216,
      "grad_norm": 7.235586166381836,
      "learning_rate": 4.1597558969031924e-05,
      "loss": 0.20189988613128662,
      "memory(GiB)": 70.5,
      "step": 64625,
      "token_acc": 0.956989247311828,
      "train_speed(iter/s)": 1.447192
    },
    {
      "epoch": 2.7689473458720704,
      "grad_norm": 8.123555183410645,
      "learning_rate": 4.159092497841163e-05,
      "loss": 0.3075474739074707,
      "memory(GiB)": 70.5,
      "step": 64630,
      "token_acc": 0.9461538461538461,
      "train_speed(iter/s)": 1.447196
    },
    {
      "epoch": 2.7691615612013196,
      "grad_norm": 2.73297119140625,
      "learning_rate": 4.15842911401296e-05,
      "loss": 0.29380652904510496,
      "memory(GiB)": 70.5,
      "step": 64635,
      "token_acc": 0.9194139194139194,
      "train_speed(iter/s)": 1.447215
    },
    {
      "epoch": 2.7693757765305684,
      "grad_norm": 2.1140921115875244,
      "learning_rate": 4.157765745430605e-05,
      "loss": 0.5138519287109375,
      "memory(GiB)": 70.5,
      "step": 64640,
      "token_acc": 0.8848920863309353,
      "train_speed(iter/s)": 1.447226
    },
    {
      "epoch": 2.7695899918598172,
      "grad_norm": 4.180202007293701,
      "learning_rate": 4.157102392106112e-05,
      "loss": 0.42391467094421387,
      "memory(GiB)": 70.5,
      "step": 64645,
      "token_acc": 0.8842105263157894,
      "train_speed(iter/s)": 1.447226
    },
    {
      "epoch": 2.7698042071890665,
      "grad_norm": 3.212494373321533,
      "learning_rate": 4.156439054051501e-05,
      "loss": 0.3758485555648804,
      "memory(GiB)": 70.5,
      "step": 64650,
      "token_acc": 0.9143835616438356,
      "train_speed(iter/s)": 1.44722
    },
    {
      "epoch": 2.7700184225183153,
      "grad_norm": 2.735640048980713,
      "learning_rate": 4.1557757312787874e-05,
      "loss": 0.48067054748535154,
      "memory(GiB)": 70.5,
      "step": 64655,
      "token_acc": 0.9096209912536443,
      "train_speed(iter/s)": 1.447226
    },
    {
      "epoch": 2.770232637847564,
      "grad_norm": 2.398343563079834,
      "learning_rate": 4.1551124237999895e-05,
      "loss": 0.3100878238677979,
      "memory(GiB)": 70.5,
      "step": 64660,
      "token_acc": 0.9482071713147411,
      "train_speed(iter/s)": 1.44724
    },
    {
      "epoch": 2.7704468531768134,
      "grad_norm": 1.4659647941589355,
      "learning_rate": 4.1544491316271224e-05,
      "loss": 0.46073288917541505,
      "memory(GiB)": 70.5,
      "step": 64665,
      "token_acc": 0.9188311688311688,
      "train_speed(iter/s)": 1.447247
    },
    {
      "epoch": 2.770661068506062,
      "grad_norm": 7.9042863845825195,
      "learning_rate": 4.153785854772201e-05,
      "loss": 0.7685583114624024,
      "memory(GiB)": 70.5,
      "step": 64670,
      "token_acc": 0.8379204892966361,
      "train_speed(iter/s)": 1.447247
    },
    {
      "epoch": 2.770875283835311,
      "grad_norm": 0.23309653997421265,
      "learning_rate": 4.153122593247244e-05,
      "loss": 0.22178409099578858,
      "memory(GiB)": 70.5,
      "step": 64675,
      "token_acc": 0.9504373177842566,
      "train_speed(iter/s)": 1.447246
    },
    {
      "epoch": 2.7710894991645603,
      "grad_norm": 2.417905330657959,
      "learning_rate": 4.1524593470642656e-05,
      "loss": 0.3942133903503418,
      "memory(GiB)": 70.5,
      "step": 64680,
      "token_acc": 0.9081364829396326,
      "train_speed(iter/s)": 1.447243
    },
    {
      "epoch": 2.771303714493809,
      "grad_norm": 1.842147707939148,
      "learning_rate": 4.15179611623528e-05,
      "loss": 0.13138712644577027,
      "memory(GiB)": 70.5,
      "step": 64685,
      "token_acc": 0.9666666666666667,
      "train_speed(iter/s)": 1.447243
    },
    {
      "epoch": 2.771517929823058,
      "grad_norm": 3.2145869731903076,
      "learning_rate": 4.1511329007723046e-05,
      "loss": 0.34955592155456544,
      "memory(GiB)": 70.5,
      "step": 64690,
      "token_acc": 0.9191176470588235,
      "train_speed(iter/s)": 1.447237
    },
    {
      "epoch": 2.771732145152307,
      "grad_norm": 3.617306709289551,
      "learning_rate": 4.1504697006873524e-05,
      "loss": 0.2527862310409546,
      "memory(GiB)": 70.5,
      "step": 64695,
      "token_acc": 0.9405204460966543,
      "train_speed(iter/s)": 1.447241
    },
    {
      "epoch": 2.771946360481556,
      "grad_norm": 4.195311546325684,
      "learning_rate": 4.1498065159924394e-05,
      "loss": 0.21672587394714354,
      "memory(GiB)": 70.5,
      "step": 64700,
      "token_acc": 0.9522184300341296,
      "train_speed(iter/s)": 1.447242
    },
    {
      "epoch": 2.7721605758108048,
      "grad_norm": 3.529592514038086,
      "learning_rate": 4.149143346699579e-05,
      "loss": 0.32183313369750977,
      "memory(GiB)": 70.5,
      "step": 64705,
      "token_acc": 0.94140625,
      "train_speed(iter/s)": 1.447249
    },
    {
      "epoch": 2.772374791140054,
      "grad_norm": 4.510876655578613,
      "learning_rate": 4.1484801928207824e-05,
      "loss": 0.3843485593795776,
      "memory(GiB)": 70.5,
      "step": 64710,
      "token_acc": 0.9179331306990881,
      "train_speed(iter/s)": 1.447238
    },
    {
      "epoch": 2.772589006469303,
      "grad_norm": 5.611743927001953,
      "learning_rate": 4.1478170543680664e-05,
      "loss": 0.2822412967681885,
      "memory(GiB)": 70.5,
      "step": 64715,
      "token_acc": 0.953125,
      "train_speed(iter/s)": 1.447243
    },
    {
      "epoch": 2.7728032217985517,
      "grad_norm": 5.408237934112549,
      "learning_rate": 4.147153931353446e-05,
      "loss": 0.7725577354431152,
      "memory(GiB)": 70.5,
      "step": 64720,
      "token_acc": 0.8527397260273972,
      "train_speed(iter/s)": 1.447255
    },
    {
      "epoch": 2.773017437127801,
      "grad_norm": 3.0940282344818115,
      "learning_rate": 4.1464908237889324e-05,
      "loss": 0.2764521598815918,
      "memory(GiB)": 70.5,
      "step": 64725,
      "token_acc": 0.9482071713147411,
      "train_speed(iter/s)": 1.447259
    },
    {
      "epoch": 2.7732316524570497,
      "grad_norm": 4.313165664672852,
      "learning_rate": 4.145827731686536e-05,
      "loss": 0.2625635385513306,
      "memory(GiB)": 70.5,
      "step": 64730,
      "token_acc": 0.9387755102040817,
      "train_speed(iter/s)": 1.447271
    },
    {
      "epoch": 2.7734458677862985,
      "grad_norm": 5.906126499176025,
      "learning_rate": 4.145164655058273e-05,
      "loss": 0.5787650108337402,
      "memory(GiB)": 70.5,
      "step": 64735,
      "token_acc": 0.8661971830985915,
      "train_speed(iter/s)": 1.447279
    },
    {
      "epoch": 2.773660083115548,
      "grad_norm": 5.032597541809082,
      "learning_rate": 4.144501593916154e-05,
      "loss": 0.18278589248657226,
      "memory(GiB)": 70.5,
      "step": 64740,
      "token_acc": 0.9523809523809523,
      "train_speed(iter/s)": 1.447279
    },
    {
      "epoch": 2.7738742984447966,
      "grad_norm": 2.7044591903686523,
      "learning_rate": 4.1438385482721913e-05,
      "loss": 0.38160719871521,
      "memory(GiB)": 70.5,
      "step": 64745,
      "token_acc": 0.9322033898305084,
      "train_speed(iter/s)": 1.447285
    },
    {
      "epoch": 2.7740885137740454,
      "grad_norm": 5.301630020141602,
      "learning_rate": 4.143175518138397e-05,
      "loss": 0.29948840141296384,
      "memory(GiB)": 70.5,
      "step": 64750,
      "token_acc": 0.9297658862876255,
      "train_speed(iter/s)": 1.447278
    },
    {
      "epoch": 2.7743027291032947,
      "grad_norm": 5.285496711730957,
      "learning_rate": 4.14251250352678e-05,
      "loss": 0.5495663642883301,
      "memory(GiB)": 70.5,
      "step": 64755,
      "token_acc": 0.8943661971830986,
      "train_speed(iter/s)": 1.447276
    },
    {
      "epoch": 2.7745169444325435,
      "grad_norm": 2.504960298538208,
      "learning_rate": 4.141849504449355e-05,
      "loss": 0.5839006900787354,
      "memory(GiB)": 70.5,
      "step": 64760,
      "token_acc": 0.8621908127208481,
      "train_speed(iter/s)": 1.447291
    },
    {
      "epoch": 2.7747311597617923,
      "grad_norm": 4.319902420043945,
      "learning_rate": 4.141186520918132e-05,
      "loss": 0.4011786460876465,
      "memory(GiB)": 70.5,
      "step": 64765,
      "token_acc": 0.9041533546325878,
      "train_speed(iter/s)": 1.447298
    },
    {
      "epoch": 2.7749453750910416,
      "grad_norm": 3.0023369789123535,
      "learning_rate": 4.140523552945118e-05,
      "loss": 0.43236145973205564,
      "memory(GiB)": 70.5,
      "step": 64770,
      "token_acc": 0.9,
      "train_speed(iter/s)": 1.447298
    },
    {
      "epoch": 2.7751595904202904,
      "grad_norm": 2.7904255390167236,
      "learning_rate": 4.1398606005423284e-05,
      "loss": 0.21042978763580322,
      "memory(GiB)": 70.5,
      "step": 64775,
      "token_acc": 0.9522292993630573,
      "train_speed(iter/s)": 1.447292
    },
    {
      "epoch": 2.775373805749539,
      "grad_norm": 4.137453556060791,
      "learning_rate": 4.13919766372177e-05,
      "loss": 0.5895178318023682,
      "memory(GiB)": 70.5,
      "step": 64780,
      "token_acc": 0.8791208791208791,
      "train_speed(iter/s)": 1.447294
    },
    {
      "epoch": 2.7755880210787884,
      "grad_norm": 3.896679162979126,
      "learning_rate": 4.1385347424954526e-05,
      "loss": 0.23463189601898193,
      "memory(GiB)": 70.5,
      "step": 64785,
      "token_acc": 0.9372937293729373,
      "train_speed(iter/s)": 1.447296
    },
    {
      "epoch": 2.7758022364080372,
      "grad_norm": 2.7868499755859375,
      "learning_rate": 4.137871836875387e-05,
      "loss": 0.4675302028656006,
      "memory(GiB)": 70.5,
      "step": 64790,
      "token_acc": 0.900990099009901,
      "train_speed(iter/s)": 1.44731
    },
    {
      "epoch": 2.776016451737286,
      "grad_norm": 4.884207248687744,
      "learning_rate": 4.137208946873582e-05,
      "loss": 0.39016094207763674,
      "memory(GiB)": 70.5,
      "step": 64795,
      "token_acc": 0.9217687074829932,
      "train_speed(iter/s)": 1.447314
    },
    {
      "epoch": 2.7762306670665353,
      "grad_norm": 2.988022565841675,
      "learning_rate": 4.1365460725020466e-05,
      "loss": 0.21896796226501464,
      "memory(GiB)": 70.5,
      "step": 64800,
      "token_acc": 0.9624060150375939,
      "train_speed(iter/s)": 1.44734
    },
    {
      "epoch": 2.776444882395784,
      "grad_norm": 3.6900827884674072,
      "learning_rate": 4.135883213772789e-05,
      "loss": 0.5038420200347901,
      "memory(GiB)": 70.5,
      "step": 64805,
      "token_acc": 0.8857142857142857,
      "train_speed(iter/s)": 1.44735
    },
    {
      "epoch": 2.776659097725033,
      "grad_norm": 4.502459526062012,
      "learning_rate": 4.1352203706978186e-05,
      "loss": 0.30875296592712403,
      "memory(GiB)": 70.5,
      "step": 64810,
      "token_acc": 0.9350180505415162,
      "train_speed(iter/s)": 1.447349
    },
    {
      "epoch": 2.776873313054282,
      "grad_norm": 3.091966152191162,
      "learning_rate": 4.134557543289141e-05,
      "loss": 0.21999711990356446,
      "memory(GiB)": 70.5,
      "step": 64815,
      "token_acc": 0.9557739557739557,
      "train_speed(iter/s)": 1.44735
    },
    {
      "epoch": 2.777087528383531,
      "grad_norm": 1.9836987257003784,
      "learning_rate": 4.1338947315587664e-05,
      "loss": 0.16959307193756104,
      "memory(GiB)": 70.5,
      "step": 64820,
      "token_acc": 0.9635761589403974,
      "train_speed(iter/s)": 1.447355
    },
    {
      "epoch": 2.77730174371278,
      "grad_norm": 2.7940990924835205,
      "learning_rate": 4.133231935518701e-05,
      "loss": 0.349604058265686,
      "memory(GiB)": 70.5,
      "step": 64825,
      "token_acc": 0.935064935064935,
      "train_speed(iter/s)": 1.447353
    },
    {
      "epoch": 2.777515959042029,
      "grad_norm": 1.3738101720809937,
      "learning_rate": 4.132569155180951e-05,
      "loss": 0.44671082496643066,
      "memory(GiB)": 70.5,
      "step": 64830,
      "token_acc": 0.9106145251396648,
      "train_speed(iter/s)": 1.447358
    },
    {
      "epoch": 2.777730174371278,
      "grad_norm": 2.232062578201294,
      "learning_rate": 4.131906390557526e-05,
      "loss": 0.254518461227417,
      "memory(GiB)": 70.5,
      "step": 64835,
      "token_acc": 0.9429530201342282,
      "train_speed(iter/s)": 1.447355
    },
    {
      "epoch": 2.7779443897005267,
      "grad_norm": 3.6004254817962646,
      "learning_rate": 4.131243641660429e-05,
      "loss": 0.28875668048858644,
      "memory(GiB)": 70.5,
      "step": 64840,
      "token_acc": 0.9228070175438596,
      "train_speed(iter/s)": 1.447357
    },
    {
      "epoch": 2.778158605029776,
      "grad_norm": 3.4352262020111084,
      "learning_rate": 4.130580908501671e-05,
      "loss": 0.4341428756713867,
      "memory(GiB)": 70.5,
      "step": 64845,
      "token_acc": 0.8943894389438944,
      "train_speed(iter/s)": 1.447384
    },
    {
      "epoch": 2.7783728203590248,
      "grad_norm": 0.4371896982192993,
      "learning_rate": 4.129918191093254e-05,
      "loss": 0.37861027717590334,
      "memory(GiB)": 70.5,
      "step": 64850,
      "token_acc": 0.9127272727272727,
      "train_speed(iter/s)": 1.447389
    },
    {
      "epoch": 2.7785870356882736,
      "grad_norm": 4.118015766143799,
      "learning_rate": 4.1292554894471847e-05,
      "loss": 0.38886189460754395,
      "memory(GiB)": 70.5,
      "step": 64855,
      "token_acc": 0.926984126984127,
      "train_speed(iter/s)": 1.44739
    },
    {
      "epoch": 2.778801251017523,
      "grad_norm": 1.0695202350616455,
      "learning_rate": 4.1285928035754684e-05,
      "loss": 0.19757663011550902,
      "memory(GiB)": 70.5,
      "step": 64860,
      "token_acc": 0.9518518518518518,
      "train_speed(iter/s)": 1.447394
    },
    {
      "epoch": 2.7790154663467717,
      "grad_norm": 1.8571826219558716,
      "learning_rate": 4.127930133490112e-05,
      "loss": 0.4682793617248535,
      "memory(GiB)": 70.5,
      "step": 64865,
      "token_acc": 0.8993288590604027,
      "train_speed(iter/s)": 1.447408
    },
    {
      "epoch": 2.7792296816760205,
      "grad_norm": 2.7603261470794678,
      "learning_rate": 4.12726747920312e-05,
      "loss": 0.3878632068634033,
      "memory(GiB)": 70.5,
      "step": 64870,
      "token_acc": 0.9113924050632911,
      "train_speed(iter/s)": 1.447405
    },
    {
      "epoch": 2.7794438970052697,
      "grad_norm": 3.317103624343872,
      "learning_rate": 4.126604840726496e-05,
      "loss": 0.7620277881622315,
      "memory(GiB)": 70.5,
      "step": 64875,
      "token_acc": 0.8393574297188755,
      "train_speed(iter/s)": 1.447412
    },
    {
      "epoch": 2.7796581123345185,
      "grad_norm": 3.060573101043701,
      "learning_rate": 4.125942218072244e-05,
      "loss": 0.3025252103805542,
      "memory(GiB)": 70.5,
      "step": 64880,
      "token_acc": 0.9337979094076655,
      "train_speed(iter/s)": 1.44741
    },
    {
      "epoch": 2.7798723276637674,
      "grad_norm": 3.1476831436157227,
      "learning_rate": 4.125279611252369e-05,
      "loss": 0.3223943948745728,
      "memory(GiB)": 70.5,
      "step": 64885,
      "token_acc": 0.9333333333333333,
      "train_speed(iter/s)": 1.44741
    },
    {
      "epoch": 2.7800865429930166,
      "grad_norm": 4.828221321105957,
      "learning_rate": 4.124617020278875e-05,
      "loss": 0.28006443977355955,
      "memory(GiB)": 70.5,
      "step": 64890,
      "token_acc": 0.9449838187702265,
      "train_speed(iter/s)": 1.447411
    },
    {
      "epoch": 2.7803007583222654,
      "grad_norm": 1.4535952806472778,
      "learning_rate": 4.1239544451637646e-05,
      "loss": 0.3131978988647461,
      "memory(GiB)": 70.5,
      "step": 64895,
      "token_acc": 0.955719557195572,
      "train_speed(iter/s)": 1.447419
    },
    {
      "epoch": 2.7805149736515142,
      "grad_norm": 3.597987174987793,
      "learning_rate": 4.12329188591904e-05,
      "loss": 0.2687454462051392,
      "memory(GiB)": 70.5,
      "step": 64900,
      "token_acc": 0.9535603715170279,
      "train_speed(iter/s)": 1.447422
    },
    {
      "epoch": 2.7807291889807635,
      "grad_norm": 6.607239246368408,
      "learning_rate": 4.122629342556706e-05,
      "loss": 0.7134824752807617,
      "memory(GiB)": 70.5,
      "step": 64905,
      "token_acc": 0.8427835051546392,
      "train_speed(iter/s)": 1.447419
    },
    {
      "epoch": 2.7809434043100123,
      "grad_norm": 1.579677939414978,
      "learning_rate": 4.121966815088766e-05,
      "loss": 0.5193864345550537,
      "memory(GiB)": 70.5,
      "step": 64910,
      "token_acc": 0.915129151291513,
      "train_speed(iter/s)": 1.44742
    },
    {
      "epoch": 2.781157619639261,
      "grad_norm": 0.8404396772384644,
      "learning_rate": 4.1213043035272184e-05,
      "loss": 0.34959518909454346,
      "memory(GiB)": 70.5,
      "step": 64915,
      "token_acc": 0.9296296296296296,
      "train_speed(iter/s)": 1.447427
    },
    {
      "epoch": 2.7813718349685104,
      "grad_norm": 2.582603931427002,
      "learning_rate": 4.12064180788407e-05,
      "loss": 0.15796160697937012,
      "memory(GiB)": 70.5,
      "step": 64920,
      "token_acc": 0.9688888888888889,
      "train_speed(iter/s)": 1.447428
    },
    {
      "epoch": 2.781586050297759,
      "grad_norm": 5.888064384460449,
      "learning_rate": 4.1199793281713176e-05,
      "loss": 0.48841042518615724,
      "memory(GiB)": 70.5,
      "step": 64925,
      "token_acc": 0.9075342465753424,
      "train_speed(iter/s)": 1.447441
    },
    {
      "epoch": 2.781800265627008,
      "grad_norm": 2.2963101863861084,
      "learning_rate": 4.119316864400967e-05,
      "loss": 0.21862392425537108,
      "memory(GiB)": 70.5,
      "step": 64930,
      "token_acc": 0.9367588932806324,
      "train_speed(iter/s)": 1.44744
    },
    {
      "epoch": 2.7820144809562573,
      "grad_norm": 3.4301040172576904,
      "learning_rate": 4.118654416585015e-05,
      "loss": 0.5008277893066406,
      "memory(GiB)": 70.5,
      "step": 64935,
      "token_acc": 0.9097472924187726,
      "train_speed(iter/s)": 1.447444
    },
    {
      "epoch": 2.782228696285506,
      "grad_norm": 2.9857544898986816,
      "learning_rate": 4.117991984735468e-05,
      "loss": 0.4866320610046387,
      "memory(GiB)": 70.5,
      "step": 64940,
      "token_acc": 0.878698224852071,
      "train_speed(iter/s)": 1.447444
    },
    {
      "epoch": 2.782442911614755,
      "grad_norm": 2.7495787143707275,
      "learning_rate": 4.117329568864322e-05,
      "loss": 0.33805294036865235,
      "memory(GiB)": 70.5,
      "step": 64945,
      "token_acc": 0.9090909090909091,
      "train_speed(iter/s)": 1.447447
    },
    {
      "epoch": 2.782657126944004,
      "grad_norm": 0.3812364935874939,
      "learning_rate": 4.11666716898358e-05,
      "loss": 0.2827253818511963,
      "memory(GiB)": 70.5,
      "step": 64950,
      "token_acc": 0.9246031746031746,
      "train_speed(iter/s)": 1.447444
    },
    {
      "epoch": 2.782871342273253,
      "grad_norm": 3.597952127456665,
      "learning_rate": 4.116004785105241e-05,
      "loss": 0.6536751747131347,
      "memory(GiB)": 70.5,
      "step": 64955,
      "token_acc": 0.8872727272727273,
      "train_speed(iter/s)": 1.447456
    },
    {
      "epoch": 2.7830855576025018,
      "grad_norm": 5.029714584350586,
      "learning_rate": 4.115342417241304e-05,
      "loss": 0.289227557182312,
      "memory(GiB)": 70.5,
      "step": 64960,
      "token_acc": 0.9349593495934959,
      "train_speed(iter/s)": 1.447461
    },
    {
      "epoch": 2.783299772931751,
      "grad_norm": 3.434293508529663,
      "learning_rate": 4.114680065403769e-05,
      "loss": 0.34526231288909914,
      "memory(GiB)": 70.5,
      "step": 64965,
      "token_acc": 0.925,
      "train_speed(iter/s)": 1.447465
    },
    {
      "epoch": 2.783513988261,
      "grad_norm": 1.8889940977096558,
      "learning_rate": 4.114017729604635e-05,
      "loss": 0.5252589225769043,
      "memory(GiB)": 70.5,
      "step": 64970,
      "token_acc": 0.8920863309352518,
      "train_speed(iter/s)": 1.447477
    },
    {
      "epoch": 2.783728203590249,
      "grad_norm": 1.9018261432647705,
      "learning_rate": 4.113355409855901e-05,
      "loss": 0.15777170658111572,
      "memory(GiB)": 70.5,
      "step": 64975,
      "token_acc": 0.9636363636363636,
      "train_speed(iter/s)": 1.44748
    },
    {
      "epoch": 2.783942418919498,
      "grad_norm": 2.4065496921539307,
      "learning_rate": 4.1126931061695656e-05,
      "loss": 0.2429669141769409,
      "memory(GiB)": 70.5,
      "step": 64980,
      "token_acc": 0.9210526315789473,
      "train_speed(iter/s)": 1.447479
    },
    {
      "epoch": 2.7841566342487467,
      "grad_norm": 2.436152935028076,
      "learning_rate": 4.112030818557626e-05,
      "loss": 0.5359068870544433,
      "memory(GiB)": 70.5,
      "step": 64985,
      "token_acc": 0.8416666666666667,
      "train_speed(iter/s)": 1.447481
    },
    {
      "epoch": 2.784370849577996,
      "grad_norm": 1.480725884437561,
      "learning_rate": 4.111368547032083e-05,
      "loss": 0.2701308012008667,
      "memory(GiB)": 70.5,
      "step": 64990,
      "token_acc": 0.939799331103679,
      "train_speed(iter/s)": 1.447488
    },
    {
      "epoch": 2.784585064907245,
      "grad_norm": 4.441800117492676,
      "learning_rate": 4.110706291604931e-05,
      "loss": 0.20483908653259278,
      "memory(GiB)": 70.5,
      "step": 64995,
      "token_acc": 0.9664179104477612,
      "train_speed(iter/s)": 1.447496
    },
    {
      "epoch": 2.7847992802364936,
      "grad_norm": 3.6579749584198,
      "learning_rate": 4.110044052288169e-05,
      "loss": 0.38043386936187745,
      "memory(GiB)": 70.5,
      "step": 65000,
      "token_acc": 0.9193083573487032,
      "train_speed(iter/s)": 1.4475
    },
    {
      "epoch": 2.7847992802364936,
      "eval_loss": 2.4592678546905518,
      "eval_runtime": 13.3801,
      "eval_samples_per_second": 7.474,
      "eval_steps_per_second": 7.474,
      "eval_token_acc": 0.4638472032742155,
      "step": 65000
    },
    {
      "epoch": 2.785013495565743,
      "grad_norm": 4.061110973358154,
      "learning_rate": 4.109381829093792e-05,
      "loss": 0.41044392585754397,
      "memory(GiB)": 70.5,
      "step": 65005,
      "token_acc": 0.5843253968253969,
      "train_speed(iter/s)": 1.447039
    },
    {
      "epoch": 2.7852277108949917,
      "grad_norm": 4.724144458770752,
      "learning_rate": 4.108719622033801e-05,
      "loss": 0.595648717880249,
      "memory(GiB)": 70.5,
      "step": 65010,
      "token_acc": 0.8662207357859532,
      "train_speed(iter/s)": 1.44705
    },
    {
      "epoch": 2.7854419262242405,
      "grad_norm": 4.578857898712158,
      "learning_rate": 4.10805743112019e-05,
      "loss": 0.36465792655944823,
      "memory(GiB)": 70.5,
      "step": 65015,
      "token_acc": 0.9224489795918367,
      "train_speed(iter/s)": 1.447059
    },
    {
      "epoch": 2.7856561415534897,
      "grad_norm": 4.199429035186768,
      "learning_rate": 4.1073952563649546e-05,
      "loss": 0.29490208625793457,
      "memory(GiB)": 70.5,
      "step": 65020,
      "token_acc": 0.9283154121863799,
      "train_speed(iter/s)": 1.447073
    },
    {
      "epoch": 2.7858703568827385,
      "grad_norm": 0.2744632959365845,
      "learning_rate": 4.1067330977800924e-05,
      "loss": 0.36468636989593506,
      "memory(GiB)": 70.5,
      "step": 65025,
      "token_acc": 0.9291666666666667,
      "train_speed(iter/s)": 1.447071
    },
    {
      "epoch": 2.7860845722119874,
      "grad_norm": 3.3545267581939697,
      "learning_rate": 4.106070955377597e-05,
      "loss": 0.29489474296569823,
      "memory(GiB)": 70.5,
      "step": 65030,
      "token_acc": 0.9457364341085271,
      "train_speed(iter/s)": 1.447079
    },
    {
      "epoch": 2.7862987875412366,
      "grad_norm": 6.718740940093994,
      "learning_rate": 4.105408829169466e-05,
      "loss": 0.47815766334533694,
      "memory(GiB)": 70.5,
      "step": 65035,
      "token_acc": 0.9027237354085603,
      "train_speed(iter/s)": 1.447082
    },
    {
      "epoch": 2.7865130028704854,
      "grad_norm": 2.865877628326416,
      "learning_rate": 4.104746719167693e-05,
      "loss": 0.42421865463256836,
      "memory(GiB)": 70.5,
      "step": 65040,
      "token_acc": 0.9093851132686084,
      "train_speed(iter/s)": 1.447096
    },
    {
      "epoch": 2.7867272181997342,
      "grad_norm": 2.4726219177246094,
      "learning_rate": 4.104084625384272e-05,
      "loss": 0.16710200309753417,
      "memory(GiB)": 70.5,
      "step": 65045,
      "token_acc": 0.9647058823529412,
      "train_speed(iter/s)": 1.447098
    },
    {
      "epoch": 2.7869414335289835,
      "grad_norm": 1.2461167573928833,
      "learning_rate": 4.103422547831199e-05,
      "loss": 0.3984663009643555,
      "memory(GiB)": 70.5,
      "step": 65050,
      "token_acc": 0.9134615384615384,
      "train_speed(iter/s)": 1.447103
    },
    {
      "epoch": 2.7871556488582323,
      "grad_norm": 4.614664554595947,
      "learning_rate": 4.102760486520468e-05,
      "loss": 0.27661948204040526,
      "memory(GiB)": 70.5,
      "step": 65055,
      "token_acc": 0.925,
      "train_speed(iter/s)": 1.447109
    },
    {
      "epoch": 2.787369864187481,
      "grad_norm": 2.549321413040161,
      "learning_rate": 4.1020984414640716e-05,
      "loss": 0.25324244499206544,
      "memory(GiB)": 70.5,
      "step": 65060,
      "token_acc": 0.9656488549618321,
      "train_speed(iter/s)": 1.447123
    },
    {
      "epoch": 2.7875840795167304,
      "grad_norm": 3.4791970252990723,
      "learning_rate": 4.1014364126740056e-05,
      "loss": 0.38058953285217284,
      "memory(GiB)": 70.5,
      "step": 65065,
      "token_acc": 0.9097472924187726,
      "train_speed(iter/s)": 1.447121
    },
    {
      "epoch": 2.787798294845979,
      "grad_norm": 3.3028554916381836,
      "learning_rate": 4.100774400162261e-05,
      "loss": 0.27556452751159666,
      "memory(GiB)": 70.5,
      "step": 65070,
      "token_acc": 0.948051948051948,
      "train_speed(iter/s)": 1.447123
    },
    {
      "epoch": 2.788012510175228,
      "grad_norm": 4.270534515380859,
      "learning_rate": 4.100112403940832e-05,
      "loss": 0.3254996299743652,
      "memory(GiB)": 70.5,
      "step": 65075,
      "token_acc": 0.9290780141843972,
      "train_speed(iter/s)": 1.44715
    },
    {
      "epoch": 2.7882267255044773,
      "grad_norm": 2.6122608184814453,
      "learning_rate": 4.099450424021709e-05,
      "loss": 0.42832245826721194,
      "memory(GiB)": 70.5,
      "step": 65080,
      "token_acc": 0.9152542372881356,
      "train_speed(iter/s)": 1.447151
    },
    {
      "epoch": 2.788440940833726,
      "grad_norm": 1.8529683351516724,
      "learning_rate": 4.0987884604168886e-05,
      "loss": 0.7383793830871582,
      "memory(GiB)": 70.5,
      "step": 65085,
      "token_acc": 0.863013698630137,
      "train_speed(iter/s)": 1.447156
    },
    {
      "epoch": 2.788655156162975,
      "grad_norm": 3.683210849761963,
      "learning_rate": 4.09812651313836e-05,
      "loss": 0.2979586124420166,
      "memory(GiB)": 70.5,
      "step": 65090,
      "token_acc": 0.946843853820598,
      "train_speed(iter/s)": 1.447153
    },
    {
      "epoch": 2.788869371492224,
      "grad_norm": 3.5415878295898438,
      "learning_rate": 4.097464582198116e-05,
      "loss": 0.4436281681060791,
      "memory(GiB)": 70.5,
      "step": 65095,
      "token_acc": 0.9103448275862069,
      "train_speed(iter/s)": 1.447163
    },
    {
      "epoch": 2.789083586821473,
      "grad_norm": 2.8948781490325928,
      "learning_rate": 4.0968026676081474e-05,
      "loss": 0.20174810886383057,
      "memory(GiB)": 70.5,
      "step": 65100,
      "token_acc": 0.9485294117647058,
      "train_speed(iter/s)": 1.447164
    },
    {
      "epoch": 2.7892978021507218,
      "grad_norm": 2.343510627746582,
      "learning_rate": 4.096140769380445e-05,
      "loss": 0.2816267251968384,
      "memory(GiB)": 70.5,
      "step": 65105,
      "token_acc": 0.9303135888501742,
      "train_speed(iter/s)": 1.447164
    },
    {
      "epoch": 2.789512017479971,
      "grad_norm": 3.802795886993408,
      "learning_rate": 4.095478887527002e-05,
      "loss": 0.4312308311462402,
      "memory(GiB)": 70.5,
      "step": 65110,
      "token_acc": 0.915625,
      "train_speed(iter/s)": 1.447176
    },
    {
      "epoch": 2.78972623280922,
      "grad_norm": 3.681272268295288,
      "learning_rate": 4.094817022059806e-05,
      "loss": 0.4683330535888672,
      "memory(GiB)": 70.5,
      "step": 65115,
      "token_acc": 0.9114754098360656,
      "train_speed(iter/s)": 1.447184
    },
    {
      "epoch": 2.7899404481384686,
      "grad_norm": 3.3453447818756104,
      "learning_rate": 4.09415517299085e-05,
      "loss": 0.41641788482666015,
      "memory(GiB)": 70.5,
      "step": 65120,
      "token_acc": 0.8983739837398373,
      "train_speed(iter/s)": 1.447193
    },
    {
      "epoch": 2.790154663467718,
      "grad_norm": 2.2669897079467773,
      "learning_rate": 4.0934933403321226e-05,
      "loss": 0.19046480655670167,
      "memory(GiB)": 70.5,
      "step": 65125,
      "token_acc": 0.9655172413793104,
      "train_speed(iter/s)": 1.447206
    },
    {
      "epoch": 2.7903688787969667,
      "grad_norm": 1.7267236709594727,
      "learning_rate": 4.0928315240956134e-05,
      "loss": 0.26402623653411866,
      "memory(GiB)": 70.5,
      "step": 65130,
      "token_acc": 0.94140625,
      "train_speed(iter/s)": 1.447207
    },
    {
      "epoch": 2.7905830941262155,
      "grad_norm": 5.350974082946777,
      "learning_rate": 4.0921697242933125e-05,
      "loss": 0.40633444786071776,
      "memory(GiB)": 70.5,
      "step": 65135,
      "token_acc": 0.9276729559748428,
      "train_speed(iter/s)": 1.447219
    },
    {
      "epoch": 2.790797309455465,
      "grad_norm": 5.300814151763916,
      "learning_rate": 4.0915079409372094e-05,
      "loss": 0.3806781530380249,
      "memory(GiB)": 70.5,
      "step": 65140,
      "token_acc": 0.925,
      "train_speed(iter/s)": 1.447227
    },
    {
      "epoch": 2.7910115247847136,
      "grad_norm": 1.1849637031555176,
      "learning_rate": 4.09084617403929e-05,
      "loss": 0.27837743759155276,
      "memory(GiB)": 70.5,
      "step": 65145,
      "token_acc": 0.9315476190476191,
      "train_speed(iter/s)": 1.447226
    },
    {
      "epoch": 2.7912257401139624,
      "grad_norm": 1.9873937368392944,
      "learning_rate": 4.0901844236115464e-05,
      "loss": 0.19775410890579223,
      "memory(GiB)": 70.5,
      "step": 65150,
      "token_acc": 0.9566666666666667,
      "train_speed(iter/s)": 1.447228
    },
    {
      "epoch": 2.7914399554432117,
      "grad_norm": 1.9303464889526367,
      "learning_rate": 4.089522689665964e-05,
      "loss": 0.28887290954589845,
      "memory(GiB)": 70.5,
      "step": 65155,
      "token_acc": 0.9250720461095101,
      "train_speed(iter/s)": 1.447231
    },
    {
      "epoch": 2.7916541707724605,
      "grad_norm": 2.440824031829834,
      "learning_rate": 4.088860972214534e-05,
      "loss": 0.3914952754974365,
      "memory(GiB)": 70.5,
      "step": 65160,
      "token_acc": 0.9055944055944056,
      "train_speed(iter/s)": 1.447235
    },
    {
      "epoch": 2.7918683861017093,
      "grad_norm": 4.724839687347412,
      "learning_rate": 4.088199271269241e-05,
      "loss": 0.5876166343688964,
      "memory(GiB)": 70.5,
      "step": 65165,
      "token_acc": 0.873015873015873,
      "train_speed(iter/s)": 1.447233
    },
    {
      "epoch": 2.7920826014309585,
      "grad_norm": 2.315429449081421,
      "learning_rate": 4.087537586842074e-05,
      "loss": 0.34972562789916994,
      "memory(GiB)": 70.5,
      "step": 65170,
      "token_acc": 0.906832298136646,
      "train_speed(iter/s)": 1.447236
    },
    {
      "epoch": 2.7922968167602074,
      "grad_norm": 1.3048852682113647,
      "learning_rate": 4.086875918945019e-05,
      "loss": 0.23476040363311768,
      "memory(GiB)": 70.5,
      "step": 65175,
      "token_acc": 0.9372693726937269,
      "train_speed(iter/s)": 1.447239
    },
    {
      "epoch": 2.792511032089456,
      "grad_norm": 5.036691188812256,
      "learning_rate": 4.0862142675900645e-05,
      "loss": 0.500761604309082,
      "memory(GiB)": 70.5,
      "step": 65180,
      "token_acc": 0.915057915057915,
      "train_speed(iter/s)": 1.447253
    },
    {
      "epoch": 2.7927252474187054,
      "grad_norm": 0.4292367398738861,
      "learning_rate": 4.0855526327891956e-05,
      "loss": 0.0979434072971344,
      "memory(GiB)": 70.5,
      "step": 65185,
      "token_acc": 0.9802371541501976,
      "train_speed(iter/s)": 1.447269
    },
    {
      "epoch": 2.7929394627479542,
      "grad_norm": 1.7389988899230957,
      "learning_rate": 4.084891014554398e-05,
      "loss": 0.4357320308685303,
      "memory(GiB)": 70.5,
      "step": 65190,
      "token_acc": 0.9094650205761317,
      "train_speed(iter/s)": 1.447286
    },
    {
      "epoch": 2.793153678077203,
      "grad_norm": 2.9058542251586914,
      "learning_rate": 4.0842294128976586e-05,
      "loss": 0.4205146789550781,
      "memory(GiB)": 70.5,
      "step": 65195,
      "token_acc": 0.9254385964912281,
      "train_speed(iter/s)": 1.447284
    },
    {
      "epoch": 2.7933678934064523,
      "grad_norm": 2.5856099128723145,
      "learning_rate": 4.083567827830962e-05,
      "loss": 0.2692077398300171,
      "memory(GiB)": 70.5,
      "step": 65200,
      "token_acc": 0.9356060606060606,
      "train_speed(iter/s)": 1.447286
    },
    {
      "epoch": 2.793582108735701,
      "grad_norm": 4.839263439178467,
      "learning_rate": 4.0829062593662944e-05,
      "loss": 0.7059619903564454,
      "memory(GiB)": 70.5,
      "step": 65205,
      "token_acc": 0.8438538205980066,
      "train_speed(iter/s)": 1.447293
    },
    {
      "epoch": 2.79379632406495,
      "grad_norm": 4.5880608558654785,
      "learning_rate": 4.08224470751564e-05,
      "loss": 0.48299360275268555,
      "memory(GiB)": 70.5,
      "step": 65210,
      "token_acc": 0.8990228013029316,
      "train_speed(iter/s)": 1.447307
    },
    {
      "epoch": 2.794010539394199,
      "grad_norm": 3.58577299118042,
      "learning_rate": 4.081583172290983e-05,
      "loss": 0.3507451057434082,
      "memory(GiB)": 70.5,
      "step": 65215,
      "token_acc": 0.9138461538461539,
      "train_speed(iter/s)": 1.447302
    },
    {
      "epoch": 2.794224754723448,
      "grad_norm": 3.971111297607422,
      "learning_rate": 4.080921653704309e-05,
      "loss": 0.4299809455871582,
      "memory(GiB)": 70.5,
      "step": 65220,
      "token_acc": 0.8777292576419214,
      "train_speed(iter/s)": 1.447299
    },
    {
      "epoch": 2.794438970052697,
      "grad_norm": 2.350179672241211,
      "learning_rate": 4.080260151767602e-05,
      "loss": 0.12587409019470214,
      "memory(GiB)": 70.5,
      "step": 65225,
      "token_acc": 0.9649805447470817,
      "train_speed(iter/s)": 1.447301
    },
    {
      "epoch": 2.794653185381946,
      "grad_norm": 2.078672170639038,
      "learning_rate": 4.079598666492843e-05,
      "loss": 0.47969489097595214,
      "memory(GiB)": 70.5,
      "step": 65230,
      "token_acc": 0.8992805755395683,
      "train_speed(iter/s)": 1.447303
    },
    {
      "epoch": 2.794867400711195,
      "grad_norm": 6.421050548553467,
      "learning_rate": 4.0789371978920185e-05,
      "loss": 0.32059345245361326,
      "memory(GiB)": 70.5,
      "step": 65235,
      "token_acc": 0.9197080291970803,
      "train_speed(iter/s)": 1.447293
    },
    {
      "epoch": 2.7950816160404437,
      "grad_norm": 0.8864030838012695,
      "learning_rate": 4.078275745977112e-05,
      "loss": 0.2824270486831665,
      "memory(GiB)": 70.5,
      "step": 65240,
      "token_acc": 0.9420289855072463,
      "train_speed(iter/s)": 1.447291
    },
    {
      "epoch": 2.795295831369693,
      "grad_norm": 2.2251110076904297,
      "learning_rate": 4.0776143107601037e-05,
      "loss": 0.3151897668838501,
      "memory(GiB)": 70.5,
      "step": 65245,
      "token_acc": 0.9194139194139194,
      "train_speed(iter/s)": 1.447308
    },
    {
      "epoch": 2.7955100466989418,
      "grad_norm": 4.933167934417725,
      "learning_rate": 4.076952892252977e-05,
      "loss": 0.5641922950744629,
      "memory(GiB)": 70.5,
      "step": 65250,
      "token_acc": 0.8676923076923077,
      "train_speed(iter/s)": 1.44731
    },
    {
      "epoch": 2.7957242620281906,
      "grad_norm": 2.552314519882202,
      "learning_rate": 4.0762914904677165e-05,
      "loss": 0.22024898529052733,
      "memory(GiB)": 70.5,
      "step": 65255,
      "token_acc": 0.9604863221884499,
      "train_speed(iter/s)": 1.447311
    },
    {
      "epoch": 2.79593847735744,
      "grad_norm": 3.391914129257202,
      "learning_rate": 4.0756301054163004e-05,
      "loss": 0.3218238830566406,
      "memory(GiB)": 70.5,
      "step": 65260,
      "token_acc": 0.943089430894309,
      "train_speed(iter/s)": 1.447311
    },
    {
      "epoch": 2.7961526926866886,
      "grad_norm": 1.7928359508514404,
      "learning_rate": 4.074968737110713e-05,
      "loss": 0.2470175266265869,
      "memory(GiB)": 70.5,
      "step": 65265,
      "token_acc": 0.9530685920577617,
      "train_speed(iter/s)": 1.447314
    },
    {
      "epoch": 2.7963669080159375,
      "grad_norm": 1.5529485940933228,
      "learning_rate": 4.0743073855629355e-05,
      "loss": 0.3972229719161987,
      "memory(GiB)": 70.5,
      "step": 65270,
      "token_acc": 0.9424920127795527,
      "train_speed(iter/s)": 1.447307
    },
    {
      "epoch": 2.7965811233451867,
      "grad_norm": 5.2288923263549805,
      "learning_rate": 4.073646050784946e-05,
      "loss": 0.1909575343132019,
      "memory(GiB)": 70.5,
      "step": 65275,
      "token_acc": 0.952054794520548,
      "train_speed(iter/s)": 1.447313
    },
    {
      "epoch": 2.7967953386744355,
      "grad_norm": 5.515224933624268,
      "learning_rate": 4.072984732788729e-05,
      "loss": 0.6055114269256592,
      "memory(GiB)": 70.5,
      "step": 65280,
      "token_acc": 0.8566666666666667,
      "train_speed(iter/s)": 1.447339
    },
    {
      "epoch": 2.7970095540036843,
      "grad_norm": 2.583432197570801,
      "learning_rate": 4.072323431586263e-05,
      "loss": 0.494219446182251,
      "memory(GiB)": 70.5,
      "step": 65285,
      "token_acc": 0.8978102189781022,
      "train_speed(iter/s)": 1.447336
    },
    {
      "epoch": 2.7972237693329336,
      "grad_norm": 3.9602243900299072,
      "learning_rate": 4.0716621471895275e-05,
      "loss": 0.3808135509490967,
      "memory(GiB)": 70.5,
      "step": 65290,
      "token_acc": 0.9310344827586207,
      "train_speed(iter/s)": 1.447338
    },
    {
      "epoch": 2.7974379846621824,
      "grad_norm": 2.2115015983581543,
      "learning_rate": 4.0710008796105034e-05,
      "loss": 0.5067630767822265,
      "memory(GiB)": 70.5,
      "step": 65295,
      "token_acc": 0.9030303030303031,
      "train_speed(iter/s)": 1.447341
    },
    {
      "epoch": 2.797652199991431,
      "grad_norm": 2.4326882362365723,
      "learning_rate": 4.0703396288611694e-05,
      "loss": 0.1473292112350464,
      "memory(GiB)": 70.5,
      "step": 65300,
      "token_acc": 0.9560439560439561,
      "train_speed(iter/s)": 1.447345
    },
    {
      "epoch": 2.7978664153206805,
      "grad_norm": 2.0492899417877197,
      "learning_rate": 4.069678394953505e-05,
      "loss": 0.44561061859130857,
      "memory(GiB)": 70.5,
      "step": 65305,
      "token_acc": 0.9168900804289544,
      "train_speed(iter/s)": 1.447354
    },
    {
      "epoch": 2.7980806306499293,
      "grad_norm": 3.1452085971832275,
      "learning_rate": 4.069017177899489e-05,
      "loss": 0.4552005767822266,
      "memory(GiB)": 70.5,
      "step": 65310,
      "token_acc": 0.8798798798798799,
      "train_speed(iter/s)": 1.447355
    },
    {
      "epoch": 2.7982948459791785,
      "grad_norm": 2.184251070022583,
      "learning_rate": 4.0683559777111014e-05,
      "loss": 0.18176445960998536,
      "memory(GiB)": 70.5,
      "step": 65315,
      "token_acc": 0.9619377162629758,
      "train_speed(iter/s)": 1.447369
    },
    {
      "epoch": 2.7985090613084274,
      "grad_norm": 3.111306667327881,
      "learning_rate": 4.0676947944003175e-05,
      "loss": 0.3205218553543091,
      "memory(GiB)": 70.5,
      "step": 65320,
      "token_acc": 0.9379562043795621,
      "train_speed(iter/s)": 1.447372
    },
    {
      "epoch": 2.798723276637676,
      "grad_norm": 3.9730777740478516,
      "learning_rate": 4.0670336279791186e-05,
      "loss": 0.5713878154754639,
      "memory(GiB)": 70.5,
      "step": 65325,
      "token_acc": 0.9009287925696594,
      "train_speed(iter/s)": 1.447381
    },
    {
      "epoch": 2.7989374919669254,
      "grad_norm": 1.4721957445144653,
      "learning_rate": 4.066372478459481e-05,
      "loss": 0.37087211608886717,
      "memory(GiB)": 70.5,
      "step": 65330,
      "token_acc": 0.9395161290322581,
      "train_speed(iter/s)": 1.44738
    },
    {
      "epoch": 2.7991517072961742,
      "grad_norm": 3.065363645553589,
      "learning_rate": 4.06571134585338e-05,
      "loss": 0.35188295841217043,
      "memory(GiB)": 70.5,
      "step": 65335,
      "token_acc": 0.9215017064846417,
      "train_speed(iter/s)": 1.447376
    },
    {
      "epoch": 2.799365922625423,
      "grad_norm": 0.04467729106545448,
      "learning_rate": 4.065050230172796e-05,
      "loss": 0.22762069702148438,
      "memory(GiB)": 70.5,
      "step": 65340,
      "token_acc": 0.9543726235741445,
      "train_speed(iter/s)": 1.447375
    },
    {
      "epoch": 2.7995801379546723,
      "grad_norm": 2.0564699172973633,
      "learning_rate": 4.064389131429704e-05,
      "loss": 0.4050747871398926,
      "memory(GiB)": 70.5,
      "step": 65345,
      "token_acc": 0.9150943396226415,
      "train_speed(iter/s)": 1.447378
    },
    {
      "epoch": 2.799794353283921,
      "grad_norm": 2.836165189743042,
      "learning_rate": 4.0637280496360795e-05,
      "loss": 0.31054461002349854,
      "memory(GiB)": 70.5,
      "step": 65350,
      "token_acc": 0.9355932203389831,
      "train_speed(iter/s)": 1.447384
    },
    {
      "epoch": 2.80000856861317,
      "grad_norm": 4.740918159484863,
      "learning_rate": 4.0630669848039005e-05,
      "loss": 0.5263712406158447,
      "memory(GiB)": 70.5,
      "step": 65355,
      "token_acc": 0.9137931034482759,
      "train_speed(iter/s)": 1.447388
    },
    {
      "epoch": 2.800222783942419,
      "grad_norm": 2.8751816749572754,
      "learning_rate": 4.0624059369451415e-05,
      "loss": 0.6307284355163574,
      "memory(GiB)": 70.5,
      "step": 65360,
      "token_acc": 0.8700361010830325,
      "train_speed(iter/s)": 1.447398
    },
    {
      "epoch": 2.800436999271668,
      "grad_norm": 0.8935974836349487,
      "learning_rate": 4.061744906071779e-05,
      "loss": 0.10794730186462402,
      "memory(GiB)": 70.5,
      "step": 65365,
      "token_acc": 0.9775280898876404,
      "train_speed(iter/s)": 1.447399
    },
    {
      "epoch": 2.800651214600917,
      "grad_norm": 1.3291949033737183,
      "learning_rate": 4.061083892195788e-05,
      "loss": 0.5285824298858642,
      "memory(GiB)": 70.5,
      "step": 65370,
      "token_acc": 0.9163636363636364,
      "train_speed(iter/s)": 1.447387
    },
    {
      "epoch": 2.800865429930166,
      "grad_norm": 5.042686939239502,
      "learning_rate": 4.0604228953291404e-05,
      "loss": 0.39534845352172854,
      "memory(GiB)": 70.5,
      "step": 65375,
      "token_acc": 0.9100346020761245,
      "train_speed(iter/s)": 1.447387
    },
    {
      "epoch": 2.801079645259415,
      "grad_norm": 2.6069557666778564,
      "learning_rate": 4.059761915483815e-05,
      "loss": 0.7030075550079345,
      "memory(GiB)": 70.5,
      "step": 65380,
      "token_acc": 0.8823529411764706,
      "train_speed(iter/s)": 1.447402
    },
    {
      "epoch": 2.8012938605886637,
      "grad_norm": 0.2612636387348175,
      "learning_rate": 4.059100952671786e-05,
      "loss": 0.5105576992034913,
      "memory(GiB)": 70.5,
      "step": 65385,
      "token_acc": 0.9209621993127147,
      "train_speed(iter/s)": 1.447408
    },
    {
      "epoch": 2.801508075917913,
      "grad_norm": 4.365941524505615,
      "learning_rate": 4.058440006905025e-05,
      "loss": 0.15441906452178955,
      "memory(GiB)": 70.5,
      "step": 65390,
      "token_acc": 0.952755905511811,
      "train_speed(iter/s)": 1.447413
    },
    {
      "epoch": 2.8017222912471618,
      "grad_norm": 1.234144687652588,
      "learning_rate": 4.057779078195506e-05,
      "loss": 0.24028642177581788,
      "memory(GiB)": 70.5,
      "step": 65395,
      "token_acc": 0.953125,
      "train_speed(iter/s)": 1.447416
    },
    {
      "epoch": 2.8019365065764106,
      "grad_norm": 2.396169900894165,
      "learning_rate": 4.0571181665552035e-05,
      "loss": 0.2668771743774414,
      "memory(GiB)": 70.5,
      "step": 65400,
      "token_acc": 0.9352750809061489,
      "train_speed(iter/s)": 1.44742
    },
    {
      "epoch": 2.80215072190566,
      "grad_norm": 3.0904831886291504,
      "learning_rate": 4.05645727199609e-05,
      "loss": 0.4542675018310547,
      "memory(GiB)": 70.5,
      "step": 65405,
      "token_acc": 0.9090909090909091,
      "train_speed(iter/s)": 1.447418
    },
    {
      "epoch": 2.8023649372349086,
      "grad_norm": 4.245720863342285,
      "learning_rate": 4.055796394530138e-05,
      "loss": 0.299834156036377,
      "memory(GiB)": 70.5,
      "step": 65410,
      "token_acc": 0.9315589353612167,
      "train_speed(iter/s)": 1.44742
    },
    {
      "epoch": 2.8025791525641575,
      "grad_norm": 2.8813765048980713,
      "learning_rate": 4.05513553416932e-05,
      "loss": 0.22031049728393554,
      "memory(GiB)": 70.5,
      "step": 65415,
      "token_acc": 0.949685534591195,
      "train_speed(iter/s)": 1.447435
    },
    {
      "epoch": 2.8027933678934067,
      "grad_norm": 1.8902325630187988,
      "learning_rate": 4.054474690925607e-05,
      "loss": 0.16527761220932008,
      "memory(GiB)": 70.5,
      "step": 65420,
      "token_acc": 0.9545454545454546,
      "train_speed(iter/s)": 1.447439
    },
    {
      "epoch": 2.8030075832226555,
      "grad_norm": 6.8477373123168945,
      "learning_rate": 4.053813864810974e-05,
      "loss": 0.5375009059906006,
      "memory(GiB)": 70.5,
      "step": 65425,
      "token_acc": 0.8888888888888888,
      "train_speed(iter/s)": 1.447462
    },
    {
      "epoch": 2.8032217985519043,
      "grad_norm": 4.156376361846924,
      "learning_rate": 4.05315305583739e-05,
      "loss": 0.5096409797668457,
      "memory(GiB)": 70.5,
      "step": 65430,
      "token_acc": 0.8904109589041096,
      "train_speed(iter/s)": 1.447475
    },
    {
      "epoch": 2.8034360138811536,
      "grad_norm": 2.7227964401245117,
      "learning_rate": 4.052492264016825e-05,
      "loss": 0.4367702484130859,
      "memory(GiB)": 70.5,
      "step": 65435,
      "token_acc": 0.9093959731543624,
      "train_speed(iter/s)": 1.447492
    },
    {
      "epoch": 2.8036502292104024,
      "grad_norm": 2.993776798248291,
      "learning_rate": 4.0518314893612535e-05,
      "loss": 0.5975071907043457,
      "memory(GiB)": 70.5,
      "step": 65440,
      "token_acc": 0.8687258687258688,
      "train_speed(iter/s)": 1.4475
    },
    {
      "epoch": 2.8038644445396512,
      "grad_norm": 1.3467299938201904,
      "learning_rate": 4.0511707318826426e-05,
      "loss": 0.23333203792572021,
      "memory(GiB)": 70.5,
      "step": 65445,
      "token_acc": 0.9197530864197531,
      "train_speed(iter/s)": 1.44751
    },
    {
      "epoch": 2.8040786598689005,
      "grad_norm": 2.0019307136535645,
      "learning_rate": 4.050509991592964e-05,
      "loss": 0.3400393009185791,
      "memory(GiB)": 70.5,
      "step": 65450,
      "token_acc": 0.9176470588235294,
      "train_speed(iter/s)": 1.447512
    },
    {
      "epoch": 2.8042928751981493,
      "grad_norm": 2.286032199859619,
      "learning_rate": 4.049849268504187e-05,
      "loss": 0.30358152389526366,
      "memory(GiB)": 70.5,
      "step": 65455,
      "token_acc": 0.9293286219081273,
      "train_speed(iter/s)": 1.447529
    },
    {
      "epoch": 2.804507090527398,
      "grad_norm": 5.2249016761779785,
      "learning_rate": 4.0491885626282836e-05,
      "loss": 0.35160245895385744,
      "memory(GiB)": 70.5,
      "step": 65460,
      "token_acc": 0.9382239382239382,
      "train_speed(iter/s)": 1.447534
    },
    {
      "epoch": 2.8047213058566474,
      "grad_norm": 3.2115511894226074,
      "learning_rate": 4.04852787397722e-05,
      "loss": 0.4058983325958252,
      "memory(GiB)": 70.5,
      "step": 65465,
      "token_acc": 0.896875,
      "train_speed(iter/s)": 1.447536
    },
    {
      "epoch": 2.804935521185896,
      "grad_norm": 2.6461009979248047,
      "learning_rate": 4.047867202562967e-05,
      "loss": 0.3824728727340698,
      "memory(GiB)": 70.5,
      "step": 65470,
      "token_acc": 0.9141914191419142,
      "train_speed(iter/s)": 1.447555
    },
    {
      "epoch": 2.805149736515145,
      "grad_norm": 2.3565335273742676,
      "learning_rate": 4.0472065483974933e-05,
      "loss": 0.16277716159820557,
      "memory(GiB)": 70.5,
      "step": 65475,
      "token_acc": 0.968503937007874,
      "train_speed(iter/s)": 1.447557
    },
    {
      "epoch": 2.8053639518443942,
      "grad_norm": 0.04891785979270935,
      "learning_rate": 4.046545911492766e-05,
      "loss": 0.1885126233100891,
      "memory(GiB)": 70.5,
      "step": 65480,
      "token_acc": 0.940625,
      "train_speed(iter/s)": 1.447554
    },
    {
      "epoch": 2.805578167173643,
      "grad_norm": 4.535712718963623,
      "learning_rate": 4.0458852918607545e-05,
      "loss": 0.3993035316467285,
      "memory(GiB)": 70.5,
      "step": 65485,
      "token_acc": 0.935064935064935,
      "train_speed(iter/s)": 1.447567
    },
    {
      "epoch": 2.805792382502892,
      "grad_norm": 1.2075130939483643,
      "learning_rate": 4.0452246895134266e-05,
      "loss": 0.24976034164428712,
      "memory(GiB)": 70.5,
      "step": 65490,
      "token_acc": 0.9531772575250836,
      "train_speed(iter/s)": 1.447573
    },
    {
      "epoch": 2.806006597832141,
      "grad_norm": 2.4892630577087402,
      "learning_rate": 4.044564104462747e-05,
      "loss": 0.16194266080856323,
      "memory(GiB)": 70.5,
      "step": 65495,
      "token_acc": 0.9674267100977199,
      "train_speed(iter/s)": 1.447596
    },
    {
      "epoch": 2.80622081316139,
      "grad_norm": 4.754246711730957,
      "learning_rate": 4.0439035367206875e-05,
      "loss": 0.35838191509246825,
      "memory(GiB)": 70.5,
      "step": 65500,
      "token_acc": 0.9163636363636364,
      "train_speed(iter/s)": 1.447602
    },
    {
      "epoch": 2.80622081316139,
      "eval_loss": 2.61106538772583,
      "eval_runtime": 12.7838,
      "eval_samples_per_second": 7.822,
      "eval_steps_per_second": 7.822,
      "eval_token_acc": 0.4450402144772118,
      "step": 65500
    },
    {
      "epoch": 2.8064350284906388,
      "grad_norm": 2.1217753887176514,
      "learning_rate": 4.04324298629921e-05,
      "loss": 0.41364588737487795,
      "memory(GiB)": 70.5,
      "step": 65505,
      "token_acc": 0.5674325674325674,
      "train_speed(iter/s)": 1.447165
    },
    {
      "epoch": 2.806649243819888,
      "grad_norm": 2.7716224193573,
      "learning_rate": 4.042582453210285e-05,
      "loss": 0.2500730514526367,
      "memory(GiB)": 70.5,
      "step": 65510,
      "token_acc": 0.9565217391304348,
      "train_speed(iter/s)": 1.447169
    },
    {
      "epoch": 2.806863459149137,
      "grad_norm": 4.581140995025635,
      "learning_rate": 4.0419219374658766e-05,
      "loss": 0.3414626121520996,
      "memory(GiB)": 70.5,
      "step": 65515,
      "token_acc": 0.9340277777777778,
      "train_speed(iter/s)": 1.447176
    },
    {
      "epoch": 2.8070776744783856,
      "grad_norm": 4.055304050445557,
      "learning_rate": 4.04126143907795e-05,
      "loss": 0.5748294830322266,
      "memory(GiB)": 70.5,
      "step": 65520,
      "token_acc": 0.8710801393728222,
      "train_speed(iter/s)": 1.447187
    },
    {
      "epoch": 2.807291889807635,
      "grad_norm": 4.594996452331543,
      "learning_rate": 4.040600958058471e-05,
      "loss": 0.3870840072631836,
      "memory(GiB)": 70.5,
      "step": 65525,
      "token_acc": 0.9154411764705882,
      "train_speed(iter/s)": 1.447189
    },
    {
      "epoch": 2.8075061051368837,
      "grad_norm": 2.659824848175049,
      "learning_rate": 4.039940494419407e-05,
      "loss": 0.30927157402038574,
      "memory(GiB)": 70.5,
      "step": 65530,
      "token_acc": 0.9475806451612904,
      "train_speed(iter/s)": 1.447189
    },
    {
      "epoch": 2.8077203204661325,
      "grad_norm": 2.9789791107177734,
      "learning_rate": 4.0392800481727224e-05,
      "loss": 0.13736239671707154,
      "memory(GiB)": 70.5,
      "step": 65535,
      "token_acc": 0.9556451612903226,
      "train_speed(iter/s)": 1.447188
    },
    {
      "epoch": 2.8079345357953818,
      "grad_norm": 5.3989644050598145,
      "learning_rate": 4.03861961933038e-05,
      "loss": 0.3124204635620117,
      "memory(GiB)": 70.5,
      "step": 65540,
      "token_acc": 0.9386281588447654,
      "train_speed(iter/s)": 1.447193
    },
    {
      "epoch": 2.8081487511246306,
      "grad_norm": 6.953273773193359,
      "learning_rate": 4.037959207904346e-05,
      "loss": 0.40552325248718263,
      "memory(GiB)": 70.5,
      "step": 65545,
      "token_acc": 0.9036144578313253,
      "train_speed(iter/s)": 1.447196
    },
    {
      "epoch": 2.8083629664538794,
      "grad_norm": 3.4184439182281494,
      "learning_rate": 4.0372988139065824e-05,
      "loss": 0.36038596630096437,
      "memory(GiB)": 70.5,
      "step": 65550,
      "token_acc": 0.9094076655052264,
      "train_speed(iter/s)": 1.447206
    },
    {
      "epoch": 2.8085771817831287,
      "grad_norm": 1.5506142377853394,
      "learning_rate": 4.036638437349054e-05,
      "loss": 0.2236245632171631,
      "memory(GiB)": 70.5,
      "step": 65555,
      "token_acc": 0.9573643410852714,
      "train_speed(iter/s)": 1.447205
    },
    {
      "epoch": 2.8087913971123775,
      "grad_norm": 0.597811222076416,
      "learning_rate": 4.035978078243725e-05,
      "loss": 0.4485891819000244,
      "memory(GiB)": 70.5,
      "step": 65560,
      "token_acc": 0.9013157894736842,
      "train_speed(iter/s)": 1.447211
    },
    {
      "epoch": 2.8090056124416263,
      "grad_norm": 5.578658103942871,
      "learning_rate": 4.0353177366025565e-05,
      "loss": 0.6790993690490723,
      "memory(GiB)": 70.5,
      "step": 65565,
      "token_acc": 0.865625,
      "train_speed(iter/s)": 1.447226
    },
    {
      "epoch": 2.8092198277708755,
      "grad_norm": 2.9286370277404785,
      "learning_rate": 4.0346574124375126e-05,
      "loss": 0.5922324657440186,
      "memory(GiB)": 70.5,
      "step": 65570,
      "token_acc": 0.8683274021352313,
      "train_speed(iter/s)": 1.447238
    },
    {
      "epoch": 2.8094340431001243,
      "grad_norm": 3.873889684677124,
      "learning_rate": 4.033997105760555e-05,
      "loss": 0.4971031665802002,
      "memory(GiB)": 70.5,
      "step": 65575,
      "token_acc": 0.8909774436090225,
      "train_speed(iter/s)": 1.447239
    },
    {
      "epoch": 2.809648258429373,
      "grad_norm": 5.785956382751465,
      "learning_rate": 4.0333368165836456e-05,
      "loss": 0.6018098354339599,
      "memory(GiB)": 70.5,
      "step": 65580,
      "token_acc": 0.8661710037174721,
      "train_speed(iter/s)": 1.447244
    },
    {
      "epoch": 2.8098624737586224,
      "grad_norm": 3.2937934398651123,
      "learning_rate": 4.032676544918747e-05,
      "loss": 0.5646754264831543,
      "memory(GiB)": 70.5,
      "step": 65585,
      "token_acc": 0.8957528957528957,
      "train_speed(iter/s)": 1.447277
    },
    {
      "epoch": 2.8100766890878712,
      "grad_norm": 1.1718324422836304,
      "learning_rate": 4.0320162907778196e-05,
      "loss": 0.4056044101715088,
      "memory(GiB)": 70.5,
      "step": 65590,
      "token_acc": 0.9226190476190477,
      "train_speed(iter/s)": 1.447295
    },
    {
      "epoch": 2.81029090441712,
      "grad_norm": 3.739021062850952,
      "learning_rate": 4.031356054172826e-05,
      "loss": 0.450758171081543,
      "memory(GiB)": 70.5,
      "step": 65595,
      "token_acc": 0.9124087591240876,
      "train_speed(iter/s)": 1.447311
    },
    {
      "epoch": 2.8105051197463693,
      "grad_norm": 3.4903602600097656,
      "learning_rate": 4.0306958351157245e-05,
      "loss": 0.38242230415344236,
      "memory(GiB)": 70.5,
      "step": 65600,
      "token_acc": 0.9320754716981132,
      "train_speed(iter/s)": 1.447317
    },
    {
      "epoch": 2.810719335075618,
      "grad_norm": 3.754523515701294,
      "learning_rate": 4.0300356336184786e-05,
      "loss": 0.36229040622711184,
      "memory(GiB)": 70.5,
      "step": 65605,
      "token_acc": 0.9196891191709845,
      "train_speed(iter/s)": 1.447317
    },
    {
      "epoch": 2.810933550404867,
      "grad_norm": 1.2235926389694214,
      "learning_rate": 4.029375449693047e-05,
      "loss": 0.28717315196990967,
      "memory(GiB)": 70.5,
      "step": 65610,
      "token_acc": 0.9357142857142857,
      "train_speed(iter/s)": 1.447321
    },
    {
      "epoch": 2.811147765734116,
      "grad_norm": 2.807979106903076,
      "learning_rate": 4.02871528335139e-05,
      "loss": 0.47182493209838866,
      "memory(GiB)": 70.5,
      "step": 65615,
      "token_acc": 0.8893617021276595,
      "train_speed(iter/s)": 1.447329
    },
    {
      "epoch": 2.811361981063365,
      "grad_norm": 4.286454200744629,
      "learning_rate": 4.028055134605467e-05,
      "loss": 0.3874686241149902,
      "memory(GiB)": 70.5,
      "step": 65620,
      "token_acc": 0.9039735099337748,
      "train_speed(iter/s)": 1.447338
    },
    {
      "epoch": 2.811576196392614,
      "grad_norm": 4.29857063293457,
      "learning_rate": 4.0273950034672356e-05,
      "loss": 0.6466447830200195,
      "memory(GiB)": 70.5,
      "step": 65625,
      "token_acc": 0.8669354838709677,
      "train_speed(iter/s)": 1.447365
    },
    {
      "epoch": 2.811790411721863,
      "grad_norm": 4.272668361663818,
      "learning_rate": 4.026734889948657e-05,
      "loss": 0.4003013610839844,
      "memory(GiB)": 70.5,
      "step": 65630,
      "token_acc": 0.9185667752442996,
      "train_speed(iter/s)": 1.447377
    },
    {
      "epoch": 2.812004627051112,
      "grad_norm": 2.714235544204712,
      "learning_rate": 4.02607479406169e-05,
      "loss": 0.5596010684967041,
      "memory(GiB)": 70.5,
      "step": 65635,
      "token_acc": 0.875,
      "train_speed(iter/s)": 1.447379
    },
    {
      "epoch": 2.8122188423803607,
      "grad_norm": 0.9737520813941956,
      "learning_rate": 4.0254147158182895e-05,
      "loss": 0.221573543548584,
      "memory(GiB)": 70.5,
      "step": 65640,
      "token_acc": 0.9365079365079365,
      "train_speed(iter/s)": 1.447382
    },
    {
      "epoch": 2.81243305770961,
      "grad_norm": 1.6398098468780518,
      "learning_rate": 4.024754655230417e-05,
      "loss": 0.6445670604705811,
      "memory(GiB)": 70.5,
      "step": 65645,
      "token_acc": 0.8862068965517241,
      "train_speed(iter/s)": 1.447396
    },
    {
      "epoch": 2.8126472730388588,
      "grad_norm": 4.333428859710693,
      "learning_rate": 4.024094612310028e-05,
      "loss": 0.4044950008392334,
      "memory(GiB)": 70.5,
      "step": 65650,
      "token_acc": 0.9103139013452914,
      "train_speed(iter/s)": 1.447399
    },
    {
      "epoch": 2.8128614883681076,
      "grad_norm": 1.1214721202850342,
      "learning_rate": 4.023434587069081e-05,
      "loss": 0.47982068061828614,
      "memory(GiB)": 70.5,
      "step": 65655,
      "token_acc": 0.91005291005291,
      "train_speed(iter/s)": 1.447399
    },
    {
      "epoch": 2.813075703697357,
      "grad_norm": 4.4294538497924805,
      "learning_rate": 4.0227745795195335e-05,
      "loss": 0.2524839401245117,
      "memory(GiB)": 70.5,
      "step": 65660,
      "token_acc": 0.9381818181818182,
      "train_speed(iter/s)": 1.447417
    },
    {
      "epoch": 2.8132899190266056,
      "grad_norm": 3.8918893337249756,
      "learning_rate": 4.02211458967334e-05,
      "loss": 0.30101020336151124,
      "memory(GiB)": 70.5,
      "step": 65665,
      "token_acc": 0.9377162629757786,
      "train_speed(iter/s)": 1.447422
    },
    {
      "epoch": 2.8135041343558544,
      "grad_norm": 2.224165439605713,
      "learning_rate": 4.021454617542457e-05,
      "loss": 0.39116358757019043,
      "memory(GiB)": 70.5,
      "step": 65670,
      "token_acc": 0.9469964664310954,
      "train_speed(iter/s)": 1.447437
    },
    {
      "epoch": 2.8137183496851037,
      "grad_norm": 3.922574043273926,
      "learning_rate": 4.0207946631388426e-05,
      "loss": 0.3454158306121826,
      "memory(GiB)": 70.5,
      "step": 65675,
      "token_acc": 0.9305555555555556,
      "train_speed(iter/s)": 1.447436
    },
    {
      "epoch": 2.8139325650143525,
      "grad_norm": 2.100076198577881,
      "learning_rate": 4.0201347264744524e-05,
      "loss": 0.4519326210021973,
      "memory(GiB)": 70.5,
      "step": 65680,
      "token_acc": 0.9233870967741935,
      "train_speed(iter/s)": 1.447444
    },
    {
      "epoch": 2.8141467803436013,
      "grad_norm": 3.2297000885009766,
      "learning_rate": 4.0194748075612396e-05,
      "loss": 0.5913656711578369,
      "memory(GiB)": 70.5,
      "step": 65685,
      "token_acc": 0.867109634551495,
      "train_speed(iter/s)": 1.447449
    },
    {
      "epoch": 2.8143609956728506,
      "grad_norm": 2.584153175354004,
      "learning_rate": 4.0188149064111615e-05,
      "loss": 0.5880422592163086,
      "memory(GiB)": 70.5,
      "step": 65690,
      "token_acc": 0.8590604026845637,
      "train_speed(iter/s)": 1.447448
    },
    {
      "epoch": 2.8145752110020994,
      "grad_norm": 3.975919723510742,
      "learning_rate": 4.018155023036171e-05,
      "loss": 0.5264403343200683,
      "memory(GiB)": 70.5,
      "step": 65695,
      "token_acc": 0.8696969696969697,
      "train_speed(iter/s)": 1.447459
    },
    {
      "epoch": 2.814789426331348,
      "grad_norm": 0.7207290530204773,
      "learning_rate": 4.017495157448224e-05,
      "loss": 0.19659755229949952,
      "memory(GiB)": 70.5,
      "step": 65700,
      "token_acc": 0.9518072289156626,
      "train_speed(iter/s)": 1.447462
    },
    {
      "epoch": 2.8150036416605975,
      "grad_norm": 1.0837005376815796,
      "learning_rate": 4.0168353096592735e-05,
      "loss": 0.39782114028930665,
      "memory(GiB)": 70.5,
      "step": 65705,
      "token_acc": 0.9362549800796812,
      "train_speed(iter/s)": 1.447463
    },
    {
      "epoch": 2.8152178569898463,
      "grad_norm": 3.238957166671753,
      "learning_rate": 4.0161754796812736e-05,
      "loss": 0.3363406419754028,
      "memory(GiB)": 70.5,
      "step": 65710,
      "token_acc": 0.9171597633136095,
      "train_speed(iter/s)": 1.447471
    },
    {
      "epoch": 2.815432072319095,
      "grad_norm": 4.058709144592285,
      "learning_rate": 4.0155156675261785e-05,
      "loss": 0.5748291015625,
      "memory(GiB)": 70.5,
      "step": 65715,
      "token_acc": 0.8945783132530121,
      "train_speed(iter/s)": 1.44747
    },
    {
      "epoch": 2.8156462876483443,
      "grad_norm": 2.0098016262054443,
      "learning_rate": 4.01485587320594e-05,
      "loss": 0.3010366916656494,
      "memory(GiB)": 70.5,
      "step": 65720,
      "token_acc": 0.9305993690851735,
      "train_speed(iter/s)": 1.44747
    },
    {
      "epoch": 2.815860502977593,
      "grad_norm": 2.082310914993286,
      "learning_rate": 4.014196096732511e-05,
      "loss": 0.13481926918029785,
      "memory(GiB)": 70.5,
      "step": 65725,
      "token_acc": 0.9745762711864406,
      "train_speed(iter/s)": 1.447476
    },
    {
      "epoch": 2.816074718306842,
      "grad_norm": 0.2884879410266876,
      "learning_rate": 4.0135363381178454e-05,
      "loss": 0.34470601081848146,
      "memory(GiB)": 70.5,
      "step": 65730,
      "token_acc": 0.930327868852459,
      "train_speed(iter/s)": 1.44748
    },
    {
      "epoch": 2.8162889336360912,
      "grad_norm": 2.4506723880767822,
      "learning_rate": 4.012876597373893e-05,
      "loss": 0.28392724990844725,
      "memory(GiB)": 70.5,
      "step": 65735,
      "token_acc": 0.9351145038167938,
      "train_speed(iter/s)": 1.447481
    },
    {
      "epoch": 2.81650314896534,
      "grad_norm": 3.062225103378296,
      "learning_rate": 4.012216874512609e-05,
      "loss": 0.34068903923034666,
      "memory(GiB)": 70.5,
      "step": 65740,
      "token_acc": 0.9283387622149837,
      "train_speed(iter/s)": 1.447498
    },
    {
      "epoch": 2.816717364294589,
      "grad_norm": 3.15340518951416,
      "learning_rate": 4.0115571695459396e-05,
      "loss": 0.7546008110046387,
      "memory(GiB)": 70.5,
      "step": 65745,
      "token_acc": 0.8436363636363636,
      "train_speed(iter/s)": 1.447504
    },
    {
      "epoch": 2.816931579623838,
      "grad_norm": 3.9223599433898926,
      "learning_rate": 4.0108974824858425e-05,
      "loss": 0.15568189620971679,
      "memory(GiB)": 70.5,
      "step": 65750,
      "token_acc": 0.9610894941634242,
      "train_speed(iter/s)": 1.44751
    },
    {
      "epoch": 2.817145794953087,
      "grad_norm": 5.46969747543335,
      "learning_rate": 4.010237813344264e-05,
      "loss": 0.21836724281311035,
      "memory(GiB)": 70.5,
      "step": 65755,
      "token_acc": 0.9381818181818182,
      "train_speed(iter/s)": 1.447517
    },
    {
      "epoch": 2.8173600102823357,
      "grad_norm": 0.17792794108390808,
      "learning_rate": 4.0095781621331563e-05,
      "loss": 0.19510886669158936,
      "memory(GiB)": 70.5,
      "step": 65760,
      "token_acc": 0.96,
      "train_speed(iter/s)": 1.447522
    },
    {
      "epoch": 2.817574225611585,
      "grad_norm": 3.976799726486206,
      "learning_rate": 4.0089185288644706e-05,
      "loss": 0.27987892627716066,
      "memory(GiB)": 70.5,
      "step": 65765,
      "token_acc": 0.9324894514767933,
      "train_speed(iter/s)": 1.447523
    },
    {
      "epoch": 2.817788440940834,
      "grad_norm": 3.1028332710266113,
      "learning_rate": 4.008258913550153e-05,
      "loss": 0.37985868453979493,
      "memory(GiB)": 70.5,
      "step": 65770,
      "token_acc": 0.9166666666666666,
      "train_speed(iter/s)": 1.447519
    },
    {
      "epoch": 2.8180026562700826,
      "grad_norm": 2.071793556213379,
      "learning_rate": 4.0075993162021575e-05,
      "loss": 0.1918225646018982,
      "memory(GiB)": 70.5,
      "step": 65775,
      "token_acc": 0.9621212121212122,
      "train_speed(iter/s)": 1.447525
    },
    {
      "epoch": 2.818216871599332,
      "grad_norm": 2.459130048751831,
      "learning_rate": 4.006939736832431e-05,
      "loss": 0.5563003540039062,
      "memory(GiB)": 70.5,
      "step": 65780,
      "token_acc": 0.8853503184713376,
      "train_speed(iter/s)": 1.447525
    },
    {
      "epoch": 2.8184310869285807,
      "grad_norm": 5.064753532409668,
      "learning_rate": 4.006280175452922e-05,
      "loss": 0.25032715797424315,
      "memory(GiB)": 70.5,
      "step": 65785,
      "token_acc": 0.9487179487179487,
      "train_speed(iter/s)": 1.447523
    },
    {
      "epoch": 2.8186453022578295,
      "grad_norm": 5.609072208404541,
      "learning_rate": 4.0056206320755806e-05,
      "loss": 0.3041250705718994,
      "memory(GiB)": 70.5,
      "step": 65790,
      "token_acc": 0.9358108108108109,
      "train_speed(iter/s)": 1.447517
    },
    {
      "epoch": 2.8188595175870788,
      "grad_norm": 0.9684300422668457,
      "learning_rate": 4.0049611067123526e-05,
      "loss": 0.19255608320236206,
      "memory(GiB)": 70.5,
      "step": 65795,
      "token_acc": 0.9382239382239382,
      "train_speed(iter/s)": 1.447522
    },
    {
      "epoch": 2.8190737329163276,
      "grad_norm": 2.077866554260254,
      "learning_rate": 4.00430159937519e-05,
      "loss": 0.452288818359375,
      "memory(GiB)": 70.5,
      "step": 65800,
      "token_acc": 0.8996539792387543,
      "train_speed(iter/s)": 1.447525
    },
    {
      "epoch": 2.8192879482455764,
      "grad_norm": 3.8816754817962646,
      "learning_rate": 4.003642110076037e-05,
      "loss": 0.391249418258667,
      "memory(GiB)": 70.5,
      "step": 65805,
      "token_acc": 0.9127272727272727,
      "train_speed(iter/s)": 1.447524
    },
    {
      "epoch": 2.8195021635748256,
      "grad_norm": 0.10942092537879944,
      "learning_rate": 4.002982638826841e-05,
      "loss": 0.204693603515625,
      "memory(GiB)": 70.5,
      "step": 65810,
      "token_acc": 0.9553903345724907,
      "train_speed(iter/s)": 1.447517
    },
    {
      "epoch": 2.8197163789040744,
      "grad_norm": 1.4451452493667603,
      "learning_rate": 4.0023231856395505e-05,
      "loss": 0.17195792198181153,
      "memory(GiB)": 70.5,
      "step": 65815,
      "token_acc": 0.9690402476780186,
      "train_speed(iter/s)": 1.447529
    },
    {
      "epoch": 2.8199305942333233,
      "grad_norm": 3.324211359024048,
      "learning_rate": 4.00166375052611e-05,
      "loss": 0.2927267074584961,
      "memory(GiB)": 70.5,
      "step": 65820,
      "token_acc": 0.941358024691358,
      "train_speed(iter/s)": 1.447531
    },
    {
      "epoch": 2.8201448095625725,
      "grad_norm": 0.3051203489303589,
      "learning_rate": 4.001004333498469e-05,
      "loss": 0.3352349281311035,
      "memory(GiB)": 70.5,
      "step": 65825,
      "token_acc": 0.9276595744680851,
      "train_speed(iter/s)": 1.447537
    },
    {
      "epoch": 2.8203590248918213,
      "grad_norm": 2.9657983779907227,
      "learning_rate": 4.0003449345685704e-05,
      "loss": 0.36175999641418455,
      "memory(GiB)": 70.5,
      "step": 65830,
      "token_acc": 0.9285714285714286,
      "train_speed(iter/s)": 1.447547
    },
    {
      "epoch": 2.82057324022107,
      "grad_norm": 6.318264961242676,
      "learning_rate": 3.999685553748362e-05,
      "loss": 0.49136719703674314,
      "memory(GiB)": 70.5,
      "step": 65835,
      "token_acc": 0.8927536231884058,
      "train_speed(iter/s)": 1.447557
    },
    {
      "epoch": 2.8207874555503194,
      "grad_norm": 5.312129974365234,
      "learning_rate": 3.9990261910497876e-05,
      "loss": 0.4423810958862305,
      "memory(GiB)": 70.5,
      "step": 65840,
      "token_acc": 0.887459807073955,
      "train_speed(iter/s)": 1.447562
    },
    {
      "epoch": 2.821001670879568,
      "grad_norm": 3.6515443325042725,
      "learning_rate": 3.9983668464847935e-05,
      "loss": 0.5017635345458984,
      "memory(GiB)": 70.5,
      "step": 65845,
      "token_acc": 0.8763250883392226,
      "train_speed(iter/s)": 1.447568
    },
    {
      "epoch": 2.821215886208817,
      "grad_norm": 4.767198085784912,
      "learning_rate": 3.9977075200653234e-05,
      "loss": 0.6141701698303222,
      "memory(GiB)": 70.5,
      "step": 65850,
      "token_acc": 0.8867924528301887,
      "train_speed(iter/s)": 1.447579
    },
    {
      "epoch": 2.8214301015380663,
      "grad_norm": 2.3564260005950928,
      "learning_rate": 3.997048211803321e-05,
      "loss": 0.23367273807525635,
      "memory(GiB)": 70.5,
      "step": 65855,
      "token_acc": 0.932475884244373,
      "train_speed(iter/s)": 1.447577
    },
    {
      "epoch": 2.821644316867315,
      "grad_norm": 4.073162078857422,
      "learning_rate": 3.996388921710732e-05,
      "loss": 0.5777758598327637,
      "memory(GiB)": 70.5,
      "step": 65860,
      "token_acc": 0.894927536231884,
      "train_speed(iter/s)": 1.44758
    },
    {
      "epoch": 2.821858532196564,
      "grad_norm": 2.631847858428955,
      "learning_rate": 3.995729649799499e-05,
      "loss": 0.43934950828552244,
      "memory(GiB)": 70.5,
      "step": 65865,
      "token_acc": 0.9223880597014925,
      "train_speed(iter/s)": 1.44758
    },
    {
      "epoch": 2.822072747525813,
      "grad_norm": 3.551302433013916,
      "learning_rate": 3.995070396081565e-05,
      "loss": 0.3345721483230591,
      "memory(GiB)": 70.5,
      "step": 65870,
      "token_acc": 0.9193548387096774,
      "train_speed(iter/s)": 1.44759
    },
    {
      "epoch": 2.822286962855062,
      "grad_norm": 4.0038042068481445,
      "learning_rate": 3.994411160568874e-05,
      "loss": 0.3705452442169189,
      "memory(GiB)": 70.5,
      "step": 65875,
      "token_acc": 0.9291338582677166,
      "train_speed(iter/s)": 1.447607
    },
    {
      "epoch": 2.822501178184311,
      "grad_norm": 2.4785895347595215,
      "learning_rate": 3.993751943273367e-05,
      "loss": 0.31236817836761477,
      "memory(GiB)": 70.5,
      "step": 65880,
      "token_acc": 0.9310344827586207,
      "train_speed(iter/s)": 1.447604
    },
    {
      "epoch": 2.82271539351356,
      "grad_norm": 3.6710078716278076,
      "learning_rate": 3.9930927442069885e-05,
      "loss": 0.4261664390563965,
      "memory(GiB)": 70.5,
      "step": 65885,
      "token_acc": 0.9163346613545816,
      "train_speed(iter/s)": 1.447603
    },
    {
      "epoch": 2.822929608842809,
      "grad_norm": 2.3866469860076904,
      "learning_rate": 3.99243356338168e-05,
      "loss": 0.33325586318969724,
      "memory(GiB)": 70.5,
      "step": 65890,
      "token_acc": 0.9481481481481482,
      "train_speed(iter/s)": 1.447616
    },
    {
      "epoch": 2.8231438241720577,
      "grad_norm": 1.994363784790039,
      "learning_rate": 3.9917744008093806e-05,
      "loss": 0.2088099479675293,
      "memory(GiB)": 70.5,
      "step": 65895,
      "token_acc": 0.9471830985915493,
      "train_speed(iter/s)": 1.447612
    },
    {
      "epoch": 2.823358039501307,
      "grad_norm": 3.0112292766571045,
      "learning_rate": 3.991115256502034e-05,
      "loss": 0.40438151359558105,
      "memory(GiB)": 70.5,
      "step": 65900,
      "token_acc": 0.914396887159533,
      "train_speed(iter/s)": 1.44761
    },
    {
      "epoch": 2.8235722548305557,
      "grad_norm": 3.104426860809326,
      "learning_rate": 3.9904561304715824e-05,
      "loss": 0.26966798305511475,
      "memory(GiB)": 70.5,
      "step": 65905,
      "token_acc": 0.9363295880149812,
      "train_speed(iter/s)": 1.447612
    },
    {
      "epoch": 2.8237864701598046,
      "grad_norm": 4.517772197723389,
      "learning_rate": 3.989797022729966e-05,
      "loss": 0.375781774520874,
      "memory(GiB)": 70.5,
      "step": 65910,
      "token_acc": 0.9264214046822743,
      "train_speed(iter/s)": 1.447616
    },
    {
      "epoch": 2.824000685489054,
      "grad_norm": 3.7424428462982178,
      "learning_rate": 3.9891379332891224e-05,
      "loss": 0.23707613945007325,
      "memory(GiB)": 70.5,
      "step": 65915,
      "token_acc": 0.9364548494983278,
      "train_speed(iter/s)": 1.447628
    },
    {
      "epoch": 2.8242149008183026,
      "grad_norm": 2.136129856109619,
      "learning_rate": 3.9884788621609936e-05,
      "loss": 0.4658190250396729,
      "memory(GiB)": 70.5,
      "step": 65920,
      "token_acc": 0.9096774193548387,
      "train_speed(iter/s)": 1.447623
    },
    {
      "epoch": 2.8244291161475514,
      "grad_norm": 3.126932144165039,
      "learning_rate": 3.98781980935752e-05,
      "loss": 0.4726677417755127,
      "memory(GiB)": 70.5,
      "step": 65925,
      "token_acc": 0.9047619047619048,
      "train_speed(iter/s)": 1.44763
    },
    {
      "epoch": 2.8246433314768007,
      "grad_norm": 2.0444881916046143,
      "learning_rate": 3.9871607748906395e-05,
      "loss": 0.4562983989715576,
      "memory(GiB)": 70.5,
      "step": 65930,
      "token_acc": 0.9180327868852459,
      "train_speed(iter/s)": 1.447633
    },
    {
      "epoch": 2.8248575468060495,
      "grad_norm": 3.3959834575653076,
      "learning_rate": 3.9865017587722916e-05,
      "loss": 0.2507554292678833,
      "memory(GiB)": 70.5,
      "step": 65935,
      "token_acc": 0.9344827586206896,
      "train_speed(iter/s)": 1.447639
    },
    {
      "epoch": 2.8250717621352983,
      "grad_norm": 4.223495006561279,
      "learning_rate": 3.985842761014414e-05,
      "loss": 0.44249815940856935,
      "memory(GiB)": 70.5,
      "step": 65940,
      "token_acc": 0.9050632911392406,
      "train_speed(iter/s)": 1.447645
    },
    {
      "epoch": 2.8252859774645476,
      "grad_norm": 2.978490114212036,
      "learning_rate": 3.9851837816289485e-05,
      "loss": 0.2162032127380371,
      "memory(GiB)": 70.5,
      "step": 65945,
      "token_acc": 0.9427609427609428,
      "train_speed(iter/s)": 1.447652
    },
    {
      "epoch": 2.8255001927937964,
      "grad_norm": 0.5683831572532654,
      "learning_rate": 3.984524820627829e-05,
      "loss": 0.16647781133651735,
      "memory(GiB)": 70.5,
      "step": 65950,
      "token_acc": 0.9555555555555556,
      "train_speed(iter/s)": 1.447657
    },
    {
      "epoch": 2.825714408123045,
      "grad_norm": 2.81089186668396,
      "learning_rate": 3.983865878022995e-05,
      "loss": 0.33897483348846436,
      "memory(GiB)": 70.5,
      "step": 65955,
      "token_acc": 0.9278350515463918,
      "train_speed(iter/s)": 1.447678
    },
    {
      "epoch": 2.8259286234522945,
      "grad_norm": 3.276883602142334,
      "learning_rate": 3.983206953826385e-05,
      "loss": 0.3765129327774048,
      "memory(GiB)": 70.5,
      "step": 65960,
      "token_acc": 0.9121621621621622,
      "train_speed(iter/s)": 1.447679
    },
    {
      "epoch": 2.8261428387815433,
      "grad_norm": 2.574774742126465,
      "learning_rate": 3.982548048049935e-05,
      "loss": 0.5041276931762695,
      "memory(GiB)": 70.5,
      "step": 65965,
      "token_acc": 0.8918918918918919,
      "train_speed(iter/s)": 1.447699
    },
    {
      "epoch": 2.826357054110792,
      "grad_norm": 4.412144184112549,
      "learning_rate": 3.981889160705579e-05,
      "loss": 0.3333552122116089,
      "memory(GiB)": 70.5,
      "step": 65970,
      "token_acc": 0.927710843373494,
      "train_speed(iter/s)": 1.447705
    },
    {
      "epoch": 2.8265712694400413,
      "grad_norm": 4.568398952484131,
      "learning_rate": 3.981230291805257e-05,
      "loss": 0.5240084171295166,
      "memory(GiB)": 70.5,
      "step": 65975,
      "token_acc": 0.883495145631068,
      "train_speed(iter/s)": 1.447713
    },
    {
      "epoch": 2.82678548476929,
      "grad_norm": 0.4189091622829437,
      "learning_rate": 3.980571441360904e-05,
      "loss": 0.4849385738372803,
      "memory(GiB)": 70.5,
      "step": 65980,
      "token_acc": 0.8900343642611683,
      "train_speed(iter/s)": 1.447713
    },
    {
      "epoch": 2.826999700098539,
      "grad_norm": 4.8855881690979,
      "learning_rate": 3.979912609384456e-05,
      "loss": 0.6465899467468261,
      "memory(GiB)": 70.5,
      "step": 65985,
      "token_acc": 0.8641975308641975,
      "train_speed(iter/s)": 1.447711
    },
    {
      "epoch": 2.827213915427788,
      "grad_norm": 4.36391544342041,
      "learning_rate": 3.979253795887849e-05,
      "loss": 0.41993513107299807,
      "memory(GiB)": 70.5,
      "step": 65990,
      "token_acc": 0.8909090909090909,
      "train_speed(iter/s)": 1.447721
    },
    {
      "epoch": 2.827428130757037,
      "grad_norm": 1.5792783498764038,
      "learning_rate": 3.978595000883017e-05,
      "loss": 0.2016439914703369,
      "memory(GiB)": 70.5,
      "step": 65995,
      "token_acc": 0.9384057971014492,
      "train_speed(iter/s)": 1.447719
    },
    {
      "epoch": 2.827642346086286,
      "grad_norm": 2.678069591522217,
      "learning_rate": 3.977936224381893e-05,
      "loss": 0.3228564500808716,
      "memory(GiB)": 70.5,
      "step": 66000,
      "token_acc": 0.9305019305019305,
      "train_speed(iter/s)": 1.447723
    },
    {
      "epoch": 2.827642346086286,
      "eval_loss": 2.5496714115142822,
      "eval_runtime": 13.3104,
      "eval_samples_per_second": 7.513,
      "eval_steps_per_second": 7.513,
      "eval_token_acc": 0.4623955431754875,
      "step": 66000
    },
    {
      "epoch": 2.827856561415535,
      "grad_norm": 2.6306920051574707,
      "learning_rate": 3.9772774663964145e-05,
      "loss": 0.36658999919891355,
      "memory(GiB)": 70.5,
      "step": 66005,
      "token_acc": 0.6115384615384616,
      "train_speed(iter/s)": 1.447268
    },
    {
      "epoch": 2.828070776744784,
      "grad_norm": 2.874450922012329,
      "learning_rate": 3.9766187269385144e-05,
      "loss": 0.2682220220565796,
      "memory(GiB)": 70.5,
      "step": 66010,
      "token_acc": 0.9470198675496688,
      "train_speed(iter/s)": 1.447276
    },
    {
      "epoch": 2.8282849920740327,
      "grad_norm": 3.26786732673645,
      "learning_rate": 3.9759600060201245e-05,
      "loss": 0.42403397560119627,
      "memory(GiB)": 70.5,
      "step": 66015,
      "token_acc": 0.9027355623100304,
      "train_speed(iter/s)": 1.447281
    },
    {
      "epoch": 2.828499207403282,
      "grad_norm": 1.8569695949554443,
      "learning_rate": 3.975301303653181e-05,
      "loss": 0.4194043636322021,
      "memory(GiB)": 70.5,
      "step": 66020,
      "token_acc": 0.896551724137931,
      "train_speed(iter/s)": 1.447283
    },
    {
      "epoch": 2.828713422732531,
      "grad_norm": 3.356198310852051,
      "learning_rate": 3.974642619849615e-05,
      "loss": 0.31343927383422854,
      "memory(GiB)": 70.5,
      "step": 66025,
      "token_acc": 0.9330985915492958,
      "train_speed(iter/s)": 1.447286
    },
    {
      "epoch": 2.8289276380617796,
      "grad_norm": 1.2363712787628174,
      "learning_rate": 3.9739839546213596e-05,
      "loss": 0.42557196617126464,
      "memory(GiB)": 70.5,
      "step": 66030,
      "token_acc": 0.9115646258503401,
      "train_speed(iter/s)": 1.4473
    },
    {
      "epoch": 2.829141853391029,
      "grad_norm": 2.0232746601104736,
      "learning_rate": 3.9733253079803486e-05,
      "loss": 0.3307847023010254,
      "memory(GiB)": 70.5,
      "step": 66035,
      "token_acc": 0.9257950530035336,
      "train_speed(iter/s)": 1.447308
    },
    {
      "epoch": 2.8293560687202777,
      "grad_norm": 5.024719715118408,
      "learning_rate": 3.9726666799385095e-05,
      "loss": 0.5698225975036622,
      "memory(GiB)": 70.5,
      "step": 66040,
      "token_acc": 0.8741935483870967,
      "train_speed(iter/s)": 1.447304
    },
    {
      "epoch": 2.8295702840495265,
      "grad_norm": 7.053027153015137,
      "learning_rate": 3.972008070507779e-05,
      "loss": 0.4823485851287842,
      "memory(GiB)": 70.5,
      "step": 66045,
      "token_acc": 0.907563025210084,
      "train_speed(iter/s)": 1.447305
    },
    {
      "epoch": 2.8297844993787757,
      "grad_norm": 0.7565944194793701,
      "learning_rate": 3.971349479700088e-05,
      "loss": 0.4803595066070557,
      "memory(GiB)": 70.5,
      "step": 66050,
      "token_acc": 0.9094076655052264,
      "train_speed(iter/s)": 1.447307
    },
    {
      "epoch": 2.8299987147080246,
      "grad_norm": 4.279663562774658,
      "learning_rate": 3.970690907527366e-05,
      "loss": 0.5062711715698243,
      "memory(GiB)": 70.5,
      "step": 66055,
      "token_acc": 0.8953488372093024,
      "train_speed(iter/s)": 1.447318
    },
    {
      "epoch": 2.8302129300372734,
      "grad_norm": 2.779945135116577,
      "learning_rate": 3.970032354001542e-05,
      "loss": 0.2729729175567627,
      "memory(GiB)": 70.5,
      "step": 66060,
      "token_acc": 0.935251798561151,
      "train_speed(iter/s)": 1.447318
    },
    {
      "epoch": 2.8304271453665226,
      "grad_norm": 4.500383377075195,
      "learning_rate": 3.9693738191345495e-05,
      "loss": 0.386583137512207,
      "memory(GiB)": 70.5,
      "step": 66065,
      "token_acc": 0.9035369774919614,
      "train_speed(iter/s)": 1.447313
    },
    {
      "epoch": 2.8306413606957714,
      "grad_norm": 2.1126224994659424,
      "learning_rate": 3.968715302938317e-05,
      "loss": 0.2627983808517456,
      "memory(GiB)": 70.5,
      "step": 66070,
      "token_acc": 0.9291553133514986,
      "train_speed(iter/s)": 1.447318
    },
    {
      "epoch": 2.8308555760250202,
      "grad_norm": 6.821784019470215,
      "learning_rate": 3.9680568054247744e-05,
      "loss": 0.48012189865112304,
      "memory(GiB)": 70.5,
      "step": 66075,
      "token_acc": 0.8992537313432836,
      "train_speed(iter/s)": 1.447316
    },
    {
      "epoch": 2.8310697913542695,
      "grad_norm": 4.382533550262451,
      "learning_rate": 3.9673983266058504e-05,
      "loss": 0.3308417797088623,
      "memory(GiB)": 70.5,
      "step": 66080,
      "token_acc": 0.9139344262295082,
      "train_speed(iter/s)": 1.447315
    },
    {
      "epoch": 2.8312840066835183,
      "grad_norm": 3.9530723094940186,
      "learning_rate": 3.9667398664934735e-05,
      "loss": 0.4421966552734375,
      "memory(GiB)": 70.5,
      "step": 66085,
      "token_acc": 0.9235668789808917,
      "train_speed(iter/s)": 1.447325
    },
    {
      "epoch": 2.831498222012767,
      "grad_norm": 3.501617670059204,
      "learning_rate": 3.966081425099575e-05,
      "loss": 0.16654151678085327,
      "memory(GiB)": 70.5,
      "step": 66090,
      "token_acc": 0.952,
      "train_speed(iter/s)": 1.447325
    },
    {
      "epoch": 2.8317124373420164,
      "grad_norm": 2.8851287364959717,
      "learning_rate": 3.96542300243608e-05,
      "loss": 0.2382145881652832,
      "memory(GiB)": 70.5,
      "step": 66095,
      "token_acc": 0.9359756097560976,
      "train_speed(iter/s)": 1.447325
    },
    {
      "epoch": 2.831926652671265,
      "grad_norm": 2.281759023666382,
      "learning_rate": 3.9647645985149184e-05,
      "loss": 0.5194791793823242,
      "memory(GiB)": 70.5,
      "step": 66100,
      "token_acc": 0.8827361563517915,
      "train_speed(iter/s)": 1.447325
    },
    {
      "epoch": 2.832140868000514,
      "grad_norm": 3.594564914703369,
      "learning_rate": 3.964106213348017e-05,
      "loss": 0.213730525970459,
      "memory(GiB)": 70.5,
      "step": 66105,
      "token_acc": 0.9612903225806452,
      "train_speed(iter/s)": 1.447326
    },
    {
      "epoch": 2.8323550833297633,
      "grad_norm": 2.6096749305725098,
      "learning_rate": 3.963447846947304e-05,
      "loss": 0.5543881893157959,
      "memory(GiB)": 70.5,
      "step": 66110,
      "token_acc": 0.8745387453874539,
      "train_speed(iter/s)": 1.447345
    },
    {
      "epoch": 2.832569298659012,
      "grad_norm": 3.377002239227295,
      "learning_rate": 3.962789499324703e-05,
      "loss": 0.4318744659423828,
      "memory(GiB)": 70.5,
      "step": 66115,
      "token_acc": 0.9016949152542373,
      "train_speed(iter/s)": 1.447349
    },
    {
      "epoch": 2.832783513988261,
      "grad_norm": 4.131965637207031,
      "learning_rate": 3.962131170492145e-05,
      "loss": 0.6607012748718262,
      "memory(GiB)": 70.5,
      "step": 66120,
      "token_acc": 0.8828571428571429,
      "train_speed(iter/s)": 1.447372
    },
    {
      "epoch": 2.83299772931751,
      "grad_norm": 0.36935123801231384,
      "learning_rate": 3.961472860461555e-05,
      "loss": 0.4634706974029541,
      "memory(GiB)": 70.5,
      "step": 66125,
      "token_acc": 0.9325842696629213,
      "train_speed(iter/s)": 1.44738
    },
    {
      "epoch": 2.833211944646759,
      "grad_norm": 4.314681529998779,
      "learning_rate": 3.9608145692448575e-05,
      "loss": 0.5434744834899903,
      "memory(GiB)": 70.5,
      "step": 66130,
      "token_acc": 0.870253164556962,
      "train_speed(iter/s)": 1.447391
    },
    {
      "epoch": 2.8334261599760078,
      "grad_norm": 2.2219982147216797,
      "learning_rate": 3.9601562968539796e-05,
      "loss": 0.5683823108673096,
      "memory(GiB)": 70.5,
      "step": 66135,
      "token_acc": 0.8605341246290801,
      "train_speed(iter/s)": 1.447399
    },
    {
      "epoch": 2.833640375305257,
      "grad_norm": 2.85251522064209,
      "learning_rate": 3.959498043300846e-05,
      "loss": 0.29082987308502195,
      "memory(GiB)": 70.5,
      "step": 66140,
      "token_acc": 0.9076433121019108,
      "train_speed(iter/s)": 1.447407
    },
    {
      "epoch": 2.833854590634506,
      "grad_norm": 3.84812331199646,
      "learning_rate": 3.958839808597381e-05,
      "loss": 0.6959355354309082,
      "memory(GiB)": 70.5,
      "step": 66145,
      "token_acc": 0.8737864077669902,
      "train_speed(iter/s)": 1.447407
    },
    {
      "epoch": 2.8340688059637547,
      "grad_norm": 5.292137145996094,
      "learning_rate": 3.95818159275551e-05,
      "loss": 0.321564769744873,
      "memory(GiB)": 70.5,
      "step": 66150,
      "token_acc": 0.9291666666666667,
      "train_speed(iter/s)": 1.447409
    },
    {
      "epoch": 2.834283021293004,
      "grad_norm": 5.454011917114258,
      "learning_rate": 3.957523395787156e-05,
      "loss": 0.5491637706756591,
      "memory(GiB)": 70.5,
      "step": 66155,
      "token_acc": 0.8846153846153846,
      "train_speed(iter/s)": 1.447409
    },
    {
      "epoch": 2.8344972366222527,
      "grad_norm": 2.131324291229248,
      "learning_rate": 3.956865217704244e-05,
      "loss": 0.43274879455566406,
      "memory(GiB)": 70.5,
      "step": 66160,
      "token_acc": 0.9087837837837838,
      "train_speed(iter/s)": 1.447419
    },
    {
      "epoch": 2.8347114519515015,
      "grad_norm": 3.559731960296631,
      "learning_rate": 3.956207058518697e-05,
      "loss": 0.34083631038665774,
      "memory(GiB)": 70.5,
      "step": 66165,
      "token_acc": 0.9261992619926199,
      "train_speed(iter/s)": 1.447434
    },
    {
      "epoch": 2.834925667280751,
      "grad_norm": 4.544974327087402,
      "learning_rate": 3.955548918242438e-05,
      "loss": 0.44176297187805175,
      "memory(GiB)": 70.5,
      "step": 66170,
      "token_acc": 0.905829596412556,
      "train_speed(iter/s)": 1.447437
    },
    {
      "epoch": 2.8351398826099996,
      "grad_norm": 5.1930718421936035,
      "learning_rate": 3.954890796887391e-05,
      "loss": 0.4043581962585449,
      "memory(GiB)": 70.5,
      "step": 66175,
      "token_acc": 0.9010238907849829,
      "train_speed(iter/s)": 1.44745
    },
    {
      "epoch": 2.8353540979392484,
      "grad_norm": 4.500527858734131,
      "learning_rate": 3.9542326944654775e-05,
      "loss": 0.4125670909881592,
      "memory(GiB)": 70.5,
      "step": 66180,
      "token_acc": 0.8959731543624161,
      "train_speed(iter/s)": 1.447448
    },
    {
      "epoch": 2.8355683132684977,
      "grad_norm": 2.3860344886779785,
      "learning_rate": 3.953574610988619e-05,
      "loss": 0.3922131538391113,
      "memory(GiB)": 70.5,
      "step": 66185,
      "token_acc": 0.9252873563218391,
      "train_speed(iter/s)": 1.44746
    },
    {
      "epoch": 2.8357825285977465,
      "grad_norm": 1.220852017402649,
      "learning_rate": 3.952916546468737e-05,
      "loss": 0.4194629669189453,
      "memory(GiB)": 70.5,
      "step": 66190,
      "token_acc": 0.9071207430340558,
      "train_speed(iter/s)": 1.447469
    },
    {
      "epoch": 2.8359967439269953,
      "grad_norm": 5.437346935272217,
      "learning_rate": 3.9522585009177554e-05,
      "loss": 0.41033115386962893,
      "memory(GiB)": 70.5,
      "step": 66195,
      "token_acc": 0.913312693498452,
      "train_speed(iter/s)": 1.447466
    },
    {
      "epoch": 2.8362109592562446,
      "grad_norm": 1.6807118654251099,
      "learning_rate": 3.951600474347594e-05,
      "loss": 0.19144123792648315,
      "memory(GiB)": 70.5,
      "step": 66200,
      "token_acc": 0.9545454545454546,
      "train_speed(iter/s)": 1.447464
    },
    {
      "epoch": 2.8364251745854934,
      "grad_norm": 5.078380584716797,
      "learning_rate": 3.950942466770173e-05,
      "loss": 0.313324499130249,
      "memory(GiB)": 70.5,
      "step": 66205,
      "token_acc": 0.9328859060402684,
      "train_speed(iter/s)": 1.447464
    },
    {
      "epoch": 2.836639389914742,
      "grad_norm": 1.9306877851486206,
      "learning_rate": 3.950284478197414e-05,
      "loss": 0.36316328048706054,
      "memory(GiB)": 70.5,
      "step": 66210,
      "token_acc": 0.9306930693069307,
      "train_speed(iter/s)": 1.447464
    },
    {
      "epoch": 2.8368536052439914,
      "grad_norm": 3.781893014907837,
      "learning_rate": 3.9496265086412364e-05,
      "loss": 0.2557427644729614,
      "memory(GiB)": 70.5,
      "step": 66215,
      "token_acc": 0.9392857142857143,
      "train_speed(iter/s)": 1.44746
    },
    {
      "epoch": 2.8370678205732403,
      "grad_norm": 2.28578519821167,
      "learning_rate": 3.948968558113559e-05,
      "loss": 0.2455204963684082,
      "memory(GiB)": 70.5,
      "step": 66220,
      "token_acc": 0.9468085106382979,
      "train_speed(iter/s)": 1.447463
    },
    {
      "epoch": 2.837282035902489,
      "grad_norm": 5.485607147216797,
      "learning_rate": 3.9483106266263036e-05,
      "loss": 0.3786125659942627,
      "memory(GiB)": 70.5,
      "step": 66225,
      "token_acc": 0.9222972972972973,
      "train_speed(iter/s)": 1.447463
    },
    {
      "epoch": 2.8374962512317383,
      "grad_norm": 1.953791856765747,
      "learning_rate": 3.9476527141913866e-05,
      "loss": 0.32944183349609374,
      "memory(GiB)": 70.5,
      "step": 66230,
      "token_acc": 0.9347181008902077,
      "train_speed(iter/s)": 1.447461
    },
    {
      "epoch": 2.837710466560987,
      "grad_norm": 1.788444995880127,
      "learning_rate": 3.946994820820728e-05,
      "loss": 0.1590221643447876,
      "memory(GiB)": 70.5,
      "step": 66235,
      "token_acc": 0.9537815126050421,
      "train_speed(iter/s)": 1.447464
    },
    {
      "epoch": 2.837924681890236,
      "grad_norm": 1.5950638055801392,
      "learning_rate": 3.9463369465262466e-05,
      "loss": 0.18363200426101683,
      "memory(GiB)": 70.5,
      "step": 66240,
      "token_acc": 0.9490196078431372,
      "train_speed(iter/s)": 1.447472
    },
    {
      "epoch": 2.838138897219485,
      "grad_norm": 2.186486005783081,
      "learning_rate": 3.945679091319859e-05,
      "loss": 0.293864107131958,
      "memory(GiB)": 70.5,
      "step": 66245,
      "token_acc": 0.9395973154362416,
      "train_speed(iter/s)": 1.447471
    },
    {
      "epoch": 2.838353112548734,
      "grad_norm": 2.1681466102600098,
      "learning_rate": 3.9450212552134845e-05,
      "loss": 0.092784583568573,
      "memory(GiB)": 70.5,
      "step": 66250,
      "token_acc": 0.9617021276595744,
      "train_speed(iter/s)": 1.447472
    },
    {
      "epoch": 2.838567327877983,
      "grad_norm": 7.381155490875244,
      "learning_rate": 3.9443634382190396e-05,
      "loss": 0.5260069847106934,
      "memory(GiB)": 70.5,
      "step": 66255,
      "token_acc": 0.8842443729903537,
      "train_speed(iter/s)": 1.447487
    },
    {
      "epoch": 2.838781543207232,
      "grad_norm": 3.742225170135498,
      "learning_rate": 3.9437056403484404e-05,
      "loss": 0.2531268119812012,
      "memory(GiB)": 70.5,
      "step": 66260,
      "token_acc": 0.9480122324159022,
      "train_speed(iter/s)": 1.447503
    },
    {
      "epoch": 2.838995758536481,
      "grad_norm": 3.5489211082458496,
      "learning_rate": 3.9430478616136036e-05,
      "loss": 0.42949490547180175,
      "memory(GiB)": 70.5,
      "step": 66265,
      "token_acc": 0.918918918918919,
      "train_speed(iter/s)": 1.447504
    },
    {
      "epoch": 2.8392099738657297,
      "grad_norm": 3.384443521499634,
      "learning_rate": 3.9423901020264474e-05,
      "loss": 0.4859020233154297,
      "memory(GiB)": 70.5,
      "step": 66270,
      "token_acc": 0.9055944055944056,
      "train_speed(iter/s)": 1.447514
    },
    {
      "epoch": 2.839424189194979,
      "grad_norm": 2.9135968685150146,
      "learning_rate": 3.9417323615988864e-05,
      "loss": 0.37205982208251953,
      "memory(GiB)": 70.5,
      "step": 66275,
      "token_acc": 0.9052287581699346,
      "train_speed(iter/s)": 1.447522
    },
    {
      "epoch": 2.8396384045242278,
      "grad_norm": 3.752200126647949,
      "learning_rate": 3.941074640342838e-05,
      "loss": 0.3633903741836548,
      "memory(GiB)": 70.5,
      "step": 66280,
      "token_acc": 0.918429003021148,
      "train_speed(iter/s)": 1.44753
    },
    {
      "epoch": 2.8398526198534766,
      "grad_norm": 3.668041706085205,
      "learning_rate": 3.940416938270215e-05,
      "loss": 0.5304598331451416,
      "memory(GiB)": 70.5,
      "step": 66285,
      "token_acc": 0.8862745098039215,
      "train_speed(iter/s)": 1.44754
    },
    {
      "epoch": 2.840066835182726,
      "grad_norm": 2.9501171112060547,
      "learning_rate": 3.939759255392932e-05,
      "loss": 0.3508331298828125,
      "memory(GiB)": 70.5,
      "step": 66290,
      "token_acc": 0.9210526315789473,
      "train_speed(iter/s)": 1.447541
    },
    {
      "epoch": 2.8402810505119747,
      "grad_norm": 3.3858091831207275,
      "learning_rate": 3.939101591722906e-05,
      "loss": 0.29598040580749513,
      "memory(GiB)": 70.5,
      "step": 66295,
      "token_acc": 0.9193548387096774,
      "train_speed(iter/s)": 1.447549
    },
    {
      "epoch": 2.8404952658412235,
      "grad_norm": 2.5204687118530273,
      "learning_rate": 3.93844394727205e-05,
      "loss": 0.6426472663879395,
      "memory(GiB)": 70.5,
      "step": 66300,
      "token_acc": 0.8524590163934426,
      "train_speed(iter/s)": 1.447567
    },
    {
      "epoch": 2.8407094811704727,
      "grad_norm": 3.4478511810302734,
      "learning_rate": 3.937786322052276e-05,
      "loss": 0.4959681034088135,
      "memory(GiB)": 70.5,
      "step": 66305,
      "token_acc": 0.9026845637583892,
      "train_speed(iter/s)": 1.447572
    },
    {
      "epoch": 2.8409236964997215,
      "grad_norm": 1.9132519960403442,
      "learning_rate": 3.937128716075501e-05,
      "loss": 0.3019278526306152,
      "memory(GiB)": 70.5,
      "step": 66310,
      "token_acc": 0.9337979094076655,
      "train_speed(iter/s)": 1.447583
    },
    {
      "epoch": 2.8411379118289704,
      "grad_norm": 9.9467134475708,
      "learning_rate": 3.936471129353635e-05,
      "loss": 0.35906038284301756,
      "memory(GiB)": 70.5,
      "step": 66315,
      "token_acc": 0.9178571428571428,
      "train_speed(iter/s)": 1.447587
    },
    {
      "epoch": 2.8413521271582196,
      "grad_norm": 3.807467222213745,
      "learning_rate": 3.935813561898593e-05,
      "loss": 0.453034496307373,
      "memory(GiB)": 70.5,
      "step": 66320,
      "token_acc": 0.910941475826972,
      "train_speed(iter/s)": 1.447591
    },
    {
      "epoch": 2.8415663424874684,
      "grad_norm": 0.36075660586357117,
      "learning_rate": 3.935156013722287e-05,
      "loss": 0.5290376663208007,
      "memory(GiB)": 70.5,
      "step": 66325,
      "token_acc": 0.8996763754045307,
      "train_speed(iter/s)": 1.447608
    },
    {
      "epoch": 2.8417805578167172,
      "grad_norm": 1.925873041152954,
      "learning_rate": 3.934498484836627e-05,
      "loss": 0.6895061016082764,
      "memory(GiB)": 70.5,
      "step": 66330,
      "token_acc": 0.8586206896551725,
      "train_speed(iter/s)": 1.447612
    },
    {
      "epoch": 2.8419947731459665,
      "grad_norm": 2.4360415935516357,
      "learning_rate": 3.933840975253527e-05,
      "loss": 0.6327857971191406,
      "memory(GiB)": 70.5,
      "step": 66335,
      "token_acc": 0.9132075471698113,
      "train_speed(iter/s)": 1.447629
    },
    {
      "epoch": 2.8422089884752153,
      "grad_norm": 4.2464470863342285,
      "learning_rate": 3.933183484984898e-05,
      "loss": 0.47487335205078124,
      "memory(GiB)": 70.5,
      "step": 66340,
      "token_acc": 0.9087719298245615,
      "train_speed(iter/s)": 1.447638
    },
    {
      "epoch": 2.842423203804464,
      "grad_norm": 1.8609896898269653,
      "learning_rate": 3.932526014042652e-05,
      "loss": 0.3883563756942749,
      "memory(GiB)": 70.5,
      "step": 66345,
      "token_acc": 0.927710843373494,
      "train_speed(iter/s)": 1.447638
    },
    {
      "epoch": 2.8426374191337134,
      "grad_norm": 4.444515705108643,
      "learning_rate": 3.9318685624386975e-05,
      "loss": 0.50501708984375,
      "memory(GiB)": 70.5,
      "step": 66350,
      "token_acc": 0.8847352024922118,
      "train_speed(iter/s)": 1.447638
    },
    {
      "epoch": 2.842851634462962,
      "grad_norm": 3.924525737762451,
      "learning_rate": 3.931211130184947e-05,
      "loss": 0.35718085765838625,
      "memory(GiB)": 70.5,
      "step": 66355,
      "token_acc": 0.9214285714285714,
      "train_speed(iter/s)": 1.447638
    },
    {
      "epoch": 2.843065849792211,
      "grad_norm": 2.4954006671905518,
      "learning_rate": 3.9305537172933085e-05,
      "loss": 0.3885574579238892,
      "memory(GiB)": 70.5,
      "step": 66360,
      "token_acc": 0.9213836477987422,
      "train_speed(iter/s)": 1.447638
    },
    {
      "epoch": 2.8432800651214603,
      "grad_norm": 3.330033779144287,
      "learning_rate": 3.9298963237756934e-05,
      "loss": 0.3229584455490112,
      "memory(GiB)": 70.5,
      "step": 66365,
      "token_acc": 0.9276018099547512,
      "train_speed(iter/s)": 1.447644
    },
    {
      "epoch": 2.843494280450709,
      "grad_norm": 2.5279762744903564,
      "learning_rate": 3.92923894964401e-05,
      "loss": 0.3371935606002808,
      "memory(GiB)": 70.5,
      "step": 66370,
      "token_acc": 0.9243421052631579,
      "train_speed(iter/s)": 1.447653
    },
    {
      "epoch": 2.843708495779958,
      "grad_norm": 1.1592239141464233,
      "learning_rate": 3.9285815949101675e-05,
      "loss": 0.28736541271209715,
      "memory(GiB)": 70.5,
      "step": 66375,
      "token_acc": 0.9420289855072463,
      "train_speed(iter/s)": 1.447656
    },
    {
      "epoch": 2.843922711109207,
      "grad_norm": 3.092885732650757,
      "learning_rate": 3.9279242595860746e-05,
      "loss": 0.3666357517242432,
      "memory(GiB)": 70.5,
      "step": 66380,
      "token_acc": 0.9179331306990881,
      "train_speed(iter/s)": 1.447665
    },
    {
      "epoch": 2.844136926438456,
      "grad_norm": 2.415493965148926,
      "learning_rate": 3.9272669436836395e-05,
      "loss": 0.4707963943481445,
      "memory(GiB)": 70.5,
      "step": 66385,
      "token_acc": 0.9049429657794676,
      "train_speed(iter/s)": 1.447667
    },
    {
      "epoch": 2.8443511417677048,
      "grad_norm": 1.9600204229354858,
      "learning_rate": 3.9266096472147694e-05,
      "loss": 0.26213314533233645,
      "memory(GiB)": 70.5,
      "step": 66390,
      "token_acc": 0.9343434343434344,
      "train_speed(iter/s)": 1.447672
    },
    {
      "epoch": 2.844565357096954,
      "grad_norm": 0.5670682787895203,
      "learning_rate": 3.925952370191373e-05,
      "loss": 0.43649864196777344,
      "memory(GiB)": 70.5,
      "step": 66395,
      "token_acc": 0.8970588235294118,
      "train_speed(iter/s)": 1.447675
    },
    {
      "epoch": 2.844779572426203,
      "grad_norm": 6.592013835906982,
      "learning_rate": 3.9252951126253565e-05,
      "loss": 0.4264083385467529,
      "memory(GiB)": 70.5,
      "step": 66400,
      "token_acc": 0.9063670411985019,
      "train_speed(iter/s)": 1.447677
    },
    {
      "epoch": 2.8449937877554516,
      "grad_norm": 2.0301742553710938,
      "learning_rate": 3.9246378745286276e-05,
      "loss": 0.5412710189819336,
      "memory(GiB)": 70.5,
      "step": 66405,
      "token_acc": 0.8813559322033898,
      "train_speed(iter/s)": 1.447711
    },
    {
      "epoch": 2.845208003084701,
      "grad_norm": 3.61047101020813,
      "learning_rate": 3.923980655913091e-05,
      "loss": 0.3454113960266113,
      "memory(GiB)": 70.5,
      "step": 66410,
      "token_acc": 0.9169675090252708,
      "train_speed(iter/s)": 1.447719
    },
    {
      "epoch": 2.8454222184139497,
      "grad_norm": 3.7598228454589844,
      "learning_rate": 3.923323456790656e-05,
      "loss": 0.5636613368988037,
      "memory(GiB)": 70.5,
      "step": 66415,
      "token_acc": 0.8636363636363636,
      "train_speed(iter/s)": 1.447721
    },
    {
      "epoch": 2.8456364337431985,
      "grad_norm": 4.080146789550781,
      "learning_rate": 3.9226662771732244e-05,
      "loss": 0.4147786140441895,
      "memory(GiB)": 70.5,
      "step": 66420,
      "token_acc": 0.9020979020979021,
      "train_speed(iter/s)": 1.447716
    },
    {
      "epoch": 2.845850649072448,
      "grad_norm": 2.1239514350891113,
      "learning_rate": 3.922009117072706e-05,
      "loss": 0.26835343837738035,
      "memory(GiB)": 70.5,
      "step": 66425,
      "token_acc": 0.927007299270073,
      "train_speed(iter/s)": 1.447714
    },
    {
      "epoch": 2.8460648644016966,
      "grad_norm": 2.2617592811584473,
      "learning_rate": 3.921351976501004e-05,
      "loss": 0.3193783760070801,
      "memory(GiB)": 70.5,
      "step": 66430,
      "token_acc": 0.9316546762589928,
      "train_speed(iter/s)": 1.447719
    },
    {
      "epoch": 2.8462790797309454,
      "grad_norm": 5.3666558265686035,
      "learning_rate": 3.920694855470021e-05,
      "loss": 0.6773103237152099,
      "memory(GiB)": 70.5,
      "step": 66435,
      "token_acc": 0.8655172413793103,
      "train_speed(iter/s)": 1.447718
    },
    {
      "epoch": 2.8464932950601947,
      "grad_norm": 3.184515953063965,
      "learning_rate": 3.920037753991665e-05,
      "loss": 0.5259048938751221,
      "memory(GiB)": 70.5,
      "step": 66440,
      "token_acc": 0.8861788617886179,
      "train_speed(iter/s)": 1.447735
    },
    {
      "epoch": 2.8467075103894435,
      "grad_norm": 5.991496562957764,
      "learning_rate": 3.919380672077838e-05,
      "loss": 0.7048182487487793,
      "memory(GiB)": 70.5,
      "step": 66445,
      "token_acc": 0.8316151202749141,
      "train_speed(iter/s)": 1.447744
    },
    {
      "epoch": 2.8469217257186923,
      "grad_norm": 3.0973703861236572,
      "learning_rate": 3.918723609740442e-05,
      "loss": 0.2840451240539551,
      "memory(GiB)": 70.5,
      "step": 66450,
      "token_acc": 0.921146953405018,
      "train_speed(iter/s)": 1.44775
    },
    {
      "epoch": 2.8471359410479415,
      "grad_norm": 3.8812811374664307,
      "learning_rate": 3.918066566991384e-05,
      "loss": 0.22237370014190674,
      "memory(GiB)": 70.5,
      "step": 66455,
      "token_acc": 0.9434628975265018,
      "train_speed(iter/s)": 1.447756
    },
    {
      "epoch": 2.8473501563771904,
      "grad_norm": 1.4138044118881226,
      "learning_rate": 3.917409543842564e-05,
      "loss": 0.45844235420227053,
      "memory(GiB)": 70.5,
      "step": 66460,
      "token_acc": 0.8976109215017065,
      "train_speed(iter/s)": 1.447783
    },
    {
      "epoch": 2.847564371706439,
      "grad_norm": 5.018619537353516,
      "learning_rate": 3.9167525403058855e-05,
      "loss": 0.6258168697357178,
      "memory(GiB)": 70.5,
      "step": 66465,
      "token_acc": 0.8718861209964412,
      "train_speed(iter/s)": 1.447791
    },
    {
      "epoch": 2.8477785870356884,
      "grad_norm": 4.1983723640441895,
      "learning_rate": 3.9160955563932524e-05,
      "loss": 0.2938662052154541,
      "memory(GiB)": 70.5,
      "step": 66470,
      "token_acc": 0.9362549800796812,
      "train_speed(iter/s)": 1.447797
    },
    {
      "epoch": 2.8479928023649372,
      "grad_norm": 3.7373850345611572,
      "learning_rate": 3.9154385921165635e-05,
      "loss": 0.31088528633117674,
      "memory(GiB)": 70.5,
      "step": 66475,
      "token_acc": 0.9230769230769231,
      "train_speed(iter/s)": 1.447803
    },
    {
      "epoch": 2.848207017694186,
      "grad_norm": 3.1768083572387695,
      "learning_rate": 3.9147816474877226e-05,
      "loss": 0.44684524536132814,
      "memory(GiB)": 70.5,
      "step": 66480,
      "token_acc": 0.9129032258064517,
      "train_speed(iter/s)": 1.447806
    },
    {
      "epoch": 2.8484212330234353,
      "grad_norm": 1.3141103982925415,
      "learning_rate": 3.914124722518628e-05,
      "loss": 0.34629054069519044,
      "memory(GiB)": 70.5,
      "step": 66485,
      "token_acc": 0.9287925696594427,
      "train_speed(iter/s)": 1.447823
    },
    {
      "epoch": 2.848635448352684,
      "grad_norm": 3.6249372959136963,
      "learning_rate": 3.913467817221185e-05,
      "loss": 0.4236114501953125,
      "memory(GiB)": 70.5,
      "step": 66490,
      "token_acc": 0.903114186851211,
      "train_speed(iter/s)": 1.447838
    },
    {
      "epoch": 2.848849663681933,
      "grad_norm": 4.899203300476074,
      "learning_rate": 3.912810931607291e-05,
      "loss": 0.4030588626861572,
      "memory(GiB)": 70.5,
      "step": 66495,
      "token_acc": 0.9087301587301587,
      "train_speed(iter/s)": 1.447858
    },
    {
      "epoch": 2.849063879011182,
      "grad_norm": 0.9348913431167603,
      "learning_rate": 3.9121540656888475e-05,
      "loss": 0.3698451519012451,
      "memory(GiB)": 70.5,
      "step": 66500,
      "token_acc": 0.9143835616438356,
      "train_speed(iter/s)": 1.447858
    },
    {
      "epoch": 2.849063879011182,
      "eval_loss": 2.5411570072174072,
      "eval_runtime": 11.8384,
      "eval_samples_per_second": 8.447,
      "eval_steps_per_second": 8.447,
      "eval_token_acc": 0.4619289340101523,
      "step": 66500
    },
    {
      "epoch": 2.849278094340431,
      "grad_norm": 2.1292097568511963,
      "learning_rate": 3.9114972194777534e-05,
      "loss": 0.38214385509490967,
      "memory(GiB)": 70.5,
      "step": 66505,
      "token_acc": 0.5780510879848628,
      "train_speed(iter/s)": 1.447462
    },
    {
      "epoch": 2.84949230966968,
      "grad_norm": 1.8684775829315186,
      "learning_rate": 3.910840392985908e-05,
      "loss": 0.6555909633636474,
      "memory(GiB)": 70.5,
      "step": 66510,
      "token_acc": 0.8724137931034482,
      "train_speed(iter/s)": 1.447459
    },
    {
      "epoch": 2.849706524998929,
      "grad_norm": 3.3033814430236816,
      "learning_rate": 3.910183586225212e-05,
      "loss": 0.7999634742736816,
      "memory(GiB)": 70.5,
      "step": 66515,
      "token_acc": 0.8283828382838284,
      "train_speed(iter/s)": 1.44746
    },
    {
      "epoch": 2.849920740328178,
      "grad_norm": 2.3313708305358887,
      "learning_rate": 3.9095267992075604e-05,
      "loss": 0.4001220703125,
      "memory(GiB)": 70.5,
      "step": 66520,
      "token_acc": 0.9064748201438849,
      "train_speed(iter/s)": 1.447469
    },
    {
      "epoch": 2.8501349556574267,
      "grad_norm": 4.026516914367676,
      "learning_rate": 3.908870031944856e-05,
      "loss": 0.40673151016235354,
      "memory(GiB)": 70.5,
      "step": 66525,
      "token_acc": 0.9130434782608695,
      "train_speed(iter/s)": 1.447464
    },
    {
      "epoch": 2.850349170986676,
      "grad_norm": 2.3022546768188477,
      "learning_rate": 3.9082132844489935e-05,
      "loss": 0.34919157028198244,
      "memory(GiB)": 70.5,
      "step": 66530,
      "token_acc": 0.9230769230769231,
      "train_speed(iter/s)": 1.447467
    },
    {
      "epoch": 2.8505633863159248,
      "grad_norm": 1.5866734981536865,
      "learning_rate": 3.907556556731871e-05,
      "loss": 0.4028487682342529,
      "memory(GiB)": 70.5,
      "step": 66535,
      "token_acc": 0.9015384615384615,
      "train_speed(iter/s)": 1.447471
    },
    {
      "epoch": 2.8507776016451736,
      "grad_norm": 7.752634525299072,
      "learning_rate": 3.906899848805387e-05,
      "loss": 0.6046825408935547,
      "memory(GiB)": 70.5,
      "step": 66540,
      "token_acc": 0.865625,
      "train_speed(iter/s)": 1.447472
    },
    {
      "epoch": 2.850991816974423,
      "grad_norm": 2.325608730316162,
      "learning_rate": 3.906243160681436e-05,
      "loss": 0.367592453956604,
      "memory(GiB)": 70.5,
      "step": 66545,
      "token_acc": 0.9195804195804196,
      "train_speed(iter/s)": 1.447477
    },
    {
      "epoch": 2.8512060323036716,
      "grad_norm": 5.992132663726807,
      "learning_rate": 3.9055864923719185e-05,
      "loss": 0.4311245918273926,
      "memory(GiB)": 70.5,
      "step": 66550,
      "token_acc": 0.9236111111111112,
      "train_speed(iter/s)": 1.447484
    },
    {
      "epoch": 2.8514202476329205,
      "grad_norm": 2.664475917816162,
      "learning_rate": 3.9049298438887276e-05,
      "loss": 0.5092780590057373,
      "memory(GiB)": 70.5,
      "step": 66555,
      "token_acc": 0.8947368421052632,
      "train_speed(iter/s)": 1.447494
    },
    {
      "epoch": 2.8516344629621697,
      "grad_norm": 5.778769016265869,
      "learning_rate": 3.904273215243758e-05,
      "loss": 0.5615509510040283,
      "memory(GiB)": 70.5,
      "step": 66560,
      "token_acc": 0.8754208754208754,
      "train_speed(iter/s)": 1.447497
    },
    {
      "epoch": 2.8518486782914185,
      "grad_norm": 3.403287887573242,
      "learning_rate": 3.903616606448908e-05,
      "loss": 0.6279273509979248,
      "memory(GiB)": 70.5,
      "step": 66565,
      "token_acc": 0.8794326241134752,
      "train_speed(iter/s)": 1.447513
    },
    {
      "epoch": 2.8520628936206673,
      "grad_norm": 2.0931222438812256,
      "learning_rate": 3.902960017516073e-05,
      "loss": 0.31105608940124513,
      "memory(GiB)": 70.5,
      "step": 66570,
      "token_acc": 0.9354838709677419,
      "train_speed(iter/s)": 1.447511
    },
    {
      "epoch": 2.8522771089499166,
      "grad_norm": 2.8533689975738525,
      "learning_rate": 3.902303448457146e-05,
      "loss": 0.26679632663726804,
      "memory(GiB)": 70.5,
      "step": 66575,
      "token_acc": 0.9485294117647058,
      "train_speed(iter/s)": 1.447513
    },
    {
      "epoch": 2.8524913242791654,
      "grad_norm": 5.252408027648926,
      "learning_rate": 3.9016468992840203e-05,
      "loss": 0.5113158702850342,
      "memory(GiB)": 70.5,
      "step": 66580,
      "token_acc": 0.8895522388059701,
      "train_speed(iter/s)": 1.447515
    },
    {
      "epoch": 2.852705539608414,
      "grad_norm": 3.925121784210205,
      "learning_rate": 3.900990370008593e-05,
      "loss": 0.5048113346099854,
      "memory(GiB)": 70.5,
      "step": 66585,
      "token_acc": 0.9,
      "train_speed(iter/s)": 1.447529
    },
    {
      "epoch": 2.8529197549376635,
      "grad_norm": 1.1296405792236328,
      "learning_rate": 3.9003338606427564e-05,
      "loss": 0.4548217296600342,
      "memory(GiB)": 70.5,
      "step": 66590,
      "token_acc": 0.9142857142857143,
      "train_speed(iter/s)": 1.447545
    },
    {
      "epoch": 2.8531339702669123,
      "grad_norm": 1.4458285570144653,
      "learning_rate": 3.899677371198402e-05,
      "loss": 0.12321004867553711,
      "memory(GiB)": 70.5,
      "step": 66595,
      "token_acc": 0.9701986754966887,
      "train_speed(iter/s)": 1.447549
    },
    {
      "epoch": 2.853348185596161,
      "grad_norm": 3.6095216274261475,
      "learning_rate": 3.8990209016874254e-05,
      "loss": 0.376297664642334,
      "memory(GiB)": 70.5,
      "step": 66600,
      "token_acc": 0.9290540540540541,
      "train_speed(iter/s)": 1.447557
    },
    {
      "epoch": 2.8535624009254104,
      "grad_norm": 2.533310890197754,
      "learning_rate": 3.898364452121717e-05,
      "loss": 0.3041513204574585,
      "memory(GiB)": 70.5,
      "step": 66605,
      "token_acc": 0.9346938775510204,
      "train_speed(iter/s)": 1.447562
    },
    {
      "epoch": 2.853776616254659,
      "grad_norm": 0.8389014005661011,
      "learning_rate": 3.89770802251317e-05,
      "loss": 0.28148157596588136,
      "memory(GiB)": 70.5,
      "step": 66610,
      "token_acc": 0.946058091286307,
      "train_speed(iter/s)": 1.447564
    },
    {
      "epoch": 2.853990831583908,
      "grad_norm": 4.049251079559326,
      "learning_rate": 3.897051612873677e-05,
      "loss": 0.3119738817214966,
      "memory(GiB)": 70.5,
      "step": 66615,
      "token_acc": 0.9488188976377953,
      "train_speed(iter/s)": 1.447568
    },
    {
      "epoch": 2.8542050469131572,
      "grad_norm": 2.508737325668335,
      "learning_rate": 3.896395223215128e-05,
      "loss": 0.27198033332824706,
      "memory(GiB)": 70.5,
      "step": 66620,
      "token_acc": 0.9206349206349206,
      "train_speed(iter/s)": 1.447559
    },
    {
      "epoch": 2.854419262242406,
      "grad_norm": 4.216947555541992,
      "learning_rate": 3.8957388535494156e-05,
      "loss": 0.6018841743469239,
      "memory(GiB)": 70.5,
      "step": 66625,
      "token_acc": 0.8758169934640523,
      "train_speed(iter/s)": 1.447575
    },
    {
      "epoch": 2.854633477571655,
      "grad_norm": 3.372205972671509,
      "learning_rate": 3.8950825038884296e-05,
      "loss": 0.45223193168640136,
      "memory(GiB)": 70.5,
      "step": 66630,
      "token_acc": 0.8938906752411575,
      "train_speed(iter/s)": 1.447578
    },
    {
      "epoch": 2.854847692900904,
      "grad_norm": 4.271628379821777,
      "learning_rate": 3.894426174244058e-05,
      "loss": 0.2374575614929199,
      "memory(GiB)": 70.5,
      "step": 66635,
      "token_acc": 0.951417004048583,
      "train_speed(iter/s)": 1.447584
    },
    {
      "epoch": 2.855061908230153,
      "grad_norm": 4.5956010818481445,
      "learning_rate": 3.893769864628195e-05,
      "loss": 0.3876180171966553,
      "memory(GiB)": 70.5,
      "step": 66640,
      "token_acc": 0.900990099009901,
      "train_speed(iter/s)": 1.447587
    },
    {
      "epoch": 2.8552761235594017,
      "grad_norm": 1.941763997077942,
      "learning_rate": 3.89311357505273e-05,
      "loss": 0.302054238319397,
      "memory(GiB)": 70.5,
      "step": 66645,
      "token_acc": 0.9114754098360656,
      "train_speed(iter/s)": 1.447609
    },
    {
      "epoch": 2.855490338888651,
      "grad_norm": 9.175124168395996,
      "learning_rate": 3.892457305529549e-05,
      "loss": 0.4524231433868408,
      "memory(GiB)": 70.5,
      "step": 66650,
      "token_acc": 0.8940397350993378,
      "train_speed(iter/s)": 1.447607
    },
    {
      "epoch": 2.8557045542179,
      "grad_norm": 2.788764238357544,
      "learning_rate": 3.891801056070545e-05,
      "loss": 0.31786959171295165,
      "memory(GiB)": 70.5,
      "step": 66655,
      "token_acc": 0.9198606271777003,
      "train_speed(iter/s)": 1.447609
    },
    {
      "epoch": 2.8559187695471486,
      "grad_norm": 3.465691566467285,
      "learning_rate": 3.891144826687603e-05,
      "loss": 0.35066344738006594,
      "memory(GiB)": 70.5,
      "step": 66660,
      "token_acc": 0.9389067524115756,
      "train_speed(iter/s)": 1.447613
    },
    {
      "epoch": 2.856132984876398,
      "grad_norm": 2.615539073944092,
      "learning_rate": 3.890488617392613e-05,
      "loss": 0.24680919647216798,
      "memory(GiB)": 70.5,
      "step": 66665,
      "token_acc": 0.9458689458689459,
      "train_speed(iter/s)": 1.447621
    },
    {
      "epoch": 2.8563472002056467,
      "grad_norm": 6.523156642913818,
      "learning_rate": 3.889832428197463e-05,
      "loss": 0.22087609767913818,
      "memory(GiB)": 70.5,
      "step": 66670,
      "token_acc": 0.946360153256705,
      "train_speed(iter/s)": 1.447624
    },
    {
      "epoch": 2.8565614155348955,
      "grad_norm": 2.1747448444366455,
      "learning_rate": 3.88917625911404e-05,
      "loss": 0.10959359407424926,
      "memory(GiB)": 70.5,
      "step": 66675,
      "token_acc": 0.963265306122449,
      "train_speed(iter/s)": 1.447633
    },
    {
      "epoch": 2.8567756308641448,
      "grad_norm": 0.7748593688011169,
      "learning_rate": 3.8885201101542304e-05,
      "loss": 0.2883943796157837,
      "memory(GiB)": 70.5,
      "step": 66680,
      "token_acc": 0.9444444444444444,
      "train_speed(iter/s)": 1.44764
    },
    {
      "epoch": 2.8569898461933936,
      "grad_norm": 2.881211519241333,
      "learning_rate": 3.8878639813299214e-05,
      "loss": 0.2567914009094238,
      "memory(GiB)": 70.5,
      "step": 66685,
      "token_acc": 0.9399293286219081,
      "train_speed(iter/s)": 1.447646
    },
    {
      "epoch": 2.8572040615226424,
      "grad_norm": 4.218475818634033,
      "learning_rate": 3.887207872653e-05,
      "loss": 0.4636648178100586,
      "memory(GiB)": 70.5,
      "step": 66690,
      "token_acc": 0.879746835443038,
      "train_speed(iter/s)": 1.447644
    },
    {
      "epoch": 2.8574182768518916,
      "grad_norm": 0.5130957365036011,
      "learning_rate": 3.886551784135352e-05,
      "loss": 0.3582013607025146,
      "memory(GiB)": 70.5,
      "step": 66695,
      "token_acc": 0.9344827586206896,
      "train_speed(iter/s)": 1.447659
    },
    {
      "epoch": 2.8576324921811405,
      "grad_norm": 3.0643951892852783,
      "learning_rate": 3.885895715788864e-05,
      "loss": 0.6383772373199463,
      "memory(GiB)": 70.5,
      "step": 66700,
      "token_acc": 0.8478260869565217,
      "train_speed(iter/s)": 1.44766
    },
    {
      "epoch": 2.8578467075103893,
      "grad_norm": 1.1279206275939941,
      "learning_rate": 3.8852396676254175e-05,
      "loss": 0.31574578285217286,
      "memory(GiB)": 70.5,
      "step": 66705,
      "token_acc": 0.9198606271777003,
      "train_speed(iter/s)": 1.447665
    },
    {
      "epoch": 2.8580609228396385,
      "grad_norm": 2.856600761413574,
      "learning_rate": 3.8845836396569007e-05,
      "loss": 0.3068131923675537,
      "memory(GiB)": 70.5,
      "step": 66710,
      "token_acc": 0.9320754716981132,
      "train_speed(iter/s)": 1.447671
    },
    {
      "epoch": 2.8582751381688873,
      "grad_norm": 3.716294527053833,
      "learning_rate": 3.8839276318952e-05,
      "loss": 0.5498095512390136,
      "memory(GiB)": 70.5,
      "step": 66715,
      "token_acc": 0.8896797153024911,
      "train_speed(iter/s)": 1.44766
    },
    {
      "epoch": 2.858489353498136,
      "grad_norm": 1.8042184114456177,
      "learning_rate": 3.883271644352196e-05,
      "loss": 0.6305339336395264,
      "memory(GiB)": 70.5,
      "step": 66720,
      "token_acc": 0.852760736196319,
      "train_speed(iter/s)": 1.447666
    },
    {
      "epoch": 2.8587035688273854,
      "grad_norm": 2.6224794387817383,
      "learning_rate": 3.882615677039773e-05,
      "loss": 0.4635188102722168,
      "memory(GiB)": 70.5,
      "step": 66725,
      "token_acc": 0.8847457627118644,
      "train_speed(iter/s)": 1.44767
    },
    {
      "epoch": 2.8589177841566342,
      "grad_norm": 4.126102447509766,
      "learning_rate": 3.881959729969816e-05,
      "loss": 0.2620461225509644,
      "memory(GiB)": 70.5,
      "step": 66730,
      "token_acc": 0.946969696969697,
      "train_speed(iter/s)": 1.447689
    },
    {
      "epoch": 2.859131999485883,
      "grad_norm": 2.0425233840942383,
      "learning_rate": 3.881303803154208e-05,
      "loss": 0.3130959987640381,
      "memory(GiB)": 70.5,
      "step": 66735,
      "token_acc": 0.910394265232975,
      "train_speed(iter/s)": 1.4477
    },
    {
      "epoch": 2.8593462148151323,
      "grad_norm": 1.4322675466537476,
      "learning_rate": 3.8806478966048295e-05,
      "loss": 0.3488304138183594,
      "memory(GiB)": 70.5,
      "step": 66740,
      "token_acc": 0.9453125,
      "train_speed(iter/s)": 1.447702
    },
    {
      "epoch": 2.859560430144381,
      "grad_norm": 3.2545480728149414,
      "learning_rate": 3.879992010333565e-05,
      "loss": 0.3374790668487549,
      "memory(GiB)": 70.5,
      "step": 66745,
      "token_acc": 0.9298892988929889,
      "train_speed(iter/s)": 1.447703
    },
    {
      "epoch": 2.85977464547363,
      "grad_norm": 4.238231658935547,
      "learning_rate": 3.879336144352296e-05,
      "loss": 0.5620427131652832,
      "memory(GiB)": 70.5,
      "step": 66750,
      "token_acc": 0.8932806324110671,
      "train_speed(iter/s)": 1.447704
    },
    {
      "epoch": 2.859988860802879,
      "grad_norm": 1.8402211666107178,
      "learning_rate": 3.878680298672904e-05,
      "loss": 0.37086942195892336,
      "memory(GiB)": 70.5,
      "step": 66755,
      "token_acc": 0.9261992619926199,
      "train_speed(iter/s)": 1.447717
    },
    {
      "epoch": 2.860203076132128,
      "grad_norm": 2.256416082382202,
      "learning_rate": 3.8780244733072706e-05,
      "loss": 0.5108039855957032,
      "memory(GiB)": 70.5,
      "step": 66760,
      "token_acc": 0.8787878787878788,
      "train_speed(iter/s)": 1.447712
    },
    {
      "epoch": 2.860417291461377,
      "grad_norm": 4.195559501647949,
      "learning_rate": 3.8773686682672756e-05,
      "loss": 0.3560898780822754,
      "memory(GiB)": 70.5,
      "step": 66765,
      "token_acc": 0.9366666666666666,
      "train_speed(iter/s)": 1.44771
    },
    {
      "epoch": 2.860631506790626,
      "grad_norm": 4.23447322845459,
      "learning_rate": 3.876712883564801e-05,
      "loss": 0.45772485733032225,
      "memory(GiB)": 70.5,
      "step": 66770,
      "token_acc": 0.8992805755395683,
      "train_speed(iter/s)": 1.447721
    },
    {
      "epoch": 2.860845722119875,
      "grad_norm": 1.0056902170181274,
      "learning_rate": 3.876057119211727e-05,
      "loss": 0.25912506580352784,
      "memory(GiB)": 70.5,
      "step": 66775,
      "token_acc": 0.9461077844311377,
      "train_speed(iter/s)": 1.447722
    },
    {
      "epoch": 2.8610599374491237,
      "grad_norm": 0.20162400603294373,
      "learning_rate": 3.875401375219929e-05,
      "loss": 0.29789443016052247,
      "memory(GiB)": 70.5,
      "step": 66780,
      "token_acc": 0.9495798319327731,
      "train_speed(iter/s)": 1.447719
    },
    {
      "epoch": 2.861274152778373,
      "grad_norm": 4.743063926696777,
      "learning_rate": 3.8747456516012926e-05,
      "loss": 0.4463296413421631,
      "memory(GiB)": 70.5,
      "step": 66785,
      "token_acc": 0.903125,
      "train_speed(iter/s)": 1.447732
    },
    {
      "epoch": 2.8614883681076217,
      "grad_norm": 2.163632869720459,
      "learning_rate": 3.8740899483676946e-05,
      "loss": 0.3014801502227783,
      "memory(GiB)": 70.5,
      "step": 66790,
      "token_acc": 0.9204152249134948,
      "train_speed(iter/s)": 1.447729
    },
    {
      "epoch": 2.8617025834368706,
      "grad_norm": 6.067420959472656,
      "learning_rate": 3.8734342655310124e-05,
      "loss": 0.35998175144195554,
      "memory(GiB)": 70.5,
      "step": 66795,
      "token_acc": 0.9174917491749175,
      "train_speed(iter/s)": 1.447733
    },
    {
      "epoch": 2.86191679876612,
      "grad_norm": 1.7543585300445557,
      "learning_rate": 3.872778603103126e-05,
      "loss": 0.3211528778076172,
      "memory(GiB)": 70.5,
      "step": 66800,
      "token_acc": 0.930327868852459,
      "train_speed(iter/s)": 1.447755
    },
    {
      "epoch": 2.8621310140953686,
      "grad_norm": 1.183144450187683,
      "learning_rate": 3.8721229610959136e-05,
      "loss": 0.4881251335144043,
      "memory(GiB)": 70.5,
      "step": 66805,
      "token_acc": 0.9064327485380117,
      "train_speed(iter/s)": 1.447755
    },
    {
      "epoch": 2.8623452294246174,
      "grad_norm": 1.6494024991989136,
      "learning_rate": 3.87146733952125e-05,
      "loss": 0.3457007646560669,
      "memory(GiB)": 70.5,
      "step": 66810,
      "token_acc": 0.919732441471572,
      "train_speed(iter/s)": 1.447761
    },
    {
      "epoch": 2.8625594447538667,
      "grad_norm": 0.617072582244873,
      "learning_rate": 3.870811738391015e-05,
      "loss": 0.36046152114868163,
      "memory(GiB)": 70.5,
      "step": 66815,
      "token_acc": 0.9197530864197531,
      "train_speed(iter/s)": 1.447775
    },
    {
      "epoch": 2.8627736600831155,
      "grad_norm": 0.198045015335083,
      "learning_rate": 3.8701561577170855e-05,
      "loss": 0.3860219717025757,
      "memory(GiB)": 70.5,
      "step": 66820,
      "token_acc": 0.9153225806451613,
      "train_speed(iter/s)": 1.447787
    },
    {
      "epoch": 2.8629878754123643,
      "grad_norm": 2.5291197299957275,
      "learning_rate": 3.8695005975113357e-05,
      "loss": 0.29847543239593505,
      "memory(GiB)": 70.5,
      "step": 66825,
      "token_acc": 0.9163636363636364,
      "train_speed(iter/s)": 1.447801
    },
    {
      "epoch": 2.8632020907416136,
      "grad_norm": 3.0991077423095703,
      "learning_rate": 3.868845057785644e-05,
      "loss": 0.4011994361877441,
      "memory(GiB)": 70.5,
      "step": 66830,
      "token_acc": 0.8987341772151899,
      "train_speed(iter/s)": 1.44781
    },
    {
      "epoch": 2.8634163060708624,
      "grad_norm": 2.243878126144409,
      "learning_rate": 3.868189538551884e-05,
      "loss": 0.5083224296569824,
      "memory(GiB)": 70.5,
      "step": 66835,
      "token_acc": 0.906896551724138,
      "train_speed(iter/s)": 1.447815
    },
    {
      "epoch": 2.863630521400111,
      "grad_norm": 2.5142037868499756,
      "learning_rate": 3.8675340398219335e-05,
      "loss": 0.2896485090255737,
      "memory(GiB)": 70.5,
      "step": 66840,
      "token_acc": 0.9391634980988594,
      "train_speed(iter/s)": 1.447818
    },
    {
      "epoch": 2.8638447367293605,
      "grad_norm": 4.540031909942627,
      "learning_rate": 3.8668785616076665e-05,
      "loss": 0.38742947578430176,
      "memory(GiB)": 70.5,
      "step": 66845,
      "token_acc": 0.9057971014492754,
      "train_speed(iter/s)": 1.447824
    },
    {
      "epoch": 2.8640589520586093,
      "grad_norm": 2.7252843379974365,
      "learning_rate": 3.866223103920956e-05,
      "loss": 0.23499655723571777,
      "memory(GiB)": 70.5,
      "step": 66850,
      "token_acc": 0.9351535836177475,
      "train_speed(iter/s)": 1.447828
    },
    {
      "epoch": 2.864273167387858,
      "grad_norm": 2.1932592391967773,
      "learning_rate": 3.865567666773676e-05,
      "loss": 0.3170801639556885,
      "memory(GiB)": 70.5,
      "step": 66855,
      "token_acc": 0.9407407407407408,
      "train_speed(iter/s)": 1.447845
    },
    {
      "epoch": 2.8644873827171073,
      "grad_norm": 1.0161571502685547,
      "learning_rate": 3.864912250177704e-05,
      "loss": 0.20864946842193605,
      "memory(GiB)": 70.5,
      "step": 66860,
      "token_acc": 0.9694915254237289,
      "train_speed(iter/s)": 1.447852
    },
    {
      "epoch": 2.864701598046356,
      "grad_norm": 0.30263635516166687,
      "learning_rate": 3.864256854144912e-05,
      "loss": 0.40090384483337405,
      "memory(GiB)": 70.5,
      "step": 66865,
      "token_acc": 0.9395973154362416,
      "train_speed(iter/s)": 1.44787
    },
    {
      "epoch": 2.864915813375605,
      "grad_norm": 6.209007263183594,
      "learning_rate": 3.863601478687171e-05,
      "loss": 0.3141413688659668,
      "memory(GiB)": 70.5,
      "step": 66870,
      "token_acc": 0.9125874125874126,
      "train_speed(iter/s)": 1.447889
    },
    {
      "epoch": 2.8651300287048542,
      "grad_norm": 2.5749151706695557,
      "learning_rate": 3.862946123816357e-05,
      "loss": 0.30755550861358644,
      "memory(GiB)": 70.5,
      "step": 66875,
      "token_acc": 0.923943661971831,
      "train_speed(iter/s)": 1.447895
    },
    {
      "epoch": 2.865344244034103,
      "grad_norm": 1.5115841627120972,
      "learning_rate": 3.86229078954434e-05,
      "loss": 0.4303779125213623,
      "memory(GiB)": 70.5,
      "step": 66880,
      "token_acc": 0.9,
      "train_speed(iter/s)": 1.447898
    },
    {
      "epoch": 2.865558459363352,
      "grad_norm": 3.6656951904296875,
      "learning_rate": 3.8616354758829915e-05,
      "loss": 0.1730343818664551,
      "memory(GiB)": 70.5,
      "step": 66885,
      "token_acc": 0.9513888888888888,
      "train_speed(iter/s)": 1.4479
    },
    {
      "epoch": 2.865772674692601,
      "grad_norm": 5.388194561004639,
      "learning_rate": 3.8609801828441855e-05,
      "loss": 0.5864045143127441,
      "memory(GiB)": 70.5,
      "step": 66890,
      "token_acc": 0.8987730061349694,
      "train_speed(iter/s)": 1.447906
    },
    {
      "epoch": 2.86598689002185,
      "grad_norm": 4.282329082489014,
      "learning_rate": 3.860324910439791e-05,
      "loss": 0.42018518447875974,
      "memory(GiB)": 70.5,
      "step": 66895,
      "token_acc": 0.9100346020761245,
      "train_speed(iter/s)": 1.447902
    },
    {
      "epoch": 2.8662011053510987,
      "grad_norm": 3.960721015930176,
      "learning_rate": 3.859669658681681e-05,
      "loss": 0.24214000701904298,
      "memory(GiB)": 70.5,
      "step": 66900,
      "token_acc": 0.9556313993174061,
      "train_speed(iter/s)": 1.447911
    },
    {
      "epoch": 2.866415320680348,
      "grad_norm": 4.296505451202393,
      "learning_rate": 3.859014427581724e-05,
      "loss": 0.4856898307800293,
      "memory(GiB)": 70.5,
      "step": 66905,
      "token_acc": 0.9042145593869731,
      "train_speed(iter/s)": 1.447909
    },
    {
      "epoch": 2.866629536009597,
      "grad_norm": 3.5059428215026855,
      "learning_rate": 3.858359217151791e-05,
      "loss": 0.31721885204315187,
      "memory(GiB)": 70.5,
      "step": 66910,
      "token_acc": 0.9325842696629213,
      "train_speed(iter/s)": 1.44792
    },
    {
      "epoch": 2.8668437513388456,
      "grad_norm": 3.3448944091796875,
      "learning_rate": 3.857704027403752e-05,
      "loss": 0.7840248107910156,
      "memory(GiB)": 70.5,
      "step": 66915,
      "token_acc": 0.8390092879256966,
      "train_speed(iter/s)": 1.447931
    },
    {
      "epoch": 2.867057966668095,
      "grad_norm": 4.003973484039307,
      "learning_rate": 3.8570488583494766e-05,
      "loss": 0.3361915349960327,
      "memory(GiB)": 70.5,
      "step": 66920,
      "token_acc": 0.9220338983050848,
      "train_speed(iter/s)": 1.44794
    },
    {
      "epoch": 2.8672721819973437,
      "grad_norm": 2.013416290283203,
      "learning_rate": 3.856393710000832e-05,
      "loss": 0.3875916004180908,
      "memory(GiB)": 70.5,
      "step": 66925,
      "token_acc": 0.9306930693069307,
      "train_speed(iter/s)": 1.447945
    },
    {
      "epoch": 2.8674863973265925,
      "grad_norm": 2.7103662490844727,
      "learning_rate": 3.8557385823696875e-05,
      "loss": 0.2849641561508179,
      "memory(GiB)": 70.5,
      "step": 66930,
      "token_acc": 0.937037037037037,
      "train_speed(iter/s)": 1.447948
    },
    {
      "epoch": 2.8677006126558418,
      "grad_norm": 2.238617181777954,
      "learning_rate": 3.855083475467913e-05,
      "loss": 0.4356387138366699,
      "memory(GiB)": 70.5,
      "step": 66935,
      "token_acc": 0.9070631970260223,
      "train_speed(iter/s)": 1.447961
    },
    {
      "epoch": 2.8679148279850906,
      "grad_norm": 3.4166455268859863,
      "learning_rate": 3.854428389307376e-05,
      "loss": 0.26622886657714845,
      "memory(GiB)": 70.5,
      "step": 66940,
      "token_acc": 0.9389830508474576,
      "train_speed(iter/s)": 1.447971
    },
    {
      "epoch": 2.8681290433143394,
      "grad_norm": 4.495809555053711,
      "learning_rate": 3.853773323899943e-05,
      "loss": 0.3638364315032959,
      "memory(GiB)": 70.5,
      "step": 66945,
      "token_acc": 0.9271137026239067,
      "train_speed(iter/s)": 1.44798
    },
    {
      "epoch": 2.8683432586435886,
      "grad_norm": 3.8037431240081787,
      "learning_rate": 3.853118279257482e-05,
      "loss": 0.36611170768737794,
      "memory(GiB)": 70.5,
      "step": 66950,
      "token_acc": 0.9274809160305344,
      "train_speed(iter/s)": 1.447988
    },
    {
      "epoch": 2.8685574739728374,
      "grad_norm": 2.7051353454589844,
      "learning_rate": 3.852463255391858e-05,
      "loss": 0.29459729194641116,
      "memory(GiB)": 70.5,
      "step": 66955,
      "token_acc": 0.9463722397476341,
      "train_speed(iter/s)": 1.448
    },
    {
      "epoch": 2.8687716893020863,
      "grad_norm": 2.8191568851470947,
      "learning_rate": 3.85180825231494e-05,
      "loss": 0.5130410671234131,
      "memory(GiB)": 70.5,
      "step": 66960,
      "token_acc": 0.903448275862069,
      "train_speed(iter/s)": 1.448025
    },
    {
      "epoch": 2.8689859046313355,
      "grad_norm": 2.805218458175659,
      "learning_rate": 3.851153270038592e-05,
      "loss": 0.26826789379119875,
      "memory(GiB)": 70.5,
      "step": 66965,
      "token_acc": 0.9464285714285714,
      "train_speed(iter/s)": 1.448025
    },
    {
      "epoch": 2.8692001199605843,
      "grad_norm": 1.8055000305175781,
      "learning_rate": 3.85049830857468e-05,
      "loss": 0.33157274723052976,
      "memory(GiB)": 70.5,
      "step": 66970,
      "token_acc": 0.9288256227758007,
      "train_speed(iter/s)": 1.448052
    },
    {
      "epoch": 2.869414335289833,
      "grad_norm": 3.8577473163604736,
      "learning_rate": 3.84984336793507e-05,
      "loss": 0.6110603332519531,
      "memory(GiB)": 70.5,
      "step": 66975,
      "token_acc": 0.8839590443686007,
      "train_speed(iter/s)": 1.448054
    },
    {
      "epoch": 2.8696285506190824,
      "grad_norm": 2.261465072631836,
      "learning_rate": 3.849188448131625e-05,
      "loss": 0.29571781158447263,
      "memory(GiB)": 70.5,
      "step": 66980,
      "token_acc": 0.9297124600638977,
      "train_speed(iter/s)": 1.448051
    },
    {
      "epoch": 2.869842765948331,
      "grad_norm": 0.2861659824848175,
      "learning_rate": 3.8485335491762126e-05,
      "loss": 0.3798626661300659,
      "memory(GiB)": 70.5,
      "step": 66985,
      "token_acc": 0.925531914893617,
      "train_speed(iter/s)": 1.448059
    },
    {
      "epoch": 2.87005698127758,
      "grad_norm": 3.9111037254333496,
      "learning_rate": 3.8478786710806946e-05,
      "loss": 0.2657310009002686,
      "memory(GiB)": 70.5,
      "step": 66990,
      "token_acc": 0.9335548172757475,
      "train_speed(iter/s)": 1.448058
    },
    {
      "epoch": 2.8702711966068293,
      "grad_norm": 6.0583343505859375,
      "learning_rate": 3.847223813856934e-05,
      "loss": 0.3883610486984253,
      "memory(GiB)": 70.5,
      "step": 66995,
      "token_acc": 0.9208860759493671,
      "train_speed(iter/s)": 1.448065
    },
    {
      "epoch": 2.870485411936078,
      "grad_norm": 3.785140037536621,
      "learning_rate": 3.846568977516797e-05,
      "loss": 0.43224287033081055,
      "memory(GiB)": 70.5,
      "step": 67000,
      "token_acc": 0.9123376623376623,
      "train_speed(iter/s)": 1.448068
    },
    {
      "epoch": 2.870485411936078,
      "eval_loss": 2.4158496856689453,
      "eval_runtime": 12.0553,
      "eval_samples_per_second": 8.295,
      "eval_steps_per_second": 8.295,
      "eval_token_acc": 0.44814340588988477,
      "step": 67000
    },
    {
      "epoch": 2.870699627265327,
      "grad_norm": 3.4012222290039062,
      "learning_rate": 3.845914162072143e-05,
      "loss": 0.3884379148483276,
      "memory(GiB)": 70.5,
      "step": 67005,
      "token_acc": 0.5696682464454976,
      "train_speed(iter/s)": 1.447672
    },
    {
      "epoch": 2.870913842594576,
      "grad_norm": 2.875516176223755,
      "learning_rate": 3.845259367534838e-05,
      "loss": 0.37299747467041017,
      "memory(GiB)": 70.5,
      "step": 67010,
      "token_acc": 0.918918918918919,
      "train_speed(iter/s)": 1.447687
    },
    {
      "epoch": 2.871128057923825,
      "grad_norm": 1.3484715223312378,
      "learning_rate": 3.8446045939167425e-05,
      "loss": 0.4829817771911621,
      "memory(GiB)": 70.5,
      "step": 67015,
      "token_acc": 0.8913043478260869,
      "train_speed(iter/s)": 1.447691
    },
    {
      "epoch": 2.871342273253074,
      "grad_norm": 4.326211929321289,
      "learning_rate": 3.8439498412297195e-05,
      "loss": 0.49010210037231444,
      "memory(GiB)": 70.5,
      "step": 67020,
      "token_acc": 0.8840579710144928,
      "train_speed(iter/s)": 1.44769
    },
    {
      "epoch": 2.871556488582323,
      "grad_norm": 8.232673645019531,
      "learning_rate": 3.843295109485629e-05,
      "loss": 0.716582202911377,
      "memory(GiB)": 70.5,
      "step": 67025,
      "token_acc": 0.8723404255319149,
      "train_speed(iter/s)": 1.447695
    },
    {
      "epoch": 2.871770703911572,
      "grad_norm": 0.5941632986068726,
      "learning_rate": 3.842640398696332e-05,
      "loss": 0.5215926170349121,
      "memory(GiB)": 70.5,
      "step": 67030,
      "token_acc": 0.8966666666666666,
      "train_speed(iter/s)": 1.447695
    },
    {
      "epoch": 2.8719849192408207,
      "grad_norm": 2.233085870742798,
      "learning_rate": 3.841985708873691e-05,
      "loss": 0.19619650840759278,
      "memory(GiB)": 70.5,
      "step": 67035,
      "token_acc": 0.959866220735786,
      "train_speed(iter/s)": 1.447704
    },
    {
      "epoch": 2.87219913457007,
      "grad_norm": 4.1796183586120605,
      "learning_rate": 3.8413310400295636e-05,
      "loss": 0.23776865005493164,
      "memory(GiB)": 70.5,
      "step": 67040,
      "token_acc": 0.9574468085106383,
      "train_speed(iter/s)": 1.447706
    },
    {
      "epoch": 2.8724133498993187,
      "grad_norm": 5.769886493682861,
      "learning_rate": 3.8406763921758124e-05,
      "loss": 0.35133683681488037,
      "memory(GiB)": 70.5,
      "step": 67045,
      "token_acc": 0.9256965944272446,
      "train_speed(iter/s)": 1.447716
    },
    {
      "epoch": 2.8726275652285675,
      "grad_norm": 1.1729305982589722,
      "learning_rate": 3.840021765324297e-05,
      "loss": 0.20674796104431153,
      "memory(GiB)": 70.5,
      "step": 67050,
      "token_acc": 0.9424460431654677,
      "train_speed(iter/s)": 1.447732
    },
    {
      "epoch": 2.872841780557817,
      "grad_norm": 1.3422417640686035,
      "learning_rate": 3.839367159486874e-05,
      "loss": 0.2530949831008911,
      "memory(GiB)": 70.5,
      "step": 67055,
      "token_acc": 0.933579335793358,
      "train_speed(iter/s)": 1.44774
    },
    {
      "epoch": 2.8730559958870656,
      "grad_norm": 4.040317535400391,
      "learning_rate": 3.838712574675404e-05,
      "loss": 0.3842175006866455,
      "memory(GiB)": 70.5,
      "step": 67060,
      "token_acc": 0.9127906976744186,
      "train_speed(iter/s)": 1.447745
    },
    {
      "epoch": 2.8732702112163144,
      "grad_norm": 0.8231345415115356,
      "learning_rate": 3.838058010901746e-05,
      "loss": 0.2611249446868896,
      "memory(GiB)": 70.5,
      "step": 67065,
      "token_acc": 0.958041958041958,
      "train_speed(iter/s)": 1.447753
    },
    {
      "epoch": 2.8734844265455637,
      "grad_norm": 2.3504562377929688,
      "learning_rate": 3.8374034681777546e-05,
      "loss": 0.23003318309783935,
      "memory(GiB)": 70.5,
      "step": 67070,
      "token_acc": 0.950354609929078,
      "train_speed(iter/s)": 1.447756
    },
    {
      "epoch": 2.8736986418748125,
      "grad_norm": 3.95674991607666,
      "learning_rate": 3.8367489465152905e-05,
      "loss": 0.41397719383239745,
      "memory(GiB)": 70.5,
      "step": 67075,
      "token_acc": 0.9038461538461539,
      "train_speed(iter/s)": 1.44776
    },
    {
      "epoch": 2.8739128572040613,
      "grad_norm": 2.0576961040496826,
      "learning_rate": 3.836094445926212e-05,
      "loss": 0.30470051765441897,
      "memory(GiB)": 70.5,
      "step": 67080,
      "token_acc": 0.9297297297297298,
      "train_speed(iter/s)": 1.447763
    },
    {
      "epoch": 2.8741270725333106,
      "grad_norm": 4.907217025756836,
      "learning_rate": 3.835439966422373e-05,
      "loss": 0.7268563270568847,
      "memory(GiB)": 70.5,
      "step": 67085,
      "token_acc": 0.8566308243727598,
      "train_speed(iter/s)": 1.447769
    },
    {
      "epoch": 2.8743412878625594,
      "grad_norm": 3.6707663536071777,
      "learning_rate": 3.834785508015633e-05,
      "loss": 0.24798853397369386,
      "memory(GiB)": 70.5,
      "step": 67090,
      "token_acc": 0.9296296296296296,
      "train_speed(iter/s)": 1.447773
    },
    {
      "epoch": 2.874555503191808,
      "grad_norm": 3.9607675075531006,
      "learning_rate": 3.834131070717847e-05,
      "loss": 0.604449462890625,
      "memory(GiB)": 70.5,
      "step": 67095,
      "token_acc": 0.8628048780487805,
      "train_speed(iter/s)": 1.447793
    },
    {
      "epoch": 2.8747697185210574,
      "grad_norm": 1.7383619546890259,
      "learning_rate": 3.833476654540869e-05,
      "loss": 0.16426993608474733,
      "memory(GiB)": 70.5,
      "step": 67100,
      "token_acc": 0.9560439560439561,
      "train_speed(iter/s)": 1.447817
    },
    {
      "epoch": 2.8749839338503063,
      "grad_norm": 4.70010232925415,
      "learning_rate": 3.8328222594965555e-05,
      "loss": 0.4442389488220215,
      "memory(GiB)": 70.5,
      "step": 67105,
      "token_acc": 0.9114391143911439,
      "train_speed(iter/s)": 1.44783
    },
    {
      "epoch": 2.875198149179555,
      "grad_norm": 0.29538148641586304,
      "learning_rate": 3.832167885596763e-05,
      "loss": 0.311225152015686,
      "memory(GiB)": 70.5,
      "step": 67110,
      "token_acc": 0.939622641509434,
      "train_speed(iter/s)": 1.447825
    },
    {
      "epoch": 2.8754123645088043,
      "grad_norm": 1.3726603984832764,
      "learning_rate": 3.8315135328533435e-05,
      "loss": 0.15462535619735718,
      "memory(GiB)": 70.5,
      "step": 67115,
      "token_acc": 0.9713261648745519,
      "train_speed(iter/s)": 1.447832
    },
    {
      "epoch": 2.875626579838053,
      "grad_norm": 0.39649027585983276,
      "learning_rate": 3.830859201278153e-05,
      "loss": 0.27174863815307615,
      "memory(GiB)": 70.5,
      "step": 67120,
      "token_acc": 0.9413793103448276,
      "train_speed(iter/s)": 1.447827
    },
    {
      "epoch": 2.875840795167302,
      "grad_norm": 4.068038463592529,
      "learning_rate": 3.830204890883044e-05,
      "loss": 0.3677940845489502,
      "memory(GiB)": 70.5,
      "step": 67125,
      "token_acc": 0.9073359073359073,
      "train_speed(iter/s)": 1.447841
    },
    {
      "epoch": 2.876055010496551,
      "grad_norm": 2.377215623855591,
      "learning_rate": 3.829550601679872e-05,
      "loss": 0.6124482154846191,
      "memory(GiB)": 70.5,
      "step": 67130,
      "token_acc": 0.8765822784810127,
      "train_speed(iter/s)": 1.447855
    },
    {
      "epoch": 2.8762692258258,
      "grad_norm": 1.7841854095458984,
      "learning_rate": 3.828896333680489e-05,
      "loss": 0.1816679358482361,
      "memory(GiB)": 70.5,
      "step": 67135,
      "token_acc": 0.9585062240663901,
      "train_speed(iter/s)": 1.44786
    },
    {
      "epoch": 2.876483441155049,
      "grad_norm": 2.8784637451171875,
      "learning_rate": 3.828242086896746e-05,
      "loss": 0.33973121643066406,
      "memory(GiB)": 70.5,
      "step": 67140,
      "token_acc": 0.9333333333333333,
      "train_speed(iter/s)": 1.447863
    },
    {
      "epoch": 2.876697656484298,
      "grad_norm": 1.117360234260559,
      "learning_rate": 3.827587861340498e-05,
      "loss": 0.29737081527709963,
      "memory(GiB)": 70.5,
      "step": 67145,
      "token_acc": 0.9403973509933775,
      "train_speed(iter/s)": 1.447868
    },
    {
      "epoch": 2.876911871813547,
      "grad_norm": 3.6858911514282227,
      "learning_rate": 3.826933657023594e-05,
      "loss": 0.1542014718055725,
      "memory(GiB)": 70.5,
      "step": 67150,
      "token_acc": 0.9573170731707317,
      "train_speed(iter/s)": 1.44787
    },
    {
      "epoch": 2.8771260871427957,
      "grad_norm": 1.1585487127304077,
      "learning_rate": 3.826279473957889e-05,
      "loss": 0.7374300003051758,
      "memory(GiB)": 70.5,
      "step": 67155,
      "token_acc": 0.8074074074074075,
      "train_speed(iter/s)": 1.447876
    },
    {
      "epoch": 2.877340302472045,
      "grad_norm": 1.377804160118103,
      "learning_rate": 3.825625312155231e-05,
      "loss": 0.301504921913147,
      "memory(GiB)": 70.5,
      "step": 67160,
      "token_acc": 0.9434782608695652,
      "train_speed(iter/s)": 1.44788
    },
    {
      "epoch": 2.877554517801294,
      "grad_norm": 1.975433588027954,
      "learning_rate": 3.824971171627474e-05,
      "loss": 0.35050828456878663,
      "memory(GiB)": 70.5,
      "step": 67165,
      "token_acc": 0.9307228915662651,
      "train_speed(iter/s)": 1.447881
    },
    {
      "epoch": 2.8777687331305426,
      "grad_norm": 3.0812442302703857,
      "learning_rate": 3.8243170523864655e-05,
      "loss": 0.4391437530517578,
      "memory(GiB)": 70.5,
      "step": 67170,
      "token_acc": 0.916923076923077,
      "train_speed(iter/s)": 1.447889
    },
    {
      "epoch": 2.877982948459792,
      "grad_norm": 4.650461196899414,
      "learning_rate": 3.823662954444056e-05,
      "loss": 0.6598155498504639,
      "memory(GiB)": 70.5,
      "step": 67175,
      "token_acc": 0.8852459016393442,
      "train_speed(iter/s)": 1.447889
    },
    {
      "epoch": 2.8781971637890407,
      "grad_norm": 9.48575496673584,
      "learning_rate": 3.823008877812097e-05,
      "loss": 0.5521164417266846,
      "memory(GiB)": 70.5,
      "step": 67180,
      "token_acc": 0.8857142857142857,
      "train_speed(iter/s)": 1.447904
    },
    {
      "epoch": 2.8784113791182895,
      "grad_norm": 3.9245717525482178,
      "learning_rate": 3.822354822502434e-05,
      "loss": 0.26292884349823,
      "memory(GiB)": 70.5,
      "step": 67185,
      "token_acc": 0.9433333333333334,
      "train_speed(iter/s)": 1.447907
    },
    {
      "epoch": 2.8786255944475387,
      "grad_norm": 4.604609966278076,
      "learning_rate": 3.821700788526921e-05,
      "loss": 0.4015693187713623,
      "memory(GiB)": 70.5,
      "step": 67190,
      "token_acc": 0.9194630872483222,
      "train_speed(iter/s)": 1.447908
    },
    {
      "epoch": 2.8788398097767876,
      "grad_norm": 3.9072048664093018,
      "learning_rate": 3.8210467758974026e-05,
      "loss": 0.29074156284332275,
      "memory(GiB)": 70.5,
      "step": 67195,
      "token_acc": 0.9351535836177475,
      "train_speed(iter/s)": 1.447908
    },
    {
      "epoch": 2.8790540251060364,
      "grad_norm": 2.942148208618164,
      "learning_rate": 3.820392784625726e-05,
      "loss": 0.3475234270095825,
      "memory(GiB)": 70.5,
      "step": 67200,
      "token_acc": 0.9228070175438596,
      "train_speed(iter/s)": 1.447909
    },
    {
      "epoch": 2.8792682404352856,
      "grad_norm": 2.5388355255126953,
      "learning_rate": 3.819738814723742e-05,
      "loss": 0.3204353332519531,
      "memory(GiB)": 70.5,
      "step": 67205,
      "token_acc": 0.9207547169811321,
      "train_speed(iter/s)": 1.447911
    },
    {
      "epoch": 2.8794824557645344,
      "grad_norm": 1.736295461654663,
      "learning_rate": 3.8190848662032974e-05,
      "loss": 0.5259270191192627,
      "memory(GiB)": 70.5,
      "step": 67210,
      "token_acc": 0.9037037037037037,
      "train_speed(iter/s)": 1.44793
    },
    {
      "epoch": 2.8796966710937832,
      "grad_norm": 3.579225778579712,
      "learning_rate": 3.8184309390762364e-05,
      "loss": 0.4163031578063965,
      "memory(GiB)": 70.5,
      "step": 67215,
      "token_acc": 0.8947368421052632,
      "train_speed(iter/s)": 1.447934
    },
    {
      "epoch": 2.8799108864230325,
      "grad_norm": 2.174175500869751,
      "learning_rate": 3.817777033354409e-05,
      "loss": 0.5065288066864013,
      "memory(GiB)": 70.5,
      "step": 67220,
      "token_acc": 0.8976109215017065,
      "train_speed(iter/s)": 1.447939
    },
    {
      "epoch": 2.8801251017522813,
      "grad_norm": 3.6106975078582764,
      "learning_rate": 3.817123149049657e-05,
      "loss": 0.2556574821472168,
      "memory(GiB)": 70.5,
      "step": 67225,
      "token_acc": 0.9352941176470588,
      "train_speed(iter/s)": 1.447947
    },
    {
      "epoch": 2.88033931708153,
      "grad_norm": 4.137025356292725,
      "learning_rate": 3.81646928617383e-05,
      "loss": 0.3111577987670898,
      "memory(GiB)": 70.5,
      "step": 67230,
      "token_acc": 0.9337979094076655,
      "train_speed(iter/s)": 1.447957
    },
    {
      "epoch": 2.8805535324107794,
      "grad_norm": 3.286949872970581,
      "learning_rate": 3.8158154447387737e-05,
      "loss": 0.32758393287658694,
      "memory(GiB)": 70.5,
      "step": 67235,
      "token_acc": 0.9161490683229814,
      "train_speed(iter/s)": 1.447958
    },
    {
      "epoch": 2.880767747740028,
      "grad_norm": 0.1576942801475525,
      "learning_rate": 3.81516162475633e-05,
      "loss": 0.1796610951423645,
      "memory(GiB)": 70.5,
      "step": 67240,
      "token_acc": 0.9610894941634242,
      "train_speed(iter/s)": 1.447961
    },
    {
      "epoch": 2.880981963069277,
      "grad_norm": 4.242079257965088,
      "learning_rate": 3.814507826238345e-05,
      "loss": 0.17104625701904297,
      "memory(GiB)": 70.5,
      "step": 67245,
      "token_acc": 0.9570957095709571,
      "train_speed(iter/s)": 1.447962
    },
    {
      "epoch": 2.8811961783985263,
      "grad_norm": 6.859060287475586,
      "learning_rate": 3.813854049196664e-05,
      "loss": 0.5584538459777832,
      "memory(GiB)": 70.5,
      "step": 67250,
      "token_acc": 0.8868613138686131,
      "train_speed(iter/s)": 1.447967
    },
    {
      "epoch": 2.881410393727775,
      "grad_norm": 4.6570024490356445,
      "learning_rate": 3.813200293643129e-05,
      "loss": 0.6491868972778321,
      "memory(GiB)": 70.5,
      "step": 67255,
      "token_acc": 0.8819444444444444,
      "train_speed(iter/s)": 1.447967
    },
    {
      "epoch": 2.881624609057024,
      "grad_norm": 1.9114004373550415,
      "learning_rate": 3.8125465595895834e-05,
      "loss": 0.3998169660568237,
      "memory(GiB)": 70.5,
      "step": 67260,
      "token_acc": 0.9068100358422939,
      "train_speed(iter/s)": 1.447973
    },
    {
      "epoch": 2.881838824386273,
      "grad_norm": 0.20275039970874786,
      "learning_rate": 3.811892847047872e-05,
      "loss": 0.23361868858337403,
      "memory(GiB)": 70.5,
      "step": 67265,
      "token_acc": 0.950381679389313,
      "train_speed(iter/s)": 1.447974
    },
    {
      "epoch": 2.882053039715522,
      "grad_norm": 0.8228528499603271,
      "learning_rate": 3.811239156029835e-05,
      "loss": 0.29470243453979494,
      "memory(GiB)": 70.5,
      "step": 67270,
      "token_acc": 0.9306122448979591,
      "train_speed(iter/s)": 1.447977
    },
    {
      "epoch": 2.8822672550447708,
      "grad_norm": 6.638169765472412,
      "learning_rate": 3.8105854865473164e-05,
      "loss": 0.5095582008361816,
      "memory(GiB)": 70.5,
      "step": 67275,
      "token_acc": 0.9150326797385621,
      "train_speed(iter/s)": 1.447985
    },
    {
      "epoch": 2.88248147037402,
      "grad_norm": 1.0998705625534058,
      "learning_rate": 3.809931838612159e-05,
      "loss": 0.18349567651748658,
      "memory(GiB)": 70.5,
      "step": 67280,
      "token_acc": 0.9601328903654485,
      "train_speed(iter/s)": 1.447996
    },
    {
      "epoch": 2.882695685703269,
      "grad_norm": 3.7823665142059326,
      "learning_rate": 3.8092782122362e-05,
      "loss": 0.35943899154663084,
      "memory(GiB)": 70.5,
      "step": 67285,
      "token_acc": 0.9225806451612903,
      "train_speed(iter/s)": 1.447997
    },
    {
      "epoch": 2.8829099010325177,
      "grad_norm": 4.3879523277282715,
      "learning_rate": 3.808624607431285e-05,
      "loss": 0.3897504091262817,
      "memory(GiB)": 70.5,
      "step": 67290,
      "token_acc": 0.9204152249134948,
      "train_speed(iter/s)": 1.447999
    },
    {
      "epoch": 2.883124116361767,
      "grad_norm": 4.238631248474121,
      "learning_rate": 3.807971024209252e-05,
      "loss": 0.3057858467102051,
      "memory(GiB)": 70.5,
      "step": 67295,
      "token_acc": 0.9433962264150944,
      "train_speed(iter/s)": 1.448002
    },
    {
      "epoch": 2.8833383316910157,
      "grad_norm": 3.4167137145996094,
      "learning_rate": 3.8073174625819406e-05,
      "loss": 0.296979022026062,
      "memory(GiB)": 70.5,
      "step": 67300,
      "token_acc": 0.930921052631579,
      "train_speed(iter/s)": 1.448008
    },
    {
      "epoch": 2.8835525470202645,
      "grad_norm": 1.1476459503173828,
      "learning_rate": 3.8066639225611934e-05,
      "loss": 0.23614723682403566,
      "memory(GiB)": 70.5,
      "step": 67305,
      "token_acc": 0.9431818181818182,
      "train_speed(iter/s)": 1.448011
    },
    {
      "epoch": 2.883766762349514,
      "grad_norm": 4.579334735870361,
      "learning_rate": 3.8060104041588494e-05,
      "loss": 0.28195600509643554,
      "memory(GiB)": 70.5,
      "step": 67310,
      "token_acc": 0.953307392996109,
      "train_speed(iter/s)": 1.448015
    },
    {
      "epoch": 2.8839809776787626,
      "grad_norm": 0.9790074825286865,
      "learning_rate": 3.805356907386747e-05,
      "loss": 0.2269373893737793,
      "memory(GiB)": 70.5,
      "step": 67315,
      "token_acc": 0.9541284403669725,
      "train_speed(iter/s)": 1.448024
    },
    {
      "epoch": 2.8841951930080114,
      "grad_norm": 1.692314863204956,
      "learning_rate": 3.8047034322567246e-05,
      "loss": 0.36444945335388185,
      "memory(GiB)": 70.5,
      "step": 67320,
      "token_acc": 0.9114754098360656,
      "train_speed(iter/s)": 1.448028
    },
    {
      "epoch": 2.8844094083372607,
      "grad_norm": 2.304074287414551,
      "learning_rate": 3.804049978780621e-05,
      "loss": 0.49854159355163574,
      "memory(GiB)": 70.5,
      "step": 67325,
      "token_acc": 0.9078947368421053,
      "train_speed(iter/s)": 1.448043
    },
    {
      "epoch": 2.8846236236665095,
      "grad_norm": 3.2984635829925537,
      "learning_rate": 3.803396546970273e-05,
      "loss": 0.34385526180267334,
      "memory(GiB)": 70.5,
      "step": 67330,
      "token_acc": 0.9283387622149837,
      "train_speed(iter/s)": 1.448051
    },
    {
      "epoch": 2.8848378389957583,
      "grad_norm": 2.0991668701171875,
      "learning_rate": 3.80274313683752e-05,
      "loss": 0.49622769355773927,
      "memory(GiB)": 70.5,
      "step": 67335,
      "token_acc": 0.8953068592057761,
      "train_speed(iter/s)": 1.44807
    },
    {
      "epoch": 2.8850520543250076,
      "grad_norm": 1.4454987049102783,
      "learning_rate": 3.802089748394199e-05,
      "loss": 0.6378312587738038,
      "memory(GiB)": 70.5,
      "step": 67340,
      "token_acc": 0.8983957219251337,
      "train_speed(iter/s)": 1.44808
    },
    {
      "epoch": 2.8852662696542564,
      "grad_norm": 2.9056098461151123,
      "learning_rate": 3.801436381652144e-05,
      "loss": 0.4835883617401123,
      "memory(GiB)": 70.5,
      "step": 67345,
      "token_acc": 0.9027777777777778,
      "train_speed(iter/s)": 1.448084
    },
    {
      "epoch": 2.885480484983505,
      "grad_norm": 7.732537269592285,
      "learning_rate": 3.800783036623194e-05,
      "loss": 0.21866085529327392,
      "memory(GiB)": 70.5,
      "step": 67350,
      "token_acc": 0.9295154185022027,
      "train_speed(iter/s)": 1.448086
    },
    {
      "epoch": 2.8856947003127544,
      "grad_norm": 0.23018546402454376,
      "learning_rate": 3.8001297133191855e-05,
      "loss": 0.22921984195709227,
      "memory(GiB)": 70.5,
      "step": 67355,
      "token_acc": 0.9401408450704225,
      "train_speed(iter/s)": 1.448091
    },
    {
      "epoch": 2.8859089156420032,
      "grad_norm": 2.183704137802124,
      "learning_rate": 3.799476411751951e-05,
      "loss": 0.47748093605041503,
      "memory(GiB)": 70.5,
      "step": 67360,
      "token_acc": 0.910958904109589,
      "train_speed(iter/s)": 1.448098
    },
    {
      "epoch": 2.886123130971252,
      "grad_norm": 3.8021841049194336,
      "learning_rate": 3.798823131933329e-05,
      "loss": 0.496826696395874,
      "memory(GiB)": 70.5,
      "step": 67365,
      "token_acc": 0.8913857677902621,
      "train_speed(iter/s)": 1.448099
    },
    {
      "epoch": 2.8863373463005013,
      "grad_norm": 1.2918108701705933,
      "learning_rate": 3.79816987387515e-05,
      "loss": 0.15397857427597045,
      "memory(GiB)": 70.5,
      "step": 67370,
      "token_acc": 0.9572368421052632,
      "train_speed(iter/s)": 1.448106
    },
    {
      "epoch": 2.88655156162975,
      "grad_norm": 2.600475549697876,
      "learning_rate": 3.797516637589252e-05,
      "loss": 0.15097616910934447,
      "memory(GiB)": 70.5,
      "step": 67375,
      "token_acc": 0.9780564263322884,
      "train_speed(iter/s)": 1.448118
    },
    {
      "epoch": 2.886765776958999,
      "grad_norm": 0.8217527270317078,
      "learning_rate": 3.79686342308747e-05,
      "loss": 0.24574759006500244,
      "memory(GiB)": 70.5,
      "step": 67380,
      "token_acc": 0.9567099567099567,
      "train_speed(iter/s)": 1.448132
    },
    {
      "epoch": 2.886979992288248,
      "grad_norm": 2.5676867961883545,
      "learning_rate": 3.796210230381635e-05,
      "loss": 0.33406116962432864,
      "memory(GiB)": 70.5,
      "step": 67385,
      "token_acc": 0.9252669039145908,
      "train_speed(iter/s)": 1.448136
    },
    {
      "epoch": 2.887194207617497,
      "grad_norm": 3.017960548400879,
      "learning_rate": 3.795557059483581e-05,
      "loss": 0.41210379600524905,
      "memory(GiB)": 70.5,
      "step": 67390,
      "token_acc": 0.9050632911392406,
      "train_speed(iter/s)": 1.448147
    },
    {
      "epoch": 2.887408422946746,
      "grad_norm": 1.2825945615768433,
      "learning_rate": 3.794903910405141e-05,
      "loss": 0.2531184196472168,
      "memory(GiB)": 70.5,
      "step": 67395,
      "token_acc": 0.9453125,
      "train_speed(iter/s)": 1.448144
    },
    {
      "epoch": 2.887622638275995,
      "grad_norm": 1.8744757175445557,
      "learning_rate": 3.794250783158148e-05,
      "loss": 0.14506765604019164,
      "memory(GiB)": 70.5,
      "step": 67400,
      "token_acc": 0.9580152671755725,
      "train_speed(iter/s)": 1.448163
    },
    {
      "epoch": 2.887836853605244,
      "grad_norm": 0.7455418109893799,
      "learning_rate": 3.793597677754431e-05,
      "loss": 0.37750051021575926,
      "memory(GiB)": 70.5,
      "step": 67405,
      "token_acc": 0.9186746987951807,
      "train_speed(iter/s)": 1.448185
    },
    {
      "epoch": 2.8880510689344927,
      "grad_norm": 0.5883642435073853,
      "learning_rate": 3.792944594205825e-05,
      "loss": 0.13135693073272706,
      "memory(GiB)": 70.5,
      "step": 67410,
      "token_acc": 0.9707792207792207,
      "train_speed(iter/s)": 1.448186
    },
    {
      "epoch": 2.888265284263742,
      "grad_norm": 3.3966898918151855,
      "learning_rate": 3.792291532524159e-05,
      "loss": 0.40906553268432616,
      "memory(GiB)": 70.5,
      "step": 67415,
      "token_acc": 0.9067796610169492,
      "train_speed(iter/s)": 1.44819
    },
    {
      "epoch": 2.8884794995929908,
      "grad_norm": 9.494683265686035,
      "learning_rate": 3.791638492721266e-05,
      "loss": 0.5484580039978028,
      "memory(GiB)": 70.5,
      "step": 67420,
      "token_acc": 0.9080459770114943,
      "train_speed(iter/s)": 1.448194
    },
    {
      "epoch": 2.8886937149222396,
      "grad_norm": 0.5603793859481812,
      "learning_rate": 3.790985474808975e-05,
      "loss": 0.4130890369415283,
      "memory(GiB)": 70.5,
      "step": 67425,
      "token_acc": 0.9090909090909091,
      "train_speed(iter/s)": 1.448204
    },
    {
      "epoch": 2.888907930251489,
      "grad_norm": 3.2717103958129883,
      "learning_rate": 3.790332478799115e-05,
      "loss": 0.22059993743896483,
      "memory(GiB)": 70.5,
      "step": 67430,
      "token_acc": 0.9609375,
      "train_speed(iter/s)": 1.44821
    },
    {
      "epoch": 2.8891221455807377,
      "grad_norm": 3.2947134971618652,
      "learning_rate": 3.789679504703519e-05,
      "loss": 0.24920058250427246,
      "memory(GiB)": 70.5,
      "step": 67435,
      "token_acc": 0.9322033898305084,
      "train_speed(iter/s)": 1.448212
    },
    {
      "epoch": 2.8893363609099865,
      "grad_norm": 1.4928665161132812,
      "learning_rate": 3.789026552534013e-05,
      "loss": 0.4900031089782715,
      "memory(GiB)": 70.5,
      "step": 67440,
      "token_acc": 0.8978102189781022,
      "train_speed(iter/s)": 1.448229
    },
    {
      "epoch": 2.8895505762392357,
      "grad_norm": 6.105503082275391,
      "learning_rate": 3.788373622302426e-05,
      "loss": 0.42433757781982423,
      "memory(GiB)": 70.5,
      "step": 67445,
      "token_acc": 0.9101123595505618,
      "train_speed(iter/s)": 1.44824
    },
    {
      "epoch": 2.8897647915684845,
      "grad_norm": 1.814147710800171,
      "learning_rate": 3.787720714020587e-05,
      "loss": 0.3718827247619629,
      "memory(GiB)": 70.5,
      "step": 67450,
      "token_acc": 0.9382716049382716,
      "train_speed(iter/s)": 1.44824
    },
    {
      "epoch": 2.8899790068977333,
      "grad_norm": 4.731106758117676,
      "learning_rate": 3.787067827700327e-05,
      "loss": 0.9182277679443359,
      "memory(GiB)": 70.5,
      "step": 67455,
      "token_acc": 0.8136645962732919,
      "train_speed(iter/s)": 1.448261
    },
    {
      "epoch": 2.8901932222269826,
      "grad_norm": 3.6166253089904785,
      "learning_rate": 3.7864149633534704e-05,
      "loss": 0.33563079833984377,
      "memory(GiB)": 70.5,
      "step": 67460,
      "token_acc": 0.9238754325259516,
      "train_speed(iter/s)": 1.448259
    },
    {
      "epoch": 2.8904074375562314,
      "grad_norm": 6.340978622436523,
      "learning_rate": 3.785762120991844e-05,
      "loss": 0.34903483390808104,
      "memory(GiB)": 70.5,
      "step": 67465,
      "token_acc": 0.9307692307692308,
      "train_speed(iter/s)": 1.448268
    },
    {
      "epoch": 2.8906216528854802,
      "grad_norm": 0.7728412747383118,
      "learning_rate": 3.7851093006272775e-05,
      "loss": 0.382841157913208,
      "memory(GiB)": 70.5,
      "step": 67470,
      "token_acc": 0.9194139194139194,
      "train_speed(iter/s)": 1.448282
    },
    {
      "epoch": 2.8908358682147295,
      "grad_norm": 7.055837631225586,
      "learning_rate": 3.784456502271594e-05,
      "loss": 0.6180291652679444,
      "memory(GiB)": 70.5,
      "step": 67475,
      "token_acc": 0.8620689655172413,
      "train_speed(iter/s)": 1.448288
    },
    {
      "epoch": 2.8910500835439783,
      "grad_norm": 0.5650585293769836,
      "learning_rate": 3.783803725936622e-05,
      "loss": 0.33963422775268554,
      "memory(GiB)": 70.5,
      "step": 67480,
      "token_acc": 0.92,
      "train_speed(iter/s)": 1.448284
    },
    {
      "epoch": 2.891264298873227,
      "grad_norm": 5.578777313232422,
      "learning_rate": 3.783150971634187e-05,
      "loss": 0.6579584598541259,
      "memory(GiB)": 70.5,
      "step": 67485,
      "token_acc": 0.8699551569506726,
      "train_speed(iter/s)": 1.448295
    },
    {
      "epoch": 2.8914785142024764,
      "grad_norm": 3.5158348083496094,
      "learning_rate": 3.782498239376113e-05,
      "loss": 0.33508827686309817,
      "memory(GiB)": 70.5,
      "step": 67490,
      "token_acc": 0.92,
      "train_speed(iter/s)": 1.448307
    },
    {
      "epoch": 2.891692729531725,
      "grad_norm": 3.344911575317383,
      "learning_rate": 3.781845529174226e-05,
      "loss": 0.778463888168335,
      "memory(GiB)": 70.5,
      "step": 67495,
      "token_acc": 0.8294314381270903,
      "train_speed(iter/s)": 1.448313
    },
    {
      "epoch": 2.891906944860974,
      "grad_norm": 5.224198818206787,
      "learning_rate": 3.7811928410403495e-05,
      "loss": 0.4105800151824951,
      "memory(GiB)": 70.5,
      "step": 67500,
      "token_acc": 0.9094202898550725,
      "train_speed(iter/s)": 1.448327
    },
    {
      "epoch": 2.891906944860974,
      "eval_loss": 2.438832998275757,
      "eval_runtime": 11.4423,
      "eval_samples_per_second": 8.74,
      "eval_steps_per_second": 8.74,
      "eval_token_acc": 0.43283582089552236,
      "step": 67500
    },
    {
      "epoch": 2.8921211601902233,
      "grad_norm": 6.300090312957764,
      "learning_rate": 3.780540174986308e-05,
      "loss": 0.4822094440460205,
      "memory(GiB)": 70.5,
      "step": 67505,
      "token_acc": 0.5541082164328658,
      "train_speed(iter/s)": 1.447942
    },
    {
      "epoch": 2.892335375519472,
      "grad_norm": 4.933126926422119,
      "learning_rate": 3.7798875310239254e-05,
      "loss": 0.42020673751831056,
      "memory(GiB)": 70.5,
      "step": 67510,
      "token_acc": 0.9144981412639405,
      "train_speed(iter/s)": 1.447943
    },
    {
      "epoch": 2.892549590848721,
      "grad_norm": 3.099299192428589,
      "learning_rate": 3.779234909165024e-05,
      "loss": 0.3065709829330444,
      "memory(GiB)": 70.5,
      "step": 67515,
      "token_acc": 0.9446366782006921,
      "train_speed(iter/s)": 1.447949
    },
    {
      "epoch": 2.89276380617797,
      "grad_norm": 0.09859393537044525,
      "learning_rate": 3.7785823094214265e-05,
      "loss": 0.30836670398712157,
      "memory(GiB)": 70.5,
      "step": 67520,
      "token_acc": 0.9440559440559441,
      "train_speed(iter/s)": 1.447952
    },
    {
      "epoch": 2.892978021507219,
      "grad_norm": 3.809713840484619,
      "learning_rate": 3.777929731804958e-05,
      "loss": 0.44652228355407714,
      "memory(GiB)": 70.5,
      "step": 67525,
      "token_acc": 0.915068493150685,
      "train_speed(iter/s)": 1.447955
    },
    {
      "epoch": 2.8931922368364678,
      "grad_norm": 0.4162311851978302,
      "learning_rate": 3.777277176327439e-05,
      "loss": 0.22716042995452881,
      "memory(GiB)": 70.5,
      "step": 67530,
      "token_acc": 0.9522292993630573,
      "train_speed(iter/s)": 1.447961
    },
    {
      "epoch": 2.893406452165717,
      "grad_norm": 4.103150367736816,
      "learning_rate": 3.7766246430006904e-05,
      "loss": 0.6378963947296142,
      "memory(GiB)": 70.5,
      "step": 67535,
      "token_acc": 0.8664259927797834,
      "train_speed(iter/s)": 1.447961
    },
    {
      "epoch": 2.893620667494966,
      "grad_norm": 3.5943117141723633,
      "learning_rate": 3.7759721318365344e-05,
      "loss": 0.5090227127075195,
      "memory(GiB)": 70.5,
      "step": 67540,
      "token_acc": 0.8745980707395499,
      "train_speed(iter/s)": 1.447978
    },
    {
      "epoch": 2.8938348828242146,
      "grad_norm": 4.804305076599121,
      "learning_rate": 3.7753196428467915e-05,
      "loss": 0.3050595998764038,
      "memory(GiB)": 70.5,
      "step": 67545,
      "token_acc": 0.9471830985915493,
      "train_speed(iter/s)": 1.447989
    },
    {
      "epoch": 2.894049098153464,
      "grad_norm": 3.1854050159454346,
      "learning_rate": 3.774667176043281e-05,
      "loss": 0.2949427366256714,
      "memory(GiB)": 70.5,
      "step": 67550,
      "token_acc": 0.9343065693430657,
      "train_speed(iter/s)": 1.447992
    },
    {
      "epoch": 2.8942633134827127,
      "grad_norm": 0.5888026356697083,
      "learning_rate": 3.7740147314378254e-05,
      "loss": 0.20536413192749023,
      "memory(GiB)": 70.5,
      "step": 67555,
      "token_acc": 0.9543859649122807,
      "train_speed(iter/s)": 1.447997
    },
    {
      "epoch": 2.8944775288119615,
      "grad_norm": 0.42541825771331787,
      "learning_rate": 3.7733623090422424e-05,
      "loss": 0.3093162775039673,
      "memory(GiB)": 70.5,
      "step": 67560,
      "token_acc": 0.930327868852459,
      "train_speed(iter/s)": 1.447999
    },
    {
      "epoch": 2.8946917441412108,
      "grad_norm": 2.339534044265747,
      "learning_rate": 3.772709908868351e-05,
      "loss": 0.26126394271850584,
      "memory(GiB)": 70.5,
      "step": 67565,
      "token_acc": 0.9464882943143813,
      "train_speed(iter/s)": 1.447997
    },
    {
      "epoch": 2.8949059594704596,
      "grad_norm": 3.1624224185943604,
      "learning_rate": 3.772057530927973e-05,
      "loss": 0.3927292346954346,
      "memory(GiB)": 70.5,
      "step": 67570,
      "token_acc": 0.915625,
      "train_speed(iter/s)": 1.448002
    },
    {
      "epoch": 2.8951201747997084,
      "grad_norm": 3.4579286575317383,
      "learning_rate": 3.771405175232923e-05,
      "loss": 0.3717378616333008,
      "memory(GiB)": 70.5,
      "step": 67575,
      "token_acc": 0.9339622641509434,
      "train_speed(iter/s)": 1.44801
    },
    {
      "epoch": 2.8953343901289577,
      "grad_norm": 4.5448431968688965,
      "learning_rate": 3.7707528417950215e-05,
      "loss": 0.37340381145477297,
      "memory(GiB)": 70.5,
      "step": 67580,
      "token_acc": 0.9273255813953488,
      "train_speed(iter/s)": 1.448022
    },
    {
      "epoch": 2.8955486054582065,
      "grad_norm": 3.4704830646514893,
      "learning_rate": 3.770100530626086e-05,
      "loss": 0.302825403213501,
      "memory(GiB)": 70.5,
      "step": 67585,
      "token_acc": 0.9315068493150684,
      "train_speed(iter/s)": 1.448019
    },
    {
      "epoch": 2.8957628207874553,
      "grad_norm": 1.9862253665924072,
      "learning_rate": 3.769448241737932e-05,
      "loss": 0.22992997169494628,
      "memory(GiB)": 70.5,
      "step": 67590,
      "token_acc": 0.9368421052631579,
      "train_speed(iter/s)": 1.448025
    },
    {
      "epoch": 2.8959770361167045,
      "grad_norm": 2.6256041526794434,
      "learning_rate": 3.7687959751423755e-05,
      "loss": 0.14215142726898194,
      "memory(GiB)": 70.5,
      "step": 67595,
      "token_acc": 0.9614243323442137,
      "train_speed(iter/s)": 1.448024
    },
    {
      "epoch": 2.8961912514459534,
      "grad_norm": 2.628854274749756,
      "learning_rate": 3.768143730851238e-05,
      "loss": 0.427754545211792,
      "memory(GiB)": 70.5,
      "step": 67600,
      "token_acc": 0.9084507042253521,
      "train_speed(iter/s)": 1.448042
    },
    {
      "epoch": 2.896405466775202,
      "grad_norm": 1.5190863609313965,
      "learning_rate": 3.767491508876331e-05,
      "loss": 0.3458396911621094,
      "memory(GiB)": 70.5,
      "step": 67605,
      "token_acc": 0.9139784946236559,
      "train_speed(iter/s)": 1.448056
    },
    {
      "epoch": 2.8966196821044514,
      "grad_norm": 2.717557907104492,
      "learning_rate": 3.7668393092294723e-05,
      "loss": 0.4567598342895508,
      "memory(GiB)": 70.5,
      "step": 67610,
      "token_acc": 0.9090909090909091,
      "train_speed(iter/s)": 1.44806
    },
    {
      "epoch": 2.8968338974337002,
      "grad_norm": 3.265171527862549,
      "learning_rate": 3.766187131922476e-05,
      "loss": 0.7348355770111084,
      "memory(GiB)": 70.5,
      "step": 67615,
      "token_acc": 0.8461538461538461,
      "train_speed(iter/s)": 1.448072
    },
    {
      "epoch": 2.897048112762949,
      "grad_norm": 2.1602156162261963,
      "learning_rate": 3.765534976967157e-05,
      "loss": 0.1645612597465515,
      "memory(GiB)": 70.5,
      "step": 67620,
      "token_acc": 0.9554794520547946,
      "train_speed(iter/s)": 1.448074
    },
    {
      "epoch": 2.8972623280921983,
      "grad_norm": 3.484055757522583,
      "learning_rate": 3.7648828443753305e-05,
      "loss": 0.41821913719177245,
      "memory(GiB)": 70.5,
      "step": 67625,
      "token_acc": 0.9,
      "train_speed(iter/s)": 1.44809
    },
    {
      "epoch": 2.897476543421447,
      "grad_norm": 3.1719765663146973,
      "learning_rate": 3.76423073415881e-05,
      "loss": 0.2410193920135498,
      "memory(GiB)": 70.5,
      "step": 67630,
      "token_acc": 0.9507575757575758,
      "train_speed(iter/s)": 1.448097
    },
    {
      "epoch": 2.897690758750696,
      "grad_norm": 2.4501402378082275,
      "learning_rate": 3.763578646329408e-05,
      "loss": 0.2652501344680786,
      "memory(GiB)": 70.5,
      "step": 67635,
      "token_acc": 0.9405594405594405,
      "train_speed(iter/s)": 1.448117
    },
    {
      "epoch": 2.897904974079945,
      "grad_norm": 1.0491771697998047,
      "learning_rate": 3.76292658089894e-05,
      "loss": 0.2891498804092407,
      "memory(GiB)": 70.5,
      "step": 67640,
      "token_acc": 0.9543726235741445,
      "train_speed(iter/s)": 1.44812
    },
    {
      "epoch": 2.898119189409194,
      "grad_norm": 2.5386545658111572,
      "learning_rate": 3.7622745378792156e-05,
      "loss": 0.5327938556671142,
      "memory(GiB)": 70.5,
      "step": 67645,
      "token_acc": 0.8851963746223565,
      "train_speed(iter/s)": 1.44814
    },
    {
      "epoch": 2.898333404738443,
      "grad_norm": 4.638432502746582,
      "learning_rate": 3.761622517282051e-05,
      "loss": 0.3847452878952026,
      "memory(GiB)": 70.5,
      "step": 67650,
      "token_acc": 0.9067164179104478,
      "train_speed(iter/s)": 1.448158
    },
    {
      "epoch": 2.898547620067692,
      "grad_norm": 0.4308196008205414,
      "learning_rate": 3.7609705191192555e-05,
      "loss": 0.26043877601623533,
      "memory(GiB)": 70.5,
      "step": 67655,
      "token_acc": 0.9363957597173145,
      "train_speed(iter/s)": 1.448166
    },
    {
      "epoch": 2.898761835396941,
      "grad_norm": 1.7840312719345093,
      "learning_rate": 3.760318543402641e-05,
      "loss": 0.13524845838546753,
      "memory(GiB)": 70.5,
      "step": 67660,
      "token_acc": 0.9754601226993865,
      "train_speed(iter/s)": 1.448177
    },
    {
      "epoch": 2.8989760507261897,
      "grad_norm": 2.096053123474121,
      "learning_rate": 3.75966659014402e-05,
      "loss": 0.2989544153213501,
      "memory(GiB)": 70.5,
      "step": 67665,
      "token_acc": 0.9173228346456693,
      "train_speed(iter/s)": 1.448183
    },
    {
      "epoch": 2.899190266055439,
      "grad_norm": 1.9285271167755127,
      "learning_rate": 3.759014659355199e-05,
      "loss": 0.34816708564758303,
      "memory(GiB)": 70.5,
      "step": 67670,
      "token_acc": 0.9169675090252708,
      "train_speed(iter/s)": 1.448176
    },
    {
      "epoch": 2.8994044813846878,
      "grad_norm": 3.786750555038452,
      "learning_rate": 3.758362751047995e-05,
      "loss": 0.4887354373931885,
      "memory(GiB)": 70.5,
      "step": 67675,
      "token_acc": 0.9047619047619048,
      "train_speed(iter/s)": 1.448189
    },
    {
      "epoch": 2.8996186967139366,
      "grad_norm": 3.037551164627075,
      "learning_rate": 3.7577108652342124e-05,
      "loss": 0.32048988342285156,
      "memory(GiB)": 70.5,
      "step": 67680,
      "token_acc": 0.9245283018867925,
      "train_speed(iter/s)": 1.448192
    },
    {
      "epoch": 2.899832912043186,
      "grad_norm": 1.765465497970581,
      "learning_rate": 3.7570590019256645e-05,
      "loss": 0.4005606651306152,
      "memory(GiB)": 70.5,
      "step": 67685,
      "token_acc": 0.9233716475095786,
      "train_speed(iter/s)": 1.448199
    },
    {
      "epoch": 2.9000471273724346,
      "grad_norm": 2.3959343433380127,
      "learning_rate": 3.756407161134159e-05,
      "loss": 0.11496585607528687,
      "memory(GiB)": 70.5,
      "step": 67690,
      "token_acc": 0.9762845849802372,
      "train_speed(iter/s)": 1.448212
    },
    {
      "epoch": 2.900261342701684,
      "grad_norm": 2.588968515396118,
      "learning_rate": 3.7557553428715026e-05,
      "loss": 0.3740550518035889,
      "memory(GiB)": 70.5,
      "step": 67695,
      "token_acc": 0.9264214046822743,
      "train_speed(iter/s)": 1.448214
    },
    {
      "epoch": 2.9004755580309327,
      "grad_norm": 5.264646530151367,
      "learning_rate": 3.7551035471495065e-05,
      "loss": 0.47301855087280276,
      "memory(GiB)": 70.5,
      "step": 67700,
      "token_acc": 0.8760330578512396,
      "train_speed(iter/s)": 1.448217
    },
    {
      "epoch": 2.9006897733601815,
      "grad_norm": 3.052757740020752,
      "learning_rate": 3.7544517739799775e-05,
      "loss": 0.5077502250671386,
      "memory(GiB)": 70.5,
      "step": 67705,
      "token_acc": 0.8901098901098901,
      "train_speed(iter/s)": 1.448217
    },
    {
      "epoch": 2.900903988689431,
      "grad_norm": 0.9594593048095703,
      "learning_rate": 3.753800023374723e-05,
      "loss": 0.40351691246032717,
      "memory(GiB)": 70.5,
      "step": 67710,
      "token_acc": 0.9303135888501742,
      "train_speed(iter/s)": 1.448212
    },
    {
      "epoch": 2.9011182040186796,
      "grad_norm": 1.9862213134765625,
      "learning_rate": 3.7531482953455504e-05,
      "loss": 0.35221812725067136,
      "memory(GiB)": 70.5,
      "step": 67715,
      "token_acc": 0.9218106995884774,
      "train_speed(iter/s)": 1.448216
    },
    {
      "epoch": 2.9013324193479284,
      "grad_norm": 1.3302202224731445,
      "learning_rate": 3.752496589904265e-05,
      "loss": 0.19836781024932862,
      "memory(GiB)": 70.5,
      "step": 67720,
      "token_acc": 0.965034965034965,
      "train_speed(iter/s)": 1.448225
    },
    {
      "epoch": 2.9015466346771777,
      "grad_norm": 4.386117458343506,
      "learning_rate": 3.751844907062675e-05,
      "loss": 0.26109867095947265,
      "memory(GiB)": 70.5,
      "step": 67725,
      "token_acc": 0.958041958041958,
      "train_speed(iter/s)": 1.448243
    },
    {
      "epoch": 2.9017608500064265,
      "grad_norm": 4.508217811584473,
      "learning_rate": 3.7511932468325855e-05,
      "loss": 0.19665526151657103,
      "memory(GiB)": 70.5,
      "step": 67730,
      "token_acc": 0.9565217391304348,
      "train_speed(iter/s)": 1.44826
    },
    {
      "epoch": 2.9019750653356753,
      "grad_norm": 2.7999212741851807,
      "learning_rate": 3.750541609225801e-05,
      "loss": 0.34843978881835935,
      "memory(GiB)": 70.5,
      "step": 67735,
      "token_acc": 0.9176029962546817,
      "train_speed(iter/s)": 1.448265
    },
    {
      "epoch": 2.9021892806649245,
      "grad_norm": 1.6105663776397705,
      "learning_rate": 3.749889994254126e-05,
      "loss": 0.4226216793060303,
      "memory(GiB)": 70.5,
      "step": 67740,
      "token_acc": 0.9113475177304965,
      "train_speed(iter/s)": 1.448274
    },
    {
      "epoch": 2.9024034959941734,
      "grad_norm": 3.7846009731292725,
      "learning_rate": 3.7492384019293686e-05,
      "loss": 0.4584004878997803,
      "memory(GiB)": 70.5,
      "step": 67745,
      "token_acc": 0.9013605442176871,
      "train_speed(iter/s)": 1.448272
    },
    {
      "epoch": 2.902617711323422,
      "grad_norm": 1.8991121053695679,
      "learning_rate": 3.74858683226333e-05,
      "loss": 0.26105608940124514,
      "memory(GiB)": 70.5,
      "step": 67750,
      "token_acc": 0.9496644295302014,
      "train_speed(iter/s)": 1.448278
    },
    {
      "epoch": 2.9028319266526714,
      "grad_norm": 3.4212028980255127,
      "learning_rate": 3.747935285267816e-05,
      "loss": 0.3279649496078491,
      "memory(GiB)": 70.5,
      "step": 67755,
      "token_acc": 0.9182156133828996,
      "train_speed(iter/s)": 1.448289
    },
    {
      "epoch": 2.9030461419819202,
      "grad_norm": 1.5401973724365234,
      "learning_rate": 3.747283760954629e-05,
      "loss": 0.3219198226928711,
      "memory(GiB)": 70.5,
      "step": 67760,
      "token_acc": 0.9204152249134948,
      "train_speed(iter/s)": 1.448293
    },
    {
      "epoch": 2.903260357311169,
      "grad_norm": 0.42089512944221497,
      "learning_rate": 3.74663225933557e-05,
      "loss": 0.38065285682678224,
      "memory(GiB)": 70.5,
      "step": 67765,
      "token_acc": 0.9253731343283582,
      "train_speed(iter/s)": 1.4483
    },
    {
      "epoch": 2.9034745726404183,
      "grad_norm": 1.5702241659164429,
      "learning_rate": 3.745980780422445e-05,
      "loss": 0.4592452049255371,
      "memory(GiB)": 70.5,
      "step": 67770,
      "token_acc": 0.89375,
      "train_speed(iter/s)": 1.448306
    },
    {
      "epoch": 2.903688787969667,
      "grad_norm": 4.578491687774658,
      "learning_rate": 3.7453293242270536e-05,
      "loss": 0.4362764835357666,
      "memory(GiB)": 70.5,
      "step": 67775,
      "token_acc": 0.8925619834710744,
      "train_speed(iter/s)": 1.44831
    },
    {
      "epoch": 2.903903003298916,
      "grad_norm": 2.710162878036499,
      "learning_rate": 3.744677890761198e-05,
      "loss": 0.7530575752258301,
      "memory(GiB)": 70.5,
      "step": 67780,
      "token_acc": 0.8546712802768166,
      "train_speed(iter/s)": 1.44832
    },
    {
      "epoch": 2.904117218628165,
      "grad_norm": 2.8845374584198,
      "learning_rate": 3.7440264800366815e-05,
      "loss": 0.5456203937530517,
      "memory(GiB)": 70.5,
      "step": 67785,
      "token_acc": 0.8780487804878049,
      "train_speed(iter/s)": 1.448325
    },
    {
      "epoch": 2.904331433957414,
      "grad_norm": 4.168403625488281,
      "learning_rate": 3.743375092065302e-05,
      "loss": 0.35518133640289307,
      "memory(GiB)": 70.5,
      "step": 67790,
      "token_acc": 0.9233333333333333,
      "train_speed(iter/s)": 1.448336
    },
    {
      "epoch": 2.904545649286663,
      "grad_norm": 1.1309080123901367,
      "learning_rate": 3.7427237268588626e-05,
      "loss": 0.5198388576507569,
      "memory(GiB)": 70.5,
      "step": 67795,
      "token_acc": 0.9061488673139159,
      "train_speed(iter/s)": 1.448357
    },
    {
      "epoch": 2.904759864615912,
      "grad_norm": 1.1953383684158325,
      "learning_rate": 3.7420723844291625e-05,
      "loss": 0.21716248989105225,
      "memory(GiB)": 70.5,
      "step": 67800,
      "token_acc": 0.9421221864951769,
      "train_speed(iter/s)": 1.448361
    },
    {
      "epoch": 2.904974079945161,
      "grad_norm": 0.37838563323020935,
      "learning_rate": 3.7414210647879996e-05,
      "loss": 0.33099842071533203,
      "memory(GiB)": 70.5,
      "step": 67805,
      "token_acc": 0.9243421052631579,
      "train_speed(iter/s)": 1.448362
    },
    {
      "epoch": 2.9051882952744097,
      "grad_norm": 3.776196002960205,
      "learning_rate": 3.740769767947177e-05,
      "loss": 0.6958366394042969,
      "memory(GiB)": 70.5,
      "step": 67810,
      "token_acc": 0.8611111111111112,
      "train_speed(iter/s)": 1.44836
    },
    {
      "epoch": 2.905402510603659,
      "grad_norm": 1.841601014137268,
      "learning_rate": 3.740118493918489e-05,
      "loss": 0.23645904064178466,
      "memory(GiB)": 70.5,
      "step": 67815,
      "token_acc": 0.9335664335664335,
      "train_speed(iter/s)": 1.448355
    },
    {
      "epoch": 2.9056167259329078,
      "grad_norm": 1.642853021621704,
      "learning_rate": 3.739467242713737e-05,
      "loss": 0.37792344093322755,
      "memory(GiB)": 70.5,
      "step": 67820,
      "token_acc": 0.9025270758122743,
      "train_speed(iter/s)": 1.448375
    },
    {
      "epoch": 2.9058309412621566,
      "grad_norm": 3.7296228408813477,
      "learning_rate": 3.7388160143447184e-05,
      "loss": 0.4739550590515137,
      "memory(GiB)": 70.5,
      "step": 67825,
      "token_acc": 0.8996282527881041,
      "train_speed(iter/s)": 1.448375
    },
    {
      "epoch": 2.906045156591406,
      "grad_norm": 2.293100357055664,
      "learning_rate": 3.738164808823231e-05,
      "loss": 0.21986565589904786,
      "memory(GiB)": 70.5,
      "step": 67830,
      "token_acc": 0.9512195121951219,
      "train_speed(iter/s)": 1.448379
    },
    {
      "epoch": 2.9062593719206546,
      "grad_norm": 5.4700093269348145,
      "learning_rate": 3.737513626161073e-05,
      "loss": 0.7116509437561035,
      "memory(GiB)": 70.5,
      "step": 67835,
      "token_acc": 0.8520710059171598,
      "train_speed(iter/s)": 1.448388
    },
    {
      "epoch": 2.9064735872499035,
      "grad_norm": 1.853797435760498,
      "learning_rate": 3.736862466370038e-05,
      "loss": 0.3748700857162476,
      "memory(GiB)": 70.5,
      "step": 67840,
      "token_acc": 0.9242902208201893,
      "train_speed(iter/s)": 1.448392
    },
    {
      "epoch": 2.9066878025791527,
      "grad_norm": 0.838111400604248,
      "learning_rate": 3.7362113294619264e-05,
      "loss": 0.1859172463417053,
      "memory(GiB)": 70.5,
      "step": 67845,
      "token_acc": 0.9454545454545454,
      "train_speed(iter/s)": 1.448392
    },
    {
      "epoch": 2.9069020179084015,
      "grad_norm": 3.719611406326294,
      "learning_rate": 3.73556021544853e-05,
      "loss": 0.4582816123962402,
      "memory(GiB)": 70.5,
      "step": 67850,
      "token_acc": 0.8779661016949153,
      "train_speed(iter/s)": 1.448397
    },
    {
      "epoch": 2.9071162332376503,
      "grad_norm": 2.637657642364502,
      "learning_rate": 3.734909124341648e-05,
      "loss": 0.25450663566589354,
      "memory(GiB)": 70.5,
      "step": 67855,
      "token_acc": 0.9529411764705882,
      "train_speed(iter/s)": 1.448399
    },
    {
      "epoch": 2.9073304485668996,
      "grad_norm": 4.926001071929932,
      "learning_rate": 3.734258056153074e-05,
      "loss": 0.6502505779266358,
      "memory(GiB)": 70.5,
      "step": 67860,
      "token_acc": 0.8592375366568915,
      "train_speed(iter/s)": 1.448415
    },
    {
      "epoch": 2.9075446638961484,
      "grad_norm": 2.654332160949707,
      "learning_rate": 3.7336070108946016e-05,
      "loss": 0.39586827754974363,
      "memory(GiB)": 70.5,
      "step": 67865,
      "token_acc": 0.9253246753246753,
      "train_speed(iter/s)": 1.448418
    },
    {
      "epoch": 2.907758879225397,
      "grad_norm": 4.348986625671387,
      "learning_rate": 3.732955988578027e-05,
      "loss": 0.37709980010986327,
      "memory(GiB)": 70.5,
      "step": 67870,
      "token_acc": 0.908745247148289,
      "train_speed(iter/s)": 1.448436
    },
    {
      "epoch": 2.9079730945546465,
      "grad_norm": 3.001940965652466,
      "learning_rate": 3.732304989215143e-05,
      "loss": 0.4826672554016113,
      "memory(GiB)": 70.5,
      "step": 67875,
      "token_acc": 0.9035369774919614,
      "train_speed(iter/s)": 1.44845
    },
    {
      "epoch": 2.9081873098838953,
      "grad_norm": 7.137911319732666,
      "learning_rate": 3.731654012817743e-05,
      "loss": 0.6612221240997315,
      "memory(GiB)": 70.5,
      "step": 67880,
      "token_acc": 0.8591065292096219,
      "train_speed(iter/s)": 1.448461
    },
    {
      "epoch": 2.908401525213144,
      "grad_norm": 1.7334749698638916,
      "learning_rate": 3.7310030593976205e-05,
      "loss": 0.45337648391723634,
      "memory(GiB)": 70.5,
      "step": 67885,
      "token_acc": 0.9017543859649123,
      "train_speed(iter/s)": 1.44847
    },
    {
      "epoch": 2.9086157405423934,
      "grad_norm": 1.9932074546813965,
      "learning_rate": 3.730352128966567e-05,
      "loss": 0.4890146255493164,
      "memory(GiB)": 70.5,
      "step": 67890,
      "token_acc": 0.8933333333333333,
      "train_speed(iter/s)": 1.448466
    },
    {
      "epoch": 2.908829955871642,
      "grad_norm": 7.451509475708008,
      "learning_rate": 3.7297012215363756e-05,
      "loss": 0.3733770132064819,
      "memory(GiB)": 70.5,
      "step": 67895,
      "token_acc": 0.9094202898550725,
      "train_speed(iter/s)": 1.448471
    },
    {
      "epoch": 2.909044171200891,
      "grad_norm": 6.76476526260376,
      "learning_rate": 3.7290503371188404e-05,
      "loss": 0.7234157085418701,
      "memory(GiB)": 70.5,
      "step": 67900,
      "token_acc": 0.8599348534201955,
      "train_speed(iter/s)": 1.448482
    },
    {
      "epoch": 2.9092583865301402,
      "grad_norm": 3.769362688064575,
      "learning_rate": 3.72839947572575e-05,
      "loss": 0.3374791145324707,
      "memory(GiB)": 70.5,
      "step": 67905,
      "token_acc": 0.94,
      "train_speed(iter/s)": 1.448483
    },
    {
      "epoch": 2.909472601859389,
      "grad_norm": 1.3254145383834839,
      "learning_rate": 3.727748637368895e-05,
      "loss": 0.11239835023880004,
      "memory(GiB)": 70.5,
      "step": 67910,
      "token_acc": 0.9763513513513513,
      "train_speed(iter/s)": 1.448487
    },
    {
      "epoch": 2.909686817188638,
      "grad_norm": 2.117814302444458,
      "learning_rate": 3.727097822060068e-05,
      "loss": 0.4842940330505371,
      "memory(GiB)": 70.5,
      "step": 67915,
      "token_acc": 0.9037037037037037,
      "train_speed(iter/s)": 1.448484
    },
    {
      "epoch": 2.909901032517887,
      "grad_norm": 2.4196674823760986,
      "learning_rate": 3.7264470298110576e-05,
      "loss": 0.1897873878479004,
      "memory(GiB)": 70.5,
      "step": 67920,
      "token_acc": 0.9554794520547946,
      "train_speed(iter/s)": 1.448482
    },
    {
      "epoch": 2.910115247847136,
      "grad_norm": 3.2198212146759033,
      "learning_rate": 3.725796260633653e-05,
      "loss": 0.3758732318878174,
      "memory(GiB)": 70.5,
      "step": 67925,
      "token_acc": 0.9326599326599326,
      "train_speed(iter/s)": 1.448484
    },
    {
      "epoch": 2.9103294631763847,
      "grad_norm": 4.233128070831299,
      "learning_rate": 3.725145514539646e-05,
      "loss": 0.32414045333862307,
      "memory(GiB)": 70.5,
      "step": 67930,
      "token_acc": 0.9283154121863799,
      "train_speed(iter/s)": 1.44849
    },
    {
      "epoch": 2.910543678505634,
      "grad_norm": 3.342904806137085,
      "learning_rate": 3.724494791540823e-05,
      "loss": 0.45610871315002444,
      "memory(GiB)": 70.5,
      "step": 67935,
      "token_acc": 0.90234375,
      "train_speed(iter/s)": 1.448487
    },
    {
      "epoch": 2.910757893834883,
      "grad_norm": 8.65498161315918,
      "learning_rate": 3.723844091648974e-05,
      "loss": 0.5506688594818115,
      "memory(GiB)": 70.5,
      "step": 67940,
      "token_acc": 0.8673835125448028,
      "train_speed(iter/s)": 1.448486
    },
    {
      "epoch": 2.9109721091641316,
      "grad_norm": 5.689695358276367,
      "learning_rate": 3.7231934148758865e-05,
      "loss": 0.2860711097717285,
      "memory(GiB)": 70.5,
      "step": 67945,
      "token_acc": 0.9423868312757202,
      "train_speed(iter/s)": 1.448493
    },
    {
      "epoch": 2.911186324493381,
      "grad_norm": 2.7540626525878906,
      "learning_rate": 3.7225427612333465e-05,
      "loss": 0.4624819278717041,
      "memory(GiB)": 70.5,
      "step": 67950,
      "token_acc": 0.9173553719008265,
      "train_speed(iter/s)": 1.448507
    },
    {
      "epoch": 2.9114005398226297,
      "grad_norm": 0.1807931810617447,
      "learning_rate": 3.7218921307331446e-05,
      "loss": 0.2738448143005371,
      "memory(GiB)": 70.5,
      "step": 67955,
      "token_acc": 0.9475524475524476,
      "train_speed(iter/s)": 1.44851
    },
    {
      "epoch": 2.9116147551518785,
      "grad_norm": 1.9033808708190918,
      "learning_rate": 3.7212415233870646e-05,
      "loss": 0.2882621049880981,
      "memory(GiB)": 70.5,
      "step": 67960,
      "token_acc": 0.9314079422382672,
      "train_speed(iter/s)": 1.448513
    },
    {
      "epoch": 2.9118289704811278,
      "grad_norm": 0.2934836745262146,
      "learning_rate": 3.7205909392068926e-05,
      "loss": 0.23726367950439453,
      "memory(GiB)": 70.5,
      "step": 67965,
      "token_acc": 0.9450867052023122,
      "train_speed(iter/s)": 1.448516
    },
    {
      "epoch": 2.9120431858103766,
      "grad_norm": 5.200509071350098,
      "learning_rate": 3.719940378204417e-05,
      "loss": 0.6000066280364991,
      "memory(GiB)": 70.5,
      "step": 67970,
      "token_acc": 0.8956521739130435,
      "train_speed(iter/s)": 1.448533
    },
    {
      "epoch": 2.9122574011396254,
      "grad_norm": 2.7145328521728516,
      "learning_rate": 3.7192898403914236e-05,
      "loss": 0.43511233329772947,
      "memory(GiB)": 70.5,
      "step": 67975,
      "token_acc": 0.9102990033222591,
      "train_speed(iter/s)": 1.44855
    },
    {
      "epoch": 2.9124716164688746,
      "grad_norm": 0.42174267768859863,
      "learning_rate": 3.718639325779696e-05,
      "loss": 0.3524658679962158,
      "memory(GiB)": 70.5,
      "step": 67980,
      "token_acc": 0.9366197183098591,
      "train_speed(iter/s)": 1.448547
    },
    {
      "epoch": 2.9126858317981235,
      "grad_norm": 5.464214324951172,
      "learning_rate": 3.717988834381017e-05,
      "loss": 0.44236130714416505,
      "memory(GiB)": 70.5,
      "step": 67985,
      "token_acc": 0.9154929577464789,
      "train_speed(iter/s)": 1.448548
    },
    {
      "epoch": 2.9129000471273723,
      "grad_norm": 3.097761869430542,
      "learning_rate": 3.717338366207175e-05,
      "loss": 0.549461841583252,
      "memory(GiB)": 70.5,
      "step": 67990,
      "token_acc": 0.8925925925925926,
      "train_speed(iter/s)": 1.448565
    },
    {
      "epoch": 2.9131142624566215,
      "grad_norm": 3.605491876602173,
      "learning_rate": 3.71668792126995e-05,
      "loss": 0.6798386096954345,
      "memory(GiB)": 70.5,
      "step": 67995,
      "token_acc": 0.8355704697986577,
      "train_speed(iter/s)": 1.448561
    },
    {
      "epoch": 2.9133284777858703,
      "grad_norm": 2.5156283378601074,
      "learning_rate": 3.716037499581129e-05,
      "loss": 0.6109892368316651,
      "memory(GiB)": 70.5,
      "step": 68000,
      "token_acc": 0.8719723183391004,
      "train_speed(iter/s)": 1.448565
    },
    {
      "epoch": 2.9133284777858703,
      "eval_loss": 2.5067713260650635,
      "eval_runtime": 11.9646,
      "eval_samples_per_second": 8.358,
      "eval_steps_per_second": 8.358,
      "eval_token_acc": 0.4492131616595136,
      "step": 68000
    },
    {
      "epoch": 2.913542693115119,
      "grad_norm": 3.0858805179595947,
      "learning_rate": 3.7153871011524924e-05,
      "loss": 0.35081164836883544,
      "memory(GiB)": 70.5,
      "step": 68005,
      "token_acc": 0.5896414342629482,
      "train_speed(iter/s)": 1.448166
    },
    {
      "epoch": 2.9137569084443684,
      "grad_norm": 3.322232723236084,
      "learning_rate": 3.714736725995823e-05,
      "loss": 0.31016275882720945,
      "memory(GiB)": 70.5,
      "step": 68010,
      "token_acc": 0.9290780141843972,
      "train_speed(iter/s)": 1.448189
    },
    {
      "epoch": 2.9139711237736172,
      "grad_norm": 2.6821789741516113,
      "learning_rate": 3.714086374122904e-05,
      "loss": 0.4240316867828369,
      "memory(GiB)": 70.5,
      "step": 68015,
      "token_acc": 0.9169960474308301,
      "train_speed(iter/s)": 1.44819
    },
    {
      "epoch": 2.914185339102866,
      "grad_norm": 2.791144609451294,
      "learning_rate": 3.713436045545518e-05,
      "loss": 0.5160602569580078,
      "memory(GiB)": 70.5,
      "step": 68020,
      "token_acc": 0.8896551724137931,
      "train_speed(iter/s)": 1.448208
    },
    {
      "epoch": 2.9143995544321153,
      "grad_norm": 2.0545568466186523,
      "learning_rate": 3.712785740275442e-05,
      "loss": 0.44081816673278806,
      "memory(GiB)": 70.5,
      "step": 68025,
      "token_acc": 0.9055944055944056,
      "train_speed(iter/s)": 1.448213
    },
    {
      "epoch": 2.914613769761364,
      "grad_norm": 1.9982486963272095,
      "learning_rate": 3.7121354583244615e-05,
      "loss": 0.30972259044647216,
      "memory(GiB)": 70.5,
      "step": 68030,
      "token_acc": 0.9385665529010239,
      "train_speed(iter/s)": 1.448216
    },
    {
      "epoch": 2.9148279850906134,
      "grad_norm": 4.46485710144043,
      "learning_rate": 3.711485199704353e-05,
      "loss": 0.5211190223693848,
      "memory(GiB)": 70.5,
      "step": 68035,
      "token_acc": 0.8876404494382022,
      "train_speed(iter/s)": 1.448234
    },
    {
      "epoch": 2.915042200419862,
      "grad_norm": 1.8860366344451904,
      "learning_rate": 3.710834964426901e-05,
      "loss": 0.24091558456420897,
      "memory(GiB)": 70.5,
      "step": 68040,
      "token_acc": 0.9455128205128205,
      "train_speed(iter/s)": 1.44825
    },
    {
      "epoch": 2.915256415749111,
      "grad_norm": 2.915290117263794,
      "learning_rate": 3.710184752503883e-05,
      "loss": 0.25520992279052734,
      "memory(GiB)": 70.5,
      "step": 68045,
      "token_acc": 0.9285714285714286,
      "train_speed(iter/s)": 1.448257
    },
    {
      "epoch": 2.9154706310783602,
      "grad_norm": 4.466165065765381,
      "learning_rate": 3.709534563947078e-05,
      "loss": 0.20879440307617186,
      "memory(GiB)": 70.5,
      "step": 68050,
      "token_acc": 0.9466192170818505,
      "train_speed(iter/s)": 1.448258
    },
    {
      "epoch": 2.915684846407609,
      "grad_norm": 3.282010793685913,
      "learning_rate": 3.708884398768265e-05,
      "loss": 0.34175050258636475,
      "memory(GiB)": 70.5,
      "step": 68055,
      "token_acc": 0.9014598540145985,
      "train_speed(iter/s)": 1.44826
    },
    {
      "epoch": 2.915899061736858,
      "grad_norm": 2.947662353515625,
      "learning_rate": 3.708234256979223e-05,
      "loss": 0.40434832572937013,
      "memory(GiB)": 70.5,
      "step": 68060,
      "token_acc": 0.9145569620253164,
      "train_speed(iter/s)": 1.448275
    },
    {
      "epoch": 2.916113277066107,
      "grad_norm": 0.4763175845146179,
      "learning_rate": 3.7075841385917285e-05,
      "loss": 0.3846880435943604,
      "memory(GiB)": 70.5,
      "step": 68065,
      "token_acc": 0.9182389937106918,
      "train_speed(iter/s)": 1.448289
    },
    {
      "epoch": 2.916327492395356,
      "grad_norm": 1.2338873147964478,
      "learning_rate": 3.706934043617559e-05,
      "loss": 0.3090908765792847,
      "memory(GiB)": 70.5,
      "step": 68070,
      "token_acc": 0.9163879598662207,
      "train_speed(iter/s)": 1.448289
    },
    {
      "epoch": 2.9165417077246047,
      "grad_norm": 2.9462060928344727,
      "learning_rate": 3.7062839720684926e-05,
      "loss": 0.37055678367614747,
      "memory(GiB)": 70.5,
      "step": 68075,
      "token_acc": 0.9143835616438356,
      "train_speed(iter/s)": 1.448291
    },
    {
      "epoch": 2.916755923053854,
      "grad_norm": 2.0588319301605225,
      "learning_rate": 3.705633923956306e-05,
      "loss": 0.5929404258728027,
      "memory(GiB)": 70.5,
      "step": 68080,
      "token_acc": 0.8724137931034482,
      "train_speed(iter/s)": 1.448293
    },
    {
      "epoch": 2.916970138383103,
      "grad_norm": 0.6783577799797058,
      "learning_rate": 3.7049838992927755e-05,
      "loss": 0.35113158226013186,
      "memory(GiB)": 70.5,
      "step": 68085,
      "token_acc": 0.9188191881918819,
      "train_speed(iter/s)": 1.4483
    },
    {
      "epoch": 2.9171843537123516,
      "grad_norm": 2.121365547180176,
      "learning_rate": 3.704333898089676e-05,
      "loss": 0.15848034620285034,
      "memory(GiB)": 70.5,
      "step": 68090,
      "token_acc": 0.9638009049773756,
      "train_speed(iter/s)": 1.448327
    },
    {
      "epoch": 2.917398569041601,
      "grad_norm": 3.0275721549987793,
      "learning_rate": 3.703683920358783e-05,
      "loss": 0.4769552707672119,
      "memory(GiB)": 70.5,
      "step": 68095,
      "token_acc": 0.9166666666666666,
      "train_speed(iter/s)": 1.448331
    },
    {
      "epoch": 2.9176127843708497,
      "grad_norm": 6.088558673858643,
      "learning_rate": 3.7030339661118726e-05,
      "loss": 0.7109987735748291,
      "memory(GiB)": 70.5,
      "step": 68100,
      "token_acc": 0.8543689320388349,
      "train_speed(iter/s)": 1.448327
    },
    {
      "epoch": 2.9178269997000985,
      "grad_norm": 2.933516263961792,
      "learning_rate": 3.7023840353607184e-05,
      "loss": 0.3469375133514404,
      "memory(GiB)": 70.5,
      "step": 68105,
      "token_acc": 0.9324324324324325,
      "train_speed(iter/s)": 1.448326
    },
    {
      "epoch": 2.9180412150293478,
      "grad_norm": 2.6551690101623535,
      "learning_rate": 3.701734128117093e-05,
      "loss": 0.400360107421875,
      "memory(GiB)": 70.5,
      "step": 68110,
      "token_acc": 0.9161490683229814,
      "train_speed(iter/s)": 1.448333
    },
    {
      "epoch": 2.9182554303585966,
      "grad_norm": 0.9366979598999023,
      "learning_rate": 3.701084244392773e-05,
      "loss": 0.33584506511688234,
      "memory(GiB)": 70.5,
      "step": 68115,
      "token_acc": 0.9069767441860465,
      "train_speed(iter/s)": 1.448346
    },
    {
      "epoch": 2.9184696456878454,
      "grad_norm": 6.327762603759766,
      "learning_rate": 3.70043438419953e-05,
      "loss": 0.5151030063629151,
      "memory(GiB)": 70.5,
      "step": 68120,
      "token_acc": 0.8919753086419753,
      "train_speed(iter/s)": 1.448358
    },
    {
      "epoch": 2.9186838610170946,
      "grad_norm": 3.785200357437134,
      "learning_rate": 3.699784547549139e-05,
      "loss": 0.4449461460113525,
      "memory(GiB)": 70.5,
      "step": 68125,
      "token_acc": 0.9022801302931596,
      "train_speed(iter/s)": 1.448365
    },
    {
      "epoch": 2.9188980763463435,
      "grad_norm": 3.1271004676818848,
      "learning_rate": 3.699134734453369e-05,
      "loss": 0.1811869740486145,
      "memory(GiB)": 70.5,
      "step": 68130,
      "token_acc": 0.9589905362776026,
      "train_speed(iter/s)": 1.448358
    },
    {
      "epoch": 2.9191122916755923,
      "grad_norm": 3.26046085357666,
      "learning_rate": 3.698484944923994e-05,
      "loss": 0.27257437705993653,
      "memory(GiB)": 70.5,
      "step": 68135,
      "token_acc": 0.9411764705882353,
      "train_speed(iter/s)": 1.448362
    },
    {
      "epoch": 2.9193265070048415,
      "grad_norm": 2.4315643310546875,
      "learning_rate": 3.697835178972785e-05,
      "loss": 0.5807651042938232,
      "memory(GiB)": 70.5,
      "step": 68140,
      "token_acc": 0.9096989966555183,
      "train_speed(iter/s)": 1.448361
    },
    {
      "epoch": 2.9195407223340903,
      "grad_norm": 8.239988327026367,
      "learning_rate": 3.6971854366115136e-05,
      "loss": 0.17075841426849364,
      "memory(GiB)": 70.5,
      "step": 68145,
      "token_acc": 0.9666666666666667,
      "train_speed(iter/s)": 1.448364
    },
    {
      "epoch": 2.919754937663339,
      "grad_norm": 4.324324607849121,
      "learning_rate": 3.69653571785195e-05,
      "loss": 0.4387547492980957,
      "memory(GiB)": 70.5,
      "step": 68150,
      "token_acc": 0.9166666666666666,
      "train_speed(iter/s)": 1.448367
    },
    {
      "epoch": 2.9199691529925884,
      "grad_norm": 4.253852367401123,
      "learning_rate": 3.695886022705865e-05,
      "loss": 0.6175371170043945,
      "memory(GiB)": 70.5,
      "step": 68155,
      "token_acc": 0.867741935483871,
      "train_speed(iter/s)": 1.448368
    },
    {
      "epoch": 2.9201833683218372,
      "grad_norm": 1.2673723697662354,
      "learning_rate": 3.6952363511850274e-05,
      "loss": 0.3210650205612183,
      "memory(GiB)": 70.5,
      "step": 68160,
      "token_acc": 0.932,
      "train_speed(iter/s)": 1.448381
    },
    {
      "epoch": 2.920397583651086,
      "grad_norm": 3.2401962280273438,
      "learning_rate": 3.6945867033012084e-05,
      "loss": 0.4155735969543457,
      "memory(GiB)": 70.5,
      "step": 68165,
      "token_acc": 0.9181494661921709,
      "train_speed(iter/s)": 1.448382
    },
    {
      "epoch": 2.9206117989803353,
      "grad_norm": 3.02972149848938,
      "learning_rate": 3.6939370790661745e-05,
      "loss": 0.48031005859375,
      "memory(GiB)": 70.5,
      "step": 68170,
      "token_acc": 0.8956228956228957,
      "train_speed(iter/s)": 1.448384
    },
    {
      "epoch": 2.920826014309584,
      "grad_norm": 1.1650118827819824,
      "learning_rate": 3.693287478491696e-05,
      "loss": 0.44468121528625487,
      "memory(GiB)": 70.5,
      "step": 68175,
      "token_acc": 0.9047619047619048,
      "train_speed(iter/s)": 1.448399
    },
    {
      "epoch": 2.921040229638833,
      "grad_norm": 2.3010647296905518,
      "learning_rate": 3.6926379015895395e-05,
      "loss": 0.19987728595733642,
      "memory(GiB)": 70.5,
      "step": 68180,
      "token_acc": 0.9456869009584664,
      "train_speed(iter/s)": 1.448401
    },
    {
      "epoch": 2.921254444968082,
      "grad_norm": 3.488132953643799,
      "learning_rate": 3.691988348371473e-05,
      "loss": 0.2535308122634888,
      "memory(GiB)": 70.5,
      "step": 68185,
      "token_acc": 0.9375,
      "train_speed(iter/s)": 1.448402
    },
    {
      "epoch": 2.921468660297331,
      "grad_norm": 3.627194404602051,
      "learning_rate": 3.691338818849268e-05,
      "loss": 0.31006181240081787,
      "memory(GiB)": 70.5,
      "step": 68190,
      "token_acc": 0.9319727891156463,
      "train_speed(iter/s)": 1.448407
    },
    {
      "epoch": 2.92168287562658,
      "grad_norm": 2.417560577392578,
      "learning_rate": 3.690689313034686e-05,
      "loss": 0.3683509826660156,
      "memory(GiB)": 70.5,
      "step": 68195,
      "token_acc": 0.9202279202279202,
      "train_speed(iter/s)": 1.448412
    },
    {
      "epoch": 2.921897090955829,
      "grad_norm": 2.7517032623291016,
      "learning_rate": 3.690039830939496e-05,
      "loss": 0.2483459234237671,
      "memory(GiB)": 70.5,
      "step": 68200,
      "token_acc": 0.9418181818181818,
      "train_speed(iter/s)": 1.448425
    },
    {
      "epoch": 2.922111306285078,
      "grad_norm": 1.6790443658828735,
      "learning_rate": 3.689390372575463e-05,
      "loss": 0.20403244495391845,
      "memory(GiB)": 70.5,
      "step": 68205,
      "token_acc": 0.9453125,
      "train_speed(iter/s)": 1.448427
    },
    {
      "epoch": 2.9223255216143267,
      "grad_norm": 3.3660871982574463,
      "learning_rate": 3.688740937954354e-05,
      "loss": 0.22735223770141602,
      "memory(GiB)": 70.5,
      "step": 68210,
      "token_acc": 0.9527027027027027,
      "train_speed(iter/s)": 1.448433
    },
    {
      "epoch": 2.922539736943576,
      "grad_norm": 4.074370861053467,
      "learning_rate": 3.6880915270879316e-05,
      "loss": 0.455535888671875,
      "memory(GiB)": 70.5,
      "step": 68215,
      "token_acc": 0.8917910447761194,
      "train_speed(iter/s)": 1.448434
    },
    {
      "epoch": 2.9227539522728248,
      "grad_norm": 1.162590742111206,
      "learning_rate": 3.6874421399879624e-05,
      "loss": 0.39028220176696776,
      "memory(GiB)": 70.5,
      "step": 68220,
      "token_acc": 0.9216417910447762,
      "train_speed(iter/s)": 1.44844
    },
    {
      "epoch": 2.9229681676020736,
      "grad_norm": 2.2566428184509277,
      "learning_rate": 3.686792776666209e-05,
      "loss": 0.4559317111968994,
      "memory(GiB)": 70.5,
      "step": 68225,
      "token_acc": 0.8983050847457628,
      "train_speed(iter/s)": 1.44845
    },
    {
      "epoch": 2.923182382931323,
      "grad_norm": 4.168013095855713,
      "learning_rate": 3.686143437134438e-05,
      "loss": 0.45693159103393555,
      "memory(GiB)": 70.5,
      "step": 68230,
      "token_acc": 0.8941605839416058,
      "train_speed(iter/s)": 1.448455
    },
    {
      "epoch": 2.9233965982605716,
      "grad_norm": 6.864307880401611,
      "learning_rate": 3.6854941214044105e-05,
      "loss": 0.5409673690795899,
      "memory(GiB)": 70.5,
      "step": 68235,
      "token_acc": 0.8490566037735849,
      "train_speed(iter/s)": 1.448459
    },
    {
      "epoch": 2.9236108135898204,
      "grad_norm": 3.3926374912261963,
      "learning_rate": 3.68484482948789e-05,
      "loss": 0.30749287605285647,
      "memory(GiB)": 70.5,
      "step": 68240,
      "token_acc": 0.9217391304347826,
      "train_speed(iter/s)": 1.448464
    },
    {
      "epoch": 2.9238250289190697,
      "grad_norm": 2.5674307346343994,
      "learning_rate": 3.684195561396639e-05,
      "loss": 0.37383835315704345,
      "memory(GiB)": 70.5,
      "step": 68245,
      "token_acc": 0.900398406374502,
      "train_speed(iter/s)": 1.448465
    },
    {
      "epoch": 2.9240392442483185,
      "grad_norm": 2.6016342639923096,
      "learning_rate": 3.6835463171424204e-05,
      "loss": 0.36697371006011964,
      "memory(GiB)": 70.5,
      "step": 68250,
      "token_acc": 0.9146757679180887,
      "train_speed(iter/s)": 1.448471
    },
    {
      "epoch": 2.9242534595775673,
      "grad_norm": 3.0437285900115967,
      "learning_rate": 3.682897096736994e-05,
      "loss": 0.42805495262146,
      "memory(GiB)": 70.5,
      "step": 68255,
      "token_acc": 0.9273255813953488,
      "train_speed(iter/s)": 1.44847
    },
    {
      "epoch": 2.9244676749068166,
      "grad_norm": 4.621859550476074,
      "learning_rate": 3.682247900192121e-05,
      "loss": 0.5005968093872071,
      "memory(GiB)": 70.5,
      "step": 68260,
      "token_acc": 0.8931623931623932,
      "train_speed(iter/s)": 1.44847
    },
    {
      "epoch": 2.9246818902360654,
      "grad_norm": 1.861860990524292,
      "learning_rate": 3.6815987275195664e-05,
      "loss": 0.2754696846008301,
      "memory(GiB)": 70.5,
      "step": 68265,
      "token_acc": 0.9419795221843004,
      "train_speed(iter/s)": 1.448475
    },
    {
      "epoch": 2.924896105565314,
      "grad_norm": 6.835525035858154,
      "learning_rate": 3.680949578731086e-05,
      "loss": 0.39803328514099123,
      "memory(GiB)": 70.5,
      "step": 68270,
      "token_acc": 0.9064516129032258,
      "train_speed(iter/s)": 1.448477
    },
    {
      "epoch": 2.9251103208945635,
      "grad_norm": 4.619340419769287,
      "learning_rate": 3.6803004538384425e-05,
      "loss": 0.40099177360534666,
      "memory(GiB)": 70.5,
      "step": 68275,
      "token_acc": 0.9154518950437318,
      "train_speed(iter/s)": 1.448482
    },
    {
      "epoch": 2.9253245362238123,
      "grad_norm": 2.71587872505188,
      "learning_rate": 3.679651352853394e-05,
      "loss": 0.29263863563537595,
      "memory(GiB)": 70.5,
      "step": 68280,
      "token_acc": 0.9351535836177475,
      "train_speed(iter/s)": 1.448485
    },
    {
      "epoch": 2.925538751553061,
      "grad_norm": 2.82327938079834,
      "learning_rate": 3.679002275787698e-05,
      "loss": 0.4698473453521729,
      "memory(GiB)": 70.5,
      "step": 68285,
      "token_acc": 0.9015873015873016,
      "train_speed(iter/s)": 1.448483
    },
    {
      "epoch": 2.9257529668823103,
      "grad_norm": 5.4098005294799805,
      "learning_rate": 3.678353222653117e-05,
      "loss": 0.5389093399047852,
      "memory(GiB)": 70.5,
      "step": 68290,
      "token_acc": 0.8881987577639752,
      "train_speed(iter/s)": 1.448495
    },
    {
      "epoch": 2.925967182211559,
      "grad_norm": 2.578627109527588,
      "learning_rate": 3.6777041934614076e-05,
      "loss": 0.2834716796875,
      "memory(GiB)": 70.5,
      "step": 68295,
      "token_acc": 0.9233226837060703,
      "train_speed(iter/s)": 1.448512
    },
    {
      "epoch": 2.926181397540808,
      "grad_norm": 4.402219772338867,
      "learning_rate": 3.6770551882243256e-05,
      "loss": 0.4915529727935791,
      "memory(GiB)": 70.5,
      "step": 68300,
      "token_acc": 0.9078947368421053,
      "train_speed(iter/s)": 1.448515
    },
    {
      "epoch": 2.9263956128700572,
      "grad_norm": 2.6236956119537354,
      "learning_rate": 3.676406206953631e-05,
      "loss": 0.5410245895385742,
      "memory(GiB)": 70.5,
      "step": 68305,
      "token_acc": 0.8814102564102564,
      "train_speed(iter/s)": 1.448533
    },
    {
      "epoch": 2.926609828199306,
      "grad_norm": 0.33251503109931946,
      "learning_rate": 3.6757572496610794e-05,
      "loss": 0.15952955484390258,
      "memory(GiB)": 70.5,
      "step": 68310,
      "token_acc": 0.9601328903654485,
      "train_speed(iter/s)": 1.448536
    },
    {
      "epoch": 2.926824043528555,
      "grad_norm": 0.9630196690559387,
      "learning_rate": 3.675108316358426e-05,
      "loss": 0.20551471710205077,
      "memory(GiB)": 70.5,
      "step": 68315,
      "token_acc": 0.9566787003610109,
      "train_speed(iter/s)": 1.448538
    },
    {
      "epoch": 2.927038258857804,
      "grad_norm": 0.7640734314918518,
      "learning_rate": 3.67445940705743e-05,
      "loss": 0.14705803394317626,
      "memory(GiB)": 70.5,
      "step": 68320,
      "token_acc": 0.9669117647058824,
      "train_speed(iter/s)": 1.448539
    },
    {
      "epoch": 2.927252474187053,
      "grad_norm": 4.500670433044434,
      "learning_rate": 3.673810521769844e-05,
      "loss": 0.7081148147583007,
      "memory(GiB)": 70.5,
      "step": 68325,
      "token_acc": 0.8384146341463414,
      "train_speed(iter/s)": 1.448532
    },
    {
      "epoch": 2.9274666895163017,
      "grad_norm": 4.986722946166992,
      "learning_rate": 3.673161660507426e-05,
      "loss": 0.46341962814331056,
      "memory(GiB)": 70.5,
      "step": 68330,
      "token_acc": 0.9123376623376623,
      "train_speed(iter/s)": 1.448545
    },
    {
      "epoch": 2.927680904845551,
      "grad_norm": 2.5816519260406494,
      "learning_rate": 3.672512823281926e-05,
      "loss": 0.07708157896995545,
      "memory(GiB)": 70.5,
      "step": 68335,
      "token_acc": 0.979757085020243,
      "train_speed(iter/s)": 1.448544
    },
    {
      "epoch": 2.9278951201748,
      "grad_norm": 3.7711267471313477,
      "learning_rate": 3.671864010105105e-05,
      "loss": 0.26838486194610595,
      "memory(GiB)": 70.5,
      "step": 68340,
      "token_acc": 0.9415204678362573,
      "train_speed(iter/s)": 1.448545
    },
    {
      "epoch": 2.9281093355040486,
      "grad_norm": 4.59187650680542,
      "learning_rate": 3.671215220988711e-05,
      "loss": 0.48224630355834963,
      "memory(GiB)": 70.5,
      "step": 68345,
      "token_acc": 0.9013605442176871,
      "train_speed(iter/s)": 1.448563
    },
    {
      "epoch": 2.928323550833298,
      "grad_norm": 1.7187634706497192,
      "learning_rate": 3.670566455944502e-05,
      "loss": 0.4637118339538574,
      "memory(GiB)": 70.5,
      "step": 68350,
      "token_acc": 0.9068100358422939,
      "train_speed(iter/s)": 1.448559
    },
    {
      "epoch": 2.9285377661625467,
      "grad_norm": 3.4699394702911377,
      "learning_rate": 3.6699177149842276e-05,
      "loss": 0.14228726625442506,
      "memory(GiB)": 70.5,
      "step": 68355,
      "token_acc": 0.9703703703703703,
      "train_speed(iter/s)": 1.44856
    },
    {
      "epoch": 2.9287519814917955,
      "grad_norm": 2.999743700027466,
      "learning_rate": 3.669268998119642e-05,
      "loss": 0.5138145446777344,
      "memory(GiB)": 70.5,
      "step": 68360,
      "token_acc": 0.9032258064516129,
      "train_speed(iter/s)": 1.448566
    },
    {
      "epoch": 2.9289661968210448,
      "grad_norm": 2.0485873222351074,
      "learning_rate": 3.668620305362496e-05,
      "loss": 0.36344194412231445,
      "memory(GiB)": 70.5,
      "step": 68365,
      "token_acc": 0.9219858156028369,
      "train_speed(iter/s)": 1.448565
    },
    {
      "epoch": 2.9291804121502936,
      "grad_norm": 2.8810372352600098,
      "learning_rate": 3.667971636724542e-05,
      "loss": 0.4613185405731201,
      "memory(GiB)": 70.5,
      "step": 68370,
      "token_acc": 0.9118541033434651,
      "train_speed(iter/s)": 1.448574
    },
    {
      "epoch": 2.9293946274795424,
      "grad_norm": 3.434542179107666,
      "learning_rate": 3.667322992217532e-05,
      "loss": 0.43770761489868165,
      "memory(GiB)": 70.5,
      "step": 68375,
      "token_acc": 0.930921052631579,
      "train_speed(iter/s)": 1.448579
    },
    {
      "epoch": 2.9296088428087916,
      "grad_norm": 2.588374614715576,
      "learning_rate": 3.666674371853217e-05,
      "loss": 0.13481065034866332,
      "memory(GiB)": 70.5,
      "step": 68380,
      "token_acc": 0.9639344262295082,
      "train_speed(iter/s)": 1.448592
    },
    {
      "epoch": 2.9298230581380404,
      "grad_norm": 5.413761615753174,
      "learning_rate": 3.6660257756433444e-05,
      "loss": 0.30007328987121584,
      "memory(GiB)": 70.5,
      "step": 68385,
      "token_acc": 0.926829268292683,
      "train_speed(iter/s)": 1.448594
    },
    {
      "epoch": 2.9300372734672893,
      "grad_norm": 1.9305607080459595,
      "learning_rate": 3.665377203599668e-05,
      "loss": 0.3986092805862427,
      "memory(GiB)": 70.5,
      "step": 68390,
      "token_acc": 0.913946587537092,
      "train_speed(iter/s)": 1.448593
    },
    {
      "epoch": 2.9302514887965385,
      "grad_norm": 2.479886531829834,
      "learning_rate": 3.664728655733936e-05,
      "loss": 0.32939133644104,
      "memory(GiB)": 70.5,
      "step": 68395,
      "token_acc": 0.9375,
      "train_speed(iter/s)": 1.448608
    },
    {
      "epoch": 2.9304657041257873,
      "grad_norm": 4.745147228240967,
      "learning_rate": 3.664080132057896e-05,
      "loss": 0.3736583709716797,
      "memory(GiB)": 70.5,
      "step": 68400,
      "token_acc": 0.910958904109589,
      "train_speed(iter/s)": 1.448611
    },
    {
      "epoch": 2.930679919455036,
      "grad_norm": 3.278843641281128,
      "learning_rate": 3.6634316325832954e-05,
      "loss": 0.4173441886901855,
      "memory(GiB)": 70.5,
      "step": 68405,
      "token_acc": 0.89568345323741,
      "train_speed(iter/s)": 1.448624
    },
    {
      "epoch": 2.9308941347842854,
      "grad_norm": 1.3406174182891846,
      "learning_rate": 3.662783157321887e-05,
      "loss": 0.11759241819381713,
      "memory(GiB)": 70.5,
      "step": 68410,
      "token_acc": 0.9770491803278688,
      "train_speed(iter/s)": 1.448628
    },
    {
      "epoch": 2.931108350113534,
      "grad_norm": 4.814792633056641,
      "learning_rate": 3.6621347062854164e-05,
      "loss": 0.7160830974578858,
      "memory(GiB)": 70.5,
      "step": 68415,
      "token_acc": 0.8541033434650456,
      "train_speed(iter/s)": 1.448639
    },
    {
      "epoch": 2.931322565442783,
      "grad_norm": 2.636530637741089,
      "learning_rate": 3.661486279485629e-05,
      "loss": 0.36199629306793213,
      "memory(GiB)": 70.5,
      "step": 68420,
      "token_acc": 0.9241379310344827,
      "train_speed(iter/s)": 1.448642
    },
    {
      "epoch": 2.9315367807720323,
      "grad_norm": 3.268195152282715,
      "learning_rate": 3.6608378769342746e-05,
      "loss": 0.4267704486846924,
      "memory(GiB)": 70.5,
      "step": 68425,
      "token_acc": 0.9217687074829932,
      "train_speed(iter/s)": 1.448641
    },
    {
      "epoch": 2.931750996101281,
      "grad_norm": 0.8660794496536255,
      "learning_rate": 3.660189498643097e-05,
      "loss": 0.32707130908966064,
      "memory(GiB)": 70.5,
      "step": 68430,
      "token_acc": 0.9333333333333333,
      "train_speed(iter/s)": 1.448647
    },
    {
      "epoch": 2.93196521143053,
      "grad_norm": 2.926863670349121,
      "learning_rate": 3.659541144623846e-05,
      "loss": 0.42340664863586425,
      "memory(GiB)": 70.5,
      "step": 68435,
      "token_acc": 0.8989169675090253,
      "train_speed(iter/s)": 1.44865
    },
    {
      "epoch": 2.932179426759779,
      "grad_norm": 1.125244140625,
      "learning_rate": 3.658892814888264e-05,
      "loss": 0.2808080196380615,
      "memory(GiB)": 70.5,
      "step": 68440,
      "token_acc": 0.9342105263157895,
      "train_speed(iter/s)": 1.448656
    },
    {
      "epoch": 2.932393642089028,
      "grad_norm": 6.422170162200928,
      "learning_rate": 3.658244509448094e-05,
      "loss": 0.32743282318115235,
      "memory(GiB)": 70.5,
      "step": 68445,
      "token_acc": 0.9122807017543859,
      "train_speed(iter/s)": 1.448668
    },
    {
      "epoch": 2.932607857418277,
      "grad_norm": 1.803343653678894,
      "learning_rate": 3.657596228315086e-05,
      "loss": 0.2865495204925537,
      "memory(GiB)": 70.5,
      "step": 68450,
      "token_acc": 0.9444444444444444,
      "train_speed(iter/s)": 1.448659
    },
    {
      "epoch": 2.932822072747526,
      "grad_norm": 4.360405445098877,
      "learning_rate": 3.656947971500982e-05,
      "loss": 0.38343000411987305,
      "memory(GiB)": 70.5,
      "step": 68455,
      "token_acc": 0.9084249084249084,
      "train_speed(iter/s)": 1.448663
    },
    {
      "epoch": 2.933036288076775,
      "grad_norm": 2.997400999069214,
      "learning_rate": 3.656299739017523e-05,
      "loss": 0.33374016284942626,
      "memory(GiB)": 70.5,
      "step": 68460,
      "token_acc": 0.9341692789968652,
      "train_speed(iter/s)": 1.448664
    },
    {
      "epoch": 2.9332505034060237,
      "grad_norm": 2.0809991359710693,
      "learning_rate": 3.655651530876456e-05,
      "loss": 0.28005595207214357,
      "memory(GiB)": 70.5,
      "step": 68465,
      "token_acc": 0.9198606271777003,
      "train_speed(iter/s)": 1.448659
    },
    {
      "epoch": 2.933464718735273,
      "grad_norm": 3.854039192199707,
      "learning_rate": 3.6550033470895225e-05,
      "loss": 0.23237941265106202,
      "memory(GiB)": 70.5,
      "step": 68470,
      "token_acc": 0.9575163398692811,
      "train_speed(iter/s)": 1.448667
    },
    {
      "epoch": 2.9336789340645217,
      "grad_norm": 4.483768939971924,
      "learning_rate": 3.6543551876684656e-05,
      "loss": 0.41251797676086427,
      "memory(GiB)": 70.5,
      "step": 68475,
      "token_acc": 0.9224806201550387,
      "train_speed(iter/s)": 1.448669
    },
    {
      "epoch": 2.9338931493937705,
      "grad_norm": 4.371690273284912,
      "learning_rate": 3.6537070526250244e-05,
      "loss": 0.49405660629272463,
      "memory(GiB)": 70.5,
      "step": 68480,
      "token_acc": 0.9113475177304965,
      "train_speed(iter/s)": 1.448678
    },
    {
      "epoch": 2.93410736472302,
      "grad_norm": 3.97340989112854,
      "learning_rate": 3.653058941970945e-05,
      "loss": 0.3517828702926636,
      "memory(GiB)": 70.5,
      "step": 68485,
      "token_acc": 0.9156626506024096,
      "train_speed(iter/s)": 1.448678
    },
    {
      "epoch": 2.9343215800522686,
      "grad_norm": 3.8515548706054688,
      "learning_rate": 3.652410855717966e-05,
      "loss": 0.2993659734725952,
      "memory(GiB)": 70.5,
      "step": 68490,
      "token_acc": 0.922077922077922,
      "train_speed(iter/s)": 1.448685
    },
    {
      "epoch": 2.9345357953815174,
      "grad_norm": 1.6249785423278809,
      "learning_rate": 3.651762793877829e-05,
      "loss": 0.31638078689575194,
      "memory(GiB)": 70.5,
      "step": 68495,
      "token_acc": 0.9333333333333333,
      "train_speed(iter/s)": 1.448694
    },
    {
      "epoch": 2.9347500107107667,
      "grad_norm": 1.5625033378601074,
      "learning_rate": 3.6511147564622736e-05,
      "loss": 0.40027151107788084,
      "memory(GiB)": 70.5,
      "step": 68500,
      "token_acc": 0.9190031152647975,
      "train_speed(iter/s)": 1.448701
    },
    {
      "epoch": 2.9347500107107667,
      "eval_loss": 2.4306399822235107,
      "eval_runtime": 11.586,
      "eval_samples_per_second": 8.631,
      "eval_steps_per_second": 8.631,
      "eval_token_acc": 0.46371463714637146,
      "step": 68500
    },
    {
      "epoch": 2.9349642260400155,
      "grad_norm": 5.041499137878418,
      "learning_rate": 3.6504667434830394e-05,
      "loss": 0.30156726837158204,
      "memory(GiB)": 70.5,
      "step": 68505,
      "token_acc": 0.5803489439853077,
      "train_speed(iter/s)": 1.448313
    },
    {
      "epoch": 2.9351784413692643,
      "grad_norm": 0.07346577197313309,
      "learning_rate": 3.649818754951866e-05,
      "loss": 0.16443066596984862,
      "memory(GiB)": 70.5,
      "step": 68510,
      "token_acc": 0.9666666666666667,
      "train_speed(iter/s)": 1.448311
    },
    {
      "epoch": 2.9353926566985136,
      "grad_norm": 2.801046371459961,
      "learning_rate": 3.6491707908804926e-05,
      "loss": 0.2875931978225708,
      "memory(GiB)": 70.5,
      "step": 68515,
      "token_acc": 0.926056338028169,
      "train_speed(iter/s)": 1.448328
    },
    {
      "epoch": 2.9356068720277624,
      "grad_norm": 2.6963918209075928,
      "learning_rate": 3.648522851280658e-05,
      "loss": 0.28492145538330077,
      "memory(GiB)": 70.5,
      "step": 68520,
      "token_acc": 0.9181286549707602,
      "train_speed(iter/s)": 1.448336
    },
    {
      "epoch": 2.935821087357011,
      "grad_norm": 2.537327766418457,
      "learning_rate": 3.6478749361640996e-05,
      "loss": 0.46505441665649416,
      "memory(GiB)": 70.5,
      "step": 68525,
      "token_acc": 0.9233333333333333,
      "train_speed(iter/s)": 1.448342
    },
    {
      "epoch": 2.9360353026862605,
      "grad_norm": 3.044809341430664,
      "learning_rate": 3.647227045542554e-05,
      "loss": 0.317980694770813,
      "memory(GiB)": 70.5,
      "step": 68530,
      "token_acc": 0.9098039215686274,
      "train_speed(iter/s)": 1.44834
    },
    {
      "epoch": 2.9362495180155093,
      "grad_norm": 4.473881721496582,
      "learning_rate": 3.646579179427761e-05,
      "loss": 0.5672770500183105,
      "memory(GiB)": 70.5,
      "step": 68535,
      "token_acc": 0.8778625954198473,
      "train_speed(iter/s)": 1.448359
    },
    {
      "epoch": 2.936463733344758,
      "grad_norm": 1.6647549867630005,
      "learning_rate": 3.6459313378314554e-05,
      "loss": 0.24354891777038573,
      "memory(GiB)": 70.5,
      "step": 68540,
      "token_acc": 0.9397590361445783,
      "train_speed(iter/s)": 1.448359
    },
    {
      "epoch": 2.9366779486740073,
      "grad_norm": 3.8480608463287354,
      "learning_rate": 3.645283520765373e-05,
      "loss": 0.3205977439880371,
      "memory(GiB)": 70.5,
      "step": 68545,
      "token_acc": 0.9338235294117647,
      "train_speed(iter/s)": 1.448362
    },
    {
      "epoch": 2.936892164003256,
      "grad_norm": 4.358080863952637,
      "learning_rate": 3.6446357282412514e-05,
      "loss": 0.40442347526550293,
      "memory(GiB)": 70.5,
      "step": 68550,
      "token_acc": 0.9044368600682594,
      "train_speed(iter/s)": 1.44837
    },
    {
      "epoch": 2.937106379332505,
      "grad_norm": 6.000283718109131,
      "learning_rate": 3.6439879602708224e-05,
      "loss": 0.5772449493408203,
      "memory(GiB)": 70.5,
      "step": 68555,
      "token_acc": 0.8906752411575563,
      "train_speed(iter/s)": 1.448386
    },
    {
      "epoch": 2.937320594661754,
      "grad_norm": 3.178584575653076,
      "learning_rate": 3.643340216865827e-05,
      "loss": 0.3838934421539307,
      "memory(GiB)": 70.5,
      "step": 68560,
      "token_acc": 0.9190140845070423,
      "train_speed(iter/s)": 1.448388
    },
    {
      "epoch": 2.937534809991003,
      "grad_norm": 1.0844451189041138,
      "learning_rate": 3.642692498037994e-05,
      "loss": 0.2605139255523682,
      "memory(GiB)": 70.5,
      "step": 68565,
      "token_acc": 0.946236559139785,
      "train_speed(iter/s)": 1.44839
    },
    {
      "epoch": 2.937749025320252,
      "grad_norm": 0.28696706891059875,
      "learning_rate": 3.642044803799061e-05,
      "loss": 0.5277731418609619,
      "memory(GiB)": 70.5,
      "step": 68570,
      "token_acc": 0.8905775075987842,
      "train_speed(iter/s)": 1.448391
    },
    {
      "epoch": 2.937963240649501,
      "grad_norm": 2.25272536277771,
      "learning_rate": 3.6413971341607596e-05,
      "loss": 0.21955199241638185,
      "memory(GiB)": 70.5,
      "step": 68575,
      "token_acc": 0.9556962025316456,
      "train_speed(iter/s)": 1.448404
    },
    {
      "epoch": 2.93817745597875,
      "grad_norm": 1.1183253526687622,
      "learning_rate": 3.6407494891348244e-05,
      "loss": 0.3089275598526001,
      "memory(GiB)": 70.5,
      "step": 68580,
      "token_acc": 0.9402985074626866,
      "train_speed(iter/s)": 1.448412
    },
    {
      "epoch": 2.9383916713079987,
      "grad_norm": 4.174056529998779,
      "learning_rate": 3.640101868732987e-05,
      "loss": 0.38869051933288573,
      "memory(GiB)": 70.5,
      "step": 68585,
      "token_acc": 0.9178571428571428,
      "train_speed(iter/s)": 1.448427
    },
    {
      "epoch": 2.938605886637248,
      "grad_norm": 3.468385696411133,
      "learning_rate": 3.639454272966979e-05,
      "loss": 0.5762107849121094,
      "memory(GiB)": 70.5,
      "step": 68590,
      "token_acc": 0.8866666666666667,
      "train_speed(iter/s)": 1.44843
    },
    {
      "epoch": 2.938820101966497,
      "grad_norm": 5.445931434631348,
      "learning_rate": 3.6388067018485337e-05,
      "loss": 0.3603563070297241,
      "memory(GiB)": 70.5,
      "step": 68595,
      "token_acc": 0.912621359223301,
      "train_speed(iter/s)": 1.448435
    },
    {
      "epoch": 2.9390343172957456,
      "grad_norm": 3.557446002960205,
      "learning_rate": 3.638159155389383e-05,
      "loss": 0.3657860517501831,
      "memory(GiB)": 70.5,
      "step": 68600,
      "token_acc": 0.9166666666666666,
      "train_speed(iter/s)": 1.448435
    },
    {
      "epoch": 2.939248532624995,
      "grad_norm": 3.7689695358276367,
      "learning_rate": 3.637511633601255e-05,
      "loss": 0.25400547981262206,
      "memory(GiB)": 70.5,
      "step": 68605,
      "token_acc": 0.9201520912547528,
      "train_speed(iter/s)": 1.448445
    },
    {
      "epoch": 2.9394627479542437,
      "grad_norm": 1.9595894813537598,
      "learning_rate": 3.636864136495883e-05,
      "loss": 0.24862475395202638,
      "memory(GiB)": 70.5,
      "step": 68610,
      "token_acc": 0.9504643962848297,
      "train_speed(iter/s)": 1.448453
    },
    {
      "epoch": 2.9396769632834925,
      "grad_norm": 7.789882183074951,
      "learning_rate": 3.636216664084995e-05,
      "loss": 0.34262571334838865,
      "memory(GiB)": 70.5,
      "step": 68615,
      "token_acc": 0.9148148148148149,
      "train_speed(iter/s)": 1.44846
    },
    {
      "epoch": 2.9398911786127417,
      "grad_norm": 4.106037616729736,
      "learning_rate": 3.635569216380322e-05,
      "loss": 0.4171159744262695,
      "memory(GiB)": 70.5,
      "step": 68620,
      "token_acc": 0.9041095890410958,
      "train_speed(iter/s)": 1.448477
    },
    {
      "epoch": 2.9401053939419906,
      "grad_norm": 2.541008949279785,
      "learning_rate": 3.634921793393593e-05,
      "loss": 0.3011286735534668,
      "memory(GiB)": 70.5,
      "step": 68625,
      "token_acc": 0.9238095238095239,
      "train_speed(iter/s)": 1.448493
    },
    {
      "epoch": 2.9403196092712394,
      "grad_norm": 4.17448091506958,
      "learning_rate": 3.634274395136534e-05,
      "loss": 0.29750375747680663,
      "memory(GiB)": 70.5,
      "step": 68630,
      "token_acc": 0.92,
      "train_speed(iter/s)": 1.448495
    },
    {
      "epoch": 2.9405338246004886,
      "grad_norm": 4.048852920532227,
      "learning_rate": 3.633627021620877e-05,
      "loss": 0.3990520238876343,
      "memory(GiB)": 70.5,
      "step": 68635,
      "token_acc": 0.9267515923566879,
      "train_speed(iter/s)": 1.448497
    },
    {
      "epoch": 2.9407480399297374,
      "grad_norm": 3.251354455947876,
      "learning_rate": 3.632979672858349e-05,
      "loss": 0.17404183149337768,
      "memory(GiB)": 70.5,
      "step": 68640,
      "token_acc": 0.9501661129568106,
      "train_speed(iter/s)": 1.448503
    },
    {
      "epoch": 2.9409622552589862,
      "grad_norm": 3.973600387573242,
      "learning_rate": 3.632332348860676e-05,
      "loss": 0.3049734354019165,
      "memory(GiB)": 70.5,
      "step": 68645,
      "token_acc": 0.9362416107382551,
      "train_speed(iter/s)": 1.448506
    },
    {
      "epoch": 2.9411764705882355,
      "grad_norm": 0.38006147742271423,
      "learning_rate": 3.631685049639586e-05,
      "loss": 0.24090261459350587,
      "memory(GiB)": 70.5,
      "step": 68650,
      "token_acc": 0.9448529411764706,
      "train_speed(iter/s)": 1.448511
    },
    {
      "epoch": 2.9413906859174843,
      "grad_norm": 2.792397975921631,
      "learning_rate": 3.6310377752068046e-05,
      "loss": 0.5245539665222168,
      "memory(GiB)": 70.5,
      "step": 68655,
      "token_acc": 0.9009287925696594,
      "train_speed(iter/s)": 1.448517
    },
    {
      "epoch": 2.941604901246733,
      "grad_norm": 2.461583137512207,
      "learning_rate": 3.6303905255740575e-05,
      "loss": 0.22740557193756103,
      "memory(GiB)": 70.5,
      "step": 68660,
      "token_acc": 0.9451476793248945,
      "train_speed(iter/s)": 1.448521
    },
    {
      "epoch": 2.9418191165759824,
      "grad_norm": 4.929706573486328,
      "learning_rate": 3.629743300753072e-05,
      "loss": 0.2850672721862793,
      "memory(GiB)": 70.5,
      "step": 68665,
      "token_acc": 0.9534883720930233,
      "train_speed(iter/s)": 1.448528
    },
    {
      "epoch": 2.942033331905231,
      "grad_norm": 4.031632423400879,
      "learning_rate": 3.629096100755571e-05,
      "loss": 0.2881304740905762,
      "memory(GiB)": 70.5,
      "step": 68670,
      "token_acc": 0.9413489736070382,
      "train_speed(iter/s)": 1.448526
    },
    {
      "epoch": 2.94224754723448,
      "grad_norm": 2.71815824508667,
      "learning_rate": 3.6284489255932805e-05,
      "loss": 0.45978007316589353,
      "memory(GiB)": 70.5,
      "step": 68675,
      "token_acc": 0.9128787878787878,
      "train_speed(iter/s)": 1.448523
    },
    {
      "epoch": 2.9424617625637293,
      "grad_norm": 2.323263168334961,
      "learning_rate": 3.627801775277925e-05,
      "loss": 0.6784826755523682,
      "memory(GiB)": 70.5,
      "step": 68680,
      "token_acc": 0.8781163434903048,
      "train_speed(iter/s)": 1.448522
    },
    {
      "epoch": 2.942675977892978,
      "grad_norm": 3.0083765983581543,
      "learning_rate": 3.627154649821227e-05,
      "loss": 0.4679677486419678,
      "memory(GiB)": 70.5,
      "step": 68685,
      "token_acc": 0.9166666666666666,
      "train_speed(iter/s)": 1.448531
    },
    {
      "epoch": 2.942890193222227,
      "grad_norm": 12.525483131408691,
      "learning_rate": 3.62650754923491e-05,
      "loss": 0.27561798095703127,
      "memory(GiB)": 70.5,
      "step": 68690,
      "token_acc": 0.9271523178807947,
      "train_speed(iter/s)": 1.448535
    },
    {
      "epoch": 2.943104408551476,
      "grad_norm": 5.914331436157227,
      "learning_rate": 3.625860473530698e-05,
      "loss": 0.3809031963348389,
      "memory(GiB)": 70.5,
      "step": 68695,
      "token_acc": 0.9122257053291536,
      "train_speed(iter/s)": 1.448551
    },
    {
      "epoch": 2.943318623880725,
      "grad_norm": 3.049741744995117,
      "learning_rate": 3.62521342272031e-05,
      "loss": 0.39025282859802246,
      "memory(GiB)": 70.5,
      "step": 68700,
      "token_acc": 0.9111111111111111,
      "train_speed(iter/s)": 1.448548
    },
    {
      "epoch": 2.9435328392099738,
      "grad_norm": 2.4266397953033447,
      "learning_rate": 3.624566396815473e-05,
      "loss": 0.26652159690856936,
      "memory(GiB)": 70.5,
      "step": 68705,
      "token_acc": 0.9290780141843972,
      "train_speed(iter/s)": 1.448563
    },
    {
      "epoch": 2.943747054539223,
      "grad_norm": 1.4939494132995605,
      "learning_rate": 3.623919395827905e-05,
      "loss": 0.43891253471374514,
      "memory(GiB)": 70.5,
      "step": 68710,
      "token_acc": 0.9242424242424242,
      "train_speed(iter/s)": 1.448565
    },
    {
      "epoch": 2.943961269868472,
      "grad_norm": 2.8893871307373047,
      "learning_rate": 3.623272419769329e-05,
      "loss": 0.37819409370422363,
      "memory(GiB)": 70.5,
      "step": 68715,
      "token_acc": 0.9333333333333333,
      "train_speed(iter/s)": 1.448567
    },
    {
      "epoch": 2.9441754851977207,
      "grad_norm": 1.089648723602295,
      "learning_rate": 3.622625468651463e-05,
      "loss": 0.38320324420928953,
      "memory(GiB)": 70.5,
      "step": 68720,
      "token_acc": 0.8973384030418251,
      "train_speed(iter/s)": 1.448574
    },
    {
      "epoch": 2.94438970052697,
      "grad_norm": 2.7595102787017822,
      "learning_rate": 3.62197854248603e-05,
      "loss": 0.31622364521026614,
      "memory(GiB)": 70.5,
      "step": 68725,
      "token_acc": 0.9433333333333334,
      "train_speed(iter/s)": 1.448578
    },
    {
      "epoch": 2.9446039158562187,
      "grad_norm": 3.326239585876465,
      "learning_rate": 3.621331641284749e-05,
      "loss": 0.23570401668548585,
      "memory(GiB)": 70.5,
      "step": 68730,
      "token_acc": 0.927710843373494,
      "train_speed(iter/s)": 1.448576
    },
    {
      "epoch": 2.9448181311854675,
      "grad_norm": 3.127066135406494,
      "learning_rate": 3.620684765059337e-05,
      "loss": 0.4141895294189453,
      "memory(GiB)": 70.5,
      "step": 68735,
      "token_acc": 0.9136690647482014,
      "train_speed(iter/s)": 1.448581
    },
    {
      "epoch": 2.945032346514717,
      "grad_norm": 3.7951128482818604,
      "learning_rate": 3.620037913821516e-05,
      "loss": 0.3217073202133179,
      "memory(GiB)": 70.5,
      "step": 68740,
      "token_acc": 0.9389312977099237,
      "train_speed(iter/s)": 1.448588
    },
    {
      "epoch": 2.9452465618439656,
      "grad_norm": 3.649179458618164,
      "learning_rate": 3.619391087583002e-05,
      "loss": 0.3877542972564697,
      "memory(GiB)": 70.5,
      "step": 68745,
      "token_acc": 0.9029850746268657,
      "train_speed(iter/s)": 1.448586
    },
    {
      "epoch": 2.9454607771732144,
      "grad_norm": 1.7651010751724243,
      "learning_rate": 3.618744286355513e-05,
      "loss": 0.29950652122497556,
      "memory(GiB)": 70.5,
      "step": 68750,
      "token_acc": 0.9333333333333333,
      "train_speed(iter/s)": 1.448589
    },
    {
      "epoch": 2.9456749925024637,
      "grad_norm": 2.6232006549835205,
      "learning_rate": 3.618097510150768e-05,
      "loss": 0.35355348587036134,
      "memory(GiB)": 70.5,
      "step": 68755,
      "token_acc": 0.9190283400809717,
      "train_speed(iter/s)": 1.448595
    },
    {
      "epoch": 2.9458892078317125,
      "grad_norm": 1.84345281124115,
      "learning_rate": 3.617450758980482e-05,
      "loss": 0.31662750244140625,
      "memory(GiB)": 70.5,
      "step": 68760,
      "token_acc": 0.9440559440559441,
      "train_speed(iter/s)": 1.448596
    },
    {
      "epoch": 2.9461034231609613,
      "grad_norm": 5.299279689788818,
      "learning_rate": 3.616804032856373e-05,
      "loss": 0.28591227531433105,
      "memory(GiB)": 70.5,
      "step": 68765,
      "token_acc": 0.9416666666666667,
      "train_speed(iter/s)": 1.448598
    },
    {
      "epoch": 2.9463176384902106,
      "grad_norm": 3.476170539855957,
      "learning_rate": 3.6161573317901564e-05,
      "loss": 0.6127137184143067,
      "memory(GiB)": 70.5,
      "step": 68770,
      "token_acc": 0.8733031674208145,
      "train_speed(iter/s)": 1.448605
    },
    {
      "epoch": 2.9465318538194594,
      "grad_norm": 7.341230392456055,
      "learning_rate": 3.6155106557935464e-05,
      "loss": 0.31979777812957766,
      "memory(GiB)": 70.5,
      "step": 68775,
      "token_acc": 0.9437751004016064,
      "train_speed(iter/s)": 1.448611
    },
    {
      "epoch": 2.946746069148708,
      "grad_norm": 1.2902593612670898,
      "learning_rate": 3.6148640048782604e-05,
      "loss": 0.22043471336364745,
      "memory(GiB)": 70.5,
      "step": 68780,
      "token_acc": 0.9588607594936709,
      "train_speed(iter/s)": 1.448619
    },
    {
      "epoch": 2.9469602844779574,
      "grad_norm": 2.1941921710968018,
      "learning_rate": 3.614217379056013e-05,
      "loss": 0.2518929958343506,
      "memory(GiB)": 70.5,
      "step": 68785,
      "token_acc": 0.9442724458204335,
      "train_speed(iter/s)": 1.448624
    },
    {
      "epoch": 2.9471744998072062,
      "grad_norm": 5.964407444000244,
      "learning_rate": 3.6135707783385183e-05,
      "loss": 0.6615216732025146,
      "memory(GiB)": 70.5,
      "step": 68790,
      "token_acc": 0.8819444444444444,
      "train_speed(iter/s)": 1.448632
    },
    {
      "epoch": 2.947388715136455,
      "grad_norm": 2.4202771186828613,
      "learning_rate": 3.6129242027374886e-05,
      "loss": 0.4708219051361084,
      "memory(GiB)": 70.5,
      "step": 68795,
      "token_acc": 0.9122257053291536,
      "train_speed(iter/s)": 1.448629
    },
    {
      "epoch": 2.9476029304657043,
      "grad_norm": 4.040325164794922,
      "learning_rate": 3.6122776522646386e-05,
      "loss": 0.5990802764892578,
      "memory(GiB)": 70.5,
      "step": 68800,
      "token_acc": 0.8662790697674418,
      "train_speed(iter/s)": 1.448628
    },
    {
      "epoch": 2.947817145794953,
      "grad_norm": 3.804215908050537,
      "learning_rate": 3.6116311269316804e-05,
      "loss": 0.49060893058776855,
      "memory(GiB)": 70.5,
      "step": 68805,
      "token_acc": 0.9192708333333334,
      "train_speed(iter/s)": 1.448629
    },
    {
      "epoch": 2.948031361124202,
      "grad_norm": 3.464890480041504,
      "learning_rate": 3.610984626750327e-05,
      "loss": 0.223305606842041,
      "memory(GiB)": 70.5,
      "step": 68810,
      "token_acc": 0.9518518518518518,
      "train_speed(iter/s)": 1.448637
    },
    {
      "epoch": 2.948245576453451,
      "grad_norm": 2.353804349899292,
      "learning_rate": 3.6103381517322905e-05,
      "loss": 0.5646705627441406,
      "memory(GiB)": 70.5,
      "step": 68815,
      "token_acc": 0.8821138211382114,
      "train_speed(iter/s)": 1.448645
    },
    {
      "epoch": 2.9484597917827,
      "grad_norm": 0.1495540291070938,
      "learning_rate": 3.609691701889281e-05,
      "loss": 0.35000569820404054,
      "memory(GiB)": 70.5,
      "step": 68820,
      "token_acc": 0.9429657794676806,
      "train_speed(iter/s)": 1.448649
    },
    {
      "epoch": 2.948674007111949,
      "grad_norm": 0.4471798837184906,
      "learning_rate": 3.6090452772330115e-05,
      "loss": 0.20046374797821045,
      "memory(GiB)": 70.5,
      "step": 68825,
      "token_acc": 0.9606557377049181,
      "train_speed(iter/s)": 1.448668
    },
    {
      "epoch": 2.948888222441198,
      "grad_norm": 2.8004159927368164,
      "learning_rate": 3.6083988777751916e-05,
      "loss": 0.34934267997741697,
      "memory(GiB)": 70.5,
      "step": 68830,
      "token_acc": 0.9287749287749287,
      "train_speed(iter/s)": 1.448672
    },
    {
      "epoch": 2.949102437770447,
      "grad_norm": 6.511341571807861,
      "learning_rate": 3.60775250352753e-05,
      "loss": 0.6652964591979981,
      "memory(GiB)": 70.5,
      "step": 68835,
      "token_acc": 0.8463855421686747,
      "train_speed(iter/s)": 1.448675
    },
    {
      "epoch": 2.9493166530996957,
      "grad_norm": 2.342341423034668,
      "learning_rate": 3.6071061545017395e-05,
      "loss": 0.5122045993804931,
      "memory(GiB)": 70.5,
      "step": 68840,
      "token_acc": 0.8737201365187713,
      "train_speed(iter/s)": 1.448675
    },
    {
      "epoch": 2.949530868428945,
      "grad_norm": 0.843584418296814,
      "learning_rate": 3.6064598307095266e-05,
      "loss": 0.2448648691177368,
      "memory(GiB)": 70.5,
      "step": 68845,
      "token_acc": 0.948905109489051,
      "train_speed(iter/s)": 1.448675
    },
    {
      "epoch": 2.9497450837581938,
      "grad_norm": 4.340083122253418,
      "learning_rate": 3.6058135321625995e-05,
      "loss": 0.3528769493103027,
      "memory(GiB)": 70.5,
      "step": 68850,
      "token_acc": 0.908745247148289,
      "train_speed(iter/s)": 1.448681
    },
    {
      "epoch": 2.9499592990874426,
      "grad_norm": 3.168048143386841,
      "learning_rate": 3.60516725887267e-05,
      "loss": 0.42436957359313965,
      "memory(GiB)": 70.5,
      "step": 68855,
      "token_acc": 0.9033457249070632,
      "train_speed(iter/s)": 1.448697
    },
    {
      "epoch": 2.950173514416692,
      "grad_norm": 1.3541160821914673,
      "learning_rate": 3.604521010851445e-05,
      "loss": 0.4254271984100342,
      "memory(GiB)": 70.5,
      "step": 68860,
      "token_acc": 0.8957528957528957,
      "train_speed(iter/s)": 1.4487
    },
    {
      "epoch": 2.9503877297459407,
      "grad_norm": 3.6646337509155273,
      "learning_rate": 3.60387478811063e-05,
      "loss": 0.3790867805480957,
      "memory(GiB)": 70.5,
      "step": 68865,
      "token_acc": 0.9102564102564102,
      "train_speed(iter/s)": 1.448702
    },
    {
      "epoch": 2.9506019450751895,
      "grad_norm": 4.948216915130615,
      "learning_rate": 3.603228590661933e-05,
      "loss": 0.5552419185638428,
      "memory(GiB)": 70.5,
      "step": 68870,
      "token_acc": 0.85546875,
      "train_speed(iter/s)": 1.448718
    },
    {
      "epoch": 2.9508161604044387,
      "grad_norm": 1.8584794998168945,
      "learning_rate": 3.602582418517061e-05,
      "loss": 0.46191978454589844,
      "memory(GiB)": 70.5,
      "step": 68875,
      "token_acc": 0.8909090909090909,
      "train_speed(iter/s)": 1.448724
    },
    {
      "epoch": 2.9510303757336875,
      "grad_norm": 1.3187328577041626,
      "learning_rate": 3.601936271687718e-05,
      "loss": 0.29245948791503906,
      "memory(GiB)": 70.5,
      "step": 68880,
      "token_acc": 0.928030303030303,
      "train_speed(iter/s)": 1.448729
    },
    {
      "epoch": 2.9512445910629364,
      "grad_norm": 3.1321187019348145,
      "learning_rate": 3.601290150185612e-05,
      "loss": 0.31244540214538574,
      "memory(GiB)": 70.5,
      "step": 68885,
      "token_acc": 0.9243986254295533,
      "train_speed(iter/s)": 1.448728
    },
    {
      "epoch": 2.9514588063921856,
      "grad_norm": 2.070000648498535,
      "learning_rate": 3.6006440540224465e-05,
      "loss": 0.21208245754241944,
      "memory(GiB)": 70.5,
      "step": 68890,
      "token_acc": 0.9478260869565217,
      "train_speed(iter/s)": 1.44873
    },
    {
      "epoch": 2.9516730217214344,
      "grad_norm": 5.03693962097168,
      "learning_rate": 3.599997983209927e-05,
      "loss": 0.38823232650756834,
      "memory(GiB)": 70.5,
      "step": 68895,
      "token_acc": 0.910828025477707,
      "train_speed(iter/s)": 1.448735
    },
    {
      "epoch": 2.9518872370506832,
      "grad_norm": 4.602385520935059,
      "learning_rate": 3.5993519377597576e-05,
      "loss": 0.6718157768249512,
      "memory(GiB)": 70.5,
      "step": 68900,
      "token_acc": 0.8809523809523809,
      "train_speed(iter/s)": 1.448753
    },
    {
      "epoch": 2.9521014523799325,
      "grad_norm": 4.1587114334106445,
      "learning_rate": 3.5987059176836404e-05,
      "loss": 0.2848172664642334,
      "memory(GiB)": 70.5,
      "step": 68905,
      "token_acc": 0.9486301369863014,
      "train_speed(iter/s)": 1.448765
    },
    {
      "epoch": 2.9523156677091813,
      "grad_norm": 2.133251667022705,
      "learning_rate": 3.598059922993282e-05,
      "loss": 0.3321115732192993,
      "memory(GiB)": 70.5,
      "step": 68910,
      "token_acc": 0.9322033898305084,
      "train_speed(iter/s)": 1.448761
    },
    {
      "epoch": 2.95252988303843,
      "grad_norm": 2.8190481662750244,
      "learning_rate": 3.597413953700382e-05,
      "loss": 0.24955480098724364,
      "memory(GiB)": 70.5,
      "step": 68915,
      "token_acc": 0.9466666666666667,
      "train_speed(iter/s)": 1.448776
    },
    {
      "epoch": 2.9527440983676794,
      "grad_norm": 1.7465879917144775,
      "learning_rate": 3.596768009816644e-05,
      "loss": 0.23136765956878663,
      "memory(GiB)": 70.5,
      "step": 68920,
      "token_acc": 0.9467680608365019,
      "train_speed(iter/s)": 1.448788
    },
    {
      "epoch": 2.952958313696928,
      "grad_norm": 3.1468305587768555,
      "learning_rate": 3.5961220913537683e-05,
      "loss": 0.3847119092941284,
      "memory(GiB)": 70.5,
      "step": 68925,
      "token_acc": 0.916083916083916,
      "train_speed(iter/s)": 1.448795
    },
    {
      "epoch": 2.953172529026177,
      "grad_norm": 4.3745436668396,
      "learning_rate": 3.5954761983234595e-05,
      "loss": 0.46385650634765624,
      "memory(GiB)": 70.5,
      "step": 68930,
      "token_acc": 0.9054441260744985,
      "train_speed(iter/s)": 1.448794
    },
    {
      "epoch": 2.9533867443554263,
      "grad_norm": 2.7824900150299072,
      "learning_rate": 3.594830330737417e-05,
      "loss": 0.6395976543426514,
      "memory(GiB)": 70.5,
      "step": 68935,
      "token_acc": 0.8611111111111112,
      "train_speed(iter/s)": 1.448812
    },
    {
      "epoch": 2.953600959684675,
      "grad_norm": 2.4373674392700195,
      "learning_rate": 3.5941844886073416e-05,
      "loss": 0.35182340145111085,
      "memory(GiB)": 70.5,
      "step": 68940,
      "token_acc": 0.9419795221843004,
      "train_speed(iter/s)": 1.448818
    },
    {
      "epoch": 2.953815175013924,
      "grad_norm": 1.664318561553955,
      "learning_rate": 3.5935386719449324e-05,
      "loss": 0.6227609634399414,
      "memory(GiB)": 70.5,
      "step": 68945,
      "token_acc": 0.8754863813229572,
      "train_speed(iter/s)": 1.448834
    },
    {
      "epoch": 2.954029390343173,
      "grad_norm": 1.8290131092071533,
      "learning_rate": 3.5928928807618896e-05,
      "loss": 0.3528812646865845,
      "memory(GiB)": 70.5,
      "step": 68950,
      "token_acc": 0.9146757679180887,
      "train_speed(iter/s)": 1.44884
    },
    {
      "epoch": 2.954243605672422,
      "grad_norm": 1.6828086376190186,
      "learning_rate": 3.592247115069913e-05,
      "loss": 0.47335214614868165,
      "memory(GiB)": 70.5,
      "step": 68955,
      "token_acc": 0.8957528957528957,
      "train_speed(iter/s)": 1.44886
    },
    {
      "epoch": 2.9544578210016708,
      "grad_norm": 4.037561416625977,
      "learning_rate": 3.5916013748807e-05,
      "loss": 0.3100311756134033,
      "memory(GiB)": 70.5,
      "step": 68960,
      "token_acc": 0.9333333333333333,
      "train_speed(iter/s)": 1.448871
    },
    {
      "epoch": 2.95467203633092,
      "grad_norm": 2.2130110263824463,
      "learning_rate": 3.590955660205948e-05,
      "loss": 0.3941420793533325,
      "memory(GiB)": 70.5,
      "step": 68965,
      "token_acc": 0.912621359223301,
      "train_speed(iter/s)": 1.448878
    },
    {
      "epoch": 2.954886251660169,
      "grad_norm": 5.702152252197266,
      "learning_rate": 3.590309971057358e-05,
      "loss": 0.5547599792480469,
      "memory(GiB)": 70.5,
      "step": 68970,
      "token_acc": 0.8829787234042553,
      "train_speed(iter/s)": 1.44888
    },
    {
      "epoch": 2.9551004669894176,
      "grad_norm": 2.7223446369171143,
      "learning_rate": 3.5896643074466246e-05,
      "loss": 0.5236962318420411,
      "memory(GiB)": 70.5,
      "step": 68975,
      "token_acc": 0.8664259927797834,
      "train_speed(iter/s)": 1.448894
    },
    {
      "epoch": 2.955314682318667,
      "grad_norm": 2.3847103118896484,
      "learning_rate": 3.5890186693854444e-05,
      "loss": 0.36154866218566895,
      "memory(GiB)": 70.5,
      "step": 68980,
      "token_acc": 0.919732441471572,
      "train_speed(iter/s)": 1.448894
    },
    {
      "epoch": 2.9555288976479157,
      "grad_norm": 0.33095651865005493,
      "learning_rate": 3.5883730568855156e-05,
      "loss": 0.32874877452850343,
      "memory(GiB)": 70.5,
      "step": 68985,
      "token_acc": 0.9465648854961832,
      "train_speed(iter/s)": 1.448917
    },
    {
      "epoch": 2.9557431129771645,
      "grad_norm": 1.6629760265350342,
      "learning_rate": 3.587727469958532e-05,
      "loss": 0.49701681137084963,
      "memory(GiB)": 70.5,
      "step": 68990,
      "token_acc": 0.9211267605633803,
      "train_speed(iter/s)": 1.44893
    },
    {
      "epoch": 2.955957328306414,
      "grad_norm": 3.6660234928131104,
      "learning_rate": 3.5870819086161913e-05,
      "loss": 0.6729121685028077,
      "memory(GiB)": 70.5,
      "step": 68995,
      "token_acc": 0.8888888888888888,
      "train_speed(iter/s)": 1.448945
    },
    {
      "epoch": 2.9561715436356626,
      "grad_norm": 4.887330532073975,
      "learning_rate": 3.5864363728701855e-05,
      "loss": 0.3406259536743164,
      "memory(GiB)": 70.5,
      "step": 69000,
      "token_acc": 0.9423076923076923,
      "train_speed(iter/s)": 1.448948
    },
    {
      "epoch": 2.9561715436356626,
      "eval_loss": 2.5882532596588135,
      "eval_runtime": 11.0179,
      "eval_samples_per_second": 9.076,
      "eval_steps_per_second": 9.076,
      "eval_token_acc": 0.47955974842767296,
      "step": 69000
    },
    {
      "epoch": 2.9563857589649114,
      "grad_norm": 2.773432970046997,
      "learning_rate": 3.5857908627322124e-05,
      "loss": 0.22473454475402832,
      "memory(GiB)": 70.5,
      "step": 69005,
      "token_acc": 0.646998982706002,
      "train_speed(iter/s)": 1.448591
    },
    {
      "epoch": 2.9565999742941607,
      "grad_norm": 1.8912965059280396,
      "learning_rate": 3.585145378213963e-05,
      "loss": 0.29583988189697263,
      "memory(GiB)": 70.5,
      "step": 69010,
      "token_acc": 0.9191919191919192,
      "train_speed(iter/s)": 1.448593
    },
    {
      "epoch": 2.9568141896234095,
      "grad_norm": 2.3957431316375732,
      "learning_rate": 3.584499919327135e-05,
      "loss": 0.43692784309387206,
      "memory(GiB)": 70.5,
      "step": 69015,
      "token_acc": 0.912621359223301,
      "train_speed(iter/s)": 1.448595
    },
    {
      "epoch": 2.9570284049526583,
      "grad_norm": 1.679940104484558,
      "learning_rate": 3.583854486083417e-05,
      "loss": 0.4783369541168213,
      "memory(GiB)": 70.5,
      "step": 69020,
      "token_acc": 0.8770764119601329,
      "train_speed(iter/s)": 1.448618
    },
    {
      "epoch": 2.9572426202819075,
      "grad_norm": 7.914979457855225,
      "learning_rate": 3.583209078494503e-05,
      "loss": 0.37102856636047366,
      "memory(GiB)": 70.5,
      "step": 69025,
      "token_acc": 0.92,
      "train_speed(iter/s)": 1.448634
    },
    {
      "epoch": 2.9574568356111564,
      "grad_norm": 3.655667543411255,
      "learning_rate": 3.582563696572087e-05,
      "loss": 0.3606879472732544,
      "memory(GiB)": 70.5,
      "step": 69030,
      "token_acc": 0.9209621993127147,
      "train_speed(iter/s)": 1.448631
    },
    {
      "epoch": 2.957671050940405,
      "grad_norm": 5.671210289001465,
      "learning_rate": 3.581918340327858e-05,
      "loss": 0.3778620719909668,
      "memory(GiB)": 70.5,
      "step": 69035,
      "token_acc": 0.922077922077922,
      "train_speed(iter/s)": 1.448635
    },
    {
      "epoch": 2.9578852662696544,
      "grad_norm": 4.2183098793029785,
      "learning_rate": 3.581273009773509e-05,
      "loss": 0.48813672065734864,
      "memory(GiB)": 70.5,
      "step": 69040,
      "token_acc": 0.8843537414965986,
      "train_speed(iter/s)": 1.448651
    },
    {
      "epoch": 2.9580994815989032,
      "grad_norm": 2.683342218399048,
      "learning_rate": 3.5806277049207315e-05,
      "loss": 0.4466232776641846,
      "memory(GiB)": 70.5,
      "step": 69045,
      "token_acc": 0.906896551724138,
      "train_speed(iter/s)": 1.448657
    },
    {
      "epoch": 2.958313696928152,
      "grad_norm": 3.09743332862854,
      "learning_rate": 3.579982425781213e-05,
      "loss": 0.2374246597290039,
      "memory(GiB)": 70.5,
      "step": 69050,
      "token_acc": 0.9601593625498008,
      "train_speed(iter/s)": 1.448663
    },
    {
      "epoch": 2.9585279122574013,
      "grad_norm": 5.110622406005859,
      "learning_rate": 3.579337172366646e-05,
      "loss": 0.4190669536590576,
      "memory(GiB)": 70.5,
      "step": 69055,
      "token_acc": 0.9163879598662207,
      "train_speed(iter/s)": 1.448666
    },
    {
      "epoch": 2.95874212758665,
      "grad_norm": 3.3250021934509277,
      "learning_rate": 3.578691944688719e-05,
      "loss": 0.4164477825164795,
      "memory(GiB)": 70.5,
      "step": 69060,
      "token_acc": 0.9083969465648855,
      "train_speed(iter/s)": 1.448685
    },
    {
      "epoch": 2.958956342915899,
      "grad_norm": 2.5656909942626953,
      "learning_rate": 3.5780467427591194e-05,
      "loss": 0.4286682605743408,
      "memory(GiB)": 70.5,
      "step": 69065,
      "token_acc": 0.9059233449477352,
      "train_speed(iter/s)": 1.448692
    },
    {
      "epoch": 2.959170558245148,
      "grad_norm": 2.684544086456299,
      "learning_rate": 3.577401566589535e-05,
      "loss": 0.3242535352706909,
      "memory(GiB)": 70.5,
      "step": 69070,
      "token_acc": 0.9285714285714286,
      "train_speed(iter/s)": 1.448695
    },
    {
      "epoch": 2.959384773574397,
      "grad_norm": 1.9919320344924927,
      "learning_rate": 3.576756416191659e-05,
      "loss": 0.17568353414535523,
      "memory(GiB)": 70.5,
      "step": 69075,
      "token_acc": 0.9560117302052786,
      "train_speed(iter/s)": 1.448703
    },
    {
      "epoch": 2.959598988903646,
      "grad_norm": 2.9152801036834717,
      "learning_rate": 3.5761112915771756e-05,
      "loss": 0.3437760353088379,
      "memory(GiB)": 70.5,
      "step": 69080,
      "token_acc": 0.9192307692307692,
      "train_speed(iter/s)": 1.448707
    },
    {
      "epoch": 2.959813204232895,
      "grad_norm": 3.5551114082336426,
      "learning_rate": 3.57546619275777e-05,
      "loss": 0.2953130483627319,
      "memory(GiB)": 70.5,
      "step": 69085,
      "token_acc": 0.9385665529010239,
      "train_speed(iter/s)": 1.448714
    },
    {
      "epoch": 2.960027419562144,
      "grad_norm": 1.775273084640503,
      "learning_rate": 3.574821119745133e-05,
      "loss": 0.12572847604751586,
      "memory(GiB)": 70.5,
      "step": 69090,
      "token_acc": 0.966804979253112,
      "train_speed(iter/s)": 1.448718
    },
    {
      "epoch": 2.9602416348913927,
      "grad_norm": 2.5432817935943604,
      "learning_rate": 3.5741760725509464e-05,
      "loss": 0.35720961093902587,
      "memory(GiB)": 70.5,
      "step": 69095,
      "token_acc": 0.9085545722713865,
      "train_speed(iter/s)": 1.448727
    },
    {
      "epoch": 2.960455850220642,
      "grad_norm": 3.6390891075134277,
      "learning_rate": 3.5735310511868994e-05,
      "loss": 0.30710687637329104,
      "memory(GiB)": 70.5,
      "step": 69100,
      "token_acc": 0.9212121212121213,
      "train_speed(iter/s)": 1.448732
    },
    {
      "epoch": 2.9606700655498908,
      "grad_norm": 3.997138261795044,
      "learning_rate": 3.572886055664675e-05,
      "loss": 0.6149721622467041,
      "memory(GiB)": 70.5,
      "step": 69105,
      "token_acc": 0.8797250859106529,
      "train_speed(iter/s)": 1.44875
    },
    {
      "epoch": 2.9608842808791396,
      "grad_norm": 4.747529983520508,
      "learning_rate": 3.5722410859959574e-05,
      "loss": 0.4261322498321533,
      "memory(GiB)": 70.5,
      "step": 69110,
      "token_acc": 0.9010989010989011,
      "train_speed(iter/s)": 1.448771
    },
    {
      "epoch": 2.961098496208389,
      "grad_norm": 3.9227187633514404,
      "learning_rate": 3.571596142192433e-05,
      "loss": 0.4577311992645264,
      "memory(GiB)": 70.5,
      "step": 69115,
      "token_acc": 0.9078947368421053,
      "train_speed(iter/s)": 1.448771
    },
    {
      "epoch": 2.9613127115376376,
      "grad_norm": 0.9685602784156799,
      "learning_rate": 3.570951224265785e-05,
      "loss": 0.6424359798431396,
      "memory(GiB)": 70.5,
      "step": 69120,
      "token_acc": 0.8315789473684211,
      "train_speed(iter/s)": 1.448779
    },
    {
      "epoch": 2.9615269268668865,
      "grad_norm": 2.235456705093384,
      "learning_rate": 3.570306332227694e-05,
      "loss": 0.2714141607284546,
      "memory(GiB)": 70.5,
      "step": 69125,
      "token_acc": 0.9381107491856677,
      "train_speed(iter/s)": 1.448786
    },
    {
      "epoch": 2.9617411421961357,
      "grad_norm": 3.645343542098999,
      "learning_rate": 3.5696614660898465e-05,
      "loss": 0.35677447319030764,
      "memory(GiB)": 70.5,
      "step": 69130,
      "token_acc": 0.9192307692307692,
      "train_speed(iter/s)": 1.448791
    },
    {
      "epoch": 2.9619553575253845,
      "grad_norm": 7.363175868988037,
      "learning_rate": 3.5690166258639226e-05,
      "loss": 0.5860123634338379,
      "memory(GiB)": 70.5,
      "step": 69135,
      "token_acc": 0.8790322580645161,
      "train_speed(iter/s)": 1.448796
    },
    {
      "epoch": 2.9621695728546333,
      "grad_norm": 4.107384204864502,
      "learning_rate": 3.568371811561606e-05,
      "loss": 0.2222529172897339,
      "memory(GiB)": 70.5,
      "step": 69140,
      "token_acc": 0.9316546762589928,
      "train_speed(iter/s)": 1.448808
    },
    {
      "epoch": 2.9623837881838826,
      "grad_norm": 4.890659809112549,
      "learning_rate": 3.5677270231945745e-05,
      "loss": 0.28700096607208253,
      "memory(GiB)": 70.5,
      "step": 69145,
      "token_acc": 0.9201680672268907,
      "train_speed(iter/s)": 1.448812
    },
    {
      "epoch": 2.9625980035131314,
      "grad_norm": 2.430370330810547,
      "learning_rate": 3.5670822607745134e-05,
      "loss": 0.3745074510574341,
      "memory(GiB)": 70.5,
      "step": 69150,
      "token_acc": 0.9272030651340997,
      "train_speed(iter/s)": 1.448814
    },
    {
      "epoch": 2.96281221884238,
      "grad_norm": 2.376940965652466,
      "learning_rate": 3.566437524313101e-05,
      "loss": 0.28591241836547854,
      "memory(GiB)": 70.5,
      "step": 69155,
      "token_acc": 0.9197080291970803,
      "train_speed(iter/s)": 1.448815
    },
    {
      "epoch": 2.9630264341716295,
      "grad_norm": 2.4438562393188477,
      "learning_rate": 3.5657928138220184e-05,
      "loss": 0.359742259979248,
      "memory(GiB)": 70.5,
      "step": 69160,
      "token_acc": 0.9222222222222223,
      "train_speed(iter/s)": 1.448823
    },
    {
      "epoch": 2.9632406495008783,
      "grad_norm": 4.772762298583984,
      "learning_rate": 3.565148129312944e-05,
      "loss": 0.3528266429901123,
      "memory(GiB)": 70.5,
      "step": 69165,
      "token_acc": 0.9197080291970803,
      "train_speed(iter/s)": 1.44882
    },
    {
      "epoch": 2.963454864830127,
      "grad_norm": 0.7515957951545715,
      "learning_rate": 3.564503470797556e-05,
      "loss": 0.32032132148742676,
      "memory(GiB)": 70.5,
      "step": 69170,
      "token_acc": 0.9365671641791045,
      "train_speed(iter/s)": 1.448825
    },
    {
      "epoch": 2.9636690801593764,
      "grad_norm": 6.611395359039307,
      "learning_rate": 3.563858838287536e-05,
      "loss": 0.4356846809387207,
      "memory(GiB)": 70.5,
      "step": 69175,
      "token_acc": 0.9130434782608695,
      "train_speed(iter/s)": 1.448832
    },
    {
      "epoch": 2.963883295488625,
      "grad_norm": 3.093428134918213,
      "learning_rate": 3.5632142317945596e-05,
      "loss": 0.2671316146850586,
      "memory(GiB)": 70.5,
      "step": 69180,
      "token_acc": 0.940959409594096,
      "train_speed(iter/s)": 1.448835
    },
    {
      "epoch": 2.964097510817874,
      "grad_norm": 2.5967071056365967,
      "learning_rate": 3.562569651330305e-05,
      "loss": 0.3461653470993042,
      "memory(GiB)": 70.5,
      "step": 69185,
      "token_acc": 0.9375,
      "train_speed(iter/s)": 1.448838
    },
    {
      "epoch": 2.9643117261471232,
      "grad_norm": 1.7339856624603271,
      "learning_rate": 3.561925096906451e-05,
      "loss": 0.19429349899291992,
      "memory(GiB)": 70.5,
      "step": 69190,
      "token_acc": 0.9514925373134329,
      "train_speed(iter/s)": 1.44884
    },
    {
      "epoch": 2.964525941476372,
      "grad_norm": 7.620383262634277,
      "learning_rate": 3.56128056853467e-05,
      "loss": 0.511896800994873,
      "memory(GiB)": 70.5,
      "step": 69195,
      "token_acc": 0.902834008097166,
      "train_speed(iter/s)": 1.448847
    },
    {
      "epoch": 2.964740156805621,
      "grad_norm": 4.217465877532959,
      "learning_rate": 3.560636066226644e-05,
      "loss": 0.554145336151123,
      "memory(GiB)": 70.5,
      "step": 69200,
      "token_acc": 0.8764044943820225,
      "train_speed(iter/s)": 1.44886
    },
    {
      "epoch": 2.96495437213487,
      "grad_norm": 1.6904761791229248,
      "learning_rate": 3.5599915899940454e-05,
      "loss": 0.1572213053703308,
      "memory(GiB)": 70.5,
      "step": 69205,
      "token_acc": 0.9527272727272728,
      "train_speed(iter/s)": 1.448864
    },
    {
      "epoch": 2.965168587464119,
      "grad_norm": 0.7102317810058594,
      "learning_rate": 3.559347139848549e-05,
      "loss": 0.14545931816101074,
      "memory(GiB)": 70.5,
      "step": 69210,
      "token_acc": 0.9690140845070423,
      "train_speed(iter/s)": 1.448869
    },
    {
      "epoch": 2.9653828027933677,
      "grad_norm": 1.9150196313858032,
      "learning_rate": 3.558702715801832e-05,
      "loss": 0.3081878662109375,
      "memory(GiB)": 70.5,
      "step": 69215,
      "token_acc": 0.939209726443769,
      "train_speed(iter/s)": 1.448878
    },
    {
      "epoch": 2.965597018122617,
      "grad_norm": 2.852882146835327,
      "learning_rate": 3.5580583178655637e-05,
      "loss": 0.3368422746658325,
      "memory(GiB)": 70.5,
      "step": 69220,
      "token_acc": 0.9299610894941635,
      "train_speed(iter/s)": 1.448879
    },
    {
      "epoch": 2.965811233451866,
      "grad_norm": 3.144104480743408,
      "learning_rate": 3.557413946051425e-05,
      "loss": 0.3043376922607422,
      "memory(GiB)": 70.5,
      "step": 69225,
      "token_acc": 0.936,
      "train_speed(iter/s)": 1.448879
    },
    {
      "epoch": 2.9660254487811146,
      "grad_norm": 2.475142002105713,
      "learning_rate": 3.556769600371084e-05,
      "loss": 0.40980377197265627,
      "memory(GiB)": 70.5,
      "step": 69230,
      "token_acc": 0.9161290322580645,
      "train_speed(iter/s)": 1.448891
    },
    {
      "epoch": 2.966239664110364,
      "grad_norm": 3.78151273727417,
      "learning_rate": 3.5561252808362176e-05,
      "loss": 0.4552724838256836,
      "memory(GiB)": 70.5,
      "step": 69235,
      "token_acc": 0.9003436426116839,
      "train_speed(iter/s)": 1.448894
    },
    {
      "epoch": 2.9664538794396127,
      "grad_norm": 2.7319858074188232,
      "learning_rate": 3.555480987458495e-05,
      "loss": 0.3216728210449219,
      "memory(GiB)": 70.5,
      "step": 69240,
      "token_acc": 0.9210526315789473,
      "train_speed(iter/s)": 1.448912
    },
    {
      "epoch": 2.9666680947688615,
      "grad_norm": 3.0859498977661133,
      "learning_rate": 3.5548367202495894e-05,
      "loss": 0.44575977325439453,
      "memory(GiB)": 70.5,
      "step": 69245,
      "token_acc": 0.9141914191419142,
      "train_speed(iter/s)": 1.448926
    },
    {
      "epoch": 2.9668823100981108,
      "grad_norm": 2.5963737964630127,
      "learning_rate": 3.554192479221173e-05,
      "loss": 0.4792964458465576,
      "memory(GiB)": 70.5,
      "step": 69250,
      "token_acc": 0.91015625,
      "train_speed(iter/s)": 1.44893
    },
    {
      "epoch": 2.9670965254273596,
      "grad_norm": 3.453392267227173,
      "learning_rate": 3.5535482643849153e-05,
      "loss": 0.16939162015914916,
      "memory(GiB)": 70.5,
      "step": 69255,
      "token_acc": 0.953125,
      "train_speed(iter/s)": 1.448935
    },
    {
      "epoch": 2.9673107407566084,
      "grad_norm": 7.687924861907959,
      "learning_rate": 3.552904075752489e-05,
      "loss": 0.32506532669067384,
      "memory(GiB)": 70.5,
      "step": 69260,
      "token_acc": 0.933579335793358,
      "train_speed(iter/s)": 1.448942
    },
    {
      "epoch": 2.9675249560858576,
      "grad_norm": 2.213505744934082,
      "learning_rate": 3.552259913335562e-05,
      "loss": 0.27340521812438967,
      "memory(GiB)": 70.5,
      "step": 69265,
      "token_acc": 0.9372549019607843,
      "train_speed(iter/s)": 1.44895
    },
    {
      "epoch": 2.9677391714151065,
      "grad_norm": 1.727288842201233,
      "learning_rate": 3.5516157771458045e-05,
      "loss": 0.27587969303131105,
      "memory(GiB)": 70.5,
      "step": 69270,
      "token_acc": 0.9468599033816425,
      "train_speed(iter/s)": 1.448977
    },
    {
      "epoch": 2.9679533867443553,
      "grad_norm": 2.5520429611206055,
      "learning_rate": 3.550971667194886e-05,
      "loss": 0.6269798278808594,
      "memory(GiB)": 70.5,
      "step": 69275,
      "token_acc": 0.88,
      "train_speed(iter/s)": 1.448988
    },
    {
      "epoch": 2.9681676020736045,
      "grad_norm": 1.7455812692642212,
      "learning_rate": 3.550327583494475e-05,
      "loss": 0.5484203338623047,
      "memory(GiB)": 70.5,
      "step": 69280,
      "token_acc": 0.8628158844765343,
      "train_speed(iter/s)": 1.448989
    },
    {
      "epoch": 2.9683818174028533,
      "grad_norm": 0.519455075263977,
      "learning_rate": 3.54968352605624e-05,
      "loss": 0.16391600370407106,
      "memory(GiB)": 70.5,
      "step": 69285,
      "token_acc": 0.9605734767025089,
      "train_speed(iter/s)": 1.448992
    },
    {
      "epoch": 2.968596032732102,
      "grad_norm": 4.339543342590332,
      "learning_rate": 3.549039494891849e-05,
      "loss": 0.30791587829589845,
      "memory(GiB)": 70.5,
      "step": 69290,
      "token_acc": 0.9403508771929825,
      "train_speed(iter/s)": 1.448997
    },
    {
      "epoch": 2.9688102480613514,
      "grad_norm": 1.686437964439392,
      "learning_rate": 3.548395490012966e-05,
      "loss": 0.2775006055831909,
      "memory(GiB)": 70.5,
      "step": 69295,
      "token_acc": 0.9425287356321839,
      "train_speed(iter/s)": 1.449002
    },
    {
      "epoch": 2.9690244633906,
      "grad_norm": 1.3230793476104736,
      "learning_rate": 3.547751511431262e-05,
      "loss": 0.2659328460693359,
      "memory(GiB)": 70.5,
      "step": 69300,
      "token_acc": 0.9417808219178082,
      "train_speed(iter/s)": 1.449004
    },
    {
      "epoch": 2.969238678719849,
      "grad_norm": 3.3595118522644043,
      "learning_rate": 3.5471075591584024e-05,
      "loss": 0.27877302169799806,
      "memory(GiB)": 70.5,
      "step": 69305,
      "token_acc": 0.9050847457627119,
      "train_speed(iter/s)": 1.449004
    },
    {
      "epoch": 2.9694528940490983,
      "grad_norm": 2.138981342315674,
      "learning_rate": 3.546463633206052e-05,
      "loss": 0.2200462579727173,
      "memory(GiB)": 70.5,
      "step": 69310,
      "token_acc": 0.9491525423728814,
      "train_speed(iter/s)": 1.449006
    },
    {
      "epoch": 2.969667109378347,
      "grad_norm": 1.096839427947998,
      "learning_rate": 3.545819733585876e-05,
      "loss": 0.34502995014190674,
      "memory(GiB)": 70.5,
      "step": 69315,
      "token_acc": 0.929368029739777,
      "train_speed(iter/s)": 1.449007
    },
    {
      "epoch": 2.969881324707596,
      "grad_norm": 3.0834741592407227,
      "learning_rate": 3.5451758603095404e-05,
      "loss": 0.44173388481140136,
      "memory(GiB)": 70.5,
      "step": 69320,
      "token_acc": 0.9111111111111111,
      "train_speed(iter/s)": 1.449011
    },
    {
      "epoch": 2.970095540036845,
      "grad_norm": 3.177708864212036,
      "learning_rate": 3.5445320133887075e-05,
      "loss": 0.4772975444793701,
      "memory(GiB)": 70.5,
      "step": 69325,
      "token_acc": 0.9023569023569024,
      "train_speed(iter/s)": 1.449015
    },
    {
      "epoch": 2.970309755366094,
      "grad_norm": 6.229069709777832,
      "learning_rate": 3.543888192835044e-05,
      "loss": 0.6099040985107422,
      "memory(GiB)": 70.5,
      "step": 69330,
      "token_acc": 0.8992248062015504,
      "train_speed(iter/s)": 1.449016
    },
    {
      "epoch": 2.970523970695343,
      "grad_norm": 4.408082485198975,
      "learning_rate": 3.543244398660212e-05,
      "loss": 0.8511798858642579,
      "memory(GiB)": 70.5,
      "step": 69335,
      "token_acc": 0.8176470588235294,
      "train_speed(iter/s)": 1.449019
    },
    {
      "epoch": 2.970738186024592,
      "grad_norm": 2.879591226577759,
      "learning_rate": 3.542600630875873e-05,
      "loss": 0.2786805868148804,
      "memory(GiB)": 70.5,
      "step": 69340,
      "token_acc": 0.9345454545454546,
      "train_speed(iter/s)": 1.449022
    },
    {
      "epoch": 2.970952401353841,
      "grad_norm": 6.699375629425049,
      "learning_rate": 3.541956889493692e-05,
      "loss": 0.22342753410339355,
      "memory(GiB)": 70.5,
      "step": 69345,
      "token_acc": 0.9411764705882353,
      "train_speed(iter/s)": 1.449026
    },
    {
      "epoch": 2.9711666166830897,
      "grad_norm": 0.2536490261554718,
      "learning_rate": 3.541313174525329e-05,
      "loss": 0.31709110736846924,
      "memory(GiB)": 70.5,
      "step": 69350,
      "token_acc": 0.9258064516129032,
      "train_speed(iter/s)": 1.449031
    },
    {
      "epoch": 2.971380832012339,
      "grad_norm": 2.5238068103790283,
      "learning_rate": 3.540669485982445e-05,
      "loss": 0.3431115627288818,
      "memory(GiB)": 70.5,
      "step": 69355,
      "token_acc": 0.9233870967741935,
      "train_speed(iter/s)": 1.449035
    },
    {
      "epoch": 2.9715950473415877,
      "grad_norm": 2.2261126041412354,
      "learning_rate": 3.540025823876704e-05,
      "loss": 0.3799097537994385,
      "memory(GiB)": 70.5,
      "step": 69360,
      "token_acc": 0.9381443298969072,
      "train_speed(iter/s)": 1.449034
    },
    {
      "epoch": 2.9718092626708366,
      "grad_norm": 3.7917776107788086,
      "learning_rate": 3.539382188219764e-05,
      "loss": 0.3738841533660889,
      "memory(GiB)": 70.5,
      "step": 69365,
      "token_acc": 0.9221183800623053,
      "train_speed(iter/s)": 1.449042
    },
    {
      "epoch": 2.972023478000086,
      "grad_norm": 3.430891275405884,
      "learning_rate": 3.5387385790232854e-05,
      "loss": 0.25093653202056887,
      "memory(GiB)": 70.5,
      "step": 69370,
      "token_acc": 0.9405594405594405,
      "train_speed(iter/s)": 1.449052
    },
    {
      "epoch": 2.9722376933293346,
      "grad_norm": 5.10992956161499,
      "learning_rate": 3.538094996298928e-05,
      "loss": 0.38561043739318845,
      "memory(GiB)": 70.5,
      "step": 69375,
      "token_acc": 0.94140625,
      "train_speed(iter/s)": 1.449056
    },
    {
      "epoch": 2.9724519086585834,
      "grad_norm": 2.3038012981414795,
      "learning_rate": 3.537451440058353e-05,
      "loss": 0.7128846168518066,
      "memory(GiB)": 70.5,
      "step": 69380,
      "token_acc": 0.8615916955017301,
      "train_speed(iter/s)": 1.449056
    },
    {
      "epoch": 2.9726661239878327,
      "grad_norm": 0.3915634751319885,
      "learning_rate": 3.5368079103132143e-05,
      "loss": 0.8063953399658204,
      "memory(GiB)": 70.5,
      "step": 69385,
      "token_acc": 0.8324022346368715,
      "train_speed(iter/s)": 1.449059
    },
    {
      "epoch": 2.9728803393170815,
      "grad_norm": 2.0973963737487793,
      "learning_rate": 3.536164407075175e-05,
      "loss": 0.34764947891235354,
      "memory(GiB)": 70.5,
      "step": 69390,
      "token_acc": 0.9276315789473685,
      "train_speed(iter/s)": 1.449067
    },
    {
      "epoch": 2.9730945546463303,
      "grad_norm": 2.89494252204895,
      "learning_rate": 3.535520930355891e-05,
      "loss": 0.5745623588562012,
      "memory(GiB)": 70.5,
      "step": 69395,
      "token_acc": 0.8881789137380192,
      "train_speed(iter/s)": 1.449089
    },
    {
      "epoch": 2.9733087699755796,
      "grad_norm": 2.484997510910034,
      "learning_rate": 3.5348774801670184e-05,
      "loss": 0.5181981086730957,
      "memory(GiB)": 70.5,
      "step": 69400,
      "token_acc": 0.896,
      "train_speed(iter/s)": 1.449101
    },
    {
      "epoch": 2.9735229853048284,
      "grad_norm": 0.37214696407318115,
      "learning_rate": 3.5342340565202146e-05,
      "loss": 0.2663832187652588,
      "memory(GiB)": 70.5,
      "step": 69405,
      "token_acc": 0.9560439560439561,
      "train_speed(iter/s)": 1.449112
    },
    {
      "epoch": 2.973737200634077,
      "grad_norm": 2.7978992462158203,
      "learning_rate": 3.533590659427137e-05,
      "loss": 0.27620601654052734,
      "memory(GiB)": 70.5,
      "step": 69410,
      "token_acc": 0.9307958477508651,
      "train_speed(iter/s)": 1.449125
    },
    {
      "epoch": 2.9739514159633265,
      "grad_norm": 6.462371826171875,
      "learning_rate": 3.532947288899439e-05,
      "loss": 0.8762405395507813,
      "memory(GiB)": 70.5,
      "step": 69415,
      "token_acc": 0.8366013071895425,
      "train_speed(iter/s)": 1.449138
    },
    {
      "epoch": 2.9741656312925753,
      "grad_norm": 1.4558749198913574,
      "learning_rate": 3.532303944948777e-05,
      "loss": 0.371069598197937,
      "memory(GiB)": 70.5,
      "step": 69420,
      "token_acc": 0.9333333333333333,
      "train_speed(iter/s)": 1.449144
    },
    {
      "epoch": 2.974379846621824,
      "grad_norm": 2.0732173919677734,
      "learning_rate": 3.5316606275868056e-05,
      "loss": 0.3816851615905762,
      "memory(GiB)": 70.5,
      "step": 69425,
      "token_acc": 0.9233333333333333,
      "train_speed(iter/s)": 1.449152
    },
    {
      "epoch": 2.9745940619510733,
      "grad_norm": 4.282186985015869,
      "learning_rate": 3.5310173368251794e-05,
      "loss": 0.5010400772094726,
      "memory(GiB)": 70.5,
      "step": 69430,
      "token_acc": 0.8858267716535433,
      "train_speed(iter/s)": 1.449154
    },
    {
      "epoch": 2.974808277280322,
      "grad_norm": 7.790096759796143,
      "learning_rate": 3.5303740726755544e-05,
      "loss": 0.40584626197814944,
      "memory(GiB)": 70.5,
      "step": 69435,
      "token_acc": 0.9039145907473309,
      "train_speed(iter/s)": 1.449158
    },
    {
      "epoch": 2.975022492609571,
      "grad_norm": 3.495918035507202,
      "learning_rate": 3.529730835149577e-05,
      "loss": 0.4448524475097656,
      "memory(GiB)": 70.5,
      "step": 69440,
      "token_acc": 0.9147540983606557,
      "train_speed(iter/s)": 1.449154
    },
    {
      "epoch": 2.9752367079388202,
      "grad_norm": 5.463122844696045,
      "learning_rate": 3.5290876242589076e-05,
      "loss": 0.3770363092422485,
      "memory(GiB)": 70.5,
      "step": 69445,
      "token_acc": 0.9061488673139159,
      "train_speed(iter/s)": 1.449152
    },
    {
      "epoch": 2.975450923268069,
      "grad_norm": 0.2518969178199768,
      "learning_rate": 3.528444440015196e-05,
      "loss": 0.2061060905456543,
      "memory(GiB)": 70.5,
      "step": 69450,
      "token_acc": 0.948905109489051,
      "train_speed(iter/s)": 1.449157
    },
    {
      "epoch": 2.975665138597318,
      "grad_norm": 2.9754390716552734,
      "learning_rate": 3.5278012824300944e-05,
      "loss": 0.24500761032104493,
      "memory(GiB)": 70.5,
      "step": 69455,
      "token_acc": 0.948905109489051,
      "train_speed(iter/s)": 1.449153
    },
    {
      "epoch": 2.975879353926567,
      "grad_norm": 3.4499759674072266,
      "learning_rate": 3.527158151515252e-05,
      "loss": 0.17260103225708007,
      "memory(GiB)": 70.5,
      "step": 69460,
      "token_acc": 0.9556451612903226,
      "train_speed(iter/s)": 1.449164
    },
    {
      "epoch": 2.976093569255816,
      "grad_norm": 1.4123040437698364,
      "learning_rate": 3.526515047282323e-05,
      "loss": 0.5018493175506592,
      "memory(GiB)": 70.5,
      "step": 69465,
      "token_acc": 0.8914473684210527,
      "train_speed(iter/s)": 1.449177
    },
    {
      "epoch": 2.9763077845850647,
      "grad_norm": 0.8135066628456116,
      "learning_rate": 3.525871969742954e-05,
      "loss": 0.22358713150024415,
      "memory(GiB)": 70.5,
      "step": 69470,
      "token_acc": 0.9452054794520548,
      "train_speed(iter/s)": 1.449181
    },
    {
      "epoch": 2.976521999914314,
      "grad_norm": 6.295461177825928,
      "learning_rate": 3.525228918908799e-05,
      "loss": 0.5893518447875976,
      "memory(GiB)": 70.5,
      "step": 69475,
      "token_acc": 0.8825503355704698,
      "train_speed(iter/s)": 1.44918
    },
    {
      "epoch": 2.976736215243563,
      "grad_norm": 1.5937045812606812,
      "learning_rate": 3.524585894791506e-05,
      "loss": 0.41501760482788086,
      "memory(GiB)": 70.5,
      "step": 69480,
      "token_acc": 0.9009287925696594,
      "train_speed(iter/s)": 1.449186
    },
    {
      "epoch": 2.9769504305728116,
      "grad_norm": 7.20565938949585,
      "learning_rate": 3.523942897402721e-05,
      "loss": 0.6066811561584473,
      "memory(GiB)": 70.5,
      "step": 69485,
      "token_acc": 0.8627450980392157,
      "train_speed(iter/s)": 1.449202
    },
    {
      "epoch": 2.977164645902061,
      "grad_norm": 3.802213430404663,
      "learning_rate": 3.5232999267540964e-05,
      "loss": 0.5054030895233155,
      "memory(GiB)": 70.5,
      "step": 69490,
      "token_acc": 0.8789808917197452,
      "train_speed(iter/s)": 1.449205
    },
    {
      "epoch": 2.9773788612313097,
      "grad_norm": 1.1789519786834717,
      "learning_rate": 3.52265698285728e-05,
      "loss": 0.22252705097198486,
      "memory(GiB)": 70.5,
      "step": 69495,
      "token_acc": 0.9484536082474226,
      "train_speed(iter/s)": 1.449211
    },
    {
      "epoch": 2.9775930765605585,
      "grad_norm": 2.9062345027923584,
      "learning_rate": 3.5220140657239164e-05,
      "loss": 0.260744571685791,
      "memory(GiB)": 70.5,
      "step": 69500,
      "token_acc": 0.9387755102040817,
      "train_speed(iter/s)": 1.449209
    },
    {
      "epoch": 2.9775930765605585,
      "eval_loss": 2.5833165645599365,
      "eval_runtime": 11.7907,
      "eval_samples_per_second": 8.481,
      "eval_steps_per_second": 8.481,
      "eval_token_acc": 0.4104979811574697,
      "step": 69500
    },
    {
      "epoch": 2.9778072918898078,
      "grad_norm": 0.8578397631645203,
      "learning_rate": 3.5213711753656565e-05,
      "loss": 0.25577945709228517,
      "memory(GiB)": 70.5,
      "step": 69505,
      "token_acc": 0.5472081218274112,
      "train_speed(iter/s)": 1.448823
    },
    {
      "epoch": 2.9780215072190566,
      "grad_norm": 3.3331801891326904,
      "learning_rate": 3.520728311794143e-05,
      "loss": 0.4235753059387207,
      "memory(GiB)": 70.5,
      "step": 69510,
      "token_acc": 0.9053497942386831,
      "train_speed(iter/s)": 1.44884
    },
    {
      "epoch": 2.9782357225483054,
      "grad_norm": 5.17130184173584,
      "learning_rate": 3.5200854750210235e-05,
      "loss": 0.35670881271362304,
      "memory(GiB)": 70.5,
      "step": 69515,
      "token_acc": 0.9407407407407408,
      "train_speed(iter/s)": 1.448845
    },
    {
      "epoch": 2.9784499378775546,
      "grad_norm": 3.077836513519287,
      "learning_rate": 3.5194426650579445e-05,
      "loss": 0.23967399597167968,
      "memory(GiB)": 70.5,
      "step": 69520,
      "token_acc": 0.9438202247191011,
      "train_speed(iter/s)": 1.448853
    },
    {
      "epoch": 2.9786641532068034,
      "grad_norm": 2.1718459129333496,
      "learning_rate": 3.518799881916551e-05,
      "loss": 0.2843461275100708,
      "memory(GiB)": 70.5,
      "step": 69525,
      "token_acc": 0.9270833333333334,
      "train_speed(iter/s)": 1.448859
    },
    {
      "epoch": 2.9788783685360523,
      "grad_norm": 3.0487945079803467,
      "learning_rate": 3.518157125608487e-05,
      "loss": 0.4415945053100586,
      "memory(GiB)": 70.5,
      "step": 69530,
      "token_acc": 0.8951841359773371,
      "train_speed(iter/s)": 1.448862
    },
    {
      "epoch": 2.9790925838653015,
      "grad_norm": 2.1709866523742676,
      "learning_rate": 3.5175143961453965e-05,
      "loss": 0.13343753814697265,
      "memory(GiB)": 70.5,
      "step": 69535,
      "token_acc": 0.975177304964539,
      "train_speed(iter/s)": 1.448865
    },
    {
      "epoch": 2.9793067991945503,
      "grad_norm": 2.7673885822296143,
      "learning_rate": 3.516871693538924e-05,
      "loss": 0.2176825523376465,
      "memory(GiB)": 70.5,
      "step": 69540,
      "token_acc": 0.9447004608294931,
      "train_speed(iter/s)": 1.448863
    },
    {
      "epoch": 2.979521014523799,
      "grad_norm": 2.921459197998047,
      "learning_rate": 3.516229017800711e-05,
      "loss": 0.2697928428649902,
      "memory(GiB)": 70.5,
      "step": 69545,
      "token_acc": 0.9480968858131488,
      "train_speed(iter/s)": 1.448869
    },
    {
      "epoch": 2.9797352298530484,
      "grad_norm": 2.0099167823791504,
      "learning_rate": 3.515586368942402e-05,
      "loss": 0.8681355476379394,
      "memory(GiB)": 70.5,
      "step": 69550,
      "token_acc": 0.7977099236641222,
      "train_speed(iter/s)": 1.44889
    },
    {
      "epoch": 2.979949445182297,
      "grad_norm": 3.1403706073760986,
      "learning_rate": 3.514943746975639e-05,
      "loss": 0.14247757196426392,
      "memory(GiB)": 70.5,
      "step": 69555,
      "token_acc": 0.9645669291338582,
      "train_speed(iter/s)": 1.448895
    },
    {
      "epoch": 2.980163660511546,
      "grad_norm": 3.366570472717285,
      "learning_rate": 3.514301151912062e-05,
      "loss": 0.3946083545684814,
      "memory(GiB)": 70.5,
      "step": 69560,
      "token_acc": 0.914396887159533,
      "train_speed(iter/s)": 1.4489
    },
    {
      "epoch": 2.9803778758407953,
      "grad_norm": 2.793968439102173,
      "learning_rate": 3.513658583763314e-05,
      "loss": 0.6287849426269532,
      "memory(GiB)": 70.5,
      "step": 69565,
      "token_acc": 0.9013605442176871,
      "train_speed(iter/s)": 1.448918
    },
    {
      "epoch": 2.980592091170044,
      "grad_norm": 2.023543357849121,
      "learning_rate": 3.513016042541034e-05,
      "loss": 0.5445969581604004,
      "memory(GiB)": 70.5,
      "step": 69570,
      "token_acc": 0.8852459016393442,
      "train_speed(iter/s)": 1.44892
    },
    {
      "epoch": 2.980806306499293,
      "grad_norm": 3.8269965648651123,
      "learning_rate": 3.5123735282568646e-05,
      "loss": 0.3445282936096191,
      "memory(GiB)": 70.5,
      "step": 69575,
      "token_acc": 0.9236111111111112,
      "train_speed(iter/s)": 1.448927
    },
    {
      "epoch": 2.981020521828542,
      "grad_norm": 6.447869300842285,
      "learning_rate": 3.5117310409224443e-05,
      "loss": 0.3723740100860596,
      "memory(GiB)": 70.5,
      "step": 69580,
      "token_acc": 0.9222222222222223,
      "train_speed(iter/s)": 1.448934
    },
    {
      "epoch": 2.981234737157791,
      "grad_norm": 3.8837883472442627,
      "learning_rate": 3.5110885805494115e-05,
      "loss": 0.3043516635894775,
      "memory(GiB)": 70.5,
      "step": 69585,
      "token_acc": 0.9298245614035088,
      "train_speed(iter/s)": 1.448942
    },
    {
      "epoch": 2.98144895248704,
      "grad_norm": 3.153458595275879,
      "learning_rate": 3.510446147149404e-05,
      "loss": 0.4448305606842041,
      "memory(GiB)": 70.5,
      "step": 69590,
      "token_acc": 0.8925925925925926,
      "train_speed(iter/s)": 1.448955
    },
    {
      "epoch": 2.981663167816289,
      "grad_norm": 2.9391865730285645,
      "learning_rate": 3.509803740734065e-05,
      "loss": 0.4088016986846924,
      "memory(GiB)": 70.5,
      "step": 69595,
      "token_acc": 0.9142857142857143,
      "train_speed(iter/s)": 1.448965
    },
    {
      "epoch": 2.981877383145538,
      "grad_norm": 2.7705869674682617,
      "learning_rate": 3.509161361315028e-05,
      "loss": 0.49507646560668944,
      "memory(GiB)": 70.5,
      "step": 69600,
      "token_acc": 0.8768656716417911,
      "train_speed(iter/s)": 1.448965
    },
    {
      "epoch": 2.9820915984747867,
      "grad_norm": 5.155707359313965,
      "learning_rate": 3.508519008903931e-05,
      "loss": 0.5112536430358887,
      "memory(GiB)": 70.5,
      "step": 69605,
      "token_acc": 0.8996865203761756,
      "train_speed(iter/s)": 1.448977
    },
    {
      "epoch": 2.982305813804036,
      "grad_norm": 3.9702305793762207,
      "learning_rate": 3.507876683512412e-05,
      "loss": 0.6387495994567871,
      "memory(GiB)": 70.5,
      "step": 69610,
      "token_acc": 0.8846153846153846,
      "train_speed(iter/s)": 1.448979
    },
    {
      "epoch": 2.9825200291332847,
      "grad_norm": 0.6655214428901672,
      "learning_rate": 3.507234385152106e-05,
      "loss": 0.43091607093811035,
      "memory(GiB)": 70.5,
      "step": 69615,
      "token_acc": 0.9147727272727273,
      "train_speed(iter/s)": 1.448975
    },
    {
      "epoch": 2.9827342444625335,
      "grad_norm": 2.3625435829162598,
      "learning_rate": 3.5065921138346504e-05,
      "loss": 0.3859349250793457,
      "memory(GiB)": 70.5,
      "step": 69620,
      "token_acc": 0.9314285714285714,
      "train_speed(iter/s)": 1.448977
    },
    {
      "epoch": 2.982948459791783,
      "grad_norm": 5.13886022567749,
      "learning_rate": 3.505949869571679e-05,
      "loss": 0.4402755260467529,
      "memory(GiB)": 70.5,
      "step": 69625,
      "token_acc": 0.902027027027027,
      "train_speed(iter/s)": 1.448978
    },
    {
      "epoch": 2.9831626751210316,
      "grad_norm": 2.7584869861602783,
      "learning_rate": 3.505307652374827e-05,
      "loss": 0.2643409013748169,
      "memory(GiB)": 70.5,
      "step": 69630,
      "token_acc": 0.9405940594059405,
      "train_speed(iter/s)": 1.448983
    },
    {
      "epoch": 2.9833768904502804,
      "grad_norm": 3.1571614742279053,
      "learning_rate": 3.5046654622557295e-05,
      "loss": 0.3250680208206177,
      "memory(GiB)": 70.5,
      "step": 69635,
      "token_acc": 0.9422382671480144,
      "train_speed(iter/s)": 1.448984
    },
    {
      "epoch": 2.9835911057795297,
      "grad_norm": 1.6068021059036255,
      "learning_rate": 3.50402329922602e-05,
      "loss": 0.26287641525268557,
      "memory(GiB)": 70.5,
      "step": 69640,
      "token_acc": 0.9283276450511946,
      "train_speed(iter/s)": 1.448982
    },
    {
      "epoch": 2.9838053211087785,
      "grad_norm": 7.634116172790527,
      "learning_rate": 3.5033811632973315e-05,
      "loss": 0.37288947105407716,
      "memory(GiB)": 70.5,
      "step": 69645,
      "token_acc": 0.9028776978417267,
      "train_speed(iter/s)": 1.448992
    },
    {
      "epoch": 2.9840195364380273,
      "grad_norm": 2.9285356998443604,
      "learning_rate": 3.502739054481297e-05,
      "loss": 0.20943353176116944,
      "memory(GiB)": 70.5,
      "step": 69650,
      "token_acc": 0.9543859649122807,
      "train_speed(iter/s)": 1.448999
    },
    {
      "epoch": 2.9842337517672766,
      "grad_norm": 1.982748031616211,
      "learning_rate": 3.5020969727895484e-05,
      "loss": 0.26486060619354246,
      "memory(GiB)": 70.5,
      "step": 69655,
      "token_acc": 0.9539007092198581,
      "train_speed(iter/s)": 1.449006
    },
    {
      "epoch": 2.9844479670965254,
      "grad_norm": 1.70413076877594,
      "learning_rate": 3.50145491823372e-05,
      "loss": 0.48985934257507324,
      "memory(GiB)": 70.5,
      "step": 69660,
      "token_acc": 0.9274447949526814,
      "train_speed(iter/s)": 1.449018
    },
    {
      "epoch": 2.984662182425774,
      "grad_norm": 2.155055284500122,
      "learning_rate": 3.500812890825439e-05,
      "loss": 0.36579735279083253,
      "memory(GiB)": 70.5,
      "step": 69665,
      "token_acc": 0.9142011834319527,
      "train_speed(iter/s)": 1.44902
    },
    {
      "epoch": 2.9848763977550234,
      "grad_norm": 2.3943777084350586,
      "learning_rate": 3.50017089057634e-05,
      "loss": 0.47864809036254885,
      "memory(GiB)": 70.5,
      "step": 69670,
      "token_acc": 0.8921933085501859,
      "train_speed(iter/s)": 1.449033
    },
    {
      "epoch": 2.9850906130842723,
      "grad_norm": 2.81363582611084,
      "learning_rate": 3.499528917498053e-05,
      "loss": 0.19301798343658447,
      "memory(GiB)": 70.5,
      "step": 69675,
      "token_acc": 0.944,
      "train_speed(iter/s)": 1.449039
    },
    {
      "epoch": 2.985304828413521,
      "grad_norm": 3.7639448642730713,
      "learning_rate": 3.4988869716022065e-05,
      "loss": 0.6310288906097412,
      "memory(GiB)": 70.5,
      "step": 69680,
      "token_acc": 0.8913738019169329,
      "train_speed(iter/s)": 1.449049
    },
    {
      "epoch": 2.9855190437427703,
      "grad_norm": 4.03608512878418,
      "learning_rate": 3.498245052900432e-05,
      "loss": 0.40221943855285647,
      "memory(GiB)": 70.5,
      "step": 69685,
      "token_acc": 0.9040590405904059,
      "train_speed(iter/s)": 1.449051
    },
    {
      "epoch": 2.985733259072019,
      "grad_norm": 2.561411142349243,
      "learning_rate": 3.4976031614043555e-05,
      "loss": 0.23416435718536377,
      "memory(GiB)": 70.5,
      "step": 69690,
      "token_acc": 0.9367088607594937,
      "train_speed(iter/s)": 1.449055
    },
    {
      "epoch": 2.985947474401268,
      "grad_norm": 2.0033681392669678,
      "learning_rate": 3.496961297125608e-05,
      "loss": 0.6240200996398926,
      "memory(GiB)": 70.5,
      "step": 69695,
      "token_acc": 0.8629283489096573,
      "train_speed(iter/s)": 1.449057
    },
    {
      "epoch": 2.986161689730517,
      "grad_norm": 0.9432464838027954,
      "learning_rate": 3.4963194600758166e-05,
      "loss": 0.331189227104187,
      "memory(GiB)": 70.5,
      "step": 69700,
      "token_acc": 0.9377049180327869,
      "train_speed(iter/s)": 1.449058
    },
    {
      "epoch": 2.986375905059766,
      "grad_norm": 4.271366119384766,
      "learning_rate": 3.4956776502666076e-05,
      "loss": 0.2146904945373535,
      "memory(GiB)": 70.5,
      "step": 69705,
      "token_acc": 0.9493243243243243,
      "train_speed(iter/s)": 1.449072
    },
    {
      "epoch": 2.986590120389015,
      "grad_norm": 0.058593787252902985,
      "learning_rate": 3.4950358677096103e-05,
      "loss": 0.21750741004943847,
      "memory(GiB)": 70.5,
      "step": 69710,
      "token_acc": 0.9411764705882353,
      "train_speed(iter/s)": 1.449079
    },
    {
      "epoch": 2.986804335718264,
      "grad_norm": 4.222776889801025,
      "learning_rate": 3.4943941124164494e-05,
      "loss": 0.20769309997558594,
      "memory(GiB)": 70.5,
      "step": 69715,
      "token_acc": 0.950530035335689,
      "train_speed(iter/s)": 1.449087
    },
    {
      "epoch": 2.987018551047513,
      "grad_norm": 2.6656596660614014,
      "learning_rate": 3.493752384398753e-05,
      "loss": 0.443255090713501,
      "memory(GiB)": 70.5,
      "step": 69720,
      "token_acc": 0.9227642276422764,
      "train_speed(iter/s)": 1.449088
    },
    {
      "epoch": 2.9872327663767617,
      "grad_norm": 0.7597995400428772,
      "learning_rate": 3.493110683668144e-05,
      "loss": 0.2398970603942871,
      "memory(GiB)": 70.5,
      "step": 69725,
      "token_acc": 0.9326923076923077,
      "train_speed(iter/s)": 1.449093
    },
    {
      "epoch": 2.987446981706011,
      "grad_norm": 3.9070982933044434,
      "learning_rate": 3.4924690102362475e-05,
      "loss": 0.4986997127532959,
      "memory(GiB)": 70.5,
      "step": 69730,
      "token_acc": 0.8919753086419753,
      "train_speed(iter/s)": 1.449102
    },
    {
      "epoch": 2.98766119703526,
      "grad_norm": 2.513915777206421,
      "learning_rate": 3.491827364114689e-05,
      "loss": 0.4823263645172119,
      "memory(GiB)": 70.5,
      "step": 69735,
      "token_acc": 0.8932384341637011,
      "train_speed(iter/s)": 1.449109
    },
    {
      "epoch": 2.9878754123645086,
      "grad_norm": 2.4375343322753906,
      "learning_rate": 3.491185745315094e-05,
      "loss": 0.4627972602844238,
      "memory(GiB)": 70.5,
      "step": 69740,
      "token_acc": 0.8907849829351536,
      "train_speed(iter/s)": 1.449108
    },
    {
      "epoch": 2.988089627693758,
      "grad_norm": 1.235072135925293,
      "learning_rate": 3.490544153849085e-05,
      "loss": 0.17318222522735596,
      "memory(GiB)": 70.5,
      "step": 69745,
      "token_acc": 0.9609375,
      "train_speed(iter/s)": 1.449108
    },
    {
      "epoch": 2.9883038430230067,
      "grad_norm": 1.037312388420105,
      "learning_rate": 3.489902589728283e-05,
      "loss": 0.23384346961975097,
      "memory(GiB)": 70.5,
      "step": 69750,
      "token_acc": 0.9581749049429658,
      "train_speed(iter/s)": 1.449119
    },
    {
      "epoch": 2.9885180583522555,
      "grad_norm": 5.970566749572754,
      "learning_rate": 3.4892610529643135e-05,
      "loss": 0.5797299385070801,
      "memory(GiB)": 70.5,
      "step": 69755,
      "token_acc": 0.891566265060241,
      "train_speed(iter/s)": 1.449113
    },
    {
      "epoch": 2.9887322736815047,
      "grad_norm": 3.3552427291870117,
      "learning_rate": 3.488619543568796e-05,
      "loss": 0.37422704696655273,
      "memory(GiB)": 70.5,
      "step": 69760,
      "token_acc": 0.9333333333333333,
      "train_speed(iter/s)": 1.449118
    },
    {
      "epoch": 2.9889464890107535,
      "grad_norm": 4.310719966888428,
      "learning_rate": 3.487978061553355e-05,
      "loss": 0.4979377746582031,
      "memory(GiB)": 70.5,
      "step": 69765,
      "token_acc": 0.8813559322033898,
      "train_speed(iter/s)": 1.449124
    },
    {
      "epoch": 2.9891607043400024,
      "grad_norm": 2.6424295902252197,
      "learning_rate": 3.4873366069296095e-05,
      "loss": 0.23877418041229248,
      "memory(GiB)": 70.5,
      "step": 69770,
      "token_acc": 0.9362416107382551,
      "train_speed(iter/s)": 1.449127
    },
    {
      "epoch": 2.9893749196692516,
      "grad_norm": 2.342857837677002,
      "learning_rate": 3.4866951797091786e-05,
      "loss": 0.1957413673400879,
      "memory(GiB)": 70.5,
      "step": 69775,
      "token_acc": 0.9516728624535316,
      "train_speed(iter/s)": 1.449123
    },
    {
      "epoch": 2.9895891349985004,
      "grad_norm": 2.024437189102173,
      "learning_rate": 3.486053779903686e-05,
      "loss": 0.21991729736328125,
      "memory(GiB)": 70.5,
      "step": 69780,
      "token_acc": 0.9494949494949495,
      "train_speed(iter/s)": 1.449121
    },
    {
      "epoch": 2.9898033503277492,
      "grad_norm": 5.127934455871582,
      "learning_rate": 3.485412407524749e-05,
      "loss": 0.7116131782531738,
      "memory(GiB)": 70.5,
      "step": 69785,
      "token_acc": 0.8381877022653722,
      "train_speed(iter/s)": 1.449131
    },
    {
      "epoch": 2.9900175656569985,
      "grad_norm": 5.100478649139404,
      "learning_rate": 3.484771062583986e-05,
      "loss": 0.3869349479675293,
      "memory(GiB)": 70.5,
      "step": 69790,
      "token_acc": 0.9098039215686274,
      "train_speed(iter/s)": 1.449133
    },
    {
      "epoch": 2.9902317809862473,
      "grad_norm": 1.98316490650177,
      "learning_rate": 3.484129745093018e-05,
      "loss": 0.11865609884262085,
      "memory(GiB)": 70.5,
      "step": 69795,
      "token_acc": 0.9743589743589743,
      "train_speed(iter/s)": 1.449141
    },
    {
      "epoch": 2.990445996315496,
      "grad_norm": 8.152923583984375,
      "learning_rate": 3.48348845506346e-05,
      "loss": 0.6255522727966308,
      "memory(GiB)": 70.5,
      "step": 69800,
      "token_acc": 0.8863636363636364,
      "train_speed(iter/s)": 1.449149
    },
    {
      "epoch": 2.9906602116447454,
      "grad_norm": 2.226710796356201,
      "learning_rate": 3.482847192506933e-05,
      "loss": 0.43470087051391604,
      "memory(GiB)": 70.5,
      "step": 69805,
      "token_acc": 0.9186746987951807,
      "train_speed(iter/s)": 1.449153
    },
    {
      "epoch": 2.990874426973994,
      "grad_norm": 3.96224308013916,
      "learning_rate": 3.48220595743505e-05,
      "loss": 0.2514703035354614,
      "memory(GiB)": 70.5,
      "step": 69810,
      "token_acc": 0.956,
      "train_speed(iter/s)": 1.44915
    },
    {
      "epoch": 2.991088642303243,
      "grad_norm": 4.121099948883057,
      "learning_rate": 3.481564749859431e-05,
      "loss": 0.6290458679199219,
      "memory(GiB)": 70.5,
      "step": 69815,
      "token_acc": 0.8526645768025078,
      "train_speed(iter/s)": 1.449149
    },
    {
      "epoch": 2.9913028576324923,
      "grad_norm": 2.7721898555755615,
      "learning_rate": 3.480923569791691e-05,
      "loss": 0.25195975303649903,
      "memory(GiB)": 70.5,
      "step": 69820,
      "token_acc": 0.9302325581395349,
      "train_speed(iter/s)": 1.449153
    },
    {
      "epoch": 2.991517072961741,
      "grad_norm": 2.8836565017700195,
      "learning_rate": 3.480282417243446e-05,
      "loss": 0.392657995223999,
      "memory(GiB)": 70.5,
      "step": 69825,
      "token_acc": 0.9275862068965517,
      "train_speed(iter/s)": 1.449161
    },
    {
      "epoch": 2.99173128829099,
      "grad_norm": 2.4508237838745117,
      "learning_rate": 3.479641292226311e-05,
      "loss": 0.28517780303955076,
      "memory(GiB)": 70.5,
      "step": 69830,
      "token_acc": 0.9387755102040817,
      "train_speed(iter/s)": 1.449156
    },
    {
      "epoch": 2.991945503620239,
      "grad_norm": 4.084285736083984,
      "learning_rate": 3.479000194751899e-05,
      "loss": 0.514182710647583,
      "memory(GiB)": 70.5,
      "step": 69835,
      "token_acc": 0.8906752411575563,
      "train_speed(iter/s)": 1.449165
    },
    {
      "epoch": 2.992159718949488,
      "grad_norm": 3.567345142364502,
      "learning_rate": 3.478359124831827e-05,
      "loss": 0.28413140773773193,
      "memory(GiB)": 70.5,
      "step": 69840,
      "token_acc": 0.9442622950819672,
      "train_speed(iter/s)": 1.449168
    },
    {
      "epoch": 2.9923739342787368,
      "grad_norm": 0.9773494601249695,
      "learning_rate": 3.4777180824777057e-05,
      "loss": 0.21460611820220948,
      "memory(GiB)": 70.5,
      "step": 69845,
      "token_acc": 0.9487179487179487,
      "train_speed(iter/s)": 1.449172
    },
    {
      "epoch": 2.992588149607986,
      "grad_norm": 3.326352596282959,
      "learning_rate": 3.477077067701149e-05,
      "loss": 0.2818249940872192,
      "memory(GiB)": 70.5,
      "step": 69850,
      "token_acc": 0.9254237288135593,
      "train_speed(iter/s)": 1.449179
    },
    {
      "epoch": 2.992802364937235,
      "grad_norm": 2.2533130645751953,
      "learning_rate": 3.476436080513771e-05,
      "loss": 0.42839322090148924,
      "memory(GiB)": 70.5,
      "step": 69855,
      "token_acc": 0.911660777385159,
      "train_speed(iter/s)": 1.449205
    },
    {
      "epoch": 2.9930165802664837,
      "grad_norm": 1.177463412284851,
      "learning_rate": 3.475795120927181e-05,
      "loss": 0.23373031616210938,
      "memory(GiB)": 70.5,
      "step": 69860,
      "token_acc": 0.9519774011299436,
      "train_speed(iter/s)": 1.449212
    },
    {
      "epoch": 2.993230795595733,
      "grad_norm": 0.4534831643104553,
      "learning_rate": 3.475154188952994e-05,
      "loss": 0.25145840644836426,
      "memory(GiB)": 70.5,
      "step": 69865,
      "token_acc": 0.9452887537993921,
      "train_speed(iter/s)": 1.449218
    },
    {
      "epoch": 2.9934450109249817,
      "grad_norm": 5.514671325683594,
      "learning_rate": 3.4745132846028185e-05,
      "loss": 0.30152335166931155,
      "memory(GiB)": 70.5,
      "step": 69870,
      "token_acc": 0.933933933933934,
      "train_speed(iter/s)": 1.449211
    },
    {
      "epoch": 2.9936592262542305,
      "grad_norm": 3.1967885494232178,
      "learning_rate": 3.473872407888266e-05,
      "loss": 0.43024625778198244,
      "memory(GiB)": 70.5,
      "step": 69875,
      "token_acc": 0.8865248226950354,
      "train_speed(iter/s)": 1.44921
    },
    {
      "epoch": 2.99387344158348,
      "grad_norm": 2.319355010986328,
      "learning_rate": 3.473231558820946e-05,
      "loss": 0.3094393968582153,
      "memory(GiB)": 70.5,
      "step": 69880,
      "token_acc": 0.9510204081632653,
      "train_speed(iter/s)": 1.449225
    },
    {
      "epoch": 2.9940876569127286,
      "grad_norm": 1.3872102499008179,
      "learning_rate": 3.472590737412467e-05,
      "loss": 0.28546187877655027,
      "memory(GiB)": 70.5,
      "step": 69885,
      "token_acc": 0.9444444444444444,
      "train_speed(iter/s)": 1.449231
    },
    {
      "epoch": 2.9943018722419774,
      "grad_norm": 1.9232628345489502,
      "learning_rate": 3.471949943674442e-05,
      "loss": 0.3390068054199219,
      "memory(GiB)": 70.5,
      "step": 69890,
      "token_acc": 0.9251497005988024,
      "train_speed(iter/s)": 1.449234
    },
    {
      "epoch": 2.9945160875712267,
      "grad_norm": 3.6586549282073975,
      "learning_rate": 3.471309177618476e-05,
      "loss": 0.32270872592926025,
      "memory(GiB)": 70.5,
      "step": 69895,
      "token_acc": 0.9319727891156463,
      "train_speed(iter/s)": 1.449243
    },
    {
      "epoch": 2.9947303029004755,
      "grad_norm": 2.853086471557617,
      "learning_rate": 3.47066843925618e-05,
      "loss": 0.3115828275680542,
      "memory(GiB)": 70.5,
      "step": 69900,
      "token_acc": 0.9267399267399268,
      "train_speed(iter/s)": 1.449243
    },
    {
      "epoch": 2.9949445182297243,
      "grad_norm": 1.7497376203536987,
      "learning_rate": 3.4700277285991575e-05,
      "loss": 0.446243143081665,
      "memory(GiB)": 70.5,
      "step": 69905,
      "token_acc": 0.8980891719745223,
      "train_speed(iter/s)": 1.449241
    },
    {
      "epoch": 2.9951587335589736,
      "grad_norm": 3.473118543624878,
      "learning_rate": 3.469387045659019e-05,
      "loss": 0.4280991077423096,
      "memory(GiB)": 70.5,
      "step": 69910,
      "token_acc": 0.9152542372881356,
      "train_speed(iter/s)": 1.449242
    },
    {
      "epoch": 2.9953729488882224,
      "grad_norm": 4.569370269775391,
      "learning_rate": 3.4687463904473716e-05,
      "loss": 0.34952311515808104,
      "memory(GiB)": 70.5,
      "step": 69915,
      "token_acc": 0.9253246753246753,
      "train_speed(iter/s)": 1.449259
    },
    {
      "epoch": 2.995587164217471,
      "grad_norm": 0.8012757301330566,
      "learning_rate": 3.468105762975817e-05,
      "loss": 0.26681220531463623,
      "memory(GiB)": 70.5,
      "step": 69920,
      "token_acc": 0.9433962264150944,
      "train_speed(iter/s)": 1.449259
    },
    {
      "epoch": 2.9958013795467204,
      "grad_norm": 3.9596364498138428,
      "learning_rate": 3.467465163255966e-05,
      "loss": 0.3553952217102051,
      "memory(GiB)": 70.5,
      "step": 69925,
      "token_acc": 0.9344827586206896,
      "train_speed(iter/s)": 1.449257
    },
    {
      "epoch": 2.9960155948759692,
      "grad_norm": 0.1888272911310196,
      "learning_rate": 3.46682459129942e-05,
      "loss": 0.3860813856124878,
      "memory(GiB)": 70.5,
      "step": 69930,
      "token_acc": 0.9285714285714286,
      "train_speed(iter/s)": 1.449268
    },
    {
      "epoch": 2.996229810205218,
      "grad_norm": 1.517104983329773,
      "learning_rate": 3.466184047117784e-05,
      "loss": 0.578999137878418,
      "memory(GiB)": 70.5,
      "step": 69935,
      "token_acc": 0.8740458015267175,
      "train_speed(iter/s)": 1.449283
    },
    {
      "epoch": 2.9964440255344673,
      "grad_norm": 2.0513668060302734,
      "learning_rate": 3.4655435307226645e-05,
      "loss": 0.17950005531311036,
      "memory(GiB)": 70.5,
      "step": 69940,
      "token_acc": 0.9580838323353293,
      "train_speed(iter/s)": 1.449279
    },
    {
      "epoch": 2.996658240863716,
      "grad_norm": 4.597748279571533,
      "learning_rate": 3.4649030421256625e-05,
      "loss": 0.3515637874603271,
      "memory(GiB)": 70.5,
      "step": 69945,
      "token_acc": 0.9369369369369369,
      "train_speed(iter/s)": 1.449288
    },
    {
      "epoch": 2.996872456192965,
      "grad_norm": 1.9216856956481934,
      "learning_rate": 3.464262581338382e-05,
      "loss": 0.4755709648132324,
      "memory(GiB)": 70.5,
      "step": 69950,
      "token_acc": 0.8966789667896679,
      "train_speed(iter/s)": 1.449296
    },
    {
      "epoch": 2.997086671522214,
      "grad_norm": 7.402816295623779,
      "learning_rate": 3.463622148372426e-05,
      "loss": 0.44165792465209963,
      "memory(GiB)": 70.5,
      "step": 69955,
      "token_acc": 0.8955823293172691,
      "train_speed(iter/s)": 1.449296
    },
    {
      "epoch": 2.997300886851463,
      "grad_norm": 3.323026418685913,
      "learning_rate": 3.462981743239394e-05,
      "loss": 0.38926947116851807,
      "memory(GiB)": 70.5,
      "step": 69960,
      "token_acc": 0.9121621621621622,
      "train_speed(iter/s)": 1.449302
    },
    {
      "epoch": 2.997515102180712,
      "grad_norm": 1.5634368658065796,
      "learning_rate": 3.46234136595089e-05,
      "loss": 0.37364811897277833,
      "memory(GiB)": 70.5,
      "step": 69965,
      "token_acc": 0.9263157894736842,
      "train_speed(iter/s)": 1.449302
    },
    {
      "epoch": 2.997729317509961,
      "grad_norm": 0.7970244884490967,
      "learning_rate": 3.461701016518516e-05,
      "loss": 0.3683542490005493,
      "memory(GiB)": 70.5,
      "step": 69970,
      "token_acc": 0.9031007751937985,
      "train_speed(iter/s)": 1.449297
    },
    {
      "epoch": 2.99794353283921,
      "grad_norm": 1.312032699584961,
      "learning_rate": 3.461060694953871e-05,
      "loss": 0.37275333404541017,
      "memory(GiB)": 70.5,
      "step": 69975,
      "token_acc": 0.9295039164490861,
      "train_speed(iter/s)": 1.449305
    },
    {
      "epoch": 2.9981577481684587,
      "grad_norm": 0.46260589361190796,
      "learning_rate": 3.4604204012685546e-05,
      "loss": 0.4927990436553955,
      "memory(GiB)": 70.5,
      "step": 69980,
      "token_acc": 0.9166666666666666,
      "train_speed(iter/s)": 1.449323
    },
    {
      "epoch": 2.998371963497708,
      "grad_norm": 3.329115152359009,
      "learning_rate": 3.459780135474168e-05,
      "loss": 0.5110931396484375,
      "memory(GiB)": 70.5,
      "step": 69985,
      "token_acc": 0.9017857142857143,
      "train_speed(iter/s)": 1.449327
    },
    {
      "epoch": 2.9985861788269568,
      "grad_norm": 3.7869341373443604,
      "learning_rate": 3.4591398975823084e-05,
      "loss": 0.3825204372406006,
      "memory(GiB)": 70.5,
      "step": 69990,
      "token_acc": 0.921311475409836,
      "train_speed(iter/s)": 1.44933
    },
    {
      "epoch": 2.9988003941562056,
      "grad_norm": 3.8151602745056152,
      "learning_rate": 3.458499687604575e-05,
      "loss": 0.33081612586975095,
      "memory(GiB)": 70.5,
      "step": 69995,
      "token_acc": 0.9360902255639098,
      "train_speed(iter/s)": 1.44934
    },
    {
      "epoch": 2.999014609485455,
      "grad_norm": 4.166277885437012,
      "learning_rate": 3.457859505552565e-05,
      "loss": 0.26952056884765624,
      "memory(GiB)": 70.5,
      "step": 70000,
      "token_acc": 0.9616613418530351,
      "train_speed(iter/s)": 1.449347
    },
    {
      "epoch": 2.999014609485455,
      "eval_loss": 2.4707815647125244,
      "eval_runtime": 12.4314,
      "eval_samples_per_second": 8.044,
      "eval_steps_per_second": 8.044,
      "eval_token_acc": 0.45007235890014474,
      "step": 70000
    },
    {
      "epoch": 2.9992288248147037,
      "grad_norm": 0.4950673282146454,
      "learning_rate": 3.457219351437877e-05,
      "loss": 0.2612674951553345,
      "memory(GiB)": 70.5,
      "step": 70005,
      "token_acc": 0.6208842897460018,
      "train_speed(iter/s)": 1.44896
    },
    {
      "epoch": 2.9994430401439525,
      "grad_norm": 9.471419334411621,
      "learning_rate": 3.456579225272109e-05,
      "loss": 0.3526965618133545,
      "memory(GiB)": 70.5,
      "step": 70010,
      "token_acc": 0.9344262295081968,
      "train_speed(iter/s)": 1.448974
    },
    {
      "epoch": 2.9996572554732017,
      "grad_norm": 1.6679025888442993,
      "learning_rate": 3.4559391270668554e-05,
      "loss": 0.20439956188201905,
      "memory(GiB)": 70.5,
      "step": 70015,
      "token_acc": 0.9644012944983819,
      "train_speed(iter/s)": 1.448981
    },
    {
      "epoch": 2.9998714708024505,
      "grad_norm": 2.476112127304077,
      "learning_rate": 3.4552990568337124e-05,
      "loss": 0.2944769382476807,
      "memory(GiB)": 70.5,
      "step": 70020,
      "token_acc": 0.9310344827586207,
      "train_speed(iter/s)": 1.448982
    },
    {
      "epoch": 3.0000856861317,
      "grad_norm": 3.8696885108947754,
      "learning_rate": 3.454659014584277e-05,
      "loss": 0.3392754077911377,
      "memory(GiB)": 70.5,
      "step": 70025,
      "token_acc": 0.9254237288135593,
      "train_speed(iter/s)": 1.448995
    },
    {
      "epoch": 3.0002999014609486,
      "grad_norm": 4.508812427520752,
      "learning_rate": 3.4540190003301434e-05,
      "loss": 0.2966590642929077,
      "memory(GiB)": 70.5,
      "step": 70030,
      "token_acc": 0.9460431654676259,
      "train_speed(iter/s)": 1.449
    },
    {
      "epoch": 3.0005141167901974,
      "grad_norm": 2.7108707427978516,
      "learning_rate": 3.453379014082902e-05,
      "loss": 0.22948045730590821,
      "memory(GiB)": 70.5,
      "step": 70035,
      "token_acc": 0.9430604982206405,
      "train_speed(iter/s)": 1.449006
    },
    {
      "epoch": 3.0007283321194467,
      "grad_norm": 7.326935768127441,
      "learning_rate": 3.452739055854154e-05,
      "loss": 0.4958390235900879,
      "memory(GiB)": 70.5,
      "step": 70040,
      "token_acc": 0.9121621621621622,
      "train_speed(iter/s)": 1.449011
    },
    {
      "epoch": 3.0009425474486955,
      "grad_norm": 2.657395124435425,
      "learning_rate": 3.4520991256554895e-05,
      "loss": 0.2622621297836304,
      "memory(GiB)": 70.5,
      "step": 70045,
      "token_acc": 0.9423076923076923,
      "train_speed(iter/s)": 1.449022
    },
    {
      "epoch": 3.0011567627779443,
      "grad_norm": 1.821048617362976,
      "learning_rate": 3.4514592234985006e-05,
      "loss": 0.5631406307220459,
      "memory(GiB)": 70.5,
      "step": 70050,
      "token_acc": 0.8908450704225352,
      "train_speed(iter/s)": 1.449044
    },
    {
      "epoch": 3.0013709781071936,
      "grad_norm": 3.219217538833618,
      "learning_rate": 3.4508193493947816e-05,
      "loss": 0.29300708770751954,
      "memory(GiB)": 70.5,
      "step": 70055,
      "token_acc": 0.9377162629757786,
      "train_speed(iter/s)": 1.449053
    },
    {
      "epoch": 3.0015851934364424,
      "grad_norm": 2.4516115188598633,
      "learning_rate": 3.4501795033559224e-05,
      "loss": 0.4560965061187744,
      "memory(GiB)": 70.5,
      "step": 70060,
      "token_acc": 0.916955017301038,
      "train_speed(iter/s)": 1.449062
    },
    {
      "epoch": 3.001799408765691,
      "grad_norm": 1.7122242450714111,
      "learning_rate": 3.449539685393516e-05,
      "loss": 0.328051233291626,
      "memory(GiB)": 70.5,
      "step": 70065,
      "token_acc": 0.9433962264150944,
      "train_speed(iter/s)": 1.449065
    },
    {
      "epoch": 3.0020136240949404,
      "grad_norm": 2.706934690475464,
      "learning_rate": 3.448899895519152e-05,
      "loss": 0.2566171884536743,
      "memory(GiB)": 70.5,
      "step": 70070,
      "token_acc": 0.9419795221843004,
      "train_speed(iter/s)": 1.449064
    },
    {
      "epoch": 3.0022278394241892,
      "grad_norm": 1.6026099920272827,
      "learning_rate": 3.448260133744422e-05,
      "loss": 0.2414872646331787,
      "memory(GiB)": 70.5,
      "step": 70075,
      "token_acc": 0.9381443298969072,
      "train_speed(iter/s)": 1.449062
    },
    {
      "epoch": 3.002442054753438,
      "grad_norm": 4.562417507171631,
      "learning_rate": 3.4476204000809145e-05,
      "loss": 0.3697316646575928,
      "memory(GiB)": 70.5,
      "step": 70080,
      "token_acc": 0.9262295081967213,
      "train_speed(iter/s)": 1.44906
    },
    {
      "epoch": 3.0026562700826873,
      "grad_norm": 9.416361808776855,
      "learning_rate": 3.446980694540221e-05,
      "loss": 0.7113440990447998,
      "memory(GiB)": 70.5,
      "step": 70085,
      "token_acc": 0.8561151079136691,
      "train_speed(iter/s)": 1.449075
    },
    {
      "epoch": 3.002870485411936,
      "grad_norm": 1.482348084449768,
      "learning_rate": 3.4463410171339275e-05,
      "loss": 0.4616390705108643,
      "memory(GiB)": 70.5,
      "step": 70090,
      "token_acc": 0.8916666666666667,
      "train_speed(iter/s)": 1.449072
    },
    {
      "epoch": 3.003084700741185,
      "grad_norm": 5.6302103996276855,
      "learning_rate": 3.445701367873625e-05,
      "loss": 0.28217430114746095,
      "memory(GiB)": 70.5,
      "step": 70095,
      "token_acc": 0.9230769230769231,
      "train_speed(iter/s)": 1.449071
    },
    {
      "epoch": 3.003298916070434,
      "grad_norm": 6.643440246582031,
      "learning_rate": 3.445061746770901e-05,
      "loss": 0.3551944255828857,
      "memory(GiB)": 70.5,
      "step": 70100,
      "token_acc": 0.9204152249134948,
      "train_speed(iter/s)": 1.449079
    },
    {
      "epoch": 3.003513131399683,
      "grad_norm": 4.714687347412109,
      "learning_rate": 3.444422153837339e-05,
      "loss": 0.4552613735198975,
      "memory(GiB)": 70.5,
      "step": 70105,
      "token_acc": 0.9137380191693291,
      "train_speed(iter/s)": 1.449098
    },
    {
      "epoch": 3.003727346728932,
      "grad_norm": 5.62851095199585,
      "learning_rate": 3.443782589084531e-05,
      "loss": 0.3890983581542969,
      "memory(GiB)": 70.5,
      "step": 70110,
      "token_acc": 0.9306930693069307,
      "train_speed(iter/s)": 1.449101
    },
    {
      "epoch": 3.003941562058181,
      "grad_norm": 4.421396732330322,
      "learning_rate": 3.443143052524062e-05,
      "loss": 0.7382236003875733,
      "memory(GiB)": 70.5,
      "step": 70115,
      "token_acc": 0.8714285714285714,
      "train_speed(iter/s)": 1.449116
    },
    {
      "epoch": 3.00415577738743,
      "grad_norm": 2.9117743968963623,
      "learning_rate": 3.4425035441675165e-05,
      "loss": 0.4397408485412598,
      "memory(GiB)": 70.5,
      "step": 70120,
      "token_acc": 0.9039735099337748,
      "train_speed(iter/s)": 1.449112
    },
    {
      "epoch": 3.0043699927166787,
      "grad_norm": 1.0290496349334717,
      "learning_rate": 3.441864064026479e-05,
      "loss": 0.3223510026931763,
      "memory(GiB)": 70.5,
      "step": 70125,
      "token_acc": 0.927710843373494,
      "train_speed(iter/s)": 1.449127
    },
    {
      "epoch": 3.004584208045928,
      "grad_norm": 3.6548774242401123,
      "learning_rate": 3.441224612112538e-05,
      "loss": 0.35512428283691405,
      "memory(GiB)": 70.5,
      "step": 70130,
      "token_acc": 0.9426751592356688,
      "train_speed(iter/s)": 1.449129
    },
    {
      "epoch": 3.0047984233751768,
      "grad_norm": 3.4254934787750244,
      "learning_rate": 3.440585188437273e-05,
      "loss": 0.44026947021484375,
      "memory(GiB)": 70.5,
      "step": 70135,
      "token_acc": 0.8947368421052632,
      "train_speed(iter/s)": 1.449157
    },
    {
      "epoch": 3.0050126387044256,
      "grad_norm": 2.5497684478759766,
      "learning_rate": 3.439945793012272e-05,
      "loss": 0.4997386455535889,
      "memory(GiB)": 70.5,
      "step": 70140,
      "token_acc": 0.8918918918918919,
      "train_speed(iter/s)": 1.449158
    },
    {
      "epoch": 3.005226854033675,
      "grad_norm": 2.5575125217437744,
      "learning_rate": 3.439306425849116e-05,
      "loss": 0.427642822265625,
      "memory(GiB)": 70.5,
      "step": 70145,
      "token_acc": 0.8840125391849529,
      "train_speed(iter/s)": 1.44916
    },
    {
      "epoch": 3.0054410693629237,
      "grad_norm": 1.6778268814086914,
      "learning_rate": 3.438667086959388e-05,
      "loss": 0.22439355850219728,
      "memory(GiB)": 70.5,
      "step": 70150,
      "token_acc": 0.9504373177842566,
      "train_speed(iter/s)": 1.449156
    },
    {
      "epoch": 3.0056552846921725,
      "grad_norm": 2.689460039138794,
      "learning_rate": 3.438027776354671e-05,
      "loss": 0.41068143844604493,
      "memory(GiB)": 70.5,
      "step": 70155,
      "token_acc": 0.9054054054054054,
      "train_speed(iter/s)": 1.449156
    },
    {
      "epoch": 3.0058695000214217,
      "grad_norm": 4.275911808013916,
      "learning_rate": 3.437388494046545e-05,
      "loss": 0.23390092849731445,
      "memory(GiB)": 70.5,
      "step": 70160,
      "token_acc": 0.9390681003584229,
      "train_speed(iter/s)": 1.449163
    },
    {
      "epoch": 3.0060837153506705,
      "grad_norm": 0.910779595375061,
      "learning_rate": 3.4367492400465926e-05,
      "loss": 0.3882563829421997,
      "memory(GiB)": 70.5,
      "step": 70165,
      "token_acc": 0.9149659863945578,
      "train_speed(iter/s)": 1.449177
    },
    {
      "epoch": 3.0062979306799194,
      "grad_norm": 4.198979377746582,
      "learning_rate": 3.436110014366395e-05,
      "loss": 0.3504700899124146,
      "memory(GiB)": 70.5,
      "step": 70170,
      "token_acc": 0.9270833333333334,
      "train_speed(iter/s)": 1.449188
    },
    {
      "epoch": 3.0065121460091686,
      "grad_norm": 0.6156359910964966,
      "learning_rate": 3.4354708170175296e-05,
      "loss": 0.3847563982009888,
      "memory(GiB)": 70.5,
      "step": 70175,
      "token_acc": 0.9090909090909091,
      "train_speed(iter/s)": 1.449208
    },
    {
      "epoch": 3.0067263613384174,
      "grad_norm": 2.081590175628662,
      "learning_rate": 3.4348316480115786e-05,
      "loss": 0.4013237476348877,
      "memory(GiB)": 70.5,
      "step": 70180,
      "token_acc": 0.9131944444444444,
      "train_speed(iter/s)": 1.449212
    },
    {
      "epoch": 3.0069405766676662,
      "grad_norm": 2.749084234237671,
      "learning_rate": 3.4341925073601206e-05,
      "loss": 0.43490986824035643,
      "memory(GiB)": 70.5,
      "step": 70185,
      "token_acc": 0.9029850746268657,
      "train_speed(iter/s)": 1.44922
    },
    {
      "epoch": 3.0071547919969155,
      "grad_norm": 4.816529750823975,
      "learning_rate": 3.433553395074735e-05,
      "loss": 0.4981724739074707,
      "memory(GiB)": 70.5,
      "step": 70190,
      "token_acc": 0.8929889298892989,
      "train_speed(iter/s)": 1.449224
    },
    {
      "epoch": 3.0073690073261643,
      "grad_norm": 3.7480580806732178,
      "learning_rate": 3.432914311166998e-05,
      "loss": 0.23621795177459717,
      "memory(GiB)": 70.5,
      "step": 70195,
      "token_acc": 0.9512195121951219,
      "train_speed(iter/s)": 1.449221
    },
    {
      "epoch": 3.007583222655413,
      "grad_norm": 2.765289545059204,
      "learning_rate": 3.4322752556484896e-05,
      "loss": 0.30035374164581297,
      "memory(GiB)": 70.5,
      "step": 70200,
      "token_acc": 0.9264705882352942,
      "train_speed(iter/s)": 1.449224
    },
    {
      "epoch": 3.0077974379846624,
      "grad_norm": 2.708510160446167,
      "learning_rate": 3.4316362285307854e-05,
      "loss": 0.32959280014038084,
      "memory(GiB)": 70.5,
      "step": 70205,
      "token_acc": 0.9305993690851735,
      "train_speed(iter/s)": 1.449227
    },
    {
      "epoch": 3.008011653313911,
      "grad_norm": 2.292823076248169,
      "learning_rate": 3.430997229825462e-05,
      "loss": 0.3684540748596191,
      "memory(GiB)": 70.5,
      "step": 70210,
      "token_acc": 0.9131652661064426,
      "train_speed(iter/s)": 1.449226
    },
    {
      "epoch": 3.00822586864316,
      "grad_norm": 3.683666467666626,
      "learning_rate": 3.430358259544095e-05,
      "loss": 0.2548251152038574,
      "memory(GiB)": 70.5,
      "step": 70215,
      "token_acc": 0.9411764705882353,
      "train_speed(iter/s)": 1.44923
    },
    {
      "epoch": 3.0084400839724093,
      "grad_norm": 2.6410250663757324,
      "learning_rate": 3.429719317698262e-05,
      "loss": 0.5160991668701171,
      "memory(GiB)": 70.5,
      "step": 70220,
      "token_acc": 0.8845070422535212,
      "train_speed(iter/s)": 1.449238
    },
    {
      "epoch": 3.008654299301658,
      "grad_norm": 4.475489616394043,
      "learning_rate": 3.429080404299535e-05,
      "loss": 0.7672794818878174,
      "memory(GiB)": 70.5,
      "step": 70225,
      "token_acc": 0.8327402135231317,
      "train_speed(iter/s)": 1.449241
    },
    {
      "epoch": 3.008868514630907,
      "grad_norm": 2.9463694095611572,
      "learning_rate": 3.428441519359491e-05,
      "loss": 0.2415137767791748,
      "memory(GiB)": 70.5,
      "step": 70230,
      "token_acc": 0.9413919413919414,
      "train_speed(iter/s)": 1.449248
    },
    {
      "epoch": 3.009082729960156,
      "grad_norm": 11.273773193359375,
      "learning_rate": 3.4278026628897024e-05,
      "loss": 0.2512695074081421,
      "memory(GiB)": 70.5,
      "step": 70235,
      "token_acc": 0.9337539432176656,
      "train_speed(iter/s)": 1.449248
    },
    {
      "epoch": 3.009296945289405,
      "grad_norm": 5.337444305419922,
      "learning_rate": 3.427163834901744e-05,
      "loss": 0.2638846874237061,
      "memory(GiB)": 70.5,
      "step": 70240,
      "token_acc": 0.941747572815534,
      "train_speed(iter/s)": 1.449256
    },
    {
      "epoch": 3.0095111606186538,
      "grad_norm": 3.557936429977417,
      "learning_rate": 3.426525035407189e-05,
      "loss": 0.316574239730835,
      "memory(GiB)": 70.5,
      "step": 70245,
      "token_acc": 0.9347181008902077,
      "train_speed(iter/s)": 1.449276
    },
    {
      "epoch": 3.009725375947903,
      "grad_norm": 2.702331781387329,
      "learning_rate": 3.425886264417607e-05,
      "loss": 0.4667813301086426,
      "memory(GiB)": 70.5,
      "step": 70250,
      "token_acc": 0.8989547038327527,
      "train_speed(iter/s)": 1.449298
    },
    {
      "epoch": 3.009939591277152,
      "grad_norm": 1.012547492980957,
      "learning_rate": 3.425247521944572e-05,
      "loss": 0.3875896692276001,
      "memory(GiB)": 70.5,
      "step": 70255,
      "token_acc": 0.9438596491228071,
      "train_speed(iter/s)": 1.449322
    },
    {
      "epoch": 3.0101538066064006,
      "grad_norm": 2.608840227127075,
      "learning_rate": 3.424608807999656e-05,
      "loss": 0.4999388694763184,
      "memory(GiB)": 70.5,
      "step": 70260,
      "token_acc": 0.9090909090909091,
      "train_speed(iter/s)": 1.449327
    },
    {
      "epoch": 3.01036802193565,
      "grad_norm": 0.0792476162314415,
      "learning_rate": 3.423970122594431e-05,
      "loss": 0.21458892822265624,
      "memory(GiB)": 70.5,
      "step": 70265,
      "token_acc": 0.9431818181818182,
      "train_speed(iter/s)": 1.44933
    },
    {
      "epoch": 3.0105822372648987,
      "grad_norm": 1.6878767013549805,
      "learning_rate": 3.423331465740463e-05,
      "loss": 0.3215686559677124,
      "memory(GiB)": 70.5,
      "step": 70270,
      "token_acc": 0.927797833935018,
      "train_speed(iter/s)": 1.449334
    },
    {
      "epoch": 3.0107964525941475,
      "grad_norm": 0.8255846500396729,
      "learning_rate": 3.4226928374493275e-05,
      "loss": 0.19720306396484374,
      "memory(GiB)": 70.5,
      "step": 70275,
      "token_acc": 0.9464285714285714,
      "train_speed(iter/s)": 1.449342
    },
    {
      "epoch": 3.0110106679233968,
      "grad_norm": 3.593550682067871,
      "learning_rate": 3.422054237732588e-05,
      "loss": 0.471142053604126,
      "memory(GiB)": 70.5,
      "step": 70280,
      "token_acc": 0.907185628742515,
      "train_speed(iter/s)": 1.449345
    },
    {
      "epoch": 3.0112248832526456,
      "grad_norm": 3.3334853649139404,
      "learning_rate": 3.421415666601818e-05,
      "loss": 0.6976078510284424,
      "memory(GiB)": 70.5,
      "step": 70285,
      "token_acc": 0.8293515358361775,
      "train_speed(iter/s)": 1.449369
    },
    {
      "epoch": 3.0114390985818944,
      "grad_norm": 6.0684614181518555,
      "learning_rate": 3.420777124068584e-05,
      "loss": 0.5113982677459716,
      "memory(GiB)": 70.5,
      "step": 70290,
      "token_acc": 0.8949044585987261,
      "train_speed(iter/s)": 1.449379
    },
    {
      "epoch": 3.0116533139111437,
      "grad_norm": 2.3700718879699707,
      "learning_rate": 3.4201386101444524e-05,
      "loss": 0.2922682285308838,
      "memory(GiB)": 70.5,
      "step": 70295,
      "token_acc": 0.9309309309309309,
      "train_speed(iter/s)": 1.449379
    },
    {
      "epoch": 3.0118675292403925,
      "grad_norm": 0.6475743055343628,
      "learning_rate": 3.419500124840994e-05,
      "loss": 0.430401611328125,
      "memory(GiB)": 70.5,
      "step": 70300,
      "token_acc": 0.8850574712643678,
      "train_speed(iter/s)": 1.449378
    },
    {
      "epoch": 3.0120817445696413,
      "grad_norm": 5.104653358459473,
      "learning_rate": 3.418861668169773e-05,
      "loss": 0.21427621841430664,
      "memory(GiB)": 70.5,
      "step": 70305,
      "token_acc": 0.9204892966360856,
      "train_speed(iter/s)": 1.449377
    },
    {
      "epoch": 3.0122959598988905,
      "grad_norm": 3.318659782409668,
      "learning_rate": 3.4182232401423544e-05,
      "loss": 0.3986325740814209,
      "memory(GiB)": 70.5,
      "step": 70310,
      "token_acc": 0.9138576779026217,
      "train_speed(iter/s)": 1.449375
    },
    {
      "epoch": 3.0125101752281394,
      "grad_norm": 2.617499351501465,
      "learning_rate": 3.417584840770307e-05,
      "loss": 0.32375140190124513,
      "memory(GiB)": 70.5,
      "step": 70315,
      "token_acc": 0.9236641221374046,
      "train_speed(iter/s)": 1.449414
    },
    {
      "epoch": 3.012724390557388,
      "grad_norm": 1.4143368005752563,
      "learning_rate": 3.416946470065193e-05,
      "loss": 0.13687047958374024,
      "memory(GiB)": 70.5,
      "step": 70320,
      "token_acc": 0.96415770609319,
      "train_speed(iter/s)": 1.449416
    },
    {
      "epoch": 3.0129386058866374,
      "grad_norm": 4.591506004333496,
      "learning_rate": 3.416308128038581e-05,
      "loss": 0.4509040355682373,
      "memory(GiB)": 70.5,
      "step": 70325,
      "token_acc": 0.9169139465875371,
      "train_speed(iter/s)": 1.449437
    },
    {
      "epoch": 3.0131528212158862,
      "grad_norm": 0.6790614724159241,
      "learning_rate": 3.415669814702031e-05,
      "loss": 0.2253645896911621,
      "memory(GiB)": 70.5,
      "step": 70330,
      "token_acc": 0.935374149659864,
      "train_speed(iter/s)": 1.449442
    },
    {
      "epoch": 3.013367036545135,
      "grad_norm": 6.076555252075195,
      "learning_rate": 3.415031530067109e-05,
      "loss": 0.2893320322036743,
      "memory(GiB)": 70.5,
      "step": 70335,
      "token_acc": 0.9311594202898551,
      "train_speed(iter/s)": 1.449442
    },
    {
      "epoch": 3.0135812518743843,
      "grad_norm": 2.122633457183838,
      "learning_rate": 3.414393274145378e-05,
      "loss": 0.2631540060043335,
      "memory(GiB)": 70.5,
      "step": 70340,
      "token_acc": 0.9435215946843853,
      "train_speed(iter/s)": 1.449442
    },
    {
      "epoch": 3.013795467203633,
      "grad_norm": 4.690642833709717,
      "learning_rate": 3.4137550469484e-05,
      "loss": 0.3094993352890015,
      "memory(GiB)": 70.5,
      "step": 70345,
      "token_acc": 0.9330543933054394,
      "train_speed(iter/s)": 1.449445
    },
    {
      "epoch": 3.014009682532882,
      "grad_norm": 0.37947383522987366,
      "learning_rate": 3.4131168484877385e-05,
      "loss": 0.3379755735397339,
      "memory(GiB)": 70.5,
      "step": 70350,
      "token_acc": 0.910828025477707,
      "train_speed(iter/s)": 1.449461
    },
    {
      "epoch": 3.014223897862131,
      "grad_norm": 0.8652358651161194,
      "learning_rate": 3.412478678774952e-05,
      "loss": 0.3286309719085693,
      "memory(GiB)": 70.5,
      "step": 70355,
      "token_acc": 0.9122807017543859,
      "train_speed(iter/s)": 1.449497
    },
    {
      "epoch": 3.01443811319138,
      "grad_norm": 7.012746810913086,
      "learning_rate": 3.4118405378216056e-05,
      "loss": 0.5886387825012207,
      "memory(GiB)": 70.5,
      "step": 70360,
      "token_acc": 0.881578947368421,
      "train_speed(iter/s)": 1.449495
    },
    {
      "epoch": 3.014652328520629,
      "grad_norm": 3.0213301181793213,
      "learning_rate": 3.411202425639257e-05,
      "loss": 0.32210052013397217,
      "memory(GiB)": 70.5,
      "step": 70365,
      "token_acc": 0.9153846153846154,
      "train_speed(iter/s)": 1.449499
    },
    {
      "epoch": 3.014866543849878,
      "grad_norm": 2.072995662689209,
      "learning_rate": 3.410564342239466e-05,
      "loss": 0.4133634090423584,
      "memory(GiB)": 70.5,
      "step": 70370,
      "token_acc": 0.9142857142857143,
      "train_speed(iter/s)": 1.449505
    },
    {
      "epoch": 3.015080759179127,
      "grad_norm": 1.2702866792678833,
      "learning_rate": 3.409926287633793e-05,
      "loss": 0.313975191116333,
      "memory(GiB)": 70.5,
      "step": 70375,
      "token_acc": 0.9260450160771704,
      "train_speed(iter/s)": 1.449509
    },
    {
      "epoch": 3.0152949745083757,
      "grad_norm": 2.973428249359131,
      "learning_rate": 3.409288261833797e-05,
      "loss": 0.3067629814147949,
      "memory(GiB)": 70.5,
      "step": 70380,
      "token_acc": 0.9275862068965517,
      "train_speed(iter/s)": 1.449518
    },
    {
      "epoch": 3.015509189837625,
      "grad_norm": 3.0751497745513916,
      "learning_rate": 3.408650264851038e-05,
      "loss": 0.3618943214416504,
      "memory(GiB)": 70.5,
      "step": 70385,
      "token_acc": 0.9381443298969072,
      "train_speed(iter/s)": 1.449516
    },
    {
      "epoch": 3.0157234051668738,
      "grad_norm": 2.5677008628845215,
      "learning_rate": 3.4080122966970705e-05,
      "loss": 0.2884681701660156,
      "memory(GiB)": 70.5,
      "step": 70390,
      "token_acc": 0.938953488372093,
      "train_speed(iter/s)": 1.449513
    },
    {
      "epoch": 3.0159376204961226,
      "grad_norm": 4.124676704406738,
      "learning_rate": 3.4073743573834535e-05,
      "loss": 0.468072509765625,
      "memory(GiB)": 70.5,
      "step": 70395,
      "token_acc": 0.9090909090909091,
      "train_speed(iter/s)": 1.449521
    },
    {
      "epoch": 3.016151835825372,
      "grad_norm": 10.353225708007812,
      "learning_rate": 3.406736446921743e-05,
      "loss": 0.46955041885375975,
      "memory(GiB)": 70.5,
      "step": 70400,
      "token_acc": 0.9083333333333333,
      "train_speed(iter/s)": 1.449535
    },
    {
      "epoch": 3.0163660511546206,
      "grad_norm": 5.0717291831970215,
      "learning_rate": 3.406098565323499e-05,
      "loss": 0.4505149841308594,
      "memory(GiB)": 70.5,
      "step": 70405,
      "token_acc": 0.9074733096085409,
      "train_speed(iter/s)": 1.449551
    },
    {
      "epoch": 3.0165802664838695,
      "grad_norm": 5.809447288513184,
      "learning_rate": 3.4054607126002734e-05,
      "loss": 0.2838095426559448,
      "memory(GiB)": 70.5,
      "step": 70410,
      "token_acc": 0.9325842696629213,
      "train_speed(iter/s)": 1.449556
    },
    {
      "epoch": 3.0167944818131187,
      "grad_norm": 4.036857604980469,
      "learning_rate": 3.404822888763623e-05,
      "loss": 0.24555978775024415,
      "memory(GiB)": 70.5,
      "step": 70415,
      "token_acc": 0.9360902255639098,
      "train_speed(iter/s)": 1.449573
    },
    {
      "epoch": 3.0170086971423675,
      "grad_norm": 2.86064076423645,
      "learning_rate": 3.404185093825103e-05,
      "loss": 0.607453727722168,
      "memory(GiB)": 70.5,
      "step": 70420,
      "token_acc": 0.900355871886121,
      "train_speed(iter/s)": 1.449573
    },
    {
      "epoch": 3.0172229124716163,
      "grad_norm": 4.690732479095459,
      "learning_rate": 3.403547327796266e-05,
      "loss": 0.30834188461303713,
      "memory(GiB)": 70.5,
      "step": 70425,
      "token_acc": 0.9467084639498433,
      "train_speed(iter/s)": 1.449578
    },
    {
      "epoch": 3.0174371278008656,
      "grad_norm": 1.773501992225647,
      "learning_rate": 3.4029095906886676e-05,
      "loss": 0.26253390312194824,
      "memory(GiB)": 70.5,
      "step": 70430,
      "token_acc": 0.9298892988929889,
      "train_speed(iter/s)": 1.44958
    },
    {
      "epoch": 3.0176513431301144,
      "grad_norm": 2.037996768951416,
      "learning_rate": 3.40227188251386e-05,
      "loss": 0.18847419023513795,
      "memory(GiB)": 70.5,
      "step": 70435,
      "token_acc": 0.9566666666666667,
      "train_speed(iter/s)": 1.449595
    },
    {
      "epoch": 3.017865558459363,
      "grad_norm": 2.835047960281372,
      "learning_rate": 3.401634203283395e-05,
      "loss": 0.6443010330200195,
      "memory(GiB)": 70.5,
      "step": 70440,
      "token_acc": 0.8565891472868217,
      "train_speed(iter/s)": 1.449605
    },
    {
      "epoch": 3.0180797737886125,
      "grad_norm": 2.616880416870117,
      "learning_rate": 3.4009965530088274e-05,
      "loss": 0.28308155536651614,
      "memory(GiB)": 70.5,
      "step": 70445,
      "token_acc": 0.9243697478991597,
      "train_speed(iter/s)": 1.449621
    },
    {
      "epoch": 3.0182939891178613,
      "grad_norm": 3.2157466411590576,
      "learning_rate": 3.4003589317017074e-05,
      "loss": 0.3926701545715332,
      "memory(GiB)": 70.5,
      "step": 70450,
      "token_acc": 0.9235474006116208,
      "train_speed(iter/s)": 1.449614
    },
    {
      "epoch": 3.01850820444711,
      "grad_norm": 3.7816200256347656,
      "learning_rate": 3.399721339373584e-05,
      "loss": 0.34666850566864016,
      "memory(GiB)": 70.5,
      "step": 70455,
      "token_acc": 0.9145299145299145,
      "train_speed(iter/s)": 1.449629
    },
    {
      "epoch": 3.0187224197763594,
      "grad_norm": 2.4959566593170166,
      "learning_rate": 3.3990837760360106e-05,
      "loss": 0.4360086917877197,
      "memory(GiB)": 70.5,
      "step": 70460,
      "token_acc": 0.9039039039039038,
      "train_speed(iter/s)": 1.449632
    },
    {
      "epoch": 3.018936635105608,
      "grad_norm": 1.7150770425796509,
      "learning_rate": 3.398446241700536e-05,
      "loss": 0.36735217571258544,
      "memory(GiB)": 70.5,
      "step": 70465,
      "token_acc": 0.9287925696594427,
      "train_speed(iter/s)": 1.449644
    },
    {
      "epoch": 3.019150850434857,
      "grad_norm": 1.9935675859451294,
      "learning_rate": 3.397808736378711e-05,
      "loss": 0.43543457984924316,
      "memory(GiB)": 70.5,
      "step": 70470,
      "token_acc": 0.8876811594202898,
      "train_speed(iter/s)": 1.44965
    },
    {
      "epoch": 3.0193650657641062,
      "grad_norm": 1.5519392490386963,
      "learning_rate": 3.397171260082082e-05,
      "loss": 0.28419055938720705,
      "memory(GiB)": 70.5,
      "step": 70475,
      "token_acc": 0.9277566539923955,
      "train_speed(iter/s)": 1.449648
    },
    {
      "epoch": 3.019579281093355,
      "grad_norm": 8.211771011352539,
      "learning_rate": 3.3965338128222e-05,
      "loss": 0.2952070713043213,
      "memory(GiB)": 70.5,
      "step": 70480,
      "token_acc": 0.9117647058823529,
      "train_speed(iter/s)": 1.449659
    },
    {
      "epoch": 3.019793496422604,
      "grad_norm": 4.846519470214844,
      "learning_rate": 3.3958963946106126e-05,
      "loss": 0.4218573570251465,
      "memory(GiB)": 70.5,
      "step": 70485,
      "token_acc": 0.8996655518394648,
      "train_speed(iter/s)": 1.449662
    },
    {
      "epoch": 3.020007711751853,
      "grad_norm": 2.1833629608154297,
      "learning_rate": 3.3952590054588675e-05,
      "loss": 0.4641568183898926,
      "memory(GiB)": 70.5,
      "step": 70490,
      "token_acc": 0.8935361216730038,
      "train_speed(iter/s)": 1.449669
    },
    {
      "epoch": 3.020221927081102,
      "grad_norm": 4.975493431091309,
      "learning_rate": 3.394621645378511e-05,
      "loss": 0.5910791397094727,
      "memory(GiB)": 70.5,
      "step": 70495,
      "token_acc": 0.8708609271523179,
      "train_speed(iter/s)": 1.449679
    },
    {
      "epoch": 3.0204361424103507,
      "grad_norm": 0.8360894918441772,
      "learning_rate": 3.3939843143810874e-05,
      "loss": 0.18357405662536622,
      "memory(GiB)": 70.5,
      "step": 70500,
      "token_acc": 0.9429657794676806,
      "train_speed(iter/s)": 1.449689
    },
    {
      "epoch": 3.0204361424103507,
      "eval_loss": 2.4050495624542236,
      "eval_runtime": 11.3095,
      "eval_samples_per_second": 8.842,
      "eval_steps_per_second": 8.842,
      "eval_token_acc": 0.45860709592641263,
      "step": 70500
    },
    {
      "epoch": 3.0206503577396,
      "grad_norm": 3.805227518081665,
      "learning_rate": 3.3933470124781466e-05,
      "loss": 0.2439131736755371,
      "memory(GiB)": 70.5,
      "step": 70505,
      "token_acc": 0.5852713178294574,
      "train_speed(iter/s)": 1.449321
    },
    {
      "epoch": 3.020864573068849,
      "grad_norm": 3.314934253692627,
      "learning_rate": 3.3927097396812304e-05,
      "loss": 0.4360383987426758,
      "memory(GiB)": 70.5,
      "step": 70510,
      "token_acc": 0.9061371841155235,
      "train_speed(iter/s)": 1.449324
    },
    {
      "epoch": 3.0210787883980976,
      "grad_norm": 1.1006669998168945,
      "learning_rate": 3.3920724960018856e-05,
      "loss": 0.49227347373962405,
      "memory(GiB)": 70.5,
      "step": 70515,
      "token_acc": 0.8954703832752613,
      "train_speed(iter/s)": 1.44932
    },
    {
      "epoch": 3.021293003727347,
      "grad_norm": 3.564971685409546,
      "learning_rate": 3.3914352814516556e-05,
      "loss": 0.45485563278198243,
      "memory(GiB)": 70.5,
      "step": 70520,
      "token_acc": 0.8932926829268293,
      "train_speed(iter/s)": 1.449331
    },
    {
      "epoch": 3.0215072190565957,
      "grad_norm": 4.114902019500732,
      "learning_rate": 3.390798096042085e-05,
      "loss": 0.35423669815063474,
      "memory(GiB)": 70.5,
      "step": 70525,
      "token_acc": 0.9238410596026491,
      "train_speed(iter/s)": 1.449338
    },
    {
      "epoch": 3.0217214343858445,
      "grad_norm": 3.4866387844085693,
      "learning_rate": 3.390160939784716e-05,
      "loss": 0.6280174732208252,
      "memory(GiB)": 70.5,
      "step": 70530,
      "token_acc": 0.8754325259515571,
      "train_speed(iter/s)": 1.449353
    },
    {
      "epoch": 3.0219356497150938,
      "grad_norm": 4.422408103942871,
      "learning_rate": 3.3895238126910924e-05,
      "loss": 0.6231905460357666,
      "memory(GiB)": 70.5,
      "step": 70535,
      "token_acc": 0.8662790697674418,
      "train_speed(iter/s)": 1.449356
    },
    {
      "epoch": 3.0221498650443426,
      "grad_norm": 5.551548004150391,
      "learning_rate": 3.388886714772754e-05,
      "loss": 0.3972719669342041,
      "memory(GiB)": 70.5,
      "step": 70540,
      "token_acc": 0.896551724137931,
      "train_speed(iter/s)": 1.449359
    },
    {
      "epoch": 3.0223640803735914,
      "grad_norm": 4.326183795928955,
      "learning_rate": 3.388249646041246e-05,
      "loss": 0.7130504608154297,
      "memory(GiB)": 70.5,
      "step": 70545,
      "token_acc": 0.8666666666666667,
      "train_speed(iter/s)": 1.449382
    },
    {
      "epoch": 3.0225782957028406,
      "grad_norm": 0.7297135591506958,
      "learning_rate": 3.387612606508105e-05,
      "loss": 0.21407535076141357,
      "memory(GiB)": 70.5,
      "step": 70550,
      "token_acc": 0.9471830985915493,
      "train_speed(iter/s)": 1.449384
    },
    {
      "epoch": 3.0227925110320895,
      "grad_norm": 0.28670522570610046,
      "learning_rate": 3.386975596184877e-05,
      "loss": 0.6168899536132812,
      "memory(GiB)": 70.5,
      "step": 70555,
      "token_acc": 0.8881987577639752,
      "train_speed(iter/s)": 1.449395
    },
    {
      "epoch": 3.0230067263613383,
      "grad_norm": 4.212818145751953,
      "learning_rate": 3.3863386150830974e-05,
      "loss": 0.31611220836639403,
      "memory(GiB)": 70.5,
      "step": 70560,
      "token_acc": 0.9285714285714286,
      "train_speed(iter/s)": 1.449398
    },
    {
      "epoch": 3.0232209416905875,
      "grad_norm": 2.302762508392334,
      "learning_rate": 3.385701663214309e-05,
      "loss": 0.294032883644104,
      "memory(GiB)": 70.5,
      "step": 70565,
      "token_acc": 0.9254237288135593,
      "train_speed(iter/s)": 1.449405
    },
    {
      "epoch": 3.0234351570198363,
      "grad_norm": 0.20201076567173004,
      "learning_rate": 3.385064740590048e-05,
      "loss": 0.285203742980957,
      "memory(GiB)": 70.5,
      "step": 70570,
      "token_acc": 0.9422222222222222,
      "train_speed(iter/s)": 1.449417
    },
    {
      "epoch": 3.023649372349085,
      "grad_norm": 2.725642442703247,
      "learning_rate": 3.384427847221855e-05,
      "loss": 0.49435739517211913,
      "memory(GiB)": 70.5,
      "step": 70575,
      "token_acc": 0.8879781420765027,
      "train_speed(iter/s)": 1.449424
    },
    {
      "epoch": 3.0238635876783344,
      "grad_norm": 1.3901491165161133,
      "learning_rate": 3.383790983121267e-05,
      "loss": 0.4196625709533691,
      "memory(GiB)": 70.5,
      "step": 70580,
      "token_acc": 0.9226666666666666,
      "train_speed(iter/s)": 1.449424
    },
    {
      "epoch": 3.024077803007583,
      "grad_norm": 2.9642977714538574,
      "learning_rate": 3.3831541482998205e-05,
      "loss": 0.3774879455566406,
      "memory(GiB)": 70.5,
      "step": 70585,
      "token_acc": 0.9213836477987422,
      "train_speed(iter/s)": 1.449433
    },
    {
      "epoch": 3.024292018336832,
      "grad_norm": 5.43295955657959,
      "learning_rate": 3.3825173427690546e-05,
      "loss": 0.5706794738769532,
      "memory(GiB)": 70.5,
      "step": 70590,
      "token_acc": 0.906896551724138,
      "train_speed(iter/s)": 1.449447
    },
    {
      "epoch": 3.0245062336660813,
      "grad_norm": 2.661449432373047,
      "learning_rate": 3.381880566540505e-05,
      "loss": 0.46262273788452146,
      "memory(GiB)": 70.5,
      "step": 70595,
      "token_acc": 0.900355871886121,
      "train_speed(iter/s)": 1.44945
    },
    {
      "epoch": 3.02472044899533,
      "grad_norm": 4.311666488647461,
      "learning_rate": 3.381243819625705e-05,
      "loss": 0.22862367630004882,
      "memory(GiB)": 70.5,
      "step": 70600,
      "token_acc": 0.9419354838709677,
      "train_speed(iter/s)": 1.449453
    },
    {
      "epoch": 3.024934664324579,
      "grad_norm": 0.10888306051492691,
      "learning_rate": 3.380607102036193e-05,
      "loss": 0.18146179914474486,
      "memory(GiB)": 70.5,
      "step": 70605,
      "token_acc": 0.9615384615384616,
      "train_speed(iter/s)": 1.449449
    },
    {
      "epoch": 3.025148879653828,
      "grad_norm": 3.2226502895355225,
      "learning_rate": 3.3799704137835014e-05,
      "loss": 0.3290407180786133,
      "memory(GiB)": 70.5,
      "step": 70610,
      "token_acc": 0.9119718309859155,
      "train_speed(iter/s)": 1.449454
    },
    {
      "epoch": 3.025363094983077,
      "grad_norm": 4.1622796058654785,
      "learning_rate": 3.3793337548791666e-05,
      "loss": 0.45887956619262693,
      "memory(GiB)": 70.5,
      "step": 70615,
      "token_acc": 0.8954703832752613,
      "train_speed(iter/s)": 1.449457
    },
    {
      "epoch": 3.025577310312326,
      "grad_norm": 4.268404960632324,
      "learning_rate": 3.378697125334721e-05,
      "loss": 0.8454802513122559,
      "memory(GiB)": 70.5,
      "step": 70620,
      "token_acc": 0.8265682656826568,
      "train_speed(iter/s)": 1.449462
    },
    {
      "epoch": 3.025791525641575,
      "grad_norm": 4.393484115600586,
      "learning_rate": 3.378060525161696e-05,
      "loss": 0.3013388395309448,
      "memory(GiB)": 70.5,
      "step": 70625,
      "token_acc": 0.930327868852459,
      "train_speed(iter/s)": 1.44947
    },
    {
      "epoch": 3.026005740970824,
      "grad_norm": 4.77984619140625,
      "learning_rate": 3.377423954371627e-05,
      "loss": 0.46789937019348143,
      "memory(GiB)": 70.5,
      "step": 70630,
      "token_acc": 0.9060402684563759,
      "train_speed(iter/s)": 1.449473
    },
    {
      "epoch": 3.0262199563000727,
      "grad_norm": 4.265554428100586,
      "learning_rate": 3.3767874129760455e-05,
      "loss": 0.5651033401489258,
      "memory(GiB)": 70.5,
      "step": 70635,
      "token_acc": 0.8556701030927835,
      "train_speed(iter/s)": 1.449487
    },
    {
      "epoch": 3.026434171629322,
      "grad_norm": 6.989786148071289,
      "learning_rate": 3.3761509009864834e-05,
      "loss": 0.4789254665374756,
      "memory(GiB)": 70.5,
      "step": 70640,
      "token_acc": 0.899390243902439,
      "train_speed(iter/s)": 1.4495
    },
    {
      "epoch": 3.0266483869585707,
      "grad_norm": 3.413773775100708,
      "learning_rate": 3.3755144184144704e-05,
      "loss": 0.1996924877166748,
      "memory(GiB)": 70.5,
      "step": 70645,
      "token_acc": 0.9405940594059405,
      "train_speed(iter/s)": 1.449503
    },
    {
      "epoch": 3.0268626022878196,
      "grad_norm": 3.0238990783691406,
      "learning_rate": 3.374877965271538e-05,
      "loss": 0.4546391487121582,
      "memory(GiB)": 70.5,
      "step": 70650,
      "token_acc": 0.9026845637583892,
      "train_speed(iter/s)": 1.449501
    },
    {
      "epoch": 3.027076817617069,
      "grad_norm": 5.039183616638184,
      "learning_rate": 3.374241541569216e-05,
      "loss": 0.2206845760345459,
      "memory(GiB)": 70.5,
      "step": 70655,
      "token_acc": 0.9447852760736196,
      "train_speed(iter/s)": 1.449508
    },
    {
      "epoch": 3.0272910329463176,
      "grad_norm": 2.1847729682922363,
      "learning_rate": 3.3736051473190324e-05,
      "loss": 0.7996976375579834,
      "memory(GiB)": 70.5,
      "step": 70660,
      "token_acc": 0.858433734939759,
      "train_speed(iter/s)": 1.449517
    },
    {
      "epoch": 3.0275052482755664,
      "grad_norm": 4.079316139221191,
      "learning_rate": 3.372968782532519e-05,
      "loss": 0.4120847225189209,
      "memory(GiB)": 70.5,
      "step": 70665,
      "token_acc": 0.9235474006116208,
      "train_speed(iter/s)": 1.449524
    },
    {
      "epoch": 3.0277194636048157,
      "grad_norm": 0.054799437522888184,
      "learning_rate": 3.3723324472212e-05,
      "loss": 0.43191752433776853,
      "memory(GiB)": 70.5,
      "step": 70670,
      "token_acc": 0.9097744360902256,
      "train_speed(iter/s)": 1.449533
    },
    {
      "epoch": 3.0279336789340645,
      "grad_norm": 4.795840263366699,
      "learning_rate": 3.371696141396608e-05,
      "loss": 0.2978111505508423,
      "memory(GiB)": 70.5,
      "step": 70675,
      "token_acc": 0.9326241134751773,
      "train_speed(iter/s)": 1.449538
    },
    {
      "epoch": 3.0281478942633133,
      "grad_norm": 0.9034021496772766,
      "learning_rate": 3.371059865070266e-05,
      "loss": 0.16992136240005493,
      "memory(GiB)": 70.5,
      "step": 70680,
      "token_acc": 0.9427480916030534,
      "train_speed(iter/s)": 1.449541
    },
    {
      "epoch": 3.0283621095925626,
      "grad_norm": 2.851041316986084,
      "learning_rate": 3.370423618253703e-05,
      "loss": 0.35426530838012693,
      "memory(GiB)": 70.5,
      "step": 70685,
      "token_acc": 0.916030534351145,
      "train_speed(iter/s)": 1.449547
    },
    {
      "epoch": 3.0285763249218114,
      "grad_norm": 4.586489677429199,
      "learning_rate": 3.369787400958446e-05,
      "loss": 0.32856295108795164,
      "memory(GiB)": 70.5,
      "step": 70690,
      "token_acc": 0.9326599326599326,
      "train_speed(iter/s)": 1.449548
    },
    {
      "epoch": 3.02879054025106,
      "grad_norm": 4.4781365394592285,
      "learning_rate": 3.369151213196019e-05,
      "loss": 0.501804256439209,
      "memory(GiB)": 70.5,
      "step": 70695,
      "token_acc": 0.8840579710144928,
      "train_speed(iter/s)": 1.449562
    },
    {
      "epoch": 3.0290047555803095,
      "grad_norm": 1.8471401929855347,
      "learning_rate": 3.368515054977945e-05,
      "loss": 0.30791027545928956,
      "memory(GiB)": 70.5,
      "step": 70700,
      "token_acc": 0.9361702127659575,
      "train_speed(iter/s)": 1.449559
    },
    {
      "epoch": 3.0292189709095583,
      "grad_norm": 3.569230318069458,
      "learning_rate": 3.3678789263157534e-05,
      "loss": 0.24691619873046874,
      "memory(GiB)": 70.5,
      "step": 70705,
      "token_acc": 0.9537037037037037,
      "train_speed(iter/s)": 1.449563
    },
    {
      "epoch": 3.029433186238807,
      "grad_norm": 3.8857626914978027,
      "learning_rate": 3.367242827220967e-05,
      "loss": 0.3464330196380615,
      "memory(GiB)": 70.5,
      "step": 70710,
      "token_acc": 0.9093406593406593,
      "train_speed(iter/s)": 1.449565
    },
    {
      "epoch": 3.0296474015680563,
      "grad_norm": 3.2587907314300537,
      "learning_rate": 3.3666067577051064e-05,
      "loss": 0.2355710744857788,
      "memory(GiB)": 70.5,
      "step": 70715,
      "token_acc": 0.9421768707482994,
      "train_speed(iter/s)": 1.449569
    },
    {
      "epoch": 3.029861616897305,
      "grad_norm": 4.2076416015625,
      "learning_rate": 3.3659707177796984e-05,
      "loss": 0.3136449337005615,
      "memory(GiB)": 70.5,
      "step": 70720,
      "token_acc": 0.9394904458598726,
      "train_speed(iter/s)": 1.449576
    },
    {
      "epoch": 3.030075832226554,
      "grad_norm": 0.4581911265850067,
      "learning_rate": 3.365334707456264e-05,
      "loss": 0.09119341969490051,
      "memory(GiB)": 70.5,
      "step": 70725,
      "token_acc": 0.9810606060606061,
      "train_speed(iter/s)": 1.449583
    },
    {
      "epoch": 3.0302900475558032,
      "grad_norm": 0.018073663115501404,
      "learning_rate": 3.364698726746323e-05,
      "loss": 0.24485113620758056,
      "memory(GiB)": 70.5,
      "step": 70730,
      "token_acc": 0.9558823529411765,
      "train_speed(iter/s)": 1.449591
    },
    {
      "epoch": 3.030504262885052,
      "grad_norm": 4.116087436676025,
      "learning_rate": 3.364062775661401e-05,
      "loss": 0.3893077850341797,
      "memory(GiB)": 70.5,
      "step": 70735,
      "token_acc": 0.9148936170212766,
      "train_speed(iter/s)": 1.449592
    },
    {
      "epoch": 3.030718478214301,
      "grad_norm": 2.8227832317352295,
      "learning_rate": 3.3634268542130146e-05,
      "loss": 0.19192962646484374,
      "memory(GiB)": 70.5,
      "step": 70740,
      "token_acc": 0.9548872180451128,
      "train_speed(iter/s)": 1.449594
    },
    {
      "epoch": 3.03093269354355,
      "grad_norm": 1.156556248664856,
      "learning_rate": 3.3627909624126864e-05,
      "loss": 0.14465032815933226,
      "memory(GiB)": 70.5,
      "step": 70745,
      "token_acc": 0.9666666666666667,
      "train_speed(iter/s)": 1.449598
    },
    {
      "epoch": 3.031146908872799,
      "grad_norm": 3.136187791824341,
      "learning_rate": 3.362155100271936e-05,
      "loss": 0.24695172309875488,
      "memory(GiB)": 70.5,
      "step": 70750,
      "token_acc": 0.9396551724137931,
      "train_speed(iter/s)": 1.449602
    },
    {
      "epoch": 3.0313611242020477,
      "grad_norm": 5.780299663543701,
      "learning_rate": 3.361519267802281e-05,
      "loss": 0.30298514366149903,
      "memory(GiB)": 70.5,
      "step": 70755,
      "token_acc": 0.9357142857142857,
      "train_speed(iter/s)": 1.449596
    },
    {
      "epoch": 3.031575339531297,
      "grad_norm": 6.735627174377441,
      "learning_rate": 3.360883465015243e-05,
      "loss": 0.41071228981018065,
      "memory(GiB)": 70.5,
      "step": 70760,
      "token_acc": 0.9083665338645418,
      "train_speed(iter/s)": 1.449594
    },
    {
      "epoch": 3.031789554860546,
      "grad_norm": 5.242948055267334,
      "learning_rate": 3.3602476919223393e-05,
      "loss": 0.5768772602081299,
      "memory(GiB)": 70.5,
      "step": 70765,
      "token_acc": 0.8766666666666667,
      "train_speed(iter/s)": 1.449597
    },
    {
      "epoch": 3.0320037701897946,
      "grad_norm": 7.721283912658691,
      "learning_rate": 3.359611948535084e-05,
      "loss": 0.41194725036621094,
      "memory(GiB)": 70.5,
      "step": 70770,
      "token_acc": 0.9195804195804196,
      "train_speed(iter/s)": 1.449609
    },
    {
      "epoch": 3.032217985519044,
      "grad_norm": 4.86944580078125,
      "learning_rate": 3.358976234864999e-05,
      "loss": 0.5081912040710449,
      "memory(GiB)": 70.5,
      "step": 70775,
      "token_acc": 0.8827586206896552,
      "train_speed(iter/s)": 1.449606
    },
    {
      "epoch": 3.0324322008482927,
      "grad_norm": 5.755221366882324,
      "learning_rate": 3.3583405509235986e-05,
      "loss": 0.3254260063171387,
      "memory(GiB)": 70.5,
      "step": 70780,
      "token_acc": 0.935251798561151,
      "train_speed(iter/s)": 1.449606
    },
    {
      "epoch": 3.0326464161775415,
      "grad_norm": 2.838853359222412,
      "learning_rate": 3.3577048967224e-05,
      "loss": 0.3084479570388794,
      "memory(GiB)": 70.5,
      "step": 70785,
      "token_acc": 0.9385665529010239,
      "train_speed(iter/s)": 1.449622
    },
    {
      "epoch": 3.0328606315067907,
      "grad_norm": 5.075512409210205,
      "learning_rate": 3.3570692722729167e-05,
      "loss": 0.38902835845947265,
      "memory(GiB)": 70.5,
      "step": 70790,
      "token_acc": 0.8929577464788733,
      "train_speed(iter/s)": 1.449625
    },
    {
      "epoch": 3.0330748468360396,
      "grad_norm": 6.308437347412109,
      "learning_rate": 3.3564336775866654e-05,
      "loss": 0.512471342086792,
      "memory(GiB)": 70.5,
      "step": 70795,
      "token_acc": 0.8996282527881041,
      "train_speed(iter/s)": 1.449634
    },
    {
      "epoch": 3.0332890621652884,
      "grad_norm": 4.143803596496582,
      "learning_rate": 3.35579811267516e-05,
      "loss": 0.2730919361114502,
      "memory(GiB)": 70.5,
      "step": 70800,
      "token_acc": 0.9452054794520548,
      "train_speed(iter/s)": 1.449629
    },
    {
      "epoch": 3.0335032774945376,
      "grad_norm": 3.7269084453582764,
      "learning_rate": 3.355162577549913e-05,
      "loss": 0.35512707233428953,
      "memory(GiB)": 70.5,
      "step": 70805,
      "token_acc": 0.9084745762711864,
      "train_speed(iter/s)": 1.44963
    },
    {
      "epoch": 3.0337174928237864,
      "grad_norm": 4.433131694793701,
      "learning_rate": 3.35452707222244e-05,
      "loss": 0.39910092353820803,
      "memory(GiB)": 70.5,
      "step": 70810,
      "token_acc": 0.9232954545454546,
      "train_speed(iter/s)": 1.44963
    },
    {
      "epoch": 3.0339317081530353,
      "grad_norm": 0.1524468958377838,
      "learning_rate": 3.353891596704252e-05,
      "loss": 0.22273879051208495,
      "memory(GiB)": 70.5,
      "step": 70815,
      "token_acc": 0.9446366782006921,
      "train_speed(iter/s)": 1.449637
    },
    {
      "epoch": 3.0341459234822845,
      "grad_norm": 5.452152252197266,
      "learning_rate": 3.353256151006863e-05,
      "loss": 0.5160528182983398,
      "memory(GiB)": 70.5,
      "step": 70820,
      "token_acc": 0.8986486486486487,
      "train_speed(iter/s)": 1.44964
    },
    {
      "epoch": 3.0343601388115333,
      "grad_norm": 3.471271514892578,
      "learning_rate": 3.3526207351417825e-05,
      "loss": 0.4475379467010498,
      "memory(GiB)": 70.5,
      "step": 70825,
      "token_acc": 0.896551724137931,
      "train_speed(iter/s)": 1.449642
    },
    {
      "epoch": 3.034574354140782,
      "grad_norm": 2.598069429397583,
      "learning_rate": 3.351985349120523e-05,
      "loss": 0.5515995979309082,
      "memory(GiB)": 70.5,
      "step": 70830,
      "token_acc": 0.8872727272727273,
      "train_speed(iter/s)": 1.449652
    },
    {
      "epoch": 3.0347885694700314,
      "grad_norm": 3.6459364891052246,
      "learning_rate": 3.351349992954595e-05,
      "loss": 0.3481677293777466,
      "memory(GiB)": 70.5,
      "step": 70835,
      "token_acc": 0.9306569343065694,
      "train_speed(iter/s)": 1.449655
    },
    {
      "epoch": 3.03500278479928,
      "grad_norm": 1.4024618864059448,
      "learning_rate": 3.350714666655509e-05,
      "loss": 0.5022400856018067,
      "memory(GiB)": 70.5,
      "step": 70840,
      "token_acc": 0.9152046783625731,
      "train_speed(iter/s)": 1.449663
    },
    {
      "epoch": 3.035217000128529,
      "grad_norm": 3.2859771251678467,
      "learning_rate": 3.3500793702347716e-05,
      "loss": 0.24667253494262695,
      "memory(GiB)": 70.5,
      "step": 70845,
      "token_acc": 0.9411764705882353,
      "train_speed(iter/s)": 1.449674
    },
    {
      "epoch": 3.0354312154577783,
      "grad_norm": 5.3726115226745605,
      "learning_rate": 3.349444103703895e-05,
      "loss": 0.4253093719482422,
      "memory(GiB)": 70.5,
      "step": 70850,
      "token_acc": 0.9290780141843972,
      "train_speed(iter/s)": 1.449689
    },
    {
      "epoch": 3.035645430787027,
      "grad_norm": 5.233246803283691,
      "learning_rate": 3.3488088670743886e-05,
      "loss": 0.21613457202911376,
      "memory(GiB)": 70.5,
      "step": 70855,
      "token_acc": 0.9407665505226481,
      "train_speed(iter/s)": 1.449697
    },
    {
      "epoch": 3.035859646116276,
      "grad_norm": 4.995153903961182,
      "learning_rate": 3.3481736603577565e-05,
      "loss": 0.5667738437652587,
      "memory(GiB)": 70.5,
      "step": 70860,
      "token_acc": 0.8637992831541219,
      "train_speed(iter/s)": 1.44971
    },
    {
      "epoch": 3.036073861445525,
      "grad_norm": 3.609783887863159,
      "learning_rate": 3.34753848356551e-05,
      "loss": 0.24305391311645508,
      "memory(GiB)": 70.5,
      "step": 70865,
      "token_acc": 0.9293286219081273,
      "train_speed(iter/s)": 1.449708
    },
    {
      "epoch": 3.036288076774774,
      "grad_norm": 5.565057754516602,
      "learning_rate": 3.3469033367091534e-05,
      "loss": 0.4419837474822998,
      "memory(GiB)": 70.5,
      "step": 70870,
      "token_acc": 0.9209621993127147,
      "train_speed(iter/s)": 1.449715
    },
    {
      "epoch": 3.036502292104023,
      "grad_norm": 2.1255009174346924,
      "learning_rate": 3.3462682198001925e-05,
      "loss": 0.2746814966201782,
      "memory(GiB)": 70.5,
      "step": 70875,
      "token_acc": 0.9440298507462687,
      "train_speed(iter/s)": 1.449711
    },
    {
      "epoch": 3.036716507433272,
      "grad_norm": 2.7788195610046387,
      "learning_rate": 3.345633132850136e-05,
      "loss": 0.22620165348052979,
      "memory(GiB)": 70.5,
      "step": 70880,
      "token_acc": 0.9525547445255474,
      "train_speed(iter/s)": 1.44972
    },
    {
      "epoch": 3.036930722762521,
      "grad_norm": 4.124180316925049,
      "learning_rate": 3.344998075870487e-05,
      "loss": 0.4122814655303955,
      "memory(GiB)": 70.5,
      "step": 70885,
      "token_acc": 0.9166666666666666,
      "train_speed(iter/s)": 1.449732
    },
    {
      "epoch": 3.0371449380917697,
      "grad_norm": 4.672472953796387,
      "learning_rate": 3.344363048872748e-05,
      "loss": 0.5049108982086181,
      "memory(GiB)": 70.5,
      "step": 70890,
      "token_acc": 0.9063545150501672,
      "train_speed(iter/s)": 1.449748
    },
    {
      "epoch": 3.037359153421019,
      "grad_norm": 4.431844711303711,
      "learning_rate": 3.3437280518684275e-05,
      "loss": 0.3907366514205933,
      "memory(GiB)": 70.5,
      "step": 70895,
      "token_acc": 0.9267515923566879,
      "train_speed(iter/s)": 1.449749
    },
    {
      "epoch": 3.0375733687502677,
      "grad_norm": 3.343125820159912,
      "learning_rate": 3.3430930848690266e-05,
      "loss": 0.4290459632873535,
      "memory(GiB)": 70.5,
      "step": 70900,
      "token_acc": 0.9173228346456693,
      "train_speed(iter/s)": 1.449754
    },
    {
      "epoch": 3.0377875840795165,
      "grad_norm": 4.531734466552734,
      "learning_rate": 3.3424581478860495e-05,
      "loss": 0.48937430381774905,
      "memory(GiB)": 70.5,
      "step": 70905,
      "token_acc": 0.8756756756756757,
      "train_speed(iter/s)": 1.449759
    },
    {
      "epoch": 3.038001799408766,
      "grad_norm": 5.619024276733398,
      "learning_rate": 3.3418232409309975e-05,
      "loss": 0.20166680812835694,
      "memory(GiB)": 70.5,
      "step": 70910,
      "token_acc": 0.954983922829582,
      "train_speed(iter/s)": 1.449766
    },
    {
      "epoch": 3.0382160147380146,
      "grad_norm": 3.2186288833618164,
      "learning_rate": 3.341188364015372e-05,
      "loss": 0.3157422304153442,
      "memory(GiB)": 70.5,
      "step": 70915,
      "token_acc": 0.9333333333333333,
      "train_speed(iter/s)": 1.449776
    },
    {
      "epoch": 3.0384302300672634,
      "grad_norm": 3.5172078609466553,
      "learning_rate": 3.340553517150674e-05,
      "loss": 0.14630062580108644,
      "memory(GiB)": 70.5,
      "step": 70920,
      "token_acc": 0.9704641350210971,
      "train_speed(iter/s)": 1.449781
    },
    {
      "epoch": 3.0386444453965127,
      "grad_norm": 3.385392189025879,
      "learning_rate": 3.339918700348409e-05,
      "loss": 0.1917886734008789,
      "memory(GiB)": 70.5,
      "step": 70925,
      "token_acc": 0.9480968858131488,
      "train_speed(iter/s)": 1.449786
    },
    {
      "epoch": 3.0388586607257615,
      "grad_norm": 4.127102851867676,
      "learning_rate": 3.339283913620073e-05,
      "loss": 0.33962535858154297,
      "memory(GiB)": 70.5,
      "step": 70930,
      "token_acc": 0.9224806201550387,
      "train_speed(iter/s)": 1.4498
    },
    {
      "epoch": 3.0390728760550103,
      "grad_norm": 2.8964126110076904,
      "learning_rate": 3.338649156977166e-05,
      "loss": 0.44672622680664065,
      "memory(GiB)": 70.5,
      "step": 70935,
      "token_acc": 0.8902077151335311,
      "train_speed(iter/s)": 1.449816
    },
    {
      "epoch": 3.0392870913842596,
      "grad_norm": 0.34681349992752075,
      "learning_rate": 3.338014430431189e-05,
      "loss": 0.2153319835662842,
      "memory(GiB)": 70.5,
      "step": 70940,
      "token_acc": 0.9514925373134329,
      "train_speed(iter/s)": 1.449818
    },
    {
      "epoch": 3.0395013067135084,
      "grad_norm": 3.6531357765197754,
      "learning_rate": 3.33737973399364e-05,
      "loss": 0.4646427154541016,
      "memory(GiB)": 70.5,
      "step": 70945,
      "token_acc": 0.9003436426116839,
      "train_speed(iter/s)": 1.449821
    },
    {
      "epoch": 3.039715522042757,
      "grad_norm": 1.429765224456787,
      "learning_rate": 3.336745067676015e-05,
      "loss": 0.2680067539215088,
      "memory(GiB)": 70.5,
      "step": 70950,
      "token_acc": 0.9379562043795621,
      "train_speed(iter/s)": 1.449822
    },
    {
      "epoch": 3.0399297373720064,
      "grad_norm": 2.940812826156616,
      "learning_rate": 3.336110431489815e-05,
      "loss": 0.19051146507263184,
      "memory(GiB)": 70.5,
      "step": 70955,
      "token_acc": 0.9572953736654805,
      "train_speed(iter/s)": 1.449828
    },
    {
      "epoch": 3.0401439527012553,
      "grad_norm": 4.481710433959961,
      "learning_rate": 3.3354758254465346e-05,
      "loss": 0.21495041847229004,
      "memory(GiB)": 70.5,
      "step": 70960,
      "token_acc": 0.9691780821917808,
      "train_speed(iter/s)": 1.449832
    },
    {
      "epoch": 3.040358168030504,
      "grad_norm": 2.6841890811920166,
      "learning_rate": 3.334841249557672e-05,
      "loss": 0.41379218101501464,
      "memory(GiB)": 70.5,
      "step": 70965,
      "token_acc": 0.9077380952380952,
      "train_speed(iter/s)": 1.449836
    },
    {
      "epoch": 3.0405723833597533,
      "grad_norm": 1.5429673194885254,
      "learning_rate": 3.334206703834721e-05,
      "loss": 0.2292252779006958,
      "memory(GiB)": 70.5,
      "step": 70970,
      "token_acc": 0.9517045454545454,
      "train_speed(iter/s)": 1.449849
    },
    {
      "epoch": 3.040786598689002,
      "grad_norm": 2.723637104034424,
      "learning_rate": 3.333572188289179e-05,
      "loss": 0.33142948150634766,
      "memory(GiB)": 70.5,
      "step": 70975,
      "token_acc": 0.9230769230769231,
      "train_speed(iter/s)": 1.449851
    },
    {
      "epoch": 3.041000814018251,
      "grad_norm": 2.9077281951904297,
      "learning_rate": 3.3329377029325396e-05,
      "loss": 0.5083657741546631,
      "memory(GiB)": 70.5,
      "step": 70980,
      "token_acc": 0.8856088560885609,
      "train_speed(iter/s)": 1.44986
    },
    {
      "epoch": 3.0412150293475,
      "grad_norm": 0.6437382102012634,
      "learning_rate": 3.3323032477762984e-05,
      "loss": 0.2423677921295166,
      "memory(GiB)": 70.5,
      "step": 70985,
      "token_acc": 0.9516129032258065,
      "train_speed(iter/s)": 1.449875
    },
    {
      "epoch": 3.041429244676749,
      "grad_norm": 3.3376166820526123,
      "learning_rate": 3.331668822831947e-05,
      "loss": 0.44129328727722167,
      "memory(GiB)": 70.5,
      "step": 70990,
      "token_acc": 0.9230769230769231,
      "train_speed(iter/s)": 1.44988
    },
    {
      "epoch": 3.041643460005998,
      "grad_norm": 3.451761245727539,
      "learning_rate": 3.331034428110979e-05,
      "loss": 0.5048965454101563,
      "memory(GiB)": 70.5,
      "step": 70995,
      "token_acc": 0.8833333333333333,
      "train_speed(iter/s)": 1.449893
    },
    {
      "epoch": 3.041857675335247,
      "grad_norm": 2.063727378845215,
      "learning_rate": 3.33040006362489e-05,
      "loss": 0.3366199493408203,
      "memory(GiB)": 70.5,
      "step": 71000,
      "token_acc": 0.9394904458598726,
      "train_speed(iter/s)": 1.449899
    },
    {
      "epoch": 3.041857675335247,
      "eval_loss": 2.4458425045013428,
      "eval_runtime": 11.9615,
      "eval_samples_per_second": 8.36,
      "eval_steps_per_second": 8.36,
      "eval_token_acc": 0.4567901234567901,
      "step": 71000
    },
    {
      "epoch": 3.042071890664496,
      "grad_norm": 3.54724383354187,
      "learning_rate": 3.329765729385169e-05,
      "loss": 0.3204677104949951,
      "memory(GiB)": 70.5,
      "step": 71005,
      "token_acc": 0.5868263473053892,
      "train_speed(iter/s)": 1.449515
    },
    {
      "epoch": 3.0422861059937447,
      "grad_norm": 2.2553482055664062,
      "learning_rate": 3.329131425403309e-05,
      "loss": 0.185563063621521,
      "memory(GiB)": 70.5,
      "step": 71010,
      "token_acc": 0.9411764705882353,
      "train_speed(iter/s)": 1.449524
    },
    {
      "epoch": 3.042500321322994,
      "grad_norm": 3.4661831855773926,
      "learning_rate": 3.3284971516908014e-05,
      "loss": 0.3684095859527588,
      "memory(GiB)": 70.5,
      "step": 71015,
      "token_acc": 0.9235474006116208,
      "train_speed(iter/s)": 1.449523
    },
    {
      "epoch": 3.042714536652243,
      "grad_norm": 4.770281791687012,
      "learning_rate": 3.327862908259135e-05,
      "loss": 0.6370392322540284,
      "memory(GiB)": 70.5,
      "step": 71020,
      "token_acc": 0.8851851851851852,
      "train_speed(iter/s)": 1.44952
    },
    {
      "epoch": 3.0429287519814916,
      "grad_norm": 2.5096395015716553,
      "learning_rate": 3.327228695119801e-05,
      "loss": 0.23633501529693604,
      "memory(GiB)": 70.5,
      "step": 71025,
      "token_acc": 0.9572649572649573,
      "train_speed(iter/s)": 1.449523
    },
    {
      "epoch": 3.043142967310741,
      "grad_norm": 0.2219717800617218,
      "learning_rate": 3.326594512284289e-05,
      "loss": 0.21105589866638183,
      "memory(GiB)": 70.5,
      "step": 71030,
      "token_acc": 0.9559748427672956,
      "train_speed(iter/s)": 1.449527
    },
    {
      "epoch": 3.0433571826399897,
      "grad_norm": 2.947420835494995,
      "learning_rate": 3.325960359764085e-05,
      "loss": 0.2838409900665283,
      "memory(GiB)": 70.5,
      "step": 71035,
      "token_acc": 0.936026936026936,
      "train_speed(iter/s)": 1.449528
    },
    {
      "epoch": 3.0435713979692385,
      "grad_norm": 2.537553548812866,
      "learning_rate": 3.3253262375706815e-05,
      "loss": 0.36295907497406005,
      "memory(GiB)": 70.5,
      "step": 71040,
      "token_acc": 0.933993399339934,
      "train_speed(iter/s)": 1.449534
    },
    {
      "epoch": 3.0437856132984877,
      "grad_norm": 4.1117072105407715,
      "learning_rate": 3.3246921457155634e-05,
      "loss": 0.34757318496704104,
      "memory(GiB)": 70.5,
      "step": 71045,
      "token_acc": 0.9451612903225807,
      "train_speed(iter/s)": 1.449548
    },
    {
      "epoch": 3.0439998286277365,
      "grad_norm": 4.6851983070373535,
      "learning_rate": 3.3240580842102186e-05,
      "loss": 0.17811832427978516,
      "memory(GiB)": 70.5,
      "step": 71050,
      "token_acc": 0.9671532846715328,
      "train_speed(iter/s)": 1.449549
    },
    {
      "epoch": 3.0442140439569854,
      "grad_norm": 4.809726238250732,
      "learning_rate": 3.323424053066135e-05,
      "loss": 0.620262336730957,
      "memory(GiB)": 70.5,
      "step": 71055,
      "token_acc": 0.8993288590604027,
      "train_speed(iter/s)": 1.449548
    },
    {
      "epoch": 3.0444282592862346,
      "grad_norm": 5.374495029449463,
      "learning_rate": 3.322790052294796e-05,
      "loss": 0.5254961013793945,
      "memory(GiB)": 70.5,
      "step": 71060,
      "token_acc": 0.8865979381443299,
      "train_speed(iter/s)": 1.449545
    },
    {
      "epoch": 3.0446424746154834,
      "grad_norm": 3.790814161300659,
      "learning_rate": 3.3221560819076894e-05,
      "loss": 0.3597207546234131,
      "memory(GiB)": 70.5,
      "step": 71065,
      "token_acc": 0.935064935064935,
      "train_speed(iter/s)": 1.449549
    },
    {
      "epoch": 3.0448566899447322,
      "grad_norm": 0.6888819932937622,
      "learning_rate": 3.3215221419162966e-05,
      "loss": 0.43225250244140623,
      "memory(GiB)": 70.5,
      "step": 71070,
      "token_acc": 0.9117647058823529,
      "train_speed(iter/s)": 1.449553
    },
    {
      "epoch": 3.0450709052739815,
      "grad_norm": 3.1746346950531006,
      "learning_rate": 3.320888232332108e-05,
      "loss": 0.3226178169250488,
      "memory(GiB)": 70.5,
      "step": 71075,
      "token_acc": 0.9386503067484663,
      "train_speed(iter/s)": 1.44955
    },
    {
      "epoch": 3.0452851206032303,
      "grad_norm": 2.7813291549682617,
      "learning_rate": 3.320254353166602e-05,
      "loss": 0.33702027797698975,
      "memory(GiB)": 70.5,
      "step": 71080,
      "token_acc": 0.9197707736389685,
      "train_speed(iter/s)": 1.449558
    },
    {
      "epoch": 3.045499335932479,
      "grad_norm": 2.8282783031463623,
      "learning_rate": 3.3196205044312664e-05,
      "loss": 0.45302481651306153,
      "memory(GiB)": 70.5,
      "step": 71085,
      "token_acc": 0.8976109215017065,
      "train_speed(iter/s)": 1.44956
    },
    {
      "epoch": 3.0457135512617284,
      "grad_norm": 1.9256523847579956,
      "learning_rate": 3.318986686137581e-05,
      "loss": 0.27975120544433596,
      "memory(GiB)": 70.5,
      "step": 71090,
      "token_acc": 0.9267515923566879,
      "train_speed(iter/s)": 1.449566
    },
    {
      "epoch": 3.045927766590977,
      "grad_norm": 1.914352536201477,
      "learning_rate": 3.318352898297027e-05,
      "loss": 0.5086607456207275,
      "memory(GiB)": 70.5,
      "step": 71095,
      "token_acc": 0.9130434782608695,
      "train_speed(iter/s)": 1.449572
    },
    {
      "epoch": 3.046141981920226,
      "grad_norm": 4.782687664031982,
      "learning_rate": 3.31771914092109e-05,
      "loss": 0.4219198703765869,
      "memory(GiB)": 70.5,
      "step": 71100,
      "token_acc": 0.8901098901098901,
      "train_speed(iter/s)": 1.449576
    },
    {
      "epoch": 3.0463561972494753,
      "grad_norm": 4.1030192375183105,
      "learning_rate": 3.317085414021247e-05,
      "loss": 0.3704395771026611,
      "memory(GiB)": 70.5,
      "step": 71105,
      "token_acc": 0.9262820512820513,
      "train_speed(iter/s)": 1.44958
    },
    {
      "epoch": 3.046570412578724,
      "grad_norm": 1.1666128635406494,
      "learning_rate": 3.316451717608982e-05,
      "loss": 0.2829681634902954,
      "memory(GiB)": 70.5,
      "step": 71110,
      "token_acc": 0.9349593495934959,
      "train_speed(iter/s)": 1.44958
    },
    {
      "epoch": 3.046784627907973,
      "grad_norm": 5.25005578994751,
      "learning_rate": 3.3158180516957736e-05,
      "loss": 0.20232744216918946,
      "memory(GiB)": 70.5,
      "step": 71115,
      "token_acc": 0.9465648854961832,
      "train_speed(iter/s)": 1.4496
    },
    {
      "epoch": 3.046998843237222,
      "grad_norm": 3.730238914489746,
      "learning_rate": 3.315184416293099e-05,
      "loss": 0.24775917530059816,
      "memory(GiB)": 70.5,
      "step": 71120,
      "token_acc": 0.9485530546623794,
      "train_speed(iter/s)": 1.449601
    },
    {
      "epoch": 3.047213058566471,
      "grad_norm": 1.071425437927246,
      "learning_rate": 3.314550811412441e-05,
      "loss": 0.32556777000427245,
      "memory(GiB)": 70.5,
      "step": 71125,
      "token_acc": 0.9151515151515152,
      "train_speed(iter/s)": 1.449609
    },
    {
      "epoch": 3.0474272738957198,
      "grad_norm": 1.201185703277588,
      "learning_rate": 3.313917237065277e-05,
      "loss": 0.2115487813949585,
      "memory(GiB)": 70.5,
      "step": 71130,
      "token_acc": 0.9328621908127208,
      "train_speed(iter/s)": 1.44961
    },
    {
      "epoch": 3.047641489224969,
      "grad_norm": 2.702467679977417,
      "learning_rate": 3.313283693263082e-05,
      "loss": 0.16440892219543457,
      "memory(GiB)": 70.5,
      "step": 71135,
      "token_acc": 0.9652777777777778,
      "train_speed(iter/s)": 1.449614
    },
    {
      "epoch": 3.047855704554218,
      "grad_norm": 4.960114479064941,
      "learning_rate": 3.3126501800173334e-05,
      "loss": 0.3541442394256592,
      "memory(GiB)": 70.5,
      "step": 71140,
      "token_acc": 0.9256965944272446,
      "train_speed(iter/s)": 1.44962
    },
    {
      "epoch": 3.0480699198834666,
      "grad_norm": 2.122457981109619,
      "learning_rate": 3.312016697339513e-05,
      "loss": 0.2218721866607666,
      "memory(GiB)": 70.5,
      "step": 71145,
      "token_acc": 0.9453376205787781,
      "train_speed(iter/s)": 1.449646
    },
    {
      "epoch": 3.048284135212716,
      "grad_norm": 4.374231338500977,
      "learning_rate": 3.311383245241092e-05,
      "loss": 0.39212450981140134,
      "memory(GiB)": 70.5,
      "step": 71150,
      "token_acc": 0.9221789883268483,
      "train_speed(iter/s)": 1.44965
    },
    {
      "epoch": 3.0484983505419647,
      "grad_norm": 5.196154594421387,
      "learning_rate": 3.3107498237335476e-05,
      "loss": 0.543922233581543,
      "memory(GiB)": 70.5,
      "step": 71155,
      "token_acc": 0.8903654485049833,
      "train_speed(iter/s)": 1.44966
    },
    {
      "epoch": 3.0487125658712135,
      "grad_norm": 1.5131430625915527,
      "learning_rate": 3.3101164328283566e-05,
      "loss": 0.5778104782104492,
      "memory(GiB)": 70.5,
      "step": 71160,
      "token_acc": 0.8865979381443299,
      "train_speed(iter/s)": 1.449662
    },
    {
      "epoch": 3.048926781200463,
      "grad_norm": 7.821019649505615,
      "learning_rate": 3.3094830725369894e-05,
      "loss": 0.37799415588378904,
      "memory(GiB)": 70.5,
      "step": 71165,
      "token_acc": 0.9361702127659575,
      "train_speed(iter/s)": 1.449665
    },
    {
      "epoch": 3.0491409965297116,
      "grad_norm": 3.057478427886963,
      "learning_rate": 3.308849742870923e-05,
      "loss": 0.29924860000610354,
      "memory(GiB)": 70.5,
      "step": 71170,
      "token_acc": 0.9287833827893175,
      "train_speed(iter/s)": 1.449667
    },
    {
      "epoch": 3.0493552118589604,
      "grad_norm": 2.311943769454956,
      "learning_rate": 3.3082164438416306e-05,
      "loss": 0.38976640701293946,
      "memory(GiB)": 70.5,
      "step": 71175,
      "token_acc": 0.9133333333333333,
      "train_speed(iter/s)": 1.449671
    },
    {
      "epoch": 3.0495694271882097,
      "grad_norm": 3.9380180835723877,
      "learning_rate": 3.3075831754605834e-05,
      "loss": 0.3187044620513916,
      "memory(GiB)": 70.5,
      "step": 71180,
      "token_acc": 0.9353846153846154,
      "train_speed(iter/s)": 1.449682
    },
    {
      "epoch": 3.0497836425174585,
      "grad_norm": 6.845571041107178,
      "learning_rate": 3.306949937739255e-05,
      "loss": 0.34322304725646974,
      "memory(GiB)": 70.5,
      "step": 71185,
      "token_acc": 0.9418604651162791,
      "train_speed(iter/s)": 1.449689
    },
    {
      "epoch": 3.0499978578467073,
      "grad_norm": 3.880753993988037,
      "learning_rate": 3.3063167306891165e-05,
      "loss": 0.6742908477783203,
      "memory(GiB)": 70.5,
      "step": 71190,
      "token_acc": 0.875,
      "train_speed(iter/s)": 1.449689
    },
    {
      "epoch": 3.0502120731759566,
      "grad_norm": 3.2876594066619873,
      "learning_rate": 3.30568355432164e-05,
      "loss": 0.19115068912506103,
      "memory(GiB)": 70.5,
      "step": 71195,
      "token_acc": 0.9461538461538461,
      "train_speed(iter/s)": 1.449692
    },
    {
      "epoch": 3.0504262885052054,
      "grad_norm": 3.2319564819335938,
      "learning_rate": 3.305050408648295e-05,
      "loss": 0.32229089736938477,
      "memory(GiB)": 70.5,
      "step": 71200,
      "token_acc": 0.9407665505226481,
      "train_speed(iter/s)": 1.449694
    },
    {
      "epoch": 3.050640503834454,
      "grad_norm": 4.296942710876465,
      "learning_rate": 3.3044172936805505e-05,
      "loss": 0.27929935455322263,
      "memory(GiB)": 70.5,
      "step": 71205,
      "token_acc": 0.9471830985915493,
      "train_speed(iter/s)": 1.449702
    },
    {
      "epoch": 3.0508547191637034,
      "grad_norm": 4.146852493286133,
      "learning_rate": 3.3037842094298795e-05,
      "loss": 0.45490121841430664,
      "memory(GiB)": 70.5,
      "step": 71210,
      "token_acc": 0.8888888888888888,
      "train_speed(iter/s)": 1.449717
    },
    {
      "epoch": 3.0510689344929522,
      "grad_norm": 2.2843220233917236,
      "learning_rate": 3.303151155907746e-05,
      "loss": 0.1326514959335327,
      "memory(GiB)": 70.5,
      "step": 71215,
      "token_acc": 0.9721254355400697,
      "train_speed(iter/s)": 1.449712
    },
    {
      "epoch": 3.0512831498222015,
      "grad_norm": 1.3923814296722412,
      "learning_rate": 3.302518133125623e-05,
      "loss": 0.4515354156494141,
      "memory(GiB)": 70.5,
      "step": 71220,
      "token_acc": 0.8906752411575563,
      "train_speed(iter/s)": 1.449713
    },
    {
      "epoch": 3.0514973651514503,
      "grad_norm": 7.270052909851074,
      "learning_rate": 3.301885141094975e-05,
      "loss": 0.3631463527679443,
      "memory(GiB)": 70.5,
      "step": 71225,
      "token_acc": 0.9235668789808917,
      "train_speed(iter/s)": 1.449714
    },
    {
      "epoch": 3.051711580480699,
      "grad_norm": 2.0523383617401123,
      "learning_rate": 3.3012521798272723e-05,
      "loss": 0.330565881729126,
      "memory(GiB)": 70.5,
      "step": 71230,
      "token_acc": 0.9251700680272109,
      "train_speed(iter/s)": 1.449719
    },
    {
      "epoch": 3.0519257958099484,
      "grad_norm": 3.0091116428375244,
      "learning_rate": 3.3006192493339785e-05,
      "loss": 0.47198824882507323,
      "memory(GiB)": 70.5,
      "step": 71235,
      "token_acc": 0.9087136929460581,
      "train_speed(iter/s)": 1.449727
    },
    {
      "epoch": 3.052140011139197,
      "grad_norm": 0.03631063923239708,
      "learning_rate": 3.299986349626563e-05,
      "loss": 0.5203381061553956,
      "memory(GiB)": 70.5,
      "step": 71240,
      "token_acc": 0.9085173501577287,
      "train_speed(iter/s)": 1.449748
    },
    {
      "epoch": 3.052354226468446,
      "grad_norm": 6.7350873947143555,
      "learning_rate": 3.299353480716488e-05,
      "loss": 0.39736261367797854,
      "memory(GiB)": 70.5,
      "step": 71245,
      "token_acc": 0.910394265232975,
      "train_speed(iter/s)": 1.449751
    },
    {
      "epoch": 3.0525684417976953,
      "grad_norm": 3.5137014389038086,
      "learning_rate": 3.298720642615221e-05,
      "loss": 0.46876039505004885,
      "memory(GiB)": 70.5,
      "step": 71250,
      "token_acc": 0.875,
      "train_speed(iter/s)": 1.449756
    },
    {
      "epoch": 3.052782657126944,
      "grad_norm": 3.8344597816467285,
      "learning_rate": 3.298087835334225e-05,
      "loss": 0.34276509284973145,
      "memory(GiB)": 70.5,
      "step": 71255,
      "token_acc": 0.9212328767123288,
      "train_speed(iter/s)": 1.449758
    },
    {
      "epoch": 3.052996872456193,
      "grad_norm": 5.781467914581299,
      "learning_rate": 3.2974550588849645e-05,
      "loss": 0.39135658740997314,
      "memory(GiB)": 70.5,
      "step": 71260,
      "token_acc": 0.894927536231884,
      "train_speed(iter/s)": 1.449772
    },
    {
      "epoch": 3.053211087785442,
      "grad_norm": 3.283494234085083,
      "learning_rate": 3.296822313278902e-05,
      "loss": 0.41733899116516116,
      "memory(GiB)": 70.5,
      "step": 71265,
      "token_acc": 0.9163879598662207,
      "train_speed(iter/s)": 1.449785
    },
    {
      "epoch": 3.053425303114691,
      "grad_norm": 0.9128319025039673,
      "learning_rate": 3.296189598527502e-05,
      "loss": 0.23237137794494628,
      "memory(GiB)": 70.5,
      "step": 71270,
      "token_acc": 0.9621848739495799,
      "train_speed(iter/s)": 1.449785
    },
    {
      "epoch": 3.0536395184439398,
      "grad_norm": 3.100032329559326,
      "learning_rate": 3.295556914642226e-05,
      "loss": 0.27533907890319825,
      "memory(GiB)": 70.5,
      "step": 71275,
      "token_acc": 0.9408284023668639,
      "train_speed(iter/s)": 1.449798
    },
    {
      "epoch": 3.053853733773189,
      "grad_norm": 7.214890956878662,
      "learning_rate": 3.294924261634534e-05,
      "loss": 0.5095433235168457,
      "memory(GiB)": 70.5,
      "step": 71280,
      "token_acc": 0.9111747851002865,
      "train_speed(iter/s)": 1.449821
    },
    {
      "epoch": 3.054067949102438,
      "grad_norm": 3.138288974761963,
      "learning_rate": 3.29429163951589e-05,
      "loss": 0.36711506843566893,
      "memory(GiB)": 70.5,
      "step": 71285,
      "token_acc": 0.9172932330827067,
      "train_speed(iter/s)": 1.449821
    },
    {
      "epoch": 3.0542821644316867,
      "grad_norm": 2.2557055950164795,
      "learning_rate": 3.29365904829775e-05,
      "loss": 0.34484434127807617,
      "memory(GiB)": 70.5,
      "step": 71290,
      "token_acc": 0.9146341463414634,
      "train_speed(iter/s)": 1.449829
    },
    {
      "epoch": 3.054496379760936,
      "grad_norm": 2.384674549102783,
      "learning_rate": 3.293026487991579e-05,
      "loss": 0.44994163513183594,
      "memory(GiB)": 70.5,
      "step": 71295,
      "token_acc": 0.9159159159159159,
      "train_speed(iter/s)": 1.449841
    },
    {
      "epoch": 3.0547105950901847,
      "grad_norm": 7.937963485717773,
      "learning_rate": 3.2923939586088346e-05,
      "loss": 0.4790966033935547,
      "memory(GiB)": 70.5,
      "step": 71300,
      "token_acc": 0.9104938271604939,
      "train_speed(iter/s)": 1.449845
    },
    {
      "epoch": 3.0549248104194335,
      "grad_norm": 4.306896209716797,
      "learning_rate": 3.291761460160976e-05,
      "loss": 0.3672076463699341,
      "memory(GiB)": 70.5,
      "step": 71305,
      "token_acc": 0.9087591240875912,
      "train_speed(iter/s)": 1.449847
    },
    {
      "epoch": 3.055139025748683,
      "grad_norm": 3.0139119625091553,
      "learning_rate": 3.2911289926594604e-05,
      "loss": 0.3967352151870728,
      "memory(GiB)": 70.5,
      "step": 71310,
      "token_acc": 0.9082969432314411,
      "train_speed(iter/s)": 1.449845
    },
    {
      "epoch": 3.0553532410779316,
      "grad_norm": 3.2674484252929688,
      "learning_rate": 3.2904965561157466e-05,
      "loss": 0.46221446990966797,
      "memory(GiB)": 70.5,
      "step": 71315,
      "token_acc": 0.9040590405904059,
      "train_speed(iter/s)": 1.449849
    },
    {
      "epoch": 3.0555674564071804,
      "grad_norm": 3.675490379333496,
      "learning_rate": 3.289864150541292e-05,
      "loss": 0.5294981956481933,
      "memory(GiB)": 70.5,
      "step": 71320,
      "token_acc": 0.8858858858858859,
      "train_speed(iter/s)": 1.44987
    },
    {
      "epoch": 3.0557816717364297,
      "grad_norm": 5.12636661529541,
      "learning_rate": 3.289231775947551e-05,
      "loss": 0.746318244934082,
      "memory(GiB)": 70.5,
      "step": 71325,
      "token_acc": 0.8543956043956044,
      "train_speed(iter/s)": 1.449879
    },
    {
      "epoch": 3.0559958870656785,
      "grad_norm": 0.5827620625495911,
      "learning_rate": 3.2885994323459826e-05,
      "loss": 0.12481495141983032,
      "memory(GiB)": 70.5,
      "step": 71330,
      "token_acc": 0.9681528662420382,
      "train_speed(iter/s)": 1.449882
    },
    {
      "epoch": 3.0562101023949273,
      "grad_norm": 3.755095958709717,
      "learning_rate": 3.287967119748039e-05,
      "loss": 0.27704801559448244,
      "memory(GiB)": 70.5,
      "step": 71335,
      "token_acc": 0.9418181818181818,
      "train_speed(iter/s)": 1.449886
    },
    {
      "epoch": 3.0564243177241766,
      "grad_norm": 2.0654103755950928,
      "learning_rate": 3.287334838165179e-05,
      "loss": 0.20120830535888673,
      "memory(GiB)": 70.5,
      "step": 71340,
      "token_acc": 0.9671641791044776,
      "train_speed(iter/s)": 1.449897
    },
    {
      "epoch": 3.0566385330534254,
      "grad_norm": 0.770018458366394,
      "learning_rate": 3.286702587608854e-05,
      "loss": 0.2631214141845703,
      "memory(GiB)": 70.5,
      "step": 71345,
      "token_acc": 0.9422382671480144,
      "train_speed(iter/s)": 1.449901
    },
    {
      "epoch": 3.056852748382674,
      "grad_norm": 3.9539051055908203,
      "learning_rate": 3.286070368090519e-05,
      "loss": 0.29162211418151857,
      "memory(GiB)": 70.5,
      "step": 71350,
      "token_acc": 0.9405204460966543,
      "train_speed(iter/s)": 1.449898
    },
    {
      "epoch": 3.0570669637119234,
      "grad_norm": 5.211418628692627,
      "learning_rate": 3.285438179621627e-05,
      "loss": 0.6379844665527343,
      "memory(GiB)": 70.5,
      "step": 71355,
      "token_acc": 0.8619402985074627,
      "train_speed(iter/s)": 1.4499
    },
    {
      "epoch": 3.0572811790411722,
      "grad_norm": 12.723352432250977,
      "learning_rate": 3.284806022213632e-05,
      "loss": 0.390471887588501,
      "memory(GiB)": 70.5,
      "step": 71360,
      "token_acc": 0.9235294117647059,
      "train_speed(iter/s)": 1.449904
    },
    {
      "epoch": 3.057495394370421,
      "grad_norm": 1.516343593597412,
      "learning_rate": 3.284173895877982e-05,
      "loss": 0.3071139335632324,
      "memory(GiB)": 70.5,
      "step": 71365,
      "token_acc": 0.9386973180076629,
      "train_speed(iter/s)": 1.449904
    },
    {
      "epoch": 3.0577096096996703,
      "grad_norm": 1.0808955430984497,
      "learning_rate": 3.283541800626132e-05,
      "loss": 0.20356481075286864,
      "memory(GiB)": 70.5,
      "step": 71370,
      "token_acc": 0.9603960396039604,
      "train_speed(iter/s)": 1.449903
    },
    {
      "epoch": 3.057923825028919,
      "grad_norm": 2.8421528339385986,
      "learning_rate": 3.282909736469535e-05,
      "loss": 0.2806876182556152,
      "memory(GiB)": 70.5,
      "step": 71375,
      "token_acc": 0.922360248447205,
      "train_speed(iter/s)": 1.449906
    },
    {
      "epoch": 3.058138040358168,
      "grad_norm": 1.8477500677108765,
      "learning_rate": 3.2822777034196364e-05,
      "loss": 0.1973728895187378,
      "memory(GiB)": 70.5,
      "step": 71380,
      "token_acc": 0.9457627118644067,
      "train_speed(iter/s)": 1.449916
    },
    {
      "epoch": 3.058352255687417,
      "grad_norm": 1.8536553382873535,
      "learning_rate": 3.28164570148789e-05,
      "loss": 0.287847638130188,
      "memory(GiB)": 70.5,
      "step": 71385,
      "token_acc": 0.9434628975265018,
      "train_speed(iter/s)": 1.449919
    },
    {
      "epoch": 3.058566471016666,
      "grad_norm": 7.3657941818237305,
      "learning_rate": 3.281013730685744e-05,
      "loss": 0.5342071056365967,
      "memory(GiB)": 70.5,
      "step": 71390,
      "token_acc": 0.8980891719745223,
      "train_speed(iter/s)": 1.449911
    },
    {
      "epoch": 3.058780686345915,
      "grad_norm": 6.727114200592041,
      "learning_rate": 3.280381791024646e-05,
      "loss": 0.23459417819976808,
      "memory(GiB)": 70.5,
      "step": 71395,
      "token_acc": 0.9609120521172638,
      "train_speed(iter/s)": 1.449915
    },
    {
      "epoch": 3.058994901675164,
      "grad_norm": 4.156139850616455,
      "learning_rate": 3.2797498825160456e-05,
      "loss": 0.6153350830078125,
      "memory(GiB)": 70.5,
      "step": 71400,
      "token_acc": 0.8565022421524664,
      "train_speed(iter/s)": 1.449917
    },
    {
      "epoch": 3.059209117004413,
      "grad_norm": 2.9127514362335205,
      "learning_rate": 3.279118005171389e-05,
      "loss": 0.4059562683105469,
      "memory(GiB)": 70.5,
      "step": 71405,
      "token_acc": 0.9110320284697508,
      "train_speed(iter/s)": 1.44992
    },
    {
      "epoch": 3.0594233323336617,
      "grad_norm": 2.2592506408691406,
      "learning_rate": 3.278486159002124e-05,
      "loss": 0.27956862449645997,
      "memory(GiB)": 70.5,
      "step": 71410,
      "token_acc": 0.9422382671480144,
      "train_speed(iter/s)": 1.449924
    },
    {
      "epoch": 3.059637547662911,
      "grad_norm": 4.448282718658447,
      "learning_rate": 3.277854344019699e-05,
      "loss": 0.3196086883544922,
      "memory(GiB)": 70.5,
      "step": 71415,
      "token_acc": 0.9263565891472868,
      "train_speed(iter/s)": 1.449925
    },
    {
      "epoch": 3.0598517629921598,
      "grad_norm": 2.6345696449279785,
      "learning_rate": 3.2772225602355554e-05,
      "loss": 0.30381264686584475,
      "memory(GiB)": 70.5,
      "step": 71420,
      "token_acc": 0.9214285714285714,
      "train_speed(iter/s)": 1.449949
    },
    {
      "epoch": 3.0600659783214086,
      "grad_norm": 1.3202028274536133,
      "learning_rate": 3.2765908076611426e-05,
      "loss": 0.2282790422439575,
      "memory(GiB)": 70.5,
      "step": 71425,
      "token_acc": 0.9459459459459459,
      "train_speed(iter/s)": 1.449941
    },
    {
      "epoch": 3.060280193650658,
      "grad_norm": 5.649299144744873,
      "learning_rate": 3.275959086307905e-05,
      "loss": 0.42544031143188477,
      "memory(GiB)": 70.5,
      "step": 71430,
      "token_acc": 0.918918918918919,
      "train_speed(iter/s)": 1.44996
    },
    {
      "epoch": 3.0604944089799067,
      "grad_norm": 2.017620325088501,
      "learning_rate": 3.2753273961872824e-05,
      "loss": 0.5067818641662598,
      "memory(GiB)": 70.5,
      "step": 71435,
      "token_acc": 0.8969072164948454,
      "train_speed(iter/s)": 1.449966
    },
    {
      "epoch": 3.0607086243091555,
      "grad_norm": 2.6842808723449707,
      "learning_rate": 3.274695737310723e-05,
      "loss": 0.5569127559661865,
      "memory(GiB)": 70.5,
      "step": 71440,
      "token_acc": 0.8877887788778878,
      "train_speed(iter/s)": 1.449964
    },
    {
      "epoch": 3.0609228396384047,
      "grad_norm": 4.735574722290039,
      "learning_rate": 3.2740641096896715e-05,
      "loss": 0.23121745586395265,
      "memory(GiB)": 70.5,
      "step": 71445,
      "token_acc": 0.9619377162629758,
      "train_speed(iter/s)": 1.449965
    },
    {
      "epoch": 3.0611370549676535,
      "grad_norm": 1.0332005023956299,
      "learning_rate": 3.273432513335566e-05,
      "loss": 0.22225663661956788,
      "memory(GiB)": 70.5,
      "step": 71450,
      "token_acc": 0.9386973180076629,
      "train_speed(iter/s)": 1.449969
    },
    {
      "epoch": 3.0613512702969023,
      "grad_norm": 2.2108871936798096,
      "learning_rate": 3.27280094825985e-05,
      "loss": 0.3072463274002075,
      "memory(GiB)": 70.5,
      "step": 71455,
      "token_acc": 0.9243986254295533,
      "train_speed(iter/s)": 1.449969
    },
    {
      "epoch": 3.0615654856261516,
      "grad_norm": 2.7512576580047607,
      "learning_rate": 3.2721694144739654e-05,
      "loss": 0.12235260009765625,
      "memory(GiB)": 70.5,
      "step": 71460,
      "token_acc": 0.9777158774373259,
      "train_speed(iter/s)": 1.449981
    },
    {
      "epoch": 3.0617797009554004,
      "grad_norm": 4.835775852203369,
      "learning_rate": 3.2715379119893534e-05,
      "loss": 0.7025155067443848,
      "memory(GiB)": 70.5,
      "step": 71465,
      "token_acc": 0.8554216867469879,
      "train_speed(iter/s)": 1.449991
    },
    {
      "epoch": 3.0619939162846492,
      "grad_norm": 1.9899848699569702,
      "learning_rate": 3.270906440817453e-05,
      "loss": 0.31758224964141846,
      "memory(GiB)": 70.5,
      "step": 71470,
      "token_acc": 0.94140625,
      "train_speed(iter/s)": 1.449995
    },
    {
      "epoch": 3.0622081316138985,
      "grad_norm": 0.17913982272148132,
      "learning_rate": 3.270275000969704e-05,
      "loss": 0.2982417821884155,
      "memory(GiB)": 70.5,
      "step": 71475,
      "token_acc": 0.9290540540540541,
      "train_speed(iter/s)": 1.450002
    },
    {
      "epoch": 3.0624223469431473,
      "grad_norm": 1.3535594940185547,
      "learning_rate": 3.2696435924575456e-05,
      "loss": 0.516306734085083,
      "memory(GiB)": 70.5,
      "step": 71480,
      "token_acc": 0.9081272084805654,
      "train_speed(iter/s)": 1.450016
    },
    {
      "epoch": 3.062636562272396,
      "grad_norm": 3.614039421081543,
      "learning_rate": 3.269012215292418e-05,
      "loss": 0.4416768550872803,
      "memory(GiB)": 70.5,
      "step": 71485,
      "token_acc": 0.9033457249070632,
      "train_speed(iter/s)": 1.450028
    },
    {
      "epoch": 3.0628507776016454,
      "grad_norm": 4.621480464935303,
      "learning_rate": 3.268380869485758e-05,
      "loss": 0.47977194786071775,
      "memory(GiB)": 70.5,
      "step": 71490,
      "token_acc": 0.906896551724138,
      "train_speed(iter/s)": 1.45003
    },
    {
      "epoch": 3.063064992930894,
      "grad_norm": 2.3557050228118896,
      "learning_rate": 3.267749555049002e-05,
      "loss": 0.31049749851226804,
      "memory(GiB)": 70.5,
      "step": 71495,
      "token_acc": 0.9401408450704225,
      "train_speed(iter/s)": 1.450028
    },
    {
      "epoch": 3.063279208260143,
      "grad_norm": 4.571683883666992,
      "learning_rate": 3.2671182719935874e-05,
      "loss": 0.18052160739898682,
      "memory(GiB)": 70.5,
      "step": 71500,
      "token_acc": 0.9622641509433962,
      "train_speed(iter/s)": 1.450027
    },
    {
      "epoch": 3.063279208260143,
      "eval_loss": 2.595233678817749,
      "eval_runtime": 12.0939,
      "eval_samples_per_second": 8.269,
      "eval_steps_per_second": 8.269,
      "eval_token_acc": 0.43529411764705883,
      "step": 71500
    },
    {
      "epoch": 3.0634934235893923,
      "grad_norm": 2.2178304195404053,
      "learning_rate": 3.266487020330953e-05,
      "loss": 0.16081924438476564,
      "memory(GiB)": 70.5,
      "step": 71505,
      "token_acc": 0.5857544517338332,
      "train_speed(iter/s)": 1.449651
    },
    {
      "epoch": 3.063707638918641,
      "grad_norm": 3.672724485397339,
      "learning_rate": 3.2658558000725295e-05,
      "loss": 0.22813220024108888,
      "memory(GiB)": 70.5,
      "step": 71510,
      "token_acc": 0.9444444444444444,
      "train_speed(iter/s)": 1.449665
    },
    {
      "epoch": 3.06392185424789,
      "grad_norm": 3.358431577682495,
      "learning_rate": 3.265224611229755e-05,
      "loss": 0.25980849266052247,
      "memory(GiB)": 70.5,
      "step": 71515,
      "token_acc": 0.9537953795379538,
      "train_speed(iter/s)": 1.449672
    },
    {
      "epoch": 3.064136069577139,
      "grad_norm": 2.0913050174713135,
      "learning_rate": 3.264593453814066e-05,
      "loss": 0.30590894222259524,
      "memory(GiB)": 70.5,
      "step": 71520,
      "token_acc": 0.9372937293729373,
      "train_speed(iter/s)": 1.449677
    },
    {
      "epoch": 3.064350284906388,
      "grad_norm": 3.054814338684082,
      "learning_rate": 3.2639623278368936e-05,
      "loss": 0.3315309524536133,
      "memory(GiB)": 70.5,
      "step": 71525,
      "token_acc": 0.9128787878787878,
      "train_speed(iter/s)": 1.449679
    },
    {
      "epoch": 3.0645645002356368,
      "grad_norm": 2.862893581390381,
      "learning_rate": 3.263331233309673e-05,
      "loss": 0.2611210584640503,
      "memory(GiB)": 70.5,
      "step": 71530,
      "token_acc": 0.9455128205128205,
      "train_speed(iter/s)": 1.449673
    },
    {
      "epoch": 3.064778715564886,
      "grad_norm": 3.3026280403137207,
      "learning_rate": 3.262700170243836e-05,
      "loss": 0.1805781126022339,
      "memory(GiB)": 70.5,
      "step": 71535,
      "token_acc": 0.9504643962848297,
      "train_speed(iter/s)": 1.449681
    },
    {
      "epoch": 3.064992930894135,
      "grad_norm": 4.471858501434326,
      "learning_rate": 3.262069138650814e-05,
      "loss": 0.4550000190734863,
      "memory(GiB)": 70.5,
      "step": 71540,
      "token_acc": 0.8935361216730038,
      "train_speed(iter/s)": 1.449694
    },
    {
      "epoch": 3.0652071462233836,
      "grad_norm": 2.9769673347473145,
      "learning_rate": 3.261438138542041e-05,
      "loss": 0.20692553520202636,
      "memory(GiB)": 70.5,
      "step": 71545,
      "token_acc": 0.9413680781758957,
      "train_speed(iter/s)": 1.449696
    },
    {
      "epoch": 3.065421361552633,
      "grad_norm": 3.5394227504730225,
      "learning_rate": 3.260807169928948e-05,
      "loss": 0.42508735656738283,
      "memory(GiB)": 70.5,
      "step": 71550,
      "token_acc": 0.9161676646706587,
      "train_speed(iter/s)": 1.4497
    },
    {
      "epoch": 3.0656355768818817,
      "grad_norm": 2.3034543991088867,
      "learning_rate": 3.2601762328229624e-05,
      "loss": 0.756819486618042,
      "memory(GiB)": 70.5,
      "step": 71555,
      "token_acc": 0.8549382716049383,
      "train_speed(iter/s)": 1.449706
    },
    {
      "epoch": 3.0658497922111305,
      "grad_norm": 0.5475966334342957,
      "learning_rate": 3.259545327235518e-05,
      "loss": 0.4572866916656494,
      "memory(GiB)": 70.5,
      "step": 71560,
      "token_acc": 0.900990099009901,
      "train_speed(iter/s)": 1.449709
    },
    {
      "epoch": 3.0660640075403798,
      "grad_norm": 4.880006790161133,
      "learning_rate": 3.258914453178041e-05,
      "loss": 0.21363575458526612,
      "memory(GiB)": 70.5,
      "step": 71565,
      "token_acc": 0.9546827794561934,
      "train_speed(iter/s)": 1.449714
    },
    {
      "epoch": 3.0662782228696286,
      "grad_norm": 2.6907732486724854,
      "learning_rate": 3.2582836106619636e-05,
      "loss": 0.25587828159332277,
      "memory(GiB)": 70.5,
      "step": 71570,
      "token_acc": 0.9313725490196079,
      "train_speed(iter/s)": 1.449715
    },
    {
      "epoch": 3.0664924381988774,
      "grad_norm": 4.814002513885498,
      "learning_rate": 3.257652799698712e-05,
      "loss": 0.249724817276001,
      "memory(GiB)": 70.5,
      "step": 71575,
      "token_acc": 0.9438202247191011,
      "train_speed(iter/s)": 1.44972
    },
    {
      "epoch": 3.0667066535281267,
      "grad_norm": 3.583427667617798,
      "learning_rate": 3.2570220202997134e-05,
      "loss": 0.40204548835754395,
      "memory(GiB)": 70.5,
      "step": 71580,
      "token_acc": 0.9041095890410958,
      "train_speed(iter/s)": 1.44972
    },
    {
      "epoch": 3.0669208688573755,
      "grad_norm": 4.783653736114502,
      "learning_rate": 3.256391272476396e-05,
      "loss": 0.301775860786438,
      "memory(GiB)": 70.5,
      "step": 71585,
      "token_acc": 0.9206349206349206,
      "train_speed(iter/s)": 1.449724
    },
    {
      "epoch": 3.0671350841866243,
      "grad_norm": 1.3294304609298706,
      "learning_rate": 3.255760556240187e-05,
      "loss": 0.3000039100646973,
      "memory(GiB)": 70.5,
      "step": 71590,
      "token_acc": 0.9252873563218391,
      "train_speed(iter/s)": 1.449739
    },
    {
      "epoch": 3.0673492995158735,
      "grad_norm": 2.3158745765686035,
      "learning_rate": 3.255129871602512e-05,
      "loss": 0.19140721559524537,
      "memory(GiB)": 70.5,
      "step": 71595,
      "token_acc": 0.9655172413793104,
      "train_speed(iter/s)": 1.44975
    },
    {
      "epoch": 3.0675635148451224,
      "grad_norm": 1.980510950088501,
      "learning_rate": 3.2544992185747955e-05,
      "loss": 0.1562623381614685,
      "memory(GiB)": 70.5,
      "step": 71600,
      "token_acc": 0.9607843137254902,
      "train_speed(iter/s)": 1.449756
    },
    {
      "epoch": 3.067777730174371,
      "grad_norm": 3.4732329845428467,
      "learning_rate": 3.2538685971684646e-05,
      "loss": 0.45214138031005857,
      "memory(GiB)": 70.5,
      "step": 71605,
      "token_acc": 0.9034749034749034,
      "train_speed(iter/s)": 1.449757
    },
    {
      "epoch": 3.0679919455036204,
      "grad_norm": 2.997429609298706,
      "learning_rate": 3.253238007394942e-05,
      "loss": 0.4747790813446045,
      "memory(GiB)": 70.5,
      "step": 71610,
      "token_acc": 0.8962264150943396,
      "train_speed(iter/s)": 1.449753
    },
    {
      "epoch": 3.0682061608328692,
      "grad_norm": 4.493565559387207,
      "learning_rate": 3.2526074492656496e-05,
      "loss": 0.3142727851867676,
      "memory(GiB)": 70.5,
      "step": 71615,
      "token_acc": 0.9466666666666667,
      "train_speed(iter/s)": 1.449752
    },
    {
      "epoch": 3.068420376162118,
      "grad_norm": 4.044743537902832,
      "learning_rate": 3.2519769227920135e-05,
      "loss": 0.30366108417510984,
      "memory(GiB)": 70.5,
      "step": 71620,
      "token_acc": 0.9270833333333334,
      "train_speed(iter/s)": 1.44975
    },
    {
      "epoch": 3.0686345914913673,
      "grad_norm": 3.360025644302368,
      "learning_rate": 3.251346427985455e-05,
      "loss": 0.4183413028717041,
      "memory(GiB)": 70.5,
      "step": 71625,
      "token_acc": 0.9207547169811321,
      "train_speed(iter/s)": 1.449751
    },
    {
      "epoch": 3.068848806820616,
      "grad_norm": 1.1940865516662598,
      "learning_rate": 3.250715964857397e-05,
      "loss": 0.2805870532989502,
      "memory(GiB)": 70.5,
      "step": 71630,
      "token_acc": 0.9347079037800687,
      "train_speed(iter/s)": 1.449753
    },
    {
      "epoch": 3.069063022149865,
      "grad_norm": 3.1786396503448486,
      "learning_rate": 3.25008553341926e-05,
      "loss": 0.26912527084350585,
      "memory(GiB)": 70.5,
      "step": 71635,
      "token_acc": 0.941358024691358,
      "train_speed(iter/s)": 1.449749
    },
    {
      "epoch": 3.069277237479114,
      "grad_norm": 4.8220672607421875,
      "learning_rate": 3.249455133682464e-05,
      "loss": 0.41452903747558595,
      "memory(GiB)": 70.5,
      "step": 71640,
      "token_acc": 0.9117647058823529,
      "train_speed(iter/s)": 1.449749
    },
    {
      "epoch": 3.069491452808363,
      "grad_norm": 2.7125394344329834,
      "learning_rate": 3.248824765658432e-05,
      "loss": 0.6431235313415528,
      "memory(GiB)": 70.5,
      "step": 71645,
      "token_acc": 0.8538205980066446,
      "train_speed(iter/s)": 1.449747
    },
    {
      "epoch": 3.069705668137612,
      "grad_norm": 3.89691162109375,
      "learning_rate": 3.248194429358582e-05,
      "loss": 0.44181203842163086,
      "memory(GiB)": 70.5,
      "step": 71650,
      "token_acc": 0.9014084507042254,
      "train_speed(iter/s)": 1.449762
    },
    {
      "epoch": 3.069919883466861,
      "grad_norm": 0.27784672379493713,
      "learning_rate": 3.247564124794332e-05,
      "loss": 0.5228743553161621,
      "memory(GiB)": 70.5,
      "step": 71655,
      "token_acc": 0.8921161825726142,
      "train_speed(iter/s)": 1.449765
    },
    {
      "epoch": 3.07013409879611,
      "grad_norm": 0.5197327136993408,
      "learning_rate": 3.246933851977101e-05,
      "loss": 0.19956870079040528,
      "memory(GiB)": 70.5,
      "step": 71660,
      "token_acc": 0.952247191011236,
      "train_speed(iter/s)": 1.449764
    },
    {
      "epoch": 3.0703483141253587,
      "grad_norm": 2.5122411251068115,
      "learning_rate": 3.246303610918309e-05,
      "loss": 0.5789984226226806,
      "memory(GiB)": 70.5,
      "step": 71665,
      "token_acc": 0.8838951310861424,
      "train_speed(iter/s)": 1.449775
    },
    {
      "epoch": 3.070562529454608,
      "grad_norm": 4.300606727600098,
      "learning_rate": 3.245673401629372e-05,
      "loss": 0.342710018157959,
      "memory(GiB)": 70.5,
      "step": 71670,
      "token_acc": 0.9198606271777003,
      "train_speed(iter/s)": 1.449778
    },
    {
      "epoch": 3.0707767447838568,
      "grad_norm": 1.8902124166488647,
      "learning_rate": 3.245043224121708e-05,
      "loss": 0.3556164979934692,
      "memory(GiB)": 70.5,
      "step": 71675,
      "token_acc": 0.930379746835443,
      "train_speed(iter/s)": 1.449782
    },
    {
      "epoch": 3.0709909601131056,
      "grad_norm": 1.846895456314087,
      "learning_rate": 3.2444130784067315e-05,
      "loss": 0.46110901832580564,
      "memory(GiB)": 70.5,
      "step": 71680,
      "token_acc": 0.9347826086956522,
      "train_speed(iter/s)": 1.449786
    },
    {
      "epoch": 3.071205175442355,
      "grad_norm": 1.4253637790679932,
      "learning_rate": 3.243782964495859e-05,
      "loss": 0.3890009164810181,
      "memory(GiB)": 70.5,
      "step": 71685,
      "token_acc": 0.9282868525896414,
      "train_speed(iter/s)": 1.449789
    },
    {
      "epoch": 3.0714193907716036,
      "grad_norm": 2.266624689102173,
      "learning_rate": 3.243152882400506e-05,
      "loss": 0.3536843776702881,
      "memory(GiB)": 70.5,
      "step": 71690,
      "token_acc": 0.911864406779661,
      "train_speed(iter/s)": 1.449788
    },
    {
      "epoch": 3.0716336061008525,
      "grad_norm": 2.273050546646118,
      "learning_rate": 3.2425228321320863e-05,
      "loss": 0.2550879240036011,
      "memory(GiB)": 70.5,
      "step": 71695,
      "token_acc": 0.9361702127659575,
      "train_speed(iter/s)": 1.449794
    },
    {
      "epoch": 3.0718478214301017,
      "grad_norm": 3.8078176975250244,
      "learning_rate": 3.241892813702014e-05,
      "loss": 0.2130880117416382,
      "memory(GiB)": 70.5,
      "step": 71700,
      "token_acc": 0.9491525423728814,
      "train_speed(iter/s)": 1.449805
    },
    {
      "epoch": 3.0720620367593505,
      "grad_norm": 5.280353546142578,
      "learning_rate": 3.2412628271217034e-05,
      "loss": 0.2653702735900879,
      "memory(GiB)": 70.5,
      "step": 71705,
      "token_acc": 0.9382239382239382,
      "train_speed(iter/s)": 1.449809
    },
    {
      "epoch": 3.0722762520885993,
      "grad_norm": 3.409792900085449,
      "learning_rate": 3.240632872402565e-05,
      "loss": 0.306410551071167,
      "memory(GiB)": 70.5,
      "step": 71710,
      "token_acc": 0.9288025889967637,
      "train_speed(iter/s)": 1.44981
    },
    {
      "epoch": 3.0724904674178486,
      "grad_norm": 0.8094643950462341,
      "learning_rate": 3.240002949556014e-05,
      "loss": 0.27801406383514404,
      "memory(GiB)": 70.5,
      "step": 71715,
      "token_acc": 0.930379746835443,
      "train_speed(iter/s)": 1.44981
    },
    {
      "epoch": 3.0727046827470974,
      "grad_norm": 4.051098346710205,
      "learning_rate": 3.23937305859346e-05,
      "loss": 0.3798035144805908,
      "memory(GiB)": 70.5,
      "step": 71720,
      "token_acc": 0.9087837837837838,
      "train_speed(iter/s)": 1.449806
    },
    {
      "epoch": 3.072918898076346,
      "grad_norm": 1.8720428943634033,
      "learning_rate": 3.238743199526314e-05,
      "loss": 0.22402617931365967,
      "memory(GiB)": 70.5,
      "step": 71725,
      "token_acc": 0.9633333333333334,
      "train_speed(iter/s)": 1.44981
    },
    {
      "epoch": 3.0731331134055955,
      "grad_norm": 0.11345012485980988,
      "learning_rate": 3.2381133723659886e-05,
      "loss": 0.24989118576049804,
      "memory(GiB)": 70.5,
      "step": 71730,
      "token_acc": 0.9421768707482994,
      "train_speed(iter/s)": 1.449815
    },
    {
      "epoch": 3.0733473287348443,
      "grad_norm": 4.191550254821777,
      "learning_rate": 3.23748357712389e-05,
      "loss": 0.6379828929901123,
      "memory(GiB)": 70.5,
      "step": 71735,
      "token_acc": 0.8778877887788779,
      "train_speed(iter/s)": 1.449813
    },
    {
      "epoch": 3.073561544064093,
      "grad_norm": 1.7271130084991455,
      "learning_rate": 3.236853813811431e-05,
      "loss": 0.4711876392364502,
      "memory(GiB)": 70.5,
      "step": 71740,
      "token_acc": 0.912621359223301,
      "train_speed(iter/s)": 1.449829
    },
    {
      "epoch": 3.0737757593933424,
      "grad_norm": 4.280358791351318,
      "learning_rate": 3.236224082440019e-05,
      "loss": 0.3762217044830322,
      "memory(GiB)": 70.5,
      "step": 71745,
      "token_acc": 0.9235880398671097,
      "train_speed(iter/s)": 1.449833
    },
    {
      "epoch": 3.073989974722591,
      "grad_norm": 0.21755968034267426,
      "learning_rate": 3.235594383021063e-05,
      "loss": 0.2731450319290161,
      "memory(GiB)": 70.5,
      "step": 71750,
      "token_acc": 0.9169329073482428,
      "train_speed(iter/s)": 1.449837
    },
    {
      "epoch": 3.07420419005184,
      "grad_norm": 2.5490200519561768,
      "learning_rate": 3.23496471556597e-05,
      "loss": 0.32067251205444336,
      "memory(GiB)": 70.5,
      "step": 71755,
      "token_acc": 0.9251968503937008,
      "train_speed(iter/s)": 1.44984
    },
    {
      "epoch": 3.0744184053810892,
      "grad_norm": 7.104940414428711,
      "learning_rate": 3.234335080086146e-05,
      "loss": 0.8888607025146484,
      "memory(GiB)": 70.5,
      "step": 71760,
      "token_acc": 0.82421875,
      "train_speed(iter/s)": 1.449844
    },
    {
      "epoch": 3.074632620710338,
      "grad_norm": 1.3933073282241821,
      "learning_rate": 3.233705476592999e-05,
      "loss": 0.4646648406982422,
      "memory(GiB)": 70.5,
      "step": 71765,
      "token_acc": 0.8784722222222222,
      "train_speed(iter/s)": 1.449845
    },
    {
      "epoch": 3.074846836039587,
      "grad_norm": 1.1844826936721802,
      "learning_rate": 3.233075905097933e-05,
      "loss": 0.32055437564849854,
      "memory(GiB)": 70.5,
      "step": 71770,
      "token_acc": 0.9025270758122743,
      "train_speed(iter/s)": 1.449865
    },
    {
      "epoch": 3.075061051368836,
      "grad_norm": 3.167907238006592,
      "learning_rate": 3.232446365612356e-05,
      "loss": 0.3470921516418457,
      "memory(GiB)": 70.5,
      "step": 71775,
      "token_acc": 0.9237804878048781,
      "train_speed(iter/s)": 1.449877
    },
    {
      "epoch": 3.075275266698085,
      "grad_norm": 3.0191309452056885,
      "learning_rate": 3.231816858147672e-05,
      "loss": 0.4179695606231689,
      "memory(GiB)": 70.5,
      "step": 71780,
      "token_acc": 0.9148264984227129,
      "train_speed(iter/s)": 1.449875
    },
    {
      "epoch": 3.0754894820273337,
      "grad_norm": 1.2066431045532227,
      "learning_rate": 3.231187382715282e-05,
      "loss": 0.24595909118652343,
      "memory(GiB)": 70.5,
      "step": 71785,
      "token_acc": 0.946031746031746,
      "train_speed(iter/s)": 1.449882
    },
    {
      "epoch": 3.075703697356583,
      "grad_norm": 3.079944610595703,
      "learning_rate": 3.2305579393265926e-05,
      "loss": 0.32366418838500977,
      "memory(GiB)": 70.5,
      "step": 71790,
      "token_acc": 0.95,
      "train_speed(iter/s)": 1.449883
    },
    {
      "epoch": 3.075917912685832,
      "grad_norm": 1.2541950941085815,
      "learning_rate": 3.229928527993007e-05,
      "loss": 0.2605990171432495,
      "memory(GiB)": 70.5,
      "step": 71795,
      "token_acc": 0.9383116883116883,
      "train_speed(iter/s)": 1.449889
    },
    {
      "epoch": 3.0761321280150806,
      "grad_norm": 6.33047342300415,
      "learning_rate": 3.229299148725925e-05,
      "loss": 0.5041448593139648,
      "memory(GiB)": 70.5,
      "step": 71800,
      "token_acc": 0.8832684824902723,
      "train_speed(iter/s)": 1.449892
    },
    {
      "epoch": 3.07634634334433,
      "grad_norm": 2.3625428676605225,
      "learning_rate": 3.228669801536749e-05,
      "loss": 0.21516938209533693,
      "memory(GiB)": 70.5,
      "step": 71805,
      "token_acc": 0.9475806451612904,
      "train_speed(iter/s)": 1.449895
    },
    {
      "epoch": 3.0765605586735787,
      "grad_norm": 0.4461083710193634,
      "learning_rate": 3.228040486436884e-05,
      "loss": 0.31092162132263185,
      "memory(GiB)": 70.5,
      "step": 71810,
      "token_acc": 0.9301470588235294,
      "train_speed(iter/s)": 1.449892
    },
    {
      "epoch": 3.0767747740028275,
      "grad_norm": 6.849164009094238,
      "learning_rate": 3.2274112034377255e-05,
      "loss": 0.43694357872009276,
      "memory(GiB)": 70.5,
      "step": 71815,
      "token_acc": 0.9206349206349206,
      "train_speed(iter/s)": 1.449893
    },
    {
      "epoch": 3.0769889893320768,
      "grad_norm": 2.109119176864624,
      "learning_rate": 3.2267819525506784e-05,
      "loss": 0.2841574907302856,
      "memory(GiB)": 70.5,
      "step": 71820,
      "token_acc": 0.9432624113475178,
      "train_speed(iter/s)": 1.449893
    },
    {
      "epoch": 3.0772032046613256,
      "grad_norm": 3.094090461730957,
      "learning_rate": 3.226152733787138e-05,
      "loss": 0.3554091215133667,
      "memory(GiB)": 70.5,
      "step": 71825,
      "token_acc": 0.9134615384615384,
      "train_speed(iter/s)": 1.449899
    },
    {
      "epoch": 3.0774174199905744,
      "grad_norm": 0.517930269241333,
      "learning_rate": 3.225523547158505e-05,
      "loss": 0.16520652770996094,
      "memory(GiB)": 70.5,
      "step": 71830,
      "token_acc": 0.9627118644067797,
      "train_speed(iter/s)": 1.449915
    },
    {
      "epoch": 3.0776316353198236,
      "grad_norm": 3.6166117191314697,
      "learning_rate": 3.224894392676178e-05,
      "loss": 0.3408321142196655,
      "memory(GiB)": 70.5,
      "step": 71835,
      "token_acc": 0.9220338983050848,
      "train_speed(iter/s)": 1.449918
    },
    {
      "epoch": 3.0778458506490725,
      "grad_norm": 0.035168617963790894,
      "learning_rate": 3.2242652703515545e-05,
      "loss": 0.36118245124816895,
      "memory(GiB)": 70.5,
      "step": 71840,
      "token_acc": 0.897887323943662,
      "train_speed(iter/s)": 1.449924
    },
    {
      "epoch": 3.0780600659783213,
      "grad_norm": 1.8731689453125,
      "learning_rate": 3.22363618019603e-05,
      "loss": 0.2976234436035156,
      "memory(GiB)": 70.5,
      "step": 71845,
      "token_acc": 0.9395973154362416,
      "train_speed(iter/s)": 1.449938
    },
    {
      "epoch": 3.0782742813075705,
      "grad_norm": 4.988794326782227,
      "learning_rate": 3.223007122221004e-05,
      "loss": 0.32525999546051027,
      "memory(GiB)": 70.5,
      "step": 71850,
      "token_acc": 0.948339483394834,
      "train_speed(iter/s)": 1.449946
    },
    {
      "epoch": 3.0784884966368193,
      "grad_norm": 4.739455223083496,
      "learning_rate": 3.22237809643787e-05,
      "loss": 0.3195915937423706,
      "memory(GiB)": 70.5,
      "step": 71855,
      "token_acc": 0.9193548387096774,
      "train_speed(iter/s)": 1.449944
    },
    {
      "epoch": 3.078702711966068,
      "grad_norm": 4.020862102508545,
      "learning_rate": 3.221749102858025e-05,
      "loss": 0.440263557434082,
      "memory(GiB)": 70.5,
      "step": 71860,
      "token_acc": 0.8990825688073395,
      "train_speed(iter/s)": 1.449943
    },
    {
      "epoch": 3.0789169272953174,
      "grad_norm": 5.20256233215332,
      "learning_rate": 3.2211201414928634e-05,
      "loss": 0.5055536270141602,
      "memory(GiB)": 70.5,
      "step": 71865,
      "token_acc": 0.8973607038123167,
      "train_speed(iter/s)": 1.449949
    },
    {
      "epoch": 3.079131142624566,
      "grad_norm": 2.012552499771118,
      "learning_rate": 3.220491212353778e-05,
      "loss": 0.14717509746551513,
      "memory(GiB)": 70.5,
      "step": 71870,
      "token_acc": 0.9597069597069597,
      "train_speed(iter/s)": 1.449958
    },
    {
      "epoch": 3.079345357953815,
      "grad_norm": 2.7107834815979004,
      "learning_rate": 3.219862315452164e-05,
      "loss": 0.30121028423309326,
      "memory(GiB)": 70.5,
      "step": 71875,
      "token_acc": 0.9442815249266863,
      "train_speed(iter/s)": 1.44996
    },
    {
      "epoch": 3.0795595732830643,
      "grad_norm": 3.572327136993408,
      "learning_rate": 3.2192334507994125e-05,
      "loss": 0.20666427612304689,
      "memory(GiB)": 70.5,
      "step": 71880,
      "token_acc": 0.946360153256705,
      "train_speed(iter/s)": 1.449975
    },
    {
      "epoch": 3.079773788612313,
      "grad_norm": 2.0885844230651855,
      "learning_rate": 3.2186046184069196e-05,
      "loss": 0.32459614276885984,
      "memory(GiB)": 70.5,
      "step": 71885,
      "token_acc": 0.9264705882352942,
      "train_speed(iter/s)": 1.449987
    },
    {
      "epoch": 3.079988003941562,
      "grad_norm": 1.2684646844863892,
      "learning_rate": 3.2179758182860744e-05,
      "loss": 0.4099857807159424,
      "memory(GiB)": 70.5,
      "step": 71890,
      "token_acc": 0.9134948096885813,
      "train_speed(iter/s)": 1.44999
    },
    {
      "epoch": 3.080202219270811,
      "grad_norm": 3.5641376972198486,
      "learning_rate": 3.21734705044827e-05,
      "loss": 0.43624420166015626,
      "memory(GiB)": 70.5,
      "step": 71895,
      "token_acc": 0.9096573208722741,
      "train_speed(iter/s)": 1.450004
    },
    {
      "epoch": 3.08041643460006,
      "grad_norm": 6.388017177581787,
      "learning_rate": 3.216718314904895e-05,
      "loss": 0.6749660968780518,
      "memory(GiB)": 70.5,
      "step": 71900,
      "token_acc": 0.8774834437086093,
      "train_speed(iter/s)": 1.450017
    },
    {
      "epoch": 3.080630649929309,
      "grad_norm": 1.8492563962936401,
      "learning_rate": 3.216089611667341e-05,
      "loss": 0.47862658500671384,
      "memory(GiB)": 70.5,
      "step": 71905,
      "token_acc": 0.8825622775800712,
      "train_speed(iter/s)": 1.450033
    },
    {
      "epoch": 3.080844865258558,
      "grad_norm": 0.9743871688842773,
      "learning_rate": 3.215460940746997e-05,
      "loss": 0.36658611297607424,
      "memory(GiB)": 70.5,
      "step": 71910,
      "token_acc": 0.909967845659164,
      "train_speed(iter/s)": 1.450044
    },
    {
      "epoch": 3.081059080587807,
      "grad_norm": 0.3357701003551483,
      "learning_rate": 3.214832302155252e-05,
      "loss": 0.09709672331809997,
      "memory(GiB)": 70.5,
      "step": 71915,
      "token_acc": 0.9734848484848485,
      "train_speed(iter/s)": 1.450043
    },
    {
      "epoch": 3.0812732959170557,
      "grad_norm": 0.6599858403205872,
      "learning_rate": 3.214203695903495e-05,
      "loss": 0.24129810333251953,
      "memory(GiB)": 70.5,
      "step": 71920,
      "token_acc": 0.9420849420849421,
      "train_speed(iter/s)": 1.450046
    },
    {
      "epoch": 3.081487511246305,
      "grad_norm": 4.8673553466796875,
      "learning_rate": 3.213575122003113e-05,
      "loss": 0.4482258796691895,
      "memory(GiB)": 70.5,
      "step": 71925,
      "token_acc": 0.9020172910662824,
      "train_speed(iter/s)": 1.45005
    },
    {
      "epoch": 3.0817017265755537,
      "grad_norm": 3.4829177856445312,
      "learning_rate": 3.212946580465493e-05,
      "loss": 0.26018452644348145,
      "memory(GiB)": 70.5,
      "step": 71930,
      "token_acc": 0.9580645161290322,
      "train_speed(iter/s)": 1.45005
    },
    {
      "epoch": 3.0819159419048026,
      "grad_norm": 2.3189682960510254,
      "learning_rate": 3.212318071302023e-05,
      "loss": 0.4218435764312744,
      "memory(GiB)": 70.5,
      "step": 71935,
      "token_acc": 0.9171974522292994,
      "train_speed(iter/s)": 1.450064
    },
    {
      "epoch": 3.082130157234052,
      "grad_norm": 4.381964683532715,
      "learning_rate": 3.211689594524088e-05,
      "loss": 0.2778221845626831,
      "memory(GiB)": 70.5,
      "step": 71940,
      "token_acc": 0.9230769230769231,
      "train_speed(iter/s)": 1.450075
    },
    {
      "epoch": 3.0823443725633006,
      "grad_norm": 1.5046316385269165,
      "learning_rate": 3.211061150143072e-05,
      "loss": 0.5088245391845703,
      "memory(GiB)": 70.5,
      "step": 71945,
      "token_acc": 0.9025974025974026,
      "train_speed(iter/s)": 1.450084
    },
    {
      "epoch": 3.0825585878925494,
      "grad_norm": 3.8818976879119873,
      "learning_rate": 3.210432738170363e-05,
      "loss": 0.24576034545898437,
      "memory(GiB)": 70.5,
      "step": 71950,
      "token_acc": 0.9386281588447654,
      "train_speed(iter/s)": 1.450081
    },
    {
      "epoch": 3.0827728032217987,
      "grad_norm": 3.1130049228668213,
      "learning_rate": 3.209804358617342e-05,
      "loss": 0.2445775270462036,
      "memory(GiB)": 70.5,
      "step": 71955,
      "token_acc": 0.9351851851851852,
      "train_speed(iter/s)": 1.450086
    },
    {
      "epoch": 3.0829870185510475,
      "grad_norm": 3.6635468006134033,
      "learning_rate": 3.2091760114953945e-05,
      "loss": 0.41423864364624025,
      "memory(GiB)": 70.5,
      "step": 71960,
      "token_acc": 0.9111747851002865,
      "train_speed(iter/s)": 1.45009
    },
    {
      "epoch": 3.0832012338802963,
      "grad_norm": 2.0715672969818115,
      "learning_rate": 3.208547696815905e-05,
      "loss": 0.106837797164917,
      "memory(GiB)": 70.5,
      "step": 71965,
      "token_acc": 0.9770992366412213,
      "train_speed(iter/s)": 1.450097
    },
    {
      "epoch": 3.0834154492095456,
      "grad_norm": 4.877560138702393,
      "learning_rate": 3.207919414590255e-05,
      "loss": 0.5776120662689209,
      "memory(GiB)": 70.5,
      "step": 71970,
      "token_acc": 0.884180790960452,
      "train_speed(iter/s)": 1.450107
    },
    {
      "epoch": 3.0836296645387944,
      "grad_norm": 2.5956950187683105,
      "learning_rate": 3.207291164829824e-05,
      "loss": 0.2909021615982056,
      "memory(GiB)": 70.5,
      "step": 71975,
      "token_acc": 0.9236111111111112,
      "train_speed(iter/s)": 1.450108
    },
    {
      "epoch": 3.083843879868043,
      "grad_norm": 1.570043921470642,
      "learning_rate": 3.2066629475459964e-05,
      "loss": 0.10869038105010986,
      "memory(GiB)": 70.5,
      "step": 71980,
      "token_acc": 0.9748427672955975,
      "train_speed(iter/s)": 1.450113
    },
    {
      "epoch": 3.0840580951972925,
      "grad_norm": 2.723996877670288,
      "learning_rate": 3.206034762750152e-05,
      "loss": 0.4121073246002197,
      "memory(GiB)": 70.5,
      "step": 71985,
      "token_acc": 0.9006849315068494,
      "train_speed(iter/s)": 1.450122
    },
    {
      "epoch": 3.0842723105265413,
      "grad_norm": 1.8899182081222534,
      "learning_rate": 3.20540661045367e-05,
      "loss": 0.30558195114135744,
      "memory(GiB)": 70.5,
      "step": 71990,
      "token_acc": 0.948,
      "train_speed(iter/s)": 1.450127
    },
    {
      "epoch": 3.08448652585579,
      "grad_norm": 4.220983505249023,
      "learning_rate": 3.204778490667931e-05,
      "loss": 0.3572458505630493,
      "memory(GiB)": 70.5,
      "step": 71995,
      "token_acc": 0.9333333333333333,
      "train_speed(iter/s)": 1.450132
    },
    {
      "epoch": 3.0847007411850393,
      "grad_norm": 2.748910427093506,
      "learning_rate": 3.2041504034043134e-05,
      "loss": 0.3138303756713867,
      "memory(GiB)": 70.5,
      "step": 72000,
      "token_acc": 0.9419354838709677,
      "train_speed(iter/s)": 1.450136
    },
    {
      "epoch": 3.0847007411850393,
      "eval_loss": 2.4731180667877197,
      "eval_runtime": 11.7253,
      "eval_samples_per_second": 8.529,
      "eval_steps_per_second": 8.529,
      "eval_token_acc": 0.4562146892655367,
      "step": 72000
    },
    {
      "epoch": 3.084914956514288,
      "grad_norm": 3.921515941619873,
      "learning_rate": 3.203522348674197e-05,
      "loss": 0.3115487575531006,
      "memory(GiB)": 70.5,
      "step": 72005,
      "token_acc": 0.5897177419354839,
      "train_speed(iter/s)": 1.449768
    },
    {
      "epoch": 3.085129171843537,
      "grad_norm": 2.914583444595337,
      "learning_rate": 3.202894326488958e-05,
      "loss": 0.3670539379119873,
      "memory(GiB)": 70.5,
      "step": 72010,
      "token_acc": 0.9233333333333333,
      "train_speed(iter/s)": 1.44977
    },
    {
      "epoch": 3.0853433871727862,
      "grad_norm": 3.9664411544799805,
      "learning_rate": 3.2022663368599736e-05,
      "loss": 0.3514024019241333,
      "memory(GiB)": 70.5,
      "step": 72015,
      "token_acc": 0.9137254901960784,
      "train_speed(iter/s)": 1.44977
    },
    {
      "epoch": 3.085557602502035,
      "grad_norm": 3.5649290084838867,
      "learning_rate": 3.201638379798622e-05,
      "loss": 0.19372320175170898,
      "memory(GiB)": 70.5,
      "step": 72020,
      "token_acc": 0.9595588235294118,
      "train_speed(iter/s)": 1.449772
    },
    {
      "epoch": 3.085771817831284,
      "grad_norm": 3.2322380542755127,
      "learning_rate": 3.2010104553162765e-05,
      "loss": 0.32059626579284667,
      "memory(GiB)": 70.5,
      "step": 72025,
      "token_acc": 0.9383561643835616,
      "train_speed(iter/s)": 1.449777
    },
    {
      "epoch": 3.085986033160533,
      "grad_norm": 2.784275770187378,
      "learning_rate": 3.200382563424314e-05,
      "loss": 0.2988420486450195,
      "memory(GiB)": 70.5,
      "step": 72030,
      "token_acc": 0.9506578947368421,
      "train_speed(iter/s)": 1.44979
    },
    {
      "epoch": 3.086200248489782,
      "grad_norm": 2.9945321083068848,
      "learning_rate": 3.1997547041341105e-05,
      "loss": 0.3317952871322632,
      "memory(GiB)": 70.5,
      "step": 72035,
      "token_acc": 0.9049295774647887,
      "train_speed(iter/s)": 1.449793
    },
    {
      "epoch": 3.0864144638190307,
      "grad_norm": 2.6717183589935303,
      "learning_rate": 3.1991268774570396e-05,
      "loss": 0.24925656318664552,
      "memory(GiB)": 70.5,
      "step": 72040,
      "token_acc": 0.960431654676259,
      "train_speed(iter/s)": 1.449802
    },
    {
      "epoch": 3.08662867914828,
      "grad_norm": 4.2367424964904785,
      "learning_rate": 3.1984990834044746e-05,
      "loss": 0.262900710105896,
      "memory(GiB)": 70.5,
      "step": 72045,
      "token_acc": 0.946875,
      "train_speed(iter/s)": 1.449807
    },
    {
      "epoch": 3.086842894477529,
      "grad_norm": 1.072620153427124,
      "learning_rate": 3.1978713219877876e-05,
      "loss": 0.35761520862579343,
      "memory(GiB)": 70.5,
      "step": 72050,
      "token_acc": 0.911504424778761,
      "train_speed(iter/s)": 1.44981
    },
    {
      "epoch": 3.0870571098067776,
      "grad_norm": 11.878381729125977,
      "learning_rate": 3.197243593218353e-05,
      "loss": 0.6787012100219727,
      "memory(GiB)": 70.5,
      "step": 72055,
      "token_acc": 0.8299120234604106,
      "train_speed(iter/s)": 1.449805
    },
    {
      "epoch": 3.087271325136027,
      "grad_norm": 2.9534974098205566,
      "learning_rate": 3.196615897107542e-05,
      "loss": 0.2505557775497437,
      "memory(GiB)": 70.5,
      "step": 72060,
      "token_acc": 0.9423631123919308,
      "train_speed(iter/s)": 1.449811
    },
    {
      "epoch": 3.0874855404652757,
      "grad_norm": 3.5761735439300537,
      "learning_rate": 3.1959882336667254e-05,
      "loss": 0.36669230461120605,
      "memory(GiB)": 70.5,
      "step": 72065,
      "token_acc": 0.9261744966442953,
      "train_speed(iter/s)": 1.44981
    },
    {
      "epoch": 3.0876997557945245,
      "grad_norm": 1.9142132997512817,
      "learning_rate": 3.1953606029072754e-05,
      "loss": 0.12959352731704712,
      "memory(GiB)": 70.5,
      "step": 72070,
      "token_acc": 0.9725085910652921,
      "train_speed(iter/s)": 1.449814
    },
    {
      "epoch": 3.0879139711237737,
      "grad_norm": 0.0631110668182373,
      "learning_rate": 3.194733004840559e-05,
      "loss": 0.3647179126739502,
      "memory(GiB)": 70.5,
      "step": 72075,
      "token_acc": 0.9081272084805654,
      "train_speed(iter/s)": 1.449824
    },
    {
      "epoch": 3.0881281864530226,
      "grad_norm": 4.409379959106445,
      "learning_rate": 3.194105439477949e-05,
      "loss": 0.3199739694595337,
      "memory(GiB)": 70.5,
      "step": 72080,
      "token_acc": 0.9259259259259259,
      "train_speed(iter/s)": 1.449839
    },
    {
      "epoch": 3.0883424017822714,
      "grad_norm": 5.569331169128418,
      "learning_rate": 3.193477906830813e-05,
      "loss": 0.5056793212890625,
      "memory(GiB)": 70.5,
      "step": 72085,
      "token_acc": 0.8905109489051095,
      "train_speed(iter/s)": 1.449849
    },
    {
      "epoch": 3.0885566171115206,
      "grad_norm": 3.2271904945373535,
      "learning_rate": 3.192850406910519e-05,
      "loss": 0.3904532194137573,
      "memory(GiB)": 70.5,
      "step": 72090,
      "token_acc": 0.9021739130434783,
      "train_speed(iter/s)": 1.449847
    },
    {
      "epoch": 3.0887708324407694,
      "grad_norm": 2.832735061645508,
      "learning_rate": 3.1922229397284355e-05,
      "loss": 0.379850959777832,
      "memory(GiB)": 70.5,
      "step": 72095,
      "token_acc": 0.9409722222222222,
      "train_speed(iter/s)": 1.449843
    },
    {
      "epoch": 3.0889850477700183,
      "grad_norm": 4.341202735900879,
      "learning_rate": 3.191595505295927e-05,
      "loss": 0.28164381980895997,
      "memory(GiB)": 70.5,
      "step": 72100,
      "token_acc": 0.9204152249134948,
      "train_speed(iter/s)": 1.449849
    },
    {
      "epoch": 3.0891992630992675,
      "grad_norm": 2.83276629447937,
      "learning_rate": 3.1909681036243644e-05,
      "loss": 0.2094271183013916,
      "memory(GiB)": 70.5,
      "step": 72105,
      "token_acc": 0.9371069182389937,
      "train_speed(iter/s)": 1.449853
    },
    {
      "epoch": 3.0894134784285163,
      "grad_norm": 2.9010066986083984,
      "learning_rate": 3.1903407347251114e-05,
      "loss": 0.3240758180618286,
      "memory(GiB)": 70.5,
      "step": 72110,
      "token_acc": 0.9358490566037736,
      "train_speed(iter/s)": 1.449856
    },
    {
      "epoch": 3.089627693757765,
      "grad_norm": 3.542545795440674,
      "learning_rate": 3.189713398609534e-05,
      "loss": 0.5502250671386719,
      "memory(GiB)": 70.5,
      "step": 72115,
      "token_acc": 0.8753799392097265,
      "train_speed(iter/s)": 1.449873
    },
    {
      "epoch": 3.0898419090870144,
      "grad_norm": 3.344891309738159,
      "learning_rate": 3.1890860952889955e-05,
      "loss": 0.4282047271728516,
      "memory(GiB)": 70.5,
      "step": 72120,
      "token_acc": 0.8910505836575876,
      "train_speed(iter/s)": 1.449878
    },
    {
      "epoch": 3.090056124416263,
      "grad_norm": 3.585886001586914,
      "learning_rate": 3.188458824774862e-05,
      "loss": 0.46486434936523435,
      "memory(GiB)": 70.5,
      "step": 72125,
      "token_acc": 0.913946587537092,
      "train_speed(iter/s)": 1.449889
    },
    {
      "epoch": 3.090270339745512,
      "grad_norm": 1.1825350522994995,
      "learning_rate": 3.1878315870784975e-05,
      "loss": 0.23446979522705078,
      "memory(GiB)": 70.5,
      "step": 72130,
      "token_acc": 0.9371069182389937,
      "train_speed(iter/s)": 1.449893
    },
    {
      "epoch": 3.0904845550747613,
      "grad_norm": 1.9192047119140625,
      "learning_rate": 3.187204382211262e-05,
      "loss": 0.3400691270828247,
      "memory(GiB)": 70.5,
      "step": 72135,
      "token_acc": 0.9226006191950464,
      "train_speed(iter/s)": 1.449905
    },
    {
      "epoch": 3.09069877040401,
      "grad_norm": 2.7975101470947266,
      "learning_rate": 3.18657721018452e-05,
      "loss": 0.27067506313323975,
      "memory(GiB)": 70.5,
      "step": 72140,
      "token_acc": 0.934931506849315,
      "train_speed(iter/s)": 1.449904
    },
    {
      "epoch": 3.090912985733259,
      "grad_norm": 2.1594815254211426,
      "learning_rate": 3.185950071009633e-05,
      "loss": 0.3359628200531006,
      "memory(GiB)": 70.5,
      "step": 72145,
      "token_acc": 0.9212827988338192,
      "train_speed(iter/s)": 1.449907
    },
    {
      "epoch": 3.091127201062508,
      "grad_norm": 3.6089682579040527,
      "learning_rate": 3.185322964697963e-05,
      "loss": 0.5103726863861084,
      "memory(GiB)": 70.5,
      "step": 72150,
      "token_acc": 0.8923076923076924,
      "train_speed(iter/s)": 1.449901
    },
    {
      "epoch": 3.091341416391757,
      "grad_norm": 0.9019078016281128,
      "learning_rate": 3.184695891260869e-05,
      "loss": 0.32133915424346926,
      "memory(GiB)": 70.5,
      "step": 72155,
      "token_acc": 0.91796875,
      "train_speed(iter/s)": 1.449914
    },
    {
      "epoch": 3.091555631721006,
      "grad_norm": 3.298520803451538,
      "learning_rate": 3.184068850709711e-05,
      "loss": 0.33662288188934325,
      "memory(GiB)": 70.5,
      "step": 72160,
      "token_acc": 0.9256198347107438,
      "train_speed(iter/s)": 1.449922
    },
    {
      "epoch": 3.091769847050255,
      "grad_norm": 3.5231752395629883,
      "learning_rate": 3.183441843055851e-05,
      "loss": 0.1660441279411316,
      "memory(GiB)": 70.5,
      "step": 72165,
      "token_acc": 0.9570552147239264,
      "train_speed(iter/s)": 1.449932
    },
    {
      "epoch": 3.091984062379504,
      "grad_norm": 3.15330171585083,
      "learning_rate": 3.182814868310645e-05,
      "loss": 0.39726393222808837,
      "memory(GiB)": 70.5,
      "step": 72170,
      "token_acc": 0.9310344827586207,
      "train_speed(iter/s)": 1.44994
    },
    {
      "epoch": 3.0921982777087527,
      "grad_norm": 3.7912721633911133,
      "learning_rate": 3.1821879264854514e-05,
      "loss": 0.5410212516784668,
      "memory(GiB)": 70.5,
      "step": 72175,
      "token_acc": 0.9011406844106464,
      "train_speed(iter/s)": 1.44994
    },
    {
      "epoch": 3.092412493038002,
      "grad_norm": 2.881013870239258,
      "learning_rate": 3.181561017591629e-05,
      "loss": 0.5505449771881104,
      "memory(GiB)": 70.5,
      "step": 72180,
      "token_acc": 0.8888888888888888,
      "train_speed(iter/s)": 1.449954
    },
    {
      "epoch": 3.0926267083672507,
      "grad_norm": 2.4946842193603516,
      "learning_rate": 3.180934141640536e-05,
      "loss": 0.5301424503326416,
      "memory(GiB)": 70.5,
      "step": 72185,
      "token_acc": 0.8803418803418803,
      "train_speed(iter/s)": 1.449968
    },
    {
      "epoch": 3.0928409236964995,
      "grad_norm": 1.6814677715301514,
      "learning_rate": 3.1803072986435276e-05,
      "loss": 0.20614368915557862,
      "memory(GiB)": 70.5,
      "step": 72190,
      "token_acc": 0.9501557632398754,
      "train_speed(iter/s)": 1.449965
    },
    {
      "epoch": 3.093055139025749,
      "grad_norm": 7.002566814422607,
      "learning_rate": 3.179680488611958e-05,
      "loss": 0.2626950263977051,
      "memory(GiB)": 70.5,
      "step": 72195,
      "token_acc": 0.9570957095709571,
      "train_speed(iter/s)": 1.44997
    },
    {
      "epoch": 3.0932693543549976,
      "grad_norm": 5.450211524963379,
      "learning_rate": 3.179053711557185e-05,
      "loss": 0.6183314323425293,
      "memory(GiB)": 70.5,
      "step": 72200,
      "token_acc": 0.8757961783439491,
      "train_speed(iter/s)": 1.449978
    },
    {
      "epoch": 3.0934835696842464,
      "grad_norm": 1.1715205907821655,
      "learning_rate": 3.178426967490562e-05,
      "loss": 0.22670562267303468,
      "memory(GiB)": 70.5,
      "step": 72205,
      "token_acc": 0.9426229508196722,
      "train_speed(iter/s)": 1.449987
    },
    {
      "epoch": 3.0936977850134957,
      "grad_norm": 4.251866340637207,
      "learning_rate": 3.1778002564234435e-05,
      "loss": 0.23005094528198242,
      "memory(GiB)": 70.5,
      "step": 72210,
      "token_acc": 0.952054794520548,
      "train_speed(iter/s)": 1.449989
    },
    {
      "epoch": 3.0939120003427445,
      "grad_norm": 6.39274263381958,
      "learning_rate": 3.177173578367183e-05,
      "loss": 0.5850098133087158,
      "memory(GiB)": 70.5,
      "step": 72215,
      "token_acc": 0.8808510638297873,
      "train_speed(iter/s)": 1.449998
    },
    {
      "epoch": 3.0941262156719933,
      "grad_norm": 3.1683244705200195,
      "learning_rate": 3.176546933333132e-05,
      "loss": 0.28982815742492674,
      "memory(GiB)": 70.5,
      "step": 72220,
      "token_acc": 0.9330985915492958,
      "train_speed(iter/s)": 1.449996
    },
    {
      "epoch": 3.0943404310012426,
      "grad_norm": 3.5372869968414307,
      "learning_rate": 3.175920321332644e-05,
      "loss": 0.3099156618118286,
      "memory(GiB)": 70.5,
      "step": 72225,
      "token_acc": 0.9291784702549575,
      "train_speed(iter/s)": 1.449992
    },
    {
      "epoch": 3.0945546463304914,
      "grad_norm": 3.675954818725586,
      "learning_rate": 3.175293742377072e-05,
      "loss": 0.36700010299682617,
      "memory(GiB)": 70.5,
      "step": 72230,
      "token_acc": 0.9225806451612903,
      "train_speed(iter/s)": 1.449993
    },
    {
      "epoch": 3.09476886165974,
      "grad_norm": 1.5851383209228516,
      "learning_rate": 3.1746671964777635e-05,
      "loss": 0.17654627561569214,
      "memory(GiB)": 70.5,
      "step": 72235,
      "token_acc": 0.9540636042402827,
      "train_speed(iter/s)": 1.449996
    },
    {
      "epoch": 3.0949830769889894,
      "grad_norm": 3.1643013954162598,
      "learning_rate": 3.1740406836460724e-05,
      "loss": 0.36389172077178955,
      "memory(GiB)": 70.5,
      "step": 72240,
      "token_acc": 0.9375,
      "train_speed(iter/s)": 1.450001
    },
    {
      "epoch": 3.0951972923182383,
      "grad_norm": 3.1174161434173584,
      "learning_rate": 3.173414203893346e-05,
      "loss": 0.34289135932922366,
      "memory(GiB)": 70.5,
      "step": 72245,
      "token_acc": 0.944954128440367,
      "train_speed(iter/s)": 1.450008
    },
    {
      "epoch": 3.095411507647487,
      "grad_norm": 0.7762568593025208,
      "learning_rate": 3.172787757230934e-05,
      "loss": 0.19553376436233522,
      "memory(GiB)": 70.5,
      "step": 72250,
      "token_acc": 0.9589905362776026,
      "train_speed(iter/s)": 1.450021
    },
    {
      "epoch": 3.0956257229767363,
      "grad_norm": 1.355108618736267,
      "learning_rate": 3.172161343670188e-05,
      "loss": 0.2927064895629883,
      "memory(GiB)": 70.5,
      "step": 72255,
      "token_acc": 0.9315960912052117,
      "train_speed(iter/s)": 1.450031
    },
    {
      "epoch": 3.095839938305985,
      "grad_norm": 2.276758909225464,
      "learning_rate": 3.1715349632224536e-05,
      "loss": 0.35223267078399656,
      "memory(GiB)": 70.5,
      "step": 72260,
      "token_acc": 0.9368421052631579,
      "train_speed(iter/s)": 1.450034
    },
    {
      "epoch": 3.096054153635234,
      "grad_norm": 5.723140239715576,
      "learning_rate": 3.1709086158990774e-05,
      "loss": 0.33581743240356443,
      "memory(GiB)": 70.5,
      "step": 72265,
      "token_acc": 0.8925619834710744,
      "train_speed(iter/s)": 1.450039
    },
    {
      "epoch": 3.096268368964483,
      "grad_norm": 2.120798110961914,
      "learning_rate": 3.170282301711409e-05,
      "loss": 0.32944426536560056,
      "memory(GiB)": 70.5,
      "step": 72270,
      "token_acc": 0.9144736842105263,
      "train_speed(iter/s)": 1.450052
    },
    {
      "epoch": 3.096482584293732,
      "grad_norm": 3.476271867752075,
      "learning_rate": 3.169656020670793e-05,
      "loss": 0.1811241865158081,
      "memory(GiB)": 70.5,
      "step": 72275,
      "token_acc": 0.9621848739495799,
      "train_speed(iter/s)": 1.450056
    },
    {
      "epoch": 3.096696799622981,
      "grad_norm": 0.6553789377212524,
      "learning_rate": 3.1690297727885744e-05,
      "loss": 0.19377351999282838,
      "memory(GiB)": 70.5,
      "step": 72280,
      "token_acc": 0.9568627450980393,
      "train_speed(iter/s)": 1.450071
    },
    {
      "epoch": 3.09691101495223,
      "grad_norm": 5.710888862609863,
      "learning_rate": 3.1684035580761e-05,
      "loss": 0.3448661804199219,
      "memory(GiB)": 70.5,
      "step": 72285,
      "token_acc": 0.9350180505415162,
      "train_speed(iter/s)": 1.450074
    },
    {
      "epoch": 3.097125230281479,
      "grad_norm": 4.354156017303467,
      "learning_rate": 3.1677773765447116e-05,
      "loss": 0.4079193115234375,
      "memory(GiB)": 70.5,
      "step": 72290,
      "token_acc": 0.9192307692307692,
      "train_speed(iter/s)": 1.450072
    },
    {
      "epoch": 3.0973394456107277,
      "grad_norm": 4.1461358070373535,
      "learning_rate": 3.1671512282057556e-05,
      "loss": 0.47207136154174806,
      "memory(GiB)": 70.5,
      "step": 72295,
      "token_acc": 0.8893617021276595,
      "train_speed(iter/s)": 1.450072
    },
    {
      "epoch": 3.097553660939977,
      "grad_norm": 0.9477460980415344,
      "learning_rate": 3.166525113070575e-05,
      "loss": 0.27716965675354005,
      "memory(GiB)": 70.5,
      "step": 72300,
      "token_acc": 0.9473684210526315,
      "train_speed(iter/s)": 1.450073
    },
    {
      "epoch": 3.097767876269226,
      "grad_norm": 0.2908230721950531,
      "learning_rate": 3.165899031150512e-05,
      "loss": 0.1237373948097229,
      "memory(GiB)": 70.5,
      "step": 72305,
      "token_acc": 0.9742647058823529,
      "train_speed(iter/s)": 1.450087
    },
    {
      "epoch": 3.0979820915984746,
      "grad_norm": 3.709801197052002,
      "learning_rate": 3.165272982456908e-05,
      "loss": 0.39800252914428713,
      "memory(GiB)": 70.5,
      "step": 72310,
      "token_acc": 0.9003436426116839,
      "train_speed(iter/s)": 1.450093
    },
    {
      "epoch": 3.098196306927724,
      "grad_norm": 0.15580220520496368,
      "learning_rate": 3.164646967001106e-05,
      "loss": 0.40797224044799807,
      "memory(GiB)": 70.5,
      "step": 72315,
      "token_acc": 0.922509225092251,
      "train_speed(iter/s)": 1.450107
    },
    {
      "epoch": 3.0984105222569727,
      "grad_norm": 3.3888063430786133,
      "learning_rate": 3.164020984794444e-05,
      "loss": 0.647221851348877,
      "memory(GiB)": 70.5,
      "step": 72320,
      "token_acc": 0.8601190476190477,
      "train_speed(iter/s)": 1.450112
    },
    {
      "epoch": 3.0986247375862215,
      "grad_norm": 1.0367556810379028,
      "learning_rate": 3.163395035848263e-05,
      "loss": 0.35288712978363035,
      "memory(GiB)": 70.5,
      "step": 72325,
      "token_acc": 0.9198813056379822,
      "train_speed(iter/s)": 1.450123
    },
    {
      "epoch": 3.0988389529154707,
      "grad_norm": 3.254272222518921,
      "learning_rate": 3.1627691201739075e-05,
      "loss": 0.37104620933532717,
      "memory(GiB)": 70.5,
      "step": 72330,
      "token_acc": 0.9072164948453608,
      "train_speed(iter/s)": 1.450137
    },
    {
      "epoch": 3.0990531682447195,
      "grad_norm": 4.872398853302002,
      "learning_rate": 3.162143237782711e-05,
      "loss": 0.5394598484039307,
      "memory(GiB)": 70.5,
      "step": 72335,
      "token_acc": 0.875,
      "train_speed(iter/s)": 1.450146
    },
    {
      "epoch": 3.0992673835739684,
      "grad_norm": 4.410943984985352,
      "learning_rate": 3.161517388686014e-05,
      "loss": 0.43532605171203614,
      "memory(GiB)": 70.5,
      "step": 72340,
      "token_acc": 0.9175627240143369,
      "train_speed(iter/s)": 1.450156
    },
    {
      "epoch": 3.0994815989032176,
      "grad_norm": 2.3876001834869385,
      "learning_rate": 3.160891572895155e-05,
      "loss": 0.17123310565948485,
      "memory(GiB)": 70.5,
      "step": 72345,
      "token_acc": 0.9607142857142857,
      "train_speed(iter/s)": 1.450157
    },
    {
      "epoch": 3.0996958142324664,
      "grad_norm": 3.58986234664917,
      "learning_rate": 3.160265790421469e-05,
      "loss": 0.2779965877532959,
      "memory(GiB)": 70.5,
      "step": 72350,
      "token_acc": 0.9462809917355371,
      "train_speed(iter/s)": 1.450162
    },
    {
      "epoch": 3.0999100295617152,
      "grad_norm": 3.803253412246704,
      "learning_rate": 3.159640041276295e-05,
      "loss": 0.3191555976867676,
      "memory(GiB)": 70.5,
      "step": 72355,
      "token_acc": 0.9296636085626911,
      "train_speed(iter/s)": 1.450165
    },
    {
      "epoch": 3.1001242448909645,
      "grad_norm": 0.9214876294136047,
      "learning_rate": 3.1590143254709684e-05,
      "loss": 0.3811555624008179,
      "memory(GiB)": 70.5,
      "step": 72360,
      "token_acc": 0.9114754098360656,
      "train_speed(iter/s)": 1.450183
    },
    {
      "epoch": 3.1003384602202133,
      "grad_norm": 4.278130531311035,
      "learning_rate": 3.158388643016823e-05,
      "loss": 0.5344477653503418,
      "memory(GiB)": 70.5,
      "step": 72365,
      "token_acc": 0.9180887372013652,
      "train_speed(iter/s)": 1.450193
    },
    {
      "epoch": 3.100552675549462,
      "grad_norm": 3.1651813983917236,
      "learning_rate": 3.157762993925196e-05,
      "loss": 0.14538075923919677,
      "memory(GiB)": 70.5,
      "step": 72370,
      "token_acc": 0.9661654135338346,
      "train_speed(iter/s)": 1.450204
    },
    {
      "epoch": 3.1007668908787114,
      "grad_norm": 1.953881025314331,
      "learning_rate": 3.15713737820742e-05,
      "loss": 0.510716438293457,
      "memory(GiB)": 70.5,
      "step": 72375,
      "token_acc": 0.896797153024911,
      "train_speed(iter/s)": 1.450208
    },
    {
      "epoch": 3.10098110620796,
      "grad_norm": 0.925270140171051,
      "learning_rate": 3.156511795874829e-05,
      "loss": 0.3128093481063843,
      "memory(GiB)": 70.5,
      "step": 72380,
      "token_acc": 0.9210526315789473,
      "train_speed(iter/s)": 1.450208
    },
    {
      "epoch": 3.101195321537209,
      "grad_norm": 3.6015195846557617,
      "learning_rate": 3.155886246938756e-05,
      "loss": 0.5107683658599853,
      "memory(GiB)": 70.5,
      "step": 72385,
      "token_acc": 0.8850174216027874,
      "train_speed(iter/s)": 1.450209
    },
    {
      "epoch": 3.1014095368664583,
      "grad_norm": 1.882399320602417,
      "learning_rate": 3.155260731410534e-05,
      "loss": 0.18931350708007813,
      "memory(GiB)": 70.5,
      "step": 72390,
      "token_acc": 0.9540229885057471,
      "train_speed(iter/s)": 1.450205
    },
    {
      "epoch": 3.101623752195707,
      "grad_norm": 2.520320177078247,
      "learning_rate": 3.1546352493014946e-05,
      "loss": 0.6724167346954346,
      "memory(GiB)": 70.5,
      "step": 72395,
      "token_acc": 0.8754208754208754,
      "train_speed(iter/s)": 1.450217
    },
    {
      "epoch": 3.101837967524956,
      "grad_norm": 5.6448655128479,
      "learning_rate": 3.154009800622967e-05,
      "loss": 0.5368038177490234,
      "memory(GiB)": 70.5,
      "step": 72400,
      "token_acc": 0.8817567567567568,
      "train_speed(iter/s)": 1.450231
    },
    {
      "epoch": 3.102052182854205,
      "grad_norm": 14.400019645690918,
      "learning_rate": 3.1533843853862856e-05,
      "loss": 0.19797039031982422,
      "memory(GiB)": 70.5,
      "step": 72405,
      "token_acc": 0.9583333333333334,
      "train_speed(iter/s)": 1.450246
    },
    {
      "epoch": 3.102266398183454,
      "grad_norm": 2.807063579559326,
      "learning_rate": 3.1527590036027766e-05,
      "loss": 0.2670663595199585,
      "memory(GiB)": 70.5,
      "step": 72410,
      "token_acc": 0.9269102990033222,
      "train_speed(iter/s)": 1.450252
    },
    {
      "epoch": 3.1024806135127028,
      "grad_norm": 2.312368631362915,
      "learning_rate": 3.152133655283773e-05,
      "loss": 0.30935609340667725,
      "memory(GiB)": 70.5,
      "step": 72415,
      "token_acc": 0.9382716049382716,
      "train_speed(iter/s)": 1.450252
    },
    {
      "epoch": 3.102694828841952,
      "grad_norm": 0.4019133746623993,
      "learning_rate": 3.151508340440601e-05,
      "loss": 0.46421451568603517,
      "memory(GiB)": 70.5,
      "step": 72420,
      "token_acc": 0.9031007751937985,
      "train_speed(iter/s)": 1.450249
    },
    {
      "epoch": 3.102909044171201,
      "grad_norm": 1.4174926280975342,
      "learning_rate": 3.150883059084588e-05,
      "loss": 0.19279974699020386,
      "memory(GiB)": 70.5,
      "step": 72425,
      "token_acc": 0.9584775086505191,
      "train_speed(iter/s)": 1.450264
    },
    {
      "epoch": 3.1031232595004496,
      "grad_norm": 2.884856700897217,
      "learning_rate": 3.150257811227065e-05,
      "loss": 0.2271991491317749,
      "memory(GiB)": 70.5,
      "step": 72430,
      "token_acc": 0.9397905759162304,
      "train_speed(iter/s)": 1.450268
    },
    {
      "epoch": 3.103337474829699,
      "grad_norm": 1.4148550033569336,
      "learning_rate": 3.149632596879356e-05,
      "loss": 0.279423189163208,
      "memory(GiB)": 70.5,
      "step": 72435,
      "token_acc": 0.9337539432176656,
      "train_speed(iter/s)": 1.450267
    },
    {
      "epoch": 3.1035516901589477,
      "grad_norm": 0.9961145520210266,
      "learning_rate": 3.149007416052789e-05,
      "loss": 0.12357563972473144,
      "memory(GiB)": 70.5,
      "step": 72440,
      "token_acc": 0.97,
      "train_speed(iter/s)": 1.450265
    },
    {
      "epoch": 3.1037659054881965,
      "grad_norm": 0.5872426629066467,
      "learning_rate": 3.148382268758689e-05,
      "loss": 0.41448063850402833,
      "memory(GiB)": 70.5,
      "step": 72445,
      "token_acc": 0.9094202898550725,
      "train_speed(iter/s)": 1.450263
    },
    {
      "epoch": 3.103980120817446,
      "grad_norm": 1.537461757659912,
      "learning_rate": 3.14775715500838e-05,
      "loss": 0.3282250165939331,
      "memory(GiB)": 70.5,
      "step": 72450,
      "token_acc": 0.9358974358974359,
      "train_speed(iter/s)": 1.450277
    },
    {
      "epoch": 3.1041943361466946,
      "grad_norm": 3.569100856781006,
      "learning_rate": 3.147132074813189e-05,
      "loss": 0.41808743476867677,
      "memory(GiB)": 70.5,
      "step": 72455,
      "token_acc": 0.9107142857142857,
      "train_speed(iter/s)": 1.450293
    },
    {
      "epoch": 3.1044085514759434,
      "grad_norm": 2.213252067565918,
      "learning_rate": 3.146507028184438e-05,
      "loss": 0.15486435890197753,
      "memory(GiB)": 70.5,
      "step": 72460,
      "token_acc": 0.9713261648745519,
      "train_speed(iter/s)": 1.450293
    },
    {
      "epoch": 3.1046227668051927,
      "grad_norm": 2.0985302925109863,
      "learning_rate": 3.1458820151334504e-05,
      "loss": 0.3396519660949707,
      "memory(GiB)": 70.5,
      "step": 72465,
      "token_acc": 0.930379746835443,
      "train_speed(iter/s)": 1.450288
    },
    {
      "epoch": 3.1048369821344415,
      "grad_norm": 2.9352684020996094,
      "learning_rate": 3.145257035671548e-05,
      "loss": 0.33759136199951173,
      "memory(GiB)": 70.5,
      "step": 72470,
      "token_acc": 0.9300911854103343,
      "train_speed(iter/s)": 1.450287
    },
    {
      "epoch": 3.1050511974636903,
      "grad_norm": 3.4966232776641846,
      "learning_rate": 3.144632089810057e-05,
      "loss": 0.2417300224304199,
      "memory(GiB)": 70.5,
      "step": 72475,
      "token_acc": 0.9463722397476341,
      "train_speed(iter/s)": 1.450295
    },
    {
      "epoch": 3.1052654127929396,
      "grad_norm": 3.713627576828003,
      "learning_rate": 3.144007177560295e-05,
      "loss": 0.32644755840301515,
      "memory(GiB)": 70.5,
      "step": 72480,
      "token_acc": 0.9132075471698113,
      "train_speed(iter/s)": 1.450304
    },
    {
      "epoch": 3.1054796281221884,
      "grad_norm": 1.1061186790466309,
      "learning_rate": 3.143382298933585e-05,
      "loss": 0.26905815601348876,
      "memory(GiB)": 70.5,
      "step": 72485,
      "token_acc": 0.9154078549848943,
      "train_speed(iter/s)": 1.450308
    },
    {
      "epoch": 3.105693843451437,
      "grad_norm": 2.6376612186431885,
      "learning_rate": 3.142757453941246e-05,
      "loss": 0.16301276683807372,
      "memory(GiB)": 70.5,
      "step": 72490,
      "token_acc": 0.968503937007874,
      "train_speed(iter/s)": 1.450312
    },
    {
      "epoch": 3.1059080587806864,
      "grad_norm": 2.9311716556549072,
      "learning_rate": 3.142132642594597e-05,
      "loss": 0.433198356628418,
      "memory(GiB)": 70.5,
      "step": 72495,
      "token_acc": 0.9135338345864662,
      "train_speed(iter/s)": 1.450322
    },
    {
      "epoch": 3.1061222741099352,
      "grad_norm": 4.513182640075684,
      "learning_rate": 3.141507864904959e-05,
      "loss": 0.22942323684692384,
      "memory(GiB)": 70.5,
      "step": 72500,
      "token_acc": 0.9465020576131687,
      "train_speed(iter/s)": 1.450328
    },
    {
      "epoch": 3.1061222741099352,
      "eval_loss": 2.5206661224365234,
      "eval_runtime": 11.347,
      "eval_samples_per_second": 8.813,
      "eval_steps_per_second": 8.813,
      "eval_token_acc": 0.4444444444444444,
      "step": 72500
    },
    {
      "epoch": 3.106336489439184,
      "grad_norm": 1.0908310413360596,
      "learning_rate": 3.1408831208836496e-05,
      "loss": 0.4050902843475342,
      "memory(GiB)": 70.5,
      "step": 72505,
      "token_acc": 0.5690168818272096,
      "train_speed(iter/s)": 1.449977
    },
    {
      "epoch": 3.1065507047684333,
      "grad_norm": 6.617101669311523,
      "learning_rate": 3.140258410541985e-05,
      "loss": 0.4939249038696289,
      "memory(GiB)": 70.5,
      "step": 72510,
      "token_acc": 0.8859649122807017,
      "train_speed(iter/s)": 1.449984
    },
    {
      "epoch": 3.106764920097682,
      "grad_norm": 4.133399486541748,
      "learning_rate": 3.139633733891285e-05,
      "loss": 0.169075608253479,
      "memory(GiB)": 70.5,
      "step": 72515,
      "token_acc": 0.9678571428571429,
      "train_speed(iter/s)": 1.449983
    },
    {
      "epoch": 3.106979135426931,
      "grad_norm": 3.0969440937042236,
      "learning_rate": 3.139009090942865e-05,
      "loss": 0.2322669506072998,
      "memory(GiB)": 70.5,
      "step": 72520,
      "token_acc": 0.9548872180451128,
      "train_speed(iter/s)": 1.449989
    },
    {
      "epoch": 3.10719335075618,
      "grad_norm": 2.005704879760742,
      "learning_rate": 3.138384481708041e-05,
      "loss": 0.1584375262260437,
      "memory(GiB)": 70.5,
      "step": 72525,
      "token_acc": 0.967391304347826,
      "train_speed(iter/s)": 1.449991
    },
    {
      "epoch": 3.107407566085429,
      "grad_norm": 3.381958246231079,
      "learning_rate": 3.137759906198129e-05,
      "loss": 0.43033900260925295,
      "memory(GiB)": 70.5,
      "step": 72530,
      "token_acc": 0.9117647058823529,
      "train_speed(iter/s)": 1.449989
    },
    {
      "epoch": 3.107621781414678,
      "grad_norm": 3.456819772720337,
      "learning_rate": 3.137135364424442e-05,
      "loss": 0.5314296245574951,
      "memory(GiB)": 70.5,
      "step": 72535,
      "token_acc": 0.8821752265861027,
      "train_speed(iter/s)": 1.449994
    },
    {
      "epoch": 3.107835996743927,
      "grad_norm": 8.818217277526855,
      "learning_rate": 3.136510856398297e-05,
      "loss": 0.5999717712402344,
      "memory(GiB)": 70.5,
      "step": 72540,
      "token_acc": 0.8804347826086957,
      "train_speed(iter/s)": 1.450023
    },
    {
      "epoch": 3.108050212073176,
      "grad_norm": 0.03712321072816849,
      "learning_rate": 3.135886382131003e-05,
      "loss": 0.21321263313293456,
      "memory(GiB)": 70.5,
      "step": 72545,
      "token_acc": 0.9548872180451128,
      "train_speed(iter/s)": 1.450031
    },
    {
      "epoch": 3.1082644274024247,
      "grad_norm": 1.8311684131622314,
      "learning_rate": 3.135261941633878e-05,
      "loss": 0.23181686401367188,
      "memory(GiB)": 70.5,
      "step": 72550,
      "token_acc": 0.9573863636363636,
      "train_speed(iter/s)": 1.450034
    },
    {
      "epoch": 3.108478642731674,
      "grad_norm": 3.9737746715545654,
      "learning_rate": 3.134637534918231e-05,
      "loss": 0.24115538597106934,
      "memory(GiB)": 70.5,
      "step": 72555,
      "token_acc": 0.940959409594096,
      "train_speed(iter/s)": 1.450042
    },
    {
      "epoch": 3.1086928580609228,
      "grad_norm": 2.0471367835998535,
      "learning_rate": 3.134013161995377e-05,
      "loss": 0.622397518157959,
      "memory(GiB)": 70.5,
      "step": 72560,
      "token_acc": 0.8875739644970414,
      "train_speed(iter/s)": 1.450067
    },
    {
      "epoch": 3.1089070733901716,
      "grad_norm": 5.108049392700195,
      "learning_rate": 3.133388822876624e-05,
      "loss": 0.49580111503601076,
      "memory(GiB)": 70.5,
      "step": 72565,
      "token_acc": 0.8944281524926686,
      "train_speed(iter/s)": 1.450081
    },
    {
      "epoch": 3.109121288719421,
      "grad_norm": 0.9765637516975403,
      "learning_rate": 3.1327645175732826e-05,
      "loss": 0.5344418048858642,
      "memory(GiB)": 70.5,
      "step": 72570,
      "token_acc": 0.8984375,
      "train_speed(iter/s)": 1.450082
    },
    {
      "epoch": 3.1093355040486697,
      "grad_norm": 0.7726131677627563,
      "learning_rate": 3.132140246096665e-05,
      "loss": 0.31422982215881345,
      "memory(GiB)": 70.5,
      "step": 72575,
      "token_acc": 0.9271523178807947,
      "train_speed(iter/s)": 1.450088
    },
    {
      "epoch": 3.1095497193779185,
      "grad_norm": 0.14385506510734558,
      "learning_rate": 3.131516008458077e-05,
      "loss": 0.14127297401428224,
      "memory(GiB)": 70.5,
      "step": 72580,
      "token_acc": 0.9652996845425867,
      "train_speed(iter/s)": 1.450091
    },
    {
      "epoch": 3.1097639347071677,
      "grad_norm": 1.0451626777648926,
      "learning_rate": 3.130891804668832e-05,
      "loss": 0.4275080680847168,
      "memory(GiB)": 70.5,
      "step": 72585,
      "token_acc": 0.916058394160584,
      "train_speed(iter/s)": 1.450093
    },
    {
      "epoch": 3.1099781500364165,
      "grad_norm": 0.32351529598236084,
      "learning_rate": 3.1302676347402346e-05,
      "loss": 0.054647743701934814,
      "memory(GiB)": 70.5,
      "step": 72590,
      "token_acc": 0.9958333333333333,
      "train_speed(iter/s)": 1.450096
    },
    {
      "epoch": 3.1101923653656653,
      "grad_norm": 5.806795120239258,
      "learning_rate": 3.129643498683592e-05,
      "loss": 0.5817899703979492,
      "memory(GiB)": 70.5,
      "step": 72595,
      "token_acc": 0.8819672131147541,
      "train_speed(iter/s)": 1.450097
    },
    {
      "epoch": 3.1104065806949146,
      "grad_norm": 0.17504674196243286,
      "learning_rate": 3.129019396510212e-05,
      "loss": 0.19550241231918336,
      "memory(GiB)": 70.5,
      "step": 72600,
      "token_acc": 0.9601328903654485,
      "train_speed(iter/s)": 1.450103
    },
    {
      "epoch": 3.1106207960241634,
      "grad_norm": 4.341559410095215,
      "learning_rate": 3.128395328231401e-05,
      "loss": 0.18760616779327394,
      "memory(GiB)": 70.5,
      "step": 72605,
      "token_acc": 0.9700374531835206,
      "train_speed(iter/s)": 1.450109
    },
    {
      "epoch": 3.1108350113534122,
      "grad_norm": 3.714444875717163,
      "learning_rate": 3.1277712938584646e-05,
      "loss": 0.15841047763824462,
      "memory(GiB)": 70.5,
      "step": 72610,
      "token_acc": 0.9533333333333334,
      "train_speed(iter/s)": 1.450113
    },
    {
      "epoch": 3.1110492266826615,
      "grad_norm": 2.111168622970581,
      "learning_rate": 3.127147293402708e-05,
      "loss": 0.27705495357513427,
      "memory(GiB)": 70.5,
      "step": 72615,
      "token_acc": 0.9249146757679181,
      "train_speed(iter/s)": 1.450122
    },
    {
      "epoch": 3.1112634420119103,
      "grad_norm": 0.38275057077407837,
      "learning_rate": 3.126523326875432e-05,
      "loss": 0.31577348709106445,
      "memory(GiB)": 70.5,
      "step": 72620,
      "token_acc": 0.9233038348082596,
      "train_speed(iter/s)": 1.450124
    },
    {
      "epoch": 3.111477657341159,
      "grad_norm": 2.8276760578155518,
      "learning_rate": 3.1258993942879456e-05,
      "loss": 0.299195384979248,
      "memory(GiB)": 70.5,
      "step": 72625,
      "token_acc": 0.9307692307692308,
      "train_speed(iter/s)": 1.450123
    },
    {
      "epoch": 3.1116918726704084,
      "grad_norm": 4.036513328552246,
      "learning_rate": 3.125275495651551e-05,
      "loss": 0.29549827575683596,
      "memory(GiB)": 70.5,
      "step": 72630,
      "token_acc": 0.9449838187702265,
      "train_speed(iter/s)": 1.45014
    },
    {
      "epoch": 3.111906087999657,
      "grad_norm": 5.382920742034912,
      "learning_rate": 3.1246516309775484e-05,
      "loss": 0.4772514820098877,
      "memory(GiB)": 70.5,
      "step": 72635,
      "token_acc": 0.914179104477612,
      "train_speed(iter/s)": 1.450139
    },
    {
      "epoch": 3.112120303328906,
      "grad_norm": 2.990969181060791,
      "learning_rate": 3.12402780027724e-05,
      "loss": 0.5058940410614013,
      "memory(GiB)": 70.5,
      "step": 72640,
      "token_acc": 0.8934169278996865,
      "train_speed(iter/s)": 1.450139
    },
    {
      "epoch": 3.1123345186581552,
      "grad_norm": 3.5034496784210205,
      "learning_rate": 3.123404003561929e-05,
      "loss": 0.1864193320274353,
      "memory(GiB)": 70.5,
      "step": 72645,
      "token_acc": 0.9591836734693877,
      "train_speed(iter/s)": 1.450152
    },
    {
      "epoch": 3.112548733987404,
      "grad_norm": 4.287528991699219,
      "learning_rate": 3.122780240842915e-05,
      "loss": 0.3437450408935547,
      "memory(GiB)": 70.5,
      "step": 72650,
      "token_acc": 0.9172413793103448,
      "train_speed(iter/s)": 1.450156
    },
    {
      "epoch": 3.112762949316653,
      "grad_norm": 1.6854544878005981,
      "learning_rate": 3.122156512131497e-05,
      "loss": 0.15466644763946533,
      "memory(GiB)": 70.5,
      "step": 72655,
      "token_acc": 0.9624060150375939,
      "train_speed(iter/s)": 1.450161
    },
    {
      "epoch": 3.112977164645902,
      "grad_norm": 4.366186141967773,
      "learning_rate": 3.1215328174389754e-05,
      "loss": 0.3588210344314575,
      "memory(GiB)": 70.5,
      "step": 72660,
      "token_acc": 0.926056338028169,
      "train_speed(iter/s)": 1.450167
    },
    {
      "epoch": 3.113191379975151,
      "grad_norm": 3.993802785873413,
      "learning_rate": 3.1209091567766484e-05,
      "loss": 0.4692076206207275,
      "memory(GiB)": 70.5,
      "step": 72665,
      "token_acc": 0.906896551724138,
      "train_speed(iter/s)": 1.450187
    },
    {
      "epoch": 3.1134055953044,
      "grad_norm": 2.957137107849121,
      "learning_rate": 3.120285530155816e-05,
      "loss": 0.3129724025726318,
      "memory(GiB)": 70.5,
      "step": 72670,
      "token_acc": 0.9329268292682927,
      "train_speed(iter/s)": 1.450192
    },
    {
      "epoch": 3.113619810633649,
      "grad_norm": 4.819007873535156,
      "learning_rate": 3.1196619375877746e-05,
      "loss": 0.4841763019561768,
      "memory(GiB)": 70.5,
      "step": 72675,
      "token_acc": 0.9017857142857143,
      "train_speed(iter/s)": 1.450201
    },
    {
      "epoch": 3.113834025962898,
      "grad_norm": 2.5300872325897217,
      "learning_rate": 3.11903837908382e-05,
      "loss": 0.33637175559997556,
      "memory(GiB)": 70.5,
      "step": 72680,
      "token_acc": 0.9290780141843972,
      "train_speed(iter/s)": 1.450205
    },
    {
      "epoch": 3.114048241292147,
      "grad_norm": 3.0469753742218018,
      "learning_rate": 3.1184148546552505e-05,
      "loss": 0.37166786193847656,
      "memory(GiB)": 70.5,
      "step": 72685,
      "token_acc": 0.9217687074829932,
      "train_speed(iter/s)": 1.450219
    },
    {
      "epoch": 3.114262456621396,
      "grad_norm": 2.379962205886841,
      "learning_rate": 3.117791364313361e-05,
      "loss": 0.18144602775573732,
      "memory(GiB)": 70.5,
      "step": 72690,
      "token_acc": 0.9548192771084337,
      "train_speed(iter/s)": 1.450217
    },
    {
      "epoch": 3.1144766719506447,
      "grad_norm": 2.386495590209961,
      "learning_rate": 3.117167908069445e-05,
      "loss": 0.13638323545455933,
      "memory(GiB)": 70.5,
      "step": 72695,
      "token_acc": 0.9635036496350365,
      "train_speed(iter/s)": 1.450217
    },
    {
      "epoch": 3.114690887279894,
      "grad_norm": 0.051362134516239166,
      "learning_rate": 3.116544485934799e-05,
      "loss": 0.34643054008483887,
      "memory(GiB)": 70.5,
      "step": 72700,
      "token_acc": 0.9297520661157025,
      "train_speed(iter/s)": 1.450221
    },
    {
      "epoch": 3.1149051026091428,
      "grad_norm": 3.02669095993042,
      "learning_rate": 3.115921097920718e-05,
      "loss": 0.12955853939056397,
      "memory(GiB)": 70.5,
      "step": 72705,
      "token_acc": 0.9695817490494296,
      "train_speed(iter/s)": 1.450227
    },
    {
      "epoch": 3.1151193179383916,
      "grad_norm": 2.3156704902648926,
      "learning_rate": 3.1152977440384927e-05,
      "loss": 0.14932955503463746,
      "memory(GiB)": 70.5,
      "step": 72710,
      "token_acc": 0.9637681159420289,
      "train_speed(iter/s)": 1.450231
    },
    {
      "epoch": 3.115333533267641,
      "grad_norm": 4.069611549377441,
      "learning_rate": 3.114674424299416e-05,
      "loss": 0.5413649082183838,
      "memory(GiB)": 70.5,
      "step": 72715,
      "token_acc": 0.8736462093862816,
      "train_speed(iter/s)": 1.45024
    },
    {
      "epoch": 3.1155477485968897,
      "grad_norm": 4.943265914916992,
      "learning_rate": 3.114051138714783e-05,
      "loss": 0.14831509590148925,
      "memory(GiB)": 70.5,
      "step": 72720,
      "token_acc": 0.9671532846715328,
      "train_speed(iter/s)": 1.450245
    },
    {
      "epoch": 3.1157619639261385,
      "grad_norm": 7.391343116760254,
      "learning_rate": 3.1134278872958814e-05,
      "loss": 0.3400416374206543,
      "memory(GiB)": 70.5,
      "step": 72725,
      "token_acc": 0.9352226720647774,
      "train_speed(iter/s)": 1.450241
    },
    {
      "epoch": 3.1159761792553877,
      "grad_norm": 3.107956647872925,
      "learning_rate": 3.112804670054004e-05,
      "loss": 0.47616009712219237,
      "memory(GiB)": 70.5,
      "step": 72730,
      "token_acc": 0.9192307692307692,
      "train_speed(iter/s)": 1.450244
    },
    {
      "epoch": 3.1161903945846365,
      "grad_norm": 3.212742567062378,
      "learning_rate": 3.1121814870004395e-05,
      "loss": 0.2833714485168457,
      "memory(GiB)": 70.5,
      "step": 72735,
      "token_acc": 0.9396551724137931,
      "train_speed(iter/s)": 1.450253
    },
    {
      "epoch": 3.1164046099138853,
      "grad_norm": 3.3170716762542725,
      "learning_rate": 3.111558338146479e-05,
      "loss": 0.4174058437347412,
      "memory(GiB)": 70.5,
      "step": 72740,
      "token_acc": 0.9018867924528302,
      "train_speed(iter/s)": 1.450267
    },
    {
      "epoch": 3.1166188252431346,
      "grad_norm": 0.9381963610649109,
      "learning_rate": 3.11093522350341e-05,
      "loss": 0.40324935913085935,
      "memory(GiB)": 70.5,
      "step": 72745,
      "token_acc": 0.9164086687306502,
      "train_speed(iter/s)": 1.450277
    },
    {
      "epoch": 3.1168330405723834,
      "grad_norm": 2.415817975997925,
      "learning_rate": 3.1103121430825224e-05,
      "loss": 0.30118253231048586,
      "memory(GiB)": 70.5,
      "step": 72750,
      "token_acc": 0.9453924914675768,
      "train_speed(iter/s)": 1.450295
    },
    {
      "epoch": 3.1170472559016322,
      "grad_norm": 0.7563248872756958,
      "learning_rate": 3.109689096895102e-05,
      "loss": 0.17914390563964844,
      "memory(GiB)": 70.5,
      "step": 72755,
      "token_acc": 0.9522292993630573,
      "train_speed(iter/s)": 1.450295
    },
    {
      "epoch": 3.1172614712308815,
      "grad_norm": 4.408317565917969,
      "learning_rate": 3.109066084952438e-05,
      "loss": 0.4418308258056641,
      "memory(GiB)": 70.5,
      "step": 72760,
      "token_acc": 0.935251798561151,
      "train_speed(iter/s)": 1.450304
    },
    {
      "epoch": 3.1174756865601303,
      "grad_norm": 4.579488754272461,
      "learning_rate": 3.1084431072658135e-05,
      "loss": 0.3818065643310547,
      "memory(GiB)": 70.5,
      "step": 72765,
      "token_acc": 0.9391634980988594,
      "train_speed(iter/s)": 1.450308
    },
    {
      "epoch": 3.117689901889379,
      "grad_norm": 4.5747480392456055,
      "learning_rate": 3.1078201638465164e-05,
      "loss": 0.519390344619751,
      "memory(GiB)": 70.5,
      "step": 72770,
      "token_acc": 0.8846153846153846,
      "train_speed(iter/s)": 1.450306
    },
    {
      "epoch": 3.1179041172186284,
      "grad_norm": 4.979640007019043,
      "learning_rate": 3.107197254705835e-05,
      "loss": 0.18536741733551027,
      "memory(GiB)": 70.5,
      "step": 72775,
      "token_acc": 0.9598540145985401,
      "train_speed(iter/s)": 1.450307
    },
    {
      "epoch": 3.118118332547877,
      "grad_norm": 5.696773529052734,
      "learning_rate": 3.1065743798550496e-05,
      "loss": 0.39096047878265383,
      "memory(GiB)": 70.5,
      "step": 72780,
      "token_acc": 0.9054054054054054,
      "train_speed(iter/s)": 1.450306
    },
    {
      "epoch": 3.118332547877126,
      "grad_norm": 1.9743432998657227,
      "learning_rate": 3.105951539305445e-05,
      "loss": 0.3411376476287842,
      "memory(GiB)": 70.5,
      "step": 72785,
      "token_acc": 0.9080882352941176,
      "train_speed(iter/s)": 1.450307
    },
    {
      "epoch": 3.1185467632063752,
      "grad_norm": 0.8963715434074402,
      "learning_rate": 3.105328733068306e-05,
      "loss": 0.3366502523422241,
      "memory(GiB)": 70.5,
      "step": 72790,
      "token_acc": 0.9263157894736842,
      "train_speed(iter/s)": 1.45031
    },
    {
      "epoch": 3.118760978535624,
      "grad_norm": 2.5082082748413086,
      "learning_rate": 3.104705961154914e-05,
      "loss": 0.46527976989746095,
      "memory(GiB)": 70.5,
      "step": 72795,
      "token_acc": 0.8931297709923665,
      "train_speed(iter/s)": 1.450312
    },
    {
      "epoch": 3.118975193864873,
      "grad_norm": 4.8278679847717285,
      "learning_rate": 3.1040832235765506e-05,
      "loss": 0.1733018636703491,
      "memory(GiB)": 70.5,
      "step": 72800,
      "token_acc": 0.9416909620991254,
      "train_speed(iter/s)": 1.450318
    },
    {
      "epoch": 3.119189409194122,
      "grad_norm": 3.76668643951416,
      "learning_rate": 3.103460520344499e-05,
      "loss": 0.08184295892715454,
      "memory(GiB)": 70.5,
      "step": 72805,
      "token_acc": 0.9776951672862454,
      "train_speed(iter/s)": 1.450324
    },
    {
      "epoch": 3.119403624523371,
      "grad_norm": 5.733508586883545,
      "learning_rate": 3.1028378514700386e-05,
      "loss": 0.321073579788208,
      "memory(GiB)": 70.5,
      "step": 72810,
      "token_acc": 0.9141630901287554,
      "train_speed(iter/s)": 1.450348
    },
    {
      "epoch": 3.1196178398526198,
      "grad_norm": 3.85040545463562,
      "learning_rate": 3.1022152169644515e-05,
      "loss": 0.3996045827865601,
      "memory(GiB)": 70.5,
      "step": 72815,
      "token_acc": 0.8992537313432836,
      "train_speed(iter/s)": 1.450353
    },
    {
      "epoch": 3.119832055181869,
      "grad_norm": 3.523994207382202,
      "learning_rate": 3.101592616839015e-05,
      "loss": 0.3673156976699829,
      "memory(GiB)": 70.5,
      "step": 72820,
      "token_acc": 0.9377289377289377,
      "train_speed(iter/s)": 1.450356
    },
    {
      "epoch": 3.120046270511118,
      "grad_norm": 6.474807262420654,
      "learning_rate": 3.100970051105009e-05,
      "loss": 0.3396455764770508,
      "memory(GiB)": 70.5,
      "step": 72825,
      "token_acc": 0.8867924528301887,
      "train_speed(iter/s)": 1.450357
    },
    {
      "epoch": 3.1202604858403666,
      "grad_norm": 4.513150691986084,
      "learning_rate": 3.1003475197737125e-05,
      "loss": 0.44489450454711915,
      "memory(GiB)": 70.5,
      "step": 72830,
      "token_acc": 0.8963963963963963,
      "train_speed(iter/s)": 1.450358
    },
    {
      "epoch": 3.120474701169616,
      "grad_norm": 2.974208354949951,
      "learning_rate": 3.0997250228564026e-05,
      "loss": 0.41469011306762693,
      "memory(GiB)": 70.5,
      "step": 72835,
      "token_acc": 0.903010033444816,
      "train_speed(iter/s)": 1.450364
    },
    {
      "epoch": 3.1206889164988647,
      "grad_norm": 1.383023977279663,
      "learning_rate": 3.0991025603643556e-05,
      "loss": 0.2999792814254761,
      "memory(GiB)": 70.5,
      "step": 72840,
      "token_acc": 0.9156118143459916,
      "train_speed(iter/s)": 1.450359
    },
    {
      "epoch": 3.1209031318281135,
      "grad_norm": 6.577667236328125,
      "learning_rate": 3.0984801323088484e-05,
      "loss": 0.5586103916168212,
      "memory(GiB)": 70.5,
      "step": 72845,
      "token_acc": 0.8876404494382022,
      "train_speed(iter/s)": 1.450363
    },
    {
      "epoch": 3.1211173471573628,
      "grad_norm": 1.7594525814056396,
      "learning_rate": 3.097857738701159e-05,
      "loss": 0.29082062244415285,
      "memory(GiB)": 70.5,
      "step": 72850,
      "token_acc": 0.9410029498525073,
      "train_speed(iter/s)": 1.450369
    },
    {
      "epoch": 3.1213315624866116,
      "grad_norm": 3.543339967727661,
      "learning_rate": 3.097235379552561e-05,
      "loss": 0.4700503349304199,
      "memory(GiB)": 70.5,
      "step": 72855,
      "token_acc": 0.9183673469387755,
      "train_speed(iter/s)": 1.450385
    },
    {
      "epoch": 3.1215457778158604,
      "grad_norm": 3.732567071914673,
      "learning_rate": 3.096613054874328e-05,
      "loss": 0.2522943735122681,
      "memory(GiB)": 70.5,
      "step": 72860,
      "token_acc": 0.9513888888888888,
      "train_speed(iter/s)": 1.450389
    },
    {
      "epoch": 3.1217599931451097,
      "grad_norm": 1.0825339555740356,
      "learning_rate": 3.0959907646777364e-05,
      "loss": 0.3750370740890503,
      "memory(GiB)": 70.5,
      "step": 72865,
      "token_acc": 0.9285714285714286,
      "train_speed(iter/s)": 1.450405
    },
    {
      "epoch": 3.1219742084743585,
      "grad_norm": 2.2253336906433105,
      "learning_rate": 3.0953685089740566e-05,
      "loss": 0.24552996158599855,
      "memory(GiB)": 70.5,
      "step": 72870,
      "token_acc": 0.937037037037037,
      "train_speed(iter/s)": 1.450411
    },
    {
      "epoch": 3.1221884238036073,
      "grad_norm": 5.245238780975342,
      "learning_rate": 3.094746287774564e-05,
      "loss": 0.6150742530822754,
      "memory(GiB)": 70.5,
      "step": 72875,
      "token_acc": 0.8742138364779874,
      "train_speed(iter/s)": 1.450411
    },
    {
      "epoch": 3.1224026391328565,
      "grad_norm": 3.9274203777313232,
      "learning_rate": 3.09412410109053e-05,
      "loss": 0.28340442180633546,
      "memory(GiB)": 70.5,
      "step": 72880,
      "token_acc": 0.9418181818181818,
      "train_speed(iter/s)": 1.450411
    },
    {
      "epoch": 3.1226168544621054,
      "grad_norm": 1.9998849630355835,
      "learning_rate": 3.093501948933225e-05,
      "loss": 0.3093850612640381,
      "memory(GiB)": 70.5,
      "step": 72885,
      "token_acc": 0.9324324324324325,
      "train_speed(iter/s)": 1.450414
    },
    {
      "epoch": 3.122831069791354,
      "grad_norm": 5.870053291320801,
      "learning_rate": 3.0928798313139206e-05,
      "loss": 0.49124393463134763,
      "memory(GiB)": 70.5,
      "step": 72890,
      "token_acc": 0.889763779527559,
      "train_speed(iter/s)": 1.450432
    },
    {
      "epoch": 3.1230452851206034,
      "grad_norm": 3.3960864543914795,
      "learning_rate": 3.092257748243888e-05,
      "loss": 0.41794767379760744,
      "memory(GiB)": 70.5,
      "step": 72895,
      "token_acc": 0.9119718309859155,
      "train_speed(iter/s)": 1.450447
    },
    {
      "epoch": 3.1232595004498522,
      "grad_norm": 3.1232383251190186,
      "learning_rate": 3.0916356997343945e-05,
      "loss": 0.5239591121673584,
      "memory(GiB)": 70.5,
      "step": 72900,
      "token_acc": 0.9117647058823529,
      "train_speed(iter/s)": 1.450462
    },
    {
      "epoch": 3.123473715779101,
      "grad_norm": 0.6879779696464539,
      "learning_rate": 3.091013685796712e-05,
      "loss": 0.07999642491340637,
      "memory(GiB)": 70.5,
      "step": 72905,
      "token_acc": 0.9628252788104089,
      "train_speed(iter/s)": 1.450463
    },
    {
      "epoch": 3.1236879311083503,
      "grad_norm": 7.630321979522705,
      "learning_rate": 3.0903917064421064e-05,
      "loss": 0.3314600944519043,
      "memory(GiB)": 70.5,
      "step": 72910,
      "token_acc": 0.9263157894736842,
      "train_speed(iter/s)": 1.450464
    },
    {
      "epoch": 3.123902146437599,
      "grad_norm": 2.8000011444091797,
      "learning_rate": 3.0897697616818444e-05,
      "loss": 0.34306514263153076,
      "memory(GiB)": 70.5,
      "step": 72915,
      "token_acc": 0.9113924050632911,
      "train_speed(iter/s)": 1.450467
    },
    {
      "epoch": 3.124116361766848,
      "grad_norm": 3.99639630317688,
      "learning_rate": 3.0891478515271975e-05,
      "loss": 0.48184618949890134,
      "memory(GiB)": 70.5,
      "step": 72920,
      "token_acc": 0.8970588235294118,
      "train_speed(iter/s)": 1.450479
    },
    {
      "epoch": 3.124330577096097,
      "grad_norm": 6.115474224090576,
      "learning_rate": 3.0885259759894306e-05,
      "loss": 0.28213503360748293,
      "memory(GiB)": 70.5,
      "step": 72925,
      "token_acc": 0.921146953405018,
      "train_speed(iter/s)": 1.450491
    },
    {
      "epoch": 3.124544792425346,
      "grad_norm": 4.501350402832031,
      "learning_rate": 3.0879041350798064e-05,
      "loss": 0.6085989952087403,
      "memory(GiB)": 70.5,
      "step": 72930,
      "token_acc": 0.8861788617886179,
      "train_speed(iter/s)": 1.450513
    },
    {
      "epoch": 3.124759007754595,
      "grad_norm": 5.626298427581787,
      "learning_rate": 3.0872823288095946e-05,
      "loss": 0.4808017730712891,
      "memory(GiB)": 70.5,
      "step": 72935,
      "token_acc": 0.8655172413793103,
      "train_speed(iter/s)": 1.450517
    },
    {
      "epoch": 3.124973223083844,
      "grad_norm": 4.270545482635498,
      "learning_rate": 3.086660557190057e-05,
      "loss": 0.32144238948822024,
      "memory(GiB)": 70.5,
      "step": 72940,
      "token_acc": 0.9134078212290503,
      "train_speed(iter/s)": 1.450518
    },
    {
      "epoch": 3.125187438413093,
      "grad_norm": 3.0900332927703857,
      "learning_rate": 3.086038820232458e-05,
      "loss": 0.4965977191925049,
      "memory(GiB)": 70.5,
      "step": 72945,
      "token_acc": 0.9076305220883534,
      "train_speed(iter/s)": 1.450519
    },
    {
      "epoch": 3.1254016537423417,
      "grad_norm": 2.272613286972046,
      "learning_rate": 3.085417117948062e-05,
      "loss": 0.2498617172241211,
      "memory(GiB)": 70.5,
      "step": 72950,
      "token_acc": 0.9588014981273408,
      "train_speed(iter/s)": 1.450521
    },
    {
      "epoch": 3.125615869071591,
      "grad_norm": 1.907772421836853,
      "learning_rate": 3.08479545034813e-05,
      "loss": 0.40628862380981445,
      "memory(GiB)": 70.5,
      "step": 72955,
      "token_acc": 0.90625,
      "train_speed(iter/s)": 1.450523
    },
    {
      "epoch": 3.1258300844008398,
      "grad_norm": 2.321406841278076,
      "learning_rate": 3.084173817443925e-05,
      "loss": 0.2153618812561035,
      "memory(GiB)": 70.5,
      "step": 72960,
      "token_acc": 0.9552238805970149,
      "train_speed(iter/s)": 1.450524
    },
    {
      "epoch": 3.1260442997300886,
      "grad_norm": 4.044538974761963,
      "learning_rate": 3.0835522192467095e-05,
      "loss": 0.32226722240447997,
      "memory(GiB)": 70.5,
      "step": 72965,
      "token_acc": 0.9174603174603174,
      "train_speed(iter/s)": 1.450543
    },
    {
      "epoch": 3.126258515059338,
      "grad_norm": 3.2536160945892334,
      "learning_rate": 3.082930655767742e-05,
      "loss": 0.39254074096679686,
      "memory(GiB)": 70.5,
      "step": 72970,
      "token_acc": 0.9251700680272109,
      "train_speed(iter/s)": 1.450553
    },
    {
      "epoch": 3.1264727303885866,
      "grad_norm": 1.6288875341415405,
      "learning_rate": 3.082309127018285e-05,
      "loss": 0.17521071434020996,
      "memory(GiB)": 70.5,
      "step": 72975,
      "token_acc": 0.952076677316294,
      "train_speed(iter/s)": 1.450557
    },
    {
      "epoch": 3.1266869457178355,
      "grad_norm": 2.8429439067840576,
      "learning_rate": 3.081687633009598e-05,
      "loss": 0.5452378749847412,
      "memory(GiB)": 70.5,
      "step": 72980,
      "token_acc": 0.8920863309352518,
      "train_speed(iter/s)": 1.450572
    },
    {
      "epoch": 3.1269011610470847,
      "grad_norm": 6.554471492767334,
      "learning_rate": 3.081066173752937e-05,
      "loss": 0.6130585670471191,
      "memory(GiB)": 70.5,
      "step": 72985,
      "token_acc": 0.9010989010989011,
      "train_speed(iter/s)": 1.450593
    },
    {
      "epoch": 3.1271153763763335,
      "grad_norm": 0.8267459273338318,
      "learning_rate": 3.080444749259561e-05,
      "loss": 0.21957619190216066,
      "memory(GiB)": 70.5,
      "step": 72990,
      "token_acc": 0.9546742209631728,
      "train_speed(iter/s)": 1.4506
    },
    {
      "epoch": 3.1273295917055823,
      "grad_norm": 4.8592095375061035,
      "learning_rate": 3.079823359540732e-05,
      "loss": 0.332131552696228,
      "memory(GiB)": 70.5,
      "step": 72995,
      "token_acc": 0.9320754716981132,
      "train_speed(iter/s)": 1.450607
    },
    {
      "epoch": 3.1275438070348316,
      "grad_norm": 6.665001392364502,
      "learning_rate": 3.079202004607704e-05,
      "loss": 0.5168676853179932,
      "memory(GiB)": 70.5,
      "step": 73000,
      "token_acc": 0.8628048780487805,
      "train_speed(iter/s)": 1.450605
    },
    {
      "epoch": 3.1275438070348316,
      "eval_loss": 2.5810251235961914,
      "eval_runtime": 11.9218,
      "eval_samples_per_second": 8.388,
      "eval_steps_per_second": 8.388,
      "eval_token_acc": 0.4550989345509893,
      "step": 73000
    },
    {
      "epoch": 3.1277580223640804,
      "grad_norm": 6.783167362213135,
      "learning_rate": 3.0785806844717324e-05,
      "loss": 0.7738393306732178,
      "memory(GiB)": 70.5,
      "step": 73005,
      "token_acc": 0.5628476084538376,
      "train_speed(iter/s)": 1.450194
    },
    {
      "epoch": 3.127972237693329,
      "grad_norm": 4.068376064300537,
      "learning_rate": 3.077959399144075e-05,
      "loss": 0.4600196838378906,
      "memory(GiB)": 70.5,
      "step": 73010,
      "token_acc": 0.8875,
      "train_speed(iter/s)": 1.450204
    },
    {
      "epoch": 3.1281864530225785,
      "grad_norm": 0.2856307029724121,
      "learning_rate": 3.0773381486359854e-05,
      "loss": 0.4653192043304443,
      "memory(GiB)": 70.5,
      "step": 73015,
      "token_acc": 0.9058441558441559,
      "train_speed(iter/s)": 1.450205
    },
    {
      "epoch": 3.1284006683518273,
      "grad_norm": 3.166783571243286,
      "learning_rate": 3.0767169329587195e-05,
      "loss": 0.2546437978744507,
      "memory(GiB)": 70.5,
      "step": 73020,
      "token_acc": 0.9480968858131488,
      "train_speed(iter/s)": 1.450209
    },
    {
      "epoch": 3.128614883681076,
      "grad_norm": 3.788447141647339,
      "learning_rate": 3.07609575212353e-05,
      "loss": 0.2858676195144653,
      "memory(GiB)": 70.5,
      "step": 73025,
      "token_acc": 0.9381818181818182,
      "train_speed(iter/s)": 1.450225
    },
    {
      "epoch": 3.1288290990103254,
      "grad_norm": 4.101943492889404,
      "learning_rate": 3.0754746061416704e-05,
      "loss": 0.3190129041671753,
      "memory(GiB)": 70.5,
      "step": 73030,
      "token_acc": 0.9271137026239067,
      "train_speed(iter/s)": 1.450224
    },
    {
      "epoch": 3.129043314339574,
      "grad_norm": 2.403258800506592,
      "learning_rate": 3.074853495024395e-05,
      "loss": 0.35803685188293455,
      "memory(GiB)": 70.5,
      "step": 73035,
      "token_acc": 0.9330708661417323,
      "train_speed(iter/s)": 1.450226
    },
    {
      "epoch": 3.129257529668823,
      "grad_norm": 2.837510824203491,
      "learning_rate": 3.074232418782954e-05,
      "loss": 0.5214105129241944,
      "memory(GiB)": 70.5,
      "step": 73040,
      "token_acc": 0.8757763975155279,
      "train_speed(iter/s)": 1.450245
    },
    {
      "epoch": 3.1294717449980722,
      "grad_norm": 1.8691452741622925,
      "learning_rate": 3.0736113774285984e-05,
      "loss": 0.26155211925506594,
      "memory(GiB)": 70.5,
      "step": 73045,
      "token_acc": 0.9534883720930233,
      "train_speed(iter/s)": 1.450256
    },
    {
      "epoch": 3.129685960327321,
      "grad_norm": 4.001856327056885,
      "learning_rate": 3.07299037097258e-05,
      "loss": 0.4160614013671875,
      "memory(GiB)": 70.5,
      "step": 73050,
      "token_acc": 0.9100346020761245,
      "train_speed(iter/s)": 1.450264
    },
    {
      "epoch": 3.12990017565657,
      "grad_norm": 5.274770259857178,
      "learning_rate": 3.0723693994261496e-05,
      "loss": 0.33020195960998533,
      "memory(GiB)": 70.5,
      "step": 73055,
      "token_acc": 0.9387755102040817,
      "train_speed(iter/s)": 1.450275
    },
    {
      "epoch": 3.130114390985819,
      "grad_norm": 4.006399154663086,
      "learning_rate": 3.0717484628005556e-05,
      "loss": 0.5194272994995117,
      "memory(GiB)": 70.5,
      "step": 73060,
      "token_acc": 0.8928571428571429,
      "train_speed(iter/s)": 1.450295
    },
    {
      "epoch": 3.130328606315068,
      "grad_norm": 3.2292065620422363,
      "learning_rate": 3.071127561107044e-05,
      "loss": 0.5140131950378418,
      "memory(GiB)": 70.5,
      "step": 73065,
      "token_acc": 0.8849557522123894,
      "train_speed(iter/s)": 1.450303
    },
    {
      "epoch": 3.1305428216443167,
      "grad_norm": 6.062214374542236,
      "learning_rate": 3.07050669435687e-05,
      "loss": 0.49599852561950686,
      "memory(GiB)": 70.5,
      "step": 73070,
      "token_acc": 0.8878504672897196,
      "train_speed(iter/s)": 1.450303
    },
    {
      "epoch": 3.130757036973566,
      "grad_norm": 4.843158721923828,
      "learning_rate": 3.069885862561275e-05,
      "loss": 0.24959535598754884,
      "memory(GiB)": 70.5,
      "step": 73075,
      "token_acc": 0.9385113268608414,
      "train_speed(iter/s)": 1.450308
    },
    {
      "epoch": 3.130971252302815,
      "grad_norm": 4.233370304107666,
      "learning_rate": 3.0692650657315106e-05,
      "loss": 0.367972207069397,
      "memory(GiB)": 70.5,
      "step": 73080,
      "token_acc": 0.9142857142857143,
      "train_speed(iter/s)": 1.450306
    },
    {
      "epoch": 3.1311854676320636,
      "grad_norm": 2.239231824874878,
      "learning_rate": 3.0686443038788196e-05,
      "loss": 0.21105008125305175,
      "memory(GiB)": 70.5,
      "step": 73085,
      "token_acc": 0.9562043795620438,
      "train_speed(iter/s)": 1.450311
    },
    {
      "epoch": 3.131399682961313,
      "grad_norm": 4.2564616203308105,
      "learning_rate": 3.0680235770144474e-05,
      "loss": 0.2840015172958374,
      "memory(GiB)": 70.5,
      "step": 73090,
      "token_acc": 0.935361216730038,
      "train_speed(iter/s)": 1.450315
    },
    {
      "epoch": 3.1316138982905617,
      "grad_norm": 4.725430965423584,
      "learning_rate": 3.067402885149642e-05,
      "loss": 0.44568214416503904,
      "memory(GiB)": 70.5,
      "step": 73095,
      "token_acc": 0.9076923076923077,
      "train_speed(iter/s)": 1.450327
    },
    {
      "epoch": 3.1318281136198105,
      "grad_norm": 2.237497091293335,
      "learning_rate": 3.066782228295645e-05,
      "loss": 0.34843735694885253,
      "memory(GiB)": 70.5,
      "step": 73100,
      "token_acc": 0.9269102990033222,
      "train_speed(iter/s)": 1.450338
    },
    {
      "epoch": 3.1320423289490598,
      "grad_norm": 1.1672230958938599,
      "learning_rate": 3.0661616064637025e-05,
      "loss": 0.2607722282409668,
      "memory(GiB)": 70.5,
      "step": 73105,
      "token_acc": 0.9526813880126183,
      "train_speed(iter/s)": 1.45035
    },
    {
      "epoch": 3.1322565442783086,
      "grad_norm": 2.652182102203369,
      "learning_rate": 3.065541019665057e-05,
      "loss": 0.5748930454254151,
      "memory(GiB)": 70.5,
      "step": 73110,
      "token_acc": 0.872852233676976,
      "train_speed(iter/s)": 1.450355
    },
    {
      "epoch": 3.1324707596075574,
      "grad_norm": 4.933310508728027,
      "learning_rate": 3.0649204679109494e-05,
      "loss": 0.2662128686904907,
      "memory(GiB)": 70.5,
      "step": 73115,
      "token_acc": 0.932,
      "train_speed(iter/s)": 1.450369
    },
    {
      "epoch": 3.1326849749368066,
      "grad_norm": 0.16147381067276,
      "learning_rate": 3.064299951212624e-05,
      "loss": 0.3835946798324585,
      "memory(GiB)": 70.5,
      "step": 73120,
      "token_acc": 0.9228187919463087,
      "train_speed(iter/s)": 1.45038
    },
    {
      "epoch": 3.1328991902660555,
      "grad_norm": 0.9958739280700684,
      "learning_rate": 3.06367946958132e-05,
      "loss": 0.2900132894515991,
      "memory(GiB)": 70.5,
      "step": 73125,
      "token_acc": 0.9285714285714286,
      "train_speed(iter/s)": 1.450382
    },
    {
      "epoch": 3.1331134055953043,
      "grad_norm": 1.5248829126358032,
      "learning_rate": 3.0630590230282783e-05,
      "loss": 0.3754369020462036,
      "memory(GiB)": 70.5,
      "step": 73130,
      "token_acc": 0.9212328767123288,
      "train_speed(iter/s)": 1.450396
    },
    {
      "epoch": 3.1333276209245535,
      "grad_norm": 1.147213101387024,
      "learning_rate": 3.0624386115647386e-05,
      "loss": 0.2668358087539673,
      "memory(GiB)": 70.5,
      "step": 73135,
      "token_acc": 0.9411764705882353,
      "train_speed(iter/s)": 1.450404
    },
    {
      "epoch": 3.1335418362538023,
      "grad_norm": 2.587137460708618,
      "learning_rate": 3.0618182352019434e-05,
      "loss": 0.4467640399932861,
      "memory(GiB)": 70.5,
      "step": 73140,
      "token_acc": 0.8980263157894737,
      "train_speed(iter/s)": 1.450413
    },
    {
      "epoch": 3.133756051583051,
      "grad_norm": 3.2139840126037598,
      "learning_rate": 3.061197893951128e-05,
      "loss": 0.4436334133148193,
      "memory(GiB)": 70.5,
      "step": 73145,
      "token_acc": 0.900990099009901,
      "train_speed(iter/s)": 1.450413
    },
    {
      "epoch": 3.1339702669123004,
      "grad_norm": 1.9677220582962036,
      "learning_rate": 3.060577587823531e-05,
      "loss": 0.1749498128890991,
      "memory(GiB)": 70.5,
      "step": 73150,
      "token_acc": 0.967032967032967,
      "train_speed(iter/s)": 1.450417
    },
    {
      "epoch": 3.134184482241549,
      "grad_norm": 1.1829649209976196,
      "learning_rate": 3.059957316830391e-05,
      "loss": 0.4338232040405273,
      "memory(GiB)": 70.5,
      "step": 73155,
      "token_acc": 0.9148264984227129,
      "train_speed(iter/s)": 1.45042
    },
    {
      "epoch": 3.134398697570798,
      "grad_norm": 2.258877754211426,
      "learning_rate": 3.059337080982943e-05,
      "loss": 0.3069628715515137,
      "memory(GiB)": 70.5,
      "step": 73160,
      "token_acc": 0.932475884244373,
      "train_speed(iter/s)": 1.450426
    },
    {
      "epoch": 3.1346129129000473,
      "grad_norm": 1.2364379167556763,
      "learning_rate": 3.0587168802924266e-05,
      "loss": 0.1916717529296875,
      "memory(GiB)": 70.5,
      "step": 73165,
      "token_acc": 0.9613899613899614,
      "train_speed(iter/s)": 1.450437
    },
    {
      "epoch": 3.134827128229296,
      "grad_norm": 4.709557056427002,
      "learning_rate": 3.058096714770074e-05,
      "loss": 0.6890845775604248,
      "memory(GiB)": 70.5,
      "step": 73170,
      "token_acc": 0.8717948717948718,
      "train_speed(iter/s)": 1.450444
    },
    {
      "epoch": 3.135041343558545,
      "grad_norm": 4.269022464752197,
      "learning_rate": 3.05747658442712e-05,
      "loss": 0.3099186658859253,
      "memory(GiB)": 70.5,
      "step": 73175,
      "token_acc": 0.9379310344827586,
      "train_speed(iter/s)": 1.450447
    },
    {
      "epoch": 3.135255558887794,
      "grad_norm": 6.7904953956604,
      "learning_rate": 3.0568564892748005e-05,
      "loss": 0.3615701913833618,
      "memory(GiB)": 70.5,
      "step": 73180,
      "token_acc": 0.9145907473309609,
      "train_speed(iter/s)": 1.450464
    },
    {
      "epoch": 3.135469774217043,
      "grad_norm": 0.31687837839126587,
      "learning_rate": 3.0562364293243496e-05,
      "loss": 0.2260668992996216,
      "memory(GiB)": 70.5,
      "step": 73185,
      "token_acc": 0.9485530546623794,
      "train_speed(iter/s)": 1.450468
    },
    {
      "epoch": 3.135683989546292,
      "grad_norm": 1.5993090867996216,
      "learning_rate": 3.055616404586998e-05,
      "loss": 0.3232187032699585,
      "memory(GiB)": 70.5,
      "step": 73190,
      "token_acc": 0.9433198380566802,
      "train_speed(iter/s)": 1.450475
    },
    {
      "epoch": 3.135898204875541,
      "grad_norm": 4.604470729827881,
      "learning_rate": 3.05499641507398e-05,
      "loss": 0.34834249019622804,
      "memory(GiB)": 70.5,
      "step": 73195,
      "token_acc": 0.9152046783625731,
      "train_speed(iter/s)": 1.450472
    },
    {
      "epoch": 3.13611242020479,
      "grad_norm": 5.736226558685303,
      "learning_rate": 3.0543764607965256e-05,
      "loss": 0.3907604694366455,
      "memory(GiB)": 70.5,
      "step": 73200,
      "token_acc": 0.9074074074074074,
      "train_speed(iter/s)": 1.450477
    },
    {
      "epoch": 3.1363266355340387,
      "grad_norm": 2.345639705657959,
      "learning_rate": 3.053756541765867e-05,
      "loss": 0.39138197898864746,
      "memory(GiB)": 70.5,
      "step": 73205,
      "token_acc": 0.9176136363636364,
      "train_speed(iter/s)": 1.450481
    },
    {
      "epoch": 3.136540850863288,
      "grad_norm": 2.236595392227173,
      "learning_rate": 3.053136657993233e-05,
      "loss": 0.2813680410385132,
      "memory(GiB)": 70.5,
      "step": 73210,
      "token_acc": 0.9496124031007752,
      "train_speed(iter/s)": 1.450488
    },
    {
      "epoch": 3.1367550661925367,
      "grad_norm": 1.4574528932571411,
      "learning_rate": 3.0525168094898566e-05,
      "loss": 0.2037731170654297,
      "memory(GiB)": 70.5,
      "step": 73215,
      "token_acc": 0.9463087248322147,
      "train_speed(iter/s)": 1.450494
    },
    {
      "epoch": 3.1369692815217856,
      "grad_norm": 2.1806142330169678,
      "learning_rate": 3.051896996266964e-05,
      "loss": 0.23568975925445557,
      "memory(GiB)": 70.5,
      "step": 73220,
      "token_acc": 0.9477351916376306,
      "train_speed(iter/s)": 1.450503
    },
    {
      "epoch": 3.137183496851035,
      "grad_norm": 3.4154744148254395,
      "learning_rate": 3.0512772183357856e-05,
      "loss": 0.3896113634109497,
      "memory(GiB)": 70.5,
      "step": 73225,
      "token_acc": 0.9266666666666666,
      "train_speed(iter/s)": 1.450511
    },
    {
      "epoch": 3.1373977121802836,
      "grad_norm": 3.0360543727874756,
      "learning_rate": 3.050657475707549e-05,
      "loss": 0.24932920932769775,
      "memory(GiB)": 70.5,
      "step": 73230,
      "token_acc": 0.9343629343629344,
      "train_speed(iter/s)": 1.450518
    },
    {
      "epoch": 3.1376119275095324,
      "grad_norm": 1.3091641664505005,
      "learning_rate": 3.0500377683934796e-05,
      "loss": 0.18758909702301024,
      "memory(GiB)": 70.5,
      "step": 73235,
      "token_acc": 0.9517684887459807,
      "train_speed(iter/s)": 1.450526
    },
    {
      "epoch": 3.1378261428387817,
      "grad_norm": 7.315410614013672,
      "learning_rate": 3.0494180964048057e-05,
      "loss": 0.2637534856796265,
      "memory(GiB)": 70.5,
      "step": 73240,
      "token_acc": 0.9515151515151515,
      "train_speed(iter/s)": 1.450528
    },
    {
      "epoch": 3.1380403581680305,
      "grad_norm": 2.780618190765381,
      "learning_rate": 3.048798459752753e-05,
      "loss": 0.351548171043396,
      "memory(GiB)": 70.5,
      "step": 73245,
      "token_acc": 0.9146341463414634,
      "train_speed(iter/s)": 1.450532
    },
    {
      "epoch": 3.1382545734972793,
      "grad_norm": 1.0494658946990967,
      "learning_rate": 3.0481788584485467e-05,
      "loss": 0.12470699548721313,
      "memory(GiB)": 70.5,
      "step": 73250,
      "token_acc": 0.9648562300319489,
      "train_speed(iter/s)": 1.450535
    },
    {
      "epoch": 3.1384687888265286,
      "grad_norm": 2.847287654876709,
      "learning_rate": 3.0475592925034112e-05,
      "loss": 0.5340160369873047,
      "memory(GiB)": 70.5,
      "step": 73255,
      "token_acc": 0.8927444794952681,
      "train_speed(iter/s)": 1.450551
    },
    {
      "epoch": 3.1386830041557774,
      "grad_norm": 0.7313413619995117,
      "learning_rate": 3.04693976192857e-05,
      "loss": 0.6416889190673828,
      "memory(GiB)": 70.5,
      "step": 73260,
      "token_acc": 0.889589905362776,
      "train_speed(iter/s)": 1.450559
    },
    {
      "epoch": 3.138897219485026,
      "grad_norm": 2.1597070693969727,
      "learning_rate": 3.0463202667352487e-05,
      "loss": 0.24860281944274903,
      "memory(GiB)": 70.5,
      "step": 73265,
      "token_acc": 0.9338235294117647,
      "train_speed(iter/s)": 1.450576
    },
    {
      "epoch": 3.1391114348142755,
      "grad_norm": 4.64398717880249,
      "learning_rate": 3.0457008069346677e-05,
      "loss": 0.3473460912704468,
      "memory(GiB)": 70.5,
      "step": 73270,
      "token_acc": 0.94140625,
      "train_speed(iter/s)": 1.450582
    },
    {
      "epoch": 3.1393256501435243,
      "grad_norm": 3.058621883392334,
      "learning_rate": 3.0450813825380487e-05,
      "loss": 0.26201653480529785,
      "memory(GiB)": 70.5,
      "step": 73275,
      "token_acc": 0.94,
      "train_speed(iter/s)": 1.450583
    },
    {
      "epoch": 3.139539865472773,
      "grad_norm": 6.2876458168029785,
      "learning_rate": 3.044461993556616e-05,
      "loss": 0.36849424839019773,
      "memory(GiB)": 70.5,
      "step": 73280,
      "token_acc": 0.9335664335664335,
      "train_speed(iter/s)": 1.450588
    },
    {
      "epoch": 3.1397540808020223,
      "grad_norm": 0.17465870082378387,
      "learning_rate": 3.0438426400015864e-05,
      "loss": 0.0995989203453064,
      "memory(GiB)": 70.5,
      "step": 73285,
      "token_acc": 0.9754385964912281,
      "train_speed(iter/s)": 1.450593
    },
    {
      "epoch": 3.139968296131271,
      "grad_norm": 2.7094318866729736,
      "learning_rate": 3.0432233218841845e-05,
      "loss": 0.4995311737060547,
      "memory(GiB)": 70.5,
      "step": 73290,
      "token_acc": 0.896551724137931,
      "train_speed(iter/s)": 1.450611
    },
    {
      "epoch": 3.14018251146052,
      "grad_norm": 3.9998385906219482,
      "learning_rate": 3.0426040392156264e-05,
      "loss": 0.35295977592468264,
      "memory(GiB)": 70.5,
      "step": 73295,
      "token_acc": 0.9139784946236559,
      "train_speed(iter/s)": 1.450624
    },
    {
      "epoch": 3.140396726789769,
      "grad_norm": 2.2830772399902344,
      "learning_rate": 3.0419847920071333e-05,
      "loss": 0.13942337036132812,
      "memory(GiB)": 70.5,
      "step": 73300,
      "token_acc": 0.9710610932475884,
      "train_speed(iter/s)": 1.45063
    },
    {
      "epoch": 3.140610942119018,
      "grad_norm": 3.15389347076416,
      "learning_rate": 3.0413655802699216e-05,
      "loss": 0.3991215705871582,
      "memory(GiB)": 70.5,
      "step": 73305,
      "token_acc": 0.9146341463414634,
      "train_speed(iter/s)": 1.45063
    },
    {
      "epoch": 3.140825157448267,
      "grad_norm": 1.05165696144104,
      "learning_rate": 3.040746404015211e-05,
      "loss": 0.28418607711791993,
      "memory(GiB)": 70.5,
      "step": 73310,
      "token_acc": 0.9257950530035336,
      "train_speed(iter/s)": 1.450629
    },
    {
      "epoch": 3.141039372777516,
      "grad_norm": 1.9944770336151123,
      "learning_rate": 3.0401272632542172e-05,
      "loss": 0.30993826389312745,
      "memory(GiB)": 70.5,
      "step": 73315,
      "token_acc": 0.9304029304029304,
      "train_speed(iter/s)": 1.450632
    },
    {
      "epoch": 3.141253588106765,
      "grad_norm": 1.8868454694747925,
      "learning_rate": 3.0395081579981556e-05,
      "loss": 0.645773458480835,
      "memory(GiB)": 70.5,
      "step": 73320,
      "token_acc": 0.8745247148288974,
      "train_speed(iter/s)": 1.450644
    },
    {
      "epoch": 3.1414678034360137,
      "grad_norm": 1.9824943542480469,
      "learning_rate": 3.038889088258243e-05,
      "loss": 0.5418727397918701,
      "memory(GiB)": 70.5,
      "step": 73325,
      "token_acc": 0.8850267379679144,
      "train_speed(iter/s)": 1.450648
    },
    {
      "epoch": 3.141682018765263,
      "grad_norm": 0.08671123534440994,
      "learning_rate": 3.0382700540456954e-05,
      "loss": 0.30212674140930174,
      "memory(GiB)": 70.5,
      "step": 73330,
      "token_acc": 0.9351032448377581,
      "train_speed(iter/s)": 1.450649
    },
    {
      "epoch": 3.141896234094512,
      "grad_norm": 3.9832262992858887,
      "learning_rate": 3.0376510553717242e-05,
      "loss": 0.6857322216033935,
      "memory(GiB)": 70.5,
      "step": 73335,
      "token_acc": 0.861878453038674,
      "train_speed(iter/s)": 1.450649
    },
    {
      "epoch": 3.1421104494237606,
      "grad_norm": 0.041135769337415695,
      "learning_rate": 3.0370320922475466e-05,
      "loss": 0.1752207636833191,
      "memory(GiB)": 70.5,
      "step": 73340,
      "token_acc": 0.9614035087719298,
      "train_speed(iter/s)": 1.450654
    },
    {
      "epoch": 3.14232466475301,
      "grad_norm": 4.746490478515625,
      "learning_rate": 3.0364131646843725e-05,
      "loss": 0.5932612895965577,
      "memory(GiB)": 70.5,
      "step": 73345,
      "token_acc": 0.9010989010989011,
      "train_speed(iter/s)": 1.450669
    },
    {
      "epoch": 3.1425388800822587,
      "grad_norm": 3.511265993118286,
      "learning_rate": 3.0357942726934173e-05,
      "loss": 0.3503153324127197,
      "memory(GiB)": 70.5,
      "step": 73350,
      "token_acc": 0.9207547169811321,
      "train_speed(iter/s)": 1.450668
    },
    {
      "epoch": 3.1427530954115075,
      "grad_norm": 3.113703966140747,
      "learning_rate": 3.0351754162858913e-05,
      "loss": 0.3415482521057129,
      "memory(GiB)": 70.5,
      "step": 73355,
      "token_acc": 0.9292604501607717,
      "train_speed(iter/s)": 1.450666
    },
    {
      "epoch": 3.1429673107407567,
      "grad_norm": 3.748004674911499,
      "learning_rate": 3.0345565954730036e-05,
      "loss": 0.30535140037536623,
      "memory(GiB)": 70.5,
      "step": 73360,
      "token_acc": 0.9345454545454546,
      "train_speed(iter/s)": 1.450672
    },
    {
      "epoch": 3.1431815260700056,
      "grad_norm": 6.317716121673584,
      "learning_rate": 3.0339378102659678e-05,
      "loss": 0.39778842926025393,
      "memory(GiB)": 70.5,
      "step": 73365,
      "token_acc": 0.906832298136646,
      "train_speed(iter/s)": 1.450669
    },
    {
      "epoch": 3.1433957413992544,
      "grad_norm": 4.259237289428711,
      "learning_rate": 3.033319060675994e-05,
      "loss": 0.3080374479293823,
      "memory(GiB)": 70.5,
      "step": 73370,
      "token_acc": 0.9365079365079365,
      "train_speed(iter/s)": 1.450682
    },
    {
      "epoch": 3.1436099567285036,
      "grad_norm": 8.837984085083008,
      "learning_rate": 3.0327003467142907e-05,
      "loss": 0.2820885181427002,
      "memory(GiB)": 70.5,
      "step": 73375,
      "token_acc": 0.9363957597173145,
      "train_speed(iter/s)": 1.450683
    },
    {
      "epoch": 3.1438241720577524,
      "grad_norm": 2.6730823516845703,
      "learning_rate": 3.032081668392065e-05,
      "loss": 0.23891620635986327,
      "memory(GiB)": 70.5,
      "step": 73380,
      "token_acc": 0.9522292993630573,
      "train_speed(iter/s)": 1.450679
    },
    {
      "epoch": 3.1440383873870013,
      "grad_norm": 2.6357474327087402,
      "learning_rate": 3.0314630257205266e-05,
      "loss": 0.2547128200531006,
      "memory(GiB)": 70.5,
      "step": 73385,
      "token_acc": 0.9432624113475178,
      "train_speed(iter/s)": 1.450684
    },
    {
      "epoch": 3.1442526027162505,
      "grad_norm": 4.042063236236572,
      "learning_rate": 3.030844418710881e-05,
      "loss": 0.18470441102981566,
      "memory(GiB)": 70.5,
      "step": 73390,
      "token_acc": 0.9598214285714286,
      "train_speed(iter/s)": 1.450692
    },
    {
      "epoch": 3.1444668180454993,
      "grad_norm": 1.6373586654663086,
      "learning_rate": 3.0302258473743374e-05,
      "loss": 0.4262528896331787,
      "memory(GiB)": 70.5,
      "step": 73395,
      "token_acc": 0.9110169491525424,
      "train_speed(iter/s)": 1.450707
    },
    {
      "epoch": 3.144681033374748,
      "grad_norm": 1.706063151359558,
      "learning_rate": 3.0296073117221004e-05,
      "loss": 0.3580707311630249,
      "memory(GiB)": 70.5,
      "step": 73400,
      "token_acc": 0.9264069264069265,
      "train_speed(iter/s)": 1.450706
    },
    {
      "epoch": 3.1448952487039974,
      "grad_norm": 3.957083225250244,
      "learning_rate": 3.028988811765374e-05,
      "loss": 0.22337806224822998,
      "memory(GiB)": 70.5,
      "step": 73405,
      "token_acc": 0.9389830508474576,
      "train_speed(iter/s)": 1.45072
    },
    {
      "epoch": 3.145109464033246,
      "grad_norm": 5.195244789123535,
      "learning_rate": 3.0283703475153656e-05,
      "loss": 0.3568262577056885,
      "memory(GiB)": 70.5,
      "step": 73410,
      "token_acc": 0.9372822299651568,
      "train_speed(iter/s)": 1.450724
    },
    {
      "epoch": 3.145323679362495,
      "grad_norm": 2.08925199508667,
      "learning_rate": 3.0277519189832777e-05,
      "loss": 0.35995566844940186,
      "memory(GiB)": 70.5,
      "step": 73415,
      "token_acc": 0.916955017301038,
      "train_speed(iter/s)": 1.450722
    },
    {
      "epoch": 3.1455378946917443,
      "grad_norm": 0.9142557978630066,
      "learning_rate": 3.0271335261803124e-05,
      "loss": 0.4572728157043457,
      "memory(GiB)": 70.5,
      "step": 73420,
      "token_acc": 0.9155405405405406,
      "train_speed(iter/s)": 1.450741
    },
    {
      "epoch": 3.145752110020993,
      "grad_norm": 2.9426679611206055,
      "learning_rate": 3.0265151691176756e-05,
      "loss": 0.5012942790985108,
      "memory(GiB)": 70.5,
      "step": 73425,
      "token_acc": 0.8888888888888888,
      "train_speed(iter/s)": 1.45074
    },
    {
      "epoch": 3.145966325350242,
      "grad_norm": 3.5887629985809326,
      "learning_rate": 3.0258968478065665e-05,
      "loss": 0.25911214351654055,
      "memory(GiB)": 70.5,
      "step": 73430,
      "token_acc": 0.963963963963964,
      "train_speed(iter/s)": 1.450747
    },
    {
      "epoch": 3.146180540679491,
      "grad_norm": 4.508548259735107,
      "learning_rate": 3.025278562258188e-05,
      "loss": 0.4044854164123535,
      "memory(GiB)": 70.5,
      "step": 73435,
      "token_acc": 0.9146757679180887,
      "train_speed(iter/s)": 1.450745
    },
    {
      "epoch": 3.14639475600874,
      "grad_norm": 2.3363609313964844,
      "learning_rate": 3.0246603124837414e-05,
      "loss": 0.38802714347839357,
      "memory(GiB)": 70.5,
      "step": 73440,
      "token_acc": 0.9105431309904153,
      "train_speed(iter/s)": 1.450746
    },
    {
      "epoch": 3.146608971337989,
      "grad_norm": 1.9065219163894653,
      "learning_rate": 3.024042098494426e-05,
      "loss": 0.24788985252380372,
      "memory(GiB)": 70.5,
      "step": 73445,
      "token_acc": 0.953307392996109,
      "train_speed(iter/s)": 1.450754
    },
    {
      "epoch": 3.146823186667238,
      "grad_norm": 2.2733170986175537,
      "learning_rate": 3.0234239203014413e-05,
      "loss": 0.34004998207092285,
      "memory(GiB)": 70.5,
      "step": 73450,
      "token_acc": 0.9296636085626911,
      "train_speed(iter/s)": 1.450768
    },
    {
      "epoch": 3.147037401996487,
      "grad_norm": 5.217135906219482,
      "learning_rate": 3.022805777915988e-05,
      "loss": 0.3126883029937744,
      "memory(GiB)": 70.5,
      "step": 73455,
      "token_acc": 0.9485294117647058,
      "train_speed(iter/s)": 1.450772
    },
    {
      "epoch": 3.1472516173257357,
      "grad_norm": 0.6823260188102722,
      "learning_rate": 3.022187671349262e-05,
      "loss": 0.34251060485839846,
      "memory(GiB)": 70.5,
      "step": 73460,
      "token_acc": 0.9122807017543859,
      "train_speed(iter/s)": 1.450779
    },
    {
      "epoch": 3.147465832654985,
      "grad_norm": 2.320727586746216,
      "learning_rate": 3.0215696006124606e-05,
      "loss": 0.2734535694122314,
      "memory(GiB)": 70.5,
      "step": 73465,
      "token_acc": 0.942652329749104,
      "train_speed(iter/s)": 1.450786
    },
    {
      "epoch": 3.1476800479842337,
      "grad_norm": 2.200155258178711,
      "learning_rate": 3.020951565716783e-05,
      "loss": 0.22131986618041993,
      "memory(GiB)": 70.5,
      "step": 73470,
      "token_acc": 0.9580645161290322,
      "train_speed(iter/s)": 1.450792
    },
    {
      "epoch": 3.1478942633134825,
      "grad_norm": 5.986841201782227,
      "learning_rate": 3.0203335666734244e-05,
      "loss": 0.7493361473083496,
      "memory(GiB)": 70.5,
      "step": 73475,
      "token_acc": 0.8836363636363637,
      "train_speed(iter/s)": 1.450805
    },
    {
      "epoch": 3.148108478642732,
      "grad_norm": 3.67688250541687,
      "learning_rate": 3.0197156034935792e-05,
      "loss": 0.3006605625152588,
      "memory(GiB)": 70.5,
      "step": 73480,
      "token_acc": 0.9169435215946844,
      "train_speed(iter/s)": 1.450816
    },
    {
      "epoch": 3.1483226939719806,
      "grad_norm": 6.450192928314209,
      "learning_rate": 3.019097676188445e-05,
      "loss": 0.5056018352508544,
      "memory(GiB)": 70.5,
      "step": 73485,
      "token_acc": 0.9046153846153846,
      "train_speed(iter/s)": 1.45083
    },
    {
      "epoch": 3.1485369093012294,
      "grad_norm": 1.5776317119598389,
      "learning_rate": 3.0184797847692126e-05,
      "loss": 0.3478051424026489,
      "memory(GiB)": 70.5,
      "step": 73490,
      "token_acc": 0.9298701298701298,
      "train_speed(iter/s)": 1.450842
    },
    {
      "epoch": 3.1487511246304787,
      "grad_norm": 3.2061493396759033,
      "learning_rate": 3.01786192924708e-05,
      "loss": 0.27843284606933594,
      "memory(GiB)": 70.5,
      "step": 73495,
      "token_acc": 0.9285714285714286,
      "train_speed(iter/s)": 1.450841
    },
    {
      "epoch": 3.1489653399597275,
      "grad_norm": 3.5802841186523438,
      "learning_rate": 3.017244109633237e-05,
      "loss": 0.39336309432983396,
      "memory(GiB)": 70.5,
      "step": 73500,
      "token_acc": 0.9104477611940298,
      "train_speed(iter/s)": 1.450856
    },
    {
      "epoch": 3.1489653399597275,
      "eval_loss": 2.4917232990264893,
      "eval_runtime": 11.2011,
      "eval_samples_per_second": 8.928,
      "eval_steps_per_second": 8.928,
      "eval_token_acc": 0.44933920704845814,
      "step": 73500
    },
    {
      "epoch": 3.1491795552889763,
      "grad_norm": 4.157712936401367,
      "learning_rate": 3.016626325938875e-05,
      "loss": 0.4980586051940918,
      "memory(GiB)": 70.5,
      "step": 73505,
      "token_acc": 0.5856410256410256,
      "train_speed(iter/s)": 1.450503
    },
    {
      "epoch": 3.1493937706182256,
      "grad_norm": 2.818147659301758,
      "learning_rate": 3.016008578175189e-05,
      "loss": 0.3917638063430786,
      "memory(GiB)": 70.5,
      "step": 73510,
      "token_acc": 0.9043478260869565,
      "train_speed(iter/s)": 1.450497
    },
    {
      "epoch": 3.1496079859474744,
      "grad_norm": 6.821324825286865,
      "learning_rate": 3.0153908663533693e-05,
      "loss": 0.624757957458496,
      "memory(GiB)": 70.5,
      "step": 73515,
      "token_acc": 0.8803680981595092,
      "train_speed(iter/s)": 1.450501
    },
    {
      "epoch": 3.149822201276723,
      "grad_norm": 3.412435293197632,
      "learning_rate": 3.0147731904846067e-05,
      "loss": 0.41910762786865235,
      "memory(GiB)": 70.5,
      "step": 73520,
      "token_acc": 0.9153605015673981,
      "train_speed(iter/s)": 1.450504
    },
    {
      "epoch": 3.1500364166059724,
      "grad_norm": 4.228204727172852,
      "learning_rate": 3.014155550580088e-05,
      "loss": 0.38220288753509524,
      "memory(GiB)": 70.5,
      "step": 73525,
      "token_acc": 0.9228070175438596,
      "train_speed(iter/s)": 1.450506
    },
    {
      "epoch": 3.1502506319352213,
      "grad_norm": 2.0454745292663574,
      "learning_rate": 3.0135379466510062e-05,
      "loss": 0.2625147581100464,
      "memory(GiB)": 70.5,
      "step": 73530,
      "token_acc": 0.9460431654676259,
      "train_speed(iter/s)": 1.450514
    },
    {
      "epoch": 3.15046484726447,
      "grad_norm": 2.432882308959961,
      "learning_rate": 3.012920378708546e-05,
      "loss": 0.47804789543151854,
      "memory(GiB)": 70.5,
      "step": 73535,
      "token_acc": 0.8875,
      "train_speed(iter/s)": 1.450538
    },
    {
      "epoch": 3.1506790625937193,
      "grad_norm": 3.553889751434326,
      "learning_rate": 3.0123028467638992e-05,
      "loss": 0.19413448572158815,
      "memory(GiB)": 70.5,
      "step": 73540,
      "token_acc": 0.9552238805970149,
      "train_speed(iter/s)": 1.450545
    },
    {
      "epoch": 3.150893277922968,
      "grad_norm": 6.603944301605225,
      "learning_rate": 3.01168535082825e-05,
      "loss": 0.38190770149230957,
      "memory(GiB)": 70.5,
      "step": 73545,
      "token_acc": 0.9177215189873418,
      "train_speed(iter/s)": 1.450548
    },
    {
      "epoch": 3.151107493252217,
      "grad_norm": 3.3246052265167236,
      "learning_rate": 3.0110678909127855e-05,
      "loss": 0.4444310665130615,
      "memory(GiB)": 70.5,
      "step": 73550,
      "token_acc": 0.9055793991416309,
      "train_speed(iter/s)": 1.450551
    },
    {
      "epoch": 3.151321708581466,
      "grad_norm": 2.0558338165283203,
      "learning_rate": 3.0104504670286926e-05,
      "loss": 0.4156855583190918,
      "memory(GiB)": 70.5,
      "step": 73555,
      "token_acc": 0.9275862068965517,
      "train_speed(iter/s)": 1.450566
    },
    {
      "epoch": 3.151535923910715,
      "grad_norm": 3.8383142948150635,
      "learning_rate": 3.009833079187156e-05,
      "loss": 0.2668982982635498,
      "memory(GiB)": 70.5,
      "step": 73560,
      "token_acc": 0.9323076923076923,
      "train_speed(iter/s)": 1.450582
    },
    {
      "epoch": 3.151750139239964,
      "grad_norm": 3.245245933532715,
      "learning_rate": 3.009215727399359e-05,
      "loss": 0.48227458000183104,
      "memory(GiB)": 70.5,
      "step": 73565,
      "token_acc": 0.8906752411575563,
      "train_speed(iter/s)": 1.450584
    },
    {
      "epoch": 3.151964354569213,
      "grad_norm": 2.4862964153289795,
      "learning_rate": 3.0085984116764877e-05,
      "loss": 0.44351348876953123,
      "memory(GiB)": 70.5,
      "step": 73570,
      "token_acc": 0.9090909090909091,
      "train_speed(iter/s)": 1.450588
    },
    {
      "epoch": 3.152178569898462,
      "grad_norm": 4.466121673583984,
      "learning_rate": 3.0079811320297235e-05,
      "loss": 0.5630940914154052,
      "memory(GiB)": 70.5,
      "step": 73575,
      "token_acc": 0.8784313725490196,
      "train_speed(iter/s)": 1.450603
    },
    {
      "epoch": 3.1523927852277107,
      "grad_norm": 1.610608458518982,
      "learning_rate": 3.007363888470249e-05,
      "loss": 0.39224722385406496,
      "memory(GiB)": 70.5,
      "step": 73580,
      "token_acc": 0.9119496855345912,
      "train_speed(iter/s)": 1.450605
    },
    {
      "epoch": 3.15260700055696,
      "grad_norm": 3.328469753265381,
      "learning_rate": 3.0067466810092475e-05,
      "loss": 0.3280014514923096,
      "memory(GiB)": 70.5,
      "step": 73585,
      "token_acc": 0.913946587537092,
      "train_speed(iter/s)": 1.450608
    },
    {
      "epoch": 3.152821215886209,
      "grad_norm": 1.92730712890625,
      "learning_rate": 3.0061295096579008e-05,
      "loss": 0.13420588970184327,
      "memory(GiB)": 70.5,
      "step": 73590,
      "token_acc": 0.963855421686747,
      "train_speed(iter/s)": 1.450622
    },
    {
      "epoch": 3.1530354312154576,
      "grad_norm": 5.753725051879883,
      "learning_rate": 3.005512374427387e-05,
      "loss": 0.4218998908996582,
      "memory(GiB)": 70.5,
      "step": 73595,
      "token_acc": 0.9304029304029304,
      "train_speed(iter/s)": 1.450624
    },
    {
      "epoch": 3.153249646544707,
      "grad_norm": 1.7879010438919067,
      "learning_rate": 3.0048952753288882e-05,
      "loss": 0.5176285743713379,
      "memory(GiB)": 70.5,
      "step": 73600,
      "token_acc": 0.898876404494382,
      "train_speed(iter/s)": 1.45062
    },
    {
      "epoch": 3.1534638618739557,
      "grad_norm": 0.7984970808029175,
      "learning_rate": 3.004278212373584e-05,
      "loss": 0.39300785064697263,
      "memory(GiB)": 70.5,
      "step": 73605,
      "token_acc": 0.9003690036900369,
      "train_speed(iter/s)": 1.450623
    },
    {
      "epoch": 3.1536780772032045,
      "grad_norm": 3.8859994411468506,
      "learning_rate": 3.003661185572651e-05,
      "loss": 0.6208965301513671,
      "memory(GiB)": 70.5,
      "step": 73610,
      "token_acc": 0.8765060240963856,
      "train_speed(iter/s)": 1.45063
    },
    {
      "epoch": 3.1538922925324537,
      "grad_norm": 7.594021320343018,
      "learning_rate": 3.003044194937269e-05,
      "loss": 0.5453869342803955,
      "memory(GiB)": 70.5,
      "step": 73615,
      "token_acc": 0.8916083916083916,
      "train_speed(iter/s)": 1.450629
    },
    {
      "epoch": 3.1541065078617025,
      "grad_norm": 1.8504774570465088,
      "learning_rate": 3.0024272404786146e-05,
      "loss": 0.37041985988616943,
      "memory(GiB)": 70.5,
      "step": 73620,
      "token_acc": 0.916955017301038,
      "train_speed(iter/s)": 1.450635
    },
    {
      "epoch": 3.1543207231909514,
      "grad_norm": 3.896853446960449,
      "learning_rate": 3.0018103222078643e-05,
      "loss": 0.27727532386779785,
      "memory(GiB)": 70.5,
      "step": 73625,
      "token_acc": 0.9459459459459459,
      "train_speed(iter/s)": 1.450632
    },
    {
      "epoch": 3.1545349385202006,
      "grad_norm": 1.4698309898376465,
      "learning_rate": 3.001193440136194e-05,
      "loss": 0.2592029571533203,
      "memory(GiB)": 70.5,
      "step": 73630,
      "token_acc": 0.9375,
      "train_speed(iter/s)": 1.450628
    },
    {
      "epoch": 3.1547491538494494,
      "grad_norm": 1.2863587141036987,
      "learning_rate": 3.00057659427478e-05,
      "loss": 0.4293821811676025,
      "memory(GiB)": 70.5,
      "step": 73635,
      "token_acc": 0.9191919191919192,
      "train_speed(iter/s)": 1.450633
    },
    {
      "epoch": 3.1549633691786982,
      "grad_norm": 4.299642086029053,
      "learning_rate": 2.999959784634797e-05,
      "loss": 0.298313570022583,
      "memory(GiB)": 70.5,
      "step": 73640,
      "token_acc": 0.9182879377431906,
      "train_speed(iter/s)": 1.450647
    },
    {
      "epoch": 3.1551775845079475,
      "grad_norm": 2.2782464027404785,
      "learning_rate": 2.999343011227419e-05,
      "loss": 0.2942802906036377,
      "memory(GiB)": 70.5,
      "step": 73645,
      "token_acc": 0.9326241134751773,
      "train_speed(iter/s)": 1.450652
    },
    {
      "epoch": 3.1553917998371963,
      "grad_norm": 4.16910457611084,
      "learning_rate": 2.9987262740638178e-05,
      "loss": 0.4765586853027344,
      "memory(GiB)": 70.5,
      "step": 73650,
      "token_acc": 0.8996763754045307,
      "train_speed(iter/s)": 1.450654
    },
    {
      "epoch": 3.155606015166445,
      "grad_norm": 5.790886402130127,
      "learning_rate": 2.9981095731551666e-05,
      "loss": 0.38767714500427247,
      "memory(GiB)": 70.5,
      "step": 73655,
      "token_acc": 0.9135338345864662,
      "train_speed(iter/s)": 1.450662
    },
    {
      "epoch": 3.1558202304956944,
      "grad_norm": 2.3426201343536377,
      "learning_rate": 2.99749290851264e-05,
      "loss": 0.13232579231262206,
      "memory(GiB)": 70.5,
      "step": 73660,
      "token_acc": 0.9714285714285714,
      "train_speed(iter/s)": 1.450667
    },
    {
      "epoch": 3.156034445824943,
      "grad_norm": 0.3715740442276001,
      "learning_rate": 2.9968762801474087e-05,
      "loss": 0.5381460189819336,
      "memory(GiB)": 70.5,
      "step": 73665,
      "token_acc": 0.9007936507936508,
      "train_speed(iter/s)": 1.450672
    },
    {
      "epoch": 3.156248661154192,
      "grad_norm": 3.868090867996216,
      "learning_rate": 2.9962596880706413e-05,
      "loss": 0.3056839942932129,
      "memory(GiB)": 70.5,
      "step": 73670,
      "token_acc": 0.9335664335664335,
      "train_speed(iter/s)": 1.450673
    },
    {
      "epoch": 3.1564628764834413,
      "grad_norm": 3.8264167308807373,
      "learning_rate": 2.9956431322935104e-05,
      "loss": 0.22808594703674318,
      "memory(GiB)": 70.5,
      "step": 73675,
      "token_acc": 0.9305019305019305,
      "train_speed(iter/s)": 1.450674
    },
    {
      "epoch": 3.15667709181269,
      "grad_norm": 2.234189033508301,
      "learning_rate": 2.995026612827183e-05,
      "loss": 0.1961223602294922,
      "memory(GiB)": 70.5,
      "step": 73680,
      "token_acc": 0.9526813880126183,
      "train_speed(iter/s)": 1.450675
    },
    {
      "epoch": 3.156891307141939,
      "grad_norm": 1.657736897468567,
      "learning_rate": 2.994410129682831e-05,
      "loss": 0.5483423709869385,
      "memory(GiB)": 70.5,
      "step": 73685,
      "token_acc": 0.8801261829652997,
      "train_speed(iter/s)": 1.450672
    },
    {
      "epoch": 3.157105522471188,
      "grad_norm": 2.3023436069488525,
      "learning_rate": 2.99379368287162e-05,
      "loss": 0.3473632335662842,
      "memory(GiB)": 70.5,
      "step": 73690,
      "token_acc": 0.9035369774919614,
      "train_speed(iter/s)": 1.450673
    },
    {
      "epoch": 3.157319737800437,
      "grad_norm": 3.177722930908203,
      "learning_rate": 2.993177272404718e-05,
      "loss": 0.43468713760375977,
      "memory(GiB)": 70.5,
      "step": 73695,
      "token_acc": 0.8942307692307693,
      "train_speed(iter/s)": 1.450671
    },
    {
      "epoch": 3.1575339531296858,
      "grad_norm": 1.720363974571228,
      "learning_rate": 2.9925608982932928e-05,
      "loss": 0.23571810722351075,
      "memory(GiB)": 70.5,
      "step": 73700,
      "token_acc": 0.9494949494949495,
      "train_speed(iter/s)": 1.450675
    },
    {
      "epoch": 3.157748168458935,
      "grad_norm": 0.7730898857116699,
      "learning_rate": 2.9919445605485107e-05,
      "loss": 0.38688862323760986,
      "memory(GiB)": 70.5,
      "step": 73705,
      "token_acc": 0.9114754098360656,
      "train_speed(iter/s)": 1.45068
    },
    {
      "epoch": 3.157962383788184,
      "grad_norm": 3.714487075805664,
      "learning_rate": 2.9913282591815352e-05,
      "loss": 0.4934700012207031,
      "memory(GiB)": 70.5,
      "step": 73710,
      "token_acc": 0.8908450704225352,
      "train_speed(iter/s)": 1.450683
    },
    {
      "epoch": 3.1581765991174326,
      "grad_norm": 2.575284719467163,
      "learning_rate": 2.9907119942035338e-05,
      "loss": 0.39403705596923827,
      "memory(GiB)": 70.5,
      "step": 73715,
      "token_acc": 0.9194139194139194,
      "train_speed(iter/s)": 1.450686
    },
    {
      "epoch": 3.158390814446682,
      "grad_norm": 4.576959609985352,
      "learning_rate": 2.9900957656256685e-05,
      "loss": 0.37491779327392577,
      "memory(GiB)": 70.5,
      "step": 73720,
      "token_acc": 0.935374149659864,
      "train_speed(iter/s)": 1.450688
    },
    {
      "epoch": 3.1586050297759307,
      "grad_norm": 3.091804027557373,
      "learning_rate": 2.989479573459104e-05,
      "loss": 0.345388126373291,
      "memory(GiB)": 70.5,
      "step": 73725,
      "token_acc": 0.9166666666666666,
      "train_speed(iter/s)": 1.450694
    },
    {
      "epoch": 3.1588192451051795,
      "grad_norm": 3.810310125350952,
      "learning_rate": 2.9888634177150022e-05,
      "loss": 0.22818927764892577,
      "memory(GiB)": 70.5,
      "step": 73730,
      "token_acc": 0.9406528189910979,
      "train_speed(iter/s)": 1.450702
    },
    {
      "epoch": 3.159033460434429,
      "grad_norm": 1.4884207248687744,
      "learning_rate": 2.9882472984045277e-05,
      "loss": 0.5151957511901856,
      "memory(GiB)": 70.5,
      "step": 73735,
      "token_acc": 0.9123376623376623,
      "train_speed(iter/s)": 1.45071
    },
    {
      "epoch": 3.1592476757636776,
      "grad_norm": 3.1570260524749756,
      "learning_rate": 2.9876312155388398e-05,
      "loss": 0.4389228343963623,
      "memory(GiB)": 70.5,
      "step": 73740,
      "token_acc": 0.9137931034482759,
      "train_speed(iter/s)": 1.450715
    },
    {
      "epoch": 3.1594618910929264,
      "grad_norm": 0.21663159132003784,
      "learning_rate": 2.987015169129101e-05,
      "loss": 0.3273011207580566,
      "memory(GiB)": 70.5,
      "step": 73745,
      "token_acc": 0.9244186046511628,
      "train_speed(iter/s)": 1.450728
    },
    {
      "epoch": 3.1596761064221757,
      "grad_norm": 3.24324369430542,
      "learning_rate": 2.9863991591864705e-05,
      "loss": 0.6081544399261475,
      "memory(GiB)": 70.5,
      "step": 73750,
      "token_acc": 0.8798701298701299,
      "train_speed(iter/s)": 1.450732
    },
    {
      "epoch": 3.1598903217514245,
      "grad_norm": 5.1927409172058105,
      "learning_rate": 2.9857831857221075e-05,
      "loss": 0.22200479507446289,
      "memory(GiB)": 70.5,
      "step": 73755,
      "token_acc": 0.9446494464944649,
      "train_speed(iter/s)": 1.45073
    },
    {
      "epoch": 3.1601045370806733,
      "grad_norm": 3.4131007194519043,
      "learning_rate": 2.9851672487471728e-05,
      "loss": 0.437656831741333,
      "memory(GiB)": 70.5,
      "step": 73760,
      "token_acc": 0.912,
      "train_speed(iter/s)": 1.450736
    },
    {
      "epoch": 3.1603187524099225,
      "grad_norm": 1.745124101638794,
      "learning_rate": 2.9845513482728217e-05,
      "loss": 0.39933362007141116,
      "memory(GiB)": 70.5,
      "step": 73765,
      "token_acc": 0.9131832797427653,
      "train_speed(iter/s)": 1.45074
    },
    {
      "epoch": 3.1605329677391714,
      "grad_norm": 0.37855005264282227,
      "learning_rate": 2.983935484310215e-05,
      "loss": 0.07022379636764527,
      "memory(GiB)": 70.5,
      "step": 73770,
      "token_acc": 0.983739837398374,
      "train_speed(iter/s)": 1.450741
    },
    {
      "epoch": 3.16074718306842,
      "grad_norm": 4.82307767868042,
      "learning_rate": 2.983319656870508e-05,
      "loss": 0.3043058395385742,
      "memory(GiB)": 70.5,
      "step": 73775,
      "token_acc": 0.9275862068965517,
      "train_speed(iter/s)": 1.450744
    },
    {
      "epoch": 3.1609613983976694,
      "grad_norm": 4.199720859527588,
      "learning_rate": 2.9827038659648566e-05,
      "loss": 0.3113786458969116,
      "memory(GiB)": 70.5,
      "step": 73780,
      "token_acc": 0.9362416107382551,
      "train_speed(iter/s)": 1.450748
    },
    {
      "epoch": 3.1611756137269182,
      "grad_norm": 3.9056410789489746,
      "learning_rate": 2.982088111604418e-05,
      "loss": 0.5143939971923828,
      "memory(GiB)": 70.5,
      "step": 73785,
      "token_acc": 0.8986013986013986,
      "train_speed(iter/s)": 1.450751
    },
    {
      "epoch": 3.161389829056167,
      "grad_norm": 3.0293538570404053,
      "learning_rate": 2.9814723938003463e-05,
      "loss": 0.30783026218414306,
      "memory(GiB)": 70.5,
      "step": 73790,
      "token_acc": 0.935064935064935,
      "train_speed(iter/s)": 1.450764
    },
    {
      "epoch": 3.1616040443854163,
      "grad_norm": 2.8279664516448975,
      "learning_rate": 2.980856712563794e-05,
      "loss": 0.3129492521286011,
      "memory(GiB)": 70.5,
      "step": 73795,
      "token_acc": 0.930327868852459,
      "train_speed(iter/s)": 1.450781
    },
    {
      "epoch": 3.161818259714665,
      "grad_norm": 2.4701969623565674,
      "learning_rate": 2.9802410679059163e-05,
      "loss": 0.5710129261016845,
      "memory(GiB)": 70.5,
      "step": 73800,
      "token_acc": 0.8944281524926686,
      "train_speed(iter/s)": 1.450785
    },
    {
      "epoch": 3.162032475043914,
      "grad_norm": 6.4426774978637695,
      "learning_rate": 2.9796254598378683e-05,
      "loss": 0.4479838371276855,
      "memory(GiB)": 70.5,
      "step": 73805,
      "token_acc": 0.916955017301038,
      "train_speed(iter/s)": 1.450784
    },
    {
      "epoch": 3.162246690373163,
      "grad_norm": 3.375001907348633,
      "learning_rate": 2.9790098883707996e-05,
      "loss": 0.45462684631347655,
      "memory(GiB)": 70.5,
      "step": 73810,
      "token_acc": 0.8604651162790697,
      "train_speed(iter/s)": 1.450784
    },
    {
      "epoch": 3.162460905702412,
      "grad_norm": 2.8101425170898438,
      "learning_rate": 2.978394353515862e-05,
      "loss": 0.16532402038574218,
      "memory(GiB)": 70.5,
      "step": 73815,
      "token_acc": 0.9435483870967742,
      "train_speed(iter/s)": 1.45079
    },
    {
      "epoch": 3.162675121031661,
      "grad_norm": 3.363626718521118,
      "learning_rate": 2.977778855284208e-05,
      "loss": 0.3641984462738037,
      "memory(GiB)": 70.5,
      "step": 73820,
      "token_acc": 0.9230769230769231,
      "train_speed(iter/s)": 1.450799
    },
    {
      "epoch": 3.16288933636091,
      "grad_norm": 2.8561513423919678,
      "learning_rate": 2.9771633936869863e-05,
      "loss": 0.2787427186965942,
      "memory(GiB)": 70.5,
      "step": 73825,
      "token_acc": 0.9377289377289377,
      "train_speed(iter/s)": 1.450814
    },
    {
      "epoch": 3.163103551690159,
      "grad_norm": 2.7178382873535156,
      "learning_rate": 2.976547968735348e-05,
      "loss": 0.09896411895751953,
      "memory(GiB)": 70.5,
      "step": 73830,
      "token_acc": 0.9750889679715302,
      "train_speed(iter/s)": 1.450821
    },
    {
      "epoch": 3.163317767019408,
      "grad_norm": 0.36398953199386597,
      "learning_rate": 2.9759325804404418e-05,
      "loss": 0.2761090755462646,
      "memory(GiB)": 70.5,
      "step": 73835,
      "token_acc": 0.9402985074626866,
      "train_speed(iter/s)": 1.450819
    },
    {
      "epoch": 3.163531982348657,
      "grad_norm": 2.685086488723755,
      "learning_rate": 2.9753172288134146e-05,
      "loss": 0.2926935195922852,
      "memory(GiB)": 70.5,
      "step": 73840,
      "token_acc": 0.9354838709677419,
      "train_speed(iter/s)": 1.450834
    },
    {
      "epoch": 3.1637461976779058,
      "grad_norm": 2.706902265548706,
      "learning_rate": 2.9747019138654157e-05,
      "loss": 0.5007126331329346,
      "memory(GiB)": 70.5,
      "step": 73845,
      "token_acc": 0.8895522388059701,
      "train_speed(iter/s)": 1.450838
    },
    {
      "epoch": 3.163960413007155,
      "grad_norm": 5.32720422744751,
      "learning_rate": 2.974086635607592e-05,
      "loss": 0.42036027908325196,
      "memory(GiB)": 70.5,
      "step": 73850,
      "token_acc": 0.9104477611940298,
      "train_speed(iter/s)": 1.450847
    },
    {
      "epoch": 3.164174628336404,
      "grad_norm": 2.1561789512634277,
      "learning_rate": 2.9734713940510884e-05,
      "loss": 0.2865294456481934,
      "memory(GiB)": 70.5,
      "step": 73855,
      "token_acc": 0.9382716049382716,
      "train_speed(iter/s)": 1.450852
    },
    {
      "epoch": 3.1643888436656527,
      "grad_norm": 2.730875015258789,
      "learning_rate": 2.9728561892070518e-05,
      "loss": 0.44747328758239746,
      "memory(GiB)": 70.5,
      "step": 73860,
      "token_acc": 0.9055374592833876,
      "train_speed(iter/s)": 1.450865
    },
    {
      "epoch": 3.164603058994902,
      "grad_norm": 1.7887673377990723,
      "learning_rate": 2.972241021086627e-05,
      "loss": 0.20036771297454833,
      "memory(GiB)": 70.5,
      "step": 73865,
      "token_acc": 0.9551724137931035,
      "train_speed(iter/s)": 1.450879
    },
    {
      "epoch": 3.1648172743241507,
      "grad_norm": 4.0305609703063965,
      "learning_rate": 2.9716258897009586e-05,
      "loss": 0.3108454704284668,
      "memory(GiB)": 70.5,
      "step": 73870,
      "token_acc": 0.9452887537993921,
      "train_speed(iter/s)": 1.450887
    },
    {
      "epoch": 3.1650314896533995,
      "grad_norm": 3.4208807945251465,
      "learning_rate": 2.9710107950611878e-05,
      "loss": 0.2152768611907959,
      "memory(GiB)": 70.5,
      "step": 73875,
      "token_acc": 0.9619377162629758,
      "train_speed(iter/s)": 1.450889
    },
    {
      "epoch": 3.165245704982649,
      "grad_norm": 4.154252529144287,
      "learning_rate": 2.970395737178462e-05,
      "loss": 0.5478622913360596,
      "memory(GiB)": 70.5,
      "step": 73880,
      "token_acc": 0.8767605633802817,
      "train_speed(iter/s)": 1.450893
    },
    {
      "epoch": 3.1654599203118976,
      "grad_norm": 1.9658557176589966,
      "learning_rate": 2.96978071606392e-05,
      "loss": 0.21710073947906494,
      "memory(GiB)": 70.5,
      "step": 73885,
      "token_acc": 0.9678362573099415,
      "train_speed(iter/s)": 1.450893
    },
    {
      "epoch": 3.1656741356411464,
      "grad_norm": 3.892930030822754,
      "learning_rate": 2.9691657317287068e-05,
      "loss": 0.26632041931152345,
      "memory(GiB)": 70.5,
      "step": 73890,
      "token_acc": 0.9321428571428572,
      "train_speed(iter/s)": 1.450894
    },
    {
      "epoch": 3.1658883509703957,
      "grad_norm": 2.456718921661377,
      "learning_rate": 2.968550784183961e-05,
      "loss": 0.2304760217666626,
      "memory(GiB)": 70.5,
      "step": 73895,
      "token_acc": 0.9603174603174603,
      "train_speed(iter/s)": 1.450898
    },
    {
      "epoch": 3.1661025662996445,
      "grad_norm": 2.8494770526885986,
      "learning_rate": 2.967935873440822e-05,
      "loss": 0.3206746816635132,
      "memory(GiB)": 70.5,
      "step": 73900,
      "token_acc": 0.9219858156028369,
      "train_speed(iter/s)": 1.4509
    },
    {
      "epoch": 3.1663167816288933,
      "grad_norm": 2.1755025386810303,
      "learning_rate": 2.9673209995104322e-05,
      "loss": 0.297525691986084,
      "memory(GiB)": 70.5,
      "step": 73905,
      "token_acc": 0.92,
      "train_speed(iter/s)": 1.450901
    },
    {
      "epoch": 3.1665309969581426,
      "grad_norm": 1.727205753326416,
      "learning_rate": 2.9667061624039282e-05,
      "loss": 0.36710872650146487,
      "memory(GiB)": 70.5,
      "step": 73910,
      "token_acc": 0.9188311688311688,
      "train_speed(iter/s)": 1.450905
    },
    {
      "epoch": 3.1667452122873914,
      "grad_norm": 4.356240749359131,
      "learning_rate": 2.9660913621324503e-05,
      "loss": 0.38805341720581055,
      "memory(GiB)": 70.5,
      "step": 73915,
      "token_acc": 0.9090909090909091,
      "train_speed(iter/s)": 1.450918
    },
    {
      "epoch": 3.16695942761664,
      "grad_norm": 2.4198412895202637,
      "learning_rate": 2.965476598707136e-05,
      "loss": 0.276625657081604,
      "memory(GiB)": 70.5,
      "step": 73920,
      "token_acc": 0.9311594202898551,
      "train_speed(iter/s)": 1.450916
    },
    {
      "epoch": 3.1671736429458894,
      "grad_norm": 5.161329746246338,
      "learning_rate": 2.9648618721391197e-05,
      "loss": 0.6913477897644043,
      "memory(GiB)": 70.5,
      "step": 73925,
      "token_acc": 0.8274647887323944,
      "train_speed(iter/s)": 1.450939
    },
    {
      "epoch": 3.1673878582751382,
      "grad_norm": 5.139573574066162,
      "learning_rate": 2.9642471824395413e-05,
      "loss": 0.12344775199890137,
      "memory(GiB)": 70.5,
      "step": 73930,
      "token_acc": 0.9690265486725663,
      "train_speed(iter/s)": 1.450942
    },
    {
      "epoch": 3.167602073604387,
      "grad_norm": 2.9933383464813232,
      "learning_rate": 2.963632529619535e-05,
      "loss": 0.27944011688232423,
      "memory(GiB)": 70.5,
      "step": 73935,
      "token_acc": 0.9361022364217252,
      "train_speed(iter/s)": 1.450942
    },
    {
      "epoch": 3.1678162889336363,
      "grad_norm": 2.698333978652954,
      "learning_rate": 2.9630179136902346e-05,
      "loss": 0.3282012462615967,
      "memory(GiB)": 70.5,
      "step": 73940,
      "token_acc": 0.9283018867924528,
      "train_speed(iter/s)": 1.45096
    },
    {
      "epoch": 3.168030504262885,
      "grad_norm": 2.232055187225342,
      "learning_rate": 2.9624033346627766e-05,
      "loss": 0.2640849113464355,
      "memory(GiB)": 70.5,
      "step": 73945,
      "token_acc": 0.9435215946843853,
      "train_speed(iter/s)": 1.450964
    },
    {
      "epoch": 3.168244719592134,
      "grad_norm": 3.09303617477417,
      "learning_rate": 2.9617887925482914e-05,
      "loss": 0.620563268661499,
      "memory(GiB)": 70.5,
      "step": 73950,
      "token_acc": 0.8481848184818482,
      "train_speed(iter/s)": 1.45096
    },
    {
      "epoch": 3.168458934921383,
      "grad_norm": 5.422499656677246,
      "learning_rate": 2.961174287357916e-05,
      "loss": 0.4584686756134033,
      "memory(GiB)": 70.5,
      "step": 73955,
      "token_acc": 0.9247311827956989,
      "train_speed(iter/s)": 1.450961
    },
    {
      "epoch": 3.168673150250632,
      "grad_norm": 1.876177430152893,
      "learning_rate": 2.9605598191027805e-05,
      "loss": 0.28288955688476564,
      "memory(GiB)": 70.5,
      "step": 73960,
      "token_acc": 0.9446494464944649,
      "train_speed(iter/s)": 1.450967
    },
    {
      "epoch": 3.168887365579881,
      "grad_norm": 1.9717637300491333,
      "learning_rate": 2.9599453877940175e-05,
      "loss": 0.21593430042266845,
      "memory(GiB)": 70.5,
      "step": 73965,
      "token_acc": 0.9538461538461539,
      "train_speed(iter/s)": 1.450963
    },
    {
      "epoch": 3.16910158090913,
      "grad_norm": 4.760017395019531,
      "learning_rate": 2.9593309934427565e-05,
      "loss": 0.232094407081604,
      "memory(GiB)": 70.5,
      "step": 73970,
      "token_acc": 0.9482758620689655,
      "train_speed(iter/s)": 1.450968
    },
    {
      "epoch": 3.169315796238379,
      "grad_norm": 4.222288131713867,
      "learning_rate": 2.9587166360601303e-05,
      "loss": 0.4077012062072754,
      "memory(GiB)": 70.5,
      "step": 73975,
      "token_acc": 0.916058394160584,
      "train_speed(iter/s)": 1.450984
    },
    {
      "epoch": 3.1695300115676277,
      "grad_norm": 1.7237732410430908,
      "learning_rate": 2.9581023156572668e-05,
      "loss": 0.22245285511016846,
      "memory(GiB)": 70.5,
      "step": 73980,
      "token_acc": 0.9436619718309859,
      "train_speed(iter/s)": 1.450991
    },
    {
      "epoch": 3.169744226896877,
      "grad_norm": 2.502964735031128,
      "learning_rate": 2.9574880322452947e-05,
      "loss": 0.4351677417755127,
      "memory(GiB)": 70.5,
      "step": 73985,
      "token_acc": 0.9141914191419142,
      "train_speed(iter/s)": 1.450994
    },
    {
      "epoch": 3.1699584422261258,
      "grad_norm": 2.2134838104248047,
      "learning_rate": 2.9568737858353436e-05,
      "loss": 0.15552339553833008,
      "memory(GiB)": 70.5,
      "step": 73990,
      "token_acc": 0.9563758389261745,
      "train_speed(iter/s)": 1.450992
    },
    {
      "epoch": 3.1701726575553746,
      "grad_norm": 15.443849563598633,
      "learning_rate": 2.9562595764385405e-05,
      "loss": 0.22272725105285646,
      "memory(GiB)": 70.5,
      "step": 73995,
      "token_acc": 0.9568627450980393,
      "train_speed(iter/s)": 1.450997
    },
    {
      "epoch": 3.170386872884624,
      "grad_norm": 5.000420570373535,
      "learning_rate": 2.9556454040660114e-05,
      "loss": 0.24307940006256104,
      "memory(GiB)": 70.5,
      "step": 74000,
      "token_acc": 0.9511400651465798,
      "train_speed(iter/s)": 1.450998
    },
    {
      "epoch": 3.170386872884624,
      "eval_loss": 2.4051995277404785,
      "eval_runtime": 11.8145,
      "eval_samples_per_second": 8.464,
      "eval_steps_per_second": 8.464,
      "eval_token_acc": 0.4448441247002398,
      "step": 74000
    },
    {
      "epoch": 3.1706010882138727,
      "grad_norm": 4.298523902893066,
      "learning_rate": 2.9550312687288846e-05,
      "loss": 0.45514378547668455,
      "memory(GiB)": 70.5,
      "step": 74005,
      "token_acc": 0.5646743978590544,
      "train_speed(iter/s)": 1.450631
    },
    {
      "epoch": 3.1708153035431215,
      "grad_norm": 1.9985061883926392,
      "learning_rate": 2.954417170438284e-05,
      "loss": 0.17940104007720947,
      "memory(GiB)": 70.5,
      "step": 74010,
      "token_acc": 0.9653846153846154,
      "train_speed(iter/s)": 1.450634
    },
    {
      "epoch": 3.1710295188723707,
      "grad_norm": 2.6135401725769043,
      "learning_rate": 2.9538031092053354e-05,
      "loss": 0.21646199226379395,
      "memory(GiB)": 70.5,
      "step": 74015,
      "token_acc": 0.9566666666666667,
      "train_speed(iter/s)": 1.450636
    },
    {
      "epoch": 3.1712437342016195,
      "grad_norm": 4.022128582000732,
      "learning_rate": 2.9531890850411637e-05,
      "loss": 0.37653532028198244,
      "memory(GiB)": 70.5,
      "step": 74020,
      "token_acc": 0.9107806691449815,
      "train_speed(iter/s)": 1.450657
    },
    {
      "epoch": 3.1714579495308683,
      "grad_norm": 0.4954313039779663,
      "learning_rate": 2.9525750979568895e-05,
      "loss": 0.25681371688842775,
      "memory(GiB)": 70.5,
      "step": 74025,
      "token_acc": 0.9462809917355371,
      "train_speed(iter/s)": 1.450658
    },
    {
      "epoch": 3.1716721648601176,
      "grad_norm": 1.3919023275375366,
      "learning_rate": 2.951961147963639e-05,
      "loss": 0.28982067108154297,
      "memory(GiB)": 70.5,
      "step": 74030,
      "token_acc": 0.9022082018927445,
      "train_speed(iter/s)": 1.450661
    },
    {
      "epoch": 3.1718863801893664,
      "grad_norm": 3.784055471420288,
      "learning_rate": 2.9513472350725347e-05,
      "loss": 0.4577195167541504,
      "memory(GiB)": 70.5,
      "step": 74035,
      "token_acc": 0.9137254901960784,
      "train_speed(iter/s)": 1.450665
    },
    {
      "epoch": 3.1721005955186152,
      "grad_norm": 2.6568596363067627,
      "learning_rate": 2.9507333592946975e-05,
      "loss": 0.17545132637023925,
      "memory(GiB)": 70.5,
      "step": 74040,
      "token_acc": 0.9418181818181818,
      "train_speed(iter/s)": 1.450665
    },
    {
      "epoch": 3.1723148108478645,
      "grad_norm": 1.563262939453125,
      "learning_rate": 2.9501195206412457e-05,
      "loss": 0.2233975648880005,
      "memory(GiB)": 70.5,
      "step": 74045,
      "token_acc": 0.954954954954955,
      "train_speed(iter/s)": 1.450666
    },
    {
      "epoch": 3.1725290261771133,
      "grad_norm": 8.384830474853516,
      "learning_rate": 2.9495057191233033e-05,
      "loss": 0.38671844005584716,
      "memory(GiB)": 70.5,
      "step": 74050,
      "token_acc": 0.9325513196480938,
      "train_speed(iter/s)": 1.450666
    },
    {
      "epoch": 3.172743241506362,
      "grad_norm": 2.737292766571045,
      "learning_rate": 2.9488919547519878e-05,
      "loss": 0.15792441368103027,
      "memory(GiB)": 70.5,
      "step": 74055,
      "token_acc": 0.9541666666666667,
      "train_speed(iter/s)": 1.450669
    },
    {
      "epoch": 3.1729574568356114,
      "grad_norm": 3.4511430263519287,
      "learning_rate": 2.948278227538419e-05,
      "loss": 0.4553673267364502,
      "memory(GiB)": 70.5,
      "step": 74060,
      "token_acc": 0.9149659863945578,
      "train_speed(iter/s)": 1.450682
    },
    {
      "epoch": 3.17317167216486,
      "grad_norm": 1.4609752893447876,
      "learning_rate": 2.947664537493715e-05,
      "loss": 0.22149477005004883,
      "memory(GiB)": 70.5,
      "step": 74065,
      "token_acc": 0.9587628865979382,
      "train_speed(iter/s)": 1.450685
    },
    {
      "epoch": 3.173385887494109,
      "grad_norm": 3.3233325481414795,
      "learning_rate": 2.9470508846289924e-05,
      "loss": 0.3015456199645996,
      "memory(GiB)": 70.5,
      "step": 74070,
      "token_acc": 0.9391634980988594,
      "train_speed(iter/s)": 1.45069
    },
    {
      "epoch": 3.1736001028233582,
      "grad_norm": 4.396424770355225,
      "learning_rate": 2.9464372689553692e-05,
      "loss": 0.390878701210022,
      "memory(GiB)": 70.5,
      "step": 74075,
      "token_acc": 0.9151515151515152,
      "train_speed(iter/s)": 1.45069
    },
    {
      "epoch": 3.173814318152607,
      "grad_norm": 0.29145383834838867,
      "learning_rate": 2.945823690483962e-05,
      "loss": 0.44698362350463866,
      "memory(GiB)": 70.5,
      "step": 74080,
      "token_acc": 0.89375,
      "train_speed(iter/s)": 1.450691
    },
    {
      "epoch": 3.174028533481856,
      "grad_norm": 2.183135986328125,
      "learning_rate": 2.9452101492258843e-05,
      "loss": 0.46283206939697263,
      "memory(GiB)": 70.5,
      "step": 74085,
      "token_acc": 0.8985507246376812,
      "train_speed(iter/s)": 1.450695
    },
    {
      "epoch": 3.174242748811105,
      "grad_norm": 2.0563695430755615,
      "learning_rate": 2.9445966451922536e-05,
      "loss": 0.2753352880477905,
      "memory(GiB)": 70.5,
      "step": 74090,
      "token_acc": 0.9379562043795621,
      "train_speed(iter/s)": 1.450699
    },
    {
      "epoch": 3.174456964140354,
      "grad_norm": 0.1136130839586258,
      "learning_rate": 2.9439831783941807e-05,
      "loss": 0.12681785821914673,
      "memory(GiB)": 70.5,
      "step": 74095,
      "token_acc": 0.9671052631578947,
      "train_speed(iter/s)": 1.45071
    },
    {
      "epoch": 3.1746711794696028,
      "grad_norm": 4.588412761688232,
      "learning_rate": 2.9433697488427825e-05,
      "loss": 0.23513879776000976,
      "memory(GiB)": 70.5,
      "step": 74100,
      "token_acc": 0.9457627118644067,
      "train_speed(iter/s)": 1.450728
    },
    {
      "epoch": 3.174885394798852,
      "grad_norm": 4.253533363342285,
      "learning_rate": 2.94275635654917e-05,
      "loss": 0.2777801513671875,
      "memory(GiB)": 70.5,
      "step": 74105,
      "token_acc": 0.9195402298850575,
      "train_speed(iter/s)": 1.450725
    },
    {
      "epoch": 3.175099610128101,
      "grad_norm": 3.5397145748138428,
      "learning_rate": 2.9421430015244565e-05,
      "loss": 0.2956386089324951,
      "memory(GiB)": 70.5,
      "step": 74110,
      "token_acc": 0.9444444444444444,
      "train_speed(iter/s)": 1.45073
    },
    {
      "epoch": 3.1753138254573496,
      "grad_norm": 4.455765247344971,
      "learning_rate": 2.941529683779753e-05,
      "loss": 0.14858289957046508,
      "memory(GiB)": 70.5,
      "step": 74115,
      "token_acc": 0.9635258358662614,
      "train_speed(iter/s)": 1.450726
    },
    {
      "epoch": 3.175528040786599,
      "grad_norm": 0.6761698126792908,
      "learning_rate": 2.9409164033261704e-05,
      "loss": 0.4678169250488281,
      "memory(GiB)": 70.5,
      "step": 74120,
      "token_acc": 0.8952380952380953,
      "train_speed(iter/s)": 1.450725
    },
    {
      "epoch": 3.1757422561158477,
      "grad_norm": 1.9660050868988037,
      "learning_rate": 2.9403031601748192e-05,
      "loss": 0.6424643993377686,
      "memory(GiB)": 70.5,
      "step": 74125,
      "token_acc": 0.8816793893129771,
      "train_speed(iter/s)": 1.450727
    },
    {
      "epoch": 3.1759564714450965,
      "grad_norm": 2.754026412963867,
      "learning_rate": 2.939689954336807e-05,
      "loss": 0.6753204822540283,
      "memory(GiB)": 70.5,
      "step": 74130,
      "token_acc": 0.878698224852071,
      "train_speed(iter/s)": 1.450728
    },
    {
      "epoch": 3.1761706867743458,
      "grad_norm": 6.175771236419678,
      "learning_rate": 2.939076785823246e-05,
      "loss": 0.7241111278533936,
      "memory(GiB)": 70.5,
      "step": 74135,
      "token_acc": 0.8534201954397395,
      "train_speed(iter/s)": 1.450735
    },
    {
      "epoch": 3.1763849021035946,
      "grad_norm": 4.878801345825195,
      "learning_rate": 2.9384636546452415e-05,
      "loss": 0.71885085105896,
      "memory(GiB)": 70.5,
      "step": 74140,
      "token_acc": 0.8553459119496856,
      "train_speed(iter/s)": 1.450737
    },
    {
      "epoch": 3.1765991174328434,
      "grad_norm": 5.781327724456787,
      "learning_rate": 2.9378505608139007e-05,
      "loss": 0.5100934028625488,
      "memory(GiB)": 70.5,
      "step": 74145,
      "token_acc": 0.8769230769230769,
      "train_speed(iter/s)": 1.450733
    },
    {
      "epoch": 3.1768133327620927,
      "grad_norm": 1.7705647945404053,
      "learning_rate": 2.937237504340333e-05,
      "loss": 0.29520742893218993,
      "memory(GiB)": 70.5,
      "step": 74150,
      "token_acc": 0.9390681003584229,
      "train_speed(iter/s)": 1.450749
    },
    {
      "epoch": 3.1770275480913415,
      "grad_norm": 3.483248233795166,
      "learning_rate": 2.9366244852356418e-05,
      "loss": 0.5521910190582275,
      "memory(GiB)": 70.5,
      "step": 74155,
      "token_acc": 0.8742138364779874,
      "train_speed(iter/s)": 1.450757
    },
    {
      "epoch": 3.1772417634205903,
      "grad_norm": 2.962245464324951,
      "learning_rate": 2.9360115035109337e-05,
      "loss": 0.246460223197937,
      "memory(GiB)": 70.5,
      "step": 74160,
      "token_acc": 0.9464285714285714,
      "train_speed(iter/s)": 1.450777
    },
    {
      "epoch": 3.1774559787498395,
      "grad_norm": 3.4776883125305176,
      "learning_rate": 2.9353985591773148e-05,
      "loss": 0.38447568416595457,
      "memory(GiB)": 70.5,
      "step": 74165,
      "token_acc": 0.9090909090909091,
      "train_speed(iter/s)": 1.450779
    },
    {
      "epoch": 3.1776701940790884,
      "grad_norm": 4.373709678649902,
      "learning_rate": 2.934785652245885e-05,
      "loss": 0.40436697006225586,
      "memory(GiB)": 70.5,
      "step": 74170,
      "token_acc": 0.9075907590759076,
      "train_speed(iter/s)": 1.450784
    },
    {
      "epoch": 3.177884409408337,
      "grad_norm": 2.3353054523468018,
      "learning_rate": 2.934172782727751e-05,
      "loss": 0.4174190521240234,
      "memory(GiB)": 70.5,
      "step": 74175,
      "token_acc": 0.8961038961038961,
      "train_speed(iter/s)": 1.450789
    },
    {
      "epoch": 3.1780986247375864,
      "grad_norm": 3.249697208404541,
      "learning_rate": 2.9335599506340166e-05,
      "loss": 0.3121920585632324,
      "memory(GiB)": 70.5,
      "step": 74180,
      "token_acc": 0.9463087248322147,
      "train_speed(iter/s)": 1.450792
    },
    {
      "epoch": 3.1783128400668352,
      "grad_norm": 1.5569493770599365,
      "learning_rate": 2.9329471559757822e-05,
      "loss": 0.2546222686767578,
      "memory(GiB)": 70.5,
      "step": 74185,
      "token_acc": 0.95,
      "train_speed(iter/s)": 1.450796
    },
    {
      "epoch": 3.178527055396084,
      "grad_norm": 2.095327138900757,
      "learning_rate": 2.932334398764148e-05,
      "loss": 0.20984148979187012,
      "memory(GiB)": 70.5,
      "step": 74190,
      "token_acc": 0.9536423841059603,
      "train_speed(iter/s)": 1.45081
    },
    {
      "epoch": 3.1787412707253333,
      "grad_norm": 3.536846876144409,
      "learning_rate": 2.9317216790102164e-05,
      "loss": 0.17366336584091185,
      "memory(GiB)": 70.5,
      "step": 74195,
      "token_acc": 0.9622093023255814,
      "train_speed(iter/s)": 1.450815
    },
    {
      "epoch": 3.178955486054582,
      "grad_norm": 0.49624982476234436,
      "learning_rate": 2.931108996725086e-05,
      "loss": 0.29935531616210936,
      "memory(GiB)": 70.5,
      "step": 74200,
      "token_acc": 0.9444444444444444,
      "train_speed(iter/s)": 1.450815
    },
    {
      "epoch": 3.179169701383831,
      "grad_norm": 5.480079650878906,
      "learning_rate": 2.930496351919858e-05,
      "loss": 0.34906535148620604,
      "memory(GiB)": 70.5,
      "step": 74205,
      "token_acc": 0.8930817610062893,
      "train_speed(iter/s)": 1.450821
    },
    {
      "epoch": 3.17938391671308,
      "grad_norm": 3.1332273483276367,
      "learning_rate": 2.9298837446056304e-05,
      "loss": 0.3838343143463135,
      "memory(GiB)": 70.5,
      "step": 74210,
      "token_acc": 0.9236111111111112,
      "train_speed(iter/s)": 1.450832
    },
    {
      "epoch": 3.179598132042329,
      "grad_norm": 1.9202078580856323,
      "learning_rate": 2.9292711747934993e-05,
      "loss": 0.29856505393981936,
      "memory(GiB)": 70.5,
      "step": 74215,
      "token_acc": 0.9425981873111783,
      "train_speed(iter/s)": 1.450842
    },
    {
      "epoch": 3.179812347371578,
      "grad_norm": 2.0958921909332275,
      "learning_rate": 2.928658642494564e-05,
      "loss": 0.24149980545043945,
      "memory(GiB)": 70.5,
      "step": 74220,
      "token_acc": 0.95,
      "train_speed(iter/s)": 1.450847
    },
    {
      "epoch": 3.180026562700827,
      "grad_norm": 2.6942193508148193,
      "learning_rate": 2.9280461477199205e-05,
      "loss": 0.3512250900268555,
      "memory(GiB)": 70.5,
      "step": 74225,
      "token_acc": 0.9285714285714286,
      "train_speed(iter/s)": 1.450853
    },
    {
      "epoch": 3.180240778030076,
      "grad_norm": 4.783834457397461,
      "learning_rate": 2.9274336904806642e-05,
      "loss": 0.3673590660095215,
      "memory(GiB)": 70.5,
      "step": 74230,
      "token_acc": 0.9319727891156463,
      "train_speed(iter/s)": 1.45087
    },
    {
      "epoch": 3.1804549933593247,
      "grad_norm": 3.4693288803100586,
      "learning_rate": 2.9268212707878917e-05,
      "loss": 0.3092702150344849,
      "memory(GiB)": 70.5,
      "step": 74235,
      "token_acc": 0.9388489208633094,
      "train_speed(iter/s)": 1.450871
    },
    {
      "epoch": 3.180669208688574,
      "grad_norm": 4.398706436157227,
      "learning_rate": 2.9262088886526962e-05,
      "loss": 0.46518712043762206,
      "memory(GiB)": 70.5,
      "step": 74240,
      "token_acc": 0.9003690036900369,
      "train_speed(iter/s)": 1.450875
    },
    {
      "epoch": 3.1808834240178228,
      "grad_norm": 3.777771234512329,
      "learning_rate": 2.925596544086171e-05,
      "loss": 0.20002622604370118,
      "memory(GiB)": 70.5,
      "step": 74245,
      "token_acc": 0.9504132231404959,
      "train_speed(iter/s)": 1.450874
    },
    {
      "epoch": 3.1810976393470716,
      "grad_norm": 5.894285202026367,
      "learning_rate": 2.9249842370994106e-05,
      "loss": 0.30640623569488523,
      "memory(GiB)": 70.5,
      "step": 74250,
      "token_acc": 0.9365671641791045,
      "train_speed(iter/s)": 1.450875
    },
    {
      "epoch": 3.181311854676321,
      "grad_norm": 3.4102110862731934,
      "learning_rate": 2.9243719677035086e-05,
      "loss": 0.43627128601074217,
      "memory(GiB)": 70.5,
      "step": 74255,
      "token_acc": 0.9111842105263158,
      "train_speed(iter/s)": 1.450876
    },
    {
      "epoch": 3.1815260700055696,
      "grad_norm": 2.4246256351470947,
      "learning_rate": 2.9237597359095547e-05,
      "loss": 0.20536515712738038,
      "memory(GiB)": 70.5,
      "step": 74260,
      "token_acc": 0.9573643410852714,
      "train_speed(iter/s)": 1.450893
    },
    {
      "epoch": 3.1817402853348185,
      "grad_norm": 5.295307159423828,
      "learning_rate": 2.9231475417286412e-05,
      "loss": 0.365095329284668,
      "memory(GiB)": 70.5,
      "step": 74265,
      "token_acc": 0.9094076655052264,
      "train_speed(iter/s)": 1.450911
    },
    {
      "epoch": 3.1819545006640677,
      "grad_norm": 2.4074020385742188,
      "learning_rate": 2.9225353851718586e-05,
      "loss": 0.36978898048400877,
      "memory(GiB)": 70.5,
      "step": 74270,
      "token_acc": 0.9217081850533808,
      "train_speed(iter/s)": 1.450923
    },
    {
      "epoch": 3.1821687159933165,
      "grad_norm": 4.467382907867432,
      "learning_rate": 2.9219232662502948e-05,
      "loss": 0.2133394241333008,
      "memory(GiB)": 70.5,
      "step": 74275,
      "token_acc": 0.953416149068323,
      "train_speed(iter/s)": 1.450926
    },
    {
      "epoch": 3.1823829313225653,
      "grad_norm": 3.612732410430908,
      "learning_rate": 2.9213111849750425e-05,
      "loss": 0.32138011455535886,
      "memory(GiB)": 70.5,
      "step": 74280,
      "token_acc": 0.9154411764705882,
      "train_speed(iter/s)": 1.450931
    },
    {
      "epoch": 3.1825971466518146,
      "grad_norm": 5.854883193969727,
      "learning_rate": 2.9206991413571872e-05,
      "loss": 0.6115692138671875,
      "memory(GiB)": 70.5,
      "step": 74285,
      "token_acc": 0.8640483383685801,
      "train_speed(iter/s)": 1.450945
    },
    {
      "epoch": 3.1828113619810634,
      "grad_norm": 2.1564717292785645,
      "learning_rate": 2.9200871354078167e-05,
      "loss": 0.28852708339691163,
      "memory(GiB)": 70.5,
      "step": 74290,
      "token_acc": 0.9459459459459459,
      "train_speed(iter/s)": 1.450947
    },
    {
      "epoch": 3.183025577310312,
      "grad_norm": 2.090170383453369,
      "learning_rate": 2.91947516713802e-05,
      "loss": 0.3860557317733765,
      "memory(GiB)": 70.5,
      "step": 74295,
      "token_acc": 0.9071428571428571,
      "train_speed(iter/s)": 1.45095
    },
    {
      "epoch": 3.1832397926395615,
      "grad_norm": 1.7657554149627686,
      "learning_rate": 2.918863236558882e-05,
      "loss": 0.22537581920623778,
      "memory(GiB)": 70.5,
      "step": 74300,
      "token_acc": 0.9542682926829268,
      "train_speed(iter/s)": 1.450954
    },
    {
      "epoch": 3.1834540079688103,
      "grad_norm": 3.2145636081695557,
      "learning_rate": 2.9182513436814897e-05,
      "loss": 0.25955705642700194,
      "memory(GiB)": 70.5,
      "step": 74305,
      "token_acc": 0.9427609427609428,
      "train_speed(iter/s)": 1.450959
    },
    {
      "epoch": 3.183668223298059,
      "grad_norm": 0.5910168290138245,
      "learning_rate": 2.9176394885169238e-05,
      "loss": 0.138176429271698,
      "memory(GiB)": 70.5,
      "step": 74310,
      "token_acc": 0.9647435897435898,
      "train_speed(iter/s)": 1.450968
    },
    {
      "epoch": 3.1838824386273084,
      "grad_norm": 1.1756232976913452,
      "learning_rate": 2.9170276710762746e-05,
      "loss": 0.1989973783493042,
      "memory(GiB)": 70.5,
      "step": 74315,
      "token_acc": 0.9640718562874252,
      "train_speed(iter/s)": 1.450969
    },
    {
      "epoch": 3.184096653956557,
      "grad_norm": 2.4997475147247314,
      "learning_rate": 2.9164158913706207e-05,
      "loss": 0.1652943253517151,
      "memory(GiB)": 70.5,
      "step": 74320,
      "token_acc": 0.964968152866242,
      "train_speed(iter/s)": 1.450972
    },
    {
      "epoch": 3.184310869285806,
      "grad_norm": 1.7179347276687622,
      "learning_rate": 2.91580414941105e-05,
      "loss": 0.354105281829834,
      "memory(GiB)": 70.5,
      "step": 74325,
      "token_acc": 0.9141104294478528,
      "train_speed(iter/s)": 1.450972
    },
    {
      "epoch": 3.1845250846150552,
      "grad_norm": 2.413621664047241,
      "learning_rate": 2.9151924452086428e-05,
      "loss": 0.331425142288208,
      "memory(GiB)": 70.5,
      "step": 74330,
      "token_acc": 0.9233449477351916,
      "train_speed(iter/s)": 1.450976
    },
    {
      "epoch": 3.184739299944304,
      "grad_norm": 5.260150909423828,
      "learning_rate": 2.9145807787744795e-05,
      "loss": 0.22783117294311522,
      "memory(GiB)": 70.5,
      "step": 74335,
      "token_acc": 0.941908713692946,
      "train_speed(iter/s)": 1.450973
    },
    {
      "epoch": 3.184953515273553,
      "grad_norm": 3.2386672496795654,
      "learning_rate": 2.91396915011964e-05,
      "loss": 0.3945464611053467,
      "memory(GiB)": 70.5,
      "step": 74340,
      "token_acc": 0.9016393442622951,
      "train_speed(iter/s)": 1.450971
    },
    {
      "epoch": 3.185167730602802,
      "grad_norm": 1.7354106903076172,
      "learning_rate": 2.9133575592552076e-05,
      "loss": 0.3688825607299805,
      "memory(GiB)": 70.5,
      "step": 74345,
      "token_acc": 0.9126760563380282,
      "train_speed(iter/s)": 1.450976
    },
    {
      "epoch": 3.185381945932051,
      "grad_norm": 0.6970155835151672,
      "learning_rate": 2.9127460061922607e-05,
      "loss": 0.4552006244659424,
      "memory(GiB)": 70.5,
      "step": 74350,
      "token_acc": 0.9195804195804196,
      "train_speed(iter/s)": 1.45098
    },
    {
      "epoch": 3.1855961612612997,
      "grad_norm": 4.4111104011535645,
      "learning_rate": 2.912134490941878e-05,
      "loss": 0.45589332580566405,
      "memory(GiB)": 70.5,
      "step": 74355,
      "token_acc": 0.9016949152542373,
      "train_speed(iter/s)": 1.450992
    },
    {
      "epoch": 3.185810376590549,
      "grad_norm": 5.689512252807617,
      "learning_rate": 2.911523013515137e-05,
      "loss": 0.3462419033050537,
      "memory(GiB)": 70.5,
      "step": 74360,
      "token_acc": 0.927797833935018,
      "train_speed(iter/s)": 1.451
    },
    {
      "epoch": 3.186024591919798,
      "grad_norm": 2.29459547996521,
      "learning_rate": 2.9109115739231145e-05,
      "loss": 0.2614685297012329,
      "memory(GiB)": 70.5,
      "step": 74365,
      "token_acc": 0.9425287356321839,
      "train_speed(iter/s)": 1.451007
    },
    {
      "epoch": 3.1862388072490466,
      "grad_norm": 2.2864596843719482,
      "learning_rate": 2.910300172176891e-05,
      "loss": 0.2590022563934326,
      "memory(GiB)": 70.5,
      "step": 74370,
      "token_acc": 0.956081081081081,
      "train_speed(iter/s)": 1.451017
    },
    {
      "epoch": 3.186453022578296,
      "grad_norm": 4.620111465454102,
      "learning_rate": 2.909688808287539e-05,
      "loss": 0.18715690374374389,
      "memory(GiB)": 70.5,
      "step": 74375,
      "token_acc": 0.9566787003610109,
      "train_speed(iter/s)": 1.451021
    },
    {
      "epoch": 3.1866672379075447,
      "grad_norm": 2.824869155883789,
      "learning_rate": 2.909077482266136e-05,
      "loss": 0.3120777130126953,
      "memory(GiB)": 70.5,
      "step": 74380,
      "token_acc": 0.9174311926605505,
      "train_speed(iter/s)": 1.451018
    },
    {
      "epoch": 3.1868814532367935,
      "grad_norm": 1.683587670326233,
      "learning_rate": 2.9084661941237552e-05,
      "loss": 0.5073543071746827,
      "memory(GiB)": 70.5,
      "step": 74385,
      "token_acc": 0.8766233766233766,
      "train_speed(iter/s)": 1.451021
    },
    {
      "epoch": 3.1870956685660428,
      "grad_norm": 2.4090986251831055,
      "learning_rate": 2.9078549438714715e-05,
      "loss": 0.4756914615631104,
      "memory(GiB)": 70.5,
      "step": 74390,
      "token_acc": 0.8885017421602788,
      "train_speed(iter/s)": 1.451029
    },
    {
      "epoch": 3.1873098838952916,
      "grad_norm": 7.548488616943359,
      "learning_rate": 2.907243731520356e-05,
      "loss": 0.3236818790435791,
      "memory(GiB)": 70.5,
      "step": 74395,
      "token_acc": 0.9259259259259259,
      "train_speed(iter/s)": 1.45103
    },
    {
      "epoch": 3.1875240992245404,
      "grad_norm": 3.299933910369873,
      "learning_rate": 2.9066325570814834e-05,
      "loss": 0.33263483047485354,
      "memory(GiB)": 70.5,
      "step": 74400,
      "token_acc": 0.9207920792079208,
      "train_speed(iter/s)": 1.451046
    },
    {
      "epoch": 3.1877383145537896,
      "grad_norm": 4.559695243835449,
      "learning_rate": 2.9060214205659286e-05,
      "loss": 0.17305960655212402,
      "memory(GiB)": 70.5,
      "step": 74405,
      "token_acc": 0.9785714285714285,
      "train_speed(iter/s)": 1.451052
    },
    {
      "epoch": 3.1879525298830385,
      "grad_norm": 4.0877485275268555,
      "learning_rate": 2.9054103219847596e-05,
      "loss": 0.32170872688293456,
      "memory(GiB)": 70.5,
      "step": 74410,
      "token_acc": 0.9180887372013652,
      "train_speed(iter/s)": 1.451052
    },
    {
      "epoch": 3.1881667452122873,
      "grad_norm": 5.773012638092041,
      "learning_rate": 2.904799261349047e-05,
      "loss": 0.8243888854980469,
      "memory(GiB)": 70.5,
      "step": 74415,
      "token_acc": 0.8480662983425414,
      "train_speed(iter/s)": 1.451063
    },
    {
      "epoch": 3.1883809605415365,
      "grad_norm": 2.434576988220215,
      "learning_rate": 2.9041882386698616e-05,
      "loss": 0.3908622026443481,
      "memory(GiB)": 70.5,
      "step": 74420,
      "token_acc": 0.9115853658536586,
      "train_speed(iter/s)": 1.451065
    },
    {
      "epoch": 3.1885951758707853,
      "grad_norm": 2.990117073059082,
      "learning_rate": 2.9035772539582706e-05,
      "loss": 0.32243025302886963,
      "memory(GiB)": 70.5,
      "step": 74425,
      "token_acc": 0.9311594202898551,
      "train_speed(iter/s)": 1.45107
    },
    {
      "epoch": 3.188809391200034,
      "grad_norm": 3.3220949172973633,
      "learning_rate": 2.9029663072253455e-05,
      "loss": 0.3661219596862793,
      "memory(GiB)": 70.5,
      "step": 74430,
      "token_acc": 0.9090909090909091,
      "train_speed(iter/s)": 1.451086
    },
    {
      "epoch": 3.1890236065292834,
      "grad_norm": 4.612640380859375,
      "learning_rate": 2.9023553984821537e-05,
      "loss": 0.3145071744918823,
      "memory(GiB)": 70.5,
      "step": 74435,
      "token_acc": 0.9423076923076923,
      "train_speed(iter/s)": 1.451087
    },
    {
      "epoch": 3.189237821858532,
      "grad_norm": 3.0210089683532715,
      "learning_rate": 2.9017445277397616e-05,
      "loss": 0.38254556655883787,
      "memory(GiB)": 70.5,
      "step": 74440,
      "token_acc": 0.8987341772151899,
      "train_speed(iter/s)": 1.451095
    },
    {
      "epoch": 3.189452037187781,
      "grad_norm": 4.60438871383667,
      "learning_rate": 2.901133695009235e-05,
      "loss": 0.3549495697021484,
      "memory(GiB)": 70.5,
      "step": 74445,
      "token_acc": 0.902027027027027,
      "train_speed(iter/s)": 1.451106
    },
    {
      "epoch": 3.1896662525170303,
      "grad_norm": 2.495847225189209,
      "learning_rate": 2.900522900301641e-05,
      "loss": 0.23902301788330077,
      "memory(GiB)": 70.5,
      "step": 74450,
      "token_acc": 0.9335347432024169,
      "train_speed(iter/s)": 1.451114
    },
    {
      "epoch": 3.189880467846279,
      "grad_norm": 0.8752538561820984,
      "learning_rate": 2.899912143628042e-05,
      "loss": 0.17869194746017455,
      "memory(GiB)": 70.5,
      "step": 74455,
      "token_acc": 0.9623188405797102,
      "train_speed(iter/s)": 1.451114
    },
    {
      "epoch": 3.190094683175528,
      "grad_norm": 3.9221692085266113,
      "learning_rate": 2.8993014249995066e-05,
      "loss": 0.3283254623413086,
      "memory(GiB)": 70.5,
      "step": 74460,
      "token_acc": 0.9236111111111112,
      "train_speed(iter/s)": 1.451109
    },
    {
      "epoch": 3.190308898504777,
      "grad_norm": 1.6910640001296997,
      "learning_rate": 2.898690744427096e-05,
      "loss": 0.4313383102416992,
      "memory(GiB)": 70.5,
      "step": 74465,
      "token_acc": 0.9216417910447762,
      "train_speed(iter/s)": 1.451124
    },
    {
      "epoch": 3.190523113834026,
      "grad_norm": 0.7399028539657593,
      "learning_rate": 2.8980801019218718e-05,
      "loss": 0.41312503814697266,
      "memory(GiB)": 70.5,
      "step": 74470,
      "token_acc": 0.9198813056379822,
      "train_speed(iter/s)": 1.451133
    },
    {
      "epoch": 3.190737329163275,
      "grad_norm": 4.323029041290283,
      "learning_rate": 2.8974694974949013e-05,
      "loss": 0.374501895904541,
      "memory(GiB)": 70.5,
      "step": 74475,
      "token_acc": 0.9090909090909091,
      "train_speed(iter/s)": 1.451141
    },
    {
      "epoch": 3.190951544492524,
      "grad_norm": 1.4087481498718262,
      "learning_rate": 2.8968589311572426e-05,
      "loss": 0.1979094624519348,
      "memory(GiB)": 70.5,
      "step": 74480,
      "token_acc": 0.9573770491803278,
      "train_speed(iter/s)": 1.451141
    },
    {
      "epoch": 3.191165759821773,
      "grad_norm": 2.3574330806732178,
      "learning_rate": 2.896248402919955e-05,
      "loss": 0.44668169021606446,
      "memory(GiB)": 70.5,
      "step": 74485,
      "token_acc": 0.8971631205673759,
      "train_speed(iter/s)": 1.451143
    },
    {
      "epoch": 3.1913799751510217,
      "grad_norm": 3.5676798820495605,
      "learning_rate": 2.895637912794103e-05,
      "loss": 0.32168126106262207,
      "memory(GiB)": 70.5,
      "step": 74490,
      "token_acc": 0.9321533923303835,
      "train_speed(iter/s)": 1.451143
    },
    {
      "epoch": 3.191594190480271,
      "grad_norm": 2.6364123821258545,
      "learning_rate": 2.8950274607907447e-05,
      "loss": 0.752114200592041,
      "memory(GiB)": 70.5,
      "step": 74495,
      "token_acc": 0.8540925266903915,
      "train_speed(iter/s)": 1.451144
    },
    {
      "epoch": 3.1918084058095197,
      "grad_norm": 2.6159439086914062,
      "learning_rate": 2.8944170469209386e-05,
      "loss": 0.38425984382629397,
      "memory(GiB)": 70.5,
      "step": 74500,
      "token_acc": 0.9163636363636364,
      "train_speed(iter/s)": 1.451144
    },
    {
      "epoch": 3.1918084058095197,
      "eval_loss": 2.3852274417877197,
      "eval_runtime": 10.9418,
      "eval_samples_per_second": 9.139,
      "eval_steps_per_second": 9.139,
      "eval_token_acc": 0.47214076246334313,
      "step": 74500
    },
    {
      "epoch": 3.1920226211387686,
      "grad_norm": 3.2331414222717285,
      "learning_rate": 2.8938066711957423e-05,
      "loss": 0.37349414825439453,
      "memory(GiB)": 70.5,
      "step": 74505,
      "token_acc": 0.6047966631908238,
      "train_speed(iter/s)": 1.450818
    },
    {
      "epoch": 3.192236836468018,
      "grad_norm": 3.703043222427368,
      "learning_rate": 2.8931963336262125e-05,
      "loss": 0.64370698928833,
      "memory(GiB)": 70.5,
      "step": 74510,
      "token_acc": 0.8619631901840491,
      "train_speed(iter/s)": 1.450832
    },
    {
      "epoch": 3.1924510517972666,
      "grad_norm": 1.7531580924987793,
      "learning_rate": 2.8925860342234092e-05,
      "loss": 0.4230493068695068,
      "memory(GiB)": 70.5,
      "step": 74515,
      "token_acc": 0.9204545454545454,
      "train_speed(iter/s)": 1.450837
    },
    {
      "epoch": 3.1926652671265154,
      "grad_norm": 2.5547115802764893,
      "learning_rate": 2.8919757729983866e-05,
      "loss": 0.23397254943847656,
      "memory(GiB)": 70.5,
      "step": 74520,
      "token_acc": 0.95703125,
      "train_speed(iter/s)": 1.450833
    },
    {
      "epoch": 3.1928794824557647,
      "grad_norm": 5.1927490234375,
      "learning_rate": 2.8913655499622012e-05,
      "loss": 0.5408868789672852,
      "memory(GiB)": 70.5,
      "step": 74525,
      "token_acc": 0.8851963746223565,
      "train_speed(iter/s)": 1.450837
    },
    {
      "epoch": 3.1930936977850135,
      "grad_norm": 0.77693772315979,
      "learning_rate": 2.890755365125906e-05,
      "loss": 0.3664238929748535,
      "memory(GiB)": 70.5,
      "step": 74530,
      "token_acc": 0.9367088607594937,
      "train_speed(iter/s)": 1.45084
    },
    {
      "epoch": 3.1933079131142623,
      "grad_norm": 4.544182777404785,
      "learning_rate": 2.890145218500556e-05,
      "loss": 0.23871736526489257,
      "memory(GiB)": 70.5,
      "step": 74535,
      "token_acc": 0.9448529411764706,
      "train_speed(iter/s)": 1.450853
    },
    {
      "epoch": 3.1935221284435116,
      "grad_norm": 2.206307888031006,
      "learning_rate": 2.8895351100972033e-05,
      "loss": 0.3919790267944336,
      "memory(GiB)": 70.5,
      "step": 74540,
      "token_acc": 0.9204152249134948,
      "train_speed(iter/s)": 1.45085
    },
    {
      "epoch": 3.1937363437727604,
      "grad_norm": 5.788297176361084,
      "learning_rate": 2.888925039926902e-05,
      "loss": 0.2807874917984009,
      "memory(GiB)": 70.5,
      "step": 74545,
      "token_acc": 0.9260700389105059,
      "train_speed(iter/s)": 1.450854
    },
    {
      "epoch": 3.193950559102009,
      "grad_norm": 3.8964695930480957,
      "learning_rate": 2.8883150080007047e-05,
      "loss": 0.3525510311126709,
      "memory(GiB)": 70.5,
      "step": 74550,
      "token_acc": 0.9233226837060703,
      "train_speed(iter/s)": 1.450856
    },
    {
      "epoch": 3.1941647744312585,
      "grad_norm": 6.740449905395508,
      "learning_rate": 2.887705014329663e-05,
      "loss": 0.2470475673675537,
      "memory(GiB)": 70.5,
      "step": 74555,
      "token_acc": 0.9451476793248945,
      "train_speed(iter/s)": 1.450852
    },
    {
      "epoch": 3.1943789897605073,
      "grad_norm": 3.132669448852539,
      "learning_rate": 2.8870950589248256e-05,
      "loss": 0.20751371383666992,
      "memory(GiB)": 70.5,
      "step": 74560,
      "token_acc": 0.9438943894389439,
      "train_speed(iter/s)": 1.450852
    },
    {
      "epoch": 3.194593205089756,
      "grad_norm": 2.3317618370056152,
      "learning_rate": 2.8864851417972444e-05,
      "loss": 0.27766263484954834,
      "memory(GiB)": 70.5,
      "step": 74565,
      "token_acc": 0.9405594405594405,
      "train_speed(iter/s)": 1.450855
    },
    {
      "epoch": 3.1948074204190053,
      "grad_norm": 4.058060169219971,
      "learning_rate": 2.8858752629579648e-05,
      "loss": 0.49500579833984376,
      "memory(GiB)": 70.5,
      "step": 74570,
      "token_acc": 0.9041533546325878,
      "train_speed(iter/s)": 1.450858
    },
    {
      "epoch": 3.195021635748254,
      "grad_norm": 6.206117630004883,
      "learning_rate": 2.88526542241804e-05,
      "loss": 0.5567138671875,
      "memory(GiB)": 70.5,
      "step": 74575,
      "token_acc": 0.888,
      "train_speed(iter/s)": 1.450857
    },
    {
      "epoch": 3.195235851077503,
      "grad_norm": 1.9788141250610352,
      "learning_rate": 2.8846556201885162e-05,
      "loss": 0.38670284748077394,
      "memory(GiB)": 70.5,
      "step": 74580,
      "token_acc": 0.896551724137931,
      "train_speed(iter/s)": 1.450858
    },
    {
      "epoch": 3.195450066406752,
      "grad_norm": 2.460484027862549,
      "learning_rate": 2.8840458562804396e-05,
      "loss": 0.31816122531890867,
      "memory(GiB)": 70.5,
      "step": 74585,
      "token_acc": 0.9292307692307692,
      "train_speed(iter/s)": 1.450862
    },
    {
      "epoch": 3.195664281736001,
      "grad_norm": 5.379992485046387,
      "learning_rate": 2.883436130704858e-05,
      "loss": 0.4551846981048584,
      "memory(GiB)": 70.5,
      "step": 74590,
      "token_acc": 0.9224806201550387,
      "train_speed(iter/s)": 1.450874
    },
    {
      "epoch": 3.19587849706525,
      "grad_norm": 0.7483944892883301,
      "learning_rate": 2.882826443472816e-05,
      "loss": 0.3863327741622925,
      "memory(GiB)": 70.5,
      "step": 74595,
      "token_acc": 0.9081272084805654,
      "train_speed(iter/s)": 1.450881
    },
    {
      "epoch": 3.196092712394499,
      "grad_norm": 3.2194089889526367,
      "learning_rate": 2.882216794595357e-05,
      "loss": 0.5476034641265869,
      "memory(GiB)": 70.5,
      "step": 74600,
      "token_acc": 0.8846153846153846,
      "train_speed(iter/s)": 1.450877
    },
    {
      "epoch": 3.196306927723748,
      "grad_norm": 6.238986492156982,
      "learning_rate": 2.881607184083529e-05,
      "loss": 0.4485603332519531,
      "memory(GiB)": 70.5,
      "step": 74605,
      "token_acc": 0.8871473354231975,
      "train_speed(iter/s)": 1.450886
    },
    {
      "epoch": 3.1965211430529967,
      "grad_norm": 3.8706138134002686,
      "learning_rate": 2.880997611948375e-05,
      "loss": 0.41308345794677737,
      "memory(GiB)": 70.5,
      "step": 74610,
      "token_acc": 0.905511811023622,
      "train_speed(iter/s)": 1.450913
    },
    {
      "epoch": 3.196735358382246,
      "grad_norm": 1.8656872510910034,
      "learning_rate": 2.8803880782009347e-05,
      "loss": 0.4728723049163818,
      "memory(GiB)": 70.5,
      "step": 74615,
      "token_acc": 0.9315960912052117,
      "train_speed(iter/s)": 1.450915
    },
    {
      "epoch": 3.196949573711495,
      "grad_norm": 1.1564931869506836,
      "learning_rate": 2.8797785828522543e-05,
      "loss": 0.3891255855560303,
      "memory(GiB)": 70.5,
      "step": 74620,
      "token_acc": 0.9033457249070632,
      "train_speed(iter/s)": 1.450921
    },
    {
      "epoch": 3.1971637890407436,
      "grad_norm": 3.106747627258301,
      "learning_rate": 2.8791691259133745e-05,
      "loss": 0.1755396842956543,
      "memory(GiB)": 70.5,
      "step": 74625,
      "token_acc": 0.9496644295302014,
      "train_speed(iter/s)": 1.450925
    },
    {
      "epoch": 3.197378004369993,
      "grad_norm": 2.8863251209259033,
      "learning_rate": 2.878559707395333e-05,
      "loss": 0.5964037418365479,
      "memory(GiB)": 70.5,
      "step": 74630,
      "token_acc": 0.9158878504672897,
      "train_speed(iter/s)": 1.45093
    },
    {
      "epoch": 3.1975922196992417,
      "grad_norm": 3.223210096359253,
      "learning_rate": 2.8779503273091746e-05,
      "loss": 0.3493373870849609,
      "memory(GiB)": 70.5,
      "step": 74635,
      "token_acc": 0.9415807560137457,
      "train_speed(iter/s)": 1.450947
    },
    {
      "epoch": 3.1978064350284905,
      "grad_norm": 1.5800269842147827,
      "learning_rate": 2.877340985665936e-05,
      "loss": 0.2065277576446533,
      "memory(GiB)": 70.5,
      "step": 74640,
      "token_acc": 0.948339483394834,
      "train_speed(iter/s)": 1.450959
    },
    {
      "epoch": 3.1980206503577397,
      "grad_norm": 5.586320877075195,
      "learning_rate": 2.8767316824766577e-05,
      "loss": 0.24634575843811035,
      "memory(GiB)": 70.5,
      "step": 74645,
      "token_acc": 0.9433333333333334,
      "train_speed(iter/s)": 1.450972
    },
    {
      "epoch": 3.1982348656869886,
      "grad_norm": 2.771001100540161,
      "learning_rate": 2.876122417752376e-05,
      "loss": 0.1886073112487793,
      "memory(GiB)": 70.5,
      "step": 74650,
      "token_acc": 0.9545454545454546,
      "train_speed(iter/s)": 1.450979
    },
    {
      "epoch": 3.1984490810162374,
      "grad_norm": 0.2792518138885498,
      "learning_rate": 2.8755131915041277e-05,
      "loss": 0.2844519138336182,
      "memory(GiB)": 70.5,
      "step": 74655,
      "token_acc": 0.9385964912280702,
      "train_speed(iter/s)": 1.450978
    },
    {
      "epoch": 3.1986632963454866,
      "grad_norm": 3.2281744480133057,
      "learning_rate": 2.8749040037429527e-05,
      "loss": 0.4405482292175293,
      "memory(GiB)": 70.5,
      "step": 74660,
      "token_acc": 0.9006849315068494,
      "train_speed(iter/s)": 1.45098
    },
    {
      "epoch": 3.1988775116747354,
      "grad_norm": 1.4222691059112549,
      "learning_rate": 2.874294854479885e-05,
      "loss": 0.48550825119018554,
      "memory(GiB)": 70.5,
      "step": 74665,
      "token_acc": 0.9122807017543859,
      "train_speed(iter/s)": 1.450992
    },
    {
      "epoch": 3.1990917270039843,
      "grad_norm": 3.0362775325775146,
      "learning_rate": 2.8736857437259602e-05,
      "loss": 0.4233431816101074,
      "memory(GiB)": 70.5,
      "step": 74670,
      "token_acc": 0.9111842105263158,
      "train_speed(iter/s)": 1.450995
    },
    {
      "epoch": 3.1993059423332335,
      "grad_norm": 4.348502159118652,
      "learning_rate": 2.8730766714922126e-05,
      "loss": 0.18212172985076905,
      "memory(GiB)": 70.5,
      "step": 74675,
      "token_acc": 0.9578544061302682,
      "train_speed(iter/s)": 1.450996
    },
    {
      "epoch": 3.1995201576624823,
      "grad_norm": 4.216501712799072,
      "learning_rate": 2.8724676377896764e-05,
      "loss": 0.4834470748901367,
      "memory(GiB)": 70.5,
      "step": 74680,
      "token_acc": 0.9064516129032258,
      "train_speed(iter/s)": 1.451
    },
    {
      "epoch": 3.199734372991731,
      "grad_norm": 3.010514974594116,
      "learning_rate": 2.8718586426293825e-05,
      "loss": 0.22386369705200196,
      "memory(GiB)": 70.5,
      "step": 74685,
      "token_acc": 0.9467680608365019,
      "train_speed(iter/s)": 1.451
    },
    {
      "epoch": 3.1999485883209804,
      "grad_norm": 3.241507053375244,
      "learning_rate": 2.8712496860223658e-05,
      "loss": 0.33199028968811034,
      "memory(GiB)": 70.5,
      "step": 74690,
      "token_acc": 0.929368029739777,
      "train_speed(iter/s)": 1.451012
    },
    {
      "epoch": 3.200162803650229,
      "grad_norm": 2.62104868888855,
      "learning_rate": 2.8706407679796605e-05,
      "loss": 0.3933661460876465,
      "memory(GiB)": 70.5,
      "step": 74695,
      "token_acc": 0.916010498687664,
      "train_speed(iter/s)": 1.451019
    },
    {
      "epoch": 3.200377018979478,
      "grad_norm": 2.7846102714538574,
      "learning_rate": 2.8700318885122944e-05,
      "loss": 0.40830144882202146,
      "memory(GiB)": 70.5,
      "step": 74700,
      "token_acc": 0.9085545722713865,
      "train_speed(iter/s)": 1.451027
    },
    {
      "epoch": 3.2005912343087273,
      "grad_norm": 0.9502204060554504,
      "learning_rate": 2.869423047631299e-05,
      "loss": 0.09289953708648682,
      "memory(GiB)": 70.5,
      "step": 74705,
      "token_acc": 0.9817518248175182,
      "train_speed(iter/s)": 1.451029
    },
    {
      "epoch": 3.200805449637976,
      "grad_norm": 3.6787915229797363,
      "learning_rate": 2.868814245347704e-05,
      "loss": 0.49650158882141116,
      "memory(GiB)": 70.5,
      "step": 74710,
      "token_acc": 0.868421052631579,
      "train_speed(iter/s)": 1.451035
    },
    {
      "epoch": 3.201019664967225,
      "grad_norm": 2.8312156200408936,
      "learning_rate": 2.8682054816725358e-05,
      "loss": 0.2595843315124512,
      "memory(GiB)": 70.5,
      "step": 74715,
      "token_acc": 0.9512195121951219,
      "train_speed(iter/s)": 1.451036
    },
    {
      "epoch": 3.201233880296474,
      "grad_norm": 1.2558432817459106,
      "learning_rate": 2.867596756616827e-05,
      "loss": 0.2673351287841797,
      "memory(GiB)": 70.5,
      "step": 74720,
      "token_acc": 0.9282868525896414,
      "train_speed(iter/s)": 1.451041
    },
    {
      "epoch": 3.201448095625723,
      "grad_norm": 4.193010330200195,
      "learning_rate": 2.866988070191604e-05,
      "loss": 0.29291043281555174,
      "memory(GiB)": 70.5,
      "step": 74725,
      "token_acc": 0.9120879120879121,
      "train_speed(iter/s)": 1.45105
    },
    {
      "epoch": 3.201662310954972,
      "grad_norm": 2.3710291385650635,
      "learning_rate": 2.8663794224078926e-05,
      "loss": 0.14268531799316406,
      "memory(GiB)": 70.5,
      "step": 74730,
      "token_acc": 0.9696969696969697,
      "train_speed(iter/s)": 1.451053
    },
    {
      "epoch": 3.201876526284221,
      "grad_norm": 6.409684181213379,
      "learning_rate": 2.865770813276719e-05,
      "loss": 0.4857994556427002,
      "memory(GiB)": 70.5,
      "step": 74735,
      "token_acc": 0.9078947368421053,
      "train_speed(iter/s)": 1.451061
    },
    {
      "epoch": 3.20209074161347,
      "grad_norm": 3.085012197494507,
      "learning_rate": 2.86516224280911e-05,
      "loss": 0.3116565227508545,
      "memory(GiB)": 70.5,
      "step": 74740,
      "token_acc": 0.940809968847352,
      "train_speed(iter/s)": 1.451072
    },
    {
      "epoch": 3.2023049569427187,
      "grad_norm": 1.7737325429916382,
      "learning_rate": 2.8645537110160873e-05,
      "loss": 0.2795441150665283,
      "memory(GiB)": 70.5,
      "step": 74745,
      "token_acc": 0.9298892988929889,
      "train_speed(iter/s)": 1.451074
    },
    {
      "epoch": 3.202519172271968,
      "grad_norm": 3.1545627117156982,
      "learning_rate": 2.8639452179086788e-05,
      "loss": 0.17405085563659667,
      "memory(GiB)": 70.5,
      "step": 74750,
      "token_acc": 0.9508196721311475,
      "train_speed(iter/s)": 1.451073
    },
    {
      "epoch": 3.2027333876012167,
      "grad_norm": 6.457001209259033,
      "learning_rate": 2.8633367634979075e-05,
      "loss": 0.23979551792144777,
      "memory(GiB)": 70.5,
      "step": 74755,
      "token_acc": 0.9391304347826087,
      "train_speed(iter/s)": 1.451086
    },
    {
      "epoch": 3.2029476029304655,
      "grad_norm": 0.0725308284163475,
      "learning_rate": 2.8627283477947942e-05,
      "loss": 0.2566894292831421,
      "memory(GiB)": 70.5,
      "step": 74760,
      "token_acc": 0.9385245901639344,
      "train_speed(iter/s)": 1.451092
    },
    {
      "epoch": 3.203161818259715,
      "grad_norm": 0.21118973195552826,
      "learning_rate": 2.8621199708103606e-05,
      "loss": 0.18740378618240355,
      "memory(GiB)": 70.5,
      "step": 74765,
      "token_acc": 0.9605734767025089,
      "train_speed(iter/s)": 1.451093
    },
    {
      "epoch": 3.2033760335889636,
      "grad_norm": 4.262868404388428,
      "learning_rate": 2.8615116325556307e-05,
      "loss": 0.5697237014770508,
      "memory(GiB)": 70.5,
      "step": 74770,
      "token_acc": 0.8867924528301887,
      "train_speed(iter/s)": 1.451096
    },
    {
      "epoch": 3.2035902489182124,
      "grad_norm": 5.457889080047607,
      "learning_rate": 2.8609033330416213e-05,
      "loss": 0.32398009300231934,
      "memory(GiB)": 70.5,
      "step": 74775,
      "token_acc": 0.9138461538461539,
      "train_speed(iter/s)": 1.451101
    },
    {
      "epoch": 3.2038044642474617,
      "grad_norm": 3.431885004043579,
      "learning_rate": 2.8602950722793577e-05,
      "loss": 0.20732333660125732,
      "memory(GiB)": 70.5,
      "step": 74780,
      "token_acc": 0.9473684210526315,
      "train_speed(iter/s)": 1.451109
    },
    {
      "epoch": 3.2040186795767105,
      "grad_norm": 2.617335081100464,
      "learning_rate": 2.859686850279855e-05,
      "loss": 0.633833360671997,
      "memory(GiB)": 70.5,
      "step": 74785,
      "token_acc": 0.8794788273615635,
      "train_speed(iter/s)": 1.451113
    },
    {
      "epoch": 3.2042328949059593,
      "grad_norm": 3.4763591289520264,
      "learning_rate": 2.8590786670541336e-05,
      "loss": 0.3447331666946411,
      "memory(GiB)": 70.5,
      "step": 74790,
      "token_acc": 0.918918918918919,
      "train_speed(iter/s)": 1.451116
    },
    {
      "epoch": 3.2044471102352086,
      "grad_norm": 3.0618982315063477,
      "learning_rate": 2.8584705226132096e-05,
      "loss": 0.334951114654541,
      "memory(GiB)": 70.5,
      "step": 74795,
      "token_acc": 0.896,
      "train_speed(iter/s)": 1.451115
    },
    {
      "epoch": 3.2046613255644574,
      "grad_norm": 2.5622918605804443,
      "learning_rate": 2.8578624169680994e-05,
      "loss": 0.24486086368560792,
      "memory(GiB)": 70.5,
      "step": 74800,
      "token_acc": 0.9467084639498433,
      "train_speed(iter/s)": 1.451118
    },
    {
      "epoch": 3.204875540893706,
      "grad_norm": 3.023548126220703,
      "learning_rate": 2.857254350129823e-05,
      "loss": 0.2905434608459473,
      "memory(GiB)": 70.5,
      "step": 74805,
      "token_acc": 0.9230769230769231,
      "train_speed(iter/s)": 1.451119
    },
    {
      "epoch": 3.2050897562229554,
      "grad_norm": 3.919049024581909,
      "learning_rate": 2.8566463221093943e-05,
      "loss": 0.3422385692596436,
      "memory(GiB)": 70.5,
      "step": 74810,
      "token_acc": 0.9381107491856677,
      "train_speed(iter/s)": 1.451124
    },
    {
      "epoch": 3.2053039715522043,
      "grad_norm": 4.772867202758789,
      "learning_rate": 2.8560383329178286e-05,
      "loss": 0.4639772891998291,
      "memory(GiB)": 70.5,
      "step": 74815,
      "token_acc": 0.8920634920634921,
      "train_speed(iter/s)": 1.451136
    },
    {
      "epoch": 3.205518186881453,
      "grad_norm": 3.7500522136688232,
      "learning_rate": 2.8554303825661388e-05,
      "loss": 0.27893290519714353,
      "memory(GiB)": 70.5,
      "step": 74820,
      "token_acc": 0.9117647058823529,
      "train_speed(iter/s)": 1.451142
    },
    {
      "epoch": 3.2057324022107023,
      "grad_norm": 6.414547920227051,
      "learning_rate": 2.8548224710653393e-05,
      "loss": 0.5302448749542237,
      "memory(GiB)": 70.5,
      "step": 74825,
      "token_acc": 0.8846153846153846,
      "train_speed(iter/s)": 1.451146
    },
    {
      "epoch": 3.205946617539951,
      "grad_norm": 2.755232572555542,
      "learning_rate": 2.8542145984264416e-05,
      "loss": 0.2945180654525757,
      "memory(GiB)": 70.5,
      "step": 74830,
      "token_acc": 0.935361216730038,
      "train_speed(iter/s)": 1.451145
    },
    {
      "epoch": 3.2061608328692,
      "grad_norm": 7.008225440979004,
      "learning_rate": 2.8536067646604592e-05,
      "loss": 0.4174013137817383,
      "memory(GiB)": 70.5,
      "step": 74835,
      "token_acc": 0.9157509157509157,
      "train_speed(iter/s)": 1.451144
    },
    {
      "epoch": 3.206375048198449,
      "grad_norm": 3.5102412700653076,
      "learning_rate": 2.852998969778406e-05,
      "loss": 0.2565053701400757,
      "memory(GiB)": 70.5,
      "step": 74840,
      "token_acc": 0.9349112426035503,
      "train_speed(iter/s)": 1.451141
    },
    {
      "epoch": 3.206589263527698,
      "grad_norm": 1.2101764678955078,
      "learning_rate": 2.85239121379129e-05,
      "loss": 0.10628035068511962,
      "memory(GiB)": 70.5,
      "step": 74845,
      "token_acc": 0.9795918367346939,
      "train_speed(iter/s)": 1.451143
    },
    {
      "epoch": 3.206803478856947,
      "grad_norm": 4.111387252807617,
      "learning_rate": 2.851783496710122e-05,
      "loss": 0.369500994682312,
      "memory(GiB)": 70.5,
      "step": 74850,
      "token_acc": 0.9203187250996016,
      "train_speed(iter/s)": 1.451144
    },
    {
      "epoch": 3.207017694186196,
      "grad_norm": 4.228940963745117,
      "learning_rate": 2.8511758185459113e-05,
      "loss": 0.524386215209961,
      "memory(GiB)": 70.5,
      "step": 74855,
      "token_acc": 0.8947368421052632,
      "train_speed(iter/s)": 1.451149
    },
    {
      "epoch": 3.207231909515445,
      "grad_norm": 2.3416714668273926,
      "learning_rate": 2.850568179309665e-05,
      "loss": 0.37448046207427976,
      "memory(GiB)": 70.5,
      "step": 74860,
      "token_acc": 0.9292604501607717,
      "train_speed(iter/s)": 1.451156
    },
    {
      "epoch": 3.2074461248446937,
      "grad_norm": 4.06040620803833,
      "learning_rate": 2.8499605790123935e-05,
      "loss": 0.39342048168182375,
      "memory(GiB)": 70.5,
      "step": 74865,
      "token_acc": 0.9273356401384083,
      "train_speed(iter/s)": 1.451181
    },
    {
      "epoch": 3.207660340173943,
      "grad_norm": 1.8311493396759033,
      "learning_rate": 2.8493530176651028e-05,
      "loss": 0.23276927471160888,
      "memory(GiB)": 70.5,
      "step": 74870,
      "token_acc": 0.9517684887459807,
      "train_speed(iter/s)": 1.451194
    },
    {
      "epoch": 3.207874555503192,
      "grad_norm": 3.0016162395477295,
      "learning_rate": 2.8487454952788008e-05,
      "loss": 0.26689815521240234,
      "memory(GiB)": 70.5,
      "step": 74875,
      "token_acc": 0.9484848484848485,
      "train_speed(iter/s)": 1.451209
    },
    {
      "epoch": 3.2080887708324406,
      "grad_norm": 0.3620639145374298,
      "learning_rate": 2.848138011864491e-05,
      "loss": 0.13766499757766723,
      "memory(GiB)": 70.5,
      "step": 74880,
      "token_acc": 0.9808429118773946,
      "train_speed(iter/s)": 1.451212
    },
    {
      "epoch": 3.20830298616169,
      "grad_norm": 0.9329511523246765,
      "learning_rate": 2.8475305674331808e-05,
      "loss": 0.13462188243865966,
      "memory(GiB)": 70.5,
      "step": 74885,
      "token_acc": 0.9566666666666667,
      "train_speed(iter/s)": 1.45123
    },
    {
      "epoch": 3.2085172014909387,
      "grad_norm": 4.190216541290283,
      "learning_rate": 2.8469231619958708e-05,
      "loss": 0.3240990161895752,
      "memory(GiB)": 70.5,
      "step": 74890,
      "token_acc": 0.948339483394834,
      "train_speed(iter/s)": 1.451234
    },
    {
      "epoch": 3.2087314168201875,
      "grad_norm": 4.215682506561279,
      "learning_rate": 2.84631579556357e-05,
      "loss": 0.3963596343994141,
      "memory(GiB)": 70.5,
      "step": 74895,
      "token_acc": 0.9059233449477352,
      "train_speed(iter/s)": 1.451234
    },
    {
      "epoch": 3.2089456321494367,
      "grad_norm": 2.899749279022217,
      "learning_rate": 2.845708468147278e-05,
      "loss": 0.4709893226623535,
      "memory(GiB)": 70.5,
      "step": 74900,
      "token_acc": 0.9084507042253521,
      "train_speed(iter/s)": 1.451235
    },
    {
      "epoch": 3.2091598474786855,
      "grad_norm": 3.525829315185547,
      "learning_rate": 2.8451011797579985e-05,
      "loss": 0.7196298122406006,
      "memory(GiB)": 70.5,
      "step": 74905,
      "token_acc": 0.8803088803088803,
      "train_speed(iter/s)": 1.451239
    },
    {
      "epoch": 3.2093740628079344,
      "grad_norm": 0.9102205038070679,
      "learning_rate": 2.8444939304067307e-05,
      "loss": 0.23952717781066896,
      "memory(GiB)": 70.5,
      "step": 74910,
      "token_acc": 0.9429530201342282,
      "train_speed(iter/s)": 1.45124
    },
    {
      "epoch": 3.2095882781371836,
      "grad_norm": 2.5091781616210938,
      "learning_rate": 2.8438867201044794e-05,
      "loss": 0.38771681785583495,
      "memory(GiB)": 70.5,
      "step": 74915,
      "token_acc": 0.9256756756756757,
      "train_speed(iter/s)": 1.451257
    },
    {
      "epoch": 3.2098024934664324,
      "grad_norm": 3.191617012023926,
      "learning_rate": 2.843279548862241e-05,
      "loss": 0.17954868078231812,
      "memory(GiB)": 70.5,
      "step": 74920,
      "token_acc": 0.95,
      "train_speed(iter/s)": 1.451273
    },
    {
      "epoch": 3.2100167087956812,
      "grad_norm": 3.1461360454559326,
      "learning_rate": 2.842672416691018e-05,
      "loss": 0.3406796455383301,
      "memory(GiB)": 70.5,
      "step": 74925,
      "token_acc": 0.9252336448598131,
      "train_speed(iter/s)": 1.451275
    },
    {
      "epoch": 3.2102309241249305,
      "grad_norm": 6.077735424041748,
      "learning_rate": 2.8420653236018086e-05,
      "loss": 0.4902037620544434,
      "memory(GiB)": 70.5,
      "step": 74930,
      "token_acc": 0.9093333333333333,
      "train_speed(iter/s)": 1.451274
    },
    {
      "epoch": 3.2104451394541793,
      "grad_norm": 2.213900566101074,
      "learning_rate": 2.8414582696056102e-05,
      "loss": 0.492689323425293,
      "memory(GiB)": 70.5,
      "step": 74935,
      "token_acc": 0.9096989966555183,
      "train_speed(iter/s)": 1.451287
    },
    {
      "epoch": 3.210659354783428,
      "grad_norm": 4.714061260223389,
      "learning_rate": 2.840851254713419e-05,
      "loss": 0.33952343463897705,
      "memory(GiB)": 70.5,
      "step": 74940,
      "token_acc": 0.9079754601226994,
      "train_speed(iter/s)": 1.451302
    },
    {
      "epoch": 3.2108735701126774,
      "grad_norm": 3.3455677032470703,
      "learning_rate": 2.8402442789362322e-05,
      "loss": 0.5150367259979248,
      "memory(GiB)": 70.5,
      "step": 74945,
      "token_acc": 0.9112627986348123,
      "train_speed(iter/s)": 1.451313
    },
    {
      "epoch": 3.211087785441926,
      "grad_norm": 2.919095754623413,
      "learning_rate": 2.8396373422850476e-05,
      "loss": 0.18101009130477905,
      "memory(GiB)": 70.5,
      "step": 74950,
      "token_acc": 0.9519230769230769,
      "train_speed(iter/s)": 1.451319
    },
    {
      "epoch": 3.211302000771175,
      "grad_norm": 7.547571182250977,
      "learning_rate": 2.8390304447708594e-05,
      "loss": 0.4328585624694824,
      "memory(GiB)": 70.5,
      "step": 74955,
      "token_acc": 0.9134948096885813,
      "train_speed(iter/s)": 1.451326
    },
    {
      "epoch": 3.2115162161004243,
      "grad_norm": 4.2828545570373535,
      "learning_rate": 2.8384235864046614e-05,
      "loss": 0.5414325714111328,
      "memory(GiB)": 70.5,
      "step": 74960,
      "token_acc": 0.8875,
      "train_speed(iter/s)": 1.451339
    },
    {
      "epoch": 3.211730431429673,
      "grad_norm": 1.1317256689071655,
      "learning_rate": 2.837816767197448e-05,
      "loss": 1.0742083549499513,
      "memory(GiB)": 70.5,
      "step": 74965,
      "token_acc": 0.8132183908045977,
      "train_speed(iter/s)": 1.45134
    },
    {
      "epoch": 3.211944646758922,
      "grad_norm": 0.9500356316566467,
      "learning_rate": 2.8372099871602127e-05,
      "loss": 0.5595292091369629,
      "memory(GiB)": 70.5,
      "step": 74970,
      "token_acc": 0.8754208754208754,
      "train_speed(iter/s)": 1.451357
    },
    {
      "epoch": 3.212158862088171,
      "grad_norm": 1.2352492809295654,
      "learning_rate": 2.8366032463039448e-05,
      "loss": 0.33001861572265623,
      "memory(GiB)": 70.5,
      "step": 74975,
      "token_acc": 0.9045092838196287,
      "train_speed(iter/s)": 1.451352
    },
    {
      "epoch": 3.21237307741742,
      "grad_norm": 6.323176860809326,
      "learning_rate": 2.835996544639641e-05,
      "loss": 0.7594161987304687,
      "memory(GiB)": 70.5,
      "step": 74980,
      "token_acc": 0.8703071672354948,
      "train_speed(iter/s)": 1.451357
    },
    {
      "epoch": 3.2125872927466688,
      "grad_norm": 5.21635627746582,
      "learning_rate": 2.835389882178287e-05,
      "loss": 0.3733957767486572,
      "memory(GiB)": 70.5,
      "step": 74985,
      "token_acc": 0.9119718309859155,
      "train_speed(iter/s)": 1.451384
    },
    {
      "epoch": 3.212801508075918,
      "grad_norm": 3.630369186401367,
      "learning_rate": 2.834783258930878e-05,
      "loss": 0.29427213668823243,
      "memory(GiB)": 70.5,
      "step": 74990,
      "token_acc": 0.9431818181818182,
      "train_speed(iter/s)": 1.451383
    },
    {
      "epoch": 3.213015723405167,
      "grad_norm": 4.234401702880859,
      "learning_rate": 2.834176674908402e-05,
      "loss": 0.6786663055419921,
      "memory(GiB)": 70.5,
      "step": 74995,
      "token_acc": 0.8856209150326797,
      "train_speed(iter/s)": 1.451385
    },
    {
      "epoch": 3.2132299387344156,
      "grad_norm": 0.5088023543357849,
      "learning_rate": 2.8335701301218472e-05,
      "loss": 0.5303323268890381,
      "memory(GiB)": 70.5,
      "step": 75000,
      "token_acc": 0.8843537414965986,
      "train_speed(iter/s)": 1.451385
    },
    {
      "epoch": 3.2132299387344156,
      "eval_loss": 2.483795404434204,
      "eval_runtime": 11.8288,
      "eval_samples_per_second": 8.454,
      "eval_steps_per_second": 8.454,
      "eval_token_acc": 0.4474034620505992,
      "step": 75000
    },
    {
      "epoch": 3.213444154063665,
      "grad_norm": 2.9869415760040283,
      "learning_rate": 2.8329636245821988e-05,
      "loss": 0.3561123847961426,
      "memory(GiB)": 70.5,
      "step": 75005,
      "token_acc": 0.5801158301158301,
      "train_speed(iter/s)": 1.45103
    },
    {
      "epoch": 3.2136583693929137,
      "grad_norm": 3.38653302192688,
      "learning_rate": 2.8323571583004505e-05,
      "loss": 0.37024452686309817,
      "memory(GiB)": 70.5,
      "step": 75010,
      "token_acc": 0.9102167182662538,
      "train_speed(iter/s)": 1.451032
    },
    {
      "epoch": 3.2138725847221625,
      "grad_norm": 3.07083797454834,
      "learning_rate": 2.8317507312875845e-05,
      "loss": 0.24221265316009521,
      "memory(GiB)": 70.5,
      "step": 75015,
      "token_acc": 0.9381818181818182,
      "train_speed(iter/s)": 1.451037
    },
    {
      "epoch": 3.214086800051412,
      "grad_norm": 3.9762001037597656,
      "learning_rate": 2.8311443435545892e-05,
      "loss": 0.24602828025817872,
      "memory(GiB)": 70.5,
      "step": 75020,
      "token_acc": 0.9409448818897638,
      "train_speed(iter/s)": 1.451038
    },
    {
      "epoch": 3.2143010153806606,
      "grad_norm": 2.3741447925567627,
      "learning_rate": 2.8305379951124478e-05,
      "loss": 0.4387653827667236,
      "memory(GiB)": 70.5,
      "step": 75025,
      "token_acc": 0.9026845637583892,
      "train_speed(iter/s)": 1.451037
    },
    {
      "epoch": 3.2145152307099094,
      "grad_norm": 2.9164981842041016,
      "learning_rate": 2.8299316859721435e-05,
      "loss": 0.07935194969177246,
      "memory(GiB)": 70.5,
      "step": 75030,
      "token_acc": 0.9814126394052045,
      "train_speed(iter/s)": 1.451051
    },
    {
      "epoch": 3.2147294460391587,
      "grad_norm": 5.527071952819824,
      "learning_rate": 2.829325416144665e-05,
      "loss": 0.448537015914917,
      "memory(GiB)": 70.5,
      "step": 75035,
      "token_acc": 0.8932806324110671,
      "train_speed(iter/s)": 1.45107
    },
    {
      "epoch": 3.2149436613684075,
      "grad_norm": 5.278393268585205,
      "learning_rate": 2.8287191856409935e-05,
      "loss": 0.4672675132751465,
      "memory(GiB)": 70.5,
      "step": 75040,
      "token_acc": 0.8987341772151899,
      "train_speed(iter/s)": 1.451069
    },
    {
      "epoch": 3.2151578766976563,
      "grad_norm": 2.751208543777466,
      "learning_rate": 2.8281129944721096e-05,
      "loss": 0.33105058670043946,
      "memory(GiB)": 70.5,
      "step": 75045,
      "token_acc": 0.9390681003584229,
      "train_speed(iter/s)": 1.451068
    },
    {
      "epoch": 3.2153720920269055,
      "grad_norm": 1.6802996397018433,
      "learning_rate": 2.8275068426489965e-05,
      "loss": 0.28593029975891116,
      "memory(GiB)": 70.5,
      "step": 75050,
      "token_acc": 0.93,
      "train_speed(iter/s)": 1.451076
    },
    {
      "epoch": 3.2155863073561544,
      "grad_norm": 2.0401666164398193,
      "learning_rate": 2.826900730182635e-05,
      "loss": 0.2696421146392822,
      "memory(GiB)": 70.5,
      "step": 75055,
      "token_acc": 0.9486301369863014,
      "train_speed(iter/s)": 1.451077
    },
    {
      "epoch": 3.215800522685403,
      "grad_norm": 2.247663974761963,
      "learning_rate": 2.8262946570840032e-05,
      "loss": 0.3327061653137207,
      "memory(GiB)": 70.5,
      "step": 75060,
      "token_acc": 0.916955017301038,
      "train_speed(iter/s)": 1.451081
    },
    {
      "epoch": 3.2160147380146524,
      "grad_norm": 0.2210189402103424,
      "learning_rate": 2.8256886233640834e-05,
      "loss": 0.41120638847351076,
      "memory(GiB)": 70.5,
      "step": 75065,
      "token_acc": 0.9130434782608695,
      "train_speed(iter/s)": 1.45109
    },
    {
      "epoch": 3.2162289533439012,
      "grad_norm": 0.23943491280078888,
      "learning_rate": 2.825082629033855e-05,
      "loss": 0.46292738914489745,
      "memory(GiB)": 70.5,
      "step": 75070,
      "token_acc": 0.9082278481012658,
      "train_speed(iter/s)": 1.451099
    },
    {
      "epoch": 3.21644316867315,
      "grad_norm": 0.08721946179866791,
      "learning_rate": 2.824476674104295e-05,
      "loss": 0.2721043825149536,
      "memory(GiB)": 70.5,
      "step": 75075,
      "token_acc": 0.9333333333333333,
      "train_speed(iter/s)": 1.451101
    },
    {
      "epoch": 3.2166573840023993,
      "grad_norm": 3.0071284770965576,
      "learning_rate": 2.823870758586381e-05,
      "loss": 0.3187652587890625,
      "memory(GiB)": 70.5,
      "step": 75080,
      "token_acc": 0.9318181818181818,
      "train_speed(iter/s)": 1.451107
    },
    {
      "epoch": 3.216871599331648,
      "grad_norm": 3.3371622562408447,
      "learning_rate": 2.8232648824910902e-05,
      "loss": 0.4174026966094971,
      "memory(GiB)": 70.5,
      "step": 75085,
      "token_acc": 0.92,
      "train_speed(iter/s)": 1.451109
    },
    {
      "epoch": 3.217085814660897,
      "grad_norm": 3.373142957687378,
      "learning_rate": 2.8226590458293957e-05,
      "loss": 0.3506643295288086,
      "memory(GiB)": 70.5,
      "step": 75090,
      "token_acc": 0.911864406779661,
      "train_speed(iter/s)": 1.451108
    },
    {
      "epoch": 3.217300029990146,
      "grad_norm": 3.462688446044922,
      "learning_rate": 2.822053248612277e-05,
      "loss": 0.23957560062408448,
      "memory(GiB)": 70.5,
      "step": 75095,
      "token_acc": 0.9442231075697212,
      "train_speed(iter/s)": 1.451123
    },
    {
      "epoch": 3.217514245319395,
      "grad_norm": 4.762001991271973,
      "learning_rate": 2.8214474908507066e-05,
      "loss": 0.5819993019104004,
      "memory(GiB)": 70.5,
      "step": 75100,
      "token_acc": 0.8847583643122676,
      "train_speed(iter/s)": 1.451128
    },
    {
      "epoch": 3.217728460648644,
      "grad_norm": 5.1093363761901855,
      "learning_rate": 2.820841772555659e-05,
      "loss": 0.5557600498199463,
      "memory(GiB)": 70.5,
      "step": 75105,
      "token_acc": 0.8553191489361702,
      "train_speed(iter/s)": 1.45114
    },
    {
      "epoch": 3.217942675977893,
      "grad_norm": 0.6501772999763489,
      "learning_rate": 2.8202360937381066e-05,
      "loss": 0.3486659049987793,
      "memory(GiB)": 70.5,
      "step": 75110,
      "token_acc": 0.9083665338645418,
      "train_speed(iter/s)": 1.451141
    },
    {
      "epoch": 3.218156891307142,
      "grad_norm": 2.242772102355957,
      "learning_rate": 2.8196304544090225e-05,
      "loss": 0.2080383539199829,
      "memory(GiB)": 70.5,
      "step": 75115,
      "token_acc": 0.9563636363636364,
      "train_speed(iter/s)": 1.451149
    },
    {
      "epoch": 3.2183711066363907,
      "grad_norm": 2.046865940093994,
      "learning_rate": 2.819024854579375e-05,
      "loss": 0.47169198989868166,
      "memory(GiB)": 70.5,
      "step": 75120,
      "token_acc": 0.9228070175438596,
      "train_speed(iter/s)": 1.451151
    },
    {
      "epoch": 3.21858532196564,
      "grad_norm": 3.5784850120544434,
      "learning_rate": 2.8184192942601413e-05,
      "loss": 0.2644627571105957,
      "memory(GiB)": 70.5,
      "step": 75125,
      "token_acc": 0.950530035335689,
      "train_speed(iter/s)": 1.451153
    },
    {
      "epoch": 3.2187995372948888,
      "grad_norm": 6.444850444793701,
      "learning_rate": 2.8178137734622878e-05,
      "loss": 0.32673397064208987,
      "memory(GiB)": 70.5,
      "step": 75130,
      "token_acc": 0.9336099585062241,
      "train_speed(iter/s)": 1.451154
    },
    {
      "epoch": 3.2190137526241376,
      "grad_norm": 1.873722791671753,
      "learning_rate": 2.8172082921967836e-05,
      "loss": 0.28410000801086427,
      "memory(GiB)": 70.5,
      "step": 75135,
      "token_acc": 0.926923076923077,
      "train_speed(iter/s)": 1.451169
    },
    {
      "epoch": 3.219227967953387,
      "grad_norm": 1.8157676458358765,
      "learning_rate": 2.8166028504746e-05,
      "loss": 0.28237831592559814,
      "memory(GiB)": 70.5,
      "step": 75140,
      "token_acc": 0.9335664335664335,
      "train_speed(iter/s)": 1.451186
    },
    {
      "epoch": 3.2194421832826356,
      "grad_norm": 1.5531004667282104,
      "learning_rate": 2.8159974483067047e-05,
      "loss": 0.31177046298980715,
      "memory(GiB)": 70.5,
      "step": 75145,
      "token_acc": 0.9356913183279743,
      "train_speed(iter/s)": 1.451192
    },
    {
      "epoch": 3.2196563986118845,
      "grad_norm": 2.0258474349975586,
      "learning_rate": 2.815392085704062e-05,
      "loss": 0.3340648651123047,
      "memory(GiB)": 70.5,
      "step": 75150,
      "token_acc": 0.9385113268608414,
      "train_speed(iter/s)": 1.451196
    },
    {
      "epoch": 3.2198706139411337,
      "grad_norm": 2.4843032360076904,
      "learning_rate": 2.8147867626776437e-05,
      "loss": 0.23456413745880128,
      "memory(GiB)": 70.5,
      "step": 75155,
      "token_acc": 0.9519230769230769,
      "train_speed(iter/s)": 1.451199
    },
    {
      "epoch": 3.2200848292703825,
      "grad_norm": 4.019682884216309,
      "learning_rate": 2.8141814792384123e-05,
      "loss": 0.367003345489502,
      "memory(GiB)": 70.5,
      "step": 75160,
      "token_acc": 0.9305019305019305,
      "train_speed(iter/s)": 1.451196
    },
    {
      "epoch": 3.2202990445996313,
      "grad_norm": 3.8893539905548096,
      "learning_rate": 2.813576235397334e-05,
      "loss": 0.27210249900817873,
      "memory(GiB)": 70.5,
      "step": 75165,
      "token_acc": 0.9405940594059405,
      "train_speed(iter/s)": 1.451195
    },
    {
      "epoch": 3.2205132599288806,
      "grad_norm": 4.626502513885498,
      "learning_rate": 2.8129710311653735e-05,
      "loss": 0.7522389411926269,
      "memory(GiB)": 70.5,
      "step": 75170,
      "token_acc": 0.849112426035503,
      "train_speed(iter/s)": 1.451211
    },
    {
      "epoch": 3.2207274752581294,
      "grad_norm": 0.6970006823539734,
      "learning_rate": 2.8123658665534913e-05,
      "loss": 0.3350327730178833,
      "memory(GiB)": 70.5,
      "step": 75175,
      "token_acc": 0.9487179487179487,
      "train_speed(iter/s)": 1.451213
    },
    {
      "epoch": 3.2209416905873782,
      "grad_norm": 2.458442211151123,
      "learning_rate": 2.8117607415726565e-05,
      "loss": 0.21803910732269288,
      "memory(GiB)": 70.5,
      "step": 75180,
      "token_acc": 0.946949602122016,
      "train_speed(iter/s)": 1.451219
    },
    {
      "epoch": 3.2211559059166275,
      "grad_norm": 4.819361686706543,
      "learning_rate": 2.8111556562338292e-05,
      "loss": 0.3233463287353516,
      "memory(GiB)": 70.5,
      "step": 75185,
      "token_acc": 0.9381443298969072,
      "train_speed(iter/s)": 1.451224
    },
    {
      "epoch": 3.2213701212458763,
      "grad_norm": 7.006316661834717,
      "learning_rate": 2.8105506105479695e-05,
      "loss": 0.5230603218078613,
      "memory(GiB)": 70.5,
      "step": 75190,
      "token_acc": 0.8686567164179104,
      "train_speed(iter/s)": 1.451233
    },
    {
      "epoch": 3.221584336575125,
      "grad_norm": 0.8458946943283081,
      "learning_rate": 2.8099456045260396e-05,
      "loss": 0.17894960641860963,
      "memory(GiB)": 70.5,
      "step": 75195,
      "token_acc": 0.956953642384106,
      "train_speed(iter/s)": 1.451241
    },
    {
      "epoch": 3.2217985519043744,
      "grad_norm": 8.06461238861084,
      "learning_rate": 2.809340638179e-05,
      "loss": 0.39478373527526855,
      "memory(GiB)": 70.5,
      "step": 75200,
      "token_acc": 0.9176470588235294,
      "train_speed(iter/s)": 1.451246
    },
    {
      "epoch": 3.222012767233623,
      "grad_norm": 2.1162710189819336,
      "learning_rate": 2.808735711517807e-05,
      "loss": 0.5972624301910401,
      "memory(GiB)": 70.5,
      "step": 75205,
      "token_acc": 0.8767605633802817,
      "train_speed(iter/s)": 1.45126
    },
    {
      "epoch": 3.222226982562872,
      "grad_norm": 2.335866689682007,
      "learning_rate": 2.8081308245534228e-05,
      "loss": 0.2164177417755127,
      "memory(GiB)": 70.5,
      "step": 75210,
      "token_acc": 0.9449275362318841,
      "train_speed(iter/s)": 1.451268
    },
    {
      "epoch": 3.2224411978921212,
      "grad_norm": 4.466354846954346,
      "learning_rate": 2.8075259772968064e-05,
      "loss": 0.8529810905456543,
      "memory(GiB)": 70.5,
      "step": 75215,
      "token_acc": 0.8058510638297872,
      "train_speed(iter/s)": 1.451289
    },
    {
      "epoch": 3.22265541322137,
      "grad_norm": 1.1739505529403687,
      "learning_rate": 2.8069211697589138e-05,
      "loss": 0.27584741115570066,
      "memory(GiB)": 70.5,
      "step": 75220,
      "token_acc": 0.9482071713147411,
      "train_speed(iter/s)": 1.451296
    },
    {
      "epoch": 3.222869628550619,
      "grad_norm": 2.7857651710510254,
      "learning_rate": 2.8063164019507017e-05,
      "loss": 0.08486671447753906,
      "memory(GiB)": 70.5,
      "step": 75225,
      "token_acc": 0.9817629179331308,
      "train_speed(iter/s)": 1.451297
    },
    {
      "epoch": 3.223083843879868,
      "grad_norm": 3.360102415084839,
      "learning_rate": 2.805711673883125e-05,
      "loss": 0.4099071502685547,
      "memory(GiB)": 70.5,
      "step": 75230,
      "token_acc": 0.9173228346456693,
      "train_speed(iter/s)": 1.451299
    },
    {
      "epoch": 3.223298059209117,
      "grad_norm": 2.15248441696167,
      "learning_rate": 2.8051069855671387e-05,
      "loss": 0.09934760332107544,
      "memory(GiB)": 70.5,
      "step": 75235,
      "token_acc": 0.9705882352941176,
      "train_speed(iter/s)": 1.451306
    },
    {
      "epoch": 3.2235122745383658,
      "grad_norm": 6.499687194824219,
      "learning_rate": 2.8045023370136996e-05,
      "loss": 0.29233403205871583,
      "memory(GiB)": 70.5,
      "step": 75240,
      "token_acc": 0.9368770764119602,
      "train_speed(iter/s)": 1.451309
    },
    {
      "epoch": 3.223726489867615,
      "grad_norm": 0.4233017861843109,
      "learning_rate": 2.8038977282337607e-05,
      "loss": 0.1976815342903137,
      "memory(GiB)": 70.5,
      "step": 75245,
      "token_acc": 0.945619335347432,
      "train_speed(iter/s)": 1.45132
    },
    {
      "epoch": 3.223940705196864,
      "grad_norm": 0.4835679829120636,
      "learning_rate": 2.8032931592382743e-05,
      "loss": 0.3668114900588989,
      "memory(GiB)": 70.5,
      "step": 75250,
      "token_acc": 0.926056338028169,
      "train_speed(iter/s)": 1.451326
    },
    {
      "epoch": 3.2241549205261126,
      "grad_norm": 0.6242585778236389,
      "learning_rate": 2.802688630038193e-05,
      "loss": 0.14200583696365357,
      "memory(GiB)": 70.5,
      "step": 75255,
      "token_acc": 0.9724770642201835,
      "train_speed(iter/s)": 1.451328
    },
    {
      "epoch": 3.224369135855362,
      "grad_norm": 3.3395237922668457,
      "learning_rate": 2.8020841406444687e-05,
      "loss": 0.31669204235076903,
      "memory(GiB)": 70.5,
      "step": 75260,
      "token_acc": 0.9111842105263158,
      "train_speed(iter/s)": 1.451327
    },
    {
      "epoch": 3.2245833511846107,
      "grad_norm": 0.6448824405670166,
      "learning_rate": 2.8014796910680498e-05,
      "loss": 0.267722487449646,
      "memory(GiB)": 70.5,
      "step": 75265,
      "token_acc": 0.9263157894736842,
      "train_speed(iter/s)": 1.451334
    },
    {
      "epoch": 3.2247975665138595,
      "grad_norm": 5.412004470825195,
      "learning_rate": 2.800875281319891e-05,
      "loss": 0.6098781585693359,
      "memory(GiB)": 70.5,
      "step": 75270,
      "token_acc": 0.8439490445859873,
      "train_speed(iter/s)": 1.451335
    },
    {
      "epoch": 3.2250117818431088,
      "grad_norm": 0.9521579146385193,
      "learning_rate": 2.8002709114109392e-05,
      "loss": 0.5081943035125732,
      "memory(GiB)": 70.5,
      "step": 75275,
      "token_acc": 0.907563025210084,
      "train_speed(iter/s)": 1.451352
    },
    {
      "epoch": 3.2252259971723576,
      "grad_norm": 2.976186752319336,
      "learning_rate": 2.799666581352141e-05,
      "loss": 0.5647845268249512,
      "memory(GiB)": 70.5,
      "step": 75280,
      "token_acc": 0.8867313915857605,
      "train_speed(iter/s)": 1.451378
    },
    {
      "epoch": 3.2254402125016064,
      "grad_norm": 1.1419010162353516,
      "learning_rate": 2.7990622911544494e-05,
      "loss": 0.33280770778656005,
      "memory(GiB)": 70.5,
      "step": 75285,
      "token_acc": 0.921146953405018,
      "train_speed(iter/s)": 1.45138
    },
    {
      "epoch": 3.2256544278308557,
      "grad_norm": 5.527945518493652,
      "learning_rate": 2.7984580408288087e-05,
      "loss": 0.5013064861297607,
      "memory(GiB)": 70.5,
      "step": 75290,
      "token_acc": 0.9194444444444444,
      "train_speed(iter/s)": 1.451394
    },
    {
      "epoch": 3.2258686431601045,
      "grad_norm": 4.872481822967529,
      "learning_rate": 2.7978538303861635e-05,
      "loss": 0.4866637229919434,
      "memory(GiB)": 70.5,
      "step": 75295,
      "token_acc": 0.8904593639575972,
      "train_speed(iter/s)": 1.451394
    },
    {
      "epoch": 3.2260828584893533,
      "grad_norm": 2.8966660499572754,
      "learning_rate": 2.797249659837464e-05,
      "loss": 0.38243014812469484,
      "memory(GiB)": 70.5,
      "step": 75300,
      "token_acc": 0.8863636363636364,
      "train_speed(iter/s)": 1.451394
    },
    {
      "epoch": 3.2262970738186025,
      "grad_norm": 1.3555552959442139,
      "learning_rate": 2.796645529193654e-05,
      "loss": 0.35007495880126954,
      "memory(GiB)": 70.5,
      "step": 75305,
      "token_acc": 0.9273504273504274,
      "train_speed(iter/s)": 1.451397
    },
    {
      "epoch": 3.2265112891478513,
      "grad_norm": 0.3856491446495056,
      "learning_rate": 2.7960414384656763e-05,
      "loss": 0.16999369859695435,
      "memory(GiB)": 70.5,
      "step": 75310,
      "token_acc": 0.9554794520547946,
      "train_speed(iter/s)": 1.4514
    },
    {
      "epoch": 3.2267255044771,
      "grad_norm": 4.894618988037109,
      "learning_rate": 2.7954373876644756e-05,
      "loss": 0.2877516269683838,
      "memory(GiB)": 70.5,
      "step": 75315,
      "token_acc": 0.937984496124031,
      "train_speed(iter/s)": 1.451402
    },
    {
      "epoch": 3.2269397198063494,
      "grad_norm": 1.727864146232605,
      "learning_rate": 2.7948333768009932e-05,
      "loss": 0.34389486312866213,
      "memory(GiB)": 70.5,
      "step": 75320,
      "token_acc": 0.9269102990033222,
      "train_speed(iter/s)": 1.451427
    },
    {
      "epoch": 3.2271539351355982,
      "grad_norm": 5.307719707489014,
      "learning_rate": 2.7942294058861745e-05,
      "loss": 0.3993887424468994,
      "memory(GiB)": 70.5,
      "step": 75325,
      "token_acc": 0.9221311475409836,
      "train_speed(iter/s)": 1.451426
    },
    {
      "epoch": 3.227368150464847,
      "grad_norm": 4.208259105682373,
      "learning_rate": 2.7936254749309594e-05,
      "loss": 0.3057635068893433,
      "memory(GiB)": 70.5,
      "step": 75330,
      "token_acc": 0.9385665529010239,
      "train_speed(iter/s)": 1.451421
    },
    {
      "epoch": 3.2275823657940963,
      "grad_norm": 0.03324522078037262,
      "learning_rate": 2.7930215839462882e-05,
      "loss": 0.42290534973144533,
      "memory(GiB)": 70.5,
      "step": 75335,
      "token_acc": 0.8987730061349694,
      "train_speed(iter/s)": 1.451417
    },
    {
      "epoch": 3.227796581123345,
      "grad_norm": 1.1550246477127075,
      "learning_rate": 2.792417732943101e-05,
      "loss": 0.36349413394927976,
      "memory(GiB)": 70.5,
      "step": 75340,
      "token_acc": 0.928082191780822,
      "train_speed(iter/s)": 1.451424
    },
    {
      "epoch": 3.228010796452594,
      "grad_norm": 1.9986131191253662,
      "learning_rate": 2.7918139219323386e-05,
      "loss": 0.4894977569580078,
      "memory(GiB)": 70.5,
      "step": 75345,
      "token_acc": 0.9037800687285223,
      "train_speed(iter/s)": 1.451438
    },
    {
      "epoch": 3.228225011781843,
      "grad_norm": 2.802640914916992,
      "learning_rate": 2.7912101509249357e-05,
      "loss": 0.39223551750183105,
      "memory(GiB)": 70.5,
      "step": 75350,
      "token_acc": 0.9288256227758007,
      "train_speed(iter/s)": 1.451438
    },
    {
      "epoch": 3.228439227111092,
      "grad_norm": 1.6427676677703857,
      "learning_rate": 2.7906064199318327e-05,
      "loss": 0.22025647163391113,
      "memory(GiB)": 70.5,
      "step": 75355,
      "token_acc": 0.9541984732824428,
      "train_speed(iter/s)": 1.451454
    },
    {
      "epoch": 3.228653442440341,
      "grad_norm": 4.654759407043457,
      "learning_rate": 2.7900027289639695e-05,
      "loss": 0.7171690940856934,
      "memory(GiB)": 70.5,
      "step": 75360,
      "token_acc": 0.8787878787878788,
      "train_speed(iter/s)": 1.451468
    },
    {
      "epoch": 3.22886765776959,
      "grad_norm": 2.379079818725586,
      "learning_rate": 2.7893990780322798e-05,
      "loss": 0.21998331546783448,
      "memory(GiB)": 70.5,
      "step": 75365,
      "token_acc": 0.948051948051948,
      "train_speed(iter/s)": 1.451471
    },
    {
      "epoch": 3.229081873098839,
      "grad_norm": 4.243980407714844,
      "learning_rate": 2.7887954671477002e-05,
      "loss": 0.3770092248916626,
      "memory(GiB)": 70.5,
      "step": 75370,
      "token_acc": 0.9270833333333334,
      "train_speed(iter/s)": 1.451471
    },
    {
      "epoch": 3.2292960884280877,
      "grad_norm": 5.017594814300537,
      "learning_rate": 2.7881918963211638e-05,
      "loss": 0.29110767841339114,
      "memory(GiB)": 70.5,
      "step": 75375,
      "token_acc": 0.9259259259259259,
      "train_speed(iter/s)": 1.451478
    },
    {
      "epoch": 3.229510303757337,
      "grad_norm": 4.905587673187256,
      "learning_rate": 2.787588365563605e-05,
      "loss": 0.2870715379714966,
      "memory(GiB)": 70.5,
      "step": 75380,
      "token_acc": 0.9330855018587361,
      "train_speed(iter/s)": 1.451478
    },
    {
      "epoch": 3.2297245190865858,
      "grad_norm": 1.927597165107727,
      "learning_rate": 2.7869848748859596e-05,
      "loss": 0.10694575309753418,
      "memory(GiB)": 70.5,
      "step": 75385,
      "token_acc": 0.9786324786324786,
      "train_speed(iter/s)": 1.451482
    },
    {
      "epoch": 3.2299387344158346,
      "grad_norm": 0.9936454892158508,
      "learning_rate": 2.786381424299159e-05,
      "loss": 0.15108145475387574,
      "memory(GiB)": 70.5,
      "step": 75390,
      "token_acc": 0.9700374531835206,
      "train_speed(iter/s)": 1.451487
    },
    {
      "epoch": 3.230152949745084,
      "grad_norm": 1.8133394718170166,
      "learning_rate": 2.7857780138141365e-05,
      "loss": 0.4697120189666748,
      "memory(GiB)": 70.5,
      "step": 75395,
      "token_acc": 0.9094202898550725,
      "train_speed(iter/s)": 1.451487
    },
    {
      "epoch": 3.2303671650743326,
      "grad_norm": 2.3702163696289062,
      "learning_rate": 2.785174643441822e-05,
      "loss": 0.15678516626358033,
      "memory(GiB)": 70.5,
      "step": 75400,
      "token_acc": 0.9525316455696202,
      "train_speed(iter/s)": 1.451494
    },
    {
      "epoch": 3.2305813804035814,
      "grad_norm": 4.752873420715332,
      "learning_rate": 2.7845713131931462e-05,
      "loss": 0.17932963371276855,
      "memory(GiB)": 70.5,
      "step": 75405,
      "token_acc": 0.9566787003610109,
      "train_speed(iter/s)": 1.451496
    },
    {
      "epoch": 3.2307955957328307,
      "grad_norm": 2.7616519927978516,
      "learning_rate": 2.783968023079038e-05,
      "loss": 0.34952218532562257,
      "memory(GiB)": 70.5,
      "step": 75410,
      "token_acc": 0.9015873015873016,
      "train_speed(iter/s)": 1.451501
    },
    {
      "epoch": 3.2310098110620795,
      "grad_norm": 3.089284658432007,
      "learning_rate": 2.7833647731104284e-05,
      "loss": 0.33015496730804444,
      "memory(GiB)": 70.5,
      "step": 75415,
      "token_acc": 0.9188311688311688,
      "train_speed(iter/s)": 1.451503
    },
    {
      "epoch": 3.2312240263913283,
      "grad_norm": 3.248432159423828,
      "learning_rate": 2.7827615632982462e-05,
      "loss": 0.28604879379272463,
      "memory(GiB)": 70.5,
      "step": 75420,
      "token_acc": 0.9182156133828996,
      "train_speed(iter/s)": 1.451511
    },
    {
      "epoch": 3.2314382417205776,
      "grad_norm": 2.0939388275146484,
      "learning_rate": 2.782158393653419e-05,
      "loss": 0.251406192779541,
      "memory(GiB)": 70.5,
      "step": 75425,
      "token_acc": 0.9568345323741008,
      "train_speed(iter/s)": 1.45151
    },
    {
      "epoch": 3.2316524570498264,
      "grad_norm": 4.207325458526611,
      "learning_rate": 2.7815552641868703e-05,
      "loss": 0.35194573402404783,
      "memory(GiB)": 70.5,
      "step": 75430,
      "token_acc": 0.9133574007220217,
      "train_speed(iter/s)": 1.451526
    },
    {
      "epoch": 3.231866672379075,
      "grad_norm": 2.057314157485962,
      "learning_rate": 2.78095217490953e-05,
      "loss": 0.5321663856506348,
      "memory(GiB)": 70.5,
      "step": 75435,
      "token_acc": 0.8868613138686131,
      "train_speed(iter/s)": 1.451536
    },
    {
      "epoch": 3.2320808877083245,
      "grad_norm": 1.7218208312988281,
      "learning_rate": 2.7803491258323224e-05,
      "loss": 0.5015110969543457,
      "memory(GiB)": 70.5,
      "step": 75440,
      "token_acc": 0.8827361563517915,
      "train_speed(iter/s)": 1.451543
    },
    {
      "epoch": 3.2322951030375733,
      "grad_norm": 2.0915684700012207,
      "learning_rate": 2.7797461169661735e-05,
      "loss": 0.18941234350204467,
      "memory(GiB)": 70.5,
      "step": 75445,
      "token_acc": 0.9575289575289575,
      "train_speed(iter/s)": 1.451552
    },
    {
      "epoch": 3.2325093183668225,
      "grad_norm": 6.1857829093933105,
      "learning_rate": 2.779143148322007e-05,
      "loss": 0.2995100498199463,
      "memory(GiB)": 70.5,
      "step": 75450,
      "token_acc": 0.9331103678929766,
      "train_speed(iter/s)": 1.451564
    },
    {
      "epoch": 3.2327235336960713,
      "grad_norm": 2.7394487857818604,
      "learning_rate": 2.7785402199107456e-05,
      "loss": 0.25883395671844484,
      "memory(GiB)": 70.5,
      "step": 75455,
      "token_acc": 0.9473684210526315,
      "train_speed(iter/s)": 1.451562
    },
    {
      "epoch": 3.23293774902532,
      "grad_norm": 5.137842178344727,
      "learning_rate": 2.7779373317433122e-05,
      "loss": 0.3596503734588623,
      "memory(GiB)": 70.5,
      "step": 75460,
      "token_acc": 0.9245283018867925,
      "train_speed(iter/s)": 1.451563
    },
    {
      "epoch": 3.2331519643545694,
      "grad_norm": 2.9010369777679443,
      "learning_rate": 2.777334483830626e-05,
      "loss": 0.2417844295501709,
      "memory(GiB)": 70.5,
      "step": 75465,
      "token_acc": 0.927007299270073,
      "train_speed(iter/s)": 1.451577
    },
    {
      "epoch": 3.2333661796838182,
      "grad_norm": 2.670588731765747,
      "learning_rate": 2.7767316761836125e-05,
      "loss": 0.2514598846435547,
      "memory(GiB)": 70.5,
      "step": 75470,
      "token_acc": 0.942652329749104,
      "train_speed(iter/s)": 1.451581
    },
    {
      "epoch": 3.233580395013067,
      "grad_norm": 4.466032028198242,
      "learning_rate": 2.7761289088131916e-05,
      "loss": 0.6576560020446778,
      "memory(GiB)": 70.5,
      "step": 75475,
      "token_acc": 0.8588588588588588,
      "train_speed(iter/s)": 1.45158
    },
    {
      "epoch": 3.2337946103423163,
      "grad_norm": 1.6880244016647339,
      "learning_rate": 2.77552618173028e-05,
      "loss": 0.5644524097442627,
      "memory(GiB)": 70.5,
      "step": 75480,
      "token_acc": 0.88,
      "train_speed(iter/s)": 1.451583
    },
    {
      "epoch": 3.234008825671565,
      "grad_norm": 5.0584716796875,
      "learning_rate": 2.7749234949457992e-05,
      "loss": 0.21197071075439453,
      "memory(GiB)": 70.5,
      "step": 75485,
      "token_acc": 0.9565217391304348,
      "train_speed(iter/s)": 1.451596
    },
    {
      "epoch": 3.234223041000814,
      "grad_norm": 1.7449092864990234,
      "learning_rate": 2.7743208484706667e-05,
      "loss": 0.2744066953659058,
      "memory(GiB)": 70.5,
      "step": 75490,
      "token_acc": 0.9300699300699301,
      "train_speed(iter/s)": 1.451599
    },
    {
      "epoch": 3.234437256330063,
      "grad_norm": 2.2986185550689697,
      "learning_rate": 2.7737182423157982e-05,
      "loss": 0.24439573287963867,
      "memory(GiB)": 70.5,
      "step": 75495,
      "token_acc": 0.9535714285714286,
      "train_speed(iter/s)": 1.451603
    },
    {
      "epoch": 3.234651471659312,
      "grad_norm": 4.945136547088623,
      "learning_rate": 2.7731156764921112e-05,
      "loss": 0.4335947513580322,
      "memory(GiB)": 70.5,
      "step": 75500,
      "token_acc": 0.898876404494382,
      "train_speed(iter/s)": 1.451611
    },
    {
      "epoch": 3.234651471659312,
      "eval_loss": 2.529121160507202,
      "eval_runtime": 10.9573,
      "eval_samples_per_second": 9.126,
      "eval_steps_per_second": 9.126,
      "eval_token_acc": 0.45594405594405596,
      "step": 75500
    },
    {
      "epoch": 3.234865686988561,
      "grad_norm": 3.0232255458831787,
      "learning_rate": 2.772513151010525e-05,
      "loss": 0.2197362184524536,
      "memory(GiB)": 70.5,
      "step": 75505,
      "token_acc": 0.58004158004158,
      "train_speed(iter/s)": 1.451276
    },
    {
      "epoch": 3.23507990231781,
      "grad_norm": 3.3081634044647217,
      "learning_rate": 2.7719106658819526e-05,
      "loss": 0.44962825775146487,
      "memory(GiB)": 70.5,
      "step": 75510,
      "token_acc": 0.9069069069069069,
      "train_speed(iter/s)": 1.451273
    },
    {
      "epoch": 3.235294117647059,
      "grad_norm": 2.545828342437744,
      "learning_rate": 2.771308221117309e-05,
      "loss": 0.20519671440124512,
      "memory(GiB)": 70.5,
      "step": 75515,
      "token_acc": 0.954225352112676,
      "train_speed(iter/s)": 1.451273
    },
    {
      "epoch": 3.2355083329763077,
      "grad_norm": 3.8612217903137207,
      "learning_rate": 2.7707058167275075e-05,
      "loss": 0.5690186977386474,
      "memory(GiB)": 70.5,
      "step": 75520,
      "token_acc": 0.8675496688741722,
      "train_speed(iter/s)": 1.451284
    },
    {
      "epoch": 3.235722548305557,
      "grad_norm": 2.6745824813842773,
      "learning_rate": 2.770103452723459e-05,
      "loss": 0.4755393981933594,
      "memory(GiB)": 70.5,
      "step": 75525,
      "token_acc": 0.9009009009009009,
      "train_speed(iter/s)": 1.451283
    },
    {
      "epoch": 3.2359367636348058,
      "grad_norm": 2.7501933574676514,
      "learning_rate": 2.769501129116081e-05,
      "loss": 0.4048442840576172,
      "memory(GiB)": 70.5,
      "step": 75530,
      "token_acc": 0.8930817610062893,
      "train_speed(iter/s)": 1.451287
    },
    {
      "epoch": 3.2361509789640546,
      "grad_norm": 2.588372230529785,
      "learning_rate": 2.7688988459162818e-05,
      "loss": 0.3342895030975342,
      "memory(GiB)": 70.5,
      "step": 75535,
      "token_acc": 0.9416058394160584,
      "train_speed(iter/s)": 1.451293
    },
    {
      "epoch": 3.236365194293304,
      "grad_norm": 2.1585960388183594,
      "learning_rate": 2.7682966031349732e-05,
      "loss": 0.24490184783935548,
      "memory(GiB)": 70.5,
      "step": 75540,
      "token_acc": 0.9387096774193548,
      "train_speed(iter/s)": 1.451293
    },
    {
      "epoch": 3.2365794096225526,
      "grad_norm": 3.4170517921447754,
      "learning_rate": 2.7676944007830653e-05,
      "loss": 0.26085171699523924,
      "memory(GiB)": 70.5,
      "step": 75545,
      "token_acc": 0.9280575539568345,
      "train_speed(iter/s)": 1.451297
    },
    {
      "epoch": 3.2367936249518015,
      "grad_norm": 2.5120437145233154,
      "learning_rate": 2.767092238871467e-05,
      "loss": 0.4636964797973633,
      "memory(GiB)": 70.5,
      "step": 75550,
      "token_acc": 0.8948863636363636,
      "train_speed(iter/s)": 1.45131
    },
    {
      "epoch": 3.2370078402810507,
      "grad_norm": 0.147556334733963,
      "learning_rate": 2.7664901174110857e-05,
      "loss": 0.21711885929107666,
      "memory(GiB)": 70.5,
      "step": 75555,
      "token_acc": 0.9456521739130435,
      "train_speed(iter/s)": 1.451318
    },
    {
      "epoch": 3.2372220556102995,
      "grad_norm": 0.35938239097595215,
      "learning_rate": 2.7658880364128326e-05,
      "loss": 0.3110125780105591,
      "memory(GiB)": 70.5,
      "step": 75560,
      "token_acc": 0.9404761904761905,
      "train_speed(iter/s)": 1.451328
    },
    {
      "epoch": 3.2374362709395483,
      "grad_norm": 1.356909155845642,
      "learning_rate": 2.7652859958876142e-05,
      "loss": 0.3047926902770996,
      "memory(GiB)": 70.5,
      "step": 75565,
      "token_acc": 0.9272727272727272,
      "train_speed(iter/s)": 1.451349
    },
    {
      "epoch": 3.2376504862687976,
      "grad_norm": 5.754091739654541,
      "learning_rate": 2.764683995846336e-05,
      "loss": 0.36484925746917723,
      "memory(GiB)": 70.5,
      "step": 75570,
      "token_acc": 0.9236363636363636,
      "train_speed(iter/s)": 1.45135
    },
    {
      "epoch": 3.2378647015980464,
      "grad_norm": 0.9414657354354858,
      "learning_rate": 2.764082036299902e-05,
      "loss": 0.25726709365844724,
      "memory(GiB)": 70.5,
      "step": 75575,
      "token_acc": 0.9356060606060606,
      "train_speed(iter/s)": 1.451368
    },
    {
      "epoch": 3.238078916927295,
      "grad_norm": 2.9723637104034424,
      "learning_rate": 2.7634801172592217e-05,
      "loss": 0.5155729293823242,
      "memory(GiB)": 70.5,
      "step": 75580,
      "token_acc": 0.8807339449541285,
      "train_speed(iter/s)": 1.451372
    },
    {
      "epoch": 3.2382931322565445,
      "grad_norm": 1.8751178979873657,
      "learning_rate": 2.7628782387351948e-05,
      "loss": 0.1503794550895691,
      "memory(GiB)": 70.5,
      "step": 75585,
      "token_acc": 0.9631449631449631,
      "train_speed(iter/s)": 1.451385
    },
    {
      "epoch": 3.2385073475857933,
      "grad_norm": 1.5258194208145142,
      "learning_rate": 2.762276400738729e-05,
      "loss": 0.1860993981361389,
      "memory(GiB)": 70.5,
      "step": 75590,
      "token_acc": 0.9458333333333333,
      "train_speed(iter/s)": 1.451386
    },
    {
      "epoch": 3.238721562915042,
      "grad_norm": 4.962723255157471,
      "learning_rate": 2.7616746032807262e-05,
      "loss": 0.35512843132019045,
      "memory(GiB)": 70.5,
      "step": 75595,
      "token_acc": 0.9115384615384615,
      "train_speed(iter/s)": 1.451388
    },
    {
      "epoch": 3.2389357782442914,
      "grad_norm": 5.507379531860352,
      "learning_rate": 2.761072846372087e-05,
      "loss": 0.2599926948547363,
      "memory(GiB)": 70.5,
      "step": 75600,
      "token_acc": 0.9368770764119602,
      "train_speed(iter/s)": 1.451404
    },
    {
      "epoch": 3.23914999357354,
      "grad_norm": 2.2790119647979736,
      "learning_rate": 2.760471130023714e-05,
      "loss": 0.3100806713104248,
      "memory(GiB)": 70.5,
      "step": 75605,
      "token_acc": 0.9492063492063492,
      "train_speed(iter/s)": 1.451421
    },
    {
      "epoch": 3.239364208902789,
      "grad_norm": 3.9354288578033447,
      "learning_rate": 2.7598694542465047e-05,
      "loss": 0.2228926658630371,
      "memory(GiB)": 70.5,
      "step": 75610,
      "token_acc": 0.9553264604810997,
      "train_speed(iter/s)": 1.451425
    },
    {
      "epoch": 3.2395784242320382,
      "grad_norm": 3.2070999145507812,
      "learning_rate": 2.7592678190513638e-05,
      "loss": 0.15209512710571288,
      "memory(GiB)": 70.5,
      "step": 75615,
      "token_acc": 0.9649122807017544,
      "train_speed(iter/s)": 1.451426
    },
    {
      "epoch": 3.239792639561287,
      "grad_norm": 5.589025974273682,
      "learning_rate": 2.7586662244491883e-05,
      "loss": 0.23962876796722413,
      "memory(GiB)": 70.5,
      "step": 75620,
      "token_acc": 0.9664179104477612,
      "train_speed(iter/s)": 1.451427
    },
    {
      "epoch": 3.240006854890536,
      "grad_norm": 2.8562707901000977,
      "learning_rate": 2.7580646704508772e-05,
      "loss": 0.16425036191940307,
      "memory(GiB)": 70.5,
      "step": 75625,
      "token_acc": 0.9584775086505191,
      "train_speed(iter/s)": 1.451439
    },
    {
      "epoch": 3.240221070219785,
      "grad_norm": 4.050625801086426,
      "learning_rate": 2.757463157067327e-05,
      "loss": 0.4966247081756592,
      "memory(GiB)": 70.5,
      "step": 75630,
      "token_acc": 0.882943143812709,
      "train_speed(iter/s)": 1.451448
    },
    {
      "epoch": 3.240435285549034,
      "grad_norm": 5.4198503494262695,
      "learning_rate": 2.756861684309436e-05,
      "loss": 0.3323625087738037,
      "memory(GiB)": 70.5,
      "step": 75635,
      "token_acc": 0.9285714285714286,
      "train_speed(iter/s)": 1.451464
    },
    {
      "epoch": 3.2406495008782827,
      "grad_norm": 0.30669835209846497,
      "learning_rate": 2.7562602521880975e-05,
      "loss": 0.3383155584335327,
      "memory(GiB)": 70.5,
      "step": 75640,
      "token_acc": 0.924187725631769,
      "train_speed(iter/s)": 1.451463
    },
    {
      "epoch": 3.240863716207532,
      "grad_norm": 4.150321006774902,
      "learning_rate": 2.7556588607142107e-05,
      "loss": 0.374970531463623,
      "memory(GiB)": 70.5,
      "step": 75645,
      "token_acc": 0.9203187250996016,
      "train_speed(iter/s)": 1.451479
    },
    {
      "epoch": 3.241077931536781,
      "grad_norm": 0.22038471698760986,
      "learning_rate": 2.7550575098986688e-05,
      "loss": 0.45179238319396975,
      "memory(GiB)": 70.5,
      "step": 75650,
      "token_acc": 0.9259259259259259,
      "train_speed(iter/s)": 1.45148
    },
    {
      "epoch": 3.2412921468660296,
      "grad_norm": 0.9197000861167908,
      "learning_rate": 2.7544561997523665e-05,
      "loss": 0.18192824125289916,
      "memory(GiB)": 70.5,
      "step": 75655,
      "token_acc": 0.9572649572649573,
      "train_speed(iter/s)": 1.451488
    },
    {
      "epoch": 3.241506362195279,
      "grad_norm": 3.5915534496307373,
      "learning_rate": 2.753854930286197e-05,
      "loss": 0.48256716728210447,
      "memory(GiB)": 70.5,
      "step": 75660,
      "token_acc": 0.9049180327868852,
      "train_speed(iter/s)": 1.4515
    },
    {
      "epoch": 3.2417205775245277,
      "grad_norm": 3.391273021697998,
      "learning_rate": 2.7532537015110528e-05,
      "loss": 0.35688629150390627,
      "memory(GiB)": 70.5,
      "step": 75665,
      "token_acc": 0.9285714285714286,
      "train_speed(iter/s)": 1.4515
    },
    {
      "epoch": 3.2419347928537765,
      "grad_norm": 2.7456202507019043,
      "learning_rate": 2.752652513437823e-05,
      "loss": 0.23683226108551025,
      "memory(GiB)": 70.5,
      "step": 75670,
      "token_acc": 0.9471544715447154,
      "train_speed(iter/s)": 1.451502
    },
    {
      "epoch": 3.2421490081830258,
      "grad_norm": 3.3202965259552,
      "learning_rate": 2.7520513660774028e-05,
      "loss": 0.3414145469665527,
      "memory(GiB)": 70.5,
      "step": 75675,
      "token_acc": 0.9194630872483222,
      "train_speed(iter/s)": 1.451506
    },
    {
      "epoch": 3.2423632235122746,
      "grad_norm": 3.100064277648926,
      "learning_rate": 2.7514502594406812e-05,
      "loss": 0.34651961326599123,
      "memory(GiB)": 70.5,
      "step": 75680,
      "token_acc": 0.9259259259259259,
      "train_speed(iter/s)": 1.451504
    },
    {
      "epoch": 3.2425774388415234,
      "grad_norm": 3.7665271759033203,
      "learning_rate": 2.7508491935385478e-05,
      "loss": 0.32422442436218263,
      "memory(GiB)": 70.5,
      "step": 75685,
      "token_acc": 0.9195804195804196,
      "train_speed(iter/s)": 1.451512
    },
    {
      "epoch": 3.2427916541707726,
      "grad_norm": 0.2175547480583191,
      "learning_rate": 2.750248168381891e-05,
      "loss": 0.2849047422409058,
      "memory(GiB)": 70.5,
      "step": 75690,
      "token_acc": 0.9290780141843972,
      "train_speed(iter/s)": 1.451518
    },
    {
      "epoch": 3.2430058695000215,
      "grad_norm": 2.6292855739593506,
      "learning_rate": 2.7496471839815983e-05,
      "loss": 0.3163318634033203,
      "memory(GiB)": 70.5,
      "step": 75695,
      "token_acc": 0.9380281690140845,
      "train_speed(iter/s)": 1.451518
    },
    {
      "epoch": 3.2432200848292703,
      "grad_norm": 2.769347906112671,
      "learning_rate": 2.7490462403485574e-05,
      "loss": 0.54081130027771,
      "memory(GiB)": 70.5,
      "step": 75700,
      "token_acc": 0.8981818181818182,
      "train_speed(iter/s)": 1.451541
    },
    {
      "epoch": 3.2434343001585195,
      "grad_norm": 1.7073606252670288,
      "learning_rate": 2.7484453374936558e-05,
      "loss": 0.3987556219100952,
      "memory(GiB)": 70.5,
      "step": 75705,
      "token_acc": 0.9373040752351097,
      "train_speed(iter/s)": 1.451557
    },
    {
      "epoch": 3.2436485154877683,
      "grad_norm": 1.9477957487106323,
      "learning_rate": 2.74784447542778e-05,
      "loss": 0.43057589530944823,
      "memory(GiB)": 70.5,
      "step": 75710,
      "token_acc": 0.9094202898550725,
      "train_speed(iter/s)": 1.451558
    },
    {
      "epoch": 3.243862730817017,
      "grad_norm": 2.522026300430298,
      "learning_rate": 2.7472436541618142e-05,
      "loss": 0.2138500213623047,
      "memory(GiB)": 70.5,
      "step": 75715,
      "token_acc": 0.9555555555555556,
      "train_speed(iter/s)": 1.451564
    },
    {
      "epoch": 3.2440769461462664,
      "grad_norm": 3.1785237789154053,
      "learning_rate": 2.7466428737066426e-05,
      "loss": 0.23321690559387206,
      "memory(GiB)": 70.5,
      "step": 75720,
      "token_acc": 0.9538461538461539,
      "train_speed(iter/s)": 1.451572
    },
    {
      "epoch": 3.244291161475515,
      "grad_norm": 4.973398685455322,
      "learning_rate": 2.7460421340731468e-05,
      "loss": 0.4850743293762207,
      "memory(GiB)": 70.5,
      "step": 75725,
      "token_acc": 0.8992537313432836,
      "train_speed(iter/s)": 1.451581
    },
    {
      "epoch": 3.244505376804764,
      "grad_norm": 3.492300033569336,
      "learning_rate": 2.7454414352722128e-05,
      "loss": 0.38610448837280276,
      "memory(GiB)": 70.5,
      "step": 75730,
      "token_acc": 0.9081967213114754,
      "train_speed(iter/s)": 1.451592
    },
    {
      "epoch": 3.2447195921340133,
      "grad_norm": 2.026979684829712,
      "learning_rate": 2.7448407773147238e-05,
      "loss": 0.4490792751312256,
      "memory(GiB)": 70.5,
      "step": 75735,
      "token_acc": 0.8943894389438944,
      "train_speed(iter/s)": 1.451592
    },
    {
      "epoch": 3.244933807463262,
      "grad_norm": 4.928522109985352,
      "learning_rate": 2.7442401602115596e-05,
      "loss": 0.45957112312316895,
      "memory(GiB)": 70.5,
      "step": 75740,
      "token_acc": 0.9158576051779935,
      "train_speed(iter/s)": 1.451595
    },
    {
      "epoch": 3.245148022792511,
      "grad_norm": 3.610081672668457,
      "learning_rate": 2.7436395839736016e-05,
      "loss": 0.6258733749389649,
      "memory(GiB)": 70.5,
      "step": 75745,
      "token_acc": 0.8571428571428571,
      "train_speed(iter/s)": 1.45162
    },
    {
      "epoch": 3.24536223812176,
      "grad_norm": 0.3534820079803467,
      "learning_rate": 2.7430390486117284e-05,
      "loss": 0.17650516033172609,
      "memory(GiB)": 70.5,
      "step": 75750,
      "token_acc": 0.9671532846715328,
      "train_speed(iter/s)": 1.451619
    },
    {
      "epoch": 3.245576453451009,
      "grad_norm": 2.3934712409973145,
      "learning_rate": 2.742438554136818e-05,
      "loss": 0.1969342350959778,
      "memory(GiB)": 70.5,
      "step": 75755,
      "token_acc": 0.9512195121951219,
      "train_speed(iter/s)": 1.45162
    },
    {
      "epoch": 3.245790668780258,
      "grad_norm": 2.1072094440460205,
      "learning_rate": 2.741838100559754e-05,
      "loss": 0.28892228603363035,
      "memory(GiB)": 70.5,
      "step": 75760,
      "token_acc": 0.9379310344827586,
      "train_speed(iter/s)": 1.451626
    },
    {
      "epoch": 3.246004884109507,
      "grad_norm": 2.076842784881592,
      "learning_rate": 2.7412376878914105e-05,
      "loss": 0.21032447814941407,
      "memory(GiB)": 70.5,
      "step": 75765,
      "token_acc": 0.9547038327526133,
      "train_speed(iter/s)": 1.451634
    },
    {
      "epoch": 3.246219099438756,
      "grad_norm": 2.749467372894287,
      "learning_rate": 2.7406373161426647e-05,
      "loss": 0.5677361488342285,
      "memory(GiB)": 70.5,
      "step": 75770,
      "token_acc": 0.8761609907120743,
      "train_speed(iter/s)": 1.451642
    },
    {
      "epoch": 3.2464333147680047,
      "grad_norm": 2.143228769302368,
      "learning_rate": 2.7400369853243936e-05,
      "loss": 0.3563957691192627,
      "memory(GiB)": 70.5,
      "step": 75775,
      "token_acc": 0.9149659863945578,
      "train_speed(iter/s)": 1.451638
    },
    {
      "epoch": 3.246647530097254,
      "grad_norm": 0.052310552448034286,
      "learning_rate": 2.7394366954474726e-05,
      "loss": 0.47988409996032716,
      "memory(GiB)": 70.5,
      "step": 75780,
      "token_acc": 0.9108910891089109,
      "train_speed(iter/s)": 1.45164
    },
    {
      "epoch": 3.2468617454265027,
      "grad_norm": 4.674689769744873,
      "learning_rate": 2.7388364465227746e-05,
      "loss": 0.6528712272644043,
      "memory(GiB)": 70.5,
      "step": 75785,
      "token_acc": 0.8862068965517241,
      "train_speed(iter/s)": 1.451645
    },
    {
      "epoch": 3.2470759607557516,
      "grad_norm": 2.469425678253174,
      "learning_rate": 2.738236238561177e-05,
      "loss": 0.27686712741851804,
      "memory(GiB)": 70.5,
      "step": 75790,
      "token_acc": 0.9420289855072463,
      "train_speed(iter/s)": 1.451647
    },
    {
      "epoch": 3.247290176085001,
      "grad_norm": 0.48147332668304443,
      "learning_rate": 2.7376360715735527e-05,
      "loss": 0.3273857831954956,
      "memory(GiB)": 70.5,
      "step": 75795,
      "token_acc": 0.9383116883116883,
      "train_speed(iter/s)": 1.451653
    },
    {
      "epoch": 3.2475043914142496,
      "grad_norm": 5.789987087249756,
      "learning_rate": 2.7370359455707706e-05,
      "loss": 0.48539342880249026,
      "memory(GiB)": 70.5,
      "step": 75800,
      "token_acc": 0.9006849315068494,
      "train_speed(iter/s)": 1.451658
    },
    {
      "epoch": 3.2477186067434984,
      "grad_norm": 2.4188015460968018,
      "learning_rate": 2.736435860563707e-05,
      "loss": 0.20534048080444336,
      "memory(GiB)": 70.5,
      "step": 75805,
      "token_acc": 0.9433962264150944,
      "train_speed(iter/s)": 1.451666
    },
    {
      "epoch": 3.2479328220727477,
      "grad_norm": 5.161648750305176,
      "learning_rate": 2.7358358165632313e-05,
      "loss": 0.1888630509376526,
      "memory(GiB)": 70.5,
      "step": 75810,
      "token_acc": 0.959409594095941,
      "train_speed(iter/s)": 1.451674
    },
    {
      "epoch": 3.2481470374019965,
      "grad_norm": 3.1224586963653564,
      "learning_rate": 2.7352358135802113e-05,
      "loss": 0.5582102298736572,
      "memory(GiB)": 70.5,
      "step": 75815,
      "token_acc": 0.8757961783439491,
      "train_speed(iter/s)": 1.451678
    },
    {
      "epoch": 3.2483612527312453,
      "grad_norm": 4.197760105133057,
      "learning_rate": 2.7346358516255222e-05,
      "loss": 0.4212174415588379,
      "memory(GiB)": 70.5,
      "step": 75820,
      "token_acc": 0.9088145896656535,
      "train_speed(iter/s)": 1.451692
    },
    {
      "epoch": 3.2485754680604946,
      "grad_norm": 1.9539834260940552,
      "learning_rate": 2.7340359307100287e-05,
      "loss": 0.3794163703918457,
      "memory(GiB)": 70.5,
      "step": 75825,
      "token_acc": 0.90625,
      "train_speed(iter/s)": 1.451706
    },
    {
      "epoch": 3.2487896833897434,
      "grad_norm": 2.360140323638916,
      "learning_rate": 2.7334360508446005e-05,
      "loss": 0.40594944953918455,
      "memory(GiB)": 70.5,
      "step": 75830,
      "token_acc": 0.9058823529411765,
      "train_speed(iter/s)": 1.451713
    },
    {
      "epoch": 3.249003898718992,
      "grad_norm": 2.3468973636627197,
      "learning_rate": 2.732836212040104e-05,
      "loss": 0.3227132797241211,
      "memory(GiB)": 70.5,
      "step": 75835,
      "token_acc": 0.9351145038167938,
      "train_speed(iter/s)": 1.451714
    },
    {
      "epoch": 3.2492181140482415,
      "grad_norm": 2.5965211391448975,
      "learning_rate": 2.732236414307407e-05,
      "loss": 0.5598494529724121,
      "memory(GiB)": 70.5,
      "step": 75840,
      "token_acc": 0.8813559322033898,
      "train_speed(iter/s)": 1.451719
    },
    {
      "epoch": 3.2494323293774903,
      "grad_norm": 4.661868095397949,
      "learning_rate": 2.731636657657372e-05,
      "loss": 0.5643983840942383,
      "memory(GiB)": 70.5,
      "step": 75845,
      "token_acc": 0.916923076923077,
      "train_speed(iter/s)": 1.451726
    },
    {
      "epoch": 3.249646544706739,
      "grad_norm": 2.0008387565612793,
      "learning_rate": 2.731036942100869e-05,
      "loss": 0.25427539348602296,
      "memory(GiB)": 70.5,
      "step": 75850,
      "token_acc": 0.9325153374233128,
      "train_speed(iter/s)": 1.451733
    },
    {
      "epoch": 3.2498607600359883,
      "grad_norm": 0.5089155435562134,
      "learning_rate": 2.7304372676487606e-05,
      "loss": 0.37240622043609617,
      "memory(GiB)": 70.5,
      "step": 75855,
      "token_acc": 0.9191176470588235,
      "train_speed(iter/s)": 1.451735
    },
    {
      "epoch": 3.250074975365237,
      "grad_norm": 0.3083784282207489,
      "learning_rate": 2.72983763431191e-05,
      "loss": 0.42049803733825686,
      "memory(GiB)": 70.5,
      "step": 75860,
      "token_acc": 0.9301470588235294,
      "train_speed(iter/s)": 1.451742
    },
    {
      "epoch": 3.250289190694486,
      "grad_norm": 3.144010066986084,
      "learning_rate": 2.72923804210118e-05,
      "loss": 0.427443790435791,
      "memory(GiB)": 70.5,
      "step": 75865,
      "token_acc": 0.9182156133828996,
      "train_speed(iter/s)": 1.451746
    },
    {
      "epoch": 3.250503406023735,
      "grad_norm": 3.2281579971313477,
      "learning_rate": 2.728638491027431e-05,
      "loss": 0.54694504737854,
      "memory(GiB)": 70.5,
      "step": 75870,
      "token_acc": 0.8858131487889274,
      "train_speed(iter/s)": 1.451746
    },
    {
      "epoch": 3.250717621352984,
      "grad_norm": 3.2166032791137695,
      "learning_rate": 2.7280389811015267e-05,
      "loss": 0.36889848709106443,
      "memory(GiB)": 70.5,
      "step": 75875,
      "token_acc": 0.937007874015748,
      "train_speed(iter/s)": 1.45176
    },
    {
      "epoch": 3.250931836682233,
      "grad_norm": 2.0017123222351074,
      "learning_rate": 2.7274395123343295e-05,
      "loss": 0.17859561443328859,
      "memory(GiB)": 70.5,
      "step": 75880,
      "token_acc": 0.9622093023255814,
      "train_speed(iter/s)": 1.451764
    },
    {
      "epoch": 3.251146052011482,
      "grad_norm": 3.093571424484253,
      "learning_rate": 2.726840084736697e-05,
      "loss": 0.2922536849975586,
      "memory(GiB)": 70.5,
      "step": 75885,
      "token_acc": 0.9273927392739274,
      "train_speed(iter/s)": 1.45177
    },
    {
      "epoch": 3.251360267340731,
      "grad_norm": 5.360564231872559,
      "learning_rate": 2.7262406983194894e-05,
      "loss": 0.4428237438201904,
      "memory(GiB)": 70.5,
      "step": 75890,
      "token_acc": 0.918918918918919,
      "train_speed(iter/s)": 1.451779
    },
    {
      "epoch": 3.2515744826699797,
      "grad_norm": 3.2918221950531006,
      "learning_rate": 2.725641353093564e-05,
      "loss": 0.3866992235183716,
      "memory(GiB)": 70.5,
      "step": 75895,
      "token_acc": 0.9090909090909091,
      "train_speed(iter/s)": 1.45179
    },
    {
      "epoch": 3.251788697999229,
      "grad_norm": 4.3132758140563965,
      "learning_rate": 2.725042049069777e-05,
      "loss": 0.38684544563293455,
      "memory(GiB)": 70.5,
      "step": 75900,
      "token_acc": 0.9059561128526645,
      "train_speed(iter/s)": 1.451788
    },
    {
      "epoch": 3.252002913328478,
      "grad_norm": 8.421517372131348,
      "learning_rate": 2.7244427862589893e-05,
      "loss": 0.32124838829040525,
      "memory(GiB)": 70.5,
      "step": 75905,
      "token_acc": 0.931899641577061,
      "train_speed(iter/s)": 1.451791
    },
    {
      "epoch": 3.2522171286577266,
      "grad_norm": 1.5827997922897339,
      "learning_rate": 2.723843564672056e-05,
      "loss": 0.15559942722320558,
      "memory(GiB)": 70.5,
      "step": 75910,
      "token_acc": 0.9576547231270358,
      "train_speed(iter/s)": 1.451804
    },
    {
      "epoch": 3.252431343986976,
      "grad_norm": 2.703334331512451,
      "learning_rate": 2.723244384319831e-05,
      "loss": 0.46973366737365724,
      "memory(GiB)": 70.5,
      "step": 75915,
      "token_acc": 0.8983739837398373,
      "train_speed(iter/s)": 1.451818
    },
    {
      "epoch": 3.2526455593162247,
      "grad_norm": 2.061962127685547,
      "learning_rate": 2.7226452452131703e-05,
      "loss": 0.31015868186950685,
      "memory(GiB)": 70.5,
      "step": 75920,
      "token_acc": 0.9298245614035088,
      "train_speed(iter/s)": 1.451823
    },
    {
      "epoch": 3.2528597746454735,
      "grad_norm": 4.537320613861084,
      "learning_rate": 2.7220461473629265e-05,
      "loss": 0.29909043312072753,
      "memory(GiB)": 70.5,
      "step": 75925,
      "token_acc": 0.9460431654676259,
      "train_speed(iter/s)": 1.451838
    },
    {
      "epoch": 3.2530739899747227,
      "grad_norm": 3.905756950378418,
      "learning_rate": 2.7214470907799517e-05,
      "loss": 0.2790122747421265,
      "memory(GiB)": 70.5,
      "step": 75930,
      "token_acc": 0.9378531073446328,
      "train_speed(iter/s)": 1.451852
    },
    {
      "epoch": 3.2532882053039716,
      "grad_norm": 4.332085609436035,
      "learning_rate": 2.7208480754751033e-05,
      "loss": 0.2520740985870361,
      "memory(GiB)": 70.5,
      "step": 75935,
      "token_acc": 0.9345454545454546,
      "train_speed(iter/s)": 1.451848
    },
    {
      "epoch": 3.2535024206332204,
      "grad_norm": 4.2112579345703125,
      "learning_rate": 2.7202491014592292e-05,
      "loss": 0.18306574821472169,
      "memory(GiB)": 70.5,
      "step": 75940,
      "token_acc": 0.9547038327526133,
      "train_speed(iter/s)": 1.45185
    },
    {
      "epoch": 3.2537166359624696,
      "grad_norm": 4.026095390319824,
      "learning_rate": 2.719650168743179e-05,
      "loss": 0.3673809051513672,
      "memory(GiB)": 70.5,
      "step": 75945,
      "token_acc": 0.9291338582677166,
      "train_speed(iter/s)": 1.451858
    },
    {
      "epoch": 3.2539308512917184,
      "grad_norm": 2.262763738632202,
      "learning_rate": 2.7190512773378075e-05,
      "loss": 0.31252250671386717,
      "memory(GiB)": 70.5,
      "step": 75950,
      "token_acc": 0.9433333333333334,
      "train_speed(iter/s)": 1.451862
    },
    {
      "epoch": 3.2541450666209673,
      "grad_norm": 3.34683895111084,
      "learning_rate": 2.718452427253962e-05,
      "loss": 0.5140592098236084,
      "memory(GiB)": 70.5,
      "step": 75955,
      "token_acc": 0.8962655601659751,
      "train_speed(iter/s)": 1.451862
    },
    {
      "epoch": 3.2543592819502165,
      "grad_norm": 5.129993438720703,
      "learning_rate": 2.717853618502489e-05,
      "loss": 0.3451760053634644,
      "memory(GiB)": 70.5,
      "step": 75960,
      "token_acc": 0.9253246753246753,
      "train_speed(iter/s)": 1.451875
    },
    {
      "epoch": 3.2545734972794653,
      "grad_norm": 4.899639129638672,
      "learning_rate": 2.7172548510942402e-05,
      "loss": 0.26637156009674073,
      "memory(GiB)": 70.5,
      "step": 75965,
      "token_acc": 0.9586776859504132,
      "train_speed(iter/s)": 1.451896
    },
    {
      "epoch": 3.254787712608714,
      "grad_norm": 2.37540864944458,
      "learning_rate": 2.7166561250400613e-05,
      "loss": 0.25063228607177734,
      "memory(GiB)": 70.5,
      "step": 75970,
      "token_acc": 0.926829268292683,
      "train_speed(iter/s)": 1.451898
    },
    {
      "epoch": 3.2550019279379634,
      "grad_norm": 0.6421253681182861,
      "learning_rate": 2.7160574403507988e-05,
      "loss": 0.7282151222229004,
      "memory(GiB)": 70.5,
      "step": 75975,
      "token_acc": 0.8641509433962264,
      "train_speed(iter/s)": 1.451904
    },
    {
      "epoch": 3.255216143267212,
      "grad_norm": 0.4150952994823456,
      "learning_rate": 2.715458797037298e-05,
      "loss": 0.23336663246154785,
      "memory(GiB)": 70.5,
      "step": 75980,
      "token_acc": 0.9623287671232876,
      "train_speed(iter/s)": 1.451906
    },
    {
      "epoch": 3.255430358596461,
      "grad_norm": 2.741637945175171,
      "learning_rate": 2.7148601951104046e-05,
      "loss": 0.4006908416748047,
      "memory(GiB)": 70.5,
      "step": 75985,
      "token_acc": 0.9,
      "train_speed(iter/s)": 1.451915
    },
    {
      "epoch": 3.2556445739257103,
      "grad_norm": 3.649942636489868,
      "learning_rate": 2.71426163458096e-05,
      "loss": 0.2945849418640137,
      "memory(GiB)": 70.5,
      "step": 75990,
      "token_acc": 0.9322033898305084,
      "train_speed(iter/s)": 1.451918
    },
    {
      "epoch": 3.255858789254959,
      "grad_norm": 4.436227321624756,
      "learning_rate": 2.7136631154598124e-05,
      "loss": 0.21772444248199463,
      "memory(GiB)": 70.5,
      "step": 75995,
      "token_acc": 0.930327868852459,
      "train_speed(iter/s)": 1.45192
    },
    {
      "epoch": 3.256073004584208,
      "grad_norm": 2.4202494621276855,
      "learning_rate": 2.7130646377578018e-05,
      "loss": 0.13818323612213135,
      "memory(GiB)": 70.5,
      "step": 76000,
      "token_acc": 0.9652173913043478,
      "train_speed(iter/s)": 1.451924
    },
    {
      "epoch": 3.256073004584208,
      "eval_loss": 2.7528741359710693,
      "eval_runtime": 10.7677,
      "eval_samples_per_second": 9.287,
      "eval_steps_per_second": 9.287,
      "eval_token_acc": 0.4204685573366215,
      "step": 76000
    },
    {
      "epoch": 3.256287219913457,
      "grad_norm": 2.8344476222991943,
      "learning_rate": 2.712466201485771e-05,
      "loss": 0.31244349479675293,
      "memory(GiB)": 70.5,
      "step": 76005,
      "token_acc": 0.5276967930029155,
      "train_speed(iter/s)": 1.451598
    },
    {
      "epoch": 3.256501435242706,
      "grad_norm": 4.319677352905273,
      "learning_rate": 2.7118678066545607e-05,
      "loss": 0.37259368896484374,
      "memory(GiB)": 70.5,
      "step": 76010,
      "token_acc": 0.9376947040498442,
      "train_speed(iter/s)": 1.451612
    },
    {
      "epoch": 3.256715650571955,
      "grad_norm": 1.321218490600586,
      "learning_rate": 2.7112694532750092e-05,
      "loss": 0.121258544921875,
      "memory(GiB)": 70.5,
      "step": 76015,
      "token_acc": 0.9652509652509652,
      "train_speed(iter/s)": 1.451611
    },
    {
      "epoch": 3.256929865901204,
      "grad_norm": 3.2012507915496826,
      "learning_rate": 2.7106711413579587e-05,
      "loss": 0.37652790546417236,
      "memory(GiB)": 70.5,
      "step": 76020,
      "token_acc": 0.9262295081967213,
      "train_speed(iter/s)": 1.451622
    },
    {
      "epoch": 3.257144081230453,
      "grad_norm": 3.975170135498047,
      "learning_rate": 2.710072870914251e-05,
      "loss": 0.16690773963928224,
      "memory(GiB)": 70.5,
      "step": 76025,
      "token_acc": 0.9560439560439561,
      "train_speed(iter/s)": 1.451621
    },
    {
      "epoch": 3.2573582965597017,
      "grad_norm": 4.332321643829346,
      "learning_rate": 2.7094746419547202e-05,
      "loss": 0.40117650032043456,
      "memory(GiB)": 70.5,
      "step": 76030,
      "token_acc": 0.9146757679180887,
      "train_speed(iter/s)": 1.45162
    },
    {
      "epoch": 3.257572511888951,
      "grad_norm": 7.016833305358887,
      "learning_rate": 2.7088764544902057e-05,
      "loss": 0.6588433265686036,
      "memory(GiB)": 70.5,
      "step": 76035,
      "token_acc": 0.865625,
      "train_speed(iter/s)": 1.451617
    },
    {
      "epoch": 3.2577867272181997,
      "grad_norm": 5.606475353240967,
      "learning_rate": 2.7082783085315426e-05,
      "loss": 0.3907916069030762,
      "memory(GiB)": 70.5,
      "step": 76040,
      "token_acc": 0.9069767441860465,
      "train_speed(iter/s)": 1.451616
    },
    {
      "epoch": 3.2580009425474485,
      "grad_norm": 1.588653326034546,
      "learning_rate": 2.7076802040895666e-05,
      "loss": 0.24637329578399658,
      "memory(GiB)": 70.5,
      "step": 76045,
      "token_acc": 0.9574468085106383,
      "train_speed(iter/s)": 1.451618
    },
    {
      "epoch": 3.258215157876698,
      "grad_norm": 2.572835683822632,
      "learning_rate": 2.7070821411751158e-05,
      "loss": 0.49542951583862305,
      "memory(GiB)": 70.5,
      "step": 76050,
      "token_acc": 0.8914473684210527,
      "train_speed(iter/s)": 1.451624
    },
    {
      "epoch": 3.2584293732059466,
      "grad_norm": 1.0195342302322388,
      "learning_rate": 2.7064841197990225e-05,
      "loss": 0.508385705947876,
      "memory(GiB)": 70.5,
      "step": 76055,
      "token_acc": 0.8915254237288136,
      "train_speed(iter/s)": 1.451642
    },
    {
      "epoch": 3.2586435885351954,
      "grad_norm": 4.122791290283203,
      "learning_rate": 2.7058861399721213e-05,
      "loss": 0.4218748092651367,
      "memory(GiB)": 70.5,
      "step": 76060,
      "token_acc": 0.9096045197740112,
      "train_speed(iter/s)": 1.45165
    },
    {
      "epoch": 3.2588578038644447,
      "grad_norm": 1.5667649507522583,
      "learning_rate": 2.705288201705245e-05,
      "loss": 0.5531343460083008,
      "memory(GiB)": 70.5,
      "step": 76065,
      "token_acc": 0.8730650154798761,
      "train_speed(iter/s)": 1.451656
    },
    {
      "epoch": 3.2590720191936935,
      "grad_norm": 2.693119764328003,
      "learning_rate": 2.704690305009225e-05,
      "loss": 0.2880615949630737,
      "memory(GiB)": 70.5,
      "step": 76070,
      "token_acc": 0.9273927392739274,
      "train_speed(iter/s)": 1.451654
    },
    {
      "epoch": 3.2592862345229423,
      "grad_norm": 2.768310070037842,
      "learning_rate": 2.7040924498948918e-05,
      "loss": 0.47836718559265134,
      "memory(GiB)": 70.5,
      "step": 76075,
      "token_acc": 0.9008498583569405,
      "train_speed(iter/s)": 1.451663
    },
    {
      "epoch": 3.2595004498521916,
      "grad_norm": 0.47821715474128723,
      "learning_rate": 2.703494636373079e-05,
      "loss": 0.21651859283447267,
      "memory(GiB)": 70.5,
      "step": 76080,
      "token_acc": 0.951310861423221,
      "train_speed(iter/s)": 1.451669
    },
    {
      "epoch": 3.2597146651814404,
      "grad_norm": 5.336543083190918,
      "learning_rate": 2.7028968644546154e-05,
      "loss": 0.5504088401794434,
      "memory(GiB)": 70.5,
      "step": 76085,
      "token_acc": 0.897887323943662,
      "train_speed(iter/s)": 1.451682
    },
    {
      "epoch": 3.259928880510689,
      "grad_norm": 7.244588851928711,
      "learning_rate": 2.7022991341503302e-05,
      "loss": 0.27094545364379885,
      "memory(GiB)": 70.5,
      "step": 76090,
      "token_acc": 0.9426751592356688,
      "train_speed(iter/s)": 1.451687
    },
    {
      "epoch": 3.2601430958399384,
      "grad_norm": 1.690824270248413,
      "learning_rate": 2.7017014454710492e-05,
      "loss": 0.3042689323425293,
      "memory(GiB)": 70.5,
      "step": 76095,
      "token_acc": 0.9275862068965517,
      "train_speed(iter/s)": 1.45169
    },
    {
      "epoch": 3.2603573111691873,
      "grad_norm": 5.757138729095459,
      "learning_rate": 2.7011037984276043e-05,
      "loss": 0.3144578456878662,
      "memory(GiB)": 70.5,
      "step": 76100,
      "token_acc": 0.9233716475095786,
      "train_speed(iter/s)": 1.451694
    },
    {
      "epoch": 3.260571526498436,
      "grad_norm": 3.4832613468170166,
      "learning_rate": 2.7005061930308195e-05,
      "loss": 0.3834530353546143,
      "memory(GiB)": 70.5,
      "step": 76105,
      "token_acc": 0.9008264462809917,
      "train_speed(iter/s)": 1.451695
    },
    {
      "epoch": 3.2607857418276853,
      "grad_norm": 0.08475606143474579,
      "learning_rate": 2.6999086292915234e-05,
      "loss": 0.20022280216217042,
      "memory(GiB)": 70.5,
      "step": 76110,
      "token_acc": 0.9454545454545454,
      "train_speed(iter/s)": 1.451692
    },
    {
      "epoch": 3.260999957156934,
      "grad_norm": 1.38406240940094,
      "learning_rate": 2.6993111072205406e-05,
      "loss": 0.3430408239364624,
      "memory(GiB)": 70.5,
      "step": 76115,
      "token_acc": 0.917981072555205,
      "train_speed(iter/s)": 1.451695
    },
    {
      "epoch": 3.261214172486183,
      "grad_norm": 0.2587694227695465,
      "learning_rate": 2.698713626828695e-05,
      "loss": 0.04526030123233795,
      "memory(GiB)": 70.5,
      "step": 76120,
      "token_acc": 0.9897610921501706,
      "train_speed(iter/s)": 1.451707
    },
    {
      "epoch": 3.261428387815432,
      "grad_norm": 4.082998752593994,
      "learning_rate": 2.6981161881268113e-05,
      "loss": 0.35506424903869627,
      "memory(GiB)": 70.5,
      "step": 76125,
      "token_acc": 0.9212598425196851,
      "train_speed(iter/s)": 1.45172
    },
    {
      "epoch": 3.261642603144681,
      "grad_norm": 4.38040018081665,
      "learning_rate": 2.6975187911257116e-05,
      "loss": 0.28040204048156736,
      "memory(GiB)": 70.5,
      "step": 76130,
      "token_acc": 0.9389830508474576,
      "train_speed(iter/s)": 1.451737
    },
    {
      "epoch": 3.26185681847393,
      "grad_norm": 2.644629716873169,
      "learning_rate": 2.696921435836217e-05,
      "loss": 0.2507516384124756,
      "memory(GiB)": 70.5,
      "step": 76135,
      "token_acc": 0.934375,
      "train_speed(iter/s)": 1.451734
    },
    {
      "epoch": 3.262071033803179,
      "grad_norm": 1.5814002752304077,
      "learning_rate": 2.6963241222691533e-05,
      "loss": 0.19630749225616456,
      "memory(GiB)": 70.5,
      "step": 76140,
      "token_acc": 0.9453376205787781,
      "train_speed(iter/s)": 1.451731
    },
    {
      "epoch": 3.262285249132428,
      "grad_norm": 5.04544734954834,
      "learning_rate": 2.6957268504353394e-05,
      "loss": 0.4517465114593506,
      "memory(GiB)": 70.5,
      "step": 76145,
      "token_acc": 0.9142857142857143,
      "train_speed(iter/s)": 1.451739
    },
    {
      "epoch": 3.2624994644616767,
      "grad_norm": 2.4770517349243164,
      "learning_rate": 2.6951296203455945e-05,
      "loss": 0.43717098236083984,
      "memory(GiB)": 70.5,
      "step": 76150,
      "token_acc": 0.9003322259136213,
      "train_speed(iter/s)": 1.451741
    },
    {
      "epoch": 3.262713679790926,
      "grad_norm": 3.619467258453369,
      "learning_rate": 2.694532432010739e-05,
      "loss": 0.4201968669891357,
      "memory(GiB)": 70.5,
      "step": 76155,
      "token_acc": 0.9042553191489362,
      "train_speed(iter/s)": 1.451742
    },
    {
      "epoch": 3.262927895120175,
      "grad_norm": 0.24301782250404358,
      "learning_rate": 2.693935285441589e-05,
      "loss": 0.10318347215652465,
      "memory(GiB)": 70.5,
      "step": 76160,
      "token_acc": 0.981549815498155,
      "train_speed(iter/s)": 1.451739
    },
    {
      "epoch": 3.2631421104494236,
      "grad_norm": 3.2053658962249756,
      "learning_rate": 2.693338180648965e-05,
      "loss": 0.30606684684753416,
      "memory(GiB)": 70.5,
      "step": 76165,
      "token_acc": 0.921311475409836,
      "train_speed(iter/s)": 1.451744
    },
    {
      "epoch": 3.263356325778673,
      "grad_norm": 2.063267230987549,
      "learning_rate": 2.6927411176436857e-05,
      "loss": 0.4004330635070801,
      "memory(GiB)": 70.5,
      "step": 76170,
      "token_acc": 0.9223880597014925,
      "train_speed(iter/s)": 1.451744
    },
    {
      "epoch": 3.2635705411079217,
      "grad_norm": 5.491952896118164,
      "learning_rate": 2.692144096436565e-05,
      "loss": 0.6407248497009277,
      "memory(GiB)": 70.5,
      "step": 76175,
      "token_acc": 0.8610271903323263,
      "train_speed(iter/s)": 1.451743
    },
    {
      "epoch": 3.2637847564371705,
      "grad_norm": 2.151737928390503,
      "learning_rate": 2.6915471170384188e-05,
      "loss": 0.18359043598175048,
      "memory(GiB)": 70.5,
      "step": 76180,
      "token_acc": 0.955719557195572,
      "train_speed(iter/s)": 1.451748
    },
    {
      "epoch": 3.2639989717664197,
      "grad_norm": 2.48724365234375,
      "learning_rate": 2.6909501794600622e-05,
      "loss": 0.2843721866607666,
      "memory(GiB)": 70.5,
      "step": 76185,
      "token_acc": 0.9429530201342282,
      "train_speed(iter/s)": 1.451756
    },
    {
      "epoch": 3.2642131870956685,
      "grad_norm": 2.741041421890259,
      "learning_rate": 2.690353283712308e-05,
      "loss": 0.29929242134094236,
      "memory(GiB)": 70.5,
      "step": 76190,
      "token_acc": 0.9223300970873787,
      "train_speed(iter/s)": 1.451762
    },
    {
      "epoch": 3.2644274024249174,
      "grad_norm": 0.19481870532035828,
      "learning_rate": 2.689756429805972e-05,
      "loss": 0.2940845489501953,
      "memory(GiB)": 70.5,
      "step": 76195,
      "token_acc": 0.9228187919463087,
      "train_speed(iter/s)": 1.451768
    },
    {
      "epoch": 3.2646416177541666,
      "grad_norm": 3.515092134475708,
      "learning_rate": 2.6891596177518652e-05,
      "loss": 0.37049615383148193,
      "memory(GiB)": 70.5,
      "step": 76200,
      "token_acc": 0.9011857707509882,
      "train_speed(iter/s)": 1.451787
    },
    {
      "epoch": 3.2648558330834154,
      "grad_norm": 2.0847530364990234,
      "learning_rate": 2.6885628475608006e-05,
      "loss": 0.29238803386688234,
      "memory(GiB)": 70.5,
      "step": 76205,
      "token_acc": 0.9368770764119602,
      "train_speed(iter/s)": 1.451792
    },
    {
      "epoch": 3.2650700484126642,
      "grad_norm": 6.533871173858643,
      "learning_rate": 2.6879661192435866e-05,
      "loss": 0.35365309715271,
      "memory(GiB)": 70.5,
      "step": 76210,
      "token_acc": 0.9211356466876972,
      "train_speed(iter/s)": 1.451792
    },
    {
      "epoch": 3.2652842637419135,
      "grad_norm": 0.716683030128479,
      "learning_rate": 2.6873694328110365e-05,
      "loss": 0.44804606437683103,
      "memory(GiB)": 70.5,
      "step": 76215,
      "token_acc": 0.9507042253521126,
      "train_speed(iter/s)": 1.4518
    },
    {
      "epoch": 3.2654984790711623,
      "grad_norm": 6.531966686248779,
      "learning_rate": 2.6867727882739568e-05,
      "loss": 0.38264830112457277,
      "memory(GiB)": 70.5,
      "step": 76220,
      "token_acc": 0.9111111111111111,
      "train_speed(iter/s)": 1.451799
    },
    {
      "epoch": 3.265712694400411,
      "grad_norm": 4.732046127319336,
      "learning_rate": 2.6861761856431595e-05,
      "loss": 0.14369401931762696,
      "memory(GiB)": 70.5,
      "step": 76225,
      "token_acc": 0.968503937007874,
      "train_speed(iter/s)": 1.451796
    },
    {
      "epoch": 3.2659269097296604,
      "grad_norm": 4.1569623947143555,
      "learning_rate": 2.6855796249294512e-05,
      "loss": 0.2958106279373169,
      "memory(GiB)": 70.5,
      "step": 76230,
      "token_acc": 0.9340659340659341,
      "train_speed(iter/s)": 1.451797
    },
    {
      "epoch": 3.266141125058909,
      "grad_norm": 2.3334619998931885,
      "learning_rate": 2.6849831061436394e-05,
      "loss": 0.3202864408493042,
      "memory(GiB)": 70.5,
      "step": 76235,
      "token_acc": 0.925,
      "train_speed(iter/s)": 1.451806
    },
    {
      "epoch": 3.266355340388158,
      "grad_norm": 3.5411336421966553,
      "learning_rate": 2.684386629296528e-05,
      "loss": 0.5692065715789795,
      "memory(GiB)": 70.5,
      "step": 76240,
      "token_acc": 0.8753799392097265,
      "train_speed(iter/s)": 1.451828
    },
    {
      "epoch": 3.2665695557174073,
      "grad_norm": 4.243320465087891,
      "learning_rate": 2.683790194398927e-05,
      "loss": 0.30570416450500487,
      "memory(GiB)": 70.5,
      "step": 76245,
      "token_acc": 0.9421768707482994,
      "train_speed(iter/s)": 1.451833
    },
    {
      "epoch": 3.266783771046656,
      "grad_norm": 5.010836124420166,
      "learning_rate": 2.6831938014616377e-05,
      "loss": 0.3511080503463745,
      "memory(GiB)": 70.5,
      "step": 76250,
      "token_acc": 0.9388489208633094,
      "train_speed(iter/s)": 1.451832
    },
    {
      "epoch": 3.266997986375905,
      "grad_norm": 2.6087164878845215,
      "learning_rate": 2.6825974504954676e-05,
      "loss": 0.37510342597961427,
      "memory(GiB)": 70.5,
      "step": 76255,
      "token_acc": 0.9241379310344827,
      "train_speed(iter/s)": 1.451841
    },
    {
      "epoch": 3.267212201705154,
      "grad_norm": 1.9517488479614258,
      "learning_rate": 2.6820011415112183e-05,
      "loss": 0.3994414806365967,
      "memory(GiB)": 70.5,
      "step": 76260,
      "token_acc": 0.9193548387096774,
      "train_speed(iter/s)": 1.451859
    },
    {
      "epoch": 3.267426417034403,
      "grad_norm": 3.945502758026123,
      "learning_rate": 2.6814048745196933e-05,
      "loss": 0.5241445541381836,
      "memory(GiB)": 70.5,
      "step": 76265,
      "token_acc": 0.8848684210526315,
      "train_speed(iter/s)": 1.451862
    },
    {
      "epoch": 3.2676406323636518,
      "grad_norm": 2.4876866340637207,
      "learning_rate": 2.6808086495316943e-05,
      "loss": 0.4586804389953613,
      "memory(GiB)": 70.5,
      "step": 76270,
      "token_acc": 0.9032258064516129,
      "train_speed(iter/s)": 1.451864
    },
    {
      "epoch": 3.267854847692901,
      "grad_norm": 5.508580207824707,
      "learning_rate": 2.68021246655802e-05,
      "loss": 0.4147289276123047,
      "memory(GiB)": 70.5,
      "step": 76275,
      "token_acc": 0.9264214046822743,
      "train_speed(iter/s)": 1.451865
    },
    {
      "epoch": 3.26806906302215,
      "grad_norm": 3.642164945602417,
      "learning_rate": 2.679616325609474e-05,
      "loss": 0.20950989723205565,
      "memory(GiB)": 70.5,
      "step": 76280,
      "token_acc": 0.9496644295302014,
      "train_speed(iter/s)": 1.451867
    },
    {
      "epoch": 3.2682832783513986,
      "grad_norm": 3.44710373878479,
      "learning_rate": 2.679020226696856e-05,
      "loss": 0.32474002838134763,
      "memory(GiB)": 70.5,
      "step": 76285,
      "token_acc": 0.9230769230769231,
      "train_speed(iter/s)": 1.451868
    },
    {
      "epoch": 3.268497493680648,
      "grad_norm": 3.669088840484619,
      "learning_rate": 2.678424169830964e-05,
      "loss": 0.34071803092956543,
      "memory(GiB)": 70.5,
      "step": 76290,
      "token_acc": 0.9468085106382979,
      "train_speed(iter/s)": 1.451883
    },
    {
      "epoch": 3.2687117090098967,
      "grad_norm": 9.639293670654297,
      "learning_rate": 2.6778281550225957e-05,
      "loss": 0.5248431205749512,
      "memory(GiB)": 70.5,
      "step": 76295,
      "token_acc": 0.8829113924050633,
      "train_speed(iter/s)": 1.451887
    },
    {
      "epoch": 3.2689259243391455,
      "grad_norm": 0.9854648113250732,
      "learning_rate": 2.6772321822825486e-05,
      "loss": 0.22946412563323976,
      "memory(GiB)": 70.5,
      "step": 76300,
      "token_acc": 0.9385665529010239,
      "train_speed(iter/s)": 1.451889
    },
    {
      "epoch": 3.269140139668395,
      "grad_norm": 2.6481409072875977,
      "learning_rate": 2.6766362516216177e-05,
      "loss": 0.1619524598121643,
      "memory(GiB)": 70.5,
      "step": 76305,
      "token_acc": 0.9685314685314685,
      "train_speed(iter/s)": 1.451893
    },
    {
      "epoch": 3.2693543549976436,
      "grad_norm": 2.569620132446289,
      "learning_rate": 2.6760403630506027e-05,
      "loss": 0.6142435073852539,
      "memory(GiB)": 70.5,
      "step": 76310,
      "token_acc": 0.8851351351351351,
      "train_speed(iter/s)": 1.451891
    },
    {
      "epoch": 3.2695685703268924,
      "grad_norm": 2.0251073837280273,
      "learning_rate": 2.6754445165802938e-05,
      "loss": 0.5830944538116455,
      "memory(GiB)": 70.5,
      "step": 76315,
      "token_acc": 0.8838709677419355,
      "train_speed(iter/s)": 1.451895
    },
    {
      "epoch": 3.2697827856561417,
      "grad_norm": 4.288359642028809,
      "learning_rate": 2.6748487122214905e-05,
      "loss": 0.36306066513061525,
      "memory(GiB)": 70.5,
      "step": 76320,
      "token_acc": 0.905511811023622,
      "train_speed(iter/s)": 1.451907
    },
    {
      "epoch": 3.2699970009853905,
      "grad_norm": 2.472191572189331,
      "learning_rate": 2.6742529499849846e-05,
      "loss": 0.517972755432129,
      "memory(GiB)": 70.5,
      "step": 76325,
      "token_acc": 0.8913043478260869,
      "train_speed(iter/s)": 1.451911
    },
    {
      "epoch": 3.2702112163146393,
      "grad_norm": 3.6178696155548096,
      "learning_rate": 2.673657229881567e-05,
      "loss": 0.424453067779541,
      "memory(GiB)": 70.5,
      "step": 76330,
      "token_acc": 0.9064327485380117,
      "train_speed(iter/s)": 1.451932
    },
    {
      "epoch": 3.2704254316438885,
      "grad_norm": 1.9958457946777344,
      "learning_rate": 2.67306155192203e-05,
      "loss": 0.41380987167358396,
      "memory(GiB)": 70.5,
      "step": 76335,
      "token_acc": 0.9125,
      "train_speed(iter/s)": 1.451937
    },
    {
      "epoch": 3.2706396469731374,
      "grad_norm": 3.182771921157837,
      "learning_rate": 2.6724659161171674e-05,
      "loss": 0.2921538591384888,
      "memory(GiB)": 70.5,
      "step": 76340,
      "token_acc": 0.9433962264150944,
      "train_speed(iter/s)": 1.451941
    },
    {
      "epoch": 3.270853862302386,
      "grad_norm": 8.254858016967773,
      "learning_rate": 2.671870322477768e-05,
      "loss": 0.43375911712646487,
      "memory(GiB)": 70.5,
      "step": 76345,
      "token_acc": 0.896875,
      "train_speed(iter/s)": 1.451943
    },
    {
      "epoch": 3.2710680776316354,
      "grad_norm": 10.355396270751953,
      "learning_rate": 2.6712747710146224e-05,
      "loss": 0.6105273246765137,
      "memory(GiB)": 70.5,
      "step": 76350,
      "token_acc": 0.8895705521472392,
      "train_speed(iter/s)": 1.451941
    },
    {
      "epoch": 3.2712822929608842,
      "grad_norm": 3.891303300857544,
      "learning_rate": 2.670679261738518e-05,
      "loss": 0.14992096424102783,
      "memory(GiB)": 70.5,
      "step": 76355,
      "token_acc": 0.973384030418251,
      "train_speed(iter/s)": 1.451941
    },
    {
      "epoch": 3.271496508290133,
      "grad_norm": 2.4190688133239746,
      "learning_rate": 2.670083794660244e-05,
      "loss": 0.535509443283081,
      "memory(GiB)": 70.5,
      "step": 76360,
      "token_acc": 0.9032258064516129,
      "train_speed(iter/s)": 1.451957
    },
    {
      "epoch": 3.2717107236193823,
      "grad_norm": 3.6338918209075928,
      "learning_rate": 2.669488369790586e-05,
      "loss": 0.4157379627227783,
      "memory(GiB)": 70.5,
      "step": 76365,
      "token_acc": 0.8958990536277602,
      "train_speed(iter/s)": 1.451958
    },
    {
      "epoch": 3.271924938948631,
      "grad_norm": 0.24921394884586334,
      "learning_rate": 2.6688929871403346e-05,
      "loss": 0.39438045024871826,
      "memory(GiB)": 70.5,
      "step": 76370,
      "token_acc": 0.9090909090909091,
      "train_speed(iter/s)": 1.451965
    },
    {
      "epoch": 3.27213915427788,
      "grad_norm": 1.541229248046875,
      "learning_rate": 2.6682976467202726e-05,
      "loss": 0.16443777084350586,
      "memory(GiB)": 70.5,
      "step": 76375,
      "token_acc": 0.9555555555555556,
      "train_speed(iter/s)": 1.45198
    },
    {
      "epoch": 3.272353369607129,
      "grad_norm": 0.059872761368751526,
      "learning_rate": 2.6677023485411866e-05,
      "loss": 0.21179277896881105,
      "memory(GiB)": 70.5,
      "step": 76380,
      "token_acc": 0.959409594095941,
      "train_speed(iter/s)": 1.451984
    },
    {
      "epoch": 3.272567584936378,
      "grad_norm": 4.766190052032471,
      "learning_rate": 2.667107092613861e-05,
      "loss": 0.2856011867523193,
      "memory(GiB)": 70.5,
      "step": 76385,
      "token_acc": 0.9275862068965517,
      "train_speed(iter/s)": 1.451975
    },
    {
      "epoch": 3.272781800265627,
      "grad_norm": 5.7105231285095215,
      "learning_rate": 2.6665118789490763e-05,
      "loss": 0.5275274753570557,
      "memory(GiB)": 70.5,
      "step": 76390,
      "token_acc": 0.8947368421052632,
      "train_speed(iter/s)": 1.451971
    },
    {
      "epoch": 3.272996015594876,
      "grad_norm": 5.018089771270752,
      "learning_rate": 2.6659167075576176e-05,
      "loss": 0.3310786247253418,
      "memory(GiB)": 70.5,
      "step": 76395,
      "token_acc": 0.922077922077922,
      "train_speed(iter/s)": 1.451982
    },
    {
      "epoch": 3.273210230924125,
      "grad_norm": 4.217703342437744,
      "learning_rate": 2.6653215784502693e-05,
      "loss": 0.3090616226196289,
      "memory(GiB)": 70.5,
      "step": 76400,
      "token_acc": 0.9385665529010239,
      "train_speed(iter/s)": 1.451996
    },
    {
      "epoch": 3.2734244462533737,
      "grad_norm": 8.256301879882812,
      "learning_rate": 2.664726491637811e-05,
      "loss": 0.4097901344299316,
      "memory(GiB)": 70.5,
      "step": 76405,
      "token_acc": 0.9,
      "train_speed(iter/s)": 1.451997
    },
    {
      "epoch": 3.273638661582623,
      "grad_norm": 4.529444217681885,
      "learning_rate": 2.664131447131023e-05,
      "loss": 0.31313748359680177,
      "memory(GiB)": 70.5,
      "step": 76410,
      "token_acc": 0.9391634980988594,
      "train_speed(iter/s)": 1.451991
    },
    {
      "epoch": 3.2738528769118718,
      "grad_norm": 4.802251815795898,
      "learning_rate": 2.6635364449406853e-05,
      "loss": 0.3521687984466553,
      "memory(GiB)": 70.5,
      "step": 76415,
      "token_acc": 0.9238754325259516,
      "train_speed(iter/s)": 1.451994
    },
    {
      "epoch": 3.274067092241121,
      "grad_norm": 3.0835447311401367,
      "learning_rate": 2.662941485077574e-05,
      "loss": 0.4410865306854248,
      "memory(GiB)": 70.5,
      "step": 76420,
      "token_acc": 0.9107142857142857,
      "train_speed(iter/s)": 1.451996
    },
    {
      "epoch": 3.27428130757037,
      "grad_norm": 2.945716142654419,
      "learning_rate": 2.6623465675524728e-05,
      "loss": 0.533375597000122,
      "memory(GiB)": 70.5,
      "step": 76425,
      "token_acc": 0.8991596638655462,
      "train_speed(iter/s)": 1.452002
    },
    {
      "epoch": 3.2744955228996186,
      "grad_norm": 0.5498405694961548,
      "learning_rate": 2.6617516923761553e-05,
      "loss": 0.21074562072753905,
      "memory(GiB)": 70.5,
      "step": 76430,
      "token_acc": 0.9556313993174061,
      "train_speed(iter/s)": 1.452002
    },
    {
      "epoch": 3.274709738228868,
      "grad_norm": 4.22842264175415,
      "learning_rate": 2.6611568595594006e-05,
      "loss": 0.21281490325927735,
      "memory(GiB)": 70.5,
      "step": 76435,
      "token_acc": 0.9597069597069597,
      "train_speed(iter/s)": 1.45202
    },
    {
      "epoch": 3.2749239535581167,
      "grad_norm": 4.649778842926025,
      "learning_rate": 2.6605620691129828e-05,
      "loss": 0.27886433601379396,
      "memory(GiB)": 70.5,
      "step": 76440,
      "token_acc": 0.9418604651162791,
      "train_speed(iter/s)": 1.452022
    },
    {
      "epoch": 3.2751381688873655,
      "grad_norm": 4.489305019378662,
      "learning_rate": 2.659967321047678e-05,
      "loss": 0.42623534202575686,
      "memory(GiB)": 70.5,
      "step": 76445,
      "token_acc": 0.9003690036900369,
      "train_speed(iter/s)": 1.452038
    },
    {
      "epoch": 3.275352384216615,
      "grad_norm": 6.451976776123047,
      "learning_rate": 2.6593726153742575e-05,
      "loss": 0.4903857231140137,
      "memory(GiB)": 70.5,
      "step": 76450,
      "token_acc": 0.8927335640138409,
      "train_speed(iter/s)": 1.452037
    },
    {
      "epoch": 3.2755665995458636,
      "grad_norm": 0.18716081976890564,
      "learning_rate": 2.6587779521035007e-05,
      "loss": 0.33517019748687743,
      "memory(GiB)": 70.5,
      "step": 76455,
      "token_acc": 0.920863309352518,
      "train_speed(iter/s)": 1.452049
    },
    {
      "epoch": 3.2757808148751124,
      "grad_norm": 0.4254010021686554,
      "learning_rate": 2.6581833312461768e-05,
      "loss": 0.47787837982177733,
      "memory(GiB)": 70.5,
      "step": 76460,
      "token_acc": 0.8980891719745223,
      "train_speed(iter/s)": 1.452062
    },
    {
      "epoch": 3.2759950302043617,
      "grad_norm": 4.7963948249816895,
      "learning_rate": 2.657588752813057e-05,
      "loss": 0.4076075077056885,
      "memory(GiB)": 70.5,
      "step": 76465,
      "token_acc": 0.9178082191780822,
      "train_speed(iter/s)": 1.45206
    },
    {
      "epoch": 3.2762092455336105,
      "grad_norm": 5.772552490234375,
      "learning_rate": 2.6569942168149165e-05,
      "loss": 0.1987290859222412,
      "memory(GiB)": 70.5,
      "step": 76470,
      "token_acc": 0.9522184300341296,
      "train_speed(iter/s)": 1.452074
    },
    {
      "epoch": 3.2764234608628593,
      "grad_norm": 0.7666959762573242,
      "learning_rate": 2.6563997232625236e-05,
      "loss": 0.7133056163787842,
      "memory(GiB)": 70.5,
      "step": 76475,
      "token_acc": 0.8697068403908795,
      "train_speed(iter/s)": 1.452098
    },
    {
      "epoch": 3.2766376761921086,
      "grad_norm": 5.8526811599731445,
      "learning_rate": 2.655805272166646e-05,
      "loss": 0.30223860740661623,
      "memory(GiB)": 70.5,
      "step": 76480,
      "token_acc": 0.9274193548387096,
      "train_speed(iter/s)": 1.452113
    },
    {
      "epoch": 3.2768518915213574,
      "grad_norm": 3.8514111042022705,
      "learning_rate": 2.6552108635380567e-05,
      "loss": 0.2495481252670288,
      "memory(GiB)": 70.5,
      "step": 76485,
      "token_acc": 0.9395017793594306,
      "train_speed(iter/s)": 1.452114
    },
    {
      "epoch": 3.277066106850606,
      "grad_norm": 3.3813552856445312,
      "learning_rate": 2.654616497387523e-05,
      "loss": 0.36240808963775634,
      "memory(GiB)": 70.5,
      "step": 76490,
      "token_acc": 0.9250936329588015,
      "train_speed(iter/s)": 1.45211
    },
    {
      "epoch": 3.2772803221798554,
      "grad_norm": 2.458725929260254,
      "learning_rate": 2.654022173725811e-05,
      "loss": 0.1408071756362915,
      "memory(GiB)": 70.5,
      "step": 76495,
      "token_acc": 0.9577922077922078,
      "train_speed(iter/s)": 1.452111
    },
    {
      "epoch": 3.2774945375091042,
      "grad_norm": 7.479637145996094,
      "learning_rate": 2.653427892563688e-05,
      "loss": 0.7017494201660156,
      "memory(GiB)": 70.5,
      "step": 76500,
      "token_acc": 0.8717948717948718,
      "train_speed(iter/s)": 1.452111
    },
    {
      "epoch": 3.2774945375091042,
      "eval_loss": 2.387399673461914,
      "eval_runtime": 11.1039,
      "eval_samples_per_second": 9.006,
      "eval_steps_per_second": 9.006,
      "eval_token_acc": 0.45614035087719296,
      "step": 76500
    },
    {
      "epoch": 3.277708752838353,
      "grad_norm": 5.025294780731201,
      "learning_rate": 2.65283365391192e-05,
      "loss": 0.3781342744827271,
      "memory(GiB)": 70.5,
      "step": 76505,
      "token_acc": 0.5981220657276995,
      "train_speed(iter/s)": 1.451788
    },
    {
      "epoch": 3.2779229681676023,
      "grad_norm": 6.616147994995117,
      "learning_rate": 2.6522394577812702e-05,
      "loss": 0.6299065589904785,
      "memory(GiB)": 70.5,
      "step": 76510,
      "token_acc": 0.8616352201257862,
      "train_speed(iter/s)": 1.451803
    },
    {
      "epoch": 3.278137183496851,
      "grad_norm": 0.2163451611995697,
      "learning_rate": 2.6516453041825075e-05,
      "loss": 0.2646117448806763,
      "memory(GiB)": 70.5,
      "step": 76515,
      "token_acc": 0.9283276450511946,
      "train_speed(iter/s)": 1.451804
    },
    {
      "epoch": 3.2783513988261,
      "grad_norm": 3.065812587738037,
      "learning_rate": 2.6510511931263926e-05,
      "loss": 0.553142786026001,
      "memory(GiB)": 70.5,
      "step": 76520,
      "token_acc": 0.8975069252077562,
      "train_speed(iter/s)": 1.451819
    },
    {
      "epoch": 3.278565614155349,
      "grad_norm": 2.4777002334594727,
      "learning_rate": 2.6504571246236893e-05,
      "loss": 0.4359261989593506,
      "memory(GiB)": 70.5,
      "step": 76525,
      "token_acc": 0.9074733096085409,
      "train_speed(iter/s)": 1.451833
    },
    {
      "epoch": 3.278779829484598,
      "grad_norm": 2.9784586429595947,
      "learning_rate": 2.6498630986851584e-05,
      "loss": 0.3177149772644043,
      "memory(GiB)": 70.5,
      "step": 76530,
      "token_acc": 0.8956521739130435,
      "train_speed(iter/s)": 1.451848
    },
    {
      "epoch": 3.278994044813847,
      "grad_norm": 1.1861964464187622,
      "learning_rate": 2.649269115321561e-05,
      "loss": 0.2966787576675415,
      "memory(GiB)": 70.5,
      "step": 76535,
      "token_acc": 0.9477124183006536,
      "train_speed(iter/s)": 1.451851
    },
    {
      "epoch": 3.279208260143096,
      "grad_norm": 4.319001197814941,
      "learning_rate": 2.6486751745436578e-05,
      "loss": 0.7464372634887695,
      "memory(GiB)": 70.5,
      "step": 76540,
      "token_acc": 0.8413284132841329,
      "train_speed(iter/s)": 1.451868
    },
    {
      "epoch": 3.279422475472345,
      "grad_norm": 4.873758792877197,
      "learning_rate": 2.648081276362212e-05,
      "loss": 0.4464472770690918,
      "memory(GiB)": 70.5,
      "step": 76545,
      "token_acc": 0.9,
      "train_speed(iter/s)": 1.45187
    },
    {
      "epoch": 3.2796366908015937,
      "grad_norm": 4.635267734527588,
      "learning_rate": 2.6474874207879807e-05,
      "loss": 0.17822663784027098,
      "memory(GiB)": 70.5,
      "step": 76550,
      "token_acc": 0.9598393574297188,
      "train_speed(iter/s)": 1.451869
    },
    {
      "epoch": 3.279850906130843,
      "grad_norm": 7.223546504974365,
      "learning_rate": 2.6468936078317207e-05,
      "loss": 0.5652945518493653,
      "memory(GiB)": 70.5,
      "step": 76555,
      "token_acc": 0.875,
      "train_speed(iter/s)": 1.451871
    },
    {
      "epoch": 3.2800651214600918,
      "grad_norm": 2.4301297664642334,
      "learning_rate": 2.6462998375041908e-05,
      "loss": 0.29809749126434326,
      "memory(GiB)": 70.5,
      "step": 76560,
      "token_acc": 0.9385665529010239,
      "train_speed(iter/s)": 1.451875
    },
    {
      "epoch": 3.2802793367893406,
      "grad_norm": 2.853715658187866,
      "learning_rate": 2.645706109816145e-05,
      "loss": 0.31579885482788084,
      "memory(GiB)": 70.5,
      "step": 76565,
      "token_acc": 0.9333333333333333,
      "train_speed(iter/s)": 1.451878
    },
    {
      "epoch": 3.28049355211859,
      "grad_norm": 4.7010498046875,
      "learning_rate": 2.6451124247783443e-05,
      "loss": 0.35991334915161133,
      "memory(GiB)": 70.5,
      "step": 76570,
      "token_acc": 0.9262295081967213,
      "train_speed(iter/s)": 1.451881
    },
    {
      "epoch": 3.2807077674478387,
      "grad_norm": 2.2927815914154053,
      "learning_rate": 2.6445187824015406e-05,
      "loss": 0.28517200946807864,
      "memory(GiB)": 70.5,
      "step": 76575,
      "token_acc": 0.9261992619926199,
      "train_speed(iter/s)": 1.451882
    },
    {
      "epoch": 3.2809219827770875,
      "grad_norm": 1.7922147512435913,
      "learning_rate": 2.6439251826964882e-05,
      "loss": 0.43421158790588377,
      "memory(GiB)": 70.5,
      "step": 76580,
      "token_acc": 0.9129129129129129,
      "train_speed(iter/s)": 1.451887
    },
    {
      "epoch": 3.2811361981063367,
      "grad_norm": 3.6542603969573975,
      "learning_rate": 2.6433316256739417e-05,
      "loss": 0.3685925960540771,
      "memory(GiB)": 70.5,
      "step": 76585,
      "token_acc": 0.9186440677966101,
      "train_speed(iter/s)": 1.451896
    },
    {
      "epoch": 3.2813504134355855,
      "grad_norm": 2.498288154602051,
      "learning_rate": 2.6427381113446536e-05,
      "loss": 0.52473464012146,
      "memory(GiB)": 70.5,
      "step": 76590,
      "token_acc": 0.8885793871866295,
      "train_speed(iter/s)": 1.45191
    },
    {
      "epoch": 3.2815646287648343,
      "grad_norm": 3.175996780395508,
      "learning_rate": 2.642144639719374e-05,
      "loss": 0.34852075576782227,
      "memory(GiB)": 70.5,
      "step": 76595,
      "token_acc": 0.895910780669145,
      "train_speed(iter/s)": 1.451912
    },
    {
      "epoch": 3.2817788440940836,
      "grad_norm": 2.172394037246704,
      "learning_rate": 2.641551210808858e-05,
      "loss": 0.5031616687774658,
      "memory(GiB)": 70.5,
      "step": 76600,
      "token_acc": 0.8988326848249028,
      "train_speed(iter/s)": 1.451924
    },
    {
      "epoch": 3.2819930594233324,
      "grad_norm": 3.5148324966430664,
      "learning_rate": 2.640957824623854e-05,
      "loss": 0.35151722431182864,
      "memory(GiB)": 70.5,
      "step": 76605,
      "token_acc": 0.9060402684563759,
      "train_speed(iter/s)": 1.451929
    },
    {
      "epoch": 3.2822072747525812,
      "grad_norm": 2.3919434547424316,
      "learning_rate": 2.6403644811751104e-05,
      "loss": 0.48991875648498534,
      "memory(GiB)": 70.5,
      "step": 76610,
      "token_acc": 0.8802588996763754,
      "train_speed(iter/s)": 1.451938
    },
    {
      "epoch": 3.2824214900818305,
      "grad_norm": 5.275424957275391,
      "learning_rate": 2.63977118047338e-05,
      "loss": 0.5485272884368897,
      "memory(GiB)": 70.5,
      "step": 76615,
      "token_acc": 0.9039735099337748,
      "train_speed(iter/s)": 1.45195
    },
    {
      "epoch": 3.2826357054110793,
      "grad_norm": 2.9855806827545166,
      "learning_rate": 2.6391779225294084e-05,
      "loss": 0.36270482540130616,
      "memory(GiB)": 70.5,
      "step": 76620,
      "token_acc": 0.9195402298850575,
      "train_speed(iter/s)": 1.451968
    },
    {
      "epoch": 3.282849920740328,
      "grad_norm": 0.06336402148008347,
      "learning_rate": 2.638584707353941e-05,
      "loss": 0.24460160732269287,
      "memory(GiB)": 70.5,
      "step": 76625,
      "token_acc": 0.9515570934256056,
      "train_speed(iter/s)": 1.451977
    },
    {
      "epoch": 3.2830641360695774,
      "grad_norm": 3.13659405708313,
      "learning_rate": 2.637991534957729e-05,
      "loss": 0.4573357582092285,
      "memory(GiB)": 70.5,
      "step": 76630,
      "token_acc": 0.8918918918918919,
      "train_speed(iter/s)": 1.451986
    },
    {
      "epoch": 3.283278351398826,
      "grad_norm": 1.8359402418136597,
      "learning_rate": 2.6373984053515167e-05,
      "loss": 0.2951441764831543,
      "memory(GiB)": 70.5,
      "step": 76635,
      "token_acc": 0.9372822299651568,
      "train_speed(iter/s)": 1.45201
    },
    {
      "epoch": 3.283492566728075,
      "grad_norm": 5.8910322189331055,
      "learning_rate": 2.636805318546048e-05,
      "loss": 0.3293306350708008,
      "memory(GiB)": 70.5,
      "step": 76640,
      "token_acc": 0.9333333333333333,
      "train_speed(iter/s)": 1.452011
    },
    {
      "epoch": 3.2837067820573242,
      "grad_norm": 10.332794189453125,
      "learning_rate": 2.636212274552068e-05,
      "loss": 0.3114823579788208,
      "memory(GiB)": 70.5,
      "step": 76645,
      "token_acc": 0.9318181818181818,
      "train_speed(iter/s)": 1.452011
    },
    {
      "epoch": 3.283920997386573,
      "grad_norm": 3.0490899085998535,
      "learning_rate": 2.6356192733803197e-05,
      "loss": 0.23594608306884765,
      "memory(GiB)": 70.5,
      "step": 76650,
      "token_acc": 0.9571865443425076,
      "train_speed(iter/s)": 1.452018
    },
    {
      "epoch": 3.284135212715822,
      "grad_norm": 0.11844010651111603,
      "learning_rate": 2.6350263150415443e-05,
      "loss": 0.3598337650299072,
      "memory(GiB)": 70.5,
      "step": 76655,
      "token_acc": 0.9312714776632303,
      "train_speed(iter/s)": 1.45202
    },
    {
      "epoch": 3.284349428045071,
      "grad_norm": 0.9906735420227051,
      "learning_rate": 2.6344333995464875e-05,
      "loss": 0.2674895763397217,
      "memory(GiB)": 70.5,
      "step": 76660,
      "token_acc": 0.9350180505415162,
      "train_speed(iter/s)": 1.452046
    },
    {
      "epoch": 3.28456364337432,
      "grad_norm": 3.0822699069976807,
      "learning_rate": 2.6338405269058896e-05,
      "loss": 0.2819631576538086,
      "memory(GiB)": 70.5,
      "step": 76665,
      "token_acc": 0.9276315789473685,
      "train_speed(iter/s)": 1.452048
    },
    {
      "epoch": 3.2847778587035688,
      "grad_norm": 4.072748184204102,
      "learning_rate": 2.6332476971304898e-05,
      "loss": 0.4179238319396973,
      "memory(GiB)": 70.5,
      "step": 76670,
      "token_acc": 0.9094076655052264,
      "train_speed(iter/s)": 1.452051
    },
    {
      "epoch": 3.284992074032818,
      "grad_norm": 4.245687007904053,
      "learning_rate": 2.6326549102310284e-05,
      "loss": 0.3083707094192505,
      "memory(GiB)": 70.5,
      "step": 76675,
      "token_acc": 0.9274809160305344,
      "train_speed(iter/s)": 1.452049
    },
    {
      "epoch": 3.285206289362067,
      "grad_norm": 5.346494674682617,
      "learning_rate": 2.632062166218241e-05,
      "loss": 0.2953944683074951,
      "memory(GiB)": 70.5,
      "step": 76680,
      "token_acc": 0.9545454545454546,
      "train_speed(iter/s)": 1.452055
    },
    {
      "epoch": 3.2854205046913156,
      "grad_norm": 4.618851661682129,
      "learning_rate": 2.6314694651028697e-05,
      "loss": 0.34159815311431885,
      "memory(GiB)": 70.5,
      "step": 76685,
      "token_acc": 0.927007299270073,
      "train_speed(iter/s)": 1.452063
    },
    {
      "epoch": 3.285634720020565,
      "grad_norm": 3.797084331512451,
      "learning_rate": 2.630876806895653e-05,
      "loss": 0.4620035171508789,
      "memory(GiB)": 70.5,
      "step": 76690,
      "token_acc": 0.9015151515151515,
      "train_speed(iter/s)": 1.452074
    },
    {
      "epoch": 3.2858489353498137,
      "grad_norm": 3.868077516555786,
      "learning_rate": 2.630284191607325e-05,
      "loss": 0.1991954565048218,
      "memory(GiB)": 70.5,
      "step": 76695,
      "token_acc": 0.950354609929078,
      "train_speed(iter/s)": 1.45208
    },
    {
      "epoch": 3.2860631506790625,
      "grad_norm": 5.628716945648193,
      "learning_rate": 2.629691619248622e-05,
      "loss": 0.4369189262390137,
      "memory(GiB)": 70.5,
      "step": 76700,
      "token_acc": 0.9237668161434978,
      "train_speed(iter/s)": 1.452079
    },
    {
      "epoch": 3.2862773660083118,
      "grad_norm": 1.3731839656829834,
      "learning_rate": 2.6290990898302786e-05,
      "loss": 0.3892019987106323,
      "memory(GiB)": 70.5,
      "step": 76705,
      "token_acc": 0.9118773946360154,
      "train_speed(iter/s)": 1.452083
    },
    {
      "epoch": 3.2864915813375606,
      "grad_norm": 2.9734721183776855,
      "learning_rate": 2.6285066033630278e-05,
      "loss": 0.2454594612121582,
      "memory(GiB)": 70.5,
      "step": 76710,
      "token_acc": 0.959866220735786,
      "train_speed(iter/s)": 1.452091
    },
    {
      "epoch": 3.2867057966668094,
      "grad_norm": 2.747163772583008,
      "learning_rate": 2.6279141598576062e-05,
      "loss": 0.17326005697250366,
      "memory(GiB)": 70.5,
      "step": 76715,
      "token_acc": 0.9593220338983051,
      "train_speed(iter/s)": 1.452091
    },
    {
      "epoch": 3.2869200119960587,
      "grad_norm": 3.8622357845306396,
      "learning_rate": 2.6273217593247447e-05,
      "loss": 0.2732563495635986,
      "memory(GiB)": 70.5,
      "step": 76720,
      "token_acc": 0.9517241379310345,
      "train_speed(iter/s)": 1.452099
    },
    {
      "epoch": 3.2871342273253075,
      "grad_norm": 2.2098424434661865,
      "learning_rate": 2.6267294017751753e-05,
      "loss": 0.330877947807312,
      "memory(GiB)": 70.5,
      "step": 76725,
      "token_acc": 0.9195046439628483,
      "train_speed(iter/s)": 1.452102
    },
    {
      "epoch": 3.2873484426545563,
      "grad_norm": 5.051963806152344,
      "learning_rate": 2.626137087219629e-05,
      "loss": 0.38532190322875975,
      "memory(GiB)": 70.5,
      "step": 76730,
      "token_acc": 0.9094202898550725,
      "train_speed(iter/s)": 1.452104
    },
    {
      "epoch": 3.2875626579838055,
      "grad_norm": 3.3704986572265625,
      "learning_rate": 2.625544815668836e-05,
      "loss": 0.2078942060470581,
      "memory(GiB)": 70.5,
      "step": 76735,
      "token_acc": 0.9510703363914373,
      "train_speed(iter/s)": 1.452112
    },
    {
      "epoch": 3.2877768733130543,
      "grad_norm": 8.728253364562988,
      "learning_rate": 2.6249525871335246e-05,
      "loss": 0.29122438430786135,
      "memory(GiB)": 70.5,
      "step": 76740,
      "token_acc": 0.937007874015748,
      "train_speed(iter/s)": 1.452113
    },
    {
      "epoch": 3.287991088642303,
      "grad_norm": 3.5367636680603027,
      "learning_rate": 2.624360401624427e-05,
      "loss": 0.2793485403060913,
      "memory(GiB)": 70.5,
      "step": 76745,
      "token_acc": 0.9407665505226481,
      "train_speed(iter/s)": 1.452115
    },
    {
      "epoch": 3.2882053039715524,
      "grad_norm": 3.3246164321899414,
      "learning_rate": 2.6237682591522693e-05,
      "loss": 0.30452260971069334,
      "memory(GiB)": 70.5,
      "step": 76750,
      "token_acc": 0.9271523178807947,
      "train_speed(iter/s)": 1.452119
    },
    {
      "epoch": 3.2884195193008012,
      "grad_norm": 6.45590877532959,
      "learning_rate": 2.6231761597277783e-05,
      "loss": 0.5126235008239746,
      "memory(GiB)": 70.5,
      "step": 76755,
      "token_acc": 0.8670886075949367,
      "train_speed(iter/s)": 1.452117
    },
    {
      "epoch": 3.28863373463005,
      "grad_norm": 2.5275983810424805,
      "learning_rate": 2.6225841033616794e-05,
      "loss": 0.23394570350646973,
      "memory(GiB)": 70.5,
      "step": 76760,
      "token_acc": 0.9480968858131488,
      "train_speed(iter/s)": 1.452117
    },
    {
      "epoch": 3.2888479499592993,
      "grad_norm": 2.6395649909973145,
      "learning_rate": 2.621992090064701e-05,
      "loss": 0.23291027545928955,
      "memory(GiB)": 70.5,
      "step": 76765,
      "token_acc": 0.9530201342281879,
      "train_speed(iter/s)": 1.452119
    },
    {
      "epoch": 3.289062165288548,
      "grad_norm": 0.506517767906189,
      "learning_rate": 2.6214001198475645e-05,
      "loss": 0.04757034182548523,
      "memory(GiB)": 70.5,
      "step": 76770,
      "token_acc": 0.9823321554770318,
      "train_speed(iter/s)": 1.452119
    },
    {
      "epoch": 3.289276380617797,
      "grad_norm": 2.748030662536621,
      "learning_rate": 2.6208081927209988e-05,
      "loss": 0.6995439052581787,
      "memory(GiB)": 70.5,
      "step": 76775,
      "token_acc": 0.8647798742138365,
      "train_speed(iter/s)": 1.452122
    },
    {
      "epoch": 3.289490595947046,
      "grad_norm": 3.674467086791992,
      "learning_rate": 2.6202163086957243e-05,
      "loss": 0.35117411613464355,
      "memory(GiB)": 70.5,
      "step": 76780,
      "token_acc": 0.902027027027027,
      "train_speed(iter/s)": 1.452123
    },
    {
      "epoch": 3.289704811276295,
      "grad_norm": 4.410989761352539,
      "learning_rate": 2.6196244677824637e-05,
      "loss": 0.16702357530593873,
      "memory(GiB)": 70.5,
      "step": 76785,
      "token_acc": 0.9587628865979382,
      "train_speed(iter/s)": 1.452124
    },
    {
      "epoch": 3.289919026605544,
      "grad_norm": 0.5464633703231812,
      "learning_rate": 2.6190326699919388e-05,
      "loss": 0.3933538913726807,
      "memory(GiB)": 70.5,
      "step": 76790,
      "token_acc": 0.92578125,
      "train_speed(iter/s)": 1.452125
    },
    {
      "epoch": 3.290133241934793,
      "grad_norm": 1.6414282321929932,
      "learning_rate": 2.618440915334871e-05,
      "loss": 0.2762465000152588,
      "memory(GiB)": 70.5,
      "step": 76795,
      "token_acc": 0.9464285714285714,
      "train_speed(iter/s)": 1.452124
    },
    {
      "epoch": 3.290347457264042,
      "grad_norm": 0.6464276909828186,
      "learning_rate": 2.617849203821978e-05,
      "loss": 0.2959075927734375,
      "memory(GiB)": 70.5,
      "step": 76800,
      "token_acc": 0.9578544061302682,
      "train_speed(iter/s)": 1.452141
    },
    {
      "epoch": 3.2905616725932907,
      "grad_norm": 6.258229732513428,
      "learning_rate": 2.617257535463983e-05,
      "loss": 0.547246789932251,
      "memory(GiB)": 70.5,
      "step": 76805,
      "token_acc": 0.9058823529411765,
      "train_speed(iter/s)": 1.452146
    },
    {
      "epoch": 3.29077588792254,
      "grad_norm": 3.300493001937866,
      "learning_rate": 2.616665910271603e-05,
      "loss": 0.26830918788909913,
      "memory(GiB)": 70.5,
      "step": 76810,
      "token_acc": 0.9459459459459459,
      "train_speed(iter/s)": 1.452156
    },
    {
      "epoch": 3.2909901032517888,
      "grad_norm": 5.869393348693848,
      "learning_rate": 2.616074328255556e-05,
      "loss": 0.46480398178100585,
      "memory(GiB)": 70.5,
      "step": 76815,
      "token_acc": 0.9003690036900369,
      "train_speed(iter/s)": 1.452171
    },
    {
      "epoch": 3.2912043185810376,
      "grad_norm": 1.129615068435669,
      "learning_rate": 2.6154827894265588e-05,
      "loss": 0.2867327451705933,
      "memory(GiB)": 70.5,
      "step": 76820,
      "token_acc": 0.9446064139941691,
      "train_speed(iter/s)": 1.452173
    },
    {
      "epoch": 3.291418533910287,
      "grad_norm": 2.5732228755950928,
      "learning_rate": 2.6148912937953256e-05,
      "loss": 0.25867576599121095,
      "memory(GiB)": 70.5,
      "step": 76825,
      "token_acc": 0.9416058394160584,
      "train_speed(iter/s)": 1.452176
    },
    {
      "epoch": 3.2916327492395356,
      "grad_norm": 3.1211678981781006,
      "learning_rate": 2.614299841372576e-05,
      "loss": 0.611177921295166,
      "memory(GiB)": 70.5,
      "step": 76830,
      "token_acc": 0.8801261829652997,
      "train_speed(iter/s)": 1.452178
    },
    {
      "epoch": 3.2918469645687845,
      "grad_norm": 2.4550585746765137,
      "learning_rate": 2.613708432169021e-05,
      "loss": 0.5895524978637695,
      "memory(GiB)": 70.5,
      "step": 76835,
      "token_acc": 0.875,
      "train_speed(iter/s)": 1.45219
    },
    {
      "epoch": 3.2920611798980337,
      "grad_norm": 3.2068796157836914,
      "learning_rate": 2.613117066195378e-05,
      "loss": 0.30170016288757323,
      "memory(GiB)": 70.5,
      "step": 76840,
      "token_acc": 0.9195402298850575,
      "train_speed(iter/s)": 1.452188
    },
    {
      "epoch": 3.2922753952272825,
      "grad_norm": 6.669992923736572,
      "learning_rate": 2.6125257434623584e-05,
      "loss": 0.35001840591430666,
      "memory(GiB)": 70.5,
      "step": 76845,
      "token_acc": 0.9206349206349206,
      "train_speed(iter/s)": 1.452197
    },
    {
      "epoch": 3.2924896105565313,
      "grad_norm": 1.1124095916748047,
      "learning_rate": 2.6119344639806753e-05,
      "loss": 0.5108280658721924,
      "memory(GiB)": 70.5,
      "step": 76850,
      "token_acc": 0.9054054054054054,
      "train_speed(iter/s)": 1.452196
    },
    {
      "epoch": 3.2927038258857806,
      "grad_norm": 3.59405779838562,
      "learning_rate": 2.6113432277610367e-05,
      "loss": 0.40539045333862306,
      "memory(GiB)": 70.5,
      "step": 76855,
      "token_acc": 0.9215017064846417,
      "train_speed(iter/s)": 1.45219
    },
    {
      "epoch": 3.2929180412150294,
      "grad_norm": 4.316535949707031,
      "learning_rate": 2.6107520348141585e-05,
      "loss": 0.29770073890686033,
      "memory(GiB)": 70.5,
      "step": 76860,
      "token_acc": 0.9436619718309859,
      "train_speed(iter/s)": 1.452211
    },
    {
      "epoch": 3.293132256544278,
      "grad_norm": 2.8732967376708984,
      "learning_rate": 2.6101608851507486e-05,
      "loss": 0.4522103309631348,
      "memory(GiB)": 70.5,
      "step": 76865,
      "token_acc": 0.9216417910447762,
      "train_speed(iter/s)": 1.452211
    },
    {
      "epoch": 3.2933464718735275,
      "grad_norm": 5.229853630065918,
      "learning_rate": 2.609569778781516e-05,
      "loss": 0.3962454557418823,
      "memory(GiB)": 70.5,
      "step": 76870,
      "token_acc": 0.927536231884058,
      "train_speed(iter/s)": 1.452212
    },
    {
      "epoch": 3.2935606872027763,
      "grad_norm": 2.200648546218872,
      "learning_rate": 2.6089787157171697e-05,
      "loss": 0.3615330696105957,
      "memory(GiB)": 70.5,
      "step": 76875,
      "token_acc": 0.9238095238095239,
      "train_speed(iter/s)": 1.45222
    },
    {
      "epoch": 3.293774902532025,
      "grad_norm": 1.4156920909881592,
      "learning_rate": 2.6083876959684162e-05,
      "loss": 0.380196738243103,
      "memory(GiB)": 70.5,
      "step": 76880,
      "token_acc": 0.9111842105263158,
      "train_speed(iter/s)": 1.452238
    },
    {
      "epoch": 3.2939891178612744,
      "grad_norm": 4.291169166564941,
      "learning_rate": 2.607796719545962e-05,
      "loss": 0.7108460903167725,
      "memory(GiB)": 70.5,
      "step": 76885,
      "token_acc": 0.8614864864864865,
      "train_speed(iter/s)": 1.452247
    },
    {
      "epoch": 3.294203333190523,
      "grad_norm": 3.8340587615966797,
      "learning_rate": 2.6072057864605147e-05,
      "loss": 0.31327099800109864,
      "memory(GiB)": 70.5,
      "step": 76890,
      "token_acc": 0.9243027888446215,
      "train_speed(iter/s)": 1.452257
    },
    {
      "epoch": 3.294417548519772,
      "grad_norm": 4.1326117515563965,
      "learning_rate": 2.606614896722781e-05,
      "loss": 0.5003059387207032,
      "memory(GiB)": 70.5,
      "step": 76895,
      "token_acc": 0.8985507246376812,
      "train_speed(iter/s)": 1.452261
    },
    {
      "epoch": 3.2946317638490212,
      "grad_norm": 4.446069240570068,
      "learning_rate": 2.6060240503434623e-05,
      "loss": 0.4409774303436279,
      "memory(GiB)": 70.5,
      "step": 76900,
      "token_acc": 0.8893129770992366,
      "train_speed(iter/s)": 1.452271
    },
    {
      "epoch": 3.29484597917827,
      "grad_norm": 4.424976348876953,
      "learning_rate": 2.6054332473332622e-05,
      "loss": 0.4880673885345459,
      "memory(GiB)": 70.5,
      "step": 76905,
      "token_acc": 0.8819188191881919,
      "train_speed(iter/s)": 1.452272
    },
    {
      "epoch": 3.295060194507519,
      "grad_norm": 4.416528224945068,
      "learning_rate": 2.6048424877028876e-05,
      "loss": 0.31078195571899414,
      "memory(GiB)": 70.5,
      "step": 76910,
      "token_acc": 0.9278350515463918,
      "train_speed(iter/s)": 1.452275
    },
    {
      "epoch": 3.295274409836768,
      "grad_norm": 4.617395401000977,
      "learning_rate": 2.6042517714630354e-05,
      "loss": 0.25372674465179446,
      "memory(GiB)": 70.5,
      "step": 76915,
      "token_acc": 0.9479166666666666,
      "train_speed(iter/s)": 1.452281
    },
    {
      "epoch": 3.295488625166017,
      "grad_norm": 2.935662269592285,
      "learning_rate": 2.6036610986244125e-05,
      "loss": 0.2922112464904785,
      "memory(GiB)": 70.5,
      "step": 76920,
      "token_acc": 0.9266409266409267,
      "train_speed(iter/s)": 1.452295
    },
    {
      "epoch": 3.2957028404952657,
      "grad_norm": 3.857929229736328,
      "learning_rate": 2.6030704691977158e-05,
      "loss": 0.36679415702819823,
      "memory(GiB)": 70.5,
      "step": 76925,
      "token_acc": 0.9236641221374046,
      "train_speed(iter/s)": 1.452309
    },
    {
      "epoch": 3.295917055824515,
      "grad_norm": 3.5675017833709717,
      "learning_rate": 2.602479883193647e-05,
      "loss": 0.6777045249938964,
      "memory(GiB)": 70.5,
      "step": 76930,
      "token_acc": 0.8606271777003485,
      "train_speed(iter/s)": 1.45231
    },
    {
      "epoch": 3.296131271153764,
      "grad_norm": 2.9051756858825684,
      "learning_rate": 2.6018893406229033e-05,
      "loss": 0.2318629026412964,
      "memory(GiB)": 70.5,
      "step": 76935,
      "token_acc": 0.9299363057324841,
      "train_speed(iter/s)": 1.452318
    },
    {
      "epoch": 3.2963454864830126,
      "grad_norm": 3.0396170616149902,
      "learning_rate": 2.6012988414961848e-05,
      "loss": 0.3649153709411621,
      "memory(GiB)": 70.5,
      "step": 76940,
      "token_acc": 0.9285714285714286,
      "train_speed(iter/s)": 1.452321
    },
    {
      "epoch": 3.296559701812262,
      "grad_norm": 3.3418056964874268,
      "learning_rate": 2.6007083858241853e-05,
      "loss": 0.24148693084716796,
      "memory(GiB)": 70.5,
      "step": 76945,
      "token_acc": 0.952,
      "train_speed(iter/s)": 1.452326
    },
    {
      "epoch": 3.2967739171415107,
      "grad_norm": 3.745088815689087,
      "learning_rate": 2.6001179736176064e-05,
      "loss": 0.4761608123779297,
      "memory(GiB)": 70.5,
      "step": 76950,
      "token_acc": 0.8888888888888888,
      "train_speed(iter/s)": 1.452333
    },
    {
      "epoch": 3.2969881324707595,
      "grad_norm": 5.574545860290527,
      "learning_rate": 2.599527604887141e-05,
      "loss": 0.41780743598937986,
      "memory(GiB)": 70.5,
      "step": 76955,
      "token_acc": 0.8932806324110671,
      "train_speed(iter/s)": 1.452343
    },
    {
      "epoch": 3.2972023478000088,
      "grad_norm": 2.1674506664276123,
      "learning_rate": 2.5989372796434854e-05,
      "loss": 0.5570093154907226,
      "memory(GiB)": 70.5,
      "step": 76960,
      "token_acc": 0.8875502008032129,
      "train_speed(iter/s)": 1.452357
    },
    {
      "epoch": 3.2974165631292576,
      "grad_norm": 2.0786712169647217,
      "learning_rate": 2.598346997897333e-05,
      "loss": 0.14633880853652953,
      "memory(GiB)": 70.5,
      "step": 76965,
      "token_acc": 0.9558823529411765,
      "train_speed(iter/s)": 1.452353
    },
    {
      "epoch": 3.2976307784585064,
      "grad_norm": 3.953307867050171,
      "learning_rate": 2.597756759659376e-05,
      "loss": 0.2768892288208008,
      "memory(GiB)": 70.5,
      "step": 76970,
      "token_acc": 0.9287833827893175,
      "train_speed(iter/s)": 1.452354
    },
    {
      "epoch": 3.2978449937877556,
      "grad_norm": 2.696359634399414,
      "learning_rate": 2.597166564940311e-05,
      "loss": 0.3215658664703369,
      "memory(GiB)": 70.5,
      "step": 76975,
      "token_acc": 0.947075208913649,
      "train_speed(iter/s)": 1.452367
    },
    {
      "epoch": 3.2980592091170045,
      "grad_norm": 0.7035775780677795,
      "learning_rate": 2.5965764137508253e-05,
      "loss": 0.1351390838623047,
      "memory(GiB)": 70.5,
      "step": 76980,
      "token_acc": 0.9627118644067797,
      "train_speed(iter/s)": 1.452373
    },
    {
      "epoch": 3.2982734244462533,
      "grad_norm": 2.4156672954559326,
      "learning_rate": 2.5959863061016144e-05,
      "loss": 0.3432953357696533,
      "memory(GiB)": 70.5,
      "step": 76985,
      "token_acc": 0.9244604316546763,
      "train_speed(iter/s)": 1.452366
    },
    {
      "epoch": 3.2984876397755025,
      "grad_norm": 2.967818021774292,
      "learning_rate": 2.5953962420033673e-05,
      "loss": 0.40259556770324706,
      "memory(GiB)": 70.5,
      "step": 76990,
      "token_acc": 0.923728813559322,
      "train_speed(iter/s)": 1.452368
    },
    {
      "epoch": 3.2987018551047513,
      "grad_norm": 2.3434271812438965,
      "learning_rate": 2.5948062214667723e-05,
      "loss": 0.31866071224212644,
      "memory(GiB)": 70.5,
      "step": 76995,
      "token_acc": 0.9221556886227545,
      "train_speed(iter/s)": 1.452373
    },
    {
      "epoch": 3.298916070434,
      "grad_norm": 3.5670974254608154,
      "learning_rate": 2.5942162445025174e-05,
      "loss": 0.23844079971313475,
      "memory(GiB)": 70.5,
      "step": 77000,
      "token_acc": 0.9421487603305785,
      "train_speed(iter/s)": 1.45239
    },
    {
      "epoch": 3.298916070434,
      "eval_loss": 2.3783631324768066,
      "eval_runtime": 11.5419,
      "eval_samples_per_second": 8.664,
      "eval_steps_per_second": 8.664,
      "eval_token_acc": 0.450070323488045,
      "step": 77000
    },
    {
      "epoch": 3.2991302857632494,
      "grad_norm": 2.474433422088623,
      "learning_rate": 2.593626311121294e-05,
      "loss": 0.1481081247329712,
      "memory(GiB)": 70.5,
      "step": 77005,
      "token_acc": 0.6145733461169702,
      "train_speed(iter/s)": 1.452053
    },
    {
      "epoch": 3.299344501092498,
      "grad_norm": 2.587158203125,
      "learning_rate": 2.5930364213337865e-05,
      "loss": 0.5920118808746337,
      "memory(GiB)": 70.5,
      "step": 77010,
      "token_acc": 0.9087591240875912,
      "train_speed(iter/s)": 1.452054
    },
    {
      "epoch": 3.299558716421747,
      "grad_norm": 6.768134117126465,
      "learning_rate": 2.592446575150683e-05,
      "loss": 0.4049673557281494,
      "memory(GiB)": 70.5,
      "step": 77015,
      "token_acc": 0.9056603773584906,
      "train_speed(iter/s)": 1.452057
    },
    {
      "epoch": 3.2997729317509963,
      "grad_norm": 1.1538375616073608,
      "learning_rate": 2.5918567725826682e-05,
      "loss": 0.22710347175598145,
      "memory(GiB)": 70.5,
      "step": 77020,
      "token_acc": 0.9402390438247012,
      "train_speed(iter/s)": 1.452058
    },
    {
      "epoch": 3.299987147080245,
      "grad_norm": 2.184762477874756,
      "learning_rate": 2.591267013640427e-05,
      "loss": 0.3710577964782715,
      "memory(GiB)": 70.5,
      "step": 77025,
      "token_acc": 0.9183673469387755,
      "train_speed(iter/s)": 1.452053
    },
    {
      "epoch": 3.300201362409494,
      "grad_norm": 1.7545151710510254,
      "learning_rate": 2.590677298334641e-05,
      "loss": 0.3122023820877075,
      "memory(GiB)": 70.5,
      "step": 77030,
      "token_acc": 0.9361702127659575,
      "train_speed(iter/s)": 1.452055
    },
    {
      "epoch": 3.300415577738743,
      "grad_norm": 1.550054669380188,
      "learning_rate": 2.590087626675998e-05,
      "loss": 0.3167469263076782,
      "memory(GiB)": 70.5,
      "step": 77035,
      "token_acc": 0.9153605015673981,
      "train_speed(iter/s)": 1.452058
    },
    {
      "epoch": 3.300629793067992,
      "grad_norm": 5.710585594177246,
      "learning_rate": 2.589497998675179e-05,
      "loss": 0.31827120780944823,
      "memory(GiB)": 70.5,
      "step": 77040,
      "token_acc": 0.9335664335664335,
      "train_speed(iter/s)": 1.452058
    },
    {
      "epoch": 3.300844008397241,
      "grad_norm": 0.5469594597816467,
      "learning_rate": 2.5889084143428643e-05,
      "loss": 0.2775467872619629,
      "memory(GiB)": 70.5,
      "step": 77045,
      "token_acc": 0.9300699300699301,
      "train_speed(iter/s)": 1.452063
    },
    {
      "epoch": 3.30105822372649,
      "grad_norm": 2.9800915718078613,
      "learning_rate": 2.5883188736897356e-05,
      "loss": 0.24135997295379638,
      "memory(GiB)": 70.5,
      "step": 77050,
      "token_acc": 0.940983606557377,
      "train_speed(iter/s)": 1.452071
    },
    {
      "epoch": 3.301272439055739,
      "grad_norm": 4.771019458770752,
      "learning_rate": 2.587729376726471e-05,
      "loss": 0.3298182010650635,
      "memory(GiB)": 70.5,
      "step": 77055,
      "token_acc": 0.9178571428571428,
      "train_speed(iter/s)": 1.452081
    },
    {
      "epoch": 3.3014866543849877,
      "grad_norm": 1.5624454021453857,
      "learning_rate": 2.587139923463751e-05,
      "loss": 0.2901656150817871,
      "memory(GiB)": 70.5,
      "step": 77060,
      "token_acc": 0.9375,
      "train_speed(iter/s)": 1.452084
    },
    {
      "epoch": 3.301700869714237,
      "grad_norm": 3.2429683208465576,
      "learning_rate": 2.586550513912257e-05,
      "loss": 0.43256301879882814,
      "memory(GiB)": 70.5,
      "step": 77065,
      "token_acc": 0.8896321070234113,
      "train_speed(iter/s)": 1.452102
    },
    {
      "epoch": 3.3019150850434857,
      "grad_norm": 4.336655139923096,
      "learning_rate": 2.585961148082665e-05,
      "loss": 0.4001461029052734,
      "memory(GiB)": 70.5,
      "step": 77070,
      "token_acc": 0.9012738853503185,
      "train_speed(iter/s)": 1.452104
    },
    {
      "epoch": 3.3021293003727346,
      "grad_norm": 4.892737865447998,
      "learning_rate": 2.5853718259856507e-05,
      "loss": 0.49856033325195315,
      "memory(GiB)": 70.5,
      "step": 77075,
      "token_acc": 0.8895705521472392,
      "train_speed(iter/s)": 1.4521
    },
    {
      "epoch": 3.302343515701984,
      "grad_norm": 3.0388927459716797,
      "learning_rate": 2.584782547631891e-05,
      "loss": 0.5360273838043212,
      "memory(GiB)": 70.5,
      "step": 77080,
      "token_acc": 0.878419452887538,
      "train_speed(iter/s)": 1.452103
    },
    {
      "epoch": 3.3025577310312326,
      "grad_norm": 3.964317560195923,
      "learning_rate": 2.5841933130320618e-05,
      "loss": 0.42726407051086424,
      "memory(GiB)": 70.5,
      "step": 77085,
      "token_acc": 0.886435331230284,
      "train_speed(iter/s)": 1.452116
    },
    {
      "epoch": 3.3027719463604814,
      "grad_norm": 5.260479927062988,
      "learning_rate": 2.5836041221968345e-05,
      "loss": 0.34369540214538574,
      "memory(GiB)": 70.5,
      "step": 77090,
      "token_acc": 0.9196675900277008,
      "train_speed(iter/s)": 1.452117
    },
    {
      "epoch": 3.3029861616897307,
      "grad_norm": 1.97653067111969,
      "learning_rate": 2.583014975136887e-05,
      "loss": 0.27677268981933595,
      "memory(GiB)": 70.5,
      "step": 77095,
      "token_acc": 0.9273927392739274,
      "train_speed(iter/s)": 1.452122
    },
    {
      "epoch": 3.3032003770189795,
      "grad_norm": 1.978279948234558,
      "learning_rate": 2.5824258718628906e-05,
      "loss": 0.243666934967041,
      "memory(GiB)": 70.5,
      "step": 77100,
      "token_acc": 0.9333333333333333,
      "train_speed(iter/s)": 1.45214
    },
    {
      "epoch": 3.3034145923482283,
      "grad_norm": 2.440368175506592,
      "learning_rate": 2.5818368123855176e-05,
      "loss": 0.5059046745300293,
      "memory(GiB)": 70.5,
      "step": 77105,
      "token_acc": 0.9015384615384615,
      "train_speed(iter/s)": 1.45214
    },
    {
      "epoch": 3.3036288076774776,
      "grad_norm": 5.485935211181641,
      "learning_rate": 2.581247796715439e-05,
      "loss": 0.48399858474731444,
      "memory(GiB)": 70.5,
      "step": 77110,
      "token_acc": 0.8927335640138409,
      "train_speed(iter/s)": 1.452145
    },
    {
      "epoch": 3.3038430230067264,
      "grad_norm": 3.0370798110961914,
      "learning_rate": 2.5806588248633235e-05,
      "loss": 0.31580295562744143,
      "memory(GiB)": 70.5,
      "step": 77115,
      "token_acc": 0.9074074074074074,
      "train_speed(iter/s)": 1.452149
    },
    {
      "epoch": 3.304057238335975,
      "grad_norm": 0.6982353329658508,
      "learning_rate": 2.580069896839845e-05,
      "loss": 0.41789703369140624,
      "memory(GiB)": 70.5,
      "step": 77120,
      "token_acc": 0.9142857142857143,
      "train_speed(iter/s)": 1.452159
    },
    {
      "epoch": 3.3042714536652245,
      "grad_norm": 3.92846941947937,
      "learning_rate": 2.5794810126556707e-05,
      "loss": 0.4866915702819824,
      "memory(GiB)": 70.5,
      "step": 77125,
      "token_acc": 0.9250936329588015,
      "train_speed(iter/s)": 1.452174
    },
    {
      "epoch": 3.3044856689944733,
      "grad_norm": 3.5864956378936768,
      "learning_rate": 2.5788921723214664e-05,
      "loss": 0.5444355010986328,
      "memory(GiB)": 70.5,
      "step": 77130,
      "token_acc": 0.8859649122807017,
      "train_speed(iter/s)": 1.452173
    },
    {
      "epoch": 3.304699884323722,
      "grad_norm": 3.8228840827941895,
      "learning_rate": 2.5783033758479035e-05,
      "loss": 0.435744047164917,
      "memory(GiB)": 70.5,
      "step": 77135,
      "token_acc": 0.9242424242424242,
      "train_speed(iter/s)": 1.452179
    },
    {
      "epoch": 3.3049140996529713,
      "grad_norm": 4.838926792144775,
      "learning_rate": 2.5777146232456463e-05,
      "loss": 0.284867262840271,
      "memory(GiB)": 70.5,
      "step": 77140,
      "token_acc": 0.9315068493150684,
      "train_speed(iter/s)": 1.452181
    },
    {
      "epoch": 3.30512831498222,
      "grad_norm": 2.503333330154419,
      "learning_rate": 2.577125914525359e-05,
      "loss": 0.33821754455566405,
      "memory(GiB)": 70.5,
      "step": 77145,
      "token_acc": 0.9228571428571428,
      "train_speed(iter/s)": 1.452182
    },
    {
      "epoch": 3.305342530311469,
      "grad_norm": 2.8914456367492676,
      "learning_rate": 2.5765372496977113e-05,
      "loss": 0.24369351863861083,
      "memory(GiB)": 70.5,
      "step": 77150,
      "token_acc": 0.9342560553633218,
      "train_speed(iter/s)": 1.452189
    },
    {
      "epoch": 3.305556745640718,
      "grad_norm": 2.9796035289764404,
      "learning_rate": 2.575948628773364e-05,
      "loss": 0.3653004884719849,
      "memory(GiB)": 70.5,
      "step": 77155,
      "token_acc": 0.9176829268292683,
      "train_speed(iter/s)": 1.452186
    },
    {
      "epoch": 3.305770960969967,
      "grad_norm": 2.828022003173828,
      "learning_rate": 2.5753600517629817e-05,
      "loss": 0.19531185626983644,
      "memory(GiB)": 70.5,
      "step": 77160,
      "token_acc": 0.9492063492063492,
      "train_speed(iter/s)": 1.452188
    },
    {
      "epoch": 3.305985176299216,
      "grad_norm": 2.4584479331970215,
      "learning_rate": 2.5747715186772264e-05,
      "loss": 0.17680854797363282,
      "memory(GiB)": 70.5,
      "step": 77165,
      "token_acc": 0.966789667896679,
      "train_speed(iter/s)": 1.452193
    },
    {
      "epoch": 3.306199391628465,
      "grad_norm": 4.247645854949951,
      "learning_rate": 2.5741830295267598e-05,
      "loss": 0.18952689170837403,
      "memory(GiB)": 70.5,
      "step": 77170,
      "token_acc": 0.9548872180451128,
      "train_speed(iter/s)": 1.452204
    },
    {
      "epoch": 3.306413606957714,
      "grad_norm": 5.772783279418945,
      "learning_rate": 2.573594584322242e-05,
      "loss": 0.34143548011779784,
      "memory(GiB)": 70.5,
      "step": 77175,
      "token_acc": 0.9182156133828996,
      "train_speed(iter/s)": 1.452206
    },
    {
      "epoch": 3.3066278222869627,
      "grad_norm": 2.0898985862731934,
      "learning_rate": 2.5730061830743358e-05,
      "loss": 0.1653245210647583,
      "memory(GiB)": 70.5,
      "step": 77180,
      "token_acc": 0.9580152671755725,
      "train_speed(iter/s)": 1.452209
    },
    {
      "epoch": 3.306842037616212,
      "grad_norm": 2.9417989253997803,
      "learning_rate": 2.5724178257936992e-05,
      "loss": 0.34453089237213136,
      "memory(GiB)": 70.5,
      "step": 77185,
      "token_acc": 0.9278688524590164,
      "train_speed(iter/s)": 1.452213
    },
    {
      "epoch": 3.307056252945461,
      "grad_norm": 6.46550178527832,
      "learning_rate": 2.5718295124909913e-05,
      "loss": 0.3173671245574951,
      "memory(GiB)": 70.5,
      "step": 77190,
      "token_acc": 0.930379746835443,
      "train_speed(iter/s)": 1.452224
    },
    {
      "epoch": 3.3072704682747096,
      "grad_norm": 1.334376573562622,
      "learning_rate": 2.5712412431768696e-05,
      "loss": 0.33625593185424807,
      "memory(GiB)": 70.5,
      "step": 77195,
      "token_acc": 0.9475524475524476,
      "train_speed(iter/s)": 1.45223
    },
    {
      "epoch": 3.307484683603959,
      "grad_norm": 2.2443113327026367,
      "learning_rate": 2.5706530178619893e-05,
      "loss": 0.2027369976043701,
      "memory(GiB)": 70.5,
      "step": 77200,
      "token_acc": 0.9480968858131488,
      "train_speed(iter/s)": 1.452242
    },
    {
      "epoch": 3.3076988989332077,
      "grad_norm": 4.591334342956543,
      "learning_rate": 2.570064836557008e-05,
      "loss": 0.3058155536651611,
      "memory(GiB)": 70.5,
      "step": 77205,
      "token_acc": 0.9270833333333334,
      "train_speed(iter/s)": 1.452246
    },
    {
      "epoch": 3.3079131142624565,
      "grad_norm": 3.273210048675537,
      "learning_rate": 2.5694766992725837e-05,
      "loss": 0.3939868450164795,
      "memory(GiB)": 70.5,
      "step": 77210,
      "token_acc": 0.9078947368421053,
      "train_speed(iter/s)": 1.452243
    },
    {
      "epoch": 3.3081273295917057,
      "grad_norm": 3.3610966205596924,
      "learning_rate": 2.5688886060193694e-05,
      "loss": 0.44031782150268556,
      "memory(GiB)": 70.5,
      "step": 77215,
      "token_acc": 0.90625,
      "train_speed(iter/s)": 1.452249
    },
    {
      "epoch": 3.3083415449209546,
      "grad_norm": 4.294234752655029,
      "learning_rate": 2.5683005568080188e-05,
      "loss": 0.5030562877655029,
      "memory(GiB)": 70.5,
      "step": 77220,
      "token_acc": 0.8838028169014085,
      "train_speed(iter/s)": 1.452249
    },
    {
      "epoch": 3.3085557602502034,
      "grad_norm": 1.894299030303955,
      "learning_rate": 2.567712551649184e-05,
      "loss": 0.16843465566635132,
      "memory(GiB)": 70.5,
      "step": 77225,
      "token_acc": 0.9572368421052632,
      "train_speed(iter/s)": 1.452252
    },
    {
      "epoch": 3.3087699755794526,
      "grad_norm": 1.0773066282272339,
      "learning_rate": 2.567124590553518e-05,
      "loss": 0.5772853851318359,
      "memory(GiB)": 70.5,
      "step": 77230,
      "token_acc": 0.8961038961038961,
      "train_speed(iter/s)": 1.452256
    },
    {
      "epoch": 3.3089841909087014,
      "grad_norm": 3.472975254058838,
      "learning_rate": 2.5665366735316708e-05,
      "loss": 0.49607133865356445,
      "memory(GiB)": 70.5,
      "step": 77235,
      "token_acc": 0.8764044943820225,
      "train_speed(iter/s)": 1.45228
    },
    {
      "epoch": 3.3091984062379503,
      "grad_norm": 6.163510322570801,
      "learning_rate": 2.565948800594296e-05,
      "loss": 0.24466986656188966,
      "memory(GiB)": 70.5,
      "step": 77240,
      "token_acc": 0.94,
      "train_speed(iter/s)": 1.452282
    },
    {
      "epoch": 3.3094126215671995,
      "grad_norm": 5.961765766143799,
      "learning_rate": 2.5653609717520423e-05,
      "loss": 0.17700474262237548,
      "memory(GiB)": 70.5,
      "step": 77245,
      "token_acc": 0.9704918032786886,
      "train_speed(iter/s)": 1.452285
    },
    {
      "epoch": 3.3096268368964483,
      "grad_norm": 0.4393741190433502,
      "learning_rate": 2.5647731870155585e-05,
      "loss": 0.22028462886810302,
      "memory(GiB)": 70.5,
      "step": 77250,
      "token_acc": 0.9479553903345725,
      "train_speed(iter/s)": 1.452287
    },
    {
      "epoch": 3.309841052225697,
      "grad_norm": 0.6925139427185059,
      "learning_rate": 2.5641854463954928e-05,
      "loss": 0.46458120346069337,
      "memory(GiB)": 70.5,
      "step": 77255,
      "token_acc": 0.9007352941176471,
      "train_speed(iter/s)": 1.452301
    },
    {
      "epoch": 3.3100552675549464,
      "grad_norm": 2.5225603580474854,
      "learning_rate": 2.563597749902491e-05,
      "loss": 0.22338290214538575,
      "memory(GiB)": 70.5,
      "step": 77260,
      "token_acc": 0.9355932203389831,
      "train_speed(iter/s)": 1.452304
    },
    {
      "epoch": 3.310269482884195,
      "grad_norm": 3.9728097915649414,
      "learning_rate": 2.5630100975472026e-05,
      "loss": 0.456798791885376,
      "memory(GiB)": 70.5,
      "step": 77265,
      "token_acc": 0.8950617283950617,
      "train_speed(iter/s)": 1.452314
    },
    {
      "epoch": 3.310483698213444,
      "grad_norm": 3.9645442962646484,
      "learning_rate": 2.5624224893402733e-05,
      "loss": 0.3399303436279297,
      "memory(GiB)": 70.5,
      "step": 77270,
      "token_acc": 0.9202453987730062,
      "train_speed(iter/s)": 1.452319
    },
    {
      "epoch": 3.3106979135426933,
      "grad_norm": 1.9632794857025146,
      "learning_rate": 2.5618349252923448e-05,
      "loss": 0.2510066032409668,
      "memory(GiB)": 70.5,
      "step": 77275,
      "token_acc": 0.9362549800796812,
      "train_speed(iter/s)": 1.452319
    },
    {
      "epoch": 3.310912128871942,
      "grad_norm": 5.084936618804932,
      "learning_rate": 2.5612474054140657e-05,
      "loss": 0.506840705871582,
      "memory(GiB)": 70.5,
      "step": 77280,
      "token_acc": 0.8823529411764706,
      "train_speed(iter/s)": 1.452319
    },
    {
      "epoch": 3.311126344201191,
      "grad_norm": 3.0524044036865234,
      "learning_rate": 2.560659929716078e-05,
      "loss": 0.3791138410568237,
      "memory(GiB)": 70.5,
      "step": 77285,
      "token_acc": 0.9148936170212766,
      "train_speed(iter/s)": 1.45232
    },
    {
      "epoch": 3.31134055953044,
      "grad_norm": 3.7285985946655273,
      "learning_rate": 2.560072498209022e-05,
      "loss": 0.4130814552307129,
      "memory(GiB)": 70.5,
      "step": 77290,
      "token_acc": 0.9037037037037037,
      "train_speed(iter/s)": 1.452331
    },
    {
      "epoch": 3.311554774859689,
      "grad_norm": 3.6025588512420654,
      "learning_rate": 2.5594851109035435e-05,
      "loss": 0.3365223169326782,
      "memory(GiB)": 70.5,
      "step": 77295,
      "token_acc": 0.93993993993994,
      "train_speed(iter/s)": 1.452334
    },
    {
      "epoch": 3.3117689901889378,
      "grad_norm": 3.5365846157073975,
      "learning_rate": 2.558897767810281e-05,
      "loss": 0.35763001441955566,
      "memory(GiB)": 70.5,
      "step": 77300,
      "token_acc": 0.9233870967741935,
      "train_speed(iter/s)": 1.452339
    },
    {
      "epoch": 3.311983205518187,
      "grad_norm": 3.2835440635681152,
      "learning_rate": 2.5583104689398757e-05,
      "loss": 0.22645974159240723,
      "memory(GiB)": 70.5,
      "step": 77305,
      "token_acc": 0.9340659340659341,
      "train_speed(iter/s)": 1.452336
    },
    {
      "epoch": 3.312197420847436,
      "grad_norm": 0.14120757579803467,
      "learning_rate": 2.5577232143029672e-05,
      "loss": 0.2994734048843384,
      "memory(GiB)": 70.5,
      "step": 77310,
      "token_acc": 0.9230769230769231,
      "train_speed(iter/s)": 1.452339
    },
    {
      "epoch": 3.3124116361766847,
      "grad_norm": 0.8975096344947815,
      "learning_rate": 2.5571360039101932e-05,
      "loss": 0.2729493141174316,
      "memory(GiB)": 70.5,
      "step": 77315,
      "token_acc": 0.9387755102040817,
      "train_speed(iter/s)": 1.452345
    },
    {
      "epoch": 3.312625851505934,
      "grad_norm": 4.36777925491333,
      "learning_rate": 2.5565488377721903e-05,
      "loss": 0.26666827201843263,
      "memory(GiB)": 70.5,
      "step": 77320,
      "token_acc": 0.9266409266409267,
      "train_speed(iter/s)": 1.452352
    },
    {
      "epoch": 3.3128400668351827,
      "grad_norm": 2.3762032985687256,
      "learning_rate": 2.555961715899599e-05,
      "loss": 0.2443293809890747,
      "memory(GiB)": 70.5,
      "step": 77325,
      "token_acc": 0.9384615384615385,
      "train_speed(iter/s)": 1.452358
    },
    {
      "epoch": 3.3130542821644315,
      "grad_norm": 3.1454970836639404,
      "learning_rate": 2.555374638303054e-05,
      "loss": 0.28769233226776125,
      "memory(GiB)": 70.5,
      "step": 77330,
      "token_acc": 0.9458483754512635,
      "train_speed(iter/s)": 1.45237
    },
    {
      "epoch": 3.313268497493681,
      "grad_norm": 1.3094725608825684,
      "learning_rate": 2.554787604993191e-05,
      "loss": 0.2975149154663086,
      "memory(GiB)": 70.5,
      "step": 77335,
      "token_acc": 0.9425675675675675,
      "train_speed(iter/s)": 1.452372
    },
    {
      "epoch": 3.3134827128229296,
      "grad_norm": 3.125610828399658,
      "learning_rate": 2.5542006159806444e-05,
      "loss": 0.41517934799194334,
      "memory(GiB)": 70.5,
      "step": 77340,
      "token_acc": 0.9161073825503355,
      "train_speed(iter/s)": 1.452374
    },
    {
      "epoch": 3.3136969281521784,
      "grad_norm": 1.0462902784347534,
      "learning_rate": 2.5536136712760457e-05,
      "loss": 0.2665847301483154,
      "memory(GiB)": 70.5,
      "step": 77345,
      "token_acc": 0.9328621908127208,
      "train_speed(iter/s)": 1.452374
    },
    {
      "epoch": 3.3139111434814277,
      "grad_norm": 2.5068857669830322,
      "learning_rate": 2.5530267708900303e-05,
      "loss": 0.2529139518737793,
      "memory(GiB)": 70.5,
      "step": 77350,
      "token_acc": 0.9420289855072463,
      "train_speed(iter/s)": 1.452384
    },
    {
      "epoch": 3.3141253588106765,
      "grad_norm": 7.15622615814209,
      "learning_rate": 2.5524399148332325e-05,
      "loss": 0.3422494888305664,
      "memory(GiB)": 70.5,
      "step": 77355,
      "token_acc": 0.9049429657794676,
      "train_speed(iter/s)": 1.45239
    },
    {
      "epoch": 3.3143395741399253,
      "grad_norm": 0.3171575367450714,
      "learning_rate": 2.551853103116281e-05,
      "loss": 0.28219056129455566,
      "memory(GiB)": 70.5,
      "step": 77360,
      "token_acc": 0.9309090909090909,
      "train_speed(iter/s)": 1.452406
    },
    {
      "epoch": 3.3145537894691746,
      "grad_norm": 5.301991939544678,
      "learning_rate": 2.5512663357498078e-05,
      "loss": 0.30156383514404295,
      "memory(GiB)": 70.5,
      "step": 77365,
      "token_acc": 0.9206349206349206,
      "train_speed(iter/s)": 1.452407
    },
    {
      "epoch": 3.3147680047984234,
      "grad_norm": 8.848540306091309,
      "learning_rate": 2.550679612744442e-05,
      "loss": 0.4016864776611328,
      "memory(GiB)": 70.5,
      "step": 77370,
      "token_acc": 0.9393939393939394,
      "train_speed(iter/s)": 1.452436
    },
    {
      "epoch": 3.314982220127672,
      "grad_norm": 0.7569389939308167,
      "learning_rate": 2.5500929341108104e-05,
      "loss": 0.20277187824249268,
      "memory(GiB)": 70.5,
      "step": 77375,
      "token_acc": 0.950381679389313,
      "train_speed(iter/s)": 1.452442
    },
    {
      "epoch": 3.3151964354569214,
      "grad_norm": 2.5333054065704346,
      "learning_rate": 2.5495062998595455e-05,
      "loss": 0.40318760871887205,
      "memory(GiB)": 70.5,
      "step": 77380,
      "token_acc": 0.9253246753246753,
      "train_speed(iter/s)": 1.452438
    },
    {
      "epoch": 3.3154106507861703,
      "grad_norm": 3.2230966091156006,
      "learning_rate": 2.548919710001273e-05,
      "loss": 0.4001627922058105,
      "memory(GiB)": 70.5,
      "step": 77385,
      "token_acc": 0.921146953405018,
      "train_speed(iter/s)": 1.45244
    },
    {
      "epoch": 3.315624866115419,
      "grad_norm": 0.4828869104385376,
      "learning_rate": 2.5483331645466192e-05,
      "loss": 0.2285315752029419,
      "memory(GiB)": 70.5,
      "step": 77390,
      "token_acc": 0.951417004048583,
      "train_speed(iter/s)": 1.452441
    },
    {
      "epoch": 3.3158390814446683,
      "grad_norm": 4.062793254852295,
      "learning_rate": 2.5477466635062097e-05,
      "loss": 0.4768829822540283,
      "memory(GiB)": 70.5,
      "step": 77395,
      "token_acc": 0.8830409356725146,
      "train_speed(iter/s)": 1.452456
    },
    {
      "epoch": 3.316053296773917,
      "grad_norm": 4.564026832580566,
      "learning_rate": 2.5471602068906697e-05,
      "loss": 0.29398605823516843,
      "memory(GiB)": 70.5,
      "step": 77400,
      "token_acc": 0.9418960244648318,
      "train_speed(iter/s)": 1.45247
    },
    {
      "epoch": 3.316267512103166,
      "grad_norm": 1.6099045276641846,
      "learning_rate": 2.5465737947106218e-05,
      "loss": 0.3630005121231079,
      "memory(GiB)": 70.5,
      "step": 77405,
      "token_acc": 0.906060606060606,
      "train_speed(iter/s)": 1.452479
    },
    {
      "epoch": 3.316481727432415,
      "grad_norm": 1.7982620000839233,
      "learning_rate": 2.545987426976693e-05,
      "loss": 0.57140212059021,
      "memory(GiB)": 70.5,
      "step": 77410,
      "token_acc": 0.8753623188405797,
      "train_speed(iter/s)": 1.452491
    },
    {
      "epoch": 3.316695942761664,
      "grad_norm": 4.229897499084473,
      "learning_rate": 2.545401103699504e-05,
      "loss": 0.5148476600646973,
      "memory(GiB)": 70.5,
      "step": 77415,
      "token_acc": 0.9125874125874126,
      "train_speed(iter/s)": 1.452497
    },
    {
      "epoch": 3.316910158090913,
      "grad_norm": 3.775531530380249,
      "learning_rate": 2.5448148248896768e-05,
      "loss": 0.497381591796875,
      "memory(GiB)": 70.5,
      "step": 77420,
      "token_acc": 0.9138576779026217,
      "train_speed(iter/s)": 1.4525
    },
    {
      "epoch": 3.317124373420162,
      "grad_norm": 2.1402130126953125,
      "learning_rate": 2.54422859055783e-05,
      "loss": 0.3375077486038208,
      "memory(GiB)": 70.5,
      "step": 77425,
      "token_acc": 0.9210526315789473,
      "train_speed(iter/s)": 1.452501
    },
    {
      "epoch": 3.317338588749411,
      "grad_norm": 1.054521083831787,
      "learning_rate": 2.543642400714588e-05,
      "loss": 0.6214736461639404,
      "memory(GiB)": 70.5,
      "step": 77430,
      "token_acc": 0.8723404255319149,
      "train_speed(iter/s)": 1.452501
    },
    {
      "epoch": 3.3175528040786597,
      "grad_norm": 2.9014110565185547,
      "learning_rate": 2.543056255370566e-05,
      "loss": 0.24893298149108886,
      "memory(GiB)": 70.5,
      "step": 77435,
      "token_acc": 0.9388489208633094,
      "train_speed(iter/s)": 1.4525
    },
    {
      "epoch": 3.317767019407909,
      "grad_norm": 6.5759100914001465,
      "learning_rate": 2.542470154536387e-05,
      "loss": 0.30449671745300294,
      "memory(GiB)": 70.5,
      "step": 77440,
      "token_acc": 0.9535714285714286,
      "train_speed(iter/s)": 1.452514
    },
    {
      "epoch": 3.317981234737158,
      "grad_norm": 3.5020949840545654,
      "learning_rate": 2.5418840982226667e-05,
      "loss": 0.46390738487243655,
      "memory(GiB)": 70.5,
      "step": 77445,
      "token_acc": 0.8919753086419753,
      "train_speed(iter/s)": 1.452514
    },
    {
      "epoch": 3.3181954500664066,
      "grad_norm": 2.5936119556427,
      "learning_rate": 2.5412980864400217e-05,
      "loss": 0.39694643020629883,
      "memory(GiB)": 70.5,
      "step": 77450,
      "token_acc": 0.9343629343629344,
      "train_speed(iter/s)": 1.452521
    },
    {
      "epoch": 3.318409665395656,
      "grad_norm": 4.520538330078125,
      "learning_rate": 2.540712119199068e-05,
      "loss": 0.25325465202331543,
      "memory(GiB)": 70.5,
      "step": 77455,
      "token_acc": 0.9642857142857143,
      "train_speed(iter/s)": 1.45253
    },
    {
      "epoch": 3.3186238807249047,
      "grad_norm": 3.9510340690612793,
      "learning_rate": 2.5401261965104217e-05,
      "loss": 0.3288752317428589,
      "memory(GiB)": 70.5,
      "step": 77460,
      "token_acc": 0.9296636085626911,
      "train_speed(iter/s)": 1.452542
    },
    {
      "epoch": 3.3188380960541535,
      "grad_norm": 4.246988773345947,
      "learning_rate": 2.5395403183846945e-05,
      "loss": 0.39505300521850584,
      "memory(GiB)": 70.5,
      "step": 77465,
      "token_acc": 0.916058394160584,
      "train_speed(iter/s)": 1.452555
    },
    {
      "epoch": 3.3190523113834027,
      "grad_norm": 2.5110344886779785,
      "learning_rate": 2.5389544848325054e-05,
      "loss": 0.18043875694274902,
      "memory(GiB)": 70.5,
      "step": 77470,
      "token_acc": 0.9709677419354839,
      "train_speed(iter/s)": 1.452558
    },
    {
      "epoch": 3.3192665267126515,
      "grad_norm": 5.081747055053711,
      "learning_rate": 2.5383686958644636e-05,
      "loss": 0.5505040645599365,
      "memory(GiB)": 70.5,
      "step": 77475,
      "token_acc": 0.8768768768768769,
      "train_speed(iter/s)": 1.452564
    },
    {
      "epoch": 3.3194807420419004,
      "grad_norm": 5.138447284698486,
      "learning_rate": 2.5377829514911822e-05,
      "loss": 0.5222280025482178,
      "memory(GiB)": 70.5,
      "step": 77480,
      "token_acc": 0.9236641221374046,
      "train_speed(iter/s)": 1.452577
    },
    {
      "epoch": 3.3196949573711496,
      "grad_norm": 1.4028955698013306,
      "learning_rate": 2.537197251723272e-05,
      "loss": 0.25616753101348877,
      "memory(GiB)": 70.5,
      "step": 77485,
      "token_acc": 0.9467084639498433,
      "train_speed(iter/s)": 1.45259
    },
    {
      "epoch": 3.3199091727003984,
      "grad_norm": 3.4164931774139404,
      "learning_rate": 2.5366115965713422e-05,
      "loss": 0.21673815250396727,
      "memory(GiB)": 70.5,
      "step": 77490,
      "token_acc": 0.9351145038167938,
      "train_speed(iter/s)": 1.452593
    },
    {
      "epoch": 3.3201233880296472,
      "grad_norm": 3.3582985401153564,
      "learning_rate": 2.5360259860460066e-05,
      "loss": 0.15215089321136474,
      "memory(GiB)": 70.5,
      "step": 77495,
      "token_acc": 0.9717868338557993,
      "train_speed(iter/s)": 1.452596
    },
    {
      "epoch": 3.3203376033588965,
      "grad_norm": 4.761602401733398,
      "learning_rate": 2.5354404201578696e-05,
      "loss": 0.5689416408538819,
      "memory(GiB)": 70.5,
      "step": 77500,
      "token_acc": 0.8841463414634146,
      "train_speed(iter/s)": 1.452598
    },
    {
      "epoch": 3.3203376033588965,
      "eval_loss": 2.375746965408325,
      "eval_runtime": 11.7345,
      "eval_samples_per_second": 8.522,
      "eval_steps_per_second": 8.522,
      "eval_token_acc": 0.44686648501362397,
      "step": 77500
    },
    {
      "epoch": 3.3205518186881453,
      "grad_norm": 5.188143730163574,
      "learning_rate": 2.5348548989175424e-05,
      "loss": 0.5294296264648437,
      "memory(GiB)": 70.5,
      "step": 77505,
      "token_acc": 0.5765503875968992,
      "train_speed(iter/s)": 1.452254
    },
    {
      "epoch": 3.320766034017394,
      "grad_norm": 1.880135178565979,
      "learning_rate": 2.534269422335632e-05,
      "loss": 0.5255216121673584,
      "memory(GiB)": 70.5,
      "step": 77510,
      "token_acc": 0.8990825688073395,
      "train_speed(iter/s)": 1.452267
    },
    {
      "epoch": 3.3209802493466434,
      "grad_norm": 2.5287203788757324,
      "learning_rate": 2.533683990422744e-05,
      "loss": 0.30752580165863036,
      "memory(GiB)": 70.5,
      "step": 77515,
      "token_acc": 0.9347826086956522,
      "train_speed(iter/s)": 1.452279
    },
    {
      "epoch": 3.321194464675892,
      "grad_norm": 4.497685432434082,
      "learning_rate": 2.5330986031894823e-05,
      "loss": 0.48399782180786133,
      "memory(GiB)": 70.5,
      "step": 77520,
      "token_acc": 0.8996282527881041,
      "train_speed(iter/s)": 1.45229
    },
    {
      "epoch": 3.321408680005141,
      "grad_norm": 1.050594449043274,
      "learning_rate": 2.5325132606464552e-05,
      "loss": 0.2748749017715454,
      "memory(GiB)": 70.5,
      "step": 77525,
      "token_acc": 0.9446254071661238,
      "train_speed(iter/s)": 1.452304
    },
    {
      "epoch": 3.3216228953343903,
      "grad_norm": 4.657716751098633,
      "learning_rate": 2.5319279628042647e-05,
      "loss": 0.45987257957458494,
      "memory(GiB)": 70.5,
      "step": 77530,
      "token_acc": 0.9161290322580645,
      "train_speed(iter/s)": 1.452317
    },
    {
      "epoch": 3.321837110663639,
      "grad_norm": 1.5794154405593872,
      "learning_rate": 2.5313427096735155e-05,
      "loss": 0.3844373941421509,
      "memory(GiB)": 70.5,
      "step": 77535,
      "token_acc": 0.92,
      "train_speed(iter/s)": 1.452321
    },
    {
      "epoch": 3.322051325992888,
      "grad_norm": 2.6889891624450684,
      "learning_rate": 2.530757501264808e-05,
      "loss": 0.335671067237854,
      "memory(GiB)": 70.5,
      "step": 77540,
      "token_acc": 0.92,
      "train_speed(iter/s)": 1.452322
    },
    {
      "epoch": 3.322265541322137,
      "grad_norm": 1.1630446910858154,
      "learning_rate": 2.5301723375887447e-05,
      "loss": 0.17518677711486816,
      "memory(GiB)": 70.5,
      "step": 77545,
      "token_acc": 0.9702970297029703,
      "train_speed(iter/s)": 1.452322
    },
    {
      "epoch": 3.322479756651386,
      "grad_norm": 2.362600564956665,
      "learning_rate": 2.5295872186559243e-05,
      "loss": 0.3000542163848877,
      "memory(GiB)": 70.5,
      "step": 77550,
      "token_acc": 0.9415807560137457,
      "train_speed(iter/s)": 1.452325
    },
    {
      "epoch": 3.3226939719806348,
      "grad_norm": 3.0244109630584717,
      "learning_rate": 2.5290021444769517e-05,
      "loss": 0.24012014865875245,
      "memory(GiB)": 70.5,
      "step": 77555,
      "token_acc": 0.9310344827586207,
      "train_speed(iter/s)": 1.45235
    },
    {
      "epoch": 3.322908187309884,
      "grad_norm": 1.1568515300750732,
      "learning_rate": 2.5284171150624225e-05,
      "loss": 0.20124950408935546,
      "memory(GiB)": 70.5,
      "step": 77560,
      "token_acc": 0.9615384615384616,
      "train_speed(iter/s)": 1.452349
    },
    {
      "epoch": 3.323122402639133,
      "grad_norm": 0.4936404228210449,
      "learning_rate": 2.5278321304229358e-05,
      "loss": 0.3653169870376587,
      "memory(GiB)": 70.5,
      "step": 77565,
      "token_acc": 0.9137380191693291,
      "train_speed(iter/s)": 1.452355
    },
    {
      "epoch": 3.3233366179683816,
      "grad_norm": 6.05821418762207,
      "learning_rate": 2.5272471905690876e-05,
      "loss": 0.27275335788726807,
      "memory(GiB)": 70.5,
      "step": 77570,
      "token_acc": 0.9384057971014492,
      "train_speed(iter/s)": 1.452358
    },
    {
      "epoch": 3.323550833297631,
      "grad_norm": 4.135031700134277,
      "learning_rate": 2.526662295511478e-05,
      "loss": 0.6209010124206543,
      "memory(GiB)": 70.5,
      "step": 77575,
      "token_acc": 0.8896551724137931,
      "train_speed(iter/s)": 1.452357
    },
    {
      "epoch": 3.3237650486268797,
      "grad_norm": 2.9161324501037598,
      "learning_rate": 2.5260774452606993e-05,
      "loss": 0.45498132705688477,
      "memory(GiB)": 70.5,
      "step": 77580,
      "token_acc": 0.9076923076923077,
      "train_speed(iter/s)": 1.452349
    },
    {
      "epoch": 3.3239792639561285,
      "grad_norm": 2.743109703063965,
      "learning_rate": 2.5254926398273498e-05,
      "loss": 0.592125940322876,
      "memory(GiB)": 70.5,
      "step": 77585,
      "token_acc": 0.8614457831325302,
      "train_speed(iter/s)": 1.45235
    },
    {
      "epoch": 3.324193479285378,
      "grad_norm": 4.628730297088623,
      "learning_rate": 2.5249078792220227e-05,
      "loss": 0.22437186241149903,
      "memory(GiB)": 70.5,
      "step": 77590,
      "token_acc": 0.9537366548042705,
      "train_speed(iter/s)": 1.452351
    },
    {
      "epoch": 3.3244076946146266,
      "grad_norm": 0.39912480115890503,
      "learning_rate": 2.524323163455311e-05,
      "loss": 0.4210383892059326,
      "memory(GiB)": 70.5,
      "step": 77595,
      "token_acc": 0.92,
      "train_speed(iter/s)": 1.452357
    },
    {
      "epoch": 3.3246219099438754,
      "grad_norm": 3.8397789001464844,
      "learning_rate": 2.5237384925378084e-05,
      "loss": 0.10915524959564209,
      "memory(GiB)": 70.5,
      "step": 77600,
      "token_acc": 0.973293768545994,
      "train_speed(iter/s)": 1.45236
    },
    {
      "epoch": 3.3248361252731247,
      "grad_norm": 8.80649471282959,
      "learning_rate": 2.5231538664801047e-05,
      "loss": 0.25123560428619385,
      "memory(GiB)": 70.5,
      "step": 77605,
      "token_acc": 0.9425287356321839,
      "train_speed(iter/s)": 1.45236
    },
    {
      "epoch": 3.3250503406023735,
      "grad_norm": 4.049310684204102,
      "learning_rate": 2.5225692852927913e-05,
      "loss": 0.27088565826416017,
      "memory(GiB)": 70.5,
      "step": 77610,
      "token_acc": 0.939799331103679,
      "train_speed(iter/s)": 1.452362
    },
    {
      "epoch": 3.3252645559316223,
      "grad_norm": 1.4954571723937988,
      "learning_rate": 2.5219847489864606e-05,
      "loss": 0.4110464572906494,
      "memory(GiB)": 70.5,
      "step": 77615,
      "token_acc": 0.9107806691449815,
      "train_speed(iter/s)": 1.452361
    },
    {
      "epoch": 3.3254787712608715,
      "grad_norm": 3.7086544036865234,
      "learning_rate": 2.521400257571701e-05,
      "loss": 0.25428051948547364,
      "memory(GiB)": 70.5,
      "step": 77620,
      "token_acc": 0.937888198757764,
      "train_speed(iter/s)": 1.452363
    },
    {
      "epoch": 3.3256929865901204,
      "grad_norm": 3.5001273155212402,
      "learning_rate": 2.5208158110591006e-05,
      "loss": 0.3255154609680176,
      "memory(GiB)": 70.5,
      "step": 77625,
      "token_acc": 0.926829268292683,
      "train_speed(iter/s)": 1.452366
    },
    {
      "epoch": 3.325907201919369,
      "grad_norm": 6.6854634284973145,
      "learning_rate": 2.5202314094592478e-05,
      "loss": 0.4919573783874512,
      "memory(GiB)": 70.5,
      "step": 77630,
      "token_acc": 0.8930041152263375,
      "train_speed(iter/s)": 1.452373
    },
    {
      "epoch": 3.3261214172486184,
      "grad_norm": 3.5587406158447266,
      "learning_rate": 2.519647052782727e-05,
      "loss": 0.19458725452423095,
      "memory(GiB)": 70.5,
      "step": 77635,
      "token_acc": 0.9514925373134329,
      "train_speed(iter/s)": 1.452374
    },
    {
      "epoch": 3.3263356325778672,
      "grad_norm": 4.830319404602051,
      "learning_rate": 2.519062741040129e-05,
      "loss": 0.5512583255767822,
      "memory(GiB)": 70.5,
      "step": 77640,
      "token_acc": 0.8865979381443299,
      "train_speed(iter/s)": 1.452377
    },
    {
      "epoch": 3.326549847907116,
      "grad_norm": 0.6359609961509705,
      "learning_rate": 2.5184784742420342e-05,
      "loss": 0.29691014289855955,
      "memory(GiB)": 70.5,
      "step": 77645,
      "token_acc": 0.9516129032258065,
      "train_speed(iter/s)": 1.452401
    },
    {
      "epoch": 3.3267640632363653,
      "grad_norm": 6.276535987854004,
      "learning_rate": 2.5178942523990324e-05,
      "loss": 0.409560489654541,
      "memory(GiB)": 70.5,
      "step": 77650,
      "token_acc": 0.8896103896103896,
      "train_speed(iter/s)": 1.452407
    },
    {
      "epoch": 3.326978278565614,
      "grad_norm": 1.197473406791687,
      "learning_rate": 2.5173100755217037e-05,
      "loss": 0.1283421754837036,
      "memory(GiB)": 70.5,
      "step": 77655,
      "token_acc": 0.9713375796178344,
      "train_speed(iter/s)": 1.452411
    },
    {
      "epoch": 3.327192493894863,
      "grad_norm": 1.8907541036605835,
      "learning_rate": 2.5167259436206325e-05,
      "loss": 0.23925845623016356,
      "memory(GiB)": 70.5,
      "step": 77660,
      "token_acc": 0.94140625,
      "train_speed(iter/s)": 1.45242
    },
    {
      "epoch": 3.327406709224112,
      "grad_norm": 4.175384044647217,
      "learning_rate": 2.5161418567063983e-05,
      "loss": 0.33089661598205566,
      "memory(GiB)": 70.5,
      "step": 77665,
      "token_acc": 0.9239543726235742,
      "train_speed(iter/s)": 1.452414
    },
    {
      "epoch": 3.327620924553361,
      "grad_norm": 4.637680530548096,
      "learning_rate": 2.5155578147895862e-05,
      "loss": 0.2093562126159668,
      "memory(GiB)": 70.5,
      "step": 77670,
      "token_acc": 0.9444444444444444,
      "train_speed(iter/s)": 1.452429
    },
    {
      "epoch": 3.32783513988261,
      "grad_norm": 4.360167980194092,
      "learning_rate": 2.5149738178807745e-05,
      "loss": 0.5067473888397217,
      "memory(GiB)": 70.5,
      "step": 77675,
      "token_acc": 0.8958990536277602,
      "train_speed(iter/s)": 1.45243
    },
    {
      "epoch": 3.328049355211859,
      "grad_norm": 4.023850440979004,
      "learning_rate": 2.5143898659905442e-05,
      "loss": 0.6189085006713867,
      "memory(GiB)": 70.5,
      "step": 77680,
      "token_acc": 0.875968992248062,
      "train_speed(iter/s)": 1.452432
    },
    {
      "epoch": 3.328263570541108,
      "grad_norm": 6.420633316040039,
      "learning_rate": 2.5138059591294727e-05,
      "loss": 0.7702089786529541,
      "memory(GiB)": 70.5,
      "step": 77685,
      "token_acc": 0.8455882352941176,
      "train_speed(iter/s)": 1.452442
    },
    {
      "epoch": 3.3284777858703567,
      "grad_norm": 2.072373151779175,
      "learning_rate": 2.513222097308138e-05,
      "loss": 0.20767827033996583,
      "memory(GiB)": 70.5,
      "step": 77690,
      "token_acc": 0.9546925566343042,
      "train_speed(iter/s)": 1.452447
    },
    {
      "epoch": 3.328692001199606,
      "grad_norm": 2.5408294200897217,
      "learning_rate": 2.512638280537117e-05,
      "loss": 0.20053648948669434,
      "memory(GiB)": 70.5,
      "step": 77695,
      "token_acc": 0.9577922077922078,
      "train_speed(iter/s)": 1.452444
    },
    {
      "epoch": 3.3289062165288548,
      "grad_norm": 3.137625217437744,
      "learning_rate": 2.5120545088269877e-05,
      "loss": 0.2705045700073242,
      "memory(GiB)": 70.5,
      "step": 77700,
      "token_acc": 0.9431137724550899,
      "train_speed(iter/s)": 1.452444
    },
    {
      "epoch": 3.3291204318581036,
      "grad_norm": 1.4595495462417603,
      "learning_rate": 2.5114707821883253e-05,
      "loss": 0.162355375289917,
      "memory(GiB)": 70.5,
      "step": 77705,
      "token_acc": 0.9556451612903226,
      "train_speed(iter/s)": 1.452453
    },
    {
      "epoch": 3.329334647187353,
      "grad_norm": 2.197077751159668,
      "learning_rate": 2.5108871006317046e-05,
      "loss": 0.3908404350280762,
      "memory(GiB)": 70.5,
      "step": 77710,
      "token_acc": 0.9242424242424242,
      "train_speed(iter/s)": 1.452458
    },
    {
      "epoch": 3.3295488625166016,
      "grad_norm": 3.688750982284546,
      "learning_rate": 2.510303464167698e-05,
      "loss": 0.43451700210571287,
      "memory(GiB)": 70.5,
      "step": 77715,
      "token_acc": 0.912751677852349,
      "train_speed(iter/s)": 1.452465
    },
    {
      "epoch": 3.3297630778458505,
      "grad_norm": 0.09747504442930222,
      "learning_rate": 2.509719872806878e-05,
      "loss": 0.2544887065887451,
      "memory(GiB)": 70.5,
      "step": 77720,
      "token_acc": 0.9437086092715232,
      "train_speed(iter/s)": 1.452468
    },
    {
      "epoch": 3.3299772931750997,
      "grad_norm": 4.585292339324951,
      "learning_rate": 2.5091363265598196e-05,
      "loss": 0.33856825828552245,
      "memory(GiB)": 70.5,
      "step": 77725,
      "token_acc": 0.918918918918919,
      "train_speed(iter/s)": 1.452468
    },
    {
      "epoch": 3.3301915085043485,
      "grad_norm": 3.459836006164551,
      "learning_rate": 2.5085528254370942e-05,
      "loss": 0.30467543601989744,
      "memory(GiB)": 70.5,
      "step": 77730,
      "token_acc": 0.916,
      "train_speed(iter/s)": 1.452466
    },
    {
      "epoch": 3.3304057238335973,
      "grad_norm": 2.6346468925476074,
      "learning_rate": 2.5079693694492722e-05,
      "loss": 0.2334094762802124,
      "memory(GiB)": 70.5,
      "step": 77735,
      "token_acc": 0.9385113268608414,
      "train_speed(iter/s)": 1.452468
    },
    {
      "epoch": 3.3306199391628466,
      "grad_norm": 0.2543889582157135,
      "learning_rate": 2.507385958606922e-05,
      "loss": 0.11762173175811767,
      "memory(GiB)": 70.5,
      "step": 77740,
      "token_acc": 0.967391304347826,
      "train_speed(iter/s)": 1.452483
    },
    {
      "epoch": 3.3308341544920954,
      "grad_norm": 2.889033794403076,
      "learning_rate": 2.506802592920614e-05,
      "loss": 0.47585673332214357,
      "memory(GiB)": 70.5,
      "step": 77745,
      "token_acc": 0.9166666666666666,
      "train_speed(iter/s)": 1.452478
    },
    {
      "epoch": 3.3310483698213442,
      "grad_norm": 4.663197994232178,
      "learning_rate": 2.506219272400916e-05,
      "loss": 0.26875545978546145,
      "memory(GiB)": 70.5,
      "step": 77750,
      "token_acc": 0.9256505576208178,
      "train_speed(iter/s)": 1.452495
    },
    {
      "epoch": 3.3312625851505935,
      "grad_norm": 5.1400556564331055,
      "learning_rate": 2.5056359970583925e-05,
      "loss": 0.5285397052764893,
      "memory(GiB)": 70.5,
      "step": 77755,
      "token_acc": 0.8726591760299626,
      "train_speed(iter/s)": 1.452496
    },
    {
      "epoch": 3.3314768004798423,
      "grad_norm": 5.155440330505371,
      "learning_rate": 2.505052766903615e-05,
      "loss": 0.4853353023529053,
      "memory(GiB)": 70.5,
      "step": 77760,
      "token_acc": 0.8913043478260869,
      "train_speed(iter/s)": 1.452495
    },
    {
      "epoch": 3.331691015809091,
      "grad_norm": 2.797515869140625,
      "learning_rate": 2.5044695819471475e-05,
      "loss": 0.4628288745880127,
      "memory(GiB)": 70.5,
      "step": 77765,
      "token_acc": 0.8996655518394648,
      "train_speed(iter/s)": 1.452504
    },
    {
      "epoch": 3.3319052311383404,
      "grad_norm": 0.7431730031967163,
      "learning_rate": 2.5038864421995545e-05,
      "loss": 0.46004343032836914,
      "memory(GiB)": 70.5,
      "step": 77770,
      "token_acc": 0.9078947368421053,
      "train_speed(iter/s)": 1.452506
    },
    {
      "epoch": 3.332119446467589,
      "grad_norm": 0.5414047241210938,
      "learning_rate": 2.5033033476713998e-05,
      "loss": 0.16576920747756957,
      "memory(GiB)": 70.5,
      "step": 77775,
      "token_acc": 0.9471544715447154,
      "train_speed(iter/s)": 1.452507
    },
    {
      "epoch": 3.332333661796838,
      "grad_norm": 5.3219895362854,
      "learning_rate": 2.5027202983732456e-05,
      "loss": 0.3809701204299927,
      "memory(GiB)": 70.5,
      "step": 77780,
      "token_acc": 0.9192982456140351,
      "train_speed(iter/s)": 1.452512
    },
    {
      "epoch": 3.3325478771260872,
      "grad_norm": 3.239652156829834,
      "learning_rate": 2.5021372943156575e-05,
      "loss": 0.3057529449462891,
      "memory(GiB)": 70.5,
      "step": 77785,
      "token_acc": 0.9292307692307692,
      "train_speed(iter/s)": 1.452516
    },
    {
      "epoch": 3.332762092455336,
      "grad_norm": 0.6794885396957397,
      "learning_rate": 2.501554335509195e-05,
      "loss": 0.34268057346343994,
      "memory(GiB)": 70.5,
      "step": 77790,
      "token_acc": 0.9256505576208178,
      "train_speed(iter/s)": 1.452515
    },
    {
      "epoch": 3.332976307784585,
      "grad_norm": 3.9347782135009766,
      "learning_rate": 2.5009714219644175e-05,
      "loss": 0.24181170463562013,
      "memory(GiB)": 70.5,
      "step": 77795,
      "token_acc": 0.9469387755102041,
      "train_speed(iter/s)": 1.452518
    },
    {
      "epoch": 3.333190523113834,
      "grad_norm": 0.6669278144836426,
      "learning_rate": 2.5003885536918897e-05,
      "loss": 0.22285475730895996,
      "memory(GiB)": 70.5,
      "step": 77800,
      "token_acc": 0.9469387755102041,
      "train_speed(iter/s)": 1.452519
    },
    {
      "epoch": 3.333404738443083,
      "grad_norm": 3.7969393730163574,
      "learning_rate": 2.4998057307021677e-05,
      "loss": 0.27949769496917726,
      "memory(GiB)": 70.5,
      "step": 77805,
      "token_acc": 0.94921875,
      "train_speed(iter/s)": 1.452529
    },
    {
      "epoch": 3.3336189537723317,
      "grad_norm": 3.711181163787842,
      "learning_rate": 2.4992229530058087e-05,
      "loss": 0.377128005027771,
      "memory(GiB)": 70.5,
      "step": 77810,
      "token_acc": 0.9159420289855073,
      "train_speed(iter/s)": 1.45253
    },
    {
      "epoch": 3.333833169101581,
      "grad_norm": 6.748050689697266,
      "learning_rate": 2.498640220613373e-05,
      "loss": 0.49857940673828127,
      "memory(GiB)": 70.5,
      "step": 77815,
      "token_acc": 0.9051987767584098,
      "train_speed(iter/s)": 1.452534
    },
    {
      "epoch": 3.33404738443083,
      "grad_norm": 0.5122215151786804,
      "learning_rate": 2.498057533535417e-05,
      "loss": 0.19049018621444702,
      "memory(GiB)": 70.5,
      "step": 77820,
      "token_acc": 0.9736842105263158,
      "train_speed(iter/s)": 1.452549
    },
    {
      "epoch": 3.3342615997600786,
      "grad_norm": 2.641037702560425,
      "learning_rate": 2.4974748917824954e-05,
      "loss": 0.34295408725738524,
      "memory(GiB)": 70.5,
      "step": 77825,
      "token_acc": 0.9405594405594405,
      "train_speed(iter/s)": 1.452553
    },
    {
      "epoch": 3.334475815089328,
      "grad_norm": 4.764046669006348,
      "learning_rate": 2.4968922953651635e-05,
      "loss": 0.4471895694732666,
      "memory(GiB)": 70.5,
      "step": 77830,
      "token_acc": 0.8920634920634921,
      "train_speed(iter/s)": 1.452555
    },
    {
      "epoch": 3.3346900304185767,
      "grad_norm": 2.605194091796875,
      "learning_rate": 2.496309744293976e-05,
      "loss": 0.47827773094177245,
      "memory(GiB)": 70.5,
      "step": 77835,
      "token_acc": 0.9034267912772586,
      "train_speed(iter/s)": 1.452563
    },
    {
      "epoch": 3.3349042457478255,
      "grad_norm": 2.7751996517181396,
      "learning_rate": 2.495727238579484e-05,
      "loss": 0.5233914375305175,
      "memory(GiB)": 70.5,
      "step": 77840,
      "token_acc": 0.9107692307692308,
      "train_speed(iter/s)": 1.452565
    },
    {
      "epoch": 3.3351184610770748,
      "grad_norm": 0.7207188606262207,
      "learning_rate": 2.495144778232244e-05,
      "loss": 0.6705893993377685,
      "memory(GiB)": 70.5,
      "step": 77845,
      "token_acc": 0.8778877887788779,
      "train_speed(iter/s)": 1.452569
    },
    {
      "epoch": 3.3353326764063236,
      "grad_norm": 5.314512729644775,
      "learning_rate": 2.4945623632628068e-05,
      "loss": 0.28265676498413084,
      "memory(GiB)": 70.5,
      "step": 77850,
      "token_acc": 0.9328859060402684,
      "train_speed(iter/s)": 1.452571
    },
    {
      "epoch": 3.3355468917355724,
      "grad_norm": 2.97049880027771,
      "learning_rate": 2.4939799936817222e-05,
      "loss": 0.31410770416259765,
      "memory(GiB)": 70.5,
      "step": 77855,
      "token_acc": 0.9158249158249159,
      "train_speed(iter/s)": 1.452571
    },
    {
      "epoch": 3.3357611070648217,
      "grad_norm": 6.075656890869141,
      "learning_rate": 2.493397669499541e-05,
      "loss": 0.47241578102111814,
      "memory(GiB)": 70.5,
      "step": 77860,
      "token_acc": 0.8951048951048951,
      "train_speed(iter/s)": 1.452568
    },
    {
      "epoch": 3.3359753223940705,
      "grad_norm": 1.8383910655975342,
      "learning_rate": 2.4928153907268104e-05,
      "loss": 0.3222075939178467,
      "memory(GiB)": 70.5,
      "step": 77865,
      "token_acc": 0.9358108108108109,
      "train_speed(iter/s)": 1.452569
    },
    {
      "epoch": 3.3361895377233193,
      "grad_norm": 3.1219491958618164,
      "learning_rate": 2.4922331573740808e-05,
      "loss": 0.27536778450012206,
      "memory(GiB)": 70.5,
      "step": 77870,
      "token_acc": 0.9388489208633094,
      "train_speed(iter/s)": 1.452571
    },
    {
      "epoch": 3.3364037530525685,
      "grad_norm": 5.1829023361206055,
      "learning_rate": 2.491650969451902e-05,
      "loss": 0.25839920043945314,
      "memory(GiB)": 70.5,
      "step": 77875,
      "token_acc": 0.9537366548042705,
      "train_speed(iter/s)": 1.452577
    },
    {
      "epoch": 3.3366179683818173,
      "grad_norm": 2.71146559715271,
      "learning_rate": 2.4910688269708195e-05,
      "loss": 0.3806927680969238,
      "memory(GiB)": 70.5,
      "step": 77880,
      "token_acc": 0.9395017793594306,
      "train_speed(iter/s)": 1.452576
    },
    {
      "epoch": 3.336832183711066,
      "grad_norm": 0.6322245001792908,
      "learning_rate": 2.4904867299413783e-05,
      "loss": 0.1383345365524292,
      "memory(GiB)": 70.5,
      "step": 77885,
      "token_acc": 0.9706959706959707,
      "train_speed(iter/s)": 1.452581
    },
    {
      "epoch": 3.3370463990403154,
      "grad_norm": 0.6190029978752136,
      "learning_rate": 2.4899046783741235e-05,
      "loss": 0.1819856882095337,
      "memory(GiB)": 70.5,
      "step": 77890,
      "token_acc": 0.9451612903225807,
      "train_speed(iter/s)": 1.45258
    },
    {
      "epoch": 3.3372606143695642,
      "grad_norm": 0.19511382281780243,
      "learning_rate": 2.4893226722796008e-05,
      "loss": 0.32038905620574953,
      "memory(GiB)": 70.5,
      "step": 77895,
      "token_acc": 0.9292307692307692,
      "train_speed(iter/s)": 1.452592
    },
    {
      "epoch": 3.337474829698813,
      "grad_norm": 4.911189556121826,
      "learning_rate": 2.4887407116683516e-05,
      "loss": 0.535123348236084,
      "memory(GiB)": 70.5,
      "step": 77900,
      "token_acc": 0.8970588235294118,
      "train_speed(iter/s)": 1.452604
    },
    {
      "epoch": 3.3376890450280623,
      "grad_norm": 2.8479387760162354,
      "learning_rate": 2.488158796550921e-05,
      "loss": 0.2864459276199341,
      "memory(GiB)": 70.5,
      "step": 77905,
      "token_acc": 0.9341085271317829,
      "train_speed(iter/s)": 1.452605
    },
    {
      "epoch": 3.337903260357311,
      "grad_norm": 0.23886089026927948,
      "learning_rate": 2.487576926937851e-05,
      "loss": 0.24432833194732667,
      "memory(GiB)": 70.5,
      "step": 77910,
      "token_acc": 0.9330855018587361,
      "train_speed(iter/s)": 1.452609
    },
    {
      "epoch": 3.33811747568656,
      "grad_norm": 6.825482368469238,
      "learning_rate": 2.4869951028396813e-05,
      "loss": 0.33167119026184083,
      "memory(GiB)": 70.5,
      "step": 77915,
      "token_acc": 0.92578125,
      "train_speed(iter/s)": 1.45261
    },
    {
      "epoch": 3.338331691015809,
      "grad_norm": 5.0975422859191895,
      "learning_rate": 2.486413324266953e-05,
      "loss": 0.38232429027557374,
      "memory(GiB)": 70.5,
      "step": 77920,
      "token_acc": 0.9122257053291536,
      "train_speed(iter/s)": 1.452615
    },
    {
      "epoch": 3.338545906345058,
      "grad_norm": 3.162856101989746,
      "learning_rate": 2.4858315912302033e-05,
      "loss": 0.20814692974090576,
      "memory(GiB)": 70.5,
      "step": 77925,
      "token_acc": 0.9486404833836858,
      "train_speed(iter/s)": 1.45262
    },
    {
      "epoch": 3.338760121674307,
      "grad_norm": 2.0097570419311523,
      "learning_rate": 2.4852499037399747e-05,
      "loss": 0.42900891304016114,
      "memory(GiB)": 70.5,
      "step": 77930,
      "token_acc": 0.9163879598662207,
      "train_speed(iter/s)": 1.452624
    },
    {
      "epoch": 3.338974337003556,
      "grad_norm": 2.299622058868408,
      "learning_rate": 2.484668261806803e-05,
      "loss": 0.34510538578033445,
      "memory(GiB)": 70.5,
      "step": 77935,
      "token_acc": 0.9295774647887324,
      "train_speed(iter/s)": 1.452632
    },
    {
      "epoch": 3.339188552332805,
      "grad_norm": 0.32974496483802795,
      "learning_rate": 2.4840866654412232e-05,
      "loss": 0.11496576070785522,
      "memory(GiB)": 70.5,
      "step": 77940,
      "token_acc": 0.9683098591549296,
      "train_speed(iter/s)": 1.452637
    },
    {
      "epoch": 3.3394027676620537,
      "grad_norm": 1.9547072649002075,
      "learning_rate": 2.483505114653776e-05,
      "loss": 0.29766552448272704,
      "memory(GiB)": 70.5,
      "step": 77945,
      "token_acc": 0.9494949494949495,
      "train_speed(iter/s)": 1.45264
    },
    {
      "epoch": 3.339616982991303,
      "grad_norm": 5.55319881439209,
      "learning_rate": 2.482923609454994e-05,
      "loss": 0.2964426755905151,
      "memory(GiB)": 70.5,
      "step": 77950,
      "token_acc": 0.9273927392739274,
      "train_speed(iter/s)": 1.452647
    },
    {
      "epoch": 3.3398311983205518,
      "grad_norm": 2.103694200515747,
      "learning_rate": 2.48234214985541e-05,
      "loss": 0.28181073665618894,
      "memory(GiB)": 70.5,
      "step": 77955,
      "token_acc": 0.9398496240601504,
      "train_speed(iter/s)": 1.452659
    },
    {
      "epoch": 3.3400454136498006,
      "grad_norm": 0.27719423174858093,
      "learning_rate": 2.4817607358655614e-05,
      "loss": 0.4664303302764893,
      "memory(GiB)": 70.5,
      "step": 77960,
      "token_acc": 0.8991935483870968,
      "train_speed(iter/s)": 1.452661
    },
    {
      "epoch": 3.34025962897905,
      "grad_norm": 4.159386157989502,
      "learning_rate": 2.48117936749598e-05,
      "loss": 0.2670133590698242,
      "memory(GiB)": 70.5,
      "step": 77965,
      "token_acc": 0.95578231292517,
      "train_speed(iter/s)": 1.452665
    },
    {
      "epoch": 3.3404738443082986,
      "grad_norm": 1.6092922687530518,
      "learning_rate": 2.480598044757197e-05,
      "loss": 0.38036112785339354,
      "memory(GiB)": 70.5,
      "step": 77970,
      "token_acc": 0.9216417910447762,
      "train_speed(iter/s)": 1.45267
    },
    {
      "epoch": 3.3406880596375474,
      "grad_norm": 1.2379223108291626,
      "learning_rate": 2.4800167676597436e-05,
      "loss": 0.1949336051940918,
      "memory(GiB)": 70.5,
      "step": 77975,
      "token_acc": 0.9456066945606695,
      "train_speed(iter/s)": 1.452672
    },
    {
      "epoch": 3.3409022749667967,
      "grad_norm": 1.3192789554595947,
      "learning_rate": 2.4794355362141508e-05,
      "loss": 0.17384363412857057,
      "memory(GiB)": 70.5,
      "step": 77980,
      "token_acc": 0.9603399433427762,
      "train_speed(iter/s)": 1.452676
    },
    {
      "epoch": 3.3411164902960455,
      "grad_norm": 1.7729939222335815,
      "learning_rate": 2.4788543504309454e-05,
      "loss": 0.5069224834442139,
      "memory(GiB)": 70.5,
      "step": 77985,
      "token_acc": 0.9174917491749175,
      "train_speed(iter/s)": 1.452681
    },
    {
      "epoch": 3.3413307056252943,
      "grad_norm": 1.9604384899139404,
      "learning_rate": 2.4782732103206607e-05,
      "loss": 0.2587468385696411,
      "memory(GiB)": 70.5,
      "step": 77990,
      "token_acc": 0.9329073482428115,
      "train_speed(iter/s)": 1.452684
    },
    {
      "epoch": 3.3415449209545436,
      "grad_norm": 0.6111294031143188,
      "learning_rate": 2.4776921158938222e-05,
      "loss": 0.18797047138214112,
      "memory(GiB)": 70.5,
      "step": 77995,
      "token_acc": 0.9539007092198581,
      "train_speed(iter/s)": 1.452694
    },
    {
      "epoch": 3.3417591362837924,
      "grad_norm": 0.9023430943489075,
      "learning_rate": 2.4771110671609573e-05,
      "loss": 0.26372947692871096,
      "memory(GiB)": 70.5,
      "step": 78000,
      "token_acc": 0.9638989169675091,
      "train_speed(iter/s)": 1.452709
    },
    {
      "epoch": 3.3417591362837924,
      "eval_loss": 2.433716058731079,
      "eval_runtime": 11.6563,
      "eval_samples_per_second": 8.579,
      "eval_steps_per_second": 8.579,
      "eval_token_acc": 0.4562091503267974,
      "step": 78000
    },
    {
      "epoch": 3.341973351613041,
      "grad_norm": 6.116693496704102,
      "learning_rate": 2.4765300641325915e-05,
      "loss": 0.8011038780212403,
      "memory(GiB)": 70.5,
      "step": 78005,
      "token_acc": 0.5609981515711645,
      "train_speed(iter/s)": 1.452363
    },
    {
      "epoch": 3.3421875669422905,
      "grad_norm": 1.4440550804138184,
      "learning_rate": 2.4759491068192496e-05,
      "loss": 0.2519721508026123,
      "memory(GiB)": 70.5,
      "step": 78010,
      "token_acc": 0.944078947368421,
      "train_speed(iter/s)": 1.452377
    },
    {
      "epoch": 3.3424017822715393,
      "grad_norm": 3.9233944416046143,
      "learning_rate": 2.4753681952314573e-05,
      "loss": 0.3481459617614746,
      "memory(GiB)": 70.5,
      "step": 78015,
      "token_acc": 0.9233226837060703,
      "train_speed(iter/s)": 1.45238
    },
    {
      "epoch": 3.342615997600788,
      "grad_norm": 5.283749580383301,
      "learning_rate": 2.4747873293797396e-05,
      "loss": 0.5328766822814941,
      "memory(GiB)": 70.5,
      "step": 78020,
      "token_acc": 0.8842105263157894,
      "train_speed(iter/s)": 1.452386
    },
    {
      "epoch": 3.3428302129300373,
      "grad_norm": 2.7426490783691406,
      "learning_rate": 2.474206509274619e-05,
      "loss": 0.2705348253250122,
      "memory(GiB)": 70.5,
      "step": 78025,
      "token_acc": 0.9442815249266863,
      "train_speed(iter/s)": 1.452384
    },
    {
      "epoch": 3.343044428259286,
      "grad_norm": 2.5596625804901123,
      "learning_rate": 2.4736257349266167e-05,
      "loss": 0.11749334335327148,
      "memory(GiB)": 70.5,
      "step": 78030,
      "token_acc": 0.9822222222222222,
      "train_speed(iter/s)": 1.452388
    },
    {
      "epoch": 3.343258643588535,
      "grad_norm": 2.8401167392730713,
      "learning_rate": 2.473045006346254e-05,
      "loss": 0.3036047458648682,
      "memory(GiB)": 70.5,
      "step": 78035,
      "token_acc": 0.935064935064935,
      "train_speed(iter/s)": 1.452391
    },
    {
      "epoch": 3.3434728589177842,
      "grad_norm": 1.3005129098892212,
      "learning_rate": 2.472464323544052e-05,
      "loss": 0.41666088104248045,
      "memory(GiB)": 70.5,
      "step": 78040,
      "token_acc": 0.9359756097560976,
      "train_speed(iter/s)": 1.452393
    },
    {
      "epoch": 3.343687074247033,
      "grad_norm": 1.7357302904129028,
      "learning_rate": 2.4718836865305274e-05,
      "loss": 0.39350042343139646,
      "memory(GiB)": 70.5,
      "step": 78045,
      "token_acc": 0.9217081850533808,
      "train_speed(iter/s)": 1.452396
    },
    {
      "epoch": 3.343901289576282,
      "grad_norm": 3.6577913761138916,
      "learning_rate": 2.4713030953162036e-05,
      "loss": 0.40500526428222655,
      "memory(GiB)": 70.5,
      "step": 78050,
      "token_acc": 0.9078498293515358,
      "train_speed(iter/s)": 1.4524
    },
    {
      "epoch": 3.344115504905531,
      "grad_norm": 4.752927780151367,
      "learning_rate": 2.470722549911596e-05,
      "loss": 0.5801928520202637,
      "memory(GiB)": 70.5,
      "step": 78055,
      "token_acc": 0.9010989010989011,
      "train_speed(iter/s)": 1.452404
    },
    {
      "epoch": 3.34432972023478,
      "grad_norm": 2.0166056156158447,
      "learning_rate": 2.470142050327222e-05,
      "loss": 0.35126571655273436,
      "memory(GiB)": 70.5,
      "step": 78060,
      "token_acc": 0.907185628742515,
      "train_speed(iter/s)": 1.452409
    },
    {
      "epoch": 3.3445439355640287,
      "grad_norm": 2.12361216545105,
      "learning_rate": 2.4695615965735984e-05,
      "loss": 0.20585370063781738,
      "memory(GiB)": 70.5,
      "step": 78065,
      "token_acc": 0.9655172413793104,
      "train_speed(iter/s)": 1.452423
    },
    {
      "epoch": 3.344758150893278,
      "grad_norm": 3.3613810539245605,
      "learning_rate": 2.468981188661238e-05,
      "loss": 0.3201587438583374,
      "memory(GiB)": 70.5,
      "step": 78070,
      "token_acc": 0.9124087591240876,
      "train_speed(iter/s)": 1.452428
    },
    {
      "epoch": 3.344972366222527,
      "grad_norm": 3.48781681060791,
      "learning_rate": 2.46840082660066e-05,
      "loss": 0.5351302623748779,
      "memory(GiB)": 70.5,
      "step": 78075,
      "token_acc": 0.9119496855345912,
      "train_speed(iter/s)": 1.452443
    },
    {
      "epoch": 3.3451865815517756,
      "grad_norm": 0.05939272418618202,
      "learning_rate": 2.467820510402375e-05,
      "loss": 0.3325479030609131,
      "memory(GiB)": 70.5,
      "step": 78080,
      "token_acc": 0.9348958333333334,
      "train_speed(iter/s)": 1.452458
    },
    {
      "epoch": 3.345400796881025,
      "grad_norm": 1.2039744853973389,
      "learning_rate": 2.4672402400768973e-05,
      "loss": 0.24162616729736328,
      "memory(GiB)": 70.5,
      "step": 78085,
      "token_acc": 0.9381443298969072,
      "train_speed(iter/s)": 1.452457
    },
    {
      "epoch": 3.3456150122102737,
      "grad_norm": 0.3632568120956421,
      "learning_rate": 2.466660015634737e-05,
      "loss": 0.471040678024292,
      "memory(GiB)": 70.5,
      "step": 78090,
      "token_acc": 0.9203539823008849,
      "train_speed(iter/s)": 1.452472
    },
    {
      "epoch": 3.3458292275395225,
      "grad_norm": 5.894540786743164,
      "learning_rate": 2.4660798370864086e-05,
      "loss": 0.4551403045654297,
      "memory(GiB)": 70.5,
      "step": 78095,
      "token_acc": 0.9113475177304965,
      "train_speed(iter/s)": 1.452482
    },
    {
      "epoch": 3.3460434428687718,
      "grad_norm": 1.6339294910430908,
      "learning_rate": 2.465499704442419e-05,
      "loss": 0.23656392097473145,
      "memory(GiB)": 70.5,
      "step": 78100,
      "token_acc": 0.9419795221843004,
      "train_speed(iter/s)": 1.452486
    },
    {
      "epoch": 3.3462576581980206,
      "grad_norm": 6.407426357269287,
      "learning_rate": 2.4649196177132818e-05,
      "loss": 0.5282564163208008,
      "memory(GiB)": 70.5,
      "step": 78105,
      "token_acc": 0.8989169675090253,
      "train_speed(iter/s)": 1.452486
    },
    {
      "epoch": 3.3464718735272694,
      "grad_norm": 6.032691955566406,
      "learning_rate": 2.4643395769095035e-05,
      "loss": 0.23117365837097167,
      "memory(GiB)": 70.5,
      "step": 78110,
      "token_acc": 0.9462025316455697,
      "train_speed(iter/s)": 1.452486
    },
    {
      "epoch": 3.3466860888565186,
      "grad_norm": 4.333324909210205,
      "learning_rate": 2.4637595820415925e-05,
      "loss": 0.3095167875289917,
      "memory(GiB)": 70.5,
      "step": 78115,
      "token_acc": 0.9379310344827586,
      "train_speed(iter/s)": 1.452486
    },
    {
      "epoch": 3.3469003041857674,
      "grad_norm": 2.1950817108154297,
      "learning_rate": 2.4631796331200564e-05,
      "loss": 0.2693670988082886,
      "memory(GiB)": 70.5,
      "step": 78120,
      "token_acc": 0.9173553719008265,
      "train_speed(iter/s)": 1.452486
    },
    {
      "epoch": 3.3471145195150163,
      "grad_norm": 2.7948265075683594,
      "learning_rate": 2.4625997301554005e-05,
      "loss": 0.3643715143203735,
      "memory(GiB)": 70.5,
      "step": 78125,
      "token_acc": 0.9003115264797508,
      "train_speed(iter/s)": 1.452486
    },
    {
      "epoch": 3.3473287348442655,
      "grad_norm": 4.436467170715332,
      "learning_rate": 2.462019873158129e-05,
      "loss": 0.33903253078460693,
      "memory(GiB)": 70.5,
      "step": 78130,
      "token_acc": 0.9192200557103064,
      "train_speed(iter/s)": 1.452485
    },
    {
      "epoch": 3.3475429501735143,
      "grad_norm": 4.000362396240234,
      "learning_rate": 2.46144006213875e-05,
      "loss": 0.23951292037963867,
      "memory(GiB)": 70.5,
      "step": 78135,
      "token_acc": 0.9354838709677419,
      "train_speed(iter/s)": 1.452496
    },
    {
      "epoch": 3.347757165502763,
      "grad_norm": 4.348373889923096,
      "learning_rate": 2.460860297107766e-05,
      "loss": 0.5379643440246582,
      "memory(GiB)": 70.5,
      "step": 78140,
      "token_acc": 0.9009584664536742,
      "train_speed(iter/s)": 1.452492
    },
    {
      "epoch": 3.3479713808320124,
      "grad_norm": 0.8678717613220215,
      "learning_rate": 2.4602805780756795e-05,
      "loss": 0.27115716934204104,
      "memory(GiB)": 70.5,
      "step": 78145,
      "token_acc": 0.9357142857142857,
      "train_speed(iter/s)": 1.452492
    },
    {
      "epoch": 3.348185596161261,
      "grad_norm": 1.490216612815857,
      "learning_rate": 2.459700905052993e-05,
      "loss": 0.22916417121887206,
      "memory(GiB)": 70.5,
      "step": 78150,
      "token_acc": 0.9307228915662651,
      "train_speed(iter/s)": 1.452496
    },
    {
      "epoch": 3.34839981149051,
      "grad_norm": 4.67518424987793,
      "learning_rate": 2.459121278050205e-05,
      "loss": 0.2994534015655518,
      "memory(GiB)": 70.5,
      "step": 78155,
      "token_acc": 0.9315960912052117,
      "train_speed(iter/s)": 1.452507
    },
    {
      "epoch": 3.3486140268197593,
      "grad_norm": 3.191516160964966,
      "learning_rate": 2.4585416970778207e-05,
      "loss": 0.29970440864562986,
      "memory(GiB)": 70.5,
      "step": 78160,
      "token_acc": 0.920265780730897,
      "train_speed(iter/s)": 1.452507
    },
    {
      "epoch": 3.348828242149008,
      "grad_norm": 5.77773380279541,
      "learning_rate": 2.4579621621463362e-05,
      "loss": 0.40645761489868165,
      "memory(GiB)": 70.5,
      "step": 78165,
      "token_acc": 0.9067524115755627,
      "train_speed(iter/s)": 1.452509
    },
    {
      "epoch": 3.349042457478257,
      "grad_norm": 1.8525331020355225,
      "learning_rate": 2.4573826732662537e-05,
      "loss": 0.21349709033966063,
      "memory(GiB)": 70.5,
      "step": 78170,
      "token_acc": 0.9438596491228071,
      "train_speed(iter/s)": 1.452519
    },
    {
      "epoch": 3.349256672807506,
      "grad_norm": 1.9154529571533203,
      "learning_rate": 2.4568032304480687e-05,
      "loss": 0.2971083164215088,
      "memory(GiB)": 70.5,
      "step": 78175,
      "token_acc": 0.9553903345724907,
      "train_speed(iter/s)": 1.452524
    },
    {
      "epoch": 3.349470888136755,
      "grad_norm": 4.027176380157471,
      "learning_rate": 2.4562238337022793e-05,
      "loss": 0.44158315658569336,
      "memory(GiB)": 70.5,
      "step": 78180,
      "token_acc": 0.891213389121339,
      "train_speed(iter/s)": 1.452524
    },
    {
      "epoch": 3.349685103466004,
      "grad_norm": 1.168401837348938,
      "learning_rate": 2.455644483039381e-05,
      "loss": 0.3112322807312012,
      "memory(GiB)": 70.5,
      "step": 78185,
      "token_acc": 0.9234972677595629,
      "train_speed(iter/s)": 1.452539
    },
    {
      "epoch": 3.349899318795253,
      "grad_norm": 5.187276363372803,
      "learning_rate": 2.455065178469868e-05,
      "loss": 0.5445015907287598,
      "memory(GiB)": 70.5,
      "step": 78190,
      "token_acc": 0.8901515151515151,
      "train_speed(iter/s)": 1.452556
    },
    {
      "epoch": 3.350113534124502,
      "grad_norm": 2.122426986694336,
      "learning_rate": 2.4544859200042386e-05,
      "loss": 0.2708376407623291,
      "memory(GiB)": 70.5,
      "step": 78195,
      "token_acc": 0.9428571428571428,
      "train_speed(iter/s)": 1.452565
    },
    {
      "epoch": 3.3503277494537507,
      "grad_norm": 2.6421351432800293,
      "learning_rate": 2.4539067076529847e-05,
      "loss": 0.47429676055908204,
      "memory(GiB)": 70.5,
      "step": 78200,
      "token_acc": 0.8955223880597015,
      "train_speed(iter/s)": 1.452577
    },
    {
      "epoch": 3.350541964783,
      "grad_norm": 1.709932804107666,
      "learning_rate": 2.4533275414265992e-05,
      "loss": 0.3435033082962036,
      "memory(GiB)": 70.5,
      "step": 78205,
      "token_acc": 0.9266666666666666,
      "train_speed(iter/s)": 1.452576
    },
    {
      "epoch": 3.3507561801122487,
      "grad_norm": 4.136984825134277,
      "learning_rate": 2.452748421335574e-05,
      "loss": 0.41091341972351075,
      "memory(GiB)": 70.5,
      "step": 78210,
      "token_acc": 0.922077922077922,
      "train_speed(iter/s)": 1.452578
    },
    {
      "epoch": 3.3509703954414976,
      "grad_norm": 4.484251976013184,
      "learning_rate": 2.452169347390399e-05,
      "loss": 0.2551116943359375,
      "memory(GiB)": 70.5,
      "step": 78215,
      "token_acc": 0.9554794520547946,
      "train_speed(iter/s)": 1.452572
    },
    {
      "epoch": 3.351184610770747,
      "grad_norm": 2.0876801013946533,
      "learning_rate": 2.4515903196015684e-05,
      "loss": 0.3137326240539551,
      "memory(GiB)": 70.5,
      "step": 78220,
      "token_acc": 0.9309462915601023,
      "train_speed(iter/s)": 1.452575
    },
    {
      "epoch": 3.3513988260999956,
      "grad_norm": 5.77435302734375,
      "learning_rate": 2.4510113379795696e-05,
      "loss": 0.38836097717285156,
      "memory(GiB)": 70.5,
      "step": 78225,
      "token_acc": 0.917910447761194,
      "train_speed(iter/s)": 1.452578
    },
    {
      "epoch": 3.3516130414292444,
      "grad_norm": 2.6573729515075684,
      "learning_rate": 2.4504324025348912e-05,
      "loss": 0.2866321086883545,
      "memory(GiB)": 70.5,
      "step": 78230,
      "token_acc": 0.9337539432176656,
      "train_speed(iter/s)": 1.452585
    },
    {
      "epoch": 3.3518272567584937,
      "grad_norm": 3.025238037109375,
      "learning_rate": 2.44985351327802e-05,
      "loss": 0.347208571434021,
      "memory(GiB)": 70.5,
      "step": 78235,
      "token_acc": 0.9357142857142857,
      "train_speed(iter/s)": 1.452592
    },
    {
      "epoch": 3.3520414720877425,
      "grad_norm": 2.464386463165283,
      "learning_rate": 2.4492746702194463e-05,
      "loss": 0.1984414577484131,
      "memory(GiB)": 70.5,
      "step": 78240,
      "token_acc": 0.9478260869565217,
      "train_speed(iter/s)": 1.4526
    },
    {
      "epoch": 3.3522556874169913,
      "grad_norm": 5.099549770355225,
      "learning_rate": 2.448695873369653e-05,
      "loss": 0.5052221298217774,
      "memory(GiB)": 70.5,
      "step": 78245,
      "token_acc": 0.8700361010830325,
      "train_speed(iter/s)": 1.452614
    },
    {
      "epoch": 3.3524699027462406,
      "grad_norm": 3.55637264251709,
      "learning_rate": 2.4481171227391293e-05,
      "loss": 0.4804656982421875,
      "memory(GiB)": 70.5,
      "step": 78250,
      "token_acc": 0.8969465648854962,
      "train_speed(iter/s)": 1.452633
    },
    {
      "epoch": 3.3526841180754894,
      "grad_norm": 1.3110451698303223,
      "learning_rate": 2.4475384183383577e-05,
      "loss": 0.28634445667266845,
      "memory(GiB)": 70.5,
      "step": 78255,
      "token_acc": 0.9261744966442953,
      "train_speed(iter/s)": 1.452635
    },
    {
      "epoch": 3.352898333404738,
      "grad_norm": 6.210657596588135,
      "learning_rate": 2.4469597601778222e-05,
      "loss": 0.25720510482788084,
      "memory(GiB)": 70.5,
      "step": 78260,
      "token_acc": 0.9425675675675675,
      "train_speed(iter/s)": 1.45264
    },
    {
      "epoch": 3.3531125487339875,
      "grad_norm": 3.3236641883850098,
      "learning_rate": 2.446381148268005e-05,
      "loss": 0.20095763206481934,
      "memory(GiB)": 70.5,
      "step": 78265,
      "token_acc": 0.9569230769230769,
      "train_speed(iter/s)": 1.452642
    },
    {
      "epoch": 3.3533267640632363,
      "grad_norm": 1.869219183921814,
      "learning_rate": 2.445802582619389e-05,
      "loss": 0.17851028442382813,
      "memory(GiB)": 70.5,
      "step": 78270,
      "token_acc": 0.9552845528455285,
      "train_speed(iter/s)": 1.452661
    },
    {
      "epoch": 3.353540979392485,
      "grad_norm": 3.8665449619293213,
      "learning_rate": 2.4452240632424538e-05,
      "loss": 0.335982084274292,
      "memory(GiB)": 70.5,
      "step": 78275,
      "token_acc": 0.934375,
      "train_speed(iter/s)": 1.452672
    },
    {
      "epoch": 3.3537551947217343,
      "grad_norm": 1.3316243886947632,
      "learning_rate": 2.4446455901476828e-05,
      "loss": 0.26202433109283446,
      "memory(GiB)": 70.5,
      "step": 78280,
      "token_acc": 0.9379310344827586,
      "train_speed(iter/s)": 1.452668
    },
    {
      "epoch": 3.353969410050983,
      "grad_norm": 2.2789146900177,
      "learning_rate": 2.4440671633455543e-05,
      "loss": 0.32268719673156737,
      "memory(GiB)": 70.5,
      "step": 78285,
      "token_acc": 0.9314516129032258,
      "train_speed(iter/s)": 1.452672
    },
    {
      "epoch": 3.3541836253802324,
      "grad_norm": 4.523410797119141,
      "learning_rate": 2.4434887828465463e-05,
      "loss": 0.3102756977081299,
      "memory(GiB)": 70.5,
      "step": 78290,
      "token_acc": 0.9519230769230769,
      "train_speed(iter/s)": 1.452674
    },
    {
      "epoch": 3.354397840709481,
      "grad_norm": 5.096879005432129,
      "learning_rate": 2.4429104486611376e-05,
      "loss": 0.33536500930786134,
      "memory(GiB)": 70.5,
      "step": 78295,
      "token_acc": 0.9326241134751773,
      "train_speed(iter/s)": 1.452677
    },
    {
      "epoch": 3.35461205603873,
      "grad_norm": 2.634005546569824,
      "learning_rate": 2.4423321607998028e-05,
      "loss": 0.4404607772827148,
      "memory(GiB)": 70.5,
      "step": 78300,
      "token_acc": 0.9188191881918819,
      "train_speed(iter/s)": 1.452673
    },
    {
      "epoch": 3.3548262713679793,
      "grad_norm": 5.265409469604492,
      "learning_rate": 2.4417539192730226e-05,
      "loss": 0.43228793144226074,
      "memory(GiB)": 70.5,
      "step": 78305,
      "token_acc": 0.9235880398671097,
      "train_speed(iter/s)": 1.452679
    },
    {
      "epoch": 3.355040486697228,
      "grad_norm": 0.7847948670387268,
      "learning_rate": 2.4411757240912675e-05,
      "loss": 0.1457539439201355,
      "memory(GiB)": 70.5,
      "step": 78310,
      "token_acc": 0.9791666666666666,
      "train_speed(iter/s)": 1.452689
    },
    {
      "epoch": 3.355254702026477,
      "grad_norm": 0.502834677696228,
      "learning_rate": 2.4405975752650168e-05,
      "loss": 0.49944357872009276,
      "memory(GiB)": 70.5,
      "step": 78315,
      "token_acc": 0.9154929577464789,
      "train_speed(iter/s)": 1.452695
    },
    {
      "epoch": 3.355468917355726,
      "grad_norm": 3.3414478302001953,
      "learning_rate": 2.4400194728047414e-05,
      "loss": 0.4325685977935791,
      "memory(GiB)": 70.5,
      "step": 78320,
      "token_acc": 0.9032258064516129,
      "train_speed(iter/s)": 1.452698
    },
    {
      "epoch": 3.355683132684975,
      "grad_norm": 5.31052827835083,
      "learning_rate": 2.4394414167209152e-05,
      "loss": 0.40782904624938965,
      "memory(GiB)": 70.5,
      "step": 78325,
      "token_acc": 0.9132947976878613,
      "train_speed(iter/s)": 1.452699
    },
    {
      "epoch": 3.355897348014224,
      "grad_norm": 2.888258457183838,
      "learning_rate": 2.4388634070240097e-05,
      "loss": 0.47646398544311525,
      "memory(GiB)": 70.5,
      "step": 78330,
      "token_acc": 0.8782894736842105,
      "train_speed(iter/s)": 1.452696
    },
    {
      "epoch": 3.356111563343473,
      "grad_norm": 2.188753843307495,
      "learning_rate": 2.438285443724494e-05,
      "loss": 0.23748676776885985,
      "memory(GiB)": 70.5,
      "step": 78335,
      "token_acc": 0.9512820512820512,
      "train_speed(iter/s)": 1.452706
    },
    {
      "epoch": 3.356325778672722,
      "grad_norm": 4.877483367919922,
      "learning_rate": 2.4377075268328426e-05,
      "loss": 0.3567486763000488,
      "memory(GiB)": 70.5,
      "step": 78340,
      "token_acc": 0.9169435215946844,
      "train_speed(iter/s)": 1.452709
    },
    {
      "epoch": 3.3565399940019707,
      "grad_norm": 1.937904953956604,
      "learning_rate": 2.437129656359523e-05,
      "loss": 0.6107395648956299,
      "memory(GiB)": 70.5,
      "step": 78345,
      "token_acc": 0.8518518518518519,
      "train_speed(iter/s)": 1.45272
    },
    {
      "epoch": 3.35675420933122,
      "grad_norm": 2.0989990234375,
      "learning_rate": 2.4365518323150037e-05,
      "loss": 0.21655261516571045,
      "memory(GiB)": 70.5,
      "step": 78350,
      "token_acc": 0.9428571428571428,
      "train_speed(iter/s)": 1.452721
    },
    {
      "epoch": 3.3569684246604687,
      "grad_norm": 3.8378446102142334,
      "learning_rate": 2.4359740547097526e-05,
      "loss": 0.37326822280883787,
      "memory(GiB)": 70.5,
      "step": 78355,
      "token_acc": 0.9202898550724637,
      "train_speed(iter/s)": 1.452724
    },
    {
      "epoch": 3.3571826399897176,
      "grad_norm": 0.6654361486434937,
      "learning_rate": 2.435396323554235e-05,
      "loss": 0.2761711120605469,
      "memory(GiB)": 70.5,
      "step": 78360,
      "token_acc": 0.937125748502994,
      "train_speed(iter/s)": 1.452728
    },
    {
      "epoch": 3.357396855318967,
      "grad_norm": 2.8888680934906006,
      "learning_rate": 2.4348186388589206e-05,
      "loss": 0.36757113933563235,
      "memory(GiB)": 70.5,
      "step": 78365,
      "token_acc": 0.9372384937238494,
      "train_speed(iter/s)": 1.452731
    },
    {
      "epoch": 3.3576110706482156,
      "grad_norm": 2.510707378387451,
      "learning_rate": 2.4342410006342732e-05,
      "loss": 0.41069726943969725,
      "memory(GiB)": 70.5,
      "step": 78370,
      "token_acc": 0.9135802469135802,
      "train_speed(iter/s)": 1.452746
    },
    {
      "epoch": 3.3578252859774644,
      "grad_norm": 3.7046456336975098,
      "learning_rate": 2.4336634088907566e-05,
      "loss": 0.6009008884429932,
      "memory(GiB)": 70.5,
      "step": 78375,
      "token_acc": 0.8581081081081081,
      "train_speed(iter/s)": 1.452748
    },
    {
      "epoch": 3.3580395013067137,
      "grad_norm": 2.0989553928375244,
      "learning_rate": 2.4330858636388348e-05,
      "loss": 0.16226078271865846,
      "memory(GiB)": 70.5,
      "step": 78380,
      "token_acc": 0.9473684210526315,
      "train_speed(iter/s)": 1.45275
    },
    {
      "epoch": 3.3582537166359625,
      "grad_norm": 6.0914835929870605,
      "learning_rate": 2.432508364888969e-05,
      "loss": 0.746791934967041,
      "memory(GiB)": 70.5,
      "step": 78385,
      "token_acc": 0.8456140350877193,
      "train_speed(iter/s)": 1.452753
    },
    {
      "epoch": 3.3584679319652113,
      "grad_norm": 2.4480953216552734,
      "learning_rate": 2.431930912651622e-05,
      "loss": 0.3260363578796387,
      "memory(GiB)": 70.5,
      "step": 78390,
      "token_acc": 0.932258064516129,
      "train_speed(iter/s)": 1.452763
    },
    {
      "epoch": 3.3586821472944606,
      "grad_norm": 1.9927682876586914,
      "learning_rate": 2.4313535069372584e-05,
      "loss": 0.3284327030181885,
      "memory(GiB)": 70.5,
      "step": 78395,
      "token_acc": 0.9381443298969072,
      "train_speed(iter/s)": 1.452766
    },
    {
      "epoch": 3.3588963626237094,
      "grad_norm": 2.8612029552459717,
      "learning_rate": 2.430776147756335e-05,
      "loss": 0.35557971000671384,
      "memory(GiB)": 70.5,
      "step": 78400,
      "token_acc": 0.915625,
      "train_speed(iter/s)": 1.452764
    },
    {
      "epoch": 3.359110577952958,
      "grad_norm": 1.1914727687835693,
      "learning_rate": 2.4301988351193117e-05,
      "loss": 0.21464135646820068,
      "memory(GiB)": 70.5,
      "step": 78405,
      "token_acc": 0.9377289377289377,
      "train_speed(iter/s)": 1.452768
    },
    {
      "epoch": 3.3593247932822075,
      "grad_norm": 3.1413068771362305,
      "learning_rate": 2.4296215690366476e-05,
      "loss": 0.3348440647125244,
      "memory(GiB)": 70.5,
      "step": 78410,
      "token_acc": 0.9267515923566879,
      "train_speed(iter/s)": 1.452775
    },
    {
      "epoch": 3.3595390086114563,
      "grad_norm": 3.0133585929870605,
      "learning_rate": 2.4290443495188e-05,
      "loss": 0.2541869878768921,
      "memory(GiB)": 70.5,
      "step": 78415,
      "token_acc": 0.9326241134751773,
      "train_speed(iter/s)": 1.452778
    },
    {
      "epoch": 3.359753223940705,
      "grad_norm": 2.1982357501983643,
      "learning_rate": 2.4284671765762235e-05,
      "loss": 0.4835477352142334,
      "memory(GiB)": 70.5,
      "step": 78420,
      "token_acc": 0.9169329073482428,
      "train_speed(iter/s)": 1.452779
    },
    {
      "epoch": 3.3599674392699543,
      "grad_norm": 4.070955276489258,
      "learning_rate": 2.427890050219378e-05,
      "loss": 0.28475260734558105,
      "memory(GiB)": 70.5,
      "step": 78425,
      "token_acc": 0.9576547231270358,
      "train_speed(iter/s)": 1.452782
    },
    {
      "epoch": 3.360181654599203,
      "grad_norm": 3.125042200088501,
      "learning_rate": 2.427312970458718e-05,
      "loss": 0.2918938159942627,
      "memory(GiB)": 70.5,
      "step": 78430,
      "token_acc": 0.94921875,
      "train_speed(iter/s)": 1.452784
    },
    {
      "epoch": 3.360395869928452,
      "grad_norm": 4.184458255767822,
      "learning_rate": 2.426735937304696e-05,
      "loss": 0.3311163902282715,
      "memory(GiB)": 70.5,
      "step": 78435,
      "token_acc": 0.9351032448377581,
      "train_speed(iter/s)": 1.45279
    },
    {
      "epoch": 3.360610085257701,
      "grad_norm": 2.6020021438598633,
      "learning_rate": 2.426158950767767e-05,
      "loss": 0.3484587430953979,
      "memory(GiB)": 70.5,
      "step": 78440,
      "token_acc": 0.9304347826086956,
      "train_speed(iter/s)": 1.452792
    },
    {
      "epoch": 3.36082430058695,
      "grad_norm": 3.7155516147613525,
      "learning_rate": 2.425582010858381e-05,
      "loss": 0.5624904632568359,
      "memory(GiB)": 70.5,
      "step": 78445,
      "token_acc": 0.9006622516556292,
      "train_speed(iter/s)": 1.452793
    },
    {
      "epoch": 3.361038515916199,
      "grad_norm": 5.714865684509277,
      "learning_rate": 2.4250051175869938e-05,
      "loss": 0.5890889167785645,
      "memory(GiB)": 70.5,
      "step": 78450,
      "token_acc": 0.8929765886287625,
      "train_speed(iter/s)": 1.452801
    },
    {
      "epoch": 3.361252731245448,
      "grad_norm": 3.3580756187438965,
      "learning_rate": 2.4244282709640542e-05,
      "loss": 0.3946933031082153,
      "memory(GiB)": 70.5,
      "step": 78455,
      "token_acc": 0.9096209912536443,
      "train_speed(iter/s)": 1.452816
    },
    {
      "epoch": 3.361466946574697,
      "grad_norm": 3.553385019302368,
      "learning_rate": 2.4238514710000103e-05,
      "loss": 0.3979171276092529,
      "memory(GiB)": 70.5,
      "step": 78460,
      "token_acc": 0.9182389937106918,
      "train_speed(iter/s)": 1.452813
    },
    {
      "epoch": 3.3616811619039457,
      "grad_norm": 5.568390369415283,
      "learning_rate": 2.4232747177053167e-05,
      "loss": 0.54788818359375,
      "memory(GiB)": 70.5,
      "step": 78465,
      "token_acc": 0.8770764119601329,
      "train_speed(iter/s)": 1.452815
    },
    {
      "epoch": 3.361895377233195,
      "grad_norm": 3.634706497192383,
      "learning_rate": 2.422698011090418e-05,
      "loss": 0.19232583045959473,
      "memory(GiB)": 70.5,
      "step": 78470,
      "token_acc": 0.9540636042402827,
      "train_speed(iter/s)": 1.452823
    },
    {
      "epoch": 3.362109592562444,
      "grad_norm": 3.213806390762329,
      "learning_rate": 2.4221213511657624e-05,
      "loss": 0.5510274410247803,
      "memory(GiB)": 70.5,
      "step": 78475,
      "token_acc": 0.8612903225806452,
      "train_speed(iter/s)": 1.452828
    },
    {
      "epoch": 3.3623238078916926,
      "grad_norm": 3.5728933811187744,
      "learning_rate": 2.421544737941795e-05,
      "loss": 0.22204489707946778,
      "memory(GiB)": 70.5,
      "step": 78480,
      "token_acc": 0.9442379182156134,
      "train_speed(iter/s)": 1.452823
    },
    {
      "epoch": 3.362538023220942,
      "grad_norm": 3.4354004859924316,
      "learning_rate": 2.4209681714289655e-05,
      "loss": 0.45642337799072263,
      "memory(GiB)": 70.5,
      "step": 78485,
      "token_acc": 0.9079365079365079,
      "train_speed(iter/s)": 1.452825
    },
    {
      "epoch": 3.3627522385501907,
      "grad_norm": 0.535491406917572,
      "learning_rate": 2.4203916516377167e-05,
      "loss": 0.13571768999099731,
      "memory(GiB)": 70.5,
      "step": 78490,
      "token_acc": 0.954248366013072,
      "train_speed(iter/s)": 1.452826
    },
    {
      "epoch": 3.3629664538794395,
      "grad_norm": 1.0854538679122925,
      "learning_rate": 2.4198151785784934e-05,
      "loss": 0.1785615563392639,
      "memory(GiB)": 70.5,
      "step": 78495,
      "token_acc": 0.9461538461538461,
      "train_speed(iter/s)": 1.45283
    },
    {
      "epoch": 3.3631806692086887,
      "grad_norm": 5.704626560211182,
      "learning_rate": 2.4192387522617384e-05,
      "loss": 0.5393951892852783,
      "memory(GiB)": 70.5,
      "step": 78500,
      "token_acc": 0.9027237354085603,
      "train_speed(iter/s)": 1.452846
    },
    {
      "epoch": 3.3631806692086887,
      "eval_loss": 2.5548012256622314,
      "eval_runtime": 11.5491,
      "eval_samples_per_second": 8.659,
      "eval_steps_per_second": 8.659,
      "eval_token_acc": 0.45515394912985274,
      "step": 78500
    },
    {
      "epoch": 3.3633948845379376,
      "grad_norm": 3.1386213302612305,
      "learning_rate": 2.4186623726978925e-05,
      "loss": 0.22570929527282715,
      "memory(GiB)": 70.5,
      "step": 78505,
      "token_acc": 0.5877192982456141,
      "train_speed(iter/s)": 1.452525
    },
    {
      "epoch": 3.3636090998671864,
      "grad_norm": 2.810786485671997,
      "learning_rate": 2.418086039897401e-05,
      "loss": 0.5628177642822265,
      "memory(GiB)": 70.5,
      "step": 78510,
      "token_acc": 0.8585526315789473,
      "train_speed(iter/s)": 1.452525
    },
    {
      "epoch": 3.3638233151964356,
      "grad_norm": 3.392580986022949,
      "learning_rate": 2.4175097538707025e-05,
      "loss": 0.43055362701416017,
      "memory(GiB)": 70.5,
      "step": 78515,
      "token_acc": 0.9145907473309609,
      "train_speed(iter/s)": 1.452528
    },
    {
      "epoch": 3.3640375305256844,
      "grad_norm": 4.887880802154541,
      "learning_rate": 2.4169335146282378e-05,
      "loss": 0.5123721122741699,
      "memory(GiB)": 70.5,
      "step": 78520,
      "token_acc": 0.8778625954198473,
      "train_speed(iter/s)": 1.452542
    },
    {
      "epoch": 3.3642517458549333,
      "grad_norm": 2.435434103012085,
      "learning_rate": 2.4163573221804457e-05,
      "loss": 0.5270310878753662,
      "memory(GiB)": 70.5,
      "step": 78525,
      "token_acc": 0.9071428571428571,
      "train_speed(iter/s)": 1.452542
    },
    {
      "epoch": 3.3644659611841825,
      "grad_norm": 4.457792282104492,
      "learning_rate": 2.4157811765377624e-05,
      "loss": 0.5445519924163819,
      "memory(GiB)": 70.5,
      "step": 78530,
      "token_acc": 0.8931750741839762,
      "train_speed(iter/s)": 1.452544
    },
    {
      "epoch": 3.3646801765134313,
      "grad_norm": 2.4414138793945312,
      "learning_rate": 2.4152050777106273e-05,
      "loss": 0.5350643157958984,
      "memory(GiB)": 70.5,
      "step": 78535,
      "token_acc": 0.900355871886121,
      "train_speed(iter/s)": 1.452545
    },
    {
      "epoch": 3.36489439184268,
      "grad_norm": 2.6395492553710938,
      "learning_rate": 2.414629025709479e-05,
      "loss": 0.5015573501586914,
      "memory(GiB)": 70.5,
      "step": 78540,
      "token_acc": 0.9114754098360656,
      "train_speed(iter/s)": 1.45255
    },
    {
      "epoch": 3.3651086071719294,
      "grad_norm": 2.2441916465759277,
      "learning_rate": 2.414053020544751e-05,
      "loss": 0.24782259464263917,
      "memory(GiB)": 70.5,
      "step": 78545,
      "token_acc": 0.9368421052631579,
      "train_speed(iter/s)": 1.452546
    },
    {
      "epoch": 3.365322822501178,
      "grad_norm": 0.6916298270225525,
      "learning_rate": 2.4134770622268783e-05,
      "loss": 0.46539783477783203,
      "memory(GiB)": 70.5,
      "step": 78550,
      "token_acc": 0.875,
      "train_speed(iter/s)": 1.452543
    },
    {
      "epoch": 3.365537037830427,
      "grad_norm": 4.1259918212890625,
      "learning_rate": 2.4129011507662945e-05,
      "loss": 0.3567992925643921,
      "memory(GiB)": 70.5,
      "step": 78555,
      "token_acc": 0.9094076655052264,
      "train_speed(iter/s)": 1.452544
    },
    {
      "epoch": 3.3657512531596763,
      "grad_norm": 0.17121843993663788,
      "learning_rate": 2.4123252861734334e-05,
      "loss": 0.10485645532608032,
      "memory(GiB)": 70.5,
      "step": 78560,
      "token_acc": 0.976027397260274,
      "train_speed(iter/s)": 1.452548
    },
    {
      "epoch": 3.365965468488925,
      "grad_norm": 3.285890579223633,
      "learning_rate": 2.4117494684587262e-05,
      "loss": 0.4274646282196045,
      "memory(GiB)": 70.5,
      "step": 78565,
      "token_acc": 0.9142857142857143,
      "train_speed(iter/s)": 1.452554
    },
    {
      "epoch": 3.366179683818174,
      "grad_norm": 3.7479324340820312,
      "learning_rate": 2.4111736976326066e-05,
      "loss": 0.2276614189147949,
      "memory(GiB)": 70.5,
      "step": 78570,
      "token_acc": 0.9355932203389831,
      "train_speed(iter/s)": 1.452555
    },
    {
      "epoch": 3.366393899147423,
      "grad_norm": 5.198769569396973,
      "learning_rate": 2.410597973705504e-05,
      "loss": 0.5006923198699951,
      "memory(GiB)": 70.5,
      "step": 78575,
      "token_acc": 0.8983050847457628,
      "train_speed(iter/s)": 1.452571
    },
    {
      "epoch": 3.366608114476672,
      "grad_norm": 3.6906707286834717,
      "learning_rate": 2.4100222966878484e-05,
      "loss": 0.698622179031372,
      "memory(GiB)": 70.5,
      "step": 78580,
      "token_acc": 0.8687943262411347,
      "train_speed(iter/s)": 1.452572
    },
    {
      "epoch": 3.3668223298059208,
      "grad_norm": 1.0113763809204102,
      "learning_rate": 2.409446666590068e-05,
      "loss": 0.23407416343688964,
      "memory(GiB)": 70.5,
      "step": 78585,
      "token_acc": 0.9629629629629629,
      "train_speed(iter/s)": 1.452585
    },
    {
      "epoch": 3.36703654513517,
      "grad_norm": 2.060856342315674,
      "learning_rate": 2.4088710834225896e-05,
      "loss": 0.3316983222961426,
      "memory(GiB)": 70.5,
      "step": 78590,
      "token_acc": 0.922077922077922,
      "train_speed(iter/s)": 1.452587
    },
    {
      "epoch": 3.367250760464419,
      "grad_norm": 4.134859561920166,
      "learning_rate": 2.408295547195844e-05,
      "loss": 0.4849548816680908,
      "memory(GiB)": 70.5,
      "step": 78595,
      "token_acc": 0.9026548672566371,
      "train_speed(iter/s)": 1.45259
    },
    {
      "epoch": 3.3674649757936677,
      "grad_norm": 1.4068779945373535,
      "learning_rate": 2.4077200579202563e-05,
      "loss": 0.15294694900512695,
      "memory(GiB)": 70.5,
      "step": 78600,
      "token_acc": 0.9627329192546584,
      "train_speed(iter/s)": 1.452588
    },
    {
      "epoch": 3.367679191122917,
      "grad_norm": 5.05280876159668,
      "learning_rate": 2.4071446156062494e-05,
      "loss": 0.13581908941268922,
      "memory(GiB)": 70.5,
      "step": 78605,
      "token_acc": 0.96,
      "train_speed(iter/s)": 1.452589
    },
    {
      "epoch": 3.3678934064521657,
      "grad_norm": 5.089373588562012,
      "learning_rate": 2.406569220264252e-05,
      "loss": 0.31252126693725585,
      "memory(GiB)": 70.5,
      "step": 78610,
      "token_acc": 0.9422382671480144,
      "train_speed(iter/s)": 1.452603
    },
    {
      "epoch": 3.3681076217814145,
      "grad_norm": 2.8637442588806152,
      "learning_rate": 2.405993871904686e-05,
      "loss": 0.4491405010223389,
      "memory(GiB)": 70.5,
      "step": 78615,
      "token_acc": 0.9093851132686084,
      "train_speed(iter/s)": 1.452605
    },
    {
      "epoch": 3.368321837110664,
      "grad_norm": 3.4507694244384766,
      "learning_rate": 2.4054185705379724e-05,
      "loss": 0.5758914470672607,
      "memory(GiB)": 70.5,
      "step": 78620,
      "token_acc": 0.8378378378378378,
      "train_speed(iter/s)": 1.452611
    },
    {
      "epoch": 3.3685360524399126,
      "grad_norm": 4.219239711761475,
      "learning_rate": 2.404843316174537e-05,
      "loss": 0.2849971532821655,
      "memory(GiB)": 70.5,
      "step": 78625,
      "token_acc": 0.95,
      "train_speed(iter/s)": 1.452623
    },
    {
      "epoch": 3.3687502677691614,
      "grad_norm": 3.239497661590576,
      "learning_rate": 2.4042681088248e-05,
      "loss": 0.6901252269744873,
      "memory(GiB)": 70.5,
      "step": 78630,
      "token_acc": 0.8592592592592593,
      "train_speed(iter/s)": 1.452638
    },
    {
      "epoch": 3.3689644830984107,
      "grad_norm": 4.728368759155273,
      "learning_rate": 2.4036929484991804e-05,
      "loss": 0.29308271408081055,
      "memory(GiB)": 70.5,
      "step": 78635,
      "token_acc": 0.9283018867924528,
      "train_speed(iter/s)": 1.452641
    },
    {
      "epoch": 3.3691786984276595,
      "grad_norm": 1.9639208316802979,
      "learning_rate": 2.4031178352080992e-05,
      "loss": 0.43001999855041506,
      "memory(GiB)": 70.5,
      "step": 78640,
      "token_acc": 0.9202453987730062,
      "train_speed(iter/s)": 1.452653
    },
    {
      "epoch": 3.3693929137569083,
      "grad_norm": 3.716834783554077,
      "learning_rate": 2.402542768961974e-05,
      "loss": 0.46588888168334963,
      "memory(GiB)": 70.5,
      "step": 78645,
      "token_acc": 0.8879310344827587,
      "train_speed(iter/s)": 1.452664
    },
    {
      "epoch": 3.3696071290861576,
      "grad_norm": 1.7863279581069946,
      "learning_rate": 2.4019677497712216e-05,
      "loss": 0.12158517837524414,
      "memory(GiB)": 70.5,
      "step": 78650,
      "token_acc": 0.966542750929368,
      "train_speed(iter/s)": 1.452674
    },
    {
      "epoch": 3.3698213444154064,
      "grad_norm": 4.186831951141357,
      "learning_rate": 2.4013927776462625e-05,
      "loss": 0.3428311824798584,
      "memory(GiB)": 70.5,
      "step": 78655,
      "token_acc": 0.9163498098859315,
      "train_speed(iter/s)": 1.45268
    },
    {
      "epoch": 3.370035559744655,
      "grad_norm": 1.771992802619934,
      "learning_rate": 2.4008178525975105e-05,
      "loss": 0.38280837535858153,
      "memory(GiB)": 70.5,
      "step": 78660,
      "token_acc": 0.9136212624584718,
      "train_speed(iter/s)": 1.452681
    },
    {
      "epoch": 3.3702497750739044,
      "grad_norm": 5.226715087890625,
      "learning_rate": 2.4002429746353817e-05,
      "loss": 0.583591365814209,
      "memory(GiB)": 70.5,
      "step": 78665,
      "token_acc": 0.8629629629629629,
      "train_speed(iter/s)": 1.452692
    },
    {
      "epoch": 3.3704639904031533,
      "grad_norm": 5.0699567794799805,
      "learning_rate": 2.39966814377029e-05,
      "loss": 0.6065030097961426,
      "memory(GiB)": 70.5,
      "step": 78670,
      "token_acc": 0.8823529411764706,
      "train_speed(iter/s)": 1.452703
    },
    {
      "epoch": 3.370678205732402,
      "grad_norm": 0.5214705467224121,
      "learning_rate": 2.3990933600126476e-05,
      "loss": 0.3885796308517456,
      "memory(GiB)": 70.5,
      "step": 78675,
      "token_acc": 0.9220338983050848,
      "train_speed(iter/s)": 1.452717
    },
    {
      "epoch": 3.3708924210616513,
      "grad_norm": 3.8473868370056152,
      "learning_rate": 2.3985186233728686e-05,
      "loss": 0.19067974090576173,
      "memory(GiB)": 70.5,
      "step": 78680,
      "token_acc": 0.9597523219814241,
      "train_speed(iter/s)": 1.452719
    },
    {
      "epoch": 3.3711066363909,
      "grad_norm": 3.807373523712158,
      "learning_rate": 2.3979439338613668e-05,
      "loss": 0.4728085994720459,
      "memory(GiB)": 70.5,
      "step": 78685,
      "token_acc": 0.902027027027027,
      "train_speed(iter/s)": 1.452744
    },
    {
      "epoch": 3.371320851720149,
      "grad_norm": 2.0356907844543457,
      "learning_rate": 2.397369291488552e-05,
      "loss": 0.2948775291442871,
      "memory(GiB)": 70.5,
      "step": 78690,
      "token_acc": 0.940983606557377,
      "train_speed(iter/s)": 1.452761
    },
    {
      "epoch": 3.371535067049398,
      "grad_norm": 6.1090497970581055,
      "learning_rate": 2.3967946962648334e-05,
      "loss": 0.3616189002990723,
      "memory(GiB)": 70.5,
      "step": 78695,
      "token_acc": 0.9243986254295533,
      "train_speed(iter/s)": 1.452756
    },
    {
      "epoch": 3.371749282378647,
      "grad_norm": 3.007840871810913,
      "learning_rate": 2.3962201482006215e-05,
      "loss": 0.2684352874755859,
      "memory(GiB)": 70.5,
      "step": 78700,
      "token_acc": 0.9452054794520548,
      "train_speed(iter/s)": 1.452756
    },
    {
      "epoch": 3.371963497707896,
      "grad_norm": 3.851588726043701,
      "learning_rate": 2.395645647306324e-05,
      "loss": 0.4447641372680664,
      "memory(GiB)": 70.5,
      "step": 78705,
      "token_acc": 0.8893280632411067,
      "train_speed(iter/s)": 1.45276
    },
    {
      "epoch": 3.372177713037145,
      "grad_norm": 2.9217162132263184,
      "learning_rate": 2.3950711935923466e-05,
      "loss": 0.19317418336868286,
      "memory(GiB)": 70.5,
      "step": 78710,
      "token_acc": 0.9644128113879004,
      "train_speed(iter/s)": 1.452766
    },
    {
      "epoch": 3.372391928366394,
      "grad_norm": 0.25048765540122986,
      "learning_rate": 2.3944967870691003e-05,
      "loss": 0.20002763271331786,
      "memory(GiB)": 70.5,
      "step": 78715,
      "token_acc": 0.9616519174041298,
      "train_speed(iter/s)": 1.452771
    },
    {
      "epoch": 3.3726061436956427,
      "grad_norm": 0.2672334313392639,
      "learning_rate": 2.3939224277469886e-05,
      "loss": 0.378288197517395,
      "memory(GiB)": 70.5,
      "step": 78720,
      "token_acc": 0.916955017301038,
      "train_speed(iter/s)": 1.452772
    },
    {
      "epoch": 3.372820359024892,
      "grad_norm": 0.4226509928703308,
      "learning_rate": 2.3933481156364168e-05,
      "loss": 0.09232691526412964,
      "memory(GiB)": 70.5,
      "step": 78725,
      "token_acc": 0.9776119402985075,
      "train_speed(iter/s)": 1.452769
    },
    {
      "epoch": 3.373034574354141,
      "grad_norm": 3.1943657398223877,
      "learning_rate": 2.392773850747789e-05,
      "loss": 0.2649980068206787,
      "memory(GiB)": 70.5,
      "step": 78730,
      "token_acc": 0.9438596491228071,
      "train_speed(iter/s)": 1.452769
    },
    {
      "epoch": 3.3732487896833896,
      "grad_norm": 0.38678884506225586,
      "learning_rate": 2.3921996330915076e-05,
      "loss": 0.2872999429702759,
      "memory(GiB)": 70.5,
      "step": 78735,
      "token_acc": 0.9493670886075949,
      "train_speed(iter/s)": 1.452769
    },
    {
      "epoch": 3.373463005012639,
      "grad_norm": 3.3316001892089844,
      "learning_rate": 2.391625462677977e-05,
      "loss": 0.37246153354644773,
      "memory(GiB)": 70.5,
      "step": 78740,
      "token_acc": 0.8835227272727273,
      "train_speed(iter/s)": 1.452771
    },
    {
      "epoch": 3.3736772203418877,
      "grad_norm": 2.167222738265991,
      "learning_rate": 2.3910513395175988e-05,
      "loss": 0.20870823860168458,
      "memory(GiB)": 70.5,
      "step": 78745,
      "token_acc": 0.9543568464730291,
      "train_speed(iter/s)": 1.452777
    },
    {
      "epoch": 3.3738914356711365,
      "grad_norm": 6.065853595733643,
      "learning_rate": 2.3904772636207723e-05,
      "loss": 0.3328468561172485,
      "memory(GiB)": 70.5,
      "step": 78750,
      "token_acc": 0.9085173501577287,
      "train_speed(iter/s)": 1.45279
    },
    {
      "epoch": 3.3741056510003857,
      "grad_norm": 3.301539182662964,
      "learning_rate": 2.3899032349978967e-05,
      "loss": 0.24842898845672606,
      "memory(GiB)": 70.5,
      "step": 78755,
      "token_acc": 0.9403973509933775,
      "train_speed(iter/s)": 1.452787
    },
    {
      "epoch": 3.3743198663296345,
      "grad_norm": 3.299285650253296,
      "learning_rate": 2.389329253659374e-05,
      "loss": 0.44006872177124023,
      "memory(GiB)": 70.5,
      "step": 78760,
      "token_acc": 0.9047619047619048,
      "train_speed(iter/s)": 1.452791
    },
    {
      "epoch": 3.3745340816588834,
      "grad_norm": 4.061077117919922,
      "learning_rate": 2.3887553196155995e-05,
      "loss": 0.3744380474090576,
      "memory(GiB)": 70.5,
      "step": 78765,
      "token_acc": 0.8993506493506493,
      "train_speed(iter/s)": 1.452791
    },
    {
      "epoch": 3.3747482969881326,
      "grad_norm": 4.451459884643555,
      "learning_rate": 2.3881814328769737e-05,
      "loss": 0.18556900024414064,
      "memory(GiB)": 70.5,
      "step": 78770,
      "token_acc": 0.9627118644067797,
      "train_speed(iter/s)": 1.452791
    },
    {
      "epoch": 3.3749625123173814,
      "grad_norm": 7.1551055908203125,
      "learning_rate": 2.387607593453891e-05,
      "loss": 0.22322065830230714,
      "memory(GiB)": 70.5,
      "step": 78775,
      "token_acc": 0.9620253164556962,
      "train_speed(iter/s)": 1.452794
    },
    {
      "epoch": 3.3751767276466302,
      "grad_norm": 4.760532379150391,
      "learning_rate": 2.3870338013567474e-05,
      "loss": 0.21448419094085694,
      "memory(GiB)": 70.5,
      "step": 78780,
      "token_acc": 0.9509433962264151,
      "train_speed(iter/s)": 1.452796
    },
    {
      "epoch": 3.3753909429758795,
      "grad_norm": 1.773089051246643,
      "learning_rate": 2.3864600565959377e-05,
      "loss": 0.2505277395248413,
      "memory(GiB)": 70.5,
      "step": 78785,
      "token_acc": 0.9546925566343042,
      "train_speed(iter/s)": 1.452799
    },
    {
      "epoch": 3.3756051583051283,
      "grad_norm": 3.243138551712036,
      "learning_rate": 2.3858863591818558e-05,
      "loss": 0.5259219169616699,
      "memory(GiB)": 70.5,
      "step": 78790,
      "token_acc": 0.8875,
      "train_speed(iter/s)": 1.452798
    },
    {
      "epoch": 3.375819373634377,
      "grad_norm": 4.885090351104736,
      "learning_rate": 2.385312709124893e-05,
      "loss": 0.5123190879821777,
      "memory(GiB)": 70.5,
      "step": 78795,
      "token_acc": 0.8927335640138409,
      "train_speed(iter/s)": 1.452804
    },
    {
      "epoch": 3.3760335889636264,
      "grad_norm": 5.642121315002441,
      "learning_rate": 2.3847391064354453e-05,
      "loss": 0.43967428207397463,
      "memory(GiB)": 70.5,
      "step": 78800,
      "token_acc": 0.9070631970260223,
      "train_speed(iter/s)": 1.452804
    },
    {
      "epoch": 3.376247804292875,
      "grad_norm": 0.6879695653915405,
      "learning_rate": 2.3841655511239013e-05,
      "loss": 0.28861174583435056,
      "memory(GiB)": 70.5,
      "step": 78805,
      "token_acc": 0.9426229508196722,
      "train_speed(iter/s)": 1.452814
    },
    {
      "epoch": 3.376462019622124,
      "grad_norm": 3.5620057582855225,
      "learning_rate": 2.3835920432006527e-05,
      "loss": 0.5505706787109375,
      "memory(GiB)": 70.5,
      "step": 78810,
      "token_acc": 0.8975155279503105,
      "train_speed(iter/s)": 1.452828
    },
    {
      "epoch": 3.3766762349513733,
      "grad_norm": 1.5606770515441895,
      "learning_rate": 2.3830185826760887e-05,
      "loss": 0.16945838928222656,
      "memory(GiB)": 70.5,
      "step": 78815,
      "token_acc": 0.948905109489051,
      "train_speed(iter/s)": 1.452833
    },
    {
      "epoch": 3.376890450280622,
      "grad_norm": 0.5344064831733704,
      "learning_rate": 2.3824451695605958e-05,
      "loss": 0.20311329364776612,
      "memory(GiB)": 70.5,
      "step": 78820,
      "token_acc": 0.9529411764705882,
      "train_speed(iter/s)": 1.452836
    },
    {
      "epoch": 3.377104665609871,
      "grad_norm": 3.643660545349121,
      "learning_rate": 2.381871803864566e-05,
      "loss": 0.3634533166885376,
      "memory(GiB)": 70.5,
      "step": 78825,
      "token_acc": 0.918918918918919,
      "train_speed(iter/s)": 1.452844
    },
    {
      "epoch": 3.37731888093912,
      "grad_norm": 2.0988497734069824,
      "learning_rate": 2.381298485598383e-05,
      "loss": 0.2601193904876709,
      "memory(GiB)": 70.5,
      "step": 78830,
      "token_acc": 0.9386281588447654,
      "train_speed(iter/s)": 1.452846
    },
    {
      "epoch": 3.377533096268369,
      "grad_norm": 5.719571590423584,
      "learning_rate": 2.3807252147724362e-05,
      "loss": 0.3226768493652344,
      "memory(GiB)": 70.5,
      "step": 78835,
      "token_acc": 0.9306569343065694,
      "train_speed(iter/s)": 1.452848
    },
    {
      "epoch": 3.3777473115976178,
      "grad_norm": 2.2969396114349365,
      "learning_rate": 2.380151991397109e-05,
      "loss": 0.27203660011291503,
      "memory(GiB)": 70.5,
      "step": 78840,
      "token_acc": 0.9356060606060606,
      "train_speed(iter/s)": 1.452848
    },
    {
      "epoch": 3.377961526926867,
      "grad_norm": 2.949617862701416,
      "learning_rate": 2.3795788154827862e-05,
      "loss": 0.3108374118804932,
      "memory(GiB)": 70.5,
      "step": 78845,
      "token_acc": 0.9312714776632303,
      "train_speed(iter/s)": 1.452853
    },
    {
      "epoch": 3.378175742256116,
      "grad_norm": 2.2293808460235596,
      "learning_rate": 2.3790056870398515e-05,
      "loss": 0.3626237869262695,
      "memory(GiB)": 70.5,
      "step": 78850,
      "token_acc": 0.9159159159159159,
      "train_speed(iter/s)": 1.452855
    },
    {
      "epoch": 3.3783899575853646,
      "grad_norm": 0.2666146755218506,
      "learning_rate": 2.3784326060786855e-05,
      "loss": 0.4182257652282715,
      "memory(GiB)": 70.5,
      "step": 78855,
      "token_acc": 0.932258064516129,
      "train_speed(iter/s)": 1.452857
    },
    {
      "epoch": 3.378604172914614,
      "grad_norm": 0.3005029559135437,
      "learning_rate": 2.3778595726096737e-05,
      "loss": 0.13591084480285645,
      "memory(GiB)": 70.5,
      "step": 78860,
      "token_acc": 0.9671641791044776,
      "train_speed(iter/s)": 1.452859
    },
    {
      "epoch": 3.3788183882438627,
      "grad_norm": 4.068772315979004,
      "learning_rate": 2.3772865866431955e-05,
      "loss": 0.30746870040893554,
      "memory(GiB)": 70.5,
      "step": 78865,
      "token_acc": 0.9300699300699301,
      "train_speed(iter/s)": 1.452859
    },
    {
      "epoch": 3.3790326035731115,
      "grad_norm": 2.4213595390319824,
      "learning_rate": 2.3767136481896312e-05,
      "loss": 0.28689401149749755,
      "memory(GiB)": 70.5,
      "step": 78870,
      "token_acc": 0.9494047619047619,
      "train_speed(iter/s)": 1.452863
    },
    {
      "epoch": 3.379246818902361,
      "grad_norm": 4.548860549926758,
      "learning_rate": 2.3761407572593603e-05,
      "loss": 0.36079773902893064,
      "memory(GiB)": 70.5,
      "step": 78875,
      "token_acc": 0.9242902208201893,
      "train_speed(iter/s)": 1.452864
    },
    {
      "epoch": 3.3794610342316096,
      "grad_norm": 8.68009090423584,
      "learning_rate": 2.375567913862759e-05,
      "loss": 0.3419347763061523,
      "memory(GiB)": 70.5,
      "step": 78880,
      "token_acc": 0.9297520661157025,
      "train_speed(iter/s)": 1.452862
    },
    {
      "epoch": 3.3796752495608584,
      "grad_norm": 3.9226291179656982,
      "learning_rate": 2.3749951180102082e-05,
      "loss": 0.40648632049560546,
      "memory(GiB)": 70.5,
      "step": 78885,
      "token_acc": 0.9116719242902208,
      "train_speed(iter/s)": 1.452874
    },
    {
      "epoch": 3.3798894648901077,
      "grad_norm": 3.430513620376587,
      "learning_rate": 2.3744223697120836e-05,
      "loss": 0.13671023845672609,
      "memory(GiB)": 70.5,
      "step": 78890,
      "token_acc": 0.9656488549618321,
      "train_speed(iter/s)": 1.45287
    },
    {
      "epoch": 3.3801036802193565,
      "grad_norm": 3.384965658187866,
      "learning_rate": 2.373849668978761e-05,
      "loss": 0.27232339382171633,
      "memory(GiB)": 70.5,
      "step": 78895,
      "token_acc": 0.9399293286219081,
      "train_speed(iter/s)": 1.452878
    },
    {
      "epoch": 3.3803178955486053,
      "grad_norm": 6.928366184234619,
      "learning_rate": 2.373277015820613e-05,
      "loss": 0.3910300016403198,
      "memory(GiB)": 70.5,
      "step": 78900,
      "token_acc": 0.9068825910931174,
      "train_speed(iter/s)": 1.452884
    },
    {
      "epoch": 3.3805321108778545,
      "grad_norm": 1.9804586172103882,
      "learning_rate": 2.3727044102480184e-05,
      "loss": 0.5623263835906982,
      "memory(GiB)": 70.5,
      "step": 78905,
      "token_acc": 0.8582677165354331,
      "train_speed(iter/s)": 1.452881
    },
    {
      "epoch": 3.3807463262071034,
      "grad_norm": 3.616950035095215,
      "learning_rate": 2.3721318522713453e-05,
      "loss": 0.26888513565063477,
      "memory(GiB)": 70.5,
      "step": 78910,
      "token_acc": 0.9254237288135593,
      "train_speed(iter/s)": 1.452884
    },
    {
      "epoch": 3.380960541536352,
      "grad_norm": 5.480851173400879,
      "learning_rate": 2.3715593419009714e-05,
      "loss": 0.46216440200805664,
      "memory(GiB)": 70.5,
      "step": 78915,
      "token_acc": 0.9238754325259516,
      "train_speed(iter/s)": 1.452886
    },
    {
      "epoch": 3.3811747568656014,
      "grad_norm": 1.7701053619384766,
      "learning_rate": 2.3709868791472652e-05,
      "loss": 0.34623396396636963,
      "memory(GiB)": 70.5,
      "step": 78920,
      "token_acc": 0.9214285714285714,
      "train_speed(iter/s)": 1.45289
    },
    {
      "epoch": 3.3813889721948502,
      "grad_norm": 3.7268660068511963,
      "learning_rate": 2.3704144640205983e-05,
      "loss": 0.3118525266647339,
      "memory(GiB)": 70.5,
      "step": 78925,
      "token_acc": 0.9278350515463918,
      "train_speed(iter/s)": 1.452901
    },
    {
      "epoch": 3.381603187524099,
      "grad_norm": 11.126194953918457,
      "learning_rate": 2.3698420965313395e-05,
      "loss": 0.35961313247680665,
      "memory(GiB)": 70.5,
      "step": 78930,
      "token_acc": 0.9368421052631579,
      "train_speed(iter/s)": 1.452903
    },
    {
      "epoch": 3.3818174028533483,
      "grad_norm": 5.51720666885376,
      "learning_rate": 2.3692697766898592e-05,
      "loss": 0.43100895881652834,
      "memory(GiB)": 70.5,
      "step": 78935,
      "token_acc": 0.93,
      "train_speed(iter/s)": 1.452909
    },
    {
      "epoch": 3.382031618182597,
      "grad_norm": 2.409587860107422,
      "learning_rate": 2.3686975045065223e-05,
      "loss": 0.4764093399047852,
      "memory(GiB)": 70.5,
      "step": 78940,
      "token_acc": 0.8983050847457628,
      "train_speed(iter/s)": 1.45292
    },
    {
      "epoch": 3.382245833511846,
      "grad_norm": 5.114251613616943,
      "learning_rate": 2.3681252799917002e-05,
      "loss": 0.3175379514694214,
      "memory(GiB)": 70.5,
      "step": 78945,
      "token_acc": 0.9172413793103448,
      "train_speed(iter/s)": 1.452933
    },
    {
      "epoch": 3.382460048841095,
      "grad_norm": 2.500772714614868,
      "learning_rate": 2.367553103155758e-05,
      "loss": 0.16132690906524658,
      "memory(GiB)": 70.5,
      "step": 78950,
      "token_acc": 0.9602888086642599,
      "train_speed(iter/s)": 1.452944
    },
    {
      "epoch": 3.382674264170344,
      "grad_norm": 0.31106752157211304,
      "learning_rate": 2.366980974009061e-05,
      "loss": 0.30916500091552734,
      "memory(GiB)": 70.5,
      "step": 78955,
      "token_acc": 0.9222222222222223,
      "train_speed(iter/s)": 1.452945
    },
    {
      "epoch": 3.382888479499593,
      "grad_norm": 4.698276996612549,
      "learning_rate": 2.3664088925619732e-05,
      "loss": 0.5753740310668946,
      "memory(GiB)": 70.5,
      "step": 78960,
      "token_acc": 0.8732394366197183,
      "train_speed(iter/s)": 1.45295
    },
    {
      "epoch": 3.383102694828842,
      "grad_norm": 5.601687431335449,
      "learning_rate": 2.365836858824857e-05,
      "loss": 0.377410888671875,
      "memory(GiB)": 70.5,
      "step": 78965,
      "token_acc": 0.92,
      "train_speed(iter/s)": 1.452957
    },
    {
      "epoch": 3.383316910158091,
      "grad_norm": 3.402315616607666,
      "learning_rate": 2.365264872808079e-05,
      "loss": 0.39947071075439455,
      "memory(GiB)": 70.5,
      "step": 78970,
      "token_acc": 0.9224489795918367,
      "train_speed(iter/s)": 1.452961
    },
    {
      "epoch": 3.3835311254873397,
      "grad_norm": 5.141327381134033,
      "learning_rate": 2.3646929345219975e-05,
      "loss": 0.6470312118530274,
      "memory(GiB)": 70.5,
      "step": 78975,
      "token_acc": 0.8647798742138365,
      "train_speed(iter/s)": 1.452961
    },
    {
      "epoch": 3.383745340816589,
      "grad_norm": 2.936906099319458,
      "learning_rate": 2.3641210439769773e-05,
      "loss": 0.24275248050689696,
      "memory(GiB)": 70.5,
      "step": 78980,
      "token_acc": 0.9433333333333334,
      "train_speed(iter/s)": 1.452964
    },
    {
      "epoch": 3.3839595561458378,
      "grad_norm": 3.097946882247925,
      "learning_rate": 2.3635492011833778e-05,
      "loss": 0.38442130088806153,
      "memory(GiB)": 70.5,
      "step": 78985,
      "token_acc": 0.9096989966555183,
      "train_speed(iter/s)": 1.452968
    },
    {
      "epoch": 3.3841737714750866,
      "grad_norm": 0.45016252994537354,
      "learning_rate": 2.362977406151557e-05,
      "loss": 0.30955770015716555,
      "memory(GiB)": 70.5,
      "step": 78990,
      "token_acc": 0.9270833333333334,
      "train_speed(iter/s)": 1.45297
    },
    {
      "epoch": 3.384387986804336,
      "grad_norm": 7.179278373718262,
      "learning_rate": 2.362405658891874e-05,
      "loss": 0.44128990173339844,
      "memory(GiB)": 70.5,
      "step": 78995,
      "token_acc": 0.9256965944272446,
      "train_speed(iter/s)": 1.452969
    },
    {
      "epoch": 3.3846022021335846,
      "grad_norm": 2.825849771499634,
      "learning_rate": 2.3618339594146853e-05,
      "loss": 0.15058984756469726,
      "memory(GiB)": 70.5,
      "step": 79000,
      "token_acc": 0.9598540145985401,
      "train_speed(iter/s)": 1.452972
    },
    {
      "epoch": 3.3846022021335846,
      "eval_loss": 2.502291440963745,
      "eval_runtime": 11.8399,
      "eval_samples_per_second": 8.446,
      "eval_steps_per_second": 8.446,
      "eval_token_acc": 0.45269461077844314,
      "step": 79000
    },
    {
      "epoch": 3.3848164174628335,
      "grad_norm": 3.6579337120056152,
      "learning_rate": 2.3612623077303514e-05,
      "loss": 0.4652080535888672,
      "memory(GiB)": 70.5,
      "step": 79005,
      "token_acc": 0.5813356164383562,
      "train_speed(iter/s)": 1.452626
    },
    {
      "epoch": 3.3850306327920827,
      "grad_norm": 3.554410934448242,
      "learning_rate": 2.360690703849226e-05,
      "loss": 0.5583171844482422,
      "memory(GiB)": 70.5,
      "step": 79010,
      "token_acc": 0.8875,
      "train_speed(iter/s)": 1.452626
    },
    {
      "epoch": 3.3852448481213315,
      "grad_norm": 1.911500096321106,
      "learning_rate": 2.360119147781664e-05,
      "loss": 0.26251299381256105,
      "memory(GiB)": 70.5,
      "step": 79015,
      "token_acc": 0.9547038327526133,
      "train_speed(iter/s)": 1.452632
    },
    {
      "epoch": 3.3854590634505803,
      "grad_norm": 2.2827775478363037,
      "learning_rate": 2.35954763953802e-05,
      "loss": 0.2825585603713989,
      "memory(GiB)": 70.5,
      "step": 79020,
      "token_acc": 0.9181494661921709,
      "train_speed(iter/s)": 1.452637
    },
    {
      "epoch": 3.3856732787798296,
      "grad_norm": 3.114319324493408,
      "learning_rate": 2.3589761791286462e-05,
      "loss": 0.3267849922180176,
      "memory(GiB)": 70.5,
      "step": 79025,
      "token_acc": 0.9166666666666666,
      "train_speed(iter/s)": 1.452647
    },
    {
      "epoch": 3.3858874941090784,
      "grad_norm": 2.547780990600586,
      "learning_rate": 2.3584047665638977e-05,
      "loss": 0.5302196502685547,
      "memory(GiB)": 70.5,
      "step": 79030,
      "token_acc": 0.8754098360655738,
      "train_speed(iter/s)": 1.452653
    },
    {
      "epoch": 3.3861017094383272,
      "grad_norm": 7.3905158042907715,
      "learning_rate": 2.3578334018541254e-05,
      "loss": 0.7593622207641602,
      "memory(GiB)": 70.5,
      "step": 79035,
      "token_acc": 0.8566775244299675,
      "train_speed(iter/s)": 1.452665
    },
    {
      "epoch": 3.3863159247675765,
      "grad_norm": 0.4999566078186035,
      "learning_rate": 2.3572620850096787e-05,
      "loss": 0.2679693937301636,
      "memory(GiB)": 70.5,
      "step": 79040,
      "token_acc": 0.9473684210526315,
      "train_speed(iter/s)": 1.452667
    },
    {
      "epoch": 3.3865301400968253,
      "grad_norm": 5.322432518005371,
      "learning_rate": 2.356690816040909e-05,
      "loss": 0.6801563262939453,
      "memory(GiB)": 70.5,
      "step": 79045,
      "token_acc": 0.85,
      "train_speed(iter/s)": 1.452664
    },
    {
      "epoch": 3.386744355426074,
      "grad_norm": 4.882505893707275,
      "learning_rate": 2.3561195949581634e-05,
      "loss": 0.4080522060394287,
      "memory(GiB)": 70.5,
      "step": 79050,
      "token_acc": 0.9256505576208178,
      "train_speed(iter/s)": 1.452671
    },
    {
      "epoch": 3.3869585707553234,
      "grad_norm": 5.0974955558776855,
      "learning_rate": 2.3555484217717904e-05,
      "loss": 0.33201026916503906,
      "memory(GiB)": 70.5,
      "step": 79055,
      "token_acc": 0.928030303030303,
      "train_speed(iter/s)": 1.452677
    },
    {
      "epoch": 3.387172786084572,
      "grad_norm": 2.9933106899261475,
      "learning_rate": 2.3549772964921413e-05,
      "loss": 0.24079580307006837,
      "memory(GiB)": 70.5,
      "step": 79060,
      "token_acc": 0.9415807560137457,
      "train_speed(iter/s)": 1.45268
    },
    {
      "epoch": 3.387387001413821,
      "grad_norm": 2.761547565460205,
      "learning_rate": 2.354406219129559e-05,
      "loss": 0.3925196647644043,
      "memory(GiB)": 70.5,
      "step": 79065,
      "token_acc": 0.8954703832752613,
      "train_speed(iter/s)": 1.452692
    },
    {
      "epoch": 3.3876012167430702,
      "grad_norm": 3.356717824935913,
      "learning_rate": 2.35383518969439e-05,
      "loss": 0.2993541479110718,
      "memory(GiB)": 70.5,
      "step": 79070,
      "token_acc": 0.9233038348082596,
      "train_speed(iter/s)": 1.452695
    },
    {
      "epoch": 3.387815432072319,
      "grad_norm": 3.478573799133301,
      "learning_rate": 2.353264208196979e-05,
      "loss": 0.1663053274154663,
      "memory(GiB)": 70.5,
      "step": 79075,
      "token_acc": 0.9644268774703557,
      "train_speed(iter/s)": 1.452692
    },
    {
      "epoch": 3.388029647401568,
      "grad_norm": 7.844701766967773,
      "learning_rate": 2.35269327464767e-05,
      "loss": 0.5118204593658447,
      "memory(GiB)": 70.5,
      "step": 79080,
      "token_acc": 0.891640866873065,
      "train_speed(iter/s)": 1.452689
    },
    {
      "epoch": 3.388243862730817,
      "grad_norm": 3.137420654296875,
      "learning_rate": 2.3521223890568032e-05,
      "loss": 0.2921419620513916,
      "memory(GiB)": 70.5,
      "step": 79085,
      "token_acc": 0.9292604501607717,
      "train_speed(iter/s)": 1.452702
    },
    {
      "epoch": 3.388458078060066,
      "grad_norm": 3.0160293579101562,
      "learning_rate": 2.3515515514347252e-05,
      "loss": 0.5615220546722413,
      "memory(GiB)": 70.5,
      "step": 79090,
      "token_acc": 0.8753709198813057,
      "train_speed(iter/s)": 1.4527
    },
    {
      "epoch": 3.3886722933893147,
      "grad_norm": 2.4000086784362793,
      "learning_rate": 2.3509807617917757e-05,
      "loss": 0.39062483310699464,
      "memory(GiB)": 70.5,
      "step": 79095,
      "token_acc": 0.9233870967741935,
      "train_speed(iter/s)": 1.452705
    },
    {
      "epoch": 3.388886508718564,
      "grad_norm": 2.409170627593994,
      "learning_rate": 2.3504100201382945e-05,
      "loss": 0.6927772998809815,
      "memory(GiB)": 70.5,
      "step": 79100,
      "token_acc": 0.8673469387755102,
      "train_speed(iter/s)": 1.452706
    },
    {
      "epoch": 3.389100724047813,
      "grad_norm": 5.576630592346191,
      "learning_rate": 2.3498393264846212e-05,
      "loss": 0.4842530250549316,
      "memory(GiB)": 70.5,
      "step": 79105,
      "token_acc": 0.9090909090909091,
      "train_speed(iter/s)": 1.452711
    },
    {
      "epoch": 3.3893149393770616,
      "grad_norm": 4.776660442352295,
      "learning_rate": 2.349268680841093e-05,
      "loss": 0.38490703105926516,
      "memory(GiB)": 70.5,
      "step": 79110,
      "token_acc": 0.9278688524590164,
      "train_speed(iter/s)": 1.452727
    },
    {
      "epoch": 3.389529154706311,
      "grad_norm": 0.5906184911727905,
      "learning_rate": 2.3486980832180505e-05,
      "loss": 0.3786055088043213,
      "memory(GiB)": 70.5,
      "step": 79115,
      "token_acc": 0.9069767441860465,
      "train_speed(iter/s)": 1.452742
    },
    {
      "epoch": 3.3897433700355597,
      "grad_norm": 5.35623836517334,
      "learning_rate": 2.34812753362583e-05,
      "loss": 0.33508806228637694,
      "memory(GiB)": 70.5,
      "step": 79120,
      "token_acc": 0.9272727272727272,
      "train_speed(iter/s)": 1.452745
    },
    {
      "epoch": 3.3899575853648085,
      "grad_norm": 5.119927883148193,
      "learning_rate": 2.3475570320747647e-05,
      "loss": 0.3483626365661621,
      "memory(GiB)": 70.5,
      "step": 79125,
      "token_acc": 0.9230769230769231,
      "train_speed(iter/s)": 1.452743
    },
    {
      "epoch": 3.3901718006940578,
      "grad_norm": 6.288876056671143,
      "learning_rate": 2.3469865785751938e-05,
      "loss": 0.3931364297866821,
      "memory(GiB)": 70.5,
      "step": 79130,
      "token_acc": 0.9157088122605364,
      "train_speed(iter/s)": 1.452747
    },
    {
      "epoch": 3.3903860160233066,
      "grad_norm": 3.0077881813049316,
      "learning_rate": 2.3464161731374496e-05,
      "loss": 0.48528246879577636,
      "memory(GiB)": 70.5,
      "step": 79135,
      "token_acc": 0.8985507246376812,
      "train_speed(iter/s)": 1.452758
    },
    {
      "epoch": 3.390600231352556,
      "grad_norm": 2.114576816558838,
      "learning_rate": 2.345845815771866e-05,
      "loss": 0.23717358112335205,
      "memory(GiB)": 70.5,
      "step": 79140,
      "token_acc": 0.9507575757575758,
      "train_speed(iter/s)": 1.452769
    },
    {
      "epoch": 3.3908144466818047,
      "grad_norm": 0.34763485193252563,
      "learning_rate": 2.3452755064887732e-05,
      "loss": 0.17309553623199464,
      "memory(GiB)": 70.5,
      "step": 79145,
      "token_acc": 0.962457337883959,
      "train_speed(iter/s)": 1.45278
    },
    {
      "epoch": 3.3910286620110535,
      "grad_norm": 6.249352931976318,
      "learning_rate": 2.3447052452985068e-05,
      "loss": 0.5964873790740967,
      "memory(GiB)": 70.5,
      "step": 79150,
      "token_acc": 0.88125,
      "train_speed(iter/s)": 1.452784
    },
    {
      "epoch": 3.3912428773403027,
      "grad_norm": 2.34047794342041,
      "learning_rate": 2.3441350322113957e-05,
      "loss": 0.5917922019958496,
      "memory(GiB)": 70.5,
      "step": 79155,
      "token_acc": 0.8881578947368421,
      "train_speed(iter/s)": 1.452784
    },
    {
      "epoch": 3.3914570926695515,
      "grad_norm": 2.353882312774658,
      "learning_rate": 2.3435648672377702e-05,
      "loss": 0.19732013940811158,
      "memory(GiB)": 70.5,
      "step": 79160,
      "token_acc": 0.9446494464944649,
      "train_speed(iter/s)": 1.452801
    },
    {
      "epoch": 3.3916713079988003,
      "grad_norm": 6.5087995529174805,
      "learning_rate": 2.342994750387959e-05,
      "loss": 0.473177433013916,
      "memory(GiB)": 70.5,
      "step": 79165,
      "token_acc": 0.8982035928143712,
      "train_speed(iter/s)": 1.452804
    },
    {
      "epoch": 3.3918855233280496,
      "grad_norm": 0.4054802358150482,
      "learning_rate": 2.3424246816722884e-05,
      "loss": 0.1568283200263977,
      "memory(GiB)": 70.5,
      "step": 79170,
      "token_acc": 0.9647887323943662,
      "train_speed(iter/s)": 1.452805
    },
    {
      "epoch": 3.3920997386572984,
      "grad_norm": 3.586491584777832,
      "learning_rate": 2.3418546611010895e-05,
      "loss": 0.4633010387420654,
      "memory(GiB)": 70.5,
      "step": 79175,
      "token_acc": 0.9171597633136095,
      "train_speed(iter/s)": 1.452815
    },
    {
      "epoch": 3.3923139539865472,
      "grad_norm": 6.741687774658203,
      "learning_rate": 2.3412846886846867e-05,
      "loss": 0.27527453899383547,
      "memory(GiB)": 70.5,
      "step": 79180,
      "token_acc": 0.9219330855018587,
      "train_speed(iter/s)": 1.452827
    },
    {
      "epoch": 3.3925281693157965,
      "grad_norm": 4.874637603759766,
      "learning_rate": 2.3407147644334067e-05,
      "loss": 0.3243346452713013,
      "memory(GiB)": 70.5,
      "step": 79185,
      "token_acc": 0.9395973154362416,
      "train_speed(iter/s)": 1.452824
    },
    {
      "epoch": 3.3927423846450453,
      "grad_norm": 4.154573440551758,
      "learning_rate": 2.340144888357572e-05,
      "loss": 0.335373854637146,
      "memory(GiB)": 70.5,
      "step": 79190,
      "token_acc": 0.9240121580547113,
      "train_speed(iter/s)": 1.452825
    },
    {
      "epoch": 3.392956599974294,
      "grad_norm": 1.9809952974319458,
      "learning_rate": 2.339575060467507e-05,
      "loss": 0.2637688636779785,
      "memory(GiB)": 70.5,
      "step": 79195,
      "token_acc": 0.9437086092715232,
      "train_speed(iter/s)": 1.452824
    },
    {
      "epoch": 3.3931708153035434,
      "grad_norm": 1.5639753341674805,
      "learning_rate": 2.3390052807735352e-05,
      "loss": 0.4759495258331299,
      "memory(GiB)": 70.5,
      "step": 79200,
      "token_acc": 0.8997289972899729,
      "train_speed(iter/s)": 1.452824
    },
    {
      "epoch": 3.393385030632792,
      "grad_norm": 11.070868492126465,
      "learning_rate": 2.338435549285981e-05,
      "loss": 0.7134777545928955,
      "memory(GiB)": 70.5,
      "step": 79205,
      "token_acc": 0.8548812664907651,
      "train_speed(iter/s)": 1.452827
    },
    {
      "epoch": 3.393599245962041,
      "grad_norm": 5.657430171966553,
      "learning_rate": 2.337865866015163e-05,
      "loss": 0.5790190696716309,
      "memory(GiB)": 70.5,
      "step": 79210,
      "token_acc": 0.8918918918918919,
      "train_speed(iter/s)": 1.452852
    },
    {
      "epoch": 3.3938134612912902,
      "grad_norm": 4.42686653137207,
      "learning_rate": 2.3372962309714023e-05,
      "loss": 0.23923258781433104,
      "memory(GiB)": 70.5,
      "step": 79215,
      "token_acc": 0.9398496240601504,
      "train_speed(iter/s)": 1.452854
    },
    {
      "epoch": 3.394027676620539,
      "grad_norm": 3.6175074577331543,
      "learning_rate": 2.3367266441650188e-05,
      "loss": 0.3856826305389404,
      "memory(GiB)": 70.5,
      "step": 79220,
      "token_acc": 0.924791086350975,
      "train_speed(iter/s)": 1.452865
    },
    {
      "epoch": 3.394241891949788,
      "grad_norm": 1.5739353895187378,
      "learning_rate": 2.3361571056063302e-05,
      "loss": 0.39290571212768555,
      "memory(GiB)": 70.5,
      "step": 79225,
      "token_acc": 0.9247311827956989,
      "train_speed(iter/s)": 1.452867
    },
    {
      "epoch": 3.394456107279037,
      "grad_norm": 3.3416450023651123,
      "learning_rate": 2.335587615305652e-05,
      "loss": 0.3688590288162231,
      "memory(GiB)": 70.5,
      "step": 79230,
      "token_acc": 0.9227799227799228,
      "train_speed(iter/s)": 1.45287
    },
    {
      "epoch": 3.394670322608286,
      "grad_norm": 2.0455379486083984,
      "learning_rate": 2.335018173273306e-05,
      "loss": 0.20198473930358887,
      "memory(GiB)": 70.5,
      "step": 79235,
      "token_acc": 0.9389830508474576,
      "train_speed(iter/s)": 1.452882
    },
    {
      "epoch": 3.3948845379375348,
      "grad_norm": 1.6649935245513916,
      "learning_rate": 2.3344487795196063e-05,
      "loss": 0.223266077041626,
      "memory(GiB)": 70.5,
      "step": 79240,
      "token_acc": 0.9517241379310345,
      "train_speed(iter/s)": 1.452887
    },
    {
      "epoch": 3.395098753266784,
      "grad_norm": 5.327976226806641,
      "learning_rate": 2.3338794340548666e-05,
      "loss": 0.8140510559082031,
      "memory(GiB)": 70.5,
      "step": 79245,
      "token_acc": 0.8496932515337423,
      "train_speed(iter/s)": 1.452885
    },
    {
      "epoch": 3.395312968596033,
      "grad_norm": 5.439789772033691,
      "learning_rate": 2.3333101368894024e-05,
      "loss": 0.5795151233673096,
      "memory(GiB)": 70.5,
      "step": 79250,
      "token_acc": 0.8884462151394422,
      "train_speed(iter/s)": 1.452883
    },
    {
      "epoch": 3.3955271839252816,
      "grad_norm": 3.3713791370391846,
      "learning_rate": 2.3327408880335245e-05,
      "loss": 0.893238639831543,
      "memory(GiB)": 70.5,
      "step": 79255,
      "token_acc": 0.8131147540983606,
      "train_speed(iter/s)": 1.45289
    },
    {
      "epoch": 3.395741399254531,
      "grad_norm": 1.3969827890396118,
      "learning_rate": 2.3321716874975498e-05,
      "loss": 0.28191843032836916,
      "memory(GiB)": 70.5,
      "step": 79260,
      "token_acc": 0.9536423841059603,
      "train_speed(iter/s)": 1.452893
    },
    {
      "epoch": 3.3959556145837797,
      "grad_norm": 2.0735862255096436,
      "learning_rate": 2.331602535291787e-05,
      "loss": 0.347678017616272,
      "memory(GiB)": 70.5,
      "step": 79265,
      "token_acc": 0.9479553903345725,
      "train_speed(iter/s)": 1.452895
    },
    {
      "epoch": 3.3961698299130285,
      "grad_norm": 2.616770029067993,
      "learning_rate": 2.331033431426546e-05,
      "loss": 0.23721938133239745,
      "memory(GiB)": 70.5,
      "step": 79270,
      "token_acc": 0.9375,
      "train_speed(iter/s)": 1.452903
    },
    {
      "epoch": 3.3963840452422778,
      "grad_norm": 2.959458351135254,
      "learning_rate": 2.3304643759121398e-05,
      "loss": 0.17467098236083983,
      "memory(GiB)": 70.5,
      "step": 79275,
      "token_acc": 0.9551724137931035,
      "train_speed(iter/s)": 1.452909
    },
    {
      "epoch": 3.3965982605715266,
      "grad_norm": 2.528858184814453,
      "learning_rate": 2.3298953687588753e-05,
      "loss": 0.5174966335296631,
      "memory(GiB)": 70.5,
      "step": 79280,
      "token_acc": 0.9272151898734177,
      "train_speed(iter/s)": 1.452915
    },
    {
      "epoch": 3.3968124759007754,
      "grad_norm": 2.2934470176696777,
      "learning_rate": 2.3293264099770613e-05,
      "loss": 0.34972386360168456,
      "memory(GiB)": 70.5,
      "step": 79285,
      "token_acc": 0.9293286219081273,
      "train_speed(iter/s)": 1.452917
    },
    {
      "epoch": 3.3970266912300247,
      "grad_norm": 3.487302303314209,
      "learning_rate": 2.3287574995770028e-05,
      "loss": 0.4129924774169922,
      "memory(GiB)": 70.5,
      "step": 79290,
      "token_acc": 0.9222614840989399,
      "train_speed(iter/s)": 1.452926
    },
    {
      "epoch": 3.3972409065592735,
      "grad_norm": 4.73537015914917,
      "learning_rate": 2.32818863756901e-05,
      "loss": 0.4287053108215332,
      "memory(GiB)": 70.5,
      "step": 79295,
      "token_acc": 0.9228295819935691,
      "train_speed(iter/s)": 1.452943
    },
    {
      "epoch": 3.3974551218885223,
      "grad_norm": 3.69347882270813,
      "learning_rate": 2.327619823963386e-05,
      "loss": 0.5705577850341796,
      "memory(GiB)": 70.5,
      "step": 79300,
      "token_acc": 0.8817567567567568,
      "train_speed(iter/s)": 1.452952
    },
    {
      "epoch": 3.3976693372177715,
      "grad_norm": 3.569279432296753,
      "learning_rate": 2.3270510587704365e-05,
      "loss": 0.3989548206329346,
      "memory(GiB)": 70.5,
      "step": 79305,
      "token_acc": 0.9099378881987578,
      "train_speed(iter/s)": 1.452986
    },
    {
      "epoch": 3.3978835525470203,
      "grad_norm": 3.7879281044006348,
      "learning_rate": 2.326482342000464e-05,
      "loss": 0.34657213687896726,
      "memory(GiB)": 70.5,
      "step": 79310,
      "token_acc": 0.9029126213592233,
      "train_speed(iter/s)": 1.452994
    },
    {
      "epoch": 3.398097767876269,
      "grad_norm": 3.0124869346618652,
      "learning_rate": 2.3259136736637697e-05,
      "loss": 0.21854448318481445,
      "memory(GiB)": 70.5,
      "step": 79315,
      "token_acc": 0.9504643962848297,
      "train_speed(iter/s)": 1.452998
    },
    {
      "epoch": 3.3983119832055184,
      "grad_norm": 3.271376609802246,
      "learning_rate": 2.32534505377066e-05,
      "loss": 0.6189711570739747,
      "memory(GiB)": 70.5,
      "step": 79320,
      "token_acc": 0.8862745098039215,
      "train_speed(iter/s)": 1.452998
    },
    {
      "epoch": 3.3985261985347672,
      "grad_norm": 3.485388994216919,
      "learning_rate": 2.324776482331434e-05,
      "loss": 0.42650699615478516,
      "memory(GiB)": 70.5,
      "step": 79325,
      "token_acc": 0.9047619047619048,
      "train_speed(iter/s)": 1.453008
    },
    {
      "epoch": 3.398740413864016,
      "grad_norm": 1.1662896871566772,
      "learning_rate": 2.324207959356391e-05,
      "loss": 0.2527564525604248,
      "memory(GiB)": 70.5,
      "step": 79330,
      "token_acc": 0.9461538461538461,
      "train_speed(iter/s)": 1.453012
    },
    {
      "epoch": 3.3989546291932653,
      "grad_norm": 4.830506801605225,
      "learning_rate": 2.323639484855831e-05,
      "loss": 0.37065250873565675,
      "memory(GiB)": 70.5,
      "step": 79335,
      "token_acc": 0.9253246753246753,
      "train_speed(iter/s)": 1.453012
    },
    {
      "epoch": 3.399168844522514,
      "grad_norm": 0.8448554873466492,
      "learning_rate": 2.3230710588400505e-05,
      "loss": 0.15156248807907105,
      "memory(GiB)": 70.5,
      "step": 79340,
      "token_acc": 0.9550561797752809,
      "train_speed(iter/s)": 1.453015
    },
    {
      "epoch": 3.399383059851763,
      "grad_norm": 3.238293409347534,
      "learning_rate": 2.322502681319349e-05,
      "loss": 0.474755859375,
      "memory(GiB)": 70.5,
      "step": 79345,
      "token_acc": 0.9264214046822743,
      "train_speed(iter/s)": 1.453027
    },
    {
      "epoch": 3.399597275181012,
      "grad_norm": 3.2572808265686035,
      "learning_rate": 2.321934352304025e-05,
      "loss": 0.3055521726608276,
      "memory(GiB)": 70.5,
      "step": 79350,
      "token_acc": 0.9297124600638977,
      "train_speed(iter/s)": 1.453028
    },
    {
      "epoch": 3.399811490510261,
      "grad_norm": 0.11388809233903885,
      "learning_rate": 2.321366071804373e-05,
      "loss": 0.32190167903900146,
      "memory(GiB)": 70.5,
      "step": 79355,
      "token_acc": 0.9358108108108109,
      "train_speed(iter/s)": 1.453031
    },
    {
      "epoch": 3.40002570583951,
      "grad_norm": 7.1540751457214355,
      "learning_rate": 2.320797839830686e-05,
      "loss": 0.5331521034240723,
      "memory(GiB)": 70.5,
      "step": 79360,
      "token_acc": 0.9033613445378151,
      "train_speed(iter/s)": 1.453033
    },
    {
      "epoch": 3.400239921168759,
      "grad_norm": 0.7892248630523682,
      "learning_rate": 2.3202296563932607e-05,
      "loss": 0.6468306541442871,
      "memory(GiB)": 70.5,
      "step": 79365,
      "token_acc": 0.8621908127208481,
      "train_speed(iter/s)": 1.453035
    },
    {
      "epoch": 3.400454136498008,
      "grad_norm": 1.9559593200683594,
      "learning_rate": 2.3196615215023886e-05,
      "loss": 0.18868815898895264,
      "memory(GiB)": 70.5,
      "step": 79370,
      "token_acc": 0.9545454545454546,
      "train_speed(iter/s)": 1.453038
    },
    {
      "epoch": 3.4006683518272567,
      "grad_norm": 2.0898451805114746,
      "learning_rate": 2.3190934351683602e-05,
      "loss": 0.3451821804046631,
      "memory(GiB)": 70.5,
      "step": 79375,
      "token_acc": 0.9251700680272109,
      "train_speed(iter/s)": 1.453042
    },
    {
      "epoch": 3.400882567156506,
      "grad_norm": 2.952850818634033,
      "learning_rate": 2.3185253974014714e-05,
      "loss": 0.6411798477172852,
      "memory(GiB)": 70.5,
      "step": 79380,
      "token_acc": 0.896551724137931,
      "train_speed(iter/s)": 1.453041
    },
    {
      "epoch": 3.4010967824857548,
      "grad_norm": 0.7391749024391174,
      "learning_rate": 2.3179574082120105e-05,
      "loss": 0.1257768988609314,
      "memory(GiB)": 70.5,
      "step": 79385,
      "token_acc": 0.9692307692307692,
      "train_speed(iter/s)": 1.453045
    },
    {
      "epoch": 3.4013109978150036,
      "grad_norm": 4.748368263244629,
      "learning_rate": 2.317389467610267e-05,
      "loss": 0.4937911033630371,
      "memory(GiB)": 70.5,
      "step": 79390,
      "token_acc": 0.8850931677018633,
      "train_speed(iter/s)": 1.453049
    },
    {
      "epoch": 3.401525213144253,
      "grad_norm": 3.453850269317627,
      "learning_rate": 2.3168215756065292e-05,
      "loss": 0.08712942600250244,
      "memory(GiB)": 70.5,
      "step": 79395,
      "token_acc": 0.9795918367346939,
      "train_speed(iter/s)": 1.453051
    },
    {
      "epoch": 3.4017394284735016,
      "grad_norm": 4.652786731719971,
      "learning_rate": 2.3162537322110843e-05,
      "loss": 0.18933123350143433,
      "memory(GiB)": 70.5,
      "step": 79400,
      "token_acc": 0.9602888086642599,
      "train_speed(iter/s)": 1.453053
    },
    {
      "epoch": 3.4019536438027504,
      "grad_norm": 3.64693021774292,
      "learning_rate": 2.3156859374342226e-05,
      "loss": 0.4901641845703125,
      "memory(GiB)": 70.5,
      "step": 79405,
      "token_acc": 0.8968481375358166,
      "train_speed(iter/s)": 1.453056
    },
    {
      "epoch": 3.4021678591319997,
      "grad_norm": 4.269679546356201,
      "learning_rate": 2.315118191286228e-05,
      "loss": 0.607763147354126,
      "memory(GiB)": 70.5,
      "step": 79410,
      "token_acc": 0.8865979381443299,
      "train_speed(iter/s)": 1.453065
    },
    {
      "epoch": 3.4023820744612485,
      "grad_norm": 5.335304260253906,
      "learning_rate": 2.314550493777386e-05,
      "loss": 0.43931093215942385,
      "memory(GiB)": 70.5,
      "step": 79415,
      "token_acc": 0.891566265060241,
      "train_speed(iter/s)": 1.453066
    },
    {
      "epoch": 3.4025962897904973,
      "grad_norm": 5.449860095977783,
      "learning_rate": 2.313982844917979e-05,
      "loss": 0.41167821884155276,
      "memory(GiB)": 70.5,
      "step": 79420,
      "token_acc": 0.9202898550724637,
      "train_speed(iter/s)": 1.45307
    },
    {
      "epoch": 3.4028105051197466,
      "grad_norm": 4.872257709503174,
      "learning_rate": 2.3134152447182945e-05,
      "loss": 0.2512674808502197,
      "memory(GiB)": 70.5,
      "step": 79425,
      "token_acc": 0.9382239382239382,
      "train_speed(iter/s)": 1.453074
    },
    {
      "epoch": 3.4030247204489954,
      "grad_norm": 1.422683835029602,
      "learning_rate": 2.3128476931886128e-05,
      "loss": 0.13867095708847046,
      "memory(GiB)": 70.5,
      "step": 79430,
      "token_acc": 0.962457337883959,
      "train_speed(iter/s)": 1.453079
    },
    {
      "epoch": 3.403238935778244,
      "grad_norm": 2.011566400527954,
      "learning_rate": 2.3122801903392145e-05,
      "loss": 0.25821623802185056,
      "memory(GiB)": 70.5,
      "step": 79435,
      "token_acc": 0.9329073482428115,
      "train_speed(iter/s)": 1.453075
    },
    {
      "epoch": 3.4034531511074935,
      "grad_norm": 3.727705717086792,
      "learning_rate": 2.311712736180383e-05,
      "loss": 0.36882433891296384,
      "memory(GiB)": 70.5,
      "step": 79440,
      "token_acc": 0.9094488188976378,
      "train_speed(iter/s)": 1.45308
    },
    {
      "epoch": 3.4036673664367423,
      "grad_norm": 1.514695405960083,
      "learning_rate": 2.3111453307223978e-05,
      "loss": 0.4805056095123291,
      "memory(GiB)": 70.5,
      "step": 79445,
      "token_acc": 0.8949579831932774,
      "train_speed(iter/s)": 1.453084
    },
    {
      "epoch": 3.403881581765991,
      "grad_norm": 2.4059486389160156,
      "learning_rate": 2.3105779739755368e-05,
      "loss": 0.2046415090560913,
      "memory(GiB)": 70.5,
      "step": 79450,
      "token_acc": 0.9585987261146497,
      "train_speed(iter/s)": 1.453096
    },
    {
      "epoch": 3.4040957970952403,
      "grad_norm": 2.5557873249053955,
      "learning_rate": 2.3100106659500794e-05,
      "loss": 0.35009589195251467,
      "memory(GiB)": 70.5,
      "step": 79455,
      "token_acc": 0.9240924092409241,
      "train_speed(iter/s)": 1.453107
    },
    {
      "epoch": 3.404310012424489,
      "grad_norm": 0.8783413171768188,
      "learning_rate": 2.3094434066562993e-05,
      "loss": 0.4509144306182861,
      "memory(GiB)": 70.5,
      "step": 79460,
      "token_acc": 0.9220338983050848,
      "train_speed(iter/s)": 1.453123
    },
    {
      "epoch": 3.404524227753738,
      "grad_norm": 1.4278956651687622,
      "learning_rate": 2.3088761961044786e-05,
      "loss": 0.4167478084564209,
      "memory(GiB)": 70.5,
      "step": 79465,
      "token_acc": 0.907051282051282,
      "train_speed(iter/s)": 1.453125
    },
    {
      "epoch": 3.4047384430829872,
      "grad_norm": 5.299797534942627,
      "learning_rate": 2.3083090343048898e-05,
      "loss": 0.3096369504928589,
      "memory(GiB)": 70.5,
      "step": 79470,
      "token_acc": 0.9363057324840764,
      "train_speed(iter/s)": 1.453131
    },
    {
      "epoch": 3.404952658412236,
      "grad_norm": 1.6972854137420654,
      "learning_rate": 2.3077419212678076e-05,
      "loss": 0.4122015476226807,
      "memory(GiB)": 70.5,
      "step": 79475,
      "token_acc": 0.9080118694362018,
      "train_speed(iter/s)": 1.45314
    },
    {
      "epoch": 3.405166873741485,
      "grad_norm": 3.555048704147339,
      "learning_rate": 2.3071748570035063e-05,
      "loss": 0.2821906805038452,
      "memory(GiB)": 70.5,
      "step": 79480,
      "token_acc": 0.9316546762589928,
      "train_speed(iter/s)": 1.453146
    },
    {
      "epoch": 3.405381089070734,
      "grad_norm": 1.5091917514801025,
      "learning_rate": 2.3066078415222563e-05,
      "loss": 0.3870696544647217,
      "memory(GiB)": 70.5,
      "step": 79485,
      "token_acc": 0.9177631578947368,
      "train_speed(iter/s)": 1.453146
    },
    {
      "epoch": 3.405595304399983,
      "grad_norm": 5.526209831237793,
      "learning_rate": 2.306040874834334e-05,
      "loss": 0.36778979301452636,
      "memory(GiB)": 70.5,
      "step": 79490,
      "token_acc": 0.9207317073170732,
      "train_speed(iter/s)": 1.453149
    },
    {
      "epoch": 3.4058095197292317,
      "grad_norm": 1.9980103969573975,
      "learning_rate": 2.3054739569500066e-05,
      "loss": 0.17416614294052124,
      "memory(GiB)": 70.5,
      "step": 79495,
      "token_acc": 0.9554794520547946,
      "train_speed(iter/s)": 1.453155
    },
    {
      "epoch": 3.406023735058481,
      "grad_norm": 2.795689582824707,
      "learning_rate": 2.3049070878795477e-05,
      "loss": 0.22520799636840821,
      "memory(GiB)": 70.5,
      "step": 79500,
      "token_acc": 0.9424460431654677,
      "train_speed(iter/s)": 1.453161
    },
    {
      "epoch": 3.406023735058481,
      "eval_loss": 2.570753574371338,
      "eval_runtime": 11.4222,
      "eval_samples_per_second": 8.755,
      "eval_steps_per_second": 8.755,
      "eval_token_acc": 0.41228070175438597,
      "step": 79500
    },
    {
      "epoch": 3.40623795038773,
      "grad_norm": 2.8963935375213623,
      "learning_rate": 2.3043402676332253e-05,
      "loss": 0.4535993576049805,
      "memory(GiB)": 70.5,
      "step": 79505,
      "token_acc": 0.529245283018868,
      "train_speed(iter/s)": 1.452825
    },
    {
      "epoch": 3.4064521657169786,
      "grad_norm": 2.4440386295318604,
      "learning_rate": 2.303773496221308e-05,
      "loss": 0.18721747398376465,
      "memory(GiB)": 70.5,
      "step": 79510,
      "token_acc": 0.9565217391304348,
      "train_speed(iter/s)": 1.452828
    },
    {
      "epoch": 3.406666381046228,
      "grad_norm": 2.0388219356536865,
      "learning_rate": 2.3032067736540626e-05,
      "loss": 0.4263473987579346,
      "memory(GiB)": 70.5,
      "step": 79515,
      "token_acc": 0.9135802469135802,
      "train_speed(iter/s)": 1.452825
    },
    {
      "epoch": 3.4068805963754767,
      "grad_norm": 4.422087669372559,
      "learning_rate": 2.3026400999417546e-05,
      "loss": 0.31681480407714846,
      "memory(GiB)": 70.5,
      "step": 79520,
      "token_acc": 0.9221789883268483,
      "train_speed(iter/s)": 1.452826
    },
    {
      "epoch": 3.4070948117047255,
      "grad_norm": 6.456435203552246,
      "learning_rate": 2.3020734750946534e-05,
      "loss": 0.4679572105407715,
      "memory(GiB)": 70.5,
      "step": 79525,
      "token_acc": 0.9045643153526971,
      "train_speed(iter/s)": 1.45283
    },
    {
      "epoch": 3.4073090270339748,
      "grad_norm": 4.099552631378174,
      "learning_rate": 2.3015068991230222e-05,
      "loss": 0.5541656494140625,
      "memory(GiB)": 70.5,
      "step": 79530,
      "token_acc": 0.8904109589041096,
      "train_speed(iter/s)": 1.452838
    },
    {
      "epoch": 3.4075232423632236,
      "grad_norm": 2.253422737121582,
      "learning_rate": 2.3009403720371247e-05,
      "loss": 0.29284181594848635,
      "memory(GiB)": 70.5,
      "step": 79535,
      "token_acc": 0.9266862170087976,
      "train_speed(iter/s)": 1.452842
    },
    {
      "epoch": 3.4077374576924724,
      "grad_norm": 0.05013202503323555,
      "learning_rate": 2.300373893847224e-05,
      "loss": 0.31674442291259763,
      "memory(GiB)": 70.5,
      "step": 79540,
      "token_acc": 0.9345454545454546,
      "train_speed(iter/s)": 1.452843
    },
    {
      "epoch": 3.4079516730217216,
      "grad_norm": 1.4698325395584106,
      "learning_rate": 2.2998074645635815e-05,
      "loss": 0.23315911293029784,
      "memory(GiB)": 70.5,
      "step": 79545,
      "token_acc": 0.9411764705882353,
      "train_speed(iter/s)": 1.452857
    },
    {
      "epoch": 3.4081658883509705,
      "grad_norm": 4.734478950500488,
      "learning_rate": 2.299241084196461e-05,
      "loss": 0.421690034866333,
      "memory(GiB)": 70.5,
      "step": 79550,
      "token_acc": 0.9041095890410958,
      "train_speed(iter/s)": 1.452855
    },
    {
      "epoch": 3.4083801036802193,
      "grad_norm": 1.0528535842895508,
      "learning_rate": 2.2986747527561227e-05,
      "loss": 0.2023686408996582,
      "memory(GiB)": 70.5,
      "step": 79555,
      "token_acc": 0.9547169811320755,
      "train_speed(iter/s)": 1.45286
    },
    {
      "epoch": 3.4085943190094685,
      "grad_norm": 2.3297479152679443,
      "learning_rate": 2.2981084702528244e-05,
      "loss": 0.34743380546569824,
      "memory(GiB)": 70.5,
      "step": 79560,
      "token_acc": 0.93125,
      "train_speed(iter/s)": 1.452863
    },
    {
      "epoch": 3.4088085343387173,
      "grad_norm": 3.2138233184814453,
      "learning_rate": 2.297542236696824e-05,
      "loss": 0.43732528686523436,
      "memory(GiB)": 70.5,
      "step": 79565,
      "token_acc": 0.8884892086330936,
      "train_speed(iter/s)": 1.452865
    },
    {
      "epoch": 3.409022749667966,
      "grad_norm": 4.172484874725342,
      "learning_rate": 2.296976052098383e-05,
      "loss": 0.4538902282714844,
      "memory(GiB)": 70.5,
      "step": 79570,
      "token_acc": 0.9052631578947369,
      "train_speed(iter/s)": 1.452886
    },
    {
      "epoch": 3.4092369649972154,
      "grad_norm": 4.174638271331787,
      "learning_rate": 2.2964099164677567e-05,
      "loss": 0.35164480209350585,
      "memory(GiB)": 70.5,
      "step": 79575,
      "token_acc": 0.9186440677966101,
      "train_speed(iter/s)": 1.452909
    },
    {
      "epoch": 3.409451180326464,
      "grad_norm": 1.2611064910888672,
      "learning_rate": 2.295843829815199e-05,
      "loss": 0.1876812219619751,
      "memory(GiB)": 70.5,
      "step": 79580,
      "token_acc": 0.9739776951672863,
      "train_speed(iter/s)": 1.452924
    },
    {
      "epoch": 3.409665395655713,
      "grad_norm": 4.5616912841796875,
      "learning_rate": 2.295277792150969e-05,
      "loss": 0.3113088130950928,
      "memory(GiB)": 70.5,
      "step": 79585,
      "token_acc": 0.9279661016949152,
      "train_speed(iter/s)": 1.452933
    },
    {
      "epoch": 3.4098796109849623,
      "grad_norm": 5.586533546447754,
      "learning_rate": 2.294711803485319e-05,
      "loss": 0.3423830270767212,
      "memory(GiB)": 70.5,
      "step": 79590,
      "token_acc": 0.9309090909090909,
      "train_speed(iter/s)": 1.452937
    },
    {
      "epoch": 3.410093826314211,
      "grad_norm": 1.6541253328323364,
      "learning_rate": 2.2941458638285017e-05,
      "loss": 0.13465598821640015,
      "memory(GiB)": 70.5,
      "step": 79595,
      "token_acc": 0.9655172413793104,
      "train_speed(iter/s)": 1.452944
    },
    {
      "epoch": 3.41030804164346,
      "grad_norm": 2.7444491386413574,
      "learning_rate": 2.2935799731907707e-05,
      "loss": 0.6652851581573487,
      "memory(GiB)": 70.5,
      "step": 79600,
      "token_acc": 0.9225352112676056,
      "train_speed(iter/s)": 1.452949
    },
    {
      "epoch": 3.410522256972709,
      "grad_norm": 2.332505702972412,
      "learning_rate": 2.293014131582376e-05,
      "loss": 0.40000624656677247,
      "memory(GiB)": 70.5,
      "step": 79605,
      "token_acc": 0.9215017064846417,
      "train_speed(iter/s)": 1.45295
    },
    {
      "epoch": 3.410736472301958,
      "grad_norm": 3.119729518890381,
      "learning_rate": 2.2924483390135716e-05,
      "loss": 0.16918137073516845,
      "memory(GiB)": 70.5,
      "step": 79610,
      "token_acc": 0.959731543624161,
      "train_speed(iter/s)": 1.452954
    },
    {
      "epoch": 3.410950687631207,
      "grad_norm": 4.154654026031494,
      "learning_rate": 2.291882595494605e-05,
      "loss": 0.3364307165145874,
      "memory(GiB)": 70.5,
      "step": 79615,
      "token_acc": 0.9256756756756757,
      "train_speed(iter/s)": 1.452953
    },
    {
      "epoch": 3.411164902960456,
      "grad_norm": 9.815827369689941,
      "learning_rate": 2.2913169010357256e-05,
      "loss": 0.24074606895446776,
      "memory(GiB)": 70.5,
      "step": 79620,
      "token_acc": 0.9417808219178082,
      "train_speed(iter/s)": 1.452953
    },
    {
      "epoch": 3.411379118289705,
      "grad_norm": 11.885319709777832,
      "learning_rate": 2.2907512556471817e-05,
      "loss": 0.15232818126678466,
      "memory(GiB)": 70.5,
      "step": 79625,
      "token_acc": 0.9568627450980393,
      "train_speed(iter/s)": 1.452953
    },
    {
      "epoch": 3.4115933336189537,
      "grad_norm": 1.1811139583587646,
      "learning_rate": 2.290185659339218e-05,
      "loss": 0.5307595252990722,
      "memory(GiB)": 70.5,
      "step": 79630,
      "token_acc": 0.9038461538461539,
      "train_speed(iter/s)": 1.452957
    },
    {
      "epoch": 3.411807548948203,
      "grad_norm": 0.3957265317440033,
      "learning_rate": 2.2896201121220856e-05,
      "loss": 0.2852344274520874,
      "memory(GiB)": 70.5,
      "step": 79635,
      "token_acc": 0.9362416107382551,
      "train_speed(iter/s)": 1.452962
    },
    {
      "epoch": 3.4120217642774517,
      "grad_norm": 4.036625385284424,
      "learning_rate": 2.289054614006025e-05,
      "loss": 0.2901793956756592,
      "memory(GiB)": 70.5,
      "step": 79640,
      "token_acc": 0.9340277777777778,
      "train_speed(iter/s)": 1.452966
    },
    {
      "epoch": 3.4122359796067006,
      "grad_norm": 0.1589118242263794,
      "learning_rate": 2.288489165001285e-05,
      "loss": 0.09322633147239685,
      "memory(GiB)": 70.5,
      "step": 79645,
      "token_acc": 0.9777777777777777,
      "train_speed(iter/s)": 1.452977
    },
    {
      "epoch": 3.41245019493595,
      "grad_norm": 3.564002275466919,
      "learning_rate": 2.287923765118108e-05,
      "loss": 0.34879963397979735,
      "memory(GiB)": 70.5,
      "step": 79650,
      "token_acc": 0.9318181818181818,
      "train_speed(iter/s)": 1.452983
    },
    {
      "epoch": 3.4126644102651986,
      "grad_norm": 2.409087657928467,
      "learning_rate": 2.2873584143667352e-05,
      "loss": 0.5516327857971192,
      "memory(GiB)": 70.5,
      "step": 79655,
      "token_acc": 0.8987730061349694,
      "train_speed(iter/s)": 1.452985
    },
    {
      "epoch": 3.4128786255944474,
      "grad_norm": 2.123304843902588,
      "learning_rate": 2.28679311275741e-05,
      "loss": 0.45308985710144045,
      "memory(GiB)": 70.5,
      "step": 79660,
      "token_acc": 0.9259259259259259,
      "train_speed(iter/s)": 1.452997
    },
    {
      "epoch": 3.4130928409236967,
      "grad_norm": 3.8082451820373535,
      "learning_rate": 2.2862278603003707e-05,
      "loss": 0.5164053916931153,
      "memory(GiB)": 70.5,
      "step": 79665,
      "token_acc": 0.9084249084249084,
      "train_speed(iter/s)": 1.452994
    },
    {
      "epoch": 3.4133070562529455,
      "grad_norm": 2.4317991733551025,
      "learning_rate": 2.2856626570058613e-05,
      "loss": 0.4767920970916748,
      "memory(GiB)": 70.5,
      "step": 79670,
      "token_acc": 0.9028213166144201,
      "train_speed(iter/s)": 1.452997
    },
    {
      "epoch": 3.4135212715821943,
      "grad_norm": 3.3930013179779053,
      "learning_rate": 2.2850975028841194e-05,
      "loss": 0.2460331916809082,
      "memory(GiB)": 70.5,
      "step": 79675,
      "token_acc": 0.9440559440559441,
      "train_speed(iter/s)": 1.452999
    },
    {
      "epoch": 3.4137354869114436,
      "grad_norm": 5.667302131652832,
      "learning_rate": 2.2845323979453832e-05,
      "loss": 0.38921935558319093,
      "memory(GiB)": 70.5,
      "step": 79680,
      "token_acc": 0.9249146757679181,
      "train_speed(iter/s)": 1.452998
    },
    {
      "epoch": 3.4139497022406924,
      "grad_norm": 2.1068289279937744,
      "learning_rate": 2.2839673421998892e-05,
      "loss": 0.30207765102386475,
      "memory(GiB)": 70.5,
      "step": 79685,
      "token_acc": 0.924,
      "train_speed(iter/s)": 1.452999
    },
    {
      "epoch": 3.414163917569941,
      "grad_norm": 3.1554369926452637,
      "learning_rate": 2.283402335657873e-05,
      "loss": 0.35673339366912843,
      "memory(GiB)": 70.5,
      "step": 79690,
      "token_acc": 0.927038626609442,
      "train_speed(iter/s)": 1.452995
    },
    {
      "epoch": 3.4143781328991905,
      "grad_norm": 3.774549722671509,
      "learning_rate": 2.2828373783295743e-05,
      "loss": 0.44616079330444336,
      "memory(GiB)": 70.5,
      "step": 79695,
      "token_acc": 0.9080459770114943,
      "train_speed(iter/s)": 1.452997
    },
    {
      "epoch": 3.4145923482284393,
      "grad_norm": 4.1973371505737305,
      "learning_rate": 2.2822724702252245e-05,
      "loss": 0.26577417850494384,
      "memory(GiB)": 70.5,
      "step": 79700,
      "token_acc": 0.9450171821305842,
      "train_speed(iter/s)": 1.452997
    },
    {
      "epoch": 3.414806563557688,
      "grad_norm": 5.054286956787109,
      "learning_rate": 2.281707611355059e-05,
      "loss": 0.3360737800598145,
      "memory(GiB)": 70.5,
      "step": 79705,
      "token_acc": 0.9250814332247557,
      "train_speed(iter/s)": 1.453012
    },
    {
      "epoch": 3.4150207788869373,
      "grad_norm": 3.9113588333129883,
      "learning_rate": 2.2811428017293096e-05,
      "loss": 0.329095721244812,
      "memory(GiB)": 70.5,
      "step": 79710,
      "token_acc": 0.9235474006116208,
      "train_speed(iter/s)": 1.453024
    },
    {
      "epoch": 3.415234994216186,
      "grad_norm": 5.817533493041992,
      "learning_rate": 2.2805780413582075e-05,
      "loss": 0.37959506511688235,
      "memory(GiB)": 70.5,
      "step": 79715,
      "token_acc": 0.9166666666666666,
      "train_speed(iter/s)": 1.453024
    },
    {
      "epoch": 3.415449209545435,
      "grad_norm": 3.0334110260009766,
      "learning_rate": 2.2800133302519866e-05,
      "loss": 0.6534608840942383,
      "memory(GiB)": 70.5,
      "step": 79720,
      "token_acc": 0.8611111111111112,
      "train_speed(iter/s)": 1.453027
    },
    {
      "epoch": 3.415663424874684,
      "grad_norm": 1.445177674293518,
      "learning_rate": 2.2794486684208744e-05,
      "loss": 0.39212908744812014,
      "memory(GiB)": 70.5,
      "step": 79725,
      "token_acc": 0.9069767441860465,
      "train_speed(iter/s)": 1.453034
    },
    {
      "epoch": 3.415877640203933,
      "grad_norm": 4.011203765869141,
      "learning_rate": 2.278884055875103e-05,
      "loss": 0.4626944541931152,
      "memory(GiB)": 70.5,
      "step": 79730,
      "token_acc": 0.8955823293172691,
      "train_speed(iter/s)": 1.453032
    },
    {
      "epoch": 3.416091855533182,
      "grad_norm": 5.161853313446045,
      "learning_rate": 2.2783194926248996e-05,
      "loss": 0.464077091217041,
      "memory(GiB)": 70.5,
      "step": 79735,
      "token_acc": 0.8909090909090909,
      "train_speed(iter/s)": 1.453033
    },
    {
      "epoch": 3.416306070862431,
      "grad_norm": 3.2100367546081543,
      "learning_rate": 2.2777549786804918e-05,
      "loss": 0.07216816544532775,
      "memory(GiB)": 70.5,
      "step": 79740,
      "token_acc": 0.9820143884892086,
      "train_speed(iter/s)": 1.453048
    },
    {
      "epoch": 3.41652028619168,
      "grad_norm": 2.2682416439056396,
      "learning_rate": 2.2771905140521067e-05,
      "loss": 0.42665896415710447,
      "memory(GiB)": 70.5,
      "step": 79745,
      "token_acc": 0.9197530864197531,
      "train_speed(iter/s)": 1.45305
    },
    {
      "epoch": 3.4167345015209287,
      "grad_norm": 2.8817262649536133,
      "learning_rate": 2.2766260987499677e-05,
      "loss": 0.3796292066574097,
      "memory(GiB)": 70.5,
      "step": 79750,
      "token_acc": 0.9271523178807947,
      "train_speed(iter/s)": 1.45306
    },
    {
      "epoch": 3.416948716850178,
      "grad_norm": 1.6347676515579224,
      "learning_rate": 2.276061732784303e-05,
      "loss": 0.49863104820251464,
      "memory(GiB)": 70.5,
      "step": 79755,
      "token_acc": 0.9072164948453608,
      "train_speed(iter/s)": 1.453068
    },
    {
      "epoch": 3.417162932179427,
      "grad_norm": 5.2497782707214355,
      "learning_rate": 2.275497416165335e-05,
      "loss": 0.4398489475250244,
      "memory(GiB)": 70.5,
      "step": 79760,
      "token_acc": 0.9037800687285223,
      "train_speed(iter/s)": 1.45307
    },
    {
      "epoch": 3.4173771475086756,
      "grad_norm": 1.878904938697815,
      "learning_rate": 2.2749331489032884e-05,
      "loss": 0.19116381406784058,
      "memory(GiB)": 70.5,
      "step": 79765,
      "token_acc": 0.9583333333333334,
      "train_speed(iter/s)": 1.453071
    },
    {
      "epoch": 3.417591362837925,
      "grad_norm": 4.17919397354126,
      "learning_rate": 2.274368931008383e-05,
      "loss": 0.49515624046325685,
      "memory(GiB)": 70.5,
      "step": 79770,
      "token_acc": 0.8858131487889274,
      "train_speed(iter/s)": 1.453087
    },
    {
      "epoch": 3.4178055781671737,
      "grad_norm": 2.3639140129089355,
      "learning_rate": 2.27380476249084e-05,
      "loss": 0.263809061050415,
      "memory(GiB)": 70.5,
      "step": 79775,
      "token_acc": 0.9316546762589928,
      "train_speed(iter/s)": 1.453092
    },
    {
      "epoch": 3.4180197934964225,
      "grad_norm": 4.189029693603516,
      "learning_rate": 2.2732406433608826e-05,
      "loss": 0.3072323799133301,
      "memory(GiB)": 70.5,
      "step": 79780,
      "token_acc": 0.9255952380952381,
      "train_speed(iter/s)": 1.453094
    },
    {
      "epoch": 3.4182340088256717,
      "grad_norm": 4.690891265869141,
      "learning_rate": 2.2726765736287287e-05,
      "loss": 0.5670672416687011,
      "memory(GiB)": 70.5,
      "step": 79785,
      "token_acc": 0.8761904761904762,
      "train_speed(iter/s)": 1.453095
    },
    {
      "epoch": 3.4184482241549206,
      "grad_norm": 2.373112201690674,
      "learning_rate": 2.2721125533045955e-05,
      "loss": 0.35882112979888914,
      "memory(GiB)": 70.5,
      "step": 79790,
      "token_acc": 0.9307692307692308,
      "train_speed(iter/s)": 1.453105
    },
    {
      "epoch": 3.4186624394841694,
      "grad_norm": 2.6309592723846436,
      "learning_rate": 2.2715485823987043e-05,
      "loss": 0.45547900199890134,
      "memory(GiB)": 70.5,
      "step": 79795,
      "token_acc": 0.9144981412639405,
      "train_speed(iter/s)": 1.453104
    },
    {
      "epoch": 3.4188766548134186,
      "grad_norm": 3.9537243843078613,
      "learning_rate": 2.27098466092127e-05,
      "loss": 0.2713521957397461,
      "memory(GiB)": 70.5,
      "step": 79800,
      "token_acc": 0.9322033898305084,
      "train_speed(iter/s)": 1.45311
    },
    {
      "epoch": 3.4190908701426674,
      "grad_norm": 1.8863908052444458,
      "learning_rate": 2.2704207888825086e-05,
      "loss": 0.21465983390808105,
      "memory(GiB)": 70.5,
      "step": 79805,
      "token_acc": 0.946843853820598,
      "train_speed(iter/s)": 1.453113
    },
    {
      "epoch": 3.4193050854719163,
      "grad_norm": 0.8265047073364258,
      "learning_rate": 2.2698569662926333e-05,
      "loss": 0.2431049346923828,
      "memory(GiB)": 70.5,
      "step": 79810,
      "token_acc": 0.9465648854961832,
      "train_speed(iter/s)": 1.453113
    },
    {
      "epoch": 3.4195193008011655,
      "grad_norm": 6.12999963760376,
      "learning_rate": 2.2692931931618622e-05,
      "loss": 0.41582636833190917,
      "memory(GiB)": 70.5,
      "step": 79815,
      "token_acc": 0.9111842105263158,
      "train_speed(iter/s)": 1.453116
    },
    {
      "epoch": 3.4197335161304143,
      "grad_norm": 2.576352119445801,
      "learning_rate": 2.2687294695004058e-05,
      "loss": 0.19512515068054198,
      "memory(GiB)": 70.5,
      "step": 79820,
      "token_acc": 0.9517241379310345,
      "train_speed(iter/s)": 1.453121
    },
    {
      "epoch": 3.419947731459663,
      "grad_norm": 3.620027542114258,
      "learning_rate": 2.2681657953184775e-05,
      "loss": 0.4287726402282715,
      "memory(GiB)": 70.5,
      "step": 79825,
      "token_acc": 0.9305993690851735,
      "train_speed(iter/s)": 1.453125
    },
    {
      "epoch": 3.4201619467889124,
      "grad_norm": 4.8779377937316895,
      "learning_rate": 2.267602170626289e-05,
      "loss": 0.48172917366027834,
      "memory(GiB)": 70.5,
      "step": 79830,
      "token_acc": 0.8844621513944223,
      "train_speed(iter/s)": 1.453139
    },
    {
      "epoch": 3.420376162118161,
      "grad_norm": 5.661881446838379,
      "learning_rate": 2.267038595434048e-05,
      "loss": 0.23629193305969237,
      "memory(GiB)": 70.5,
      "step": 79835,
      "token_acc": 0.9411764705882353,
      "train_speed(iter/s)": 1.453145
    },
    {
      "epoch": 3.42059037744741,
      "grad_norm": 1.5707281827926636,
      "learning_rate": 2.266475069751969e-05,
      "loss": 0.12095733880996704,
      "memory(GiB)": 70.5,
      "step": 79840,
      "token_acc": 0.9735099337748344,
      "train_speed(iter/s)": 1.45315
    },
    {
      "epoch": 3.4208045927766593,
      "grad_norm": 3.683227300643921,
      "learning_rate": 2.2659115935902576e-05,
      "loss": 0.2356748104095459,
      "memory(GiB)": 70.5,
      "step": 79845,
      "token_acc": 0.9534883720930233,
      "train_speed(iter/s)": 1.453151
    },
    {
      "epoch": 3.421018808105908,
      "grad_norm": 2.1809213161468506,
      "learning_rate": 2.265348166959123e-05,
      "loss": 0.47263784408569337,
      "memory(GiB)": 70.5,
      "step": 79850,
      "token_acc": 0.9222222222222223,
      "train_speed(iter/s)": 1.453156
    },
    {
      "epoch": 3.421233023435157,
      "grad_norm": 2.4596424102783203,
      "learning_rate": 2.2647847898687712e-05,
      "loss": 0.21412291526794433,
      "memory(GiB)": 70.5,
      "step": 79855,
      "token_acc": 0.9448051948051948,
      "train_speed(iter/s)": 1.453164
    },
    {
      "epoch": 3.421447238764406,
      "grad_norm": 4.551463603973389,
      "learning_rate": 2.2642214623294073e-05,
      "loss": 0.43079700469970705,
      "memory(GiB)": 70.5,
      "step": 79860,
      "token_acc": 0.9060150375939849,
      "train_speed(iter/s)": 1.453164
    },
    {
      "epoch": 3.421661454093655,
      "grad_norm": 0.18867598474025726,
      "learning_rate": 2.2636581843512378e-05,
      "loss": 0.22078940868377686,
      "memory(GiB)": 70.5,
      "step": 79865,
      "token_acc": 0.9550898203592815,
      "train_speed(iter/s)": 1.453162
    },
    {
      "epoch": 3.4218756694229038,
      "grad_norm": 2.8402061462402344,
      "learning_rate": 2.2630949559444693e-05,
      "loss": 0.48152914047241213,
      "memory(GiB)": 70.5,
      "step": 79870,
      "token_acc": 0.9105058365758755,
      "train_speed(iter/s)": 1.453176
    },
    {
      "epoch": 3.422089884752153,
      "grad_norm": 2.602130174636841,
      "learning_rate": 2.2625317771193027e-05,
      "loss": 0.31981887817382815,
      "memory(GiB)": 70.5,
      "step": 79875,
      "token_acc": 0.9393939393939394,
      "train_speed(iter/s)": 1.45319
    },
    {
      "epoch": 3.422304100081402,
      "grad_norm": 1.9054824113845825,
      "learning_rate": 2.2619686478859416e-05,
      "loss": 0.32015151977539064,
      "memory(GiB)": 70.5,
      "step": 79880,
      "token_acc": 0.9207547169811321,
      "train_speed(iter/s)": 1.453207
    },
    {
      "epoch": 3.4225183154106507,
      "grad_norm": 3.023322105407715,
      "learning_rate": 2.261405568254586e-05,
      "loss": 0.7845259666442871,
      "memory(GiB)": 70.5,
      "step": 79885,
      "token_acc": 0.8533834586466166,
      "train_speed(iter/s)": 1.453225
    },
    {
      "epoch": 3.4227325307399,
      "grad_norm": 3.0458953380584717,
      "learning_rate": 2.2608425382354383e-05,
      "loss": 0.4896393299102783,
      "memory(GiB)": 70.5,
      "step": 79890,
      "token_acc": 0.8963210702341137,
      "train_speed(iter/s)": 1.453238
    },
    {
      "epoch": 3.4229467460691487,
      "grad_norm": 5.87508487701416,
      "learning_rate": 2.2602795578386954e-05,
      "loss": 0.3195977210998535,
      "memory(GiB)": 70.5,
      "step": 79895,
      "token_acc": 0.9309309309309309,
      "train_speed(iter/s)": 1.453241
    },
    {
      "epoch": 3.4231609613983975,
      "grad_norm": 2.5789601802825928,
      "learning_rate": 2.2597166270745603e-05,
      "loss": 0.1714937210083008,
      "memory(GiB)": 70.5,
      "step": 79900,
      "token_acc": 0.9587155963302753,
      "train_speed(iter/s)": 1.453247
    },
    {
      "epoch": 3.423375176727647,
      "grad_norm": 5.318449974060059,
      "learning_rate": 2.2591537459532287e-05,
      "loss": 0.37885165214538574,
      "memory(GiB)": 70.5,
      "step": 79905,
      "token_acc": 0.926605504587156,
      "train_speed(iter/s)": 1.453247
    },
    {
      "epoch": 3.4235893920568956,
      "grad_norm": 3.4986443519592285,
      "learning_rate": 2.258590914484898e-05,
      "loss": 0.42702765464782716,
      "memory(GiB)": 70.5,
      "step": 79910,
      "token_acc": 0.9111111111111111,
      "train_speed(iter/s)": 1.453249
    },
    {
      "epoch": 3.4238036073861444,
      "grad_norm": 3.9583494663238525,
      "learning_rate": 2.2580281326797653e-05,
      "loss": 0.5507444381713867,
      "memory(GiB)": 70.5,
      "step": 79915,
      "token_acc": 0.8597560975609756,
      "train_speed(iter/s)": 1.453259
    },
    {
      "epoch": 3.4240178227153937,
      "grad_norm": 1.7343939542770386,
      "learning_rate": 2.2574654005480232e-05,
      "loss": 0.37800087928771975,
      "memory(GiB)": 70.5,
      "step": 79920,
      "token_acc": 0.915129151291513,
      "train_speed(iter/s)": 1.453277
    },
    {
      "epoch": 3.4242320380446425,
      "grad_norm": 1.6424907445907593,
      "learning_rate": 2.2569027180998697e-05,
      "loss": 0.18270022869110109,
      "memory(GiB)": 70.5,
      "step": 79925,
      "token_acc": 0.95703125,
      "train_speed(iter/s)": 1.453279
    },
    {
      "epoch": 3.4244462533738913,
      "grad_norm": 3.0326859951019287,
      "learning_rate": 2.2563400853454963e-05,
      "loss": 0.3633050203323364,
      "memory(GiB)": 70.5,
      "step": 79930,
      "token_acc": 0.9308943089430894,
      "train_speed(iter/s)": 1.453283
    },
    {
      "epoch": 3.4246604687031406,
      "grad_norm": 2.7008755207061768,
      "learning_rate": 2.2557775022950948e-05,
      "loss": 0.4402029991149902,
      "memory(GiB)": 70.5,
      "step": 79935,
      "token_acc": 0.9075342465753424,
      "train_speed(iter/s)": 1.453283
    },
    {
      "epoch": 3.4248746840323894,
      "grad_norm": 1.0268765687942505,
      "learning_rate": 2.25521496895886e-05,
      "loss": 0.23307764530181885,
      "memory(GiB)": 70.5,
      "step": 79940,
      "token_acc": 0.941358024691358,
      "train_speed(iter/s)": 1.453292
    },
    {
      "epoch": 3.425088899361638,
      "grad_norm": 0.41006579995155334,
      "learning_rate": 2.2546524853469802e-05,
      "loss": 0.10655752420425416,
      "memory(GiB)": 70.5,
      "step": 79945,
      "token_acc": 0.9777777777777777,
      "train_speed(iter/s)": 1.453298
    },
    {
      "epoch": 3.4253031146908874,
      "grad_norm": 1.9244821071624756,
      "learning_rate": 2.2540900514696466e-05,
      "loss": 0.2764756202697754,
      "memory(GiB)": 70.5,
      "step": 79950,
      "token_acc": 0.9391025641025641,
      "train_speed(iter/s)": 1.453304
    },
    {
      "epoch": 3.4255173300201363,
      "grad_norm": 4.945650100708008,
      "learning_rate": 2.2535276673370453e-05,
      "loss": 0.3271637916564941,
      "memory(GiB)": 70.5,
      "step": 79955,
      "token_acc": 0.9198473282442748,
      "train_speed(iter/s)": 1.453303
    },
    {
      "epoch": 3.425731545349385,
      "grad_norm": 1.5599305629730225,
      "learning_rate": 2.2529653329593686e-05,
      "loss": 0.27095348834991456,
      "memory(GiB)": 70.5,
      "step": 79960,
      "token_acc": 0.9366666666666666,
      "train_speed(iter/s)": 1.453304
    },
    {
      "epoch": 3.4259457606786343,
      "grad_norm": 2.027907609939575,
      "learning_rate": 2.2524030483468024e-05,
      "loss": 0.21167280673980712,
      "memory(GiB)": 70.5,
      "step": 79965,
      "token_acc": 0.9418181818181818,
      "train_speed(iter/s)": 1.453309
    },
    {
      "epoch": 3.426159976007883,
      "grad_norm": 2.070970058441162,
      "learning_rate": 2.251840813509532e-05,
      "loss": 0.2758042812347412,
      "memory(GiB)": 70.5,
      "step": 79970,
      "token_acc": 0.939297124600639,
      "train_speed(iter/s)": 1.453322
    },
    {
      "epoch": 3.426374191337132,
      "grad_norm": 7.873590469360352,
      "learning_rate": 2.251278628457743e-05,
      "loss": 0.7399838447570801,
      "memory(GiB)": 70.5,
      "step": 79975,
      "token_acc": 0.8793774319066148,
      "train_speed(iter/s)": 1.453329
    },
    {
      "epoch": 3.426588406666381,
      "grad_norm": 0.6727350950241089,
      "learning_rate": 2.2507164932016188e-05,
      "loss": 0.10313514471054078,
      "memory(GiB)": 70.5,
      "step": 79980,
      "token_acc": 0.9776119402985075,
      "train_speed(iter/s)": 1.453345
    },
    {
      "epoch": 3.42680262199563,
      "grad_norm": 2.289975881576538,
      "learning_rate": 2.250154407751346e-05,
      "loss": 0.21591682434082032,
      "memory(GiB)": 70.5,
      "step": 79985,
      "token_acc": 0.9563636363636364,
      "train_speed(iter/s)": 1.453348
    },
    {
      "epoch": 3.427016837324879,
      "grad_norm": 0.6300206184387207,
      "learning_rate": 2.2495923721171053e-05,
      "loss": 0.2141669750213623,
      "memory(GiB)": 70.5,
      "step": 79990,
      "token_acc": 0.9498207885304659,
      "train_speed(iter/s)": 1.453355
    },
    {
      "epoch": 3.427231052654128,
      "grad_norm": 6.205417633056641,
      "learning_rate": 2.2490303863090793e-05,
      "loss": 0.3760800838470459,
      "memory(GiB)": 70.5,
      "step": 79995,
      "token_acc": 0.9148936170212766,
      "train_speed(iter/s)": 1.453363
    },
    {
      "epoch": 3.427445267983377,
      "grad_norm": 3.5800585746765137,
      "learning_rate": 2.2484684503374487e-05,
      "loss": 0.5040995121002197,
      "memory(GiB)": 70.5,
      "step": 80000,
      "token_acc": 0.8942307692307693,
      "train_speed(iter/s)": 1.453363
    },
    {
      "epoch": 3.427445267983377,
      "eval_loss": 2.3836863040924072,
      "eval_runtime": 11.3938,
      "eval_samples_per_second": 8.777,
      "eval_steps_per_second": 8.777,
      "eval_token_acc": 0.4594972067039106,
      "step": 80000
    },
    {
      "epoch": 3.4276594833126257,
      "grad_norm": 2.620495557785034,
      "learning_rate": 2.2479065642123908e-05,
      "loss": 0.6588260173797608,
      "memory(GiB)": 70.5,
      "step": 80005,
      "token_acc": 0.5784797630799605,
      "train_speed(iter/s)": 1.453051
    },
    {
      "epoch": 3.427873698641875,
      "grad_norm": 5.263635158538818,
      "learning_rate": 2.2473447279440875e-05,
      "loss": 0.49750442504882814,
      "memory(GiB)": 70.5,
      "step": 80010,
      "token_acc": 0.9070631970260223,
      "train_speed(iter/s)": 1.453052
    },
    {
      "epoch": 3.428087913971124,
      "grad_norm": 2.0383169651031494,
      "learning_rate": 2.246782941542718e-05,
      "loss": 0.5286773204803467,
      "memory(GiB)": 70.5,
      "step": 80015,
      "token_acc": 0.8873239436619719,
      "train_speed(iter/s)": 1.453052
    },
    {
      "epoch": 3.4283021293003726,
      "grad_norm": 2.721139669418335,
      "learning_rate": 2.2462212050184594e-05,
      "loss": 0.29412221908569336,
      "memory(GiB)": 70.5,
      "step": 80020,
      "token_acc": 0.9333333333333333,
      "train_speed(iter/s)": 1.453056
    },
    {
      "epoch": 3.428516344629622,
      "grad_norm": 0.7917177677154541,
      "learning_rate": 2.245659518381486e-05,
      "loss": 0.16541765928268432,
      "memory(GiB)": 70.5,
      "step": 80025,
      "token_acc": 0.956081081081081,
      "train_speed(iter/s)": 1.453057
    },
    {
      "epoch": 3.4287305599588707,
      "grad_norm": 3.3182363510131836,
      "learning_rate": 2.2450978816419742e-05,
      "loss": 0.25096745491027833,
      "memory(GiB)": 70.5,
      "step": 80030,
      "token_acc": 0.9484536082474226,
      "train_speed(iter/s)": 1.45306
    },
    {
      "epoch": 3.4289447752881195,
      "grad_norm": 2.8694469928741455,
      "learning_rate": 2.244536294810099e-05,
      "loss": 0.22281115055084227,
      "memory(GiB)": 70.5,
      "step": 80035,
      "token_acc": 0.9573170731707317,
      "train_speed(iter/s)": 1.453063
    },
    {
      "epoch": 3.4291589906173687,
      "grad_norm": 4.315533638000488,
      "learning_rate": 2.2439747578960318e-05,
      "loss": 0.2405646562576294,
      "memory(GiB)": 70.5,
      "step": 80040,
      "token_acc": 0.9393939393939394,
      "train_speed(iter/s)": 1.453065
    },
    {
      "epoch": 3.4293732059466175,
      "grad_norm": 3.410693883895874,
      "learning_rate": 2.2434132709099487e-05,
      "loss": 0.36632490158081055,
      "memory(GiB)": 70.5,
      "step": 80045,
      "token_acc": 0.935361216730038,
      "train_speed(iter/s)": 1.453074
    },
    {
      "epoch": 3.4295874212758664,
      "grad_norm": 2.6700870990753174,
      "learning_rate": 2.24285183386202e-05,
      "loss": 0.4751246929168701,
      "memory(GiB)": 70.5,
      "step": 80050,
      "token_acc": 0.9093959731543624,
      "train_speed(iter/s)": 1.453074
    },
    {
      "epoch": 3.4298016366051156,
      "grad_norm": 2.7412891387939453,
      "learning_rate": 2.2422904467624172e-05,
      "loss": 0.342789363861084,
      "memory(GiB)": 70.5,
      "step": 80055,
      "token_acc": 0.908695652173913,
      "train_speed(iter/s)": 1.453078
    },
    {
      "epoch": 3.4300158519343644,
      "grad_norm": 4.799342632293701,
      "learning_rate": 2.24172910962131e-05,
      "loss": 0.2690619707107544,
      "memory(GiB)": 70.5,
      "step": 80060,
      "token_acc": 0.9404255319148936,
      "train_speed(iter/s)": 1.453075
    },
    {
      "epoch": 3.4302300672636132,
      "grad_norm": 5.362198829650879,
      "learning_rate": 2.241167822448865e-05,
      "loss": 0.5476122856140136,
      "memory(GiB)": 70.5,
      "step": 80065,
      "token_acc": 0.8880866425992779,
      "train_speed(iter/s)": 1.45309
    },
    {
      "epoch": 3.4304442825928625,
      "grad_norm": 0.9829422235488892,
      "learning_rate": 2.2406065852552556e-05,
      "loss": 0.4863574504852295,
      "memory(GiB)": 70.5,
      "step": 80070,
      "token_acc": 0.9045801526717557,
      "train_speed(iter/s)": 1.453095
    },
    {
      "epoch": 3.4306584979221113,
      "grad_norm": 3.866316080093384,
      "learning_rate": 2.240045398050646e-05,
      "loss": 0.2732864856719971,
      "memory(GiB)": 70.5,
      "step": 80075,
      "token_acc": 0.9438202247191011,
      "train_speed(iter/s)": 1.453097
    },
    {
      "epoch": 3.43087271325136,
      "grad_norm": 4.147935390472412,
      "learning_rate": 2.2394842608452026e-05,
      "loss": 0.23529500961303712,
      "memory(GiB)": 70.5,
      "step": 80080,
      "token_acc": 0.9563636363636364,
      "train_speed(iter/s)": 1.453104
    },
    {
      "epoch": 3.4310869285806094,
      "grad_norm": 2.523693323135376,
      "learning_rate": 2.2389231736490896e-05,
      "loss": 0.32791666984558104,
      "memory(GiB)": 70.5,
      "step": 80085,
      "token_acc": 0.9305993690851735,
      "train_speed(iter/s)": 1.453107
    },
    {
      "epoch": 3.431301143909858,
      "grad_norm": 4.87439489364624,
      "learning_rate": 2.2383621364724755e-05,
      "loss": 0.3238863945007324,
      "memory(GiB)": 70.5,
      "step": 80090,
      "token_acc": 0.934375,
      "train_speed(iter/s)": 1.453104
    },
    {
      "epoch": 3.431515359239107,
      "grad_norm": 2.920933246612549,
      "learning_rate": 2.2378011493255225e-05,
      "loss": 0.30217196941375735,
      "memory(GiB)": 70.5,
      "step": 80095,
      "token_acc": 0.9377162629757786,
      "train_speed(iter/s)": 1.453107
    },
    {
      "epoch": 3.4317295745683563,
      "grad_norm": 4.098968029022217,
      "learning_rate": 2.23724021221839e-05,
      "loss": 0.31686880588531496,
      "memory(GiB)": 70.5,
      "step": 80100,
      "token_acc": 0.9415807560137457,
      "train_speed(iter/s)": 1.45311
    },
    {
      "epoch": 3.431943789897605,
      "grad_norm": 0.09224782139062881,
      "learning_rate": 2.236679325161245e-05,
      "loss": 0.19648391008377075,
      "memory(GiB)": 70.5,
      "step": 80105,
      "token_acc": 0.9593220338983051,
      "train_speed(iter/s)": 1.453111
    },
    {
      "epoch": 3.432158005226854,
      "grad_norm": 2.733078956604004,
      "learning_rate": 2.2361184881642468e-05,
      "loss": 0.5052392959594727,
      "memory(GiB)": 70.5,
      "step": 80110,
      "token_acc": 0.8846153846153846,
      "train_speed(iter/s)": 1.453112
    },
    {
      "epoch": 3.432372220556103,
      "grad_norm": 4.244035720825195,
      "learning_rate": 2.2355577012375538e-05,
      "loss": 0.28272438049316406,
      "memory(GiB)": 70.5,
      "step": 80115,
      "token_acc": 0.9344262295081968,
      "train_speed(iter/s)": 1.453116
    },
    {
      "epoch": 3.432586435885352,
      "grad_norm": 4.13874626159668,
      "learning_rate": 2.234996964391327e-05,
      "loss": 0.2509037971496582,
      "memory(GiB)": 70.5,
      "step": 80120,
      "token_acc": 0.9440559440559441,
      "train_speed(iter/s)": 1.453123
    },
    {
      "epoch": 3.4328006512146008,
      "grad_norm": 3.038557767868042,
      "learning_rate": 2.2344362776357218e-05,
      "loss": 0.42783164978027344,
      "memory(GiB)": 70.5,
      "step": 80125,
      "token_acc": 0.9184952978056427,
      "train_speed(iter/s)": 1.453126
    },
    {
      "epoch": 3.43301486654385,
      "grad_norm": 5.627216339111328,
      "learning_rate": 2.2338756409809004e-05,
      "loss": 0.33856844902038574,
      "memory(GiB)": 70.5,
      "step": 80130,
      "token_acc": 0.9273927392739274,
      "train_speed(iter/s)": 1.45313
    },
    {
      "epoch": 3.433229081873099,
      "grad_norm": 2.2770981788635254,
      "learning_rate": 2.2333150544370157e-05,
      "loss": 0.535616397857666,
      "memory(GiB)": 70.5,
      "step": 80135,
      "token_acc": 0.879245283018868,
      "train_speed(iter/s)": 1.453133
    },
    {
      "epoch": 3.4334432972023476,
      "grad_norm": 3.2379884719848633,
      "learning_rate": 2.2327545180142247e-05,
      "loss": 0.39782602787017823,
      "memory(GiB)": 70.5,
      "step": 80140,
      "token_acc": 0.9278350515463918,
      "train_speed(iter/s)": 1.453131
    },
    {
      "epoch": 3.433657512531597,
      "grad_norm": 1.2357394695281982,
      "learning_rate": 2.232194031722681e-05,
      "loss": 0.34079809188842775,
      "memory(GiB)": 70.5,
      "step": 80145,
      "token_acc": 0.9470198675496688,
      "train_speed(iter/s)": 1.453148
    },
    {
      "epoch": 3.4338717278608457,
      "grad_norm": 4.112829685211182,
      "learning_rate": 2.231633595572537e-05,
      "loss": 0.5077475547790528,
      "memory(GiB)": 70.5,
      "step": 80150,
      "token_acc": 0.9125874125874126,
      "train_speed(iter/s)": 1.453162
    },
    {
      "epoch": 3.4340859431900945,
      "grad_norm": 3.3366942405700684,
      "learning_rate": 2.2310732095739494e-05,
      "loss": 0.1538116455078125,
      "memory(GiB)": 70.5,
      "step": 80155,
      "token_acc": 0.9695817490494296,
      "train_speed(iter/s)": 1.453167
    },
    {
      "epoch": 3.434300158519344,
      "grad_norm": 3.821031332015991,
      "learning_rate": 2.2305128737370662e-05,
      "loss": 0.2895024299621582,
      "memory(GiB)": 70.5,
      "step": 80160,
      "token_acc": 0.927797833935018,
      "train_speed(iter/s)": 1.453173
    },
    {
      "epoch": 3.4345143738485926,
      "grad_norm": 6.257387161254883,
      "learning_rate": 2.2299525880720424e-05,
      "loss": 0.42113122940063474,
      "memory(GiB)": 70.5,
      "step": 80165,
      "token_acc": 0.8980891719745223,
      "train_speed(iter/s)": 1.453178
    },
    {
      "epoch": 3.4347285891778414,
      "grad_norm": 1.7211272716522217,
      "learning_rate": 2.2293923525890258e-05,
      "loss": 0.274519157409668,
      "memory(GiB)": 70.5,
      "step": 80170,
      "token_acc": 0.9342105263157895,
      "train_speed(iter/s)": 1.45318
    },
    {
      "epoch": 3.4349428045070907,
      "grad_norm": 7.183842658996582,
      "learning_rate": 2.2288321672981655e-05,
      "loss": 0.3720468282699585,
      "memory(GiB)": 70.5,
      "step": 80175,
      "token_acc": 0.9335548172757475,
      "train_speed(iter/s)": 1.453182
    },
    {
      "epoch": 3.4351570198363395,
      "grad_norm": 1.9720033407211304,
      "learning_rate": 2.22827203220961e-05,
      "loss": 0.273167085647583,
      "memory(GiB)": 70.5,
      "step": 80180,
      "token_acc": 0.9442622950819672,
      "train_speed(iter/s)": 1.453205
    },
    {
      "epoch": 3.4353712351655883,
      "grad_norm": 2.8251805305480957,
      "learning_rate": 2.2277119473335058e-05,
      "loss": 0.41399059295654295,
      "memory(GiB)": 70.5,
      "step": 80185,
      "token_acc": 0.9243986254295533,
      "train_speed(iter/s)": 1.45321
    },
    {
      "epoch": 3.4355854504948375,
      "grad_norm": 2.083016872406006,
      "learning_rate": 2.2271519126800013e-05,
      "loss": 0.2354429006576538,
      "memory(GiB)": 70.5,
      "step": 80190,
      "token_acc": 0.9453376205787781,
      "train_speed(iter/s)": 1.453209
    },
    {
      "epoch": 3.4357996658240864,
      "grad_norm": 3.506251335144043,
      "learning_rate": 2.2265919282592412e-05,
      "loss": 0.41162781715393065,
      "memory(GiB)": 70.5,
      "step": 80195,
      "token_acc": 0.9208860759493671,
      "train_speed(iter/s)": 1.453208
    },
    {
      "epoch": 3.436013881153335,
      "grad_norm": 1.9567266702651978,
      "learning_rate": 2.22603199408137e-05,
      "loss": 0.24565744400024414,
      "memory(GiB)": 70.5,
      "step": 80200,
      "token_acc": 0.9568627450980393,
      "train_speed(iter/s)": 1.453211
    },
    {
      "epoch": 3.4362280964825844,
      "grad_norm": 4.601008892059326,
      "learning_rate": 2.225472110156531e-05,
      "loss": 0.4772765636444092,
      "memory(GiB)": 70.5,
      "step": 80205,
      "token_acc": 0.8977635782747604,
      "train_speed(iter/s)": 1.453223
    },
    {
      "epoch": 3.4364423118118332,
      "grad_norm": 3.8507230281829834,
      "learning_rate": 2.2249122764948665e-05,
      "loss": 0.3261376142501831,
      "memory(GiB)": 70.5,
      "step": 80210,
      "token_acc": 0.9203821656050956,
      "train_speed(iter/s)": 1.453235
    },
    {
      "epoch": 3.436656527141082,
      "grad_norm": 4.011268615722656,
      "learning_rate": 2.2243524931065206e-05,
      "loss": 0.4175966739654541,
      "memory(GiB)": 70.5,
      "step": 80215,
      "token_acc": 0.91,
      "train_speed(iter/s)": 1.453248
    },
    {
      "epoch": 3.4368707424703313,
      "grad_norm": 5.301118850708008,
      "learning_rate": 2.2237927600016334e-05,
      "loss": 0.5838340759277344,
      "memory(GiB)": 70.5,
      "step": 80220,
      "token_acc": 0.8971428571428571,
      "train_speed(iter/s)": 1.453259
    },
    {
      "epoch": 3.43708495779958,
      "grad_norm": 2.388693332672119,
      "learning_rate": 2.223233077190344e-05,
      "loss": 0.4924635887145996,
      "memory(GiB)": 70.5,
      "step": 80225,
      "token_acc": 0.8758169934640523,
      "train_speed(iter/s)": 1.453264
    },
    {
      "epoch": 3.437299173128829,
      "grad_norm": 4.34173583984375,
      "learning_rate": 2.222673444682793e-05,
      "loss": 0.4740150928497314,
      "memory(GiB)": 70.5,
      "step": 80230,
      "token_acc": 0.8913857677902621,
      "train_speed(iter/s)": 1.453274
    },
    {
      "epoch": 3.437513388458078,
      "grad_norm": 3.2687060832977295,
      "learning_rate": 2.2221138624891158e-05,
      "loss": 0.2650440216064453,
      "memory(GiB)": 70.5,
      "step": 80235,
      "token_acc": 0.940625,
      "train_speed(iter/s)": 1.45328
    },
    {
      "epoch": 3.437727603787327,
      "grad_norm": 1.9811162948608398,
      "learning_rate": 2.2215543306194535e-05,
      "loss": 0.2757431983947754,
      "memory(GiB)": 70.5,
      "step": 80240,
      "token_acc": 0.9573643410852714,
      "train_speed(iter/s)": 1.453286
    },
    {
      "epoch": 3.437941819116576,
      "grad_norm": 3.1304357051849365,
      "learning_rate": 2.2209948490839388e-05,
      "loss": 0.6641081809997559,
      "memory(GiB)": 70.5,
      "step": 80245,
      "token_acc": 0.856140350877193,
      "train_speed(iter/s)": 1.453295
    },
    {
      "epoch": 3.438156034445825,
      "grad_norm": 2.071887254714966,
      "learning_rate": 2.2204354178927116e-05,
      "loss": 0.40590720176696776,
      "memory(GiB)": 70.5,
      "step": 80250,
      "token_acc": 0.9072164948453608,
      "train_speed(iter/s)": 1.453293
    },
    {
      "epoch": 3.438370249775074,
      "grad_norm": 5.696352005004883,
      "learning_rate": 2.2198760370559048e-05,
      "loss": 0.3541254997253418,
      "memory(GiB)": 70.5,
      "step": 80255,
      "token_acc": 0.9186991869918699,
      "train_speed(iter/s)": 1.453297
    },
    {
      "epoch": 3.4385844651043227,
      "grad_norm": 1.532353162765503,
      "learning_rate": 2.2193167065836506e-05,
      "loss": 0.23120813369750975,
      "memory(GiB)": 70.5,
      "step": 80260,
      "token_acc": 0.9487179487179487,
      "train_speed(iter/s)": 1.453302
    },
    {
      "epoch": 3.438798680433572,
      "grad_norm": 3.914254665374756,
      "learning_rate": 2.218757426486083e-05,
      "loss": 0.4034672737121582,
      "memory(GiB)": 70.5,
      "step": 80265,
      "token_acc": 0.9087837837837838,
      "train_speed(iter/s)": 1.453312
    },
    {
      "epoch": 3.4390128957628208,
      "grad_norm": 1.665992021560669,
      "learning_rate": 2.2181981967733316e-05,
      "loss": 0.25437312126159667,
      "memory(GiB)": 70.5,
      "step": 80270,
      "token_acc": 0.9389067524115756,
      "train_speed(iter/s)": 1.453308
    },
    {
      "epoch": 3.4392271110920696,
      "grad_norm": 2.7504687309265137,
      "learning_rate": 2.2176390174555316e-05,
      "loss": 0.2998585939407349,
      "memory(GiB)": 70.5,
      "step": 80275,
      "token_acc": 0.9345794392523364,
      "train_speed(iter/s)": 1.453316
    },
    {
      "epoch": 3.439441326421319,
      "grad_norm": 2.9342172145843506,
      "learning_rate": 2.2170798885428113e-05,
      "loss": 0.2234325408935547,
      "memory(GiB)": 70.5,
      "step": 80280,
      "token_acc": 0.9601226993865031,
      "train_speed(iter/s)": 1.453318
    },
    {
      "epoch": 3.4396555417505676,
      "grad_norm": 5.644237995147705,
      "learning_rate": 2.2165208100452982e-05,
      "loss": 0.38924713134765626,
      "memory(GiB)": 70.5,
      "step": 80285,
      "token_acc": 0.9078014184397163,
      "train_speed(iter/s)": 1.453338
    },
    {
      "epoch": 3.4398697570798165,
      "grad_norm": 4.641189098358154,
      "learning_rate": 2.2159617819731226e-05,
      "loss": 0.46694126129150393,
      "memory(GiB)": 70.5,
      "step": 80290,
      "token_acc": 0.8932806324110671,
      "train_speed(iter/s)": 1.453359
    },
    {
      "epoch": 3.4400839724090657,
      "grad_norm": 2.6358399391174316,
      "learning_rate": 2.215402804336409e-05,
      "loss": 0.4069619655609131,
      "memory(GiB)": 70.5,
      "step": 80295,
      "token_acc": 0.9025270758122743,
      "train_speed(iter/s)": 1.45336
    },
    {
      "epoch": 3.4402981877383145,
      "grad_norm": 0.3433573544025421,
      "learning_rate": 2.214843877145288e-05,
      "loss": 0.3808490037918091,
      "memory(GiB)": 70.5,
      "step": 80300,
      "token_acc": 0.9120879120879121,
      "train_speed(iter/s)": 1.453365
    },
    {
      "epoch": 3.4405124030675633,
      "grad_norm": 3.168592929840088,
      "learning_rate": 2.2142850004098804e-05,
      "loss": 0.2889427661895752,
      "memory(GiB)": 70.5,
      "step": 80305,
      "token_acc": 0.926056338028169,
      "train_speed(iter/s)": 1.453372
    },
    {
      "epoch": 3.4407266183968126,
      "grad_norm": 3.6631357669830322,
      "learning_rate": 2.2137261741403154e-05,
      "loss": 0.4771984577178955,
      "memory(GiB)": 70.5,
      "step": 80310,
      "token_acc": 0.9016393442622951,
      "train_speed(iter/s)": 1.453377
    },
    {
      "epoch": 3.4409408337260614,
      "grad_norm": 3.5181753635406494,
      "learning_rate": 2.213167398346714e-05,
      "loss": 0.32999966144561765,
      "memory(GiB)": 70.5,
      "step": 80315,
      "token_acc": 0.9294871794871795,
      "train_speed(iter/s)": 1.45338
    },
    {
      "epoch": 3.4411550490553102,
      "grad_norm": 3.475588083267212,
      "learning_rate": 2.2126086730391997e-05,
      "loss": 0.3549479961395264,
      "memory(GiB)": 70.5,
      "step": 80320,
      "token_acc": 0.9176029962546817,
      "train_speed(iter/s)": 1.453401
    },
    {
      "epoch": 3.4413692643845595,
      "grad_norm": 9.618620872497559,
      "learning_rate": 2.2120499982278942e-05,
      "loss": 0.4938480377197266,
      "memory(GiB)": 70.5,
      "step": 80325,
      "token_acc": 0.9316546762589928,
      "train_speed(iter/s)": 1.45341
    },
    {
      "epoch": 3.4415834797138083,
      "grad_norm": 2.0896005630493164,
      "learning_rate": 2.2114913739229166e-05,
      "loss": 0.5153651237487793,
      "memory(GiB)": 70.5,
      "step": 80330,
      "token_acc": 0.888135593220339,
      "train_speed(iter/s)": 1.453415
    },
    {
      "epoch": 3.441797695043057,
      "grad_norm": 3.652217149734497,
      "learning_rate": 2.2109328001343898e-05,
      "loss": 0.6106052875518799,
      "memory(GiB)": 70.5,
      "step": 80335,
      "token_acc": 0.9113924050632911,
      "train_speed(iter/s)": 1.453417
    },
    {
      "epoch": 3.4420119103723064,
      "grad_norm": 0.8799142241477966,
      "learning_rate": 2.2103742768724322e-05,
      "loss": 0.194494891166687,
      "memory(GiB)": 70.5,
      "step": 80340,
      "token_acc": 0.9546925566343042,
      "train_speed(iter/s)": 1.453414
    },
    {
      "epoch": 3.442226125701555,
      "grad_norm": 1.86473548412323,
      "learning_rate": 2.2098158041471617e-05,
      "loss": 0.37816448211669923,
      "memory(GiB)": 70.5,
      "step": 80345,
      "token_acc": 0.9227467811158798,
      "train_speed(iter/s)": 1.453425
    },
    {
      "epoch": 3.442440341030804,
      "grad_norm": 3.329303026199341,
      "learning_rate": 2.2092573819686945e-05,
      "loss": 0.3359161138534546,
      "memory(GiB)": 70.5,
      "step": 80350,
      "token_acc": 0.9163879598662207,
      "train_speed(iter/s)": 1.453428
    },
    {
      "epoch": 3.4426545563600532,
      "grad_norm": 4.435821056365967,
      "learning_rate": 2.2086990103471468e-05,
      "loss": 0.42406888008117677,
      "memory(GiB)": 70.5,
      "step": 80355,
      "token_acc": 0.9044117647058824,
      "train_speed(iter/s)": 1.453438
    },
    {
      "epoch": 3.442868771689302,
      "grad_norm": 3.5517680644989014,
      "learning_rate": 2.2081406892926366e-05,
      "loss": 0.8112746238708496,
      "memory(GiB)": 70.5,
      "step": 80360,
      "token_acc": 0.8316831683168316,
      "train_speed(iter/s)": 1.453456
    },
    {
      "epoch": 3.443082987018551,
      "grad_norm": 2.4735779762268066,
      "learning_rate": 2.2075824188152762e-05,
      "loss": 0.2329643726348877,
      "memory(GiB)": 70.5,
      "step": 80365,
      "token_acc": 0.9316770186335404,
      "train_speed(iter/s)": 1.453472
    },
    {
      "epoch": 3.4432972023478,
      "grad_norm": 2.12776780128479,
      "learning_rate": 2.2070241989251805e-05,
      "loss": 0.4707451343536377,
      "memory(GiB)": 70.5,
      "step": 80370,
      "token_acc": 0.8986013986013986,
      "train_speed(iter/s)": 1.453476
    },
    {
      "epoch": 3.443511417677049,
      "grad_norm": 6.0229363441467285,
      "learning_rate": 2.2064660296324607e-05,
      "loss": 0.2871856212615967,
      "memory(GiB)": 70.5,
      "step": 80375,
      "token_acc": 0.9285714285714286,
      "train_speed(iter/s)": 1.453475
    },
    {
      "epoch": 3.4437256330062977,
      "grad_norm": 3.0248255729675293,
      "learning_rate": 2.205907910947228e-05,
      "loss": 0.42510509490966797,
      "memory(GiB)": 70.5,
      "step": 80380,
      "token_acc": 0.890625,
      "train_speed(iter/s)": 1.453479
    },
    {
      "epoch": 3.443939848335547,
      "grad_norm": 3.34686017036438,
      "learning_rate": 2.2053498428795965e-05,
      "loss": 0.526761531829834,
      "memory(GiB)": 70.5,
      "step": 80385,
      "token_acc": 0.9078014184397163,
      "train_speed(iter/s)": 1.453484
    },
    {
      "epoch": 3.444154063664796,
      "grad_norm": 1.908753752708435,
      "learning_rate": 2.2047918254396722e-05,
      "loss": 0.2946446180343628,
      "memory(GiB)": 70.5,
      "step": 80390,
      "token_acc": 0.934640522875817,
      "train_speed(iter/s)": 1.45349
    },
    {
      "epoch": 3.4443682789940446,
      "grad_norm": 1.347379207611084,
      "learning_rate": 2.2042338586375676e-05,
      "loss": 0.4960760593414307,
      "memory(GiB)": 70.5,
      "step": 80395,
      "token_acc": 0.8986928104575164,
      "train_speed(iter/s)": 1.453495
    },
    {
      "epoch": 3.444582494323294,
      "grad_norm": 4.1317548751831055,
      "learning_rate": 2.2036759424833898e-05,
      "loss": 0.22181310653686523,
      "memory(GiB)": 70.5,
      "step": 80400,
      "token_acc": 0.9534883720930233,
      "train_speed(iter/s)": 1.453509
    },
    {
      "epoch": 3.4447967096525427,
      "grad_norm": 3.026085376739502,
      "learning_rate": 2.2031180769872456e-05,
      "loss": 0.22056725025177001,
      "memory(GiB)": 70.5,
      "step": 80405,
      "token_acc": 0.9541666666666667,
      "train_speed(iter/s)": 1.453514
    },
    {
      "epoch": 3.4450109249817915,
      "grad_norm": 4.507383823394775,
      "learning_rate": 2.2025602621592404e-05,
      "loss": 0.3022098779678345,
      "memory(GiB)": 70.5,
      "step": 80410,
      "token_acc": 0.935251798561151,
      "train_speed(iter/s)": 1.453523
    },
    {
      "epoch": 3.4452251403110408,
      "grad_norm": 2.9686696529388428,
      "learning_rate": 2.2020024980094788e-05,
      "loss": 0.29084908962249756,
      "memory(GiB)": 70.5,
      "step": 80415,
      "token_acc": 0.9392857142857143,
      "train_speed(iter/s)": 1.45353
    },
    {
      "epoch": 3.4454393556402896,
      "grad_norm": 2.3245935440063477,
      "learning_rate": 2.2014447845480684e-05,
      "loss": 0.2776059865951538,
      "memory(GiB)": 70.5,
      "step": 80420,
      "token_acc": 0.9375,
      "train_speed(iter/s)": 1.45354
    },
    {
      "epoch": 3.4456535709695384,
      "grad_norm": 5.672439098358154,
      "learning_rate": 2.2008871217851114e-05,
      "loss": 0.6522374629974366,
      "memory(GiB)": 70.5,
      "step": 80425,
      "token_acc": 0.872852233676976,
      "train_speed(iter/s)": 1.453542
    },
    {
      "epoch": 3.4458677862987876,
      "grad_norm": 3.123239755630493,
      "learning_rate": 2.2003295097307097e-05,
      "loss": 0.49366068840026855,
      "memory(GiB)": 70.5,
      "step": 80430,
      "token_acc": 0.8619246861924686,
      "train_speed(iter/s)": 1.453543
    },
    {
      "epoch": 3.4460820016280365,
      "grad_norm": 5.421292781829834,
      "learning_rate": 2.1997719483949652e-05,
      "loss": 0.4109602451324463,
      "memory(GiB)": 70.5,
      "step": 80435,
      "token_acc": 0.8921568627450981,
      "train_speed(iter/s)": 1.453546
    },
    {
      "epoch": 3.4462962169572853,
      "grad_norm": 0.3337084949016571,
      "learning_rate": 2.199214437787977e-05,
      "loss": 0.3564543008804321,
      "memory(GiB)": 70.5,
      "step": 80440,
      "token_acc": 0.916030534351145,
      "train_speed(iter/s)": 1.45356
    },
    {
      "epoch": 3.4465104322865345,
      "grad_norm": 4.647666931152344,
      "learning_rate": 2.1986569779198486e-05,
      "loss": 0.6504140853881836,
      "memory(GiB)": 70.5,
      "step": 80445,
      "token_acc": 0.873015873015873,
      "train_speed(iter/s)": 1.453582
    },
    {
      "epoch": 3.4467246476157833,
      "grad_norm": 2.1657774448394775,
      "learning_rate": 2.198099568800676e-05,
      "loss": 0.24093432426452638,
      "memory(GiB)": 70.5,
      "step": 80450,
      "token_acc": 0.9532374100719424,
      "train_speed(iter/s)": 1.453584
    },
    {
      "epoch": 3.446938862945032,
      "grad_norm": 1.0916528701782227,
      "learning_rate": 2.1975422104405576e-05,
      "loss": 0.11400125026702881,
      "memory(GiB)": 70.5,
      "step": 80455,
      "token_acc": 0.9700374531835206,
      "train_speed(iter/s)": 1.453585
    },
    {
      "epoch": 3.4471530782742814,
      "grad_norm": 2.776909589767456,
      "learning_rate": 2.1969849028495915e-05,
      "loss": 0.4370891094207764,
      "memory(GiB)": 70.5,
      "step": 80460,
      "token_acc": 0.9061488673139159,
      "train_speed(iter/s)": 1.453586
    },
    {
      "epoch": 3.4473672936035302,
      "grad_norm": 3.8486440181732178,
      "learning_rate": 2.196427646037874e-05,
      "loss": 0.3496169328689575,
      "memory(GiB)": 70.5,
      "step": 80465,
      "token_acc": 0.9187279151943463,
      "train_speed(iter/s)": 1.453597
    },
    {
      "epoch": 3.447581508932779,
      "grad_norm": 3.0836315155029297,
      "learning_rate": 2.1958704400154995e-05,
      "loss": 0.3596588850021362,
      "memory(GiB)": 70.5,
      "step": 80470,
      "token_acc": 0.9314079422382672,
      "train_speed(iter/s)": 1.453611
    },
    {
      "epoch": 3.4477957242620283,
      "grad_norm": 5.985394477844238,
      "learning_rate": 2.195313284792561e-05,
      "loss": 0.37122421264648436,
      "memory(GiB)": 70.5,
      "step": 80475,
      "token_acc": 0.9343283582089552,
      "train_speed(iter/s)": 1.453613
    },
    {
      "epoch": 3.448009939591277,
      "grad_norm": 3.009371280670166,
      "learning_rate": 2.194756180379155e-05,
      "loss": 0.2347771167755127,
      "memory(GiB)": 70.5,
      "step": 80480,
      "token_acc": 0.9540229885057471,
      "train_speed(iter/s)": 1.453619
    },
    {
      "epoch": 3.448224154920526,
      "grad_norm": 1.2070766687393188,
      "learning_rate": 2.1941991267853722e-05,
      "loss": 0.5108346939086914,
      "memory(GiB)": 70.5,
      "step": 80485,
      "token_acc": 0.9163987138263665,
      "train_speed(iter/s)": 1.453634
    },
    {
      "epoch": 3.448438370249775,
      "grad_norm": 2.175841808319092,
      "learning_rate": 2.193642124021304e-05,
      "loss": 0.1824570417404175,
      "memory(GiB)": 70.5,
      "step": 80490,
      "token_acc": 0.9570957095709571,
      "train_speed(iter/s)": 1.45364
    },
    {
      "epoch": 3.448652585579024,
      "grad_norm": 4.224128723144531,
      "learning_rate": 2.193085172097042e-05,
      "loss": 0.5333437919616699,
      "memory(GiB)": 70.5,
      "step": 80495,
      "token_acc": 0.8978723404255319,
      "train_speed(iter/s)": 1.453656
    },
    {
      "epoch": 3.448866800908273,
      "grad_norm": 1.7470221519470215,
      "learning_rate": 2.192528271022673e-05,
      "loss": 0.2835529088973999,
      "memory(GiB)": 70.5,
      "step": 80500,
      "token_acc": 0.9441176470588235,
      "train_speed(iter/s)": 1.453659
    },
    {
      "epoch": 3.448866800908273,
      "eval_loss": 2.3567068576812744,
      "eval_runtime": 11.4157,
      "eval_samples_per_second": 8.76,
      "eval_steps_per_second": 8.76,
      "eval_token_acc": 0.4474431818181818,
      "step": 80500
    },
    {
      "epoch": 3.449081016237522,
      "grad_norm": 4.882108688354492,
      "learning_rate": 2.1919714208082898e-05,
      "loss": 0.18098353147506713,
      "memory(GiB)": 70.5,
      "step": 80505,
      "token_acc": 0.5895598771750256,
      "train_speed(iter/s)": 1.453346
    },
    {
      "epoch": 3.449295231566771,
      "grad_norm": 0.275188684463501,
      "learning_rate": 2.1914146214639782e-05,
      "loss": 0.3243074417114258,
      "memory(GiB)": 70.5,
      "step": 80510,
      "token_acc": 0.9078341013824884,
      "train_speed(iter/s)": 1.453349
    },
    {
      "epoch": 3.4495094468960197,
      "grad_norm": 3.6658318042755127,
      "learning_rate": 2.1908578729998258e-05,
      "loss": 0.2892108201980591,
      "memory(GiB)": 70.5,
      "step": 80515,
      "token_acc": 0.9306569343065694,
      "train_speed(iter/s)": 1.453356
    },
    {
      "epoch": 3.449723662225269,
      "grad_norm": 3.3533222675323486,
      "learning_rate": 2.1903011754259177e-05,
      "loss": 0.3163425445556641,
      "memory(GiB)": 70.5,
      "step": 80520,
      "token_acc": 0.9122807017543859,
      "train_speed(iter/s)": 1.453356
    },
    {
      "epoch": 3.4499378775545178,
      "grad_norm": 0.7878171801567078,
      "learning_rate": 2.1897445287523384e-05,
      "loss": 0.18544386625289916,
      "memory(GiB)": 70.5,
      "step": 80525,
      "token_acc": 0.951048951048951,
      "train_speed(iter/s)": 1.453361
    },
    {
      "epoch": 3.4501520928837666,
      "grad_norm": 3.680673360824585,
      "learning_rate": 2.1891879329891746e-05,
      "loss": 0.24040665626525878,
      "memory(GiB)": 70.5,
      "step": 80530,
      "token_acc": 0.9506578947368421,
      "train_speed(iter/s)": 1.453369
    },
    {
      "epoch": 3.450366308213016,
      "grad_norm": 2.296499490737915,
      "learning_rate": 2.1886313881465063e-05,
      "loss": 0.5415105819702148,
      "memory(GiB)": 70.5,
      "step": 80535,
      "token_acc": 0.8715277777777778,
      "train_speed(iter/s)": 1.453375
    },
    {
      "epoch": 3.4505805235422646,
      "grad_norm": 0.9512338638305664,
      "learning_rate": 2.1880748942344198e-05,
      "loss": 0.2840474843978882,
      "memory(GiB)": 70.5,
      "step": 80540,
      "token_acc": 0.9359756097560976,
      "train_speed(iter/s)": 1.453378
    },
    {
      "epoch": 3.4507947388715134,
      "grad_norm": 2.6140811443328857,
      "learning_rate": 2.1875184512629943e-05,
      "loss": 0.4585977077484131,
      "memory(GiB)": 70.5,
      "step": 80545,
      "token_acc": 0.8982558139534884,
      "train_speed(iter/s)": 1.453385
    },
    {
      "epoch": 3.4510089542007627,
      "grad_norm": 6.132997512817383,
      "learning_rate": 2.18696205924231e-05,
      "loss": 0.41057634353637695,
      "memory(GiB)": 70.5,
      "step": 80550,
      "token_acc": 0.9148936170212766,
      "train_speed(iter/s)": 1.453399
    },
    {
      "epoch": 3.4512231695300115,
      "grad_norm": 1.6368706226348877,
      "learning_rate": 2.186405718182447e-05,
      "loss": 0.46308274269104005,
      "memory(GiB)": 70.5,
      "step": 80555,
      "token_acc": 0.9090909090909091,
      "train_speed(iter/s)": 1.453408
    },
    {
      "epoch": 3.4514373848592603,
      "grad_norm": 0.9493449330329895,
      "learning_rate": 2.1858494280934826e-05,
      "loss": 0.45900940895080566,
      "memory(GiB)": 70.5,
      "step": 80560,
      "token_acc": 0.8980263157894737,
      "train_speed(iter/s)": 1.453411
    },
    {
      "epoch": 3.4516516001885096,
      "grad_norm": 0.9176276326179504,
      "learning_rate": 2.1852931889854966e-05,
      "loss": 0.10013262033462525,
      "memory(GiB)": 70.5,
      "step": 80565,
      "token_acc": 0.9802371541501976,
      "train_speed(iter/s)": 1.453416
    },
    {
      "epoch": 3.4518658155177584,
      "grad_norm": 6.7246994972229,
      "learning_rate": 2.1847370008685657e-05,
      "loss": 0.5073727130889892,
      "memory(GiB)": 70.5,
      "step": 80570,
      "token_acc": 0.9133574007220217,
      "train_speed(iter/s)": 1.453423
    },
    {
      "epoch": 3.452080030847007,
      "grad_norm": 4.034964084625244,
      "learning_rate": 2.1841808637527645e-05,
      "loss": 0.6356029033660888,
      "memory(GiB)": 70.5,
      "step": 80575,
      "token_acc": 0.86,
      "train_speed(iter/s)": 1.453427
    },
    {
      "epoch": 3.4522942461762565,
      "grad_norm": 2.3496925830841064,
      "learning_rate": 2.1836247776481684e-05,
      "loss": 0.22360715866088868,
      "memory(GiB)": 70.5,
      "step": 80580,
      "token_acc": 0.9495548961424333,
      "train_speed(iter/s)": 1.453435
    },
    {
      "epoch": 3.4525084615055053,
      "grad_norm": 0.115418441593647,
      "learning_rate": 2.1830687425648495e-05,
      "loss": 0.2870137691497803,
      "memory(GiB)": 70.5,
      "step": 80585,
      "token_acc": 0.9417808219178082,
      "train_speed(iter/s)": 1.453454
    },
    {
      "epoch": 3.452722676834754,
      "grad_norm": 2.942112922668457,
      "learning_rate": 2.182512758512885e-05,
      "loss": 0.31833348274230955,
      "memory(GiB)": 70.5,
      "step": 80590,
      "token_acc": 0.9326923076923077,
      "train_speed(iter/s)": 1.453452
    },
    {
      "epoch": 3.4529368921640033,
      "grad_norm": 6.060787677764893,
      "learning_rate": 2.181956825502345e-05,
      "loss": 0.48612537384033205,
      "memory(GiB)": 70.5,
      "step": 80595,
      "token_acc": 0.9055944055944056,
      "train_speed(iter/s)": 1.453456
    },
    {
      "epoch": 3.453151107493252,
      "grad_norm": 4.366207122802734,
      "learning_rate": 2.181400943543298e-05,
      "loss": 0.4491166114807129,
      "memory(GiB)": 70.5,
      "step": 80600,
      "token_acc": 0.9117647058823529,
      "train_speed(iter/s)": 1.45346
    },
    {
      "epoch": 3.453365322822501,
      "grad_norm": 4.692354679107666,
      "learning_rate": 2.1808451126458196e-05,
      "loss": 0.5981409072875976,
      "memory(GiB)": 70.5,
      "step": 80605,
      "token_acc": 0.8885542168674698,
      "train_speed(iter/s)": 1.453462
    },
    {
      "epoch": 3.4535795381517502,
      "grad_norm": 3.5910582542419434,
      "learning_rate": 2.1802893328199763e-05,
      "loss": 0.28061695098876954,
      "memory(GiB)": 70.5,
      "step": 80610,
      "token_acc": 0.940959409594096,
      "train_speed(iter/s)": 1.45348
    },
    {
      "epoch": 3.453793753480999,
      "grad_norm": 7.4011759757995605,
      "learning_rate": 2.1797336040758365e-05,
      "loss": 0.43217668533325193,
      "memory(GiB)": 70.5,
      "step": 80615,
      "token_acc": 0.9088050314465409,
      "train_speed(iter/s)": 1.45348
    },
    {
      "epoch": 3.454007968810248,
      "grad_norm": 5.500823020935059,
      "learning_rate": 2.179177926423467e-05,
      "loss": 0.3734651327133179,
      "memory(GiB)": 70.5,
      "step": 80620,
      "token_acc": 0.9223300970873787,
      "train_speed(iter/s)": 1.453486
    },
    {
      "epoch": 3.454222184139497,
      "grad_norm": 4.568827152252197,
      "learning_rate": 2.1786222998729367e-05,
      "loss": 0.5885896205902099,
      "memory(GiB)": 70.5,
      "step": 80625,
      "token_acc": 0.8760806916426513,
      "train_speed(iter/s)": 1.453501
    },
    {
      "epoch": 3.454436399468746,
      "grad_norm": 3.932589292526245,
      "learning_rate": 2.1780667244343106e-05,
      "loss": 0.34556097984313966,
      "memory(GiB)": 70.5,
      "step": 80630,
      "token_acc": 0.9190140845070423,
      "train_speed(iter/s)": 1.453508
    },
    {
      "epoch": 3.4546506147979947,
      "grad_norm": 0.25241318345069885,
      "learning_rate": 2.1775112001176522e-05,
      "loss": 0.3947384595870972,
      "memory(GiB)": 70.5,
      "step": 80635,
      "token_acc": 0.9306569343065694,
      "train_speed(iter/s)": 1.453514
    },
    {
      "epoch": 3.454864830127244,
      "grad_norm": 2.6836631298065186,
      "learning_rate": 2.176955726933027e-05,
      "loss": 0.3049488067626953,
      "memory(GiB)": 70.5,
      "step": 80640,
      "token_acc": 0.9250814332247557,
      "train_speed(iter/s)": 1.453511
    },
    {
      "epoch": 3.455079045456493,
      "grad_norm": 6.592354774475098,
      "learning_rate": 2.1764003048904947e-05,
      "loss": 0.4316534519195557,
      "memory(GiB)": 70.5,
      "step": 80645,
      "token_acc": 0.9020100502512562,
      "train_speed(iter/s)": 1.453514
    },
    {
      "epoch": 3.4552932607857416,
      "grad_norm": 2.384061336517334,
      "learning_rate": 2.1758449340001213e-05,
      "loss": 0.3353961706161499,
      "memory(GiB)": 70.5,
      "step": 80650,
      "token_acc": 0.9245283018867925,
      "train_speed(iter/s)": 1.453511
    },
    {
      "epoch": 3.455507476114991,
      "grad_norm": 5.725975513458252,
      "learning_rate": 2.175289614271967e-05,
      "loss": 0.3668787479400635,
      "memory(GiB)": 70.5,
      "step": 80655,
      "token_acc": 0.9404761904761905,
      "train_speed(iter/s)": 1.453513
    },
    {
      "epoch": 3.4557216914442397,
      "grad_norm": 2.55399751663208,
      "learning_rate": 2.1747343457160902e-05,
      "loss": 0.2175389528274536,
      "memory(GiB)": 70.5,
      "step": 80660,
      "token_acc": 0.956989247311828,
      "train_speed(iter/s)": 1.45353
    },
    {
      "epoch": 3.4559359067734885,
      "grad_norm": 4.223352432250977,
      "learning_rate": 2.1741791283425516e-05,
      "loss": 0.4090309143066406,
      "memory(GiB)": 70.5,
      "step": 80665,
      "token_acc": 0.9046052631578947,
      "train_speed(iter/s)": 1.453541
    },
    {
      "epoch": 3.4561501221027378,
      "grad_norm": 1.1677024364471436,
      "learning_rate": 2.173623962161407e-05,
      "loss": 0.4552435398101807,
      "memory(GiB)": 70.5,
      "step": 80670,
      "token_acc": 0.8985507246376812,
      "train_speed(iter/s)": 1.453546
    },
    {
      "epoch": 3.4563643374319866,
      "grad_norm": 0.3426019847393036,
      "learning_rate": 2.1730688471827176e-05,
      "loss": 0.18311145305633544,
      "memory(GiB)": 70.5,
      "step": 80675,
      "token_acc": 0.9527272727272728,
      "train_speed(iter/s)": 1.453558
    },
    {
      "epoch": 3.4565785527612354,
      "grad_norm": 3.1140971183776855,
      "learning_rate": 2.1725137834165356e-05,
      "loss": 0.2809462547302246,
      "memory(GiB)": 70.5,
      "step": 80680,
      "token_acc": 0.9217081850533808,
      "train_speed(iter/s)": 1.45357
    },
    {
      "epoch": 3.4567927680904846,
      "grad_norm": 1.3502174615859985,
      "learning_rate": 2.171958770872921e-05,
      "loss": 0.5613816261291504,
      "memory(GiB)": 70.5,
      "step": 80685,
      "token_acc": 0.8789808917197452,
      "train_speed(iter/s)": 1.453574
    },
    {
      "epoch": 3.4570069834197334,
      "grad_norm": 1.7909374237060547,
      "learning_rate": 2.171403809561926e-05,
      "loss": 0.6041789531707764,
      "memory(GiB)": 70.5,
      "step": 80690,
      "token_acc": 0.8701754385964913,
      "train_speed(iter/s)": 1.453578
    },
    {
      "epoch": 3.4572211987489823,
      "grad_norm": 3.7126011848449707,
      "learning_rate": 2.1708488994936048e-05,
      "loss": 0.25853097438812256,
      "memory(GiB)": 70.5,
      "step": 80695,
      "token_acc": 0.9217687074829932,
      "train_speed(iter/s)": 1.453601
    },
    {
      "epoch": 3.4574354140782315,
      "grad_norm": 3.6645641326904297,
      "learning_rate": 2.1702940406780097e-05,
      "loss": 0.4041797161102295,
      "memory(GiB)": 70.5,
      "step": 80700,
      "token_acc": 0.9119718309859155,
      "train_speed(iter/s)": 1.453601
    },
    {
      "epoch": 3.4576496294074803,
      "grad_norm": 3.547271251678467,
      "learning_rate": 2.1697392331251904e-05,
      "loss": 0.3007791996002197,
      "memory(GiB)": 70.5,
      "step": 80705,
      "token_acc": 0.934931506849315,
      "train_speed(iter/s)": 1.453607
    },
    {
      "epoch": 3.457863844736729,
      "grad_norm": 4.495199680328369,
      "learning_rate": 2.169184476845202e-05,
      "loss": 0.26369123458862304,
      "memory(GiB)": 70.5,
      "step": 80710,
      "token_acc": 0.9323076923076923,
      "train_speed(iter/s)": 1.45362
    },
    {
      "epoch": 3.4580780600659784,
      "grad_norm": 2.249826669692993,
      "learning_rate": 2.168629771848092e-05,
      "loss": 0.5223316192626953,
      "memory(GiB)": 70.5,
      "step": 80715,
      "token_acc": 0.8974358974358975,
      "train_speed(iter/s)": 1.453636
    },
    {
      "epoch": 3.458292275395227,
      "grad_norm": 4.8733367919921875,
      "learning_rate": 2.1680751181439096e-05,
      "loss": 0.5998940467834473,
      "memory(GiB)": 70.5,
      "step": 80720,
      "token_acc": 0.8666666666666667,
      "train_speed(iter/s)": 1.453636
    },
    {
      "epoch": 3.458506490724476,
      "grad_norm": 1.6934782266616821,
      "learning_rate": 2.1675205157427035e-05,
      "loss": 0.17016186714172363,
      "memory(GiB)": 70.5,
      "step": 80725,
      "token_acc": 0.9614147909967846,
      "train_speed(iter/s)": 1.453644
    },
    {
      "epoch": 3.4587207060537253,
      "grad_norm": 3.668933391571045,
      "learning_rate": 2.1669659646545183e-05,
      "loss": 0.5004278659820557,
      "memory(GiB)": 70.5,
      "step": 80730,
      "token_acc": 0.8753894080996885,
      "train_speed(iter/s)": 1.453658
    },
    {
      "epoch": 3.458934921382974,
      "grad_norm": 2.7239773273468018,
      "learning_rate": 2.166411464889404e-05,
      "loss": 0.1802880048751831,
      "memory(GiB)": 70.5,
      "step": 80735,
      "token_acc": 0.9496644295302014,
      "train_speed(iter/s)": 1.453655
    },
    {
      "epoch": 3.459149136712223,
      "grad_norm": 1.9456429481506348,
      "learning_rate": 2.1658570164574044e-05,
      "loss": 0.16006437540054322,
      "memory(GiB)": 70.5,
      "step": 80740,
      "token_acc": 0.9586206896551724,
      "train_speed(iter/s)": 1.453675
    },
    {
      "epoch": 3.459363352041472,
      "grad_norm": 2.1227986812591553,
      "learning_rate": 2.1653026193685632e-05,
      "loss": 0.23038778305053711,
      "memory(GiB)": 70.5,
      "step": 80745,
      "token_acc": 0.9448529411764706,
      "train_speed(iter/s)": 1.453686
    },
    {
      "epoch": 3.459577567370721,
      "grad_norm": 1.8659569025039673,
      "learning_rate": 2.1647482736329227e-05,
      "loss": 0.3019408702850342,
      "memory(GiB)": 70.5,
      "step": 80750,
      "token_acc": 0.9214876033057852,
      "train_speed(iter/s)": 1.453692
    },
    {
      "epoch": 3.45979178269997,
      "grad_norm": 2.4263482093811035,
      "learning_rate": 2.1641939792605287e-05,
      "loss": 0.28381354808807374,
      "memory(GiB)": 70.5,
      "step": 80755,
      "token_acc": 0.935251798561151,
      "train_speed(iter/s)": 1.453696
    },
    {
      "epoch": 3.460005998029219,
      "grad_norm": 7.534095764160156,
      "learning_rate": 2.163639736261421e-05,
      "loss": 0.3248116493225098,
      "memory(GiB)": 70.5,
      "step": 80760,
      "token_acc": 0.9222222222222223,
      "train_speed(iter/s)": 1.453697
    },
    {
      "epoch": 3.460220213358468,
      "grad_norm": 5.125756740570068,
      "learning_rate": 2.1630855446456382e-05,
      "loss": 0.43561453819274903,
      "memory(GiB)": 70.5,
      "step": 80765,
      "token_acc": 0.9037037037037037,
      "train_speed(iter/s)": 1.453702
    },
    {
      "epoch": 3.4604344286877167,
      "grad_norm": 2.921372652053833,
      "learning_rate": 2.1625314044232236e-05,
      "loss": 0.37186081409454347,
      "memory(GiB)": 70.5,
      "step": 80770,
      "token_acc": 0.9137254901960784,
      "train_speed(iter/s)": 1.453702
    },
    {
      "epoch": 3.460648644016966,
      "grad_norm": 1.8095355033874512,
      "learning_rate": 2.161977315604215e-05,
      "loss": 0.4873004913330078,
      "memory(GiB)": 70.5,
      "step": 80775,
      "token_acc": 0.8941605839416058,
      "train_speed(iter/s)": 1.453716
    },
    {
      "epoch": 3.4608628593462147,
      "grad_norm": 1.961319088935852,
      "learning_rate": 2.1614232781986493e-05,
      "loss": 0.5036880970001221,
      "memory(GiB)": 70.5,
      "step": 80780,
      "token_acc": 0.9139784946236559,
      "train_speed(iter/s)": 1.453721
    },
    {
      "epoch": 3.4610770746754635,
      "grad_norm": 4.536710262298584,
      "learning_rate": 2.1608692922165634e-05,
      "loss": 0.6592637062072754,
      "memory(GiB)": 70.5,
      "step": 80785,
      "token_acc": 0.8427299703264095,
      "train_speed(iter/s)": 1.453722
    },
    {
      "epoch": 3.461291290004713,
      "grad_norm": 1.8273299932479858,
      "learning_rate": 2.1603153576679917e-05,
      "loss": 0.27084147930145264,
      "memory(GiB)": 70.5,
      "step": 80790,
      "token_acc": 0.9367088607594937,
      "train_speed(iter/s)": 1.453724
    },
    {
      "epoch": 3.4615055053339616,
      "grad_norm": 1.0511797666549683,
      "learning_rate": 2.1597614745629734e-05,
      "loss": 0.2507464408874512,
      "memory(GiB)": 70.5,
      "step": 80795,
      "token_acc": 0.9309090909090909,
      "train_speed(iter/s)": 1.453732
    },
    {
      "epoch": 3.4617197206632104,
      "grad_norm": 0.29472965002059937,
      "learning_rate": 2.1592076429115406e-05,
      "loss": 0.17510796785354615,
      "memory(GiB)": 70.5,
      "step": 80800,
      "token_acc": 0.9636871508379888,
      "train_speed(iter/s)": 1.453733
    },
    {
      "epoch": 3.4619339359924597,
      "grad_norm": 1.6357502937316895,
      "learning_rate": 2.1586538627237257e-05,
      "loss": 0.4597630500793457,
      "memory(GiB)": 70.5,
      "step": 80805,
      "token_acc": 0.9074074074074074,
      "train_speed(iter/s)": 1.45374
    },
    {
      "epoch": 3.4621481513217085,
      "grad_norm": 2.057133436203003,
      "learning_rate": 2.158100134009562e-05,
      "loss": 0.3461956262588501,
      "memory(GiB)": 70.5,
      "step": 80810,
      "token_acc": 0.9304347826086956,
      "train_speed(iter/s)": 1.453738
    },
    {
      "epoch": 3.4623623666509573,
      "grad_norm": 2.565314531326294,
      "learning_rate": 2.1575464567790778e-05,
      "loss": 0.6603796482086182,
      "memory(GiB)": 70.5,
      "step": 80815,
      "token_acc": 0.8825301204819277,
      "train_speed(iter/s)": 1.45375
    },
    {
      "epoch": 3.4625765819802066,
      "grad_norm": 1.3514645099639893,
      "learning_rate": 2.1569928310423082e-05,
      "loss": 0.29069950580596926,
      "memory(GiB)": 70.5,
      "step": 80820,
      "token_acc": 0.9446808510638298,
      "train_speed(iter/s)": 1.453756
    },
    {
      "epoch": 3.4627907973094554,
      "grad_norm": 2.773369312286377,
      "learning_rate": 2.1564392568092785e-05,
      "loss": 0.4608603477478027,
      "memory(GiB)": 70.5,
      "step": 80825,
      "token_acc": 0.8847352024922118,
      "train_speed(iter/s)": 1.453764
    },
    {
      "epoch": 3.463005012638704,
      "grad_norm": 4.537888050079346,
      "learning_rate": 2.1558857340900207e-05,
      "loss": 0.34101076126098634,
      "memory(GiB)": 70.5,
      "step": 80830,
      "token_acc": 0.9233333333333333,
      "train_speed(iter/s)": 1.453768
    },
    {
      "epoch": 3.4632192279679535,
      "grad_norm": 3.3066799640655518,
      "learning_rate": 2.1553322628945615e-05,
      "loss": 0.39176321029663086,
      "memory(GiB)": 70.5,
      "step": 80835,
      "token_acc": 0.9243986254295533,
      "train_speed(iter/s)": 1.453777
    },
    {
      "epoch": 3.4634334432972023,
      "grad_norm": 5.504043102264404,
      "learning_rate": 2.1547788432329263e-05,
      "loss": 0.28571605682373047,
      "memory(GiB)": 70.5,
      "step": 80840,
      "token_acc": 0.9355932203389831,
      "train_speed(iter/s)": 1.453781
    },
    {
      "epoch": 3.463647658626451,
      "grad_norm": 6.3899126052856445,
      "learning_rate": 2.1542254751151412e-05,
      "loss": 0.46151556968688967,
      "memory(GiB)": 70.5,
      "step": 80845,
      "token_acc": 0.9206349206349206,
      "train_speed(iter/s)": 1.453785
    },
    {
      "epoch": 3.4638618739557003,
      "grad_norm": 3.417525291442871,
      "learning_rate": 2.1536721585512298e-05,
      "loss": 0.5499919414520263,
      "memory(GiB)": 70.5,
      "step": 80850,
      "token_acc": 0.8953846153846153,
      "train_speed(iter/s)": 1.453798
    },
    {
      "epoch": 3.464076089284949,
      "grad_norm": 1.9535330533981323,
      "learning_rate": 2.153118893551219e-05,
      "loss": 0.13932641744613647,
      "memory(GiB)": 70.5,
      "step": 80855,
      "token_acc": 0.9657320872274143,
      "train_speed(iter/s)": 1.453803
    },
    {
      "epoch": 3.464290304614198,
      "grad_norm": 7.464634895324707,
      "learning_rate": 2.1525656801251304e-05,
      "loss": 0.5645918846130371,
      "memory(GiB)": 70.5,
      "step": 80860,
      "token_acc": 0.8978102189781022,
      "train_speed(iter/s)": 1.453808
    },
    {
      "epoch": 3.464504519943447,
      "grad_norm": 5.171570301055908,
      "learning_rate": 2.1520125182829852e-05,
      "loss": 0.35607175827026366,
      "memory(GiB)": 70.5,
      "step": 80865,
      "token_acc": 0.9178571428571428,
      "train_speed(iter/s)": 1.453819
    },
    {
      "epoch": 3.464718735272696,
      "grad_norm": 2.1700804233551025,
      "learning_rate": 2.151459408034805e-05,
      "loss": 0.40825204849243163,
      "memory(GiB)": 70.5,
      "step": 80870,
      "token_acc": 0.9198717948717948,
      "train_speed(iter/s)": 1.453821
    },
    {
      "epoch": 3.464932950601945,
      "grad_norm": 1.6185543537139893,
      "learning_rate": 2.150906349390608e-05,
      "loss": 0.1627745270729065,
      "memory(GiB)": 70.5,
      "step": 80875,
      "token_acc": 0.9535603715170279,
      "train_speed(iter/s)": 1.453819
    },
    {
      "epoch": 3.465147165931194,
      "grad_norm": 3.8526575565338135,
      "learning_rate": 2.1503533423604167e-05,
      "loss": 0.22167720794677734,
      "memory(GiB)": 70.5,
      "step": 80880,
      "token_acc": 0.9496402877697842,
      "train_speed(iter/s)": 1.45384
    },
    {
      "epoch": 3.465361381260443,
      "grad_norm": 8.273395538330078,
      "learning_rate": 2.1498003869542483e-05,
      "loss": 0.18465831279754638,
      "memory(GiB)": 70.5,
      "step": 80885,
      "token_acc": 0.96875,
      "train_speed(iter/s)": 1.453866
    },
    {
      "epoch": 3.4655755965896917,
      "grad_norm": 2.7676279544830322,
      "learning_rate": 2.149247483182119e-05,
      "loss": 0.2376502513885498,
      "memory(GiB)": 70.5,
      "step": 80890,
      "token_acc": 0.9493243243243243,
      "train_speed(iter/s)": 1.45387
    },
    {
      "epoch": 3.465789811918941,
      "grad_norm": 3.2287204265594482,
      "learning_rate": 2.148694631054046e-05,
      "loss": 0.3325405836105347,
      "memory(GiB)": 70.5,
      "step": 80895,
      "token_acc": 0.9221789883268483,
      "train_speed(iter/s)": 1.45387
    },
    {
      "epoch": 3.46600402724819,
      "grad_norm": 1.3376410007476807,
      "learning_rate": 2.1481418305800425e-05,
      "loss": 0.5002545356750489,
      "memory(GiB)": 70.5,
      "step": 80900,
      "token_acc": 0.8852459016393442,
      "train_speed(iter/s)": 1.453872
    },
    {
      "epoch": 3.4662182425774386,
      "grad_norm": 4.151279449462891,
      "learning_rate": 2.1475890817701272e-05,
      "loss": 0.8327085494995117,
      "memory(GiB)": 70.5,
      "step": 80905,
      "token_acc": 0.8267716535433071,
      "train_speed(iter/s)": 1.453897
    },
    {
      "epoch": 3.466432457906688,
      "grad_norm": 1.775893211364746,
      "learning_rate": 2.1470363846343096e-05,
      "loss": 0.3114492416381836,
      "memory(GiB)": 70.5,
      "step": 80910,
      "token_acc": 0.9260700389105059,
      "train_speed(iter/s)": 1.453905
    },
    {
      "epoch": 3.4666466732359367,
      "grad_norm": 1.9644277095794678,
      "learning_rate": 2.146483739182606e-05,
      "loss": 0.31747725009918215,
      "memory(GiB)": 70.5,
      "step": 80915,
      "token_acc": 0.911864406779661,
      "train_speed(iter/s)": 1.453905
    },
    {
      "epoch": 3.4668608885651855,
      "grad_norm": 1.335756778717041,
      "learning_rate": 2.1459311454250258e-05,
      "loss": 0.34374589920043946,
      "memory(GiB)": 70.5,
      "step": 80920,
      "token_acc": 0.9264705882352942,
      "train_speed(iter/s)": 1.453901
    },
    {
      "epoch": 3.4670751038944347,
      "grad_norm": 4.107268333435059,
      "learning_rate": 2.1453786033715807e-05,
      "loss": 0.37493581771850587,
      "memory(GiB)": 70.5,
      "step": 80925,
      "token_acc": 0.922509225092251,
      "train_speed(iter/s)": 1.453917
    },
    {
      "epoch": 3.4672893192236836,
      "grad_norm": 2.678293228149414,
      "learning_rate": 2.14482611303228e-05,
      "loss": 0.5426869869232178,
      "memory(GiB)": 70.5,
      "step": 80930,
      "token_acc": 0.8945454545454545,
      "train_speed(iter/s)": 1.453917
    },
    {
      "epoch": 3.4675035345529324,
      "grad_norm": 5.260917663574219,
      "learning_rate": 2.1442736744171305e-05,
      "loss": 0.49528846740722654,
      "memory(GiB)": 70.5,
      "step": 80935,
      "token_acc": 0.9261992619926199,
      "train_speed(iter/s)": 1.453922
    },
    {
      "epoch": 3.4677177498821816,
      "grad_norm": 4.2814459800720215,
      "learning_rate": 2.1437212875361444e-05,
      "loss": 0.4579918384552002,
      "memory(GiB)": 70.5,
      "step": 80940,
      "token_acc": 0.9179331306990881,
      "train_speed(iter/s)": 1.453929
    },
    {
      "epoch": 3.4679319652114304,
      "grad_norm": 3.9924564361572266,
      "learning_rate": 2.1431689523993263e-05,
      "loss": 0.23610024452209472,
      "memory(GiB)": 70.5,
      "step": 80945,
      "token_acc": 0.9516129032258065,
      "train_speed(iter/s)": 1.453935
    },
    {
      "epoch": 3.4681461805406792,
      "grad_norm": 1.6449795961380005,
      "learning_rate": 2.142616669016683e-05,
      "loss": 0.38866453170776366,
      "memory(GiB)": 70.5,
      "step": 80950,
      "token_acc": 0.9127906976744186,
      "train_speed(iter/s)": 1.45394
    },
    {
      "epoch": 3.4683603958699285,
      "grad_norm": 5.52529764175415,
      "learning_rate": 2.142064437398219e-05,
      "loss": 0.31546754837036134,
      "memory(GiB)": 70.5,
      "step": 80955,
      "token_acc": 0.9365671641791045,
      "train_speed(iter/s)": 1.453958
    },
    {
      "epoch": 3.4685746111991773,
      "grad_norm": 4.8324480056762695,
      "learning_rate": 2.141512257553937e-05,
      "loss": 0.2835926294326782,
      "memory(GiB)": 70.5,
      "step": 80960,
      "token_acc": 0.9292035398230089,
      "train_speed(iter/s)": 1.453966
    },
    {
      "epoch": 3.468788826528426,
      "grad_norm": 3.8626418113708496,
      "learning_rate": 2.1409601294938436e-05,
      "loss": 0.37064156532287595,
      "memory(GiB)": 70.5,
      "step": 80965,
      "token_acc": 0.9064516129032258,
      "train_speed(iter/s)": 1.453968
    },
    {
      "epoch": 3.4690030418576754,
      "grad_norm": 3.9215714931488037,
      "learning_rate": 2.1404080532279376e-05,
      "loss": 0.5761750698089599,
      "memory(GiB)": 70.5,
      "step": 80970,
      "token_acc": 0.8613138686131386,
      "train_speed(iter/s)": 1.453976
    },
    {
      "epoch": 3.469217257186924,
      "grad_norm": 1.2037063837051392,
      "learning_rate": 2.139856028766224e-05,
      "loss": 0.11285953521728516,
      "memory(GiB)": 70.5,
      "step": 80975,
      "token_acc": 0.9806949806949807,
      "train_speed(iter/s)": 1.453978
    },
    {
      "epoch": 3.469431472516173,
      "grad_norm": 4.493349552154541,
      "learning_rate": 2.139304056118701e-05,
      "loss": 0.5560451030731202,
      "memory(GiB)": 70.5,
      "step": 80980,
      "token_acc": 0.888135593220339,
      "train_speed(iter/s)": 1.453992
    },
    {
      "epoch": 3.4696456878454223,
      "grad_norm": 0.9983137845993042,
      "learning_rate": 2.1387521352953695e-05,
      "loss": 0.24523017406463624,
      "memory(GiB)": 70.5,
      "step": 80985,
      "token_acc": 0.9501779359430605,
      "train_speed(iter/s)": 1.454002
    },
    {
      "epoch": 3.469859903174671,
      "grad_norm": 3.3983418941497803,
      "learning_rate": 2.138200266306227e-05,
      "loss": 0.35065150260925293,
      "memory(GiB)": 70.5,
      "step": 80990,
      "token_acc": 0.9567099567099567,
      "train_speed(iter/s)": 1.454006
    },
    {
      "epoch": 3.47007411850392,
      "grad_norm": 2.3701138496398926,
      "learning_rate": 2.1376484491612685e-05,
      "loss": 0.3071516275405884,
      "memory(GiB)": 70.5,
      "step": 80995,
      "token_acc": 0.9446254071661238,
      "train_speed(iter/s)": 1.45401
    },
    {
      "epoch": 3.470288333833169,
      "grad_norm": 3.835613250732422,
      "learning_rate": 2.1370966838704963e-05,
      "loss": 0.25717217922210694,
      "memory(GiB)": 70.5,
      "step": 81000,
      "token_acc": 0.935374149659864,
      "train_speed(iter/s)": 1.454009
    },
    {
      "epoch": 3.470288333833169,
      "eval_loss": 2.4831223487854004,
      "eval_runtime": 11.7139,
      "eval_samples_per_second": 8.537,
      "eval_steps_per_second": 8.537,
      "eval_token_acc": 0.4863013698630137,
      "step": 81000
    },
    {
      "epoch": 3.470502549162418,
      "grad_norm": 5.53778600692749,
      "learning_rate": 2.1365449704439028e-05,
      "loss": 0.31853384971618653,
      "memory(GiB)": 70.5,
      "step": 81005,
      "token_acc": 0.6200578592092575,
      "train_speed(iter/s)": 1.453672
    },
    {
      "epoch": 3.470716764491667,
      "grad_norm": 5.190446376800537,
      "learning_rate": 2.1359933088914836e-05,
      "loss": 0.2967466592788696,
      "memory(GiB)": 70.5,
      "step": 81010,
      "token_acc": 0.9377162629757786,
      "train_speed(iter/s)": 1.453676
    },
    {
      "epoch": 3.470930979820916,
      "grad_norm": 3.859654188156128,
      "learning_rate": 2.1354416992232318e-05,
      "loss": 0.3033421993255615,
      "memory(GiB)": 70.5,
      "step": 81015,
      "token_acc": 0.9370629370629371,
      "train_speed(iter/s)": 1.453681
    },
    {
      "epoch": 3.471145195150165,
      "grad_norm": 1.6542445421218872,
      "learning_rate": 2.1348901414491396e-05,
      "loss": 0.3388563871383667,
      "memory(GiB)": 70.5,
      "step": 81020,
      "token_acc": 0.9218106995884774,
      "train_speed(iter/s)": 1.453695
    },
    {
      "epoch": 3.471359410479414,
      "grad_norm": 3.2318334579467773,
      "learning_rate": 2.1343386355792017e-05,
      "loss": 0.32026913166046145,
      "memory(GiB)": 70.5,
      "step": 81025,
      "token_acc": 0.9287925696594427,
      "train_speed(iter/s)": 1.453695
    },
    {
      "epoch": 3.471573625808663,
      "grad_norm": 0.7787281274795532,
      "learning_rate": 2.1337871816234072e-05,
      "loss": 0.15349316596984863,
      "memory(GiB)": 70.5,
      "step": 81030,
      "token_acc": 0.9750889679715302,
      "train_speed(iter/s)": 1.453696
    },
    {
      "epoch": 3.4717878411379117,
      "grad_norm": 3.114506244659424,
      "learning_rate": 2.1332357795917475e-05,
      "loss": 0.28525662422180176,
      "memory(GiB)": 70.5,
      "step": 81035,
      "token_acc": 0.9271255060728745,
      "train_speed(iter/s)": 1.4537
    },
    {
      "epoch": 3.472002056467161,
      "grad_norm": 3.9250550270080566,
      "learning_rate": 2.13268442949421e-05,
      "loss": 0.4411940097808838,
      "memory(GiB)": 70.5,
      "step": 81040,
      "token_acc": 0.9017543859649123,
      "train_speed(iter/s)": 1.453706
    },
    {
      "epoch": 3.47221627179641,
      "grad_norm": 7.268063068389893,
      "learning_rate": 2.132133131340782e-05,
      "loss": 0.5594324588775634,
      "memory(GiB)": 70.5,
      "step": 81045,
      "token_acc": 0.8784722222222222,
      "train_speed(iter/s)": 1.453713
    },
    {
      "epoch": 3.4724304871256586,
      "grad_norm": 3.2087178230285645,
      "learning_rate": 2.1315818851414553e-05,
      "loss": 0.5189381599426269,
      "memory(GiB)": 70.5,
      "step": 81050,
      "token_acc": 0.8881118881118881,
      "train_speed(iter/s)": 1.45373
    },
    {
      "epoch": 3.472644702454908,
      "grad_norm": 4.606488227844238,
      "learning_rate": 2.131030690906211e-05,
      "loss": 0.3513856649398804,
      "memory(GiB)": 70.5,
      "step": 81055,
      "token_acc": 0.9022082018927445,
      "train_speed(iter/s)": 1.453741
    },
    {
      "epoch": 3.4728589177841567,
      "grad_norm": 2.116501808166504,
      "learning_rate": 2.1304795486450398e-05,
      "loss": 0.46817879676818847,
      "memory(GiB)": 70.5,
      "step": 81060,
      "token_acc": 0.9003215434083601,
      "train_speed(iter/s)": 1.453745
    },
    {
      "epoch": 3.4730731331134055,
      "grad_norm": 5.836980819702148,
      "learning_rate": 2.1299284583679224e-05,
      "loss": 0.6184920310974121,
      "memory(GiB)": 70.5,
      "step": 81065,
      "token_acc": 0.8661202185792349,
      "train_speed(iter/s)": 1.453759
    },
    {
      "epoch": 3.4732873484426547,
      "grad_norm": 2.9514963626861572,
      "learning_rate": 2.1293774200848437e-05,
      "loss": 0.44359679222106935,
      "memory(GiB)": 70.5,
      "step": 81070,
      "token_acc": 0.8950819672131147,
      "train_speed(iter/s)": 1.45376
    },
    {
      "epoch": 3.4735015637719036,
      "grad_norm": 3.8578906059265137,
      "learning_rate": 2.1288264338057855e-05,
      "loss": 0.3494542598724365,
      "memory(GiB)": 70.5,
      "step": 81075,
      "token_acc": 0.9186991869918699,
      "train_speed(iter/s)": 1.453772
    },
    {
      "epoch": 3.4737157791011524,
      "grad_norm": 1.9940303564071655,
      "learning_rate": 2.1282754995407285e-05,
      "loss": 0.347849440574646,
      "memory(GiB)": 70.5,
      "step": 81080,
      "token_acc": 0.9156118143459916,
      "train_speed(iter/s)": 1.453778
    },
    {
      "epoch": 3.4739299944304016,
      "grad_norm": 5.591125965118408,
      "learning_rate": 2.1277246172996562e-05,
      "loss": 0.4578393459320068,
      "memory(GiB)": 70.5,
      "step": 81085,
      "token_acc": 0.9009287925696594,
      "train_speed(iter/s)": 1.453792
    },
    {
      "epoch": 3.4741442097596504,
      "grad_norm": 5.541318893432617,
      "learning_rate": 2.1271737870925473e-05,
      "loss": 0.5238632202148438,
      "memory(GiB)": 70.5,
      "step": 81090,
      "token_acc": 0.8696969696969697,
      "train_speed(iter/s)": 1.453814
    },
    {
      "epoch": 3.4743584250888992,
      "grad_norm": 3.104017734527588,
      "learning_rate": 2.12662300892938e-05,
      "loss": 0.55813570022583,
      "memory(GiB)": 70.5,
      "step": 81095,
      "token_acc": 0.8862876254180602,
      "train_speed(iter/s)": 1.453817
    },
    {
      "epoch": 3.4745726404181485,
      "grad_norm": 5.101730823516846,
      "learning_rate": 2.1260722828201323e-05,
      "loss": 0.4531412124633789,
      "memory(GiB)": 70.5,
      "step": 81100,
      "token_acc": 0.9094827586206896,
      "train_speed(iter/s)": 1.453817
    },
    {
      "epoch": 3.4747868557473973,
      "grad_norm": 1.830749750137329,
      "learning_rate": 2.1255216087747792e-05,
      "loss": 0.10131175518035888,
      "memory(GiB)": 70.5,
      "step": 81105,
      "token_acc": 0.9678362573099415,
      "train_speed(iter/s)": 1.453815
    },
    {
      "epoch": 3.475001071076646,
      "grad_norm": 3.3344974517822266,
      "learning_rate": 2.1249709868033007e-05,
      "loss": 0.3339547634124756,
      "memory(GiB)": 70.5,
      "step": 81110,
      "token_acc": 0.917981072555205,
      "train_speed(iter/s)": 1.453818
    },
    {
      "epoch": 3.4752152864058954,
      "grad_norm": 0.5239583253860474,
      "learning_rate": 2.1244204169156694e-05,
      "loss": 0.5347932338714599,
      "memory(GiB)": 70.5,
      "step": 81115,
      "token_acc": 0.8934707903780069,
      "train_speed(iter/s)": 1.453824
    },
    {
      "epoch": 3.475429501735144,
      "grad_norm": 6.5349626541137695,
      "learning_rate": 2.123869899121858e-05,
      "loss": 0.2270221710205078,
      "memory(GiB)": 70.5,
      "step": 81120,
      "token_acc": 0.9392857142857143,
      "train_speed(iter/s)": 1.453826
    },
    {
      "epoch": 3.475643717064393,
      "grad_norm": 3.499279499053955,
      "learning_rate": 2.1233194334318435e-05,
      "loss": 0.44556636810302735,
      "memory(GiB)": 70.5,
      "step": 81125,
      "token_acc": 0.9196141479099679,
      "train_speed(iter/s)": 1.453827
    },
    {
      "epoch": 3.4758579323936423,
      "grad_norm": 2.7478461265563965,
      "learning_rate": 2.122769019855596e-05,
      "loss": 0.5206759452819825,
      "memory(GiB)": 70.5,
      "step": 81130,
      "token_acc": 0.9036144578313253,
      "train_speed(iter/s)": 1.453832
    },
    {
      "epoch": 3.476072147722891,
      "grad_norm": 2.3472537994384766,
      "learning_rate": 2.1222186584030867e-05,
      "loss": 0.20355396270751952,
      "memory(GiB)": 70.5,
      "step": 81135,
      "token_acc": 0.9609375,
      "train_speed(iter/s)": 1.453831
    },
    {
      "epoch": 3.47628636305214,
      "grad_norm": 1.0713778734207153,
      "learning_rate": 2.1216683490842843e-05,
      "loss": 0.41494183540344237,
      "memory(GiB)": 70.5,
      "step": 81140,
      "token_acc": 0.9120234604105572,
      "train_speed(iter/s)": 1.453837
    },
    {
      "epoch": 3.476500578381389,
      "grad_norm": 4.83389139175415,
      "learning_rate": 2.1211180919091615e-05,
      "loss": 0.34470138549804685,
      "memory(GiB)": 70.5,
      "step": 81145,
      "token_acc": 0.9080459770114943,
      "train_speed(iter/s)": 1.45384
    },
    {
      "epoch": 3.476714793710638,
      "grad_norm": 1.0492347478866577,
      "learning_rate": 2.120567886887685e-05,
      "loss": 0.29687180519104006,
      "memory(GiB)": 70.5,
      "step": 81150,
      "token_acc": 0.950354609929078,
      "train_speed(iter/s)": 1.453842
    },
    {
      "epoch": 3.4769290090398868,
      "grad_norm": 2.8925788402557373,
      "learning_rate": 2.1200177340298222e-05,
      "loss": 0.3381908893585205,
      "memory(GiB)": 70.5,
      "step": 81155,
      "token_acc": 0.9372549019607843,
      "train_speed(iter/s)": 1.45385
    },
    {
      "epoch": 3.477143224369136,
      "grad_norm": 2.296764850616455,
      "learning_rate": 2.1194676333455404e-05,
      "loss": 0.24847793579101562,
      "memory(GiB)": 70.5,
      "step": 81160,
      "token_acc": 0.9630996309963099,
      "train_speed(iter/s)": 1.453855
    },
    {
      "epoch": 3.477357439698385,
      "grad_norm": 3.3911404609680176,
      "learning_rate": 2.1189175848448023e-05,
      "loss": 0.226577091217041,
      "memory(GiB)": 70.5,
      "step": 81165,
      "token_acc": 0.9466192170818505,
      "train_speed(iter/s)": 1.453851
    },
    {
      "epoch": 3.4775716550276337,
      "grad_norm": 5.955121994018555,
      "learning_rate": 2.1183675885375764e-05,
      "loss": 0.5482751846313476,
      "memory(GiB)": 70.5,
      "step": 81170,
      "token_acc": 0.9127272727272727,
      "train_speed(iter/s)": 1.45386
    },
    {
      "epoch": 3.477785870356883,
      "grad_norm": 2.2076492309570312,
      "learning_rate": 2.1178176444338255e-05,
      "loss": 0.41240906715393066,
      "memory(GiB)": 70.5,
      "step": 81175,
      "token_acc": 0.9067055393586005,
      "train_speed(iter/s)": 1.453866
    },
    {
      "epoch": 3.4780000856861317,
      "grad_norm": 5.904462814331055,
      "learning_rate": 2.1172677525435115e-05,
      "loss": 0.2816878318786621,
      "memory(GiB)": 70.5,
      "step": 81180,
      "token_acc": 0.933933933933934,
      "train_speed(iter/s)": 1.453871
    },
    {
      "epoch": 3.4782143010153805,
      "grad_norm": 1.8302979469299316,
      "learning_rate": 2.1167179128765958e-05,
      "loss": 0.4102791309356689,
      "memory(GiB)": 70.5,
      "step": 81185,
      "token_acc": 0.9121621621621622,
      "train_speed(iter/s)": 1.453888
    },
    {
      "epoch": 3.47842851634463,
      "grad_norm": 5.340857982635498,
      "learning_rate": 2.1161681254430387e-05,
      "loss": 0.3004926681518555,
      "memory(GiB)": 70.5,
      "step": 81190,
      "token_acc": 0.9415807560137457,
      "train_speed(iter/s)": 1.453891
    },
    {
      "epoch": 3.4786427316738786,
      "grad_norm": 1.7267982959747314,
      "learning_rate": 2.1156183902528024e-05,
      "loss": 0.16555048227310182,
      "memory(GiB)": 70.5,
      "step": 81195,
      "token_acc": 0.9561752988047809,
      "train_speed(iter/s)": 1.453901
    },
    {
      "epoch": 3.4788569470031274,
      "grad_norm": 2.9400787353515625,
      "learning_rate": 2.1150687073158437e-05,
      "loss": 0.2953826427459717,
      "memory(GiB)": 70.5,
      "step": 81200,
      "token_acc": 0.9331210191082803,
      "train_speed(iter/s)": 1.453916
    },
    {
      "epoch": 3.4790711623323767,
      "grad_norm": 0.2162265181541443,
      "learning_rate": 2.114519076642123e-05,
      "loss": 0.5257091045379638,
      "memory(GiB)": 70.5,
      "step": 81205,
      "token_acc": 0.8947368421052632,
      "train_speed(iter/s)": 1.453926
    },
    {
      "epoch": 3.4792853776616255,
      "grad_norm": 5.7889862060546875,
      "learning_rate": 2.1139694982415965e-05,
      "loss": 0.4471411228179932,
      "memory(GiB)": 70.5,
      "step": 81210,
      "token_acc": 0.8932038834951457,
      "train_speed(iter/s)": 1.453928
    },
    {
      "epoch": 3.4794995929908743,
      "grad_norm": 3.475250482559204,
      "learning_rate": 2.1134199721242194e-05,
      "loss": 0.355495810508728,
      "memory(GiB)": 70.5,
      "step": 81215,
      "token_acc": 0.933579335793358,
      "train_speed(iter/s)": 1.453929
    },
    {
      "epoch": 3.4797138083201236,
      "grad_norm": 1.4599528312683105,
      "learning_rate": 2.112870498299947e-05,
      "loss": 0.3235763072967529,
      "memory(GiB)": 70.5,
      "step": 81220,
      "token_acc": 0.9359756097560976,
      "train_speed(iter/s)": 1.453933
    },
    {
      "epoch": 3.4799280236493724,
      "grad_norm": 3.494663715362549,
      "learning_rate": 2.112321076778733e-05,
      "loss": 0.44307880401611327,
      "memory(GiB)": 70.5,
      "step": 81225,
      "token_acc": 0.9084507042253521,
      "train_speed(iter/s)": 1.453956
    },
    {
      "epoch": 3.480142238978621,
      "grad_norm": 5.115729808807373,
      "learning_rate": 2.1117717075705324e-05,
      "loss": 0.20812859535217285,
      "memory(GiB)": 70.5,
      "step": 81230,
      "token_acc": 0.9615384615384616,
      "train_speed(iter/s)": 1.453964
    },
    {
      "epoch": 3.4803564543078704,
      "grad_norm": 4.420717239379883,
      "learning_rate": 2.1112223906852973e-05,
      "loss": 0.36073110103607176,
      "memory(GiB)": 70.5,
      "step": 81235,
      "token_acc": 0.9316239316239316,
      "train_speed(iter/s)": 1.45397
    },
    {
      "epoch": 3.4805706696371193,
      "grad_norm": 2.7155182361602783,
      "learning_rate": 2.1106731261329783e-05,
      "loss": 0.24417662620544434,
      "memory(GiB)": 70.5,
      "step": 81240,
      "token_acc": 0.9625468164794008,
      "train_speed(iter/s)": 1.453977
    },
    {
      "epoch": 3.480784884966368,
      "grad_norm": 4.406661033630371,
      "learning_rate": 2.1101239139235263e-05,
      "loss": 0.4428106307983398,
      "memory(GiB)": 70.5,
      "step": 81245,
      "token_acc": 0.9045801526717557,
      "train_speed(iter/s)": 1.453973
    },
    {
      "epoch": 3.4809991002956173,
      "grad_norm": 3.352377414703369,
      "learning_rate": 2.109574754066888e-05,
      "loss": 0.5660656929016114,
      "memory(GiB)": 70.5,
      "step": 81250,
      "token_acc": 0.8794788273615635,
      "train_speed(iter/s)": 1.453978
    },
    {
      "epoch": 3.481213315624866,
      "grad_norm": 0.22840501368045807,
      "learning_rate": 2.109025646573017e-05,
      "loss": 0.2955115079879761,
      "memory(GiB)": 70.5,
      "step": 81255,
      "token_acc": 0.9381443298969072,
      "train_speed(iter/s)": 1.453987
    },
    {
      "epoch": 3.481427530954115,
      "grad_norm": 4.173431873321533,
      "learning_rate": 2.108476591451858e-05,
      "loss": 0.2445124864578247,
      "memory(GiB)": 70.5,
      "step": 81260,
      "token_acc": 0.9531772575250836,
      "train_speed(iter/s)": 1.453987
    },
    {
      "epoch": 3.481641746283364,
      "grad_norm": 2.138188362121582,
      "learning_rate": 2.1079275887133565e-05,
      "loss": 0.290667986869812,
      "memory(GiB)": 70.5,
      "step": 81265,
      "token_acc": 0.9281437125748503,
      "train_speed(iter/s)": 1.453991
    },
    {
      "epoch": 3.481855961612613,
      "grad_norm": 1.639840841293335,
      "learning_rate": 2.107378638367461e-05,
      "loss": 0.3683326244354248,
      "memory(GiB)": 73.83,
      "step": 81270,
      "token_acc": 0.9295774647887324,
      "train_speed(iter/s)": 1.453985
    },
    {
      "epoch": 3.482070176941862,
      "grad_norm": 3.351896286010742,
      "learning_rate": 2.1068297404241156e-05,
      "loss": 0.3359540462493896,
      "memory(GiB)": 73.83,
      "step": 81275,
      "token_acc": 0.9387096774193548,
      "train_speed(iter/s)": 1.453987
    },
    {
      "epoch": 3.482284392271111,
      "grad_norm": 2.543724536895752,
      "learning_rate": 2.1062808948932633e-05,
      "loss": 0.554437255859375,
      "memory(GiB)": 73.83,
      "step": 81280,
      "token_acc": 0.884514435695538,
      "train_speed(iter/s)": 1.453996
    },
    {
      "epoch": 3.48249860760036,
      "grad_norm": 7.193424224853516,
      "learning_rate": 2.105732101784845e-05,
      "loss": 0.5075149536132812,
      "memory(GiB)": 73.83,
      "step": 81285,
      "token_acc": 0.875,
      "train_speed(iter/s)": 1.453998
    },
    {
      "epoch": 3.4827128229296087,
      "grad_norm": 0.8996047973632812,
      "learning_rate": 2.105183361108807e-05,
      "loss": 0.30447514057159425,
      "memory(GiB)": 73.83,
      "step": 81290,
      "token_acc": 0.9493670886075949,
      "train_speed(iter/s)": 1.453997
    },
    {
      "epoch": 3.482927038258858,
      "grad_norm": 1.9967526197433472,
      "learning_rate": 2.1046346728750872e-05,
      "loss": 0.4100306034088135,
      "memory(GiB)": 73.83,
      "step": 81295,
      "token_acc": 0.9269102990033222,
      "train_speed(iter/s)": 1.454004
    },
    {
      "epoch": 3.483141253588107,
      "grad_norm": 6.192001819610596,
      "learning_rate": 2.104086037093627e-05,
      "loss": 0.42238407135009765,
      "memory(GiB)": 73.83,
      "step": 81300,
      "token_acc": 0.909967845659164,
      "train_speed(iter/s)": 1.454017
    },
    {
      "epoch": 3.4833554689173556,
      "grad_norm": 2.7722439765930176,
      "learning_rate": 2.1035374537743645e-05,
      "loss": 0.47970876693725584,
      "memory(GiB)": 73.83,
      "step": 81305,
      "token_acc": 0.9026217228464419,
      "train_speed(iter/s)": 1.45403
    },
    {
      "epoch": 3.483569684246605,
      "grad_norm": 2.9687280654907227,
      "learning_rate": 2.1029889229272364e-05,
      "loss": 0.17924811840057372,
      "memory(GiB)": 73.83,
      "step": 81310,
      "token_acc": 0.9530685920577617,
      "train_speed(iter/s)": 1.454034
    },
    {
      "epoch": 3.4837838995758537,
      "grad_norm": 3.3324544429779053,
      "learning_rate": 2.1024404445621837e-05,
      "loss": 0.4005227565765381,
      "memory(GiB)": 73.83,
      "step": 81315,
      "token_acc": 0.9101123595505618,
      "train_speed(iter/s)": 1.454043
    },
    {
      "epoch": 3.4839981149051025,
      "grad_norm": 2.951585054397583,
      "learning_rate": 2.1018920186891407e-05,
      "loss": 0.3267778158187866,
      "memory(GiB)": 73.83,
      "step": 81320,
      "token_acc": 0.9205776173285198,
      "train_speed(iter/s)": 1.454057
    },
    {
      "epoch": 3.4842123302343517,
      "grad_norm": 3.4580771923065186,
      "learning_rate": 2.1013436453180417e-05,
      "loss": 0.22062366008758544,
      "memory(GiB)": 73.83,
      "step": 81325,
      "token_acc": 0.9484848484848485,
      "train_speed(iter/s)": 1.45407
    },
    {
      "epoch": 3.4844265455636005,
      "grad_norm": 0.526546061038971,
      "learning_rate": 2.1007953244588218e-05,
      "loss": 0.08401111364364625,
      "memory(GiB)": 73.83,
      "step": 81330,
      "token_acc": 0.975975975975976,
      "train_speed(iter/s)": 1.454072
    },
    {
      "epoch": 3.4846407608928494,
      "grad_norm": 8.579249382019043,
      "learning_rate": 2.1002470561214126e-05,
      "loss": 0.32668142318725585,
      "memory(GiB)": 73.83,
      "step": 81335,
      "token_acc": 0.9240924092409241,
      "train_speed(iter/s)": 1.454071
    },
    {
      "epoch": 3.4848549762220986,
      "grad_norm": 2.8653552532196045,
      "learning_rate": 2.09969884031575e-05,
      "loss": 0.5591494560241699,
      "memory(GiB)": 73.83,
      "step": 81340,
      "token_acc": 0.8855218855218855,
      "train_speed(iter/s)": 1.454083
    },
    {
      "epoch": 3.4850691915513474,
      "grad_norm": 0.13778500258922577,
      "learning_rate": 2.0991506770517622e-05,
      "loss": 0.25391278266906736,
      "memory(GiB)": 73.83,
      "step": 81345,
      "token_acc": 0.947945205479452,
      "train_speed(iter/s)": 1.454095
    },
    {
      "epoch": 3.4852834068805962,
      "grad_norm": 3.3516197204589844,
      "learning_rate": 2.0986025663393823e-05,
      "loss": 0.2920116662979126,
      "memory(GiB)": 73.83,
      "step": 81350,
      "token_acc": 0.9393939393939394,
      "train_speed(iter/s)": 1.454096
    },
    {
      "epoch": 3.4854976222098455,
      "grad_norm": 2.2969586849212646,
      "learning_rate": 2.098054508188539e-05,
      "loss": 0.26838092803955077,
      "memory(GiB)": 73.83,
      "step": 81355,
      "token_acc": 0.9453924914675768,
      "train_speed(iter/s)": 1.454098
    },
    {
      "epoch": 3.4857118375390943,
      "grad_norm": 2.619990110397339,
      "learning_rate": 2.0975065026091606e-05,
      "loss": 0.30835537910461425,
      "memory(GiB)": 73.83,
      "step": 81360,
      "token_acc": 0.926829268292683,
      "train_speed(iter/s)": 1.454107
    },
    {
      "epoch": 3.485926052868343,
      "grad_norm": 5.119794845581055,
      "learning_rate": 2.0969585496111743e-05,
      "loss": 0.5656827926635742,
      "memory(GiB)": 73.83,
      "step": 81365,
      "token_acc": 0.8766666666666667,
      "train_speed(iter/s)": 1.454113
    },
    {
      "epoch": 3.4861402681975924,
      "grad_norm": 3.841442346572876,
      "learning_rate": 2.0964106492045055e-05,
      "loss": 0.2703425168991089,
      "memory(GiB)": 73.83,
      "step": 81370,
      "token_acc": 0.946969696969697,
      "train_speed(iter/s)": 1.454126
    },
    {
      "epoch": 3.486354483526841,
      "grad_norm": 5.267829418182373,
      "learning_rate": 2.0958628013990832e-05,
      "loss": 0.34229331016540526,
      "memory(GiB)": 73.83,
      "step": 81375,
      "token_acc": 0.9235127478753541,
      "train_speed(iter/s)": 1.454125
    },
    {
      "epoch": 3.48656869885609,
      "grad_norm": 2.1666481494903564,
      "learning_rate": 2.095315006204831e-05,
      "loss": 0.6334119319915772,
      "memory(GiB)": 73.83,
      "step": 81380,
      "token_acc": 0.8827586206896552,
      "train_speed(iter/s)": 1.454141
    },
    {
      "epoch": 3.4867829141853393,
      "grad_norm": 1.9954233169555664,
      "learning_rate": 2.0947672636316723e-05,
      "loss": 0.1607840895652771,
      "memory(GiB)": 73.83,
      "step": 81385,
      "token_acc": 0.9625468164794008,
      "train_speed(iter/s)": 1.454143
    },
    {
      "epoch": 3.486997129514588,
      "grad_norm": 5.530221939086914,
      "learning_rate": 2.0942195736895293e-05,
      "loss": 0.21646676063537598,
      "memory(GiB)": 73.83,
      "step": 81390,
      "token_acc": 0.9704918032786886,
      "train_speed(iter/s)": 1.454139
    },
    {
      "epoch": 3.487211344843837,
      "grad_norm": 2.327008008956909,
      "learning_rate": 2.0936719363883234e-05,
      "loss": 0.24822566509246827,
      "memory(GiB)": 73.83,
      "step": 81395,
      "token_acc": 0.9338842975206612,
      "train_speed(iter/s)": 1.45414
    },
    {
      "epoch": 3.487425560173086,
      "grad_norm": 4.287769794464111,
      "learning_rate": 2.0931243517379784e-05,
      "loss": 0.222160005569458,
      "memory(GiB)": 73.83,
      "step": 81400,
      "token_acc": 0.9452554744525548,
      "train_speed(iter/s)": 1.454143
    },
    {
      "epoch": 3.487639775502335,
      "grad_norm": 3.5168135166168213,
      "learning_rate": 2.0925768197484124e-05,
      "loss": 0.48912601470947265,
      "memory(GiB)": 73.83,
      "step": 81405,
      "token_acc": 0.903954802259887,
      "train_speed(iter/s)": 1.454143
    },
    {
      "epoch": 3.4878539908315838,
      "grad_norm": 3.3779821395874023,
      "learning_rate": 2.092029340429545e-05,
      "loss": 0.3721599102020264,
      "memory(GiB)": 73.83,
      "step": 81410,
      "token_acc": 0.9357142857142857,
      "train_speed(iter/s)": 1.454142
    },
    {
      "epoch": 3.488068206160833,
      "grad_norm": 2.246291399002075,
      "learning_rate": 2.0914819137912916e-05,
      "loss": 0.273052978515625,
      "memory(GiB)": 73.83,
      "step": 81415,
      "token_acc": 0.9246987951807228,
      "train_speed(iter/s)": 1.454145
    },
    {
      "epoch": 3.488282421490082,
      "grad_norm": 6.340610980987549,
      "learning_rate": 2.0909345398435743e-05,
      "loss": 0.6555489063262939,
      "memory(GiB)": 73.83,
      "step": 81420,
      "token_acc": 0.8585209003215434,
      "train_speed(iter/s)": 1.454144
    },
    {
      "epoch": 3.4884966368193306,
      "grad_norm": 5.439996719360352,
      "learning_rate": 2.0903872185963063e-05,
      "loss": 0.22186524868011476,
      "memory(GiB)": 73.83,
      "step": 81425,
      "token_acc": 0.9566666666666667,
      "train_speed(iter/s)": 1.454141
    },
    {
      "epoch": 3.48871085214858,
      "grad_norm": 3.1997392177581787,
      "learning_rate": 2.0898399500594012e-05,
      "loss": 0.2734357833862305,
      "memory(GiB)": 73.83,
      "step": 81430,
      "token_acc": 0.9253246753246753,
      "train_speed(iter/s)": 1.454145
    },
    {
      "epoch": 3.4889250674778287,
      "grad_norm": 0.9897499680519104,
      "learning_rate": 2.0892927342427775e-05,
      "loss": 0.3347002029418945,
      "memory(GiB)": 73.83,
      "step": 81435,
      "token_acc": 0.9019607843137255,
      "train_speed(iter/s)": 1.454144
    },
    {
      "epoch": 3.4891392828070775,
      "grad_norm": 3.0403223037719727,
      "learning_rate": 2.0887455711563468e-05,
      "loss": 0.17552192211151124,
      "memory(GiB)": 73.83,
      "step": 81440,
      "token_acc": 0.9545454545454546,
      "train_speed(iter/s)": 1.454149
    },
    {
      "epoch": 3.489353498136327,
      "grad_norm": 1.0780224800109863,
      "learning_rate": 2.0881984608100207e-05,
      "loss": 0.21754255294799804,
      "memory(GiB)": 73.83,
      "step": 81445,
      "token_acc": 0.9485294117647058,
      "train_speed(iter/s)": 1.454159
    },
    {
      "epoch": 3.4895677134655756,
      "grad_norm": 1.1902390718460083,
      "learning_rate": 2.0876514032137105e-05,
      "loss": 0.35248570442199706,
      "memory(GiB)": 73.83,
      "step": 81450,
      "token_acc": 0.9320754716981132,
      "train_speed(iter/s)": 1.454164
    },
    {
      "epoch": 3.4897819287948244,
      "grad_norm": 3.6916005611419678,
      "learning_rate": 2.087104398377326e-05,
      "loss": 0.444822359085083,
      "memory(GiB)": 73.83,
      "step": 81455,
      "token_acc": 0.9015151515151515,
      "train_speed(iter/s)": 1.454185
    },
    {
      "epoch": 3.4899961441240737,
      "grad_norm": 3.3820979595184326,
      "learning_rate": 2.0865574463107794e-05,
      "loss": 0.32882022857666016,
      "memory(GiB)": 73.83,
      "step": 81460,
      "token_acc": 0.9214285714285714,
      "train_speed(iter/s)": 1.4542
    },
    {
      "epoch": 3.4902103594533225,
      "grad_norm": 2.400461435317993,
      "learning_rate": 2.0860105470239777e-05,
      "loss": 0.25287694931030275,
      "memory(GiB)": 73.83,
      "step": 81465,
      "token_acc": 0.9277566539923955,
      "train_speed(iter/s)": 1.454203
    },
    {
      "epoch": 3.4904245747825713,
      "grad_norm": 3.8483450412750244,
      "learning_rate": 2.0854637005268284e-05,
      "loss": 0.3925706624984741,
      "memory(GiB)": 73.83,
      "step": 81470,
      "token_acc": 0.9044368600682594,
      "train_speed(iter/s)": 1.454206
    },
    {
      "epoch": 3.4906387901118205,
      "grad_norm": 4.435704231262207,
      "learning_rate": 2.0849169068292386e-05,
      "loss": 0.35428428649902344,
      "memory(GiB)": 73.83,
      "step": 81475,
      "token_acc": 0.8975741239892183,
      "train_speed(iter/s)": 1.45421
    },
    {
      "epoch": 3.4908530054410694,
      "grad_norm": 0.13594317436218262,
      "learning_rate": 2.0843701659411112e-05,
      "loss": 0.3365787029266357,
      "memory(GiB)": 73.83,
      "step": 81480,
      "token_acc": 0.9113924050632911,
      "train_speed(iter/s)": 1.454214
    },
    {
      "epoch": 3.491067220770318,
      "grad_norm": 2.9756669998168945,
      "learning_rate": 2.0838234778723555e-05,
      "loss": 0.4056069850921631,
      "memory(GiB)": 73.83,
      "step": 81485,
      "token_acc": 0.9262295081967213,
      "train_speed(iter/s)": 1.454219
    },
    {
      "epoch": 3.4912814360995674,
      "grad_norm": 5.4531331062316895,
      "learning_rate": 2.0832768426328715e-05,
      "loss": 0.652430248260498,
      "memory(GiB)": 73.83,
      "step": 81490,
      "token_acc": 0.8611111111111112,
      "train_speed(iter/s)": 1.45424
    },
    {
      "epoch": 3.4914956514288162,
      "grad_norm": 8.029071807861328,
      "learning_rate": 2.082730260232565e-05,
      "loss": 0.34937219619750975,
      "memory(GiB)": 73.83,
      "step": 81495,
      "token_acc": 0.927710843373494,
      "train_speed(iter/s)": 1.454243
    },
    {
      "epoch": 3.491709866758065,
      "grad_norm": 0.8243170976638794,
      "learning_rate": 2.0821837306813364e-05,
      "loss": 0.24186296463012696,
      "memory(GiB)": 73.83,
      "step": 81500,
      "token_acc": 0.937007874015748,
      "train_speed(iter/s)": 1.454267
    },
    {
      "epoch": 3.491709866758065,
      "eval_loss": 2.4165773391723633,
      "eval_runtime": 11.3639,
      "eval_samples_per_second": 8.8,
      "eval_steps_per_second": 8.8,
      "eval_token_acc": 0.473463687150838,
      "step": 81500
    },
    {
      "epoch": 3.4919240820873143,
      "grad_norm": 1.4784773588180542,
      "learning_rate": 2.0816372539890872e-05,
      "loss": 0.17802565097808837,
      "memory(GiB)": 73.83,
      "step": 81505,
      "token_acc": 0.6219864995178399,
      "train_speed(iter/s)": 1.453945
    },
    {
      "epoch": 3.492138297416563,
      "grad_norm": 4.486754894256592,
      "learning_rate": 2.081090830165716e-05,
      "loss": 0.1539832592010498,
      "memory(GiB)": 73.83,
      "step": 81510,
      "token_acc": 0.9631901840490797,
      "train_speed(iter/s)": 1.453952
    },
    {
      "epoch": 3.492352512745812,
      "grad_norm": 3.6938397884368896,
      "learning_rate": 2.0805444592211216e-05,
      "loss": 0.6674226284027099,
      "memory(GiB)": 73.83,
      "step": 81515,
      "token_acc": 0.8772455089820359,
      "train_speed(iter/s)": 1.453965
    },
    {
      "epoch": 3.492566728075061,
      "grad_norm": 2.675342082977295,
      "learning_rate": 2.079998141165204e-05,
      "loss": 0.39171395301818845,
      "memory(GiB)": 73.83,
      "step": 81520,
      "token_acc": 0.9226006191950464,
      "train_speed(iter/s)": 1.453963
    },
    {
      "epoch": 3.49278094340431,
      "grad_norm": 1.8528356552124023,
      "learning_rate": 2.0794518760078596e-05,
      "loss": 0.28821940422058107,
      "memory(GiB)": 73.83,
      "step": 81525,
      "token_acc": 0.9462809917355371,
      "train_speed(iter/s)": 1.453969
    },
    {
      "epoch": 3.492995158733559,
      "grad_norm": 2.9294748306274414,
      "learning_rate": 2.0789056637589845e-05,
      "loss": 0.4489725112915039,
      "memory(GiB)": 73.83,
      "step": 81530,
      "token_acc": 0.9172413793103448,
      "train_speed(iter/s)": 1.453968
    },
    {
      "epoch": 3.493209374062808,
      "grad_norm": 1.3576107025146484,
      "learning_rate": 2.078359504428473e-05,
      "loss": 0.4909515857696533,
      "memory(GiB)": 73.83,
      "step": 81535,
      "token_acc": 0.9058441558441559,
      "train_speed(iter/s)": 1.453975
    },
    {
      "epoch": 3.493423589392057,
      "grad_norm": 0.5862759351730347,
      "learning_rate": 2.077813398026218e-05,
      "loss": 0.4220736980438232,
      "memory(GiB)": 73.83,
      "step": 81540,
      "token_acc": 0.9186746987951807,
      "train_speed(iter/s)": 1.453977
    },
    {
      "epoch": 3.4936378047213057,
      "grad_norm": 3.7071986198425293,
      "learning_rate": 2.0772673445621165e-05,
      "loss": 0.39397602081298827,
      "memory(GiB)": 73.83,
      "step": 81545,
      "token_acc": 0.9274809160305344,
      "train_speed(iter/s)": 1.453982
    },
    {
      "epoch": 3.493852020050555,
      "grad_norm": 0.3064061105251312,
      "learning_rate": 2.076721344046059e-05,
      "loss": 0.3419880628585815,
      "memory(GiB)": 73.83,
      "step": 81550,
      "token_acc": 0.9239543726235742,
      "train_speed(iter/s)": 1.453988
    },
    {
      "epoch": 3.4940662353798038,
      "grad_norm": 0.3064539134502411,
      "learning_rate": 2.0761753964879367e-05,
      "loss": 0.13955488204956054,
      "memory(GiB)": 73.83,
      "step": 81555,
      "token_acc": 0.9537037037037037,
      "train_speed(iter/s)": 1.453994
    },
    {
      "epoch": 3.4942804507090526,
      "grad_norm": 2.7633211612701416,
      "learning_rate": 2.0756295018976397e-05,
      "loss": 0.4463229179382324,
      "memory(GiB)": 73.83,
      "step": 81560,
      "token_acc": 0.9052287581699346,
      "train_speed(iter/s)": 1.454
    },
    {
      "epoch": 3.494494666038302,
      "grad_norm": 6.787531852722168,
      "learning_rate": 2.0750836602850553e-05,
      "loss": 0.36295645236968993,
      "memory(GiB)": 73.83,
      "step": 81565,
      "token_acc": 0.9113924050632911,
      "train_speed(iter/s)": 1.454003
    },
    {
      "epoch": 3.4947088813675506,
      "grad_norm": 3.035984516143799,
      "learning_rate": 2.0745378716600766e-05,
      "loss": 0.1993985056877136,
      "memory(GiB)": 73.83,
      "step": 81570,
      "token_acc": 0.9511278195488722,
      "train_speed(iter/s)": 1.454009
    },
    {
      "epoch": 3.4949230966967995,
      "grad_norm": 2.428264856338501,
      "learning_rate": 2.0739921360325866e-05,
      "loss": 0.24046759605407714,
      "memory(GiB)": 73.83,
      "step": 81575,
      "token_acc": 0.9394904458598726,
      "train_speed(iter/s)": 1.454015
    },
    {
      "epoch": 3.4951373120260487,
      "grad_norm": 1.5297752618789673,
      "learning_rate": 2.0734464534124754e-05,
      "loss": 0.15398337841033935,
      "memory(GiB)": 73.83,
      "step": 81580,
      "token_acc": 0.959349593495935,
      "train_speed(iter/s)": 1.45403
    },
    {
      "epoch": 3.4953515273552975,
      "grad_norm": 3.590397357940674,
      "learning_rate": 2.0729008238096275e-05,
      "loss": 0.6444928646087646,
      "memory(GiB)": 73.83,
      "step": 81585,
      "token_acc": 0.8602941176470589,
      "train_speed(iter/s)": 1.454034
    },
    {
      "epoch": 3.4955657426845463,
      "grad_norm": 0.09495767205953598,
      "learning_rate": 2.0723552472339268e-05,
      "loss": 0.147231388092041,
      "memory(GiB)": 73.83,
      "step": 81590,
      "token_acc": 0.9653846153846154,
      "train_speed(iter/s)": 1.454032
    },
    {
      "epoch": 3.4957799580137956,
      "grad_norm": 4.503708362579346,
      "learning_rate": 2.071809723695257e-05,
      "loss": 0.3987578392028809,
      "memory(GiB)": 73.83,
      "step": 81595,
      "token_acc": 0.93,
      "train_speed(iter/s)": 1.454035
    },
    {
      "epoch": 3.4959941733430444,
      "grad_norm": 3.09845232963562,
      "learning_rate": 2.071264253203499e-05,
      "loss": 0.4430992603302002,
      "memory(GiB)": 73.83,
      "step": 81600,
      "token_acc": 0.9093851132686084,
      "train_speed(iter/s)": 1.454034
    },
    {
      "epoch": 3.496208388672293,
      "grad_norm": 3.848686933517456,
      "learning_rate": 2.0707188357685393e-05,
      "loss": 0.6113576889038086,
      "memory(GiB)": 73.83,
      "step": 81605,
      "token_acc": 0.8538205980066446,
      "train_speed(iter/s)": 1.454036
    },
    {
      "epoch": 3.4964226040015425,
      "grad_norm": 0.2765128016471863,
      "learning_rate": 2.0701734714002545e-05,
      "loss": 0.41216106414794923,
      "memory(GiB)": 73.83,
      "step": 81610,
      "token_acc": 0.9056603773584906,
      "train_speed(iter/s)": 1.454039
    },
    {
      "epoch": 3.4966368193307913,
      "grad_norm": 0.16251805424690247,
      "learning_rate": 2.0696281601085264e-05,
      "loss": 0.15041977167129517,
      "memory(GiB)": 73.83,
      "step": 81615,
      "token_acc": 0.9605734767025089,
      "train_speed(iter/s)": 1.454043
    },
    {
      "epoch": 3.49685103466004,
      "grad_norm": 3.607287883758545,
      "learning_rate": 2.0690829019032327e-05,
      "loss": 0.31801567077636717,
      "memory(GiB)": 73.83,
      "step": 81620,
      "token_acc": 0.9276595744680851,
      "train_speed(iter/s)": 1.454049
    },
    {
      "epoch": 3.4970652499892894,
      "grad_norm": 2.955057382583618,
      "learning_rate": 2.06853769679425e-05,
      "loss": 0.126358699798584,
      "memory(GiB)": 73.83,
      "step": 81625,
      "token_acc": 0.9700996677740864,
      "train_speed(iter/s)": 1.454054
    },
    {
      "epoch": 3.497279465318538,
      "grad_norm": 1.4989509582519531,
      "learning_rate": 2.067992544791459e-05,
      "loss": 0.11614234447479248,
      "memory(GiB)": 73.83,
      "step": 81630,
      "token_acc": 0.9694915254237289,
      "train_speed(iter/s)": 1.454061
    },
    {
      "epoch": 3.497493680647787,
      "grad_norm": 4.079159259796143,
      "learning_rate": 2.067447445904731e-05,
      "loss": 0.41420583724975585,
      "memory(GiB)": 73.83,
      "step": 81635,
      "token_acc": 0.8918918918918919,
      "train_speed(iter/s)": 1.454066
    },
    {
      "epoch": 3.4977078959770362,
      "grad_norm": 1.4491477012634277,
      "learning_rate": 2.066902400143946e-05,
      "loss": 0.4548398494720459,
      "memory(GiB)": 73.83,
      "step": 81640,
      "token_acc": 0.9105960264900662,
      "train_speed(iter/s)": 1.454067
    },
    {
      "epoch": 3.497922111306285,
      "grad_norm": 2.4018893241882324,
      "learning_rate": 2.066357407518975e-05,
      "loss": 0.18503435850143432,
      "memory(GiB)": 73.83,
      "step": 81645,
      "token_acc": 0.9607843137254902,
      "train_speed(iter/s)": 1.454071
    },
    {
      "epoch": 3.498136326635534,
      "grad_norm": 3.7331793308258057,
      "learning_rate": 2.0658124680396918e-05,
      "loss": 0.5661936283111573,
      "memory(GiB)": 73.83,
      "step": 81650,
      "token_acc": 0.8754448398576512,
      "train_speed(iter/s)": 1.454071
    },
    {
      "epoch": 3.498350541964783,
      "grad_norm": 4.861818313598633,
      "learning_rate": 2.065267581715968e-05,
      "loss": 0.36453607082366946,
      "memory(GiB)": 73.83,
      "step": 81655,
      "token_acc": 0.8987341772151899,
      "train_speed(iter/s)": 1.454077
    },
    {
      "epoch": 3.498564757294032,
      "grad_norm": 0.12053276598453522,
      "learning_rate": 2.0647227485576733e-05,
      "loss": 0.34164891242980955,
      "memory(GiB)": 73.83,
      "step": 81660,
      "token_acc": 0.9375,
      "train_speed(iter/s)": 1.454087
    },
    {
      "epoch": 3.4987789726232807,
      "grad_norm": 4.004881381988525,
      "learning_rate": 2.064177968574681e-05,
      "loss": 0.5140721321105957,
      "memory(GiB)": 73.83,
      "step": 81665,
      "token_acc": 0.8941605839416058,
      "train_speed(iter/s)": 1.454089
    },
    {
      "epoch": 3.49899318795253,
      "grad_norm": 1.2734955549240112,
      "learning_rate": 2.0636332417768595e-05,
      "loss": 0.11377791166305543,
      "memory(GiB)": 73.83,
      "step": 81670,
      "token_acc": 0.9713375796178344,
      "train_speed(iter/s)": 1.454096
    },
    {
      "epoch": 3.499207403281779,
      "grad_norm": 3.854006290435791,
      "learning_rate": 2.0630885681740758e-05,
      "loss": 0.3429248332977295,
      "memory(GiB)": 73.83,
      "step": 81675,
      "token_acc": 0.9331210191082803,
      "train_speed(iter/s)": 1.454097
    },
    {
      "epoch": 3.4994216186110276,
      "grad_norm": 3.8860301971435547,
      "learning_rate": 2.0625439477761975e-05,
      "loss": 0.3210040807723999,
      "memory(GiB)": 73.83,
      "step": 81680,
      "token_acc": 0.9224806201550387,
      "train_speed(iter/s)": 1.454106
    },
    {
      "epoch": 3.499635833940277,
      "grad_norm": 1.0992770195007324,
      "learning_rate": 2.0619993805930904e-05,
      "loss": 0.2852896451950073,
      "memory(GiB)": 73.83,
      "step": 81685,
      "token_acc": 0.9271137026239067,
      "train_speed(iter/s)": 1.454103
    },
    {
      "epoch": 3.4998500492695257,
      "grad_norm": 3.846190929412842,
      "learning_rate": 2.0614548666346212e-05,
      "loss": 0.636055850982666,
      "memory(GiB)": 73.83,
      "step": 81690,
      "token_acc": 0.8657243816254417,
      "train_speed(iter/s)": 1.454123
    },
    {
      "epoch": 3.500064264598775,
      "grad_norm": 2.98571515083313,
      "learning_rate": 2.060910405910654e-05,
      "loss": 0.3953345537185669,
      "memory(GiB)": 73.83,
      "step": 81695,
      "token_acc": 0.9343629343629344,
      "train_speed(iter/s)": 1.454124
    },
    {
      "epoch": 3.5002784799280238,
      "grad_norm": 3.214301824569702,
      "learning_rate": 2.0603659984310525e-05,
      "loss": 0.3240651607513428,
      "memory(GiB)": 73.83,
      "step": 81700,
      "token_acc": 0.912,
      "train_speed(iter/s)": 1.454127
    },
    {
      "epoch": 3.5004926952572726,
      "grad_norm": 5.418041706085205,
      "learning_rate": 2.0598216442056784e-05,
      "loss": 0.3577093601226807,
      "memory(GiB)": 73.83,
      "step": 81705,
      "token_acc": 0.9121621621621622,
      "train_speed(iter/s)": 1.454132
    },
    {
      "epoch": 3.500706910586522,
      "grad_norm": 0.8732283711433411,
      "learning_rate": 2.0592773432443913e-05,
      "loss": 0.3739889144897461,
      "memory(GiB)": 73.83,
      "step": 81710,
      "token_acc": 0.9203821656050956,
      "train_speed(iter/s)": 1.45413
    },
    {
      "epoch": 3.5009211259157706,
      "grad_norm": 6.330348491668701,
      "learning_rate": 2.058733095557055e-05,
      "loss": 0.6027040958404541,
      "memory(GiB)": 73.83,
      "step": 81715,
      "token_acc": 0.8916967509025271,
      "train_speed(iter/s)": 1.454131
    },
    {
      "epoch": 3.5011353412450195,
      "grad_norm": 4.9842424392700195,
      "learning_rate": 2.0581889011535264e-05,
      "loss": 0.5100002765655518,
      "memory(GiB)": 73.83,
      "step": 81720,
      "token_acc": 0.9097744360902256,
      "train_speed(iter/s)": 1.454132
    },
    {
      "epoch": 3.5013495565742687,
      "grad_norm": 4.75447416305542,
      "learning_rate": 2.0576447600436676e-05,
      "loss": 0.3727993965148926,
      "memory(GiB)": 73.83,
      "step": 81725,
      "token_acc": 0.9224489795918367,
      "train_speed(iter/s)": 1.454133
    },
    {
      "epoch": 3.5015637719035175,
      "grad_norm": 0.8651868104934692,
      "learning_rate": 2.0571006722373343e-05,
      "loss": 0.2459939956665039,
      "memory(GiB)": 73.83,
      "step": 81730,
      "token_acc": 0.9456521739130435,
      "train_speed(iter/s)": 1.454135
    },
    {
      "epoch": 3.5017779872327663,
      "grad_norm": 7.843503475189209,
      "learning_rate": 2.0565566377443823e-05,
      "loss": 0.6126383781433106,
      "memory(GiB)": 73.83,
      "step": 81735,
      "token_acc": 0.8833922261484098,
      "train_speed(iter/s)": 1.454135
    },
    {
      "epoch": 3.5019922025620156,
      "grad_norm": 2.9296247959136963,
      "learning_rate": 2.0560126565746686e-05,
      "loss": 0.2596792221069336,
      "memory(GiB)": 73.83,
      "step": 81740,
      "token_acc": 0.9351145038167938,
      "train_speed(iter/s)": 1.454138
    },
    {
      "epoch": 3.5022064178912644,
      "grad_norm": 3.1936352252960205,
      "learning_rate": 2.0554687287380447e-05,
      "loss": 0.24991979598999023,
      "memory(GiB)": 73.83,
      "step": 81745,
      "token_acc": 0.9453924914675768,
      "train_speed(iter/s)": 1.454141
    },
    {
      "epoch": 3.5024206332205132,
      "grad_norm": 1.4658533334732056,
      "learning_rate": 2.0549248542443695e-05,
      "loss": 0.14710804224014282,
      "memory(GiB)": 73.83,
      "step": 81750,
      "token_acc": 0.9544072948328267,
      "train_speed(iter/s)": 1.454147
    },
    {
      "epoch": 3.5026348485497625,
      "grad_norm": 5.25615930557251,
      "learning_rate": 2.0543810331034928e-05,
      "loss": 0.6023241996765136,
      "memory(GiB)": 73.83,
      "step": 81755,
      "token_acc": 0.874251497005988,
      "train_speed(iter/s)": 1.454158
    },
    {
      "epoch": 3.5028490638790113,
      "grad_norm": 3.6785850524902344,
      "learning_rate": 2.0538372653252673e-05,
      "loss": 0.23158721923828124,
      "memory(GiB)": 73.83,
      "step": 81760,
      "token_acc": 0.9518900343642611,
      "train_speed(iter/s)": 1.454162
    },
    {
      "epoch": 3.50306327920826,
      "grad_norm": 2.376525402069092,
      "learning_rate": 2.0532935509195432e-05,
      "loss": 0.5134202480316162,
      "memory(GiB)": 73.83,
      "step": 81765,
      "token_acc": 0.887719298245614,
      "train_speed(iter/s)": 1.45417
    },
    {
      "epoch": 3.5032774945375094,
      "grad_norm": 2.3110852241516113,
      "learning_rate": 2.0527498898961695e-05,
      "loss": 0.2085875988006592,
      "memory(GiB)": 73.83,
      "step": 81770,
      "token_acc": 0.948905109489051,
      "train_speed(iter/s)": 1.454175
    },
    {
      "epoch": 3.503491709866758,
      "grad_norm": 4.164665699005127,
      "learning_rate": 2.0522062822649973e-05,
      "loss": 0.3810727119445801,
      "memory(GiB)": 73.83,
      "step": 81775,
      "token_acc": 0.926829268292683,
      "train_speed(iter/s)": 1.45419
    },
    {
      "epoch": 3.503705925196007,
      "grad_norm": 1.6350557804107666,
      "learning_rate": 2.0516627280358737e-05,
      "loss": 0.4254435062408447,
      "memory(GiB)": 73.83,
      "step": 81780,
      "token_acc": 0.9049295774647887,
      "train_speed(iter/s)": 1.454198
    },
    {
      "epoch": 3.5039201405252562,
      "grad_norm": 3.5741782188415527,
      "learning_rate": 2.051119227218644e-05,
      "loss": 0.2668855428695679,
      "memory(GiB)": 73.83,
      "step": 81785,
      "token_acc": 0.9529780564263323,
      "train_speed(iter/s)": 1.454209
    },
    {
      "epoch": 3.504134355854505,
      "grad_norm": 2.2737207412719727,
      "learning_rate": 2.0505757798231573e-05,
      "loss": 0.2978676319122314,
      "memory(GiB)": 73.83,
      "step": 81790,
      "token_acc": 0.9440298507462687,
      "train_speed(iter/s)": 1.454212
    },
    {
      "epoch": 3.504348571183754,
      "grad_norm": 2.254509210586548,
      "learning_rate": 2.0500323858592572e-05,
      "loss": 0.3546449184417725,
      "memory(GiB)": 73.83,
      "step": 81795,
      "token_acc": 0.9311475409836065,
      "train_speed(iter/s)": 1.454225
    },
    {
      "epoch": 3.504562786513003,
      "grad_norm": 4.304095268249512,
      "learning_rate": 2.0494890453367875e-05,
      "loss": 0.6187854290008545,
      "memory(GiB)": 73.83,
      "step": 81800,
      "token_acc": 0.867816091954023,
      "train_speed(iter/s)": 1.454225
    },
    {
      "epoch": 3.504777001842252,
      "grad_norm": 3.937211036682129,
      "learning_rate": 2.0489457582655902e-05,
      "loss": 0.3319952964782715,
      "memory(GiB)": 73.83,
      "step": 81805,
      "token_acc": 0.9233038348082596,
      "train_speed(iter/s)": 1.454235
    },
    {
      "epoch": 3.5049912171715008,
      "grad_norm": 4.278759956359863,
      "learning_rate": 2.0484025246555107e-05,
      "loss": 0.2771162986755371,
      "memory(GiB)": 73.83,
      "step": 81810,
      "token_acc": 0.928082191780822,
      "train_speed(iter/s)": 1.454236
    },
    {
      "epoch": 3.50520543250075,
      "grad_norm": 1.3828049898147583,
      "learning_rate": 2.047859344516388e-05,
      "loss": 0.17799665927886962,
      "memory(GiB)": 73.83,
      "step": 81815,
      "token_acc": 0.9536423841059603,
      "train_speed(iter/s)": 1.454243
    },
    {
      "epoch": 3.505419647829999,
      "grad_norm": 2.1136093139648438,
      "learning_rate": 2.0473162178580622e-05,
      "loss": 0.41824731826782224,
      "memory(GiB)": 73.83,
      "step": 81820,
      "token_acc": 0.9163498098859315,
      "train_speed(iter/s)": 1.454254
    },
    {
      "epoch": 3.5056338631592476,
      "grad_norm": 2.7391369342803955,
      "learning_rate": 2.0467731446903736e-05,
      "loss": 0.3240753173828125,
      "memory(GiB)": 73.83,
      "step": 81825,
      "token_acc": 0.9324324324324325,
      "train_speed(iter/s)": 1.454255
    },
    {
      "epoch": 3.505848078488497,
      "grad_norm": 2.2051892280578613,
      "learning_rate": 2.046230125023158e-05,
      "loss": 0.5487382411956787,
      "memory(GiB)": 73.83,
      "step": 81830,
      "token_acc": 0.9087837837837838,
      "train_speed(iter/s)": 1.454267
    },
    {
      "epoch": 3.5060622938177457,
      "grad_norm": 4.248746871948242,
      "learning_rate": 2.0456871588662563e-05,
      "loss": 0.4222099781036377,
      "memory(GiB)": 73.83,
      "step": 81835,
      "token_acc": 0.8888888888888888,
      "train_speed(iter/s)": 1.454271
    },
    {
      "epoch": 3.5062765091469945,
      "grad_norm": 2.302772045135498,
      "learning_rate": 2.0451442462295028e-05,
      "loss": 0.7407795429229737,
      "memory(GiB)": 73.83,
      "step": 81840,
      "token_acc": 0.8652482269503546,
      "train_speed(iter/s)": 1.454293
    },
    {
      "epoch": 3.5064907244762438,
      "grad_norm": 5.744873523712158,
      "learning_rate": 2.044601387122733e-05,
      "loss": 0.4040919303894043,
      "memory(GiB)": 73.83,
      "step": 81845,
      "token_acc": 0.9246376811594202,
      "train_speed(iter/s)": 1.454304
    },
    {
      "epoch": 3.5067049398054926,
      "grad_norm": 6.215102672576904,
      "learning_rate": 2.044058581555782e-05,
      "loss": 0.44893360137939453,
      "memory(GiB)": 73.83,
      "step": 81850,
      "token_acc": 0.9055944055944056,
      "train_speed(iter/s)": 1.454314
    },
    {
      "epoch": 3.5069191551347414,
      "grad_norm": 5.77133321762085,
      "learning_rate": 2.0435158295384826e-05,
      "loss": 0.3475500583648682,
      "memory(GiB)": 73.83,
      "step": 81855,
      "token_acc": 0.9326923076923077,
      "train_speed(iter/s)": 1.454313
    },
    {
      "epoch": 3.5071333704639907,
      "grad_norm": 7.1499834060668945,
      "learning_rate": 2.0429731310806655e-05,
      "loss": 0.4663414001464844,
      "memory(GiB)": 73.83,
      "step": 81860,
      "token_acc": 0.9156626506024096,
      "train_speed(iter/s)": 1.454319
    },
    {
      "epoch": 3.5073475857932395,
      "grad_norm": 3.2363228797912598,
      "learning_rate": 2.042430486192164e-05,
      "loss": 0.2010741949081421,
      "memory(GiB)": 73.83,
      "step": 81865,
      "token_acc": 0.9589552238805971,
      "train_speed(iter/s)": 1.454326
    },
    {
      "epoch": 3.5075618011224883,
      "grad_norm": 3.3855934143066406,
      "learning_rate": 2.04188789488281e-05,
      "loss": 0.21447358131408692,
      "memory(GiB)": 73.83,
      "step": 81870,
      "token_acc": 0.954225352112676,
      "train_speed(iter/s)": 1.454327
    },
    {
      "epoch": 3.5077760164517375,
      "grad_norm": 2.757859706878662,
      "learning_rate": 2.0413453571624323e-05,
      "loss": 0.28073883056640625,
      "memory(GiB)": 73.83,
      "step": 81875,
      "token_acc": 0.95,
      "train_speed(iter/s)": 1.454331
    },
    {
      "epoch": 3.5079902317809863,
      "grad_norm": 5.877250671386719,
      "learning_rate": 2.0408028730408584e-05,
      "loss": 0.5159302711486816,
      "memory(GiB)": 73.83,
      "step": 81880,
      "token_acc": 0.8984615384615384,
      "train_speed(iter/s)": 1.454332
    },
    {
      "epoch": 3.508204447110235,
      "grad_norm": 2.705023765563965,
      "learning_rate": 2.040260442527917e-05,
      "loss": 0.3082413196563721,
      "memory(GiB)": 73.83,
      "step": 81885,
      "token_acc": 0.9328621908127208,
      "train_speed(iter/s)": 1.454338
    },
    {
      "epoch": 3.5084186624394844,
      "grad_norm": 3.604522943496704,
      "learning_rate": 2.0397180656334318e-05,
      "loss": 0.22171368598937988,
      "memory(GiB)": 73.83,
      "step": 81890,
      "token_acc": 0.9427480916030534,
      "train_speed(iter/s)": 1.45434
    },
    {
      "epoch": 3.5086328777687332,
      "grad_norm": 0.5309501886367798,
      "learning_rate": 2.039175742367233e-05,
      "loss": 0.20624353885650634,
      "memory(GiB)": 73.83,
      "step": 81895,
      "token_acc": 0.9538461538461539,
      "train_speed(iter/s)": 1.454338
    },
    {
      "epoch": 3.508847093097982,
      "grad_norm": 3.566711664199829,
      "learning_rate": 2.0386334727391432e-05,
      "loss": 0.33571529388427734,
      "memory(GiB)": 73.83,
      "step": 81900,
      "token_acc": 0.9304635761589404,
      "train_speed(iter/s)": 1.454352
    },
    {
      "epoch": 3.5090613084272313,
      "grad_norm": 2.7978405952453613,
      "learning_rate": 2.038091256758986e-05,
      "loss": 0.26230266094207766,
      "memory(GiB)": 73.83,
      "step": 81905,
      "token_acc": 0.9379562043795621,
      "train_speed(iter/s)": 1.454357
    },
    {
      "epoch": 3.50927552375648,
      "grad_norm": 0.9230490326881409,
      "learning_rate": 2.037549094436584e-05,
      "loss": 0.30072526931762694,
      "memory(GiB)": 73.83,
      "step": 81910,
      "token_acc": 0.9388489208633094,
      "train_speed(iter/s)": 1.454361
    },
    {
      "epoch": 3.509489739085729,
      "grad_norm": 0.42022451758384705,
      "learning_rate": 2.0370069857817576e-05,
      "loss": 0.41652717590332033,
      "memory(GiB)": 73.83,
      "step": 81915,
      "token_acc": 0.9042553191489362,
      "train_speed(iter/s)": 1.454366
    },
    {
      "epoch": 3.509703954414978,
      "grad_norm": 7.795313358306885,
      "learning_rate": 2.0364649308043303e-05,
      "loss": 0.439239501953125,
      "memory(GiB)": 73.83,
      "step": 81920,
      "token_acc": 0.9245283018867925,
      "train_speed(iter/s)": 1.454366
    },
    {
      "epoch": 3.509918169744227,
      "grad_norm": 1.257448434829712,
      "learning_rate": 2.0359229295141213e-05,
      "loss": 0.297123646736145,
      "memory(GiB)": 73.83,
      "step": 81925,
      "token_acc": 0.932258064516129,
      "train_speed(iter/s)": 1.454379
    },
    {
      "epoch": 3.510132385073476,
      "grad_norm": 4.485296249389648,
      "learning_rate": 2.035380981920949e-05,
      "loss": 0.5895516872406006,
      "memory(GiB)": 73.83,
      "step": 81930,
      "token_acc": 0.89198606271777,
      "train_speed(iter/s)": 1.454375
    },
    {
      "epoch": 3.510346600402725,
      "grad_norm": 4.107789993286133,
      "learning_rate": 2.034839088034629e-05,
      "loss": 0.2921851634979248,
      "memory(GiB)": 73.83,
      "step": 81935,
      "token_acc": 0.9393939393939394,
      "train_speed(iter/s)": 1.454381
    },
    {
      "epoch": 3.510560815731974,
      "grad_norm": 2.3485350608825684,
      "learning_rate": 2.034297247864983e-05,
      "loss": 0.3015226602554321,
      "memory(GiB)": 73.83,
      "step": 81940,
      "token_acc": 0.9594202898550724,
      "train_speed(iter/s)": 1.454398
    },
    {
      "epoch": 3.5107750310612227,
      "grad_norm": 5.436483383178711,
      "learning_rate": 2.033755461421824e-05,
      "loss": 0.3990980386734009,
      "memory(GiB)": 73.83,
      "step": 81945,
      "token_acc": 0.9054054054054054,
      "train_speed(iter/s)": 1.454406
    },
    {
      "epoch": 3.510989246390472,
      "grad_norm": 3.2077314853668213,
      "learning_rate": 2.0332137287149654e-05,
      "loss": 0.24229609966278076,
      "memory(GiB)": 73.83,
      "step": 81950,
      "token_acc": 0.950207468879668,
      "train_speed(iter/s)": 1.454424
    },
    {
      "epoch": 3.5112034617197208,
      "grad_norm": 2.38175106048584,
      "learning_rate": 2.0326720497542252e-05,
      "loss": 0.3785180330276489,
      "memory(GiB)": 73.83,
      "step": 81955,
      "token_acc": 0.9346153846153846,
      "train_speed(iter/s)": 1.454431
    },
    {
      "epoch": 3.5114176770489696,
      "grad_norm": 0.561284065246582,
      "learning_rate": 2.0321304245494145e-05,
      "loss": 0.5114459991455078,
      "memory(GiB)": 73.83,
      "step": 81960,
      "token_acc": 0.8922558922558923,
      "train_speed(iter/s)": 1.454431
    },
    {
      "epoch": 3.511631892378219,
      "grad_norm": 2.8476462364196777,
      "learning_rate": 2.031588853110345e-05,
      "loss": 0.46484670639038084,
      "memory(GiB)": 73.83,
      "step": 81965,
      "token_acc": 0.90625,
      "train_speed(iter/s)": 1.454448
    },
    {
      "epoch": 3.5118461077074676,
      "grad_norm": 1.2434003353118896,
      "learning_rate": 2.0310473354468283e-05,
      "loss": 0.18286147117614746,
      "memory(GiB)": 73.83,
      "step": 81970,
      "token_acc": 0.9606557377049181,
      "train_speed(iter/s)": 1.45446
    },
    {
      "epoch": 3.5120603230367164,
      "grad_norm": 2.599616050720215,
      "learning_rate": 2.030505871568672e-05,
      "loss": 0.49138641357421875,
      "memory(GiB)": 73.83,
      "step": 81975,
      "token_acc": 0.9087837837837838,
      "train_speed(iter/s)": 1.454464
    },
    {
      "epoch": 3.5122745383659657,
      "grad_norm": 4.120331287384033,
      "learning_rate": 2.0299644614856895e-05,
      "loss": 0.29954659938812256,
      "memory(GiB)": 73.83,
      "step": 81980,
      "token_acc": 0.919831223628692,
      "train_speed(iter/s)": 1.454488
    },
    {
      "epoch": 3.5124887536952145,
      "grad_norm": 5.337890625,
      "learning_rate": 2.0294231052076874e-05,
      "loss": 0.3554528713226318,
      "memory(GiB)": 73.83,
      "step": 81985,
      "token_acc": 0.9424242424242424,
      "train_speed(iter/s)": 1.454492
    },
    {
      "epoch": 3.5127029690244633,
      "grad_norm": 3.652970314025879,
      "learning_rate": 2.028881802744472e-05,
      "loss": 0.4754783630371094,
      "memory(GiB)": 73.83,
      "step": 81990,
      "token_acc": 0.8859060402684564,
      "train_speed(iter/s)": 1.454493
    },
    {
      "epoch": 3.5129171843537126,
      "grad_norm": 2.5963385105133057,
      "learning_rate": 2.0283405541058494e-05,
      "loss": 0.41719746589660645,
      "memory(GiB)": 73.83,
      "step": 81995,
      "token_acc": 0.901840490797546,
      "train_speed(iter/s)": 1.454497
    },
    {
      "epoch": 3.5131313996829614,
      "grad_norm": 1.5668424367904663,
      "learning_rate": 2.0277993593016252e-05,
      "loss": 0.1477912187576294,
      "memory(GiB)": 73.83,
      "step": 82000,
      "token_acc": 0.9650793650793651,
      "train_speed(iter/s)": 1.454501
    },
    {
      "epoch": 3.5131313996829614,
      "eval_loss": 2.39411997795105,
      "eval_runtime": 11.8602,
      "eval_samples_per_second": 8.432,
      "eval_steps_per_second": 8.432,
      "eval_token_acc": 0.4610951008645533,
      "step": 82000
    },
    {
      "epoch": 3.51334561501221,
      "grad_norm": 4.1569318771362305,
      "learning_rate": 2.0272582183416027e-05,
      "loss": 0.3343372344970703,
      "memory(GiB)": 73.83,
      "step": 82005,
      "token_acc": 0.5938461538461538,
      "train_speed(iter/s)": 1.45417
    },
    {
      "epoch": 3.5135598303414595,
      "grad_norm": 1.011996865272522,
      "learning_rate": 2.026717131235586e-05,
      "loss": 0.3292783975601196,
      "memory(GiB)": 73.83,
      "step": 82010,
      "token_acc": 0.9432624113475178,
      "train_speed(iter/s)": 1.454182
    },
    {
      "epoch": 3.5137740456707083,
      "grad_norm": 1.4700415134429932,
      "learning_rate": 2.0261760979933796e-05,
      "loss": 0.31898088455200196,
      "memory(GiB)": 73.83,
      "step": 82015,
      "token_acc": 0.939209726443769,
      "train_speed(iter/s)": 1.454189
    },
    {
      "epoch": 3.513988260999957,
      "grad_norm": 6.035800933837891,
      "learning_rate": 2.0256351186247824e-05,
      "loss": 0.36334905624389646,
      "memory(GiB)": 73.83,
      "step": 82020,
      "token_acc": 0.9216417910447762,
      "train_speed(iter/s)": 1.454193
    },
    {
      "epoch": 3.5142024763292063,
      "grad_norm": 4.010992050170898,
      "learning_rate": 2.0250941931395957e-05,
      "loss": 0.35979082584381106,
      "memory(GiB)": 73.83,
      "step": 82025,
      "token_acc": 0.9236111111111112,
      "train_speed(iter/s)": 1.454202
    },
    {
      "epoch": 3.514416691658455,
      "grad_norm": 3.9002628326416016,
      "learning_rate": 2.024553321547618e-05,
      "loss": 0.4889513969421387,
      "memory(GiB)": 73.83,
      "step": 82030,
      "token_acc": 0.9125874125874126,
      "train_speed(iter/s)": 1.454208
    },
    {
      "epoch": 3.514630906987704,
      "grad_norm": 4.003895282745361,
      "learning_rate": 2.0240125038586465e-05,
      "loss": 0.6733206748962403,
      "memory(GiB)": 73.83,
      "step": 82035,
      "token_acc": 0.8529411764705882,
      "train_speed(iter/s)": 1.454207
    },
    {
      "epoch": 3.5148451223169532,
      "grad_norm": 3.1325817108154297,
      "learning_rate": 2.0234717400824814e-05,
      "loss": 0.40572199821472166,
      "memory(GiB)": 73.83,
      "step": 82040,
      "token_acc": 0.9157509157509157,
      "train_speed(iter/s)": 1.45421
    },
    {
      "epoch": 3.515059337646202,
      "grad_norm": 3.001085042953491,
      "learning_rate": 2.022931030228919e-05,
      "loss": 0.6564332962036132,
      "memory(GiB)": 73.83,
      "step": 82045,
      "token_acc": 0.8525641025641025,
      "train_speed(iter/s)": 1.45423
    },
    {
      "epoch": 3.515273552975451,
      "grad_norm": 2.231724500656128,
      "learning_rate": 2.0223903743077528e-05,
      "loss": 0.3553037166595459,
      "memory(GiB)": 73.83,
      "step": 82050,
      "token_acc": 0.9238410596026491,
      "train_speed(iter/s)": 1.454245
    },
    {
      "epoch": 3.5154877683047,
      "grad_norm": 0.7295597195625305,
      "learning_rate": 2.0218497723287788e-05,
      "loss": 0.2846890687942505,
      "memory(GiB)": 73.83,
      "step": 82055,
      "token_acc": 0.9319526627218935,
      "train_speed(iter/s)": 1.454244
    },
    {
      "epoch": 3.515701983633949,
      "grad_norm": 0.37895461916923523,
      "learning_rate": 2.021309224301788e-05,
      "loss": 0.34370200634002684,
      "memory(GiB)": 73.83,
      "step": 82060,
      "token_acc": 0.923943661971831,
      "train_speed(iter/s)": 1.454251
    },
    {
      "epoch": 3.5159161989631977,
      "grad_norm": 2.9099369049072266,
      "learning_rate": 2.0207687302365762e-05,
      "loss": 0.3181877851486206,
      "memory(GiB)": 73.83,
      "step": 82065,
      "token_acc": 0.925,
      "train_speed(iter/s)": 1.454255
    },
    {
      "epoch": 3.516130414292447,
      "grad_norm": 7.337696075439453,
      "learning_rate": 2.0202282901429338e-05,
      "loss": 0.5173470497131347,
      "memory(GiB)": 73.83,
      "step": 82070,
      "token_acc": 0.8943396226415095,
      "train_speed(iter/s)": 1.454252
    },
    {
      "epoch": 3.516344629621696,
      "grad_norm": 3.004106283187866,
      "learning_rate": 2.019687904030651e-05,
      "loss": 0.3376582384109497,
      "memory(GiB)": 73.83,
      "step": 82075,
      "token_acc": 0.921146953405018,
      "train_speed(iter/s)": 1.454261
    },
    {
      "epoch": 3.5165588449509446,
      "grad_norm": 3.7901041507720947,
      "learning_rate": 2.0191475719095166e-05,
      "loss": 0.45209307670593263,
      "memory(GiB)": 73.83,
      "step": 82080,
      "token_acc": 0.89198606271777,
      "train_speed(iter/s)": 1.454265
    },
    {
      "epoch": 3.516773060280194,
      "grad_norm": 4.233193397521973,
      "learning_rate": 2.0186072937893212e-05,
      "loss": 0.5218348979949952,
      "memory(GiB)": 73.83,
      "step": 82085,
      "token_acc": 0.8655172413793103,
      "train_speed(iter/s)": 1.454282
    },
    {
      "epoch": 3.5169872756094427,
      "grad_norm": 3.2257206439971924,
      "learning_rate": 2.0180670696798514e-05,
      "loss": 0.528790807723999,
      "memory(GiB)": 73.83,
      "step": 82090,
      "token_acc": 0.8934169278996865,
      "train_speed(iter/s)": 1.454292
    },
    {
      "epoch": 3.5172014909386915,
      "grad_norm": 2.964360475540161,
      "learning_rate": 2.0175268995908924e-05,
      "loss": 0.349299955368042,
      "memory(GiB)": 73.83,
      "step": 82095,
      "token_acc": 0.9102990033222591,
      "train_speed(iter/s)": 1.454292
    },
    {
      "epoch": 3.5174157062679408,
      "grad_norm": 5.0487775802612305,
      "learning_rate": 2.0169867835322332e-05,
      "loss": 0.24162416458129882,
      "memory(GiB)": 73.83,
      "step": 82100,
      "token_acc": 0.9300699300699301,
      "train_speed(iter/s)": 1.454299
    },
    {
      "epoch": 3.5176299215971896,
      "grad_norm": 1.6863470077514648,
      "learning_rate": 2.0164467215136566e-05,
      "loss": 0.42829103469848634,
      "memory(GiB)": 73.83,
      "step": 82105,
      "token_acc": 0.9142857142857143,
      "train_speed(iter/s)": 1.454302
    },
    {
      "epoch": 3.5178441369264384,
      "grad_norm": 1.2964589595794678,
      "learning_rate": 2.0159067135449467e-05,
      "loss": 0.130772864818573,
      "memory(GiB)": 73.83,
      "step": 82110,
      "token_acc": 0.9636871508379888,
      "train_speed(iter/s)": 1.454308
    },
    {
      "epoch": 3.5180583522556876,
      "grad_norm": 1.0234650373458862,
      "learning_rate": 2.0153667596358862e-05,
      "loss": 0.1410611391067505,
      "memory(GiB)": 73.83,
      "step": 82115,
      "token_acc": 0.9694323144104804,
      "train_speed(iter/s)": 1.454309
    },
    {
      "epoch": 3.5182725675849364,
      "grad_norm": 3.5213849544525146,
      "learning_rate": 2.0148268597962544e-05,
      "loss": 0.31611328125,
      "memory(GiB)": 73.83,
      "step": 82120,
      "token_acc": 0.9194630872483222,
      "train_speed(iter/s)": 1.454314
    },
    {
      "epoch": 3.5184867829141853,
      "grad_norm": 2.45074200630188,
      "learning_rate": 2.014287014035836e-05,
      "loss": 0.4213207721710205,
      "memory(GiB)": 73.83,
      "step": 82125,
      "token_acc": 0.8984615384615384,
      "train_speed(iter/s)": 1.454322
    },
    {
      "epoch": 3.5187009982434345,
      "grad_norm": 2.4297828674316406,
      "learning_rate": 2.0137472223644093e-05,
      "loss": 0.5156672477722168,
      "memory(GiB)": 73.83,
      "step": 82130,
      "token_acc": 0.887719298245614,
      "train_speed(iter/s)": 1.454321
    },
    {
      "epoch": 3.5189152135726833,
      "grad_norm": 3.758256435394287,
      "learning_rate": 2.0132074847917533e-05,
      "loss": 0.4463181018829346,
      "memory(GiB)": 73.83,
      "step": 82135,
      "token_acc": 0.8976897689768977,
      "train_speed(iter/s)": 1.454319
    },
    {
      "epoch": 3.519129428901932,
      "grad_norm": 0.19992172718048096,
      "learning_rate": 2.012667801327645e-05,
      "loss": 0.34397616386413576,
      "memory(GiB)": 73.83,
      "step": 82140,
      "token_acc": 0.9159420289855073,
      "train_speed(iter/s)": 1.454317
    },
    {
      "epoch": 3.5193436442311814,
      "grad_norm": 2.8609206676483154,
      "learning_rate": 2.0121281719818625e-05,
      "loss": 0.18394804000854492,
      "memory(GiB)": 73.83,
      "step": 82145,
      "token_acc": 0.9525547445255474,
      "train_speed(iter/s)": 1.45432
    },
    {
      "epoch": 3.51955785956043,
      "grad_norm": 1.6796661615371704,
      "learning_rate": 2.011588596764179e-05,
      "loss": 0.13468751907348633,
      "memory(GiB)": 73.83,
      "step": 82150,
      "token_acc": 0.9736842105263158,
      "train_speed(iter/s)": 1.454323
    },
    {
      "epoch": 3.519772074889679,
      "grad_norm": 3.948446750640869,
      "learning_rate": 2.0110490756843714e-05,
      "loss": 0.37701902389526365,
      "memory(GiB)": 73.83,
      "step": 82155,
      "token_acc": 0.9078498293515358,
      "train_speed(iter/s)": 1.454332
    },
    {
      "epoch": 3.5199862902189283,
      "grad_norm": 4.6521830558776855,
      "learning_rate": 2.0105096087522153e-05,
      "loss": 0.29623286724090575,
      "memory(GiB)": 73.83,
      "step": 82160,
      "token_acc": 0.9331103678929766,
      "train_speed(iter/s)": 1.454335
    },
    {
      "epoch": 3.520200505548177,
      "grad_norm": 0.03154844790697098,
      "learning_rate": 2.009970195977482e-05,
      "loss": 0.3195100545883179,
      "memory(GiB)": 73.83,
      "step": 82165,
      "token_acc": 0.9303135888501742,
      "train_speed(iter/s)": 1.454337
    },
    {
      "epoch": 3.520414720877426,
      "grad_norm": 2.693312883377075,
      "learning_rate": 2.0094308373699434e-05,
      "loss": 0.33431472778320315,
      "memory(GiB)": 73.83,
      "step": 82170,
      "token_acc": 0.9264214046822743,
      "train_speed(iter/s)": 1.454337
    },
    {
      "epoch": 3.520628936206675,
      "grad_norm": 6.508995056152344,
      "learning_rate": 2.008891532939371e-05,
      "loss": 0.6221721649169922,
      "memory(GiB)": 73.83,
      "step": 82175,
      "token_acc": 0.8784722222222222,
      "train_speed(iter/s)": 1.454344
    },
    {
      "epoch": 3.520843151535924,
      "grad_norm": 3.7755191326141357,
      "learning_rate": 2.008352282695532e-05,
      "loss": 0.47798857688903806,
      "memory(GiB)": 73.83,
      "step": 82180,
      "token_acc": 0.8993506493506493,
      "train_speed(iter/s)": 1.454343
    },
    {
      "epoch": 3.521057366865173,
      "grad_norm": 3.4144976139068604,
      "learning_rate": 2.0078130866481998e-05,
      "loss": 0.3666471242904663,
      "memory(GiB)": 73.83,
      "step": 82185,
      "token_acc": 0.927007299270073,
      "train_speed(iter/s)": 1.454339
    },
    {
      "epoch": 3.521271582194422,
      "grad_norm": 1.104866623878479,
      "learning_rate": 2.0072739448071405e-05,
      "loss": 0.3251136302947998,
      "memory(GiB)": 73.83,
      "step": 82190,
      "token_acc": 0.927038626609442,
      "train_speed(iter/s)": 1.454338
    },
    {
      "epoch": 3.521485797523671,
      "grad_norm": 4.349210262298584,
      "learning_rate": 2.0067348571821214e-05,
      "loss": 0.22411050796508789,
      "memory(GiB)": 73.83,
      "step": 82195,
      "token_acc": 0.928125,
      "train_speed(iter/s)": 1.454338
    },
    {
      "epoch": 3.5217000128529197,
      "grad_norm": 2.6343040466308594,
      "learning_rate": 2.0061958237829075e-05,
      "loss": 0.3123350143432617,
      "memory(GiB)": 73.83,
      "step": 82200,
      "token_acc": 0.9361111111111111,
      "train_speed(iter/s)": 1.454351
    },
    {
      "epoch": 3.521914228182169,
      "grad_norm": 1.866194248199463,
      "learning_rate": 2.0056568446192636e-05,
      "loss": 0.1596990704536438,
      "memory(GiB)": 73.83,
      "step": 82205,
      "token_acc": 0.9642857142857143,
      "train_speed(iter/s)": 1.454346
    },
    {
      "epoch": 3.5221284435114177,
      "grad_norm": 3.7026336193084717,
      "learning_rate": 2.0051179197009568e-05,
      "loss": 0.3351642847061157,
      "memory(GiB)": 73.83,
      "step": 82210,
      "token_acc": 0.8923076923076924,
      "train_speed(iter/s)": 1.454346
    },
    {
      "epoch": 3.5223426588406666,
      "grad_norm": 3.932443618774414,
      "learning_rate": 2.0045790490377476e-05,
      "loss": 0.382962703704834,
      "memory(GiB)": 73.83,
      "step": 82215,
      "token_acc": 0.9033232628398792,
      "train_speed(iter/s)": 1.454343
    },
    {
      "epoch": 3.522556874169916,
      "grad_norm": 2.5704336166381836,
      "learning_rate": 2.0040402326393993e-05,
      "loss": 0.19385374784469606,
      "memory(GiB)": 73.83,
      "step": 82220,
      "token_acc": 0.9508771929824561,
      "train_speed(iter/s)": 1.454359
    },
    {
      "epoch": 3.5227710894991646,
      "grad_norm": 2.39162278175354,
      "learning_rate": 2.0035014705156723e-05,
      "loss": 0.1329616665840149,
      "memory(GiB)": 73.83,
      "step": 82225,
      "token_acc": 0.966789667896679,
      "train_speed(iter/s)": 1.45438
    },
    {
      "epoch": 3.5229853048284134,
      "grad_norm": 2.670222520828247,
      "learning_rate": 2.002962762676326e-05,
      "loss": 0.218384051322937,
      "memory(GiB)": 73.83,
      "step": 82230,
      "token_acc": 0.9465020576131687,
      "train_speed(iter/s)": 1.454383
    },
    {
      "epoch": 3.5231995201576627,
      "grad_norm": 2.5512523651123047,
      "learning_rate": 2.0024241091311218e-05,
      "loss": 0.2942268133163452,
      "memory(GiB)": 73.83,
      "step": 82235,
      "token_acc": 0.9282868525896414,
      "train_speed(iter/s)": 1.454392
    },
    {
      "epoch": 3.5234137354869115,
      "grad_norm": 2.785784959793091,
      "learning_rate": 2.0018855098898153e-05,
      "loss": 0.24587514400482177,
      "memory(GiB)": 73.83,
      "step": 82240,
      "token_acc": 0.9355932203389831,
      "train_speed(iter/s)": 1.454388
    },
    {
      "epoch": 3.5236279508161603,
      "grad_norm": 3.2760109901428223,
      "learning_rate": 2.001346964962167e-05,
      "loss": 0.42155656814575193,
      "memory(GiB)": 73.83,
      "step": 82245,
      "token_acc": 0.9180327868852459,
      "train_speed(iter/s)": 1.454395
    },
    {
      "epoch": 3.5238421661454096,
      "grad_norm": 2.1966803073883057,
      "learning_rate": 2.0008084743579313e-05,
      "loss": 0.46341261863708494,
      "memory(GiB)": 73.83,
      "step": 82250,
      "token_acc": 0.87890625,
      "train_speed(iter/s)": 1.454394
    },
    {
      "epoch": 3.5240563814746584,
      "grad_norm": 0.6726401448249817,
      "learning_rate": 2.0002700380868633e-05,
      "loss": 0.19932737350463867,
      "memory(GiB)": 73.83,
      "step": 82255,
      "token_acc": 0.9370629370629371,
      "train_speed(iter/s)": 1.454397
    },
    {
      "epoch": 3.524270596803907,
      "grad_norm": 6.563268184661865,
      "learning_rate": 1.999731656158718e-05,
      "loss": 0.2745058059692383,
      "memory(GiB)": 73.83,
      "step": 82260,
      "token_acc": 0.9307958477508651,
      "train_speed(iter/s)": 1.454408
    },
    {
      "epoch": 3.5244848121331565,
      "grad_norm": 1.7359968423843384,
      "learning_rate": 1.9991933285832465e-05,
      "loss": 0.27789485454559326,
      "memory(GiB)": 73.83,
      "step": 82265,
      "token_acc": 0.943217665615142,
      "train_speed(iter/s)": 1.45441
    },
    {
      "epoch": 3.5246990274624053,
      "grad_norm": 4.119586944580078,
      "learning_rate": 1.9986550553702045e-05,
      "loss": 0.22395100593566894,
      "memory(GiB)": 73.83,
      "step": 82270,
      "token_acc": 0.9448051948051948,
      "train_speed(iter/s)": 1.454417
    },
    {
      "epoch": 3.524913242791654,
      "grad_norm": 3.7875266075134277,
      "learning_rate": 1.998116836529341e-05,
      "loss": 0.2637214183807373,
      "memory(GiB)": 73.83,
      "step": 82275,
      "token_acc": 0.9306569343065694,
      "train_speed(iter/s)": 1.454422
    },
    {
      "epoch": 3.5251274581209033,
      "grad_norm": 1.5528676509857178,
      "learning_rate": 1.9975786720704083e-05,
      "loss": 0.2718015193939209,
      "memory(GiB)": 73.83,
      "step": 82280,
      "token_acc": 0.9328859060402684,
      "train_speed(iter/s)": 1.454426
    },
    {
      "epoch": 3.525341673450152,
      "grad_norm": 1.3916367292404175,
      "learning_rate": 1.9970405620031534e-05,
      "loss": 0.46739954948425294,
      "memory(GiB)": 73.83,
      "step": 82285,
      "token_acc": 0.8909090909090909,
      "train_speed(iter/s)": 1.454425
    },
    {
      "epoch": 3.525555888779401,
      "grad_norm": 2.3963780403137207,
      "learning_rate": 1.996502506337326e-05,
      "loss": 0.6622530937194824,
      "memory(GiB)": 73.83,
      "step": 82290,
      "token_acc": 0.869281045751634,
      "train_speed(iter/s)": 1.45444
    },
    {
      "epoch": 3.52577010410865,
      "grad_norm": 4.706532001495361,
      "learning_rate": 1.9959645050826714e-05,
      "loss": 0.2541104078292847,
      "memory(GiB)": 73.83,
      "step": 82295,
      "token_acc": 0.9518518518518518,
      "train_speed(iter/s)": 1.454443
    },
    {
      "epoch": 3.525984319437899,
      "grad_norm": 2.0859999656677246,
      "learning_rate": 1.995426558248938e-05,
      "loss": 0.4784048080444336,
      "memory(GiB)": 73.83,
      "step": 82300,
      "token_acc": 0.8888888888888888,
      "train_speed(iter/s)": 1.454445
    },
    {
      "epoch": 3.526198534767148,
      "grad_norm": 3.169126033782959,
      "learning_rate": 1.9948886658458727e-05,
      "loss": 0.30265939235687256,
      "memory(GiB)": 73.83,
      "step": 82305,
      "token_acc": 0.9411764705882353,
      "train_speed(iter/s)": 1.454449
    },
    {
      "epoch": 3.526412750096397,
      "grad_norm": 3.186474323272705,
      "learning_rate": 1.9943508278832186e-05,
      "loss": 0.2386218547821045,
      "memory(GiB)": 73.83,
      "step": 82310,
      "token_acc": 0.9558823529411765,
      "train_speed(iter/s)": 1.454457
    },
    {
      "epoch": 3.526626965425646,
      "grad_norm": 3.0825819969177246,
      "learning_rate": 1.993813044370718e-05,
      "loss": 0.6129711627960205,
      "memory(GiB)": 73.83,
      "step": 82315,
      "token_acc": 0.8717948717948718,
      "train_speed(iter/s)": 1.454457
    },
    {
      "epoch": 3.5268411807548947,
      "grad_norm": 2.9334146976470947,
      "learning_rate": 1.993275315318115e-05,
      "loss": 0.6878533840179444,
      "memory(GiB)": 73.83,
      "step": 82320,
      "token_acc": 0.8565573770491803,
      "train_speed(iter/s)": 1.454467
    },
    {
      "epoch": 3.527055396084144,
      "grad_norm": 6.68211555480957,
      "learning_rate": 1.992737640735148e-05,
      "loss": 0.6533576011657715,
      "memory(GiB)": 73.83,
      "step": 82325,
      "token_acc": 0.8348623853211009,
      "train_speed(iter/s)": 1.454469
    },
    {
      "epoch": 3.527269611413393,
      "grad_norm": 0.2237248569726944,
      "learning_rate": 1.992200020631561e-05,
      "loss": 0.188856303691864,
      "memory(GiB)": 73.83,
      "step": 82330,
      "token_acc": 0.9641791044776119,
      "train_speed(iter/s)": 1.45448
    },
    {
      "epoch": 3.5274838267426416,
      "grad_norm": 3.3940865993499756,
      "learning_rate": 1.9916624550170926e-05,
      "loss": 0.4009819507598877,
      "memory(GiB)": 73.83,
      "step": 82335,
      "token_acc": 0.9096385542168675,
      "train_speed(iter/s)": 1.454491
    },
    {
      "epoch": 3.527698042071891,
      "grad_norm": 2.807896614074707,
      "learning_rate": 1.9911249439014812e-05,
      "loss": 0.3260331153869629,
      "memory(GiB)": 73.83,
      "step": 82340,
      "token_acc": 0.9333333333333333,
      "train_speed(iter/s)": 1.454492
    },
    {
      "epoch": 3.5279122574011397,
      "grad_norm": 2.8024706840515137,
      "learning_rate": 1.9905874872944635e-05,
      "loss": 0.2421409845352173,
      "memory(GiB)": 73.83,
      "step": 82345,
      "token_acc": 0.9411764705882353,
      "train_speed(iter/s)": 1.45449
    },
    {
      "epoch": 3.5281264727303885,
      "grad_norm": 0.8328789472579956,
      "learning_rate": 1.9900500852057747e-05,
      "loss": 0.1778336763381958,
      "memory(GiB)": 73.83,
      "step": 82350,
      "token_acc": 0.96,
      "train_speed(iter/s)": 1.454492
    },
    {
      "epoch": 3.5283406880596377,
      "grad_norm": 0.28612324595451355,
      "learning_rate": 1.9895127376451544e-05,
      "loss": 0.14297913312911986,
      "memory(GiB)": 73.83,
      "step": 82355,
      "token_acc": 0.9711191335740073,
      "train_speed(iter/s)": 1.454492
    },
    {
      "epoch": 3.5285549033888866,
      "grad_norm": 4.520959854125977,
      "learning_rate": 1.9889754446223348e-05,
      "loss": 0.48426237106323244,
      "memory(GiB)": 73.83,
      "step": 82360,
      "token_acc": 0.9011406844106464,
      "train_speed(iter/s)": 1.454497
    },
    {
      "epoch": 3.5287691187181354,
      "grad_norm": 2.0157699584960938,
      "learning_rate": 1.9884382061470492e-05,
      "loss": 0.2771573781967163,
      "memory(GiB)": 73.83,
      "step": 82365,
      "token_acc": 0.9409282700421941,
      "train_speed(iter/s)": 1.454511
    },
    {
      "epoch": 3.5289833340473846,
      "grad_norm": 2.596770763397217,
      "learning_rate": 1.9879010222290314e-05,
      "loss": 0.45852932929992674,
      "memory(GiB)": 73.83,
      "step": 82370,
      "token_acc": 0.9115646258503401,
      "train_speed(iter/s)": 1.454513
    },
    {
      "epoch": 3.5291975493766334,
      "grad_norm": 4.5718512535095215,
      "learning_rate": 1.9873638928780093e-05,
      "loss": 0.38181052207946775,
      "memory(GiB)": 73.83,
      "step": 82375,
      "token_acc": 0.9249146757679181,
      "train_speed(iter/s)": 1.454518
    },
    {
      "epoch": 3.5294117647058822,
      "grad_norm": 0.34332212805747986,
      "learning_rate": 1.9868268181037185e-05,
      "loss": 0.27155656814575196,
      "memory(GiB)": 73.83,
      "step": 82380,
      "token_acc": 0.9444444444444444,
      "train_speed(iter/s)": 1.454526
    },
    {
      "epoch": 3.5296259800351315,
      "grad_norm": 1.7735415697097778,
      "learning_rate": 1.986289797915885e-05,
      "loss": 0.20013442039489746,
      "memory(GiB)": 73.83,
      "step": 82385,
      "token_acc": 0.956,
      "train_speed(iter/s)": 1.454529
    },
    {
      "epoch": 3.5298401953643803,
      "grad_norm": 5.445033550262451,
      "learning_rate": 1.9857528323242407e-05,
      "loss": 0.2673558235168457,
      "memory(GiB)": 73.83,
      "step": 82390,
      "token_acc": 0.9381107491856677,
      "train_speed(iter/s)": 1.454533
    },
    {
      "epoch": 3.530054410693629,
      "grad_norm": 2.5721893310546875,
      "learning_rate": 1.9852159213385113e-05,
      "loss": 0.3562350034713745,
      "memory(GiB)": 73.83,
      "step": 82395,
      "token_acc": 0.912751677852349,
      "train_speed(iter/s)": 1.454535
    },
    {
      "epoch": 3.5302686260228784,
      "grad_norm": 3.926835298538208,
      "learning_rate": 1.9846790649684232e-05,
      "loss": 0.230469274520874,
      "memory(GiB)": 73.83,
      "step": 82400,
      "token_acc": 0.948905109489051,
      "train_speed(iter/s)": 1.454548
    },
    {
      "epoch": 3.530482841352127,
      "grad_norm": 2.8885767459869385,
      "learning_rate": 1.9841422632237026e-05,
      "loss": 0.4327532768249512,
      "memory(GiB)": 73.83,
      "step": 82405,
      "token_acc": 0.9070422535211268,
      "train_speed(iter/s)": 1.45455
    },
    {
      "epoch": 3.530697056681376,
      "grad_norm": 4.523051738739014,
      "learning_rate": 1.9836055161140725e-05,
      "loss": 0.3707016944885254,
      "memory(GiB)": 73.83,
      "step": 82410,
      "token_acc": 0.9230769230769231,
      "train_speed(iter/s)": 1.454562
    },
    {
      "epoch": 3.5309112720106253,
      "grad_norm": 0.08148772269487381,
      "learning_rate": 1.9830688236492602e-05,
      "loss": 0.28222663402557374,
      "memory(GiB)": 73.83,
      "step": 82415,
      "token_acc": 0.9342560553633218,
      "train_speed(iter/s)": 1.454571
    },
    {
      "epoch": 3.531125487339874,
      "grad_norm": 20.77364730834961,
      "learning_rate": 1.9825321858389855e-05,
      "loss": 0.4390868186950684,
      "memory(GiB)": 73.83,
      "step": 82420,
      "token_acc": 0.9016949152542373,
      "train_speed(iter/s)": 1.454593
    },
    {
      "epoch": 3.531339702669123,
      "grad_norm": 2.9099950790405273,
      "learning_rate": 1.9819956026929715e-05,
      "loss": 0.22618741989135743,
      "memory(GiB)": 73.83,
      "step": 82425,
      "token_acc": 0.950530035335689,
      "train_speed(iter/s)": 1.454592
    },
    {
      "epoch": 3.531553917998372,
      "grad_norm": 4.9377312660217285,
      "learning_rate": 1.9814590742209382e-05,
      "loss": 0.33415923118591306,
      "memory(GiB)": 73.83,
      "step": 82430,
      "token_acc": 0.9138888888888889,
      "train_speed(iter/s)": 1.454592
    },
    {
      "epoch": 3.531768133327621,
      "grad_norm": 5.307802200317383,
      "learning_rate": 1.9809226004326032e-05,
      "loss": 0.3641620397567749,
      "memory(GiB)": 73.83,
      "step": 82435,
      "token_acc": 0.9444444444444444,
      "train_speed(iter/s)": 1.454607
    },
    {
      "epoch": 3.5319823486568698,
      "grad_norm": 3.591377019882202,
      "learning_rate": 1.9803861813376895e-05,
      "loss": 0.30177271366119385,
      "memory(GiB)": 73.83,
      "step": 82440,
      "token_acc": 0.9420289855072463,
      "train_speed(iter/s)": 1.454609
    },
    {
      "epoch": 3.532196563986119,
      "grad_norm": 2.857503652572632,
      "learning_rate": 1.9798498169459124e-05,
      "loss": 0.2678952693939209,
      "memory(GiB)": 73.83,
      "step": 82445,
      "token_acc": 0.9386281588447654,
      "train_speed(iter/s)": 1.454611
    },
    {
      "epoch": 3.532410779315368,
      "grad_norm": 4.231253623962402,
      "learning_rate": 1.9793135072669878e-05,
      "loss": 0.34844317436218264,
      "memory(GiB)": 73.83,
      "step": 82450,
      "token_acc": 0.9331103678929766,
      "train_speed(iter/s)": 1.454624
    },
    {
      "epoch": 3.5326249946446167,
      "grad_norm": 0.05932183191180229,
      "learning_rate": 1.978777252310634e-05,
      "loss": 0.21596174240112304,
      "memory(GiB)": 73.83,
      "step": 82455,
      "token_acc": 0.9479553903345725,
      "train_speed(iter/s)": 1.454625
    },
    {
      "epoch": 3.532839209973866,
      "grad_norm": 0.9688424468040466,
      "learning_rate": 1.9782410520865648e-05,
      "loss": 0.4393308639526367,
      "memory(GiB)": 73.83,
      "step": 82460,
      "token_acc": 0.9084745762711864,
      "train_speed(iter/s)": 1.454628
    },
    {
      "epoch": 3.5330534253031147,
      "grad_norm": 4.535739898681641,
      "learning_rate": 1.977704906604493e-05,
      "loss": 0.3548715591430664,
      "memory(GiB)": 73.83,
      "step": 82465,
      "token_acc": 0.9198606271777003,
      "train_speed(iter/s)": 1.454632
    },
    {
      "epoch": 3.5332676406323635,
      "grad_norm": 0.187859445810318,
      "learning_rate": 1.9771688158741302e-05,
      "loss": 0.4465212821960449,
      "memory(GiB)": 73.83,
      "step": 82470,
      "token_acc": 0.8613138686131386,
      "train_speed(iter/s)": 1.454629
    },
    {
      "epoch": 3.533481855961613,
      "grad_norm": 1.099095106124878,
      "learning_rate": 1.976632779905192e-05,
      "loss": 0.11815659999847412,
      "memory(GiB)": 73.83,
      "step": 82475,
      "token_acc": 0.9845679012345679,
      "train_speed(iter/s)": 1.454636
    },
    {
      "epoch": 3.5336960712908616,
      "grad_norm": 4.529973030090332,
      "learning_rate": 1.9760967987073876e-05,
      "loss": 0.3436870813369751,
      "memory(GiB)": 73.83,
      "step": 82480,
      "token_acc": 0.9144981412639405,
      "train_speed(iter/s)": 1.454641
    },
    {
      "epoch": 3.5339102866201104,
      "grad_norm": 2.262990713119507,
      "learning_rate": 1.9755608722904256e-05,
      "loss": 0.11489747762680054,
      "memory(GiB)": 73.83,
      "step": 82485,
      "token_acc": 0.9586466165413534,
      "train_speed(iter/s)": 1.454648
    },
    {
      "epoch": 3.5341245019493597,
      "grad_norm": 1.5356703996658325,
      "learning_rate": 1.975025000664016e-05,
      "loss": 0.20530059337615966,
      "memory(GiB)": 73.83,
      "step": 82490,
      "token_acc": 0.9558823529411765,
      "train_speed(iter/s)": 1.454656
    },
    {
      "epoch": 3.5343387172786085,
      "grad_norm": 1.9315327405929565,
      "learning_rate": 1.974489183837864e-05,
      "loss": 0.21419048309326172,
      "memory(GiB)": 73.83,
      "step": 82495,
      "token_acc": 0.950354609929078,
      "train_speed(iter/s)": 1.454664
    },
    {
      "epoch": 3.5345529326078573,
      "grad_norm": 2.939486265182495,
      "learning_rate": 1.9739534218216805e-05,
      "loss": 0.2525035858154297,
      "memory(GiB)": 73.83,
      "step": 82500,
      "token_acc": 0.9394812680115274,
      "train_speed(iter/s)": 1.454659
    },
    {
      "epoch": 3.5345529326078573,
      "eval_loss": 2.35441517829895,
      "eval_runtime": 11.3925,
      "eval_samples_per_second": 8.778,
      "eval_steps_per_second": 8.778,
      "eval_token_acc": 0.45758661887694146,
      "step": 82500
    },
    {
      "epoch": 3.5347671479371066,
      "grad_norm": 4.2282538414001465,
      "learning_rate": 1.97341771462517e-05,
      "loss": 0.5876214027404785,
      "memory(GiB)": 73.83,
      "step": 82505,
      "token_acc": 0.5652557319223986,
      "train_speed(iter/s)": 1.454343
    },
    {
      "epoch": 3.5349813632663554,
      "grad_norm": 8.17991828918457,
      "learning_rate": 1.9728820622580358e-05,
      "loss": 0.2664613723754883,
      "memory(GiB)": 73.83,
      "step": 82510,
      "token_acc": 0.9322033898305084,
      "train_speed(iter/s)": 1.454347
    },
    {
      "epoch": 3.535195578595604,
      "grad_norm": 4.789729595184326,
      "learning_rate": 1.9723464647299834e-05,
      "loss": 0.6136574745178223,
      "memory(GiB)": 73.83,
      "step": 82515,
      "token_acc": 0.8821656050955414,
      "train_speed(iter/s)": 1.454346
    },
    {
      "epoch": 3.5354097939248534,
      "grad_norm": 2.8816606998443604,
      "learning_rate": 1.9718109220507147e-05,
      "loss": 0.36656005382537843,
      "memory(GiB)": 73.83,
      "step": 82520,
      "token_acc": 0.9192982456140351,
      "train_speed(iter/s)": 1.454346
    },
    {
      "epoch": 3.5356240092541023,
      "grad_norm": 3.6177852153778076,
      "learning_rate": 1.97127543422993e-05,
      "loss": 0.5167116165161133,
      "memory(GiB)": 73.83,
      "step": 82525,
      "token_acc": 0.8903654485049833,
      "train_speed(iter/s)": 1.454356
    },
    {
      "epoch": 3.535838224583351,
      "grad_norm": 10.40047836303711,
      "learning_rate": 1.9707400012773318e-05,
      "loss": 0.18457144498825073,
      "memory(GiB)": 73.83,
      "step": 82530,
      "token_acc": 0.9567901234567902,
      "train_speed(iter/s)": 1.454367
    },
    {
      "epoch": 3.5360524399126003,
      "grad_norm": 3.5050692558288574,
      "learning_rate": 1.9702046232026222e-05,
      "loss": 0.4814561367034912,
      "memory(GiB)": 73.83,
      "step": 82535,
      "token_acc": 0.9215686274509803,
      "train_speed(iter/s)": 1.454379
    },
    {
      "epoch": 3.536266655241849,
      "grad_norm": 4.54662561416626,
      "learning_rate": 1.969669300015498e-05,
      "loss": 0.7454927444458008,
      "memory(GiB)": 73.83,
      "step": 82540,
      "token_acc": 0.8588235294117647,
      "train_speed(iter/s)": 1.454382
    },
    {
      "epoch": 3.536480870571098,
      "grad_norm": 6.319517135620117,
      "learning_rate": 1.9691340317256575e-05,
      "loss": 0.5823107719421386,
      "memory(GiB)": 73.83,
      "step": 82545,
      "token_acc": 0.8664596273291926,
      "train_speed(iter/s)": 1.454398
    },
    {
      "epoch": 3.536695085900347,
      "grad_norm": 2.806483030319214,
      "learning_rate": 1.9685988183427968e-05,
      "loss": 0.3139964580535889,
      "memory(GiB)": 73.83,
      "step": 82550,
      "token_acc": 0.9423076923076923,
      "train_speed(iter/s)": 1.454399
    },
    {
      "epoch": 3.536909301229596,
      "grad_norm": 4.204104900360107,
      "learning_rate": 1.9680636598766104e-05,
      "loss": 0.3377241611480713,
      "memory(GiB)": 73.83,
      "step": 82555,
      "token_acc": 0.9245283018867925,
      "train_speed(iter/s)": 1.454407
    },
    {
      "epoch": 3.537123516558845,
      "grad_norm": 4.173004627227783,
      "learning_rate": 1.967528556336797e-05,
      "loss": 0.3321798324584961,
      "memory(GiB)": 73.83,
      "step": 82560,
      "token_acc": 0.9359430604982206,
      "train_speed(iter/s)": 1.454412
    },
    {
      "epoch": 3.537337731888094,
      "grad_norm": 6.577325820922852,
      "learning_rate": 1.966993507733048e-05,
      "loss": 0.4091049671173096,
      "memory(GiB)": 73.83,
      "step": 82565,
      "token_acc": 0.9076433121019108,
      "train_speed(iter/s)": 1.454415
    },
    {
      "epoch": 3.537551947217343,
      "grad_norm": 2.5336148738861084,
      "learning_rate": 1.9664585140750574e-05,
      "loss": 0.3280740261077881,
      "memory(GiB)": 73.83,
      "step": 82570,
      "token_acc": 0.920265780730897,
      "train_speed(iter/s)": 1.454415
    },
    {
      "epoch": 3.5377661625465917,
      "grad_norm": 4.711719512939453,
      "learning_rate": 1.965923575372516e-05,
      "loss": 0.19516866207122802,
      "memory(GiB)": 73.83,
      "step": 82575,
      "token_acc": 0.9451476793248945,
      "train_speed(iter/s)": 1.454422
    },
    {
      "epoch": 3.537980377875841,
      "grad_norm": 5.178194999694824,
      "learning_rate": 1.965388691635114e-05,
      "loss": 0.5930856227874756,
      "memory(GiB)": 73.83,
      "step": 82580,
      "token_acc": 0.87890625,
      "train_speed(iter/s)": 1.454423
    },
    {
      "epoch": 3.5381945932050898,
      "grad_norm": 5.566661357879639,
      "learning_rate": 1.964853862872544e-05,
      "loss": 0.3426445245742798,
      "memory(GiB)": 73.83,
      "step": 82585,
      "token_acc": 0.913946587537092,
      "train_speed(iter/s)": 1.454426
    },
    {
      "epoch": 3.5384088085343386,
      "grad_norm": 3.2036776542663574,
      "learning_rate": 1.964319089094493e-05,
      "loss": 0.23098621368408204,
      "memory(GiB)": 73.83,
      "step": 82590,
      "token_acc": 0.9502923976608187,
      "train_speed(iter/s)": 1.454427
    },
    {
      "epoch": 3.538623023863588,
      "grad_norm": 0.20904022455215454,
      "learning_rate": 1.9637843703106503e-05,
      "loss": 0.2971553564071655,
      "memory(GiB)": 73.83,
      "step": 82595,
      "token_acc": 0.9475138121546961,
      "train_speed(iter/s)": 1.45443
    },
    {
      "epoch": 3.5388372391928367,
      "grad_norm": 2.556765079498291,
      "learning_rate": 1.9632497065306993e-05,
      "loss": 0.3328325986862183,
      "memory(GiB)": 73.83,
      "step": 82600,
      "token_acc": 0.9343629343629344,
      "train_speed(iter/s)": 1.454432
    },
    {
      "epoch": 3.5390514545220855,
      "grad_norm": 2.9842782020568848,
      "learning_rate": 1.962715097764331e-05,
      "loss": 0.284726619720459,
      "memory(GiB)": 73.83,
      "step": 82605,
      "token_acc": 0.9290322580645162,
      "train_speed(iter/s)": 1.454435
    },
    {
      "epoch": 3.5392656698513347,
      "grad_norm": 0.7353065609931946,
      "learning_rate": 1.9621805440212275e-05,
      "loss": 0.4976183891296387,
      "memory(GiB)": 73.83,
      "step": 82610,
      "token_acc": 0.8920308483290489,
      "train_speed(iter/s)": 1.454446
    },
    {
      "epoch": 3.5394798851805835,
      "grad_norm": 5.545009136199951,
      "learning_rate": 1.9616460453110712e-05,
      "loss": 0.46688551902770997,
      "memory(GiB)": 73.83,
      "step": 82615,
      "token_acc": 0.9243986254295533,
      "train_speed(iter/s)": 1.454457
    },
    {
      "epoch": 3.5396941005098324,
      "grad_norm": 2.3774805068969727,
      "learning_rate": 1.9611116016435495e-05,
      "loss": 0.26785621643066404,
      "memory(GiB)": 73.83,
      "step": 82620,
      "token_acc": 0.9491525423728814,
      "train_speed(iter/s)": 1.454463
    },
    {
      "epoch": 3.5399083158390816,
      "grad_norm": 1.4531787633895874,
      "learning_rate": 1.9605772130283413e-05,
      "loss": 0.3961701154708862,
      "memory(GiB)": 73.83,
      "step": 82625,
      "token_acc": 0.9236641221374046,
      "train_speed(iter/s)": 1.454474
    },
    {
      "epoch": 3.5401225311683304,
      "grad_norm": 3.822765588760376,
      "learning_rate": 1.9600428794751285e-05,
      "loss": 0.18073736429214476,
      "memory(GiB)": 73.83,
      "step": 82630,
      "token_acc": 0.9556313993174061,
      "train_speed(iter/s)": 1.454488
    },
    {
      "epoch": 3.5403367464975792,
      "grad_norm": 6.461400032043457,
      "learning_rate": 1.9595086009935903e-05,
      "loss": 0.4524085521697998,
      "memory(GiB)": 73.83,
      "step": 82635,
      "token_acc": 0.9291044776119403,
      "train_speed(iter/s)": 1.454487
    },
    {
      "epoch": 3.5405509618268285,
      "grad_norm": 4.98022985458374,
      "learning_rate": 1.9589743775934043e-05,
      "loss": 0.44606585502624513,
      "memory(GiB)": 73.83,
      "step": 82640,
      "token_acc": 0.9112627986348123,
      "train_speed(iter/s)": 1.454498
    },
    {
      "epoch": 3.5407651771560773,
      "grad_norm": 3.981722593307495,
      "learning_rate": 1.958440209284252e-05,
      "loss": 0.4202610492706299,
      "memory(GiB)": 73.83,
      "step": 82645,
      "token_acc": 0.9238410596026491,
      "train_speed(iter/s)": 1.454498
    },
    {
      "epoch": 3.540979392485326,
      "grad_norm": 2.983908176422119,
      "learning_rate": 1.9579060960758082e-05,
      "loss": 0.3347383975982666,
      "memory(GiB)": 73.83,
      "step": 82650,
      "token_acc": 0.9362549800796812,
      "train_speed(iter/s)": 1.454509
    },
    {
      "epoch": 3.5411936078145754,
      "grad_norm": 5.143003940582275,
      "learning_rate": 1.9573720379777498e-05,
      "loss": 0.2620274782180786,
      "memory(GiB)": 73.83,
      "step": 82655,
      "token_acc": 0.9407665505226481,
      "train_speed(iter/s)": 1.454518
    },
    {
      "epoch": 3.541407823143824,
      "grad_norm": 3.428283452987671,
      "learning_rate": 1.9568380349997506e-05,
      "loss": 0.2807153224945068,
      "memory(GiB)": 73.83,
      "step": 82660,
      "token_acc": 0.9176470588235294,
      "train_speed(iter/s)": 1.454517
    },
    {
      "epoch": 3.541622038473073,
      "grad_norm": 2.423985004425049,
      "learning_rate": 1.9563040871514854e-05,
      "loss": 0.2712676525115967,
      "memory(GiB)": 73.83,
      "step": 82665,
      "token_acc": 0.9413919413919414,
      "train_speed(iter/s)": 1.454521
    },
    {
      "epoch": 3.5418362538023223,
      "grad_norm": 4.127657413482666,
      "learning_rate": 1.955770194442625e-05,
      "loss": 0.17274234294891358,
      "memory(GiB)": 73.83,
      "step": 82670,
      "token_acc": 0.9566929133858267,
      "train_speed(iter/s)": 1.45452
    },
    {
      "epoch": 3.542050469131571,
      "grad_norm": 2.2236850261688232,
      "learning_rate": 1.9552363568828437e-05,
      "loss": 0.39564085006713867,
      "memory(GiB)": 73.83,
      "step": 82675,
      "token_acc": 0.9153605015673981,
      "train_speed(iter/s)": 1.454527
    },
    {
      "epoch": 3.54226468446082,
      "grad_norm": 2.5940864086151123,
      "learning_rate": 1.954702574481813e-05,
      "loss": 0.22694807052612304,
      "memory(GiB)": 73.83,
      "step": 82680,
      "token_acc": 0.9602272727272727,
      "train_speed(iter/s)": 1.454528
    },
    {
      "epoch": 3.542478899790069,
      "grad_norm": 4.146087169647217,
      "learning_rate": 1.954168847249202e-05,
      "loss": 0.31277573108673096,
      "memory(GiB)": 73.83,
      "step": 82685,
      "token_acc": 0.9391634980988594,
      "train_speed(iter/s)": 1.45453
    },
    {
      "epoch": 3.542693115119318,
      "grad_norm": 0.17823390662670135,
      "learning_rate": 1.95363517519468e-05,
      "loss": 0.38398215770721433,
      "memory(GiB)": 73.83,
      "step": 82690,
      "token_acc": 0.9169329073482428,
      "train_speed(iter/s)": 1.454533
    },
    {
      "epoch": 3.5429073304485668,
      "grad_norm": 1.5300134420394897,
      "learning_rate": 1.9531015583279143e-05,
      "loss": 0.19076429605484008,
      "memory(GiB)": 73.83,
      "step": 82695,
      "token_acc": 0.9648093841642229,
      "train_speed(iter/s)": 1.45454
    },
    {
      "epoch": 3.543121545777816,
      "grad_norm": 7.345556259155273,
      "learning_rate": 1.9525679966585703e-05,
      "loss": 0.403255558013916,
      "memory(GiB)": 73.83,
      "step": 82700,
      "token_acc": 0.928125,
      "train_speed(iter/s)": 1.454542
    },
    {
      "epoch": 3.543335761107065,
      "grad_norm": 3.318521738052368,
      "learning_rate": 1.9520344901963177e-05,
      "loss": 0.31938719749450684,
      "memory(GiB)": 73.83,
      "step": 82705,
      "token_acc": 0.9287749287749287,
      "train_speed(iter/s)": 1.454552
    },
    {
      "epoch": 3.5435499764363136,
      "grad_norm": 2.394274950027466,
      "learning_rate": 1.951501038950819e-05,
      "loss": 0.3487586975097656,
      "memory(GiB)": 73.83,
      "step": 82710,
      "token_acc": 0.9278996865203761,
      "train_speed(iter/s)": 1.454552
    },
    {
      "epoch": 3.543764191765563,
      "grad_norm": 1.366603970527649,
      "learning_rate": 1.9509676429317397e-05,
      "loss": 0.2715928077697754,
      "memory(GiB)": 73.83,
      "step": 82715,
      "token_acc": 0.9367088607594937,
      "train_speed(iter/s)": 1.454551
    },
    {
      "epoch": 3.5439784070948117,
      "grad_norm": 2.5646867752075195,
      "learning_rate": 1.950434302148741e-05,
      "loss": 0.4729043960571289,
      "memory(GiB)": 73.83,
      "step": 82720,
      "token_acc": 0.9337979094076655,
      "train_speed(iter/s)": 1.454565
    },
    {
      "epoch": 3.5441926224240605,
      "grad_norm": 0.23017120361328125,
      "learning_rate": 1.9499010166114838e-05,
      "loss": 0.08979672193527222,
      "memory(GiB)": 73.83,
      "step": 82725,
      "token_acc": 0.9791666666666666,
      "train_speed(iter/s)": 1.454573
    },
    {
      "epoch": 3.54440683775331,
      "grad_norm": 4.1108317375183105,
      "learning_rate": 1.9493677863296332e-05,
      "loss": 0.4562382698059082,
      "memory(GiB)": 73.83,
      "step": 82730,
      "token_acc": 0.9006024096385542,
      "train_speed(iter/s)": 1.454583
    },
    {
      "epoch": 3.5446210530825586,
      "grad_norm": 5.117690563201904,
      "learning_rate": 1.948834611312847e-05,
      "loss": 0.47574405670166015,
      "memory(GiB)": 73.83,
      "step": 82735,
      "token_acc": 0.8811188811188811,
      "train_speed(iter/s)": 1.454593
    },
    {
      "epoch": 3.5448352684118074,
      "grad_norm": 1.8388948440551758,
      "learning_rate": 1.9483014915707832e-05,
      "loss": 0.2162003993988037,
      "memory(GiB)": 73.83,
      "step": 82740,
      "token_acc": 0.9476190476190476,
      "train_speed(iter/s)": 1.45459
    },
    {
      "epoch": 3.5450494837410567,
      "grad_norm": 0.16069647669792175,
      "learning_rate": 1.9477684271130995e-05,
      "loss": 0.10869067907333374,
      "memory(GiB)": 73.83,
      "step": 82745,
      "token_acc": 0.9633699633699634,
      "train_speed(iter/s)": 1.454589
    },
    {
      "epoch": 3.5452636990703055,
      "grad_norm": 2.6425490379333496,
      "learning_rate": 1.9472354179494556e-05,
      "loss": 0.6520006656646729,
      "memory(GiB)": 73.83,
      "step": 82750,
      "token_acc": 0.8634686346863468,
      "train_speed(iter/s)": 1.45459
    },
    {
      "epoch": 3.5454779143995543,
      "grad_norm": 0.19709831476211548,
      "learning_rate": 1.9467024640895053e-05,
      "loss": 0.28069376945495605,
      "memory(GiB)": 73.83,
      "step": 82755,
      "token_acc": 0.9239130434782609,
      "train_speed(iter/s)": 1.454594
    },
    {
      "epoch": 3.5456921297288035,
      "grad_norm": 5.297754764556885,
      "learning_rate": 1.946169565542903e-05,
      "loss": 0.4118873119354248,
      "memory(GiB)": 73.83,
      "step": 82760,
      "token_acc": 0.9219330855018587,
      "train_speed(iter/s)": 1.454592
    },
    {
      "epoch": 3.5459063450580524,
      "grad_norm": 4.119978427886963,
      "learning_rate": 1.9456367223193055e-05,
      "loss": 0.3134270191192627,
      "memory(GiB)": 73.83,
      "step": 82765,
      "token_acc": 0.9247648902821317,
      "train_speed(iter/s)": 1.454597
    },
    {
      "epoch": 3.546120560387301,
      "grad_norm": 4.2476372718811035,
      "learning_rate": 1.945103934428364e-05,
      "loss": 0.3530858278274536,
      "memory(GiB)": 73.83,
      "step": 82770,
      "token_acc": 0.935251798561151,
      "train_speed(iter/s)": 1.454597
    },
    {
      "epoch": 3.5463347757165504,
      "grad_norm": 2.5471556186676025,
      "learning_rate": 1.9445712018797296e-05,
      "loss": 0.20343732833862305,
      "memory(GiB)": 73.83,
      "step": 82775,
      "token_acc": 0.9509433962264151,
      "train_speed(iter/s)": 1.454594
    },
    {
      "epoch": 3.5465489910457992,
      "grad_norm": 1.0826584100723267,
      "learning_rate": 1.944038524683055e-05,
      "loss": 0.47513432502746583,
      "memory(GiB)": 73.83,
      "step": 82780,
      "token_acc": 0.8688046647230321,
      "train_speed(iter/s)": 1.454597
    },
    {
      "epoch": 3.546763206375048,
      "grad_norm": 0.47294384241104126,
      "learning_rate": 1.9435059028479874e-05,
      "loss": 0.3533350944519043,
      "memory(GiB)": 73.83,
      "step": 82785,
      "token_acc": 0.9156118143459916,
      "train_speed(iter/s)": 1.454598
    },
    {
      "epoch": 3.5469774217042973,
      "grad_norm": 1.9201053380966187,
      "learning_rate": 1.942973336384179e-05,
      "loss": 0.5789191246032714,
      "memory(GiB)": 73.83,
      "step": 82790,
      "token_acc": 0.8986486486486487,
      "train_speed(iter/s)": 1.454603
    },
    {
      "epoch": 3.547191637033546,
      "grad_norm": 1.910318374633789,
      "learning_rate": 1.9424408253012765e-05,
      "loss": 0.28914432525634765,
      "memory(GiB)": 73.83,
      "step": 82795,
      "token_acc": 0.9025270758122743,
      "train_speed(iter/s)": 1.454603
    },
    {
      "epoch": 3.547405852362795,
      "grad_norm": 8.661239624023438,
      "learning_rate": 1.941908369608927e-05,
      "loss": 0.25398266315460205,
      "memory(GiB)": 73.83,
      "step": 82800,
      "token_acc": 0.9360902255639098,
      "train_speed(iter/s)": 1.454619
    },
    {
      "epoch": 3.547620067692044,
      "grad_norm": 4.250175952911377,
      "learning_rate": 1.9413759693167754e-05,
      "loss": 0.29757013320922854,
      "memory(GiB)": 73.83,
      "step": 82805,
      "token_acc": 0.9213836477987422,
      "train_speed(iter/s)": 1.454621
    },
    {
      "epoch": 3.547834283021293,
      "grad_norm": 2.251918315887451,
      "learning_rate": 1.940843624434468e-05,
      "loss": 0.2865839242935181,
      "memory(GiB)": 73.83,
      "step": 82810,
      "token_acc": 0.939209726443769,
      "train_speed(iter/s)": 1.454623
    },
    {
      "epoch": 3.548048498350542,
      "grad_norm": 12.606675148010254,
      "learning_rate": 1.940311334971646e-05,
      "loss": 0.3350926160812378,
      "memory(GiB)": 73.83,
      "step": 82815,
      "token_acc": 0.9375,
      "train_speed(iter/s)": 1.454633
    },
    {
      "epoch": 3.548262713679791,
      "grad_norm": 1.340903878211975,
      "learning_rate": 1.9397791009379546e-05,
      "loss": 0.2777761936187744,
      "memory(GiB)": 73.83,
      "step": 82820,
      "token_acc": 0.951048951048951,
      "train_speed(iter/s)": 1.454646
    },
    {
      "epoch": 3.54847692900904,
      "grad_norm": 1.7114394903182983,
      "learning_rate": 1.939246922343037e-05,
      "loss": 0.24206264019012452,
      "memory(GiB)": 73.83,
      "step": 82825,
      "token_acc": 0.935064935064935,
      "train_speed(iter/s)": 1.454646
    },
    {
      "epoch": 3.5486911443382887,
      "grad_norm": 2.013950824737549,
      "learning_rate": 1.9387147991965327e-05,
      "loss": 0.29332928657531737,
      "memory(GiB)": 73.83,
      "step": 82830,
      "token_acc": 0.927536231884058,
      "train_speed(iter/s)": 1.454652
    },
    {
      "epoch": 3.548905359667538,
      "grad_norm": 3.9970319271087646,
      "learning_rate": 1.9381827315080815e-05,
      "loss": 0.3624089002609253,
      "memory(GiB)": 73.83,
      "step": 82835,
      "token_acc": 0.9250720461095101,
      "train_speed(iter/s)": 1.454652
    },
    {
      "epoch": 3.5491195749967868,
      "grad_norm": 0.9062240719795227,
      "learning_rate": 1.9376507192873223e-05,
      "loss": 0.19256811141967772,
      "memory(GiB)": 73.83,
      "step": 82840,
      "token_acc": 0.946969696969697,
      "train_speed(iter/s)": 1.454657
    },
    {
      "epoch": 3.5493337903260356,
      "grad_norm": 4.381115436553955,
      "learning_rate": 1.9371187625438913e-05,
      "loss": 0.328546404838562,
      "memory(GiB)": 73.83,
      "step": 82845,
      "token_acc": 0.9298780487804879,
      "train_speed(iter/s)": 1.454666
    },
    {
      "epoch": 3.549548005655285,
      "grad_norm": 1.9053192138671875,
      "learning_rate": 1.9365868612874287e-05,
      "loss": 0.5042897701263428,
      "memory(GiB)": 73.83,
      "step": 82850,
      "token_acc": 0.9140893470790378,
      "train_speed(iter/s)": 1.45467
    },
    {
      "epoch": 3.5497622209845336,
      "grad_norm": 5.121315002441406,
      "learning_rate": 1.9360550155275693e-05,
      "loss": 0.6331744194030762,
      "memory(GiB)": 73.83,
      "step": 82855,
      "token_acc": 0.8703703703703703,
      "train_speed(iter/s)": 1.454685
    },
    {
      "epoch": 3.5499764363137825,
      "grad_norm": 5.05047082901001,
      "learning_rate": 1.9355232252739474e-05,
      "loss": 0.6306487083435058,
      "memory(GiB)": 73.83,
      "step": 82860,
      "token_acc": 0.8823529411764706,
      "train_speed(iter/s)": 1.454695
    },
    {
      "epoch": 3.5501906516430317,
      "grad_norm": 3.516031503677368,
      "learning_rate": 1.9349914905361964e-05,
      "loss": 0.26174657344818114,
      "memory(GiB)": 73.83,
      "step": 82865,
      "token_acc": 0.9389312977099237,
      "train_speed(iter/s)": 1.454697
    },
    {
      "epoch": 3.5504048669722805,
      "grad_norm": 1.3436590433120728,
      "learning_rate": 1.9344598113239488e-05,
      "loss": 0.32530989646911623,
      "memory(GiB)": 73.83,
      "step": 82870,
      "token_acc": 0.9243421052631579,
      "train_speed(iter/s)": 1.4547
    },
    {
      "epoch": 3.5506190823015293,
      "grad_norm": 4.4822893142700195,
      "learning_rate": 1.933928187646839e-05,
      "loss": 1.1711520195007323,
      "memory(GiB)": 73.83,
      "step": 82875,
      "token_acc": 0.8364779874213837,
      "train_speed(iter/s)": 1.454698
    },
    {
      "epoch": 3.5508332976307786,
      "grad_norm": 5.5832319259643555,
      "learning_rate": 1.9333966195144958e-05,
      "loss": 0.4131014347076416,
      "memory(GiB)": 73.83,
      "step": 82880,
      "token_acc": 0.926530612244898,
      "train_speed(iter/s)": 1.454702
    },
    {
      "epoch": 3.5510475129600274,
      "grad_norm": 5.0093584060668945,
      "learning_rate": 1.93286510693655e-05,
      "loss": 0.3403113603591919,
      "memory(GiB)": 73.83,
      "step": 82885,
      "token_acc": 0.9084249084249084,
      "train_speed(iter/s)": 1.454706
    },
    {
      "epoch": 3.551261728289276,
      "grad_norm": 1.2177108526229858,
      "learning_rate": 1.93233364992263e-05,
      "loss": 0.5297760009765625,
      "memory(GiB)": 73.83,
      "step": 82890,
      "token_acc": 0.9040247678018576,
      "train_speed(iter/s)": 1.454698
    },
    {
      "epoch": 3.5514759436185255,
      "grad_norm": 3.495889902114868,
      "learning_rate": 1.9318022484823618e-05,
      "loss": 0.34728469848632815,
      "memory(GiB)": 73.83,
      "step": 82895,
      "token_acc": 0.9285714285714286,
      "train_speed(iter/s)": 1.454703
    },
    {
      "epoch": 3.5516901589477743,
      "grad_norm": 4.941993236541748,
      "learning_rate": 1.9312709026253756e-05,
      "loss": 0.33500194549560547,
      "memory(GiB)": 73.83,
      "step": 82900,
      "token_acc": 0.9219858156028369,
      "train_speed(iter/s)": 1.454706
    },
    {
      "epoch": 3.551904374277023,
      "grad_norm": 2.5807418823242188,
      "learning_rate": 1.9307396123612942e-05,
      "loss": 0.23053793907165526,
      "memory(GiB)": 73.83,
      "step": 82905,
      "token_acc": 0.9464285714285714,
      "train_speed(iter/s)": 1.454717
    },
    {
      "epoch": 3.5521185896062724,
      "grad_norm": 4.91776704788208,
      "learning_rate": 1.9302083776997454e-05,
      "loss": 0.36643271446228026,
      "memory(GiB)": 73.83,
      "step": 82910,
      "token_acc": 0.9227941176470589,
      "train_speed(iter/s)": 1.45473
    },
    {
      "epoch": 3.552332804935521,
      "grad_norm": 4.1877007484436035,
      "learning_rate": 1.929677198650352e-05,
      "loss": 0.28546738624572754,
      "memory(GiB)": 73.83,
      "step": 82915,
      "token_acc": 0.935064935064935,
      "train_speed(iter/s)": 1.454739
    },
    {
      "epoch": 3.55254702026477,
      "grad_norm": 2.09858775138855,
      "learning_rate": 1.929146075222736e-05,
      "loss": 0.2902543306350708,
      "memory(GiB)": 73.83,
      "step": 82920,
      "token_acc": 0.9428571428571428,
      "train_speed(iter/s)": 1.454743
    },
    {
      "epoch": 3.5527612355940192,
      "grad_norm": 2.036283493041992,
      "learning_rate": 1.9286150074265198e-05,
      "loss": 0.17223151922225952,
      "memory(GiB)": 73.83,
      "step": 82925,
      "token_acc": 0.9556313993174061,
      "train_speed(iter/s)": 1.454751
    },
    {
      "epoch": 3.552975450923268,
      "grad_norm": 3.284486770629883,
      "learning_rate": 1.928083995271322e-05,
      "loss": 0.2189486026763916,
      "memory(GiB)": 73.83,
      "step": 82930,
      "token_acc": 0.9539007092198581,
      "train_speed(iter/s)": 1.454756
    },
    {
      "epoch": 3.553189666252517,
      "grad_norm": 2.149376153945923,
      "learning_rate": 1.9275530387667655e-05,
      "loss": 0.2705267667770386,
      "memory(GiB)": 73.83,
      "step": 82935,
      "token_acc": 0.943342776203966,
      "train_speed(iter/s)": 1.454758
    },
    {
      "epoch": 3.553403881581766,
      "grad_norm": 2.4914627075195312,
      "learning_rate": 1.927022137922469e-05,
      "loss": 0.3102184534072876,
      "memory(GiB)": 73.83,
      "step": 82940,
      "token_acc": 0.9326923076923077,
      "train_speed(iter/s)": 1.454772
    },
    {
      "epoch": 3.553618096911015,
      "grad_norm": 3.8765177726745605,
      "learning_rate": 1.9264912927480483e-05,
      "loss": 0.31335935592651365,
      "memory(GiB)": 73.83,
      "step": 82945,
      "token_acc": 0.9335260115606936,
      "train_speed(iter/s)": 1.454784
    },
    {
      "epoch": 3.5538323122402637,
      "grad_norm": 4.67002010345459,
      "learning_rate": 1.9259605032531213e-05,
      "loss": 0.4019003391265869,
      "memory(GiB)": 73.83,
      "step": 82950,
      "token_acc": 0.8952095808383234,
      "train_speed(iter/s)": 1.454795
    },
    {
      "epoch": 3.554046527569513,
      "grad_norm": 7.0305047035217285,
      "learning_rate": 1.9254297694473038e-05,
      "loss": 0.36602885723114015,
      "memory(GiB)": 73.83,
      "step": 82955,
      "token_acc": 0.9087301587301587,
      "train_speed(iter/s)": 1.454808
    },
    {
      "epoch": 3.554260742898762,
      "grad_norm": 4.073988437652588,
      "learning_rate": 1.9248990913402083e-05,
      "loss": 0.3614218235015869,
      "memory(GiB)": 73.83,
      "step": 82960,
      "token_acc": 0.9173553719008265,
      "train_speed(iter/s)": 1.454821
    },
    {
      "epoch": 3.5544749582280106,
      "grad_norm": 3.0530757904052734,
      "learning_rate": 1.9243684689414498e-05,
      "loss": 0.1022728443145752,
      "memory(GiB)": 73.83,
      "step": 82965,
      "token_acc": 0.975177304964539,
      "train_speed(iter/s)": 1.454821
    },
    {
      "epoch": 3.55468917355726,
      "grad_norm": 2.7092041969299316,
      "learning_rate": 1.923837902260644e-05,
      "loss": 0.3971680164337158,
      "memory(GiB)": 73.83,
      "step": 82970,
      "token_acc": 0.9169435215946844,
      "train_speed(iter/s)": 1.454827
    },
    {
      "epoch": 3.5549033888865087,
      "grad_norm": 2.406215190887451,
      "learning_rate": 1.9233073913074002e-05,
      "loss": 0.296903395652771,
      "memory(GiB)": 73.83,
      "step": 82975,
      "token_acc": 0.9423076923076923,
      "train_speed(iter/s)": 1.454831
    },
    {
      "epoch": 3.5551176042157575,
      "grad_norm": 2.089139938354492,
      "learning_rate": 1.9227769360913296e-05,
      "loss": 0.18735543489456177,
      "memory(GiB)": 73.83,
      "step": 82980,
      "token_acc": 0.9464285714285714,
      "train_speed(iter/s)": 1.454834
    },
    {
      "epoch": 3.5553318195450068,
      "grad_norm": 1.3975841999053955,
      "learning_rate": 1.9222465366220406e-05,
      "loss": 0.2675034046173096,
      "memory(GiB)": 73.83,
      "step": 82985,
      "token_acc": 0.9404255319148936,
      "train_speed(iter/s)": 1.454837
    },
    {
      "epoch": 3.5555460348742556,
      "grad_norm": 5.6203413009643555,
      "learning_rate": 1.9217161929091415e-05,
      "loss": 0.41572394371032717,
      "memory(GiB)": 73.83,
      "step": 82990,
      "token_acc": 0.9056603773584906,
      "train_speed(iter/s)": 1.454844
    },
    {
      "epoch": 3.5557602502035044,
      "grad_norm": 4.204762935638428,
      "learning_rate": 1.921185904962243e-05,
      "loss": 0.840580940246582,
      "memory(GiB)": 73.83,
      "step": 82995,
      "token_acc": 0.8346456692913385,
      "train_speed(iter/s)": 1.454842
    },
    {
      "epoch": 3.5559744655327536,
      "grad_norm": 2.863253593444824,
      "learning_rate": 1.9206556727909496e-05,
      "loss": 0.19037904739379882,
      "memory(GiB)": 73.83,
      "step": 83000,
      "token_acc": 0.9594594594594594,
      "train_speed(iter/s)": 1.454844
    },
    {
      "epoch": 3.5559744655327536,
      "eval_loss": 2.273937463760376,
      "eval_runtime": 10.8737,
      "eval_samples_per_second": 9.197,
      "eval_steps_per_second": 9.197,
      "eval_token_acc": 0.4667609618104668,
      "step": 83000
    },
    {
      "epoch": 3.5561886808620025,
      "grad_norm": 4.325973033905029,
      "learning_rate": 1.9201254964048675e-05,
      "loss": 0.6652445316314697,
      "memory(GiB)": 73.83,
      "step": 83005,
      "token_acc": 0.597,
      "train_speed(iter/s)": 1.454551
    },
    {
      "epoch": 3.5564028961912513,
      "grad_norm": 0.7960842251777649,
      "learning_rate": 1.9195953758136015e-05,
      "loss": 0.30016422271728516,
      "memory(GiB)": 73.83,
      "step": 83010,
      "token_acc": 0.9182879377431906,
      "train_speed(iter/s)": 1.454565
    },
    {
      "epoch": 3.5566171115205005,
      "grad_norm": 1.838743805885315,
      "learning_rate": 1.9190653110267532e-05,
      "loss": 0.25514869689941405,
      "memory(GiB)": 73.83,
      "step": 83015,
      "token_acc": 0.9423076923076923,
      "train_speed(iter/s)": 1.454569
    },
    {
      "epoch": 3.5568313268497493,
      "grad_norm": 1.0332485437393188,
      "learning_rate": 1.9185353020539288e-05,
      "loss": 0.48401570320129395,
      "memory(GiB)": 73.83,
      "step": 83020,
      "token_acc": 0.9128440366972477,
      "train_speed(iter/s)": 1.454574
    },
    {
      "epoch": 3.557045542178998,
      "grad_norm": 4.520545959472656,
      "learning_rate": 1.9180053489047273e-05,
      "loss": 0.6448479652404785,
      "memory(GiB)": 73.83,
      "step": 83025,
      "token_acc": 0.8598382749326146,
      "train_speed(iter/s)": 1.454597
    },
    {
      "epoch": 3.5572597575082474,
      "grad_norm": 2.200951337814331,
      "learning_rate": 1.9174754515887506e-05,
      "loss": 0.4420962333679199,
      "memory(GiB)": 73.83,
      "step": 83030,
      "token_acc": 0.9005681818181818,
      "train_speed(iter/s)": 1.454611
    },
    {
      "epoch": 3.5574739728374962,
      "grad_norm": 3.6328885555267334,
      "learning_rate": 1.9169456101155974e-05,
      "loss": 0.40580196380615235,
      "memory(GiB)": 73.83,
      "step": 83035,
      "token_acc": 0.9214285714285714,
      "train_speed(iter/s)": 1.454612
    },
    {
      "epoch": 3.557688188166745,
      "grad_norm": 0.32057109475135803,
      "learning_rate": 1.9164158244948654e-05,
      "loss": 0.2165534019470215,
      "memory(GiB)": 73.83,
      "step": 83040,
      "token_acc": 0.9594594594594594,
      "train_speed(iter/s)": 1.454612
    },
    {
      "epoch": 3.5579024034959943,
      "grad_norm": 5.127159595489502,
      "learning_rate": 1.9158860947361545e-05,
      "loss": 0.5256817817687989,
      "memory(GiB)": 73.83,
      "step": 83045,
      "token_acc": 0.8843537414965986,
      "train_speed(iter/s)": 1.454614
    },
    {
      "epoch": 3.558116618825243,
      "grad_norm": 0.6617876887321472,
      "learning_rate": 1.9153564208490588e-05,
      "loss": 0.3177895784378052,
      "memory(GiB)": 73.83,
      "step": 83050,
      "token_acc": 0.9178571428571428,
      "train_speed(iter/s)": 1.454629
    },
    {
      "epoch": 3.558330834154492,
      "grad_norm": 0.13228046894073486,
      "learning_rate": 1.9148268028431772e-05,
      "loss": 0.20580461025238037,
      "memory(GiB)": 73.83,
      "step": 83055,
      "token_acc": 0.9418604651162791,
      "train_speed(iter/s)": 1.454632
    },
    {
      "epoch": 3.558545049483741,
      "grad_norm": 3.1403517723083496,
      "learning_rate": 1.9142972407281017e-05,
      "loss": 0.18877851963043213,
      "memory(GiB)": 73.83,
      "step": 83060,
      "token_acc": 0.9611307420494699,
      "train_speed(iter/s)": 1.454635
    },
    {
      "epoch": 3.55875926481299,
      "grad_norm": 1.4625861644744873,
      "learning_rate": 1.9137677345134262e-05,
      "loss": 0.18824415206909179,
      "memory(GiB)": 73.83,
      "step": 83065,
      "token_acc": 0.955719557195572,
      "train_speed(iter/s)": 1.454641
    },
    {
      "epoch": 3.558973480142239,
      "grad_norm": 4.848532676696777,
      "learning_rate": 1.9132382842087438e-05,
      "loss": 0.7871330261230469,
      "memory(GiB)": 73.83,
      "step": 83070,
      "token_acc": 0.8527397260273972,
      "train_speed(iter/s)": 1.454638
    },
    {
      "epoch": 3.559187695471488,
      "grad_norm": 7.5791335105896,
      "learning_rate": 1.9127088898236434e-05,
      "loss": 0.47654151916503906,
      "memory(GiB)": 73.83,
      "step": 83075,
      "token_acc": 0.9084249084249084,
      "train_speed(iter/s)": 1.454638
    },
    {
      "epoch": 3.559401910800737,
      "grad_norm": 5.2572760581970215,
      "learning_rate": 1.912179551367719e-05,
      "loss": 0.2736239433288574,
      "memory(GiB)": 73.83,
      "step": 83080,
      "token_acc": 0.936,
      "train_speed(iter/s)": 1.454637
    },
    {
      "epoch": 3.5596161261299857,
      "grad_norm": 1.441311001777649,
      "learning_rate": 1.9116502688505593e-05,
      "loss": 0.2443466901779175,
      "memory(GiB)": 73.83,
      "step": 83085,
      "token_acc": 0.9540983606557377,
      "train_speed(iter/s)": 1.454642
    },
    {
      "epoch": 3.559830341459235,
      "grad_norm": 6.587320327758789,
      "learning_rate": 1.911121042281752e-05,
      "loss": 0.5177589416503906,
      "memory(GiB)": 73.83,
      "step": 83090,
      "token_acc": 0.9144736842105263,
      "train_speed(iter/s)": 1.454647
    },
    {
      "epoch": 3.5600445567884837,
      "grad_norm": 3.483332872390747,
      "learning_rate": 1.9105918716708843e-05,
      "loss": 0.27240495681762694,
      "memory(GiB)": 73.83,
      "step": 83095,
      "token_acc": 0.918429003021148,
      "train_speed(iter/s)": 1.454659
    },
    {
      "epoch": 3.5602587721177326,
      "grad_norm": 1.44533109664917,
      "learning_rate": 1.910062757027543e-05,
      "loss": 0.30533835887908933,
      "memory(GiB)": 73.83,
      "step": 83100,
      "token_acc": 0.9331210191082803,
      "train_speed(iter/s)": 1.454665
    },
    {
      "epoch": 3.560472987446982,
      "grad_norm": 1.771960735321045,
      "learning_rate": 1.9095336983613122e-05,
      "loss": 0.13405508995056153,
      "memory(GiB)": 73.83,
      "step": 83105,
      "token_acc": 0.968503937007874,
      "train_speed(iter/s)": 1.45467
    },
    {
      "epoch": 3.5606872027762306,
      "grad_norm": 4.657987594604492,
      "learning_rate": 1.9090046956817786e-05,
      "loss": 0.11787590980529786,
      "memory(GiB)": 73.83,
      "step": 83110,
      "token_acc": 0.9672727272727273,
      "train_speed(iter/s)": 1.454674
    },
    {
      "epoch": 3.5609014181054794,
      "grad_norm": 3.872509002685547,
      "learning_rate": 1.908475748998523e-05,
      "loss": 0.36898603439331057,
      "memory(GiB)": 73.83,
      "step": 83115,
      "token_acc": 0.951310861423221,
      "train_speed(iter/s)": 1.454673
    },
    {
      "epoch": 3.5611156334347287,
      "grad_norm": 2.3780064582824707,
      "learning_rate": 1.9079468583211314e-05,
      "loss": 0.32010855674743655,
      "memory(GiB)": 73.83,
      "step": 83120,
      "token_acc": 0.9347079037800687,
      "train_speed(iter/s)": 1.454678
    },
    {
      "epoch": 3.5613298487639775,
      "grad_norm": 2.199603796005249,
      "learning_rate": 1.9074180236591826e-05,
      "loss": 0.18745445013046264,
      "memory(GiB)": 73.83,
      "step": 83125,
      "token_acc": 0.9580838323353293,
      "train_speed(iter/s)": 1.454685
    },
    {
      "epoch": 3.5615440640932263,
      "grad_norm": 4.034177303314209,
      "learning_rate": 1.9068892450222577e-05,
      "loss": 0.6678765773773193,
      "memory(GiB)": 73.83,
      "step": 83130,
      "token_acc": 0.850415512465374,
      "train_speed(iter/s)": 1.454705
    },
    {
      "epoch": 3.5617582794224756,
      "grad_norm": 6.844472408294678,
      "learning_rate": 1.9063605224199333e-05,
      "loss": 0.7936118125915528,
      "memory(GiB)": 73.83,
      "step": 83135,
      "token_acc": 0.8184143222506394,
      "train_speed(iter/s)": 1.45471
    },
    {
      "epoch": 3.5619724947517244,
      "grad_norm": 0.7377251386642456,
      "learning_rate": 1.9058318558617927e-05,
      "loss": 0.204569673538208,
      "memory(GiB)": 73.83,
      "step": 83140,
      "token_acc": 0.9484536082474226,
      "train_speed(iter/s)": 1.454711
    },
    {
      "epoch": 3.562186710080973,
      "grad_norm": 3.5014166831970215,
      "learning_rate": 1.9053032453574098e-05,
      "loss": 0.3721733808517456,
      "memory(GiB)": 73.83,
      "step": 83145,
      "token_acc": 0.9290540540540541,
      "train_speed(iter/s)": 1.454713
    },
    {
      "epoch": 3.5624009254102225,
      "grad_norm": 6.5488152503967285,
      "learning_rate": 1.9047746909163623e-05,
      "loss": 0.3844463348388672,
      "memory(GiB)": 73.83,
      "step": 83150,
      "token_acc": 0.9266666666666666,
      "train_speed(iter/s)": 1.454715
    },
    {
      "epoch": 3.5626151407394713,
      "grad_norm": 4.683045387268066,
      "learning_rate": 1.9042461925482248e-05,
      "loss": 0.45168204307556153,
      "memory(GiB)": 73.83,
      "step": 83155,
      "token_acc": 0.87890625,
      "train_speed(iter/s)": 1.45472
    },
    {
      "epoch": 3.56282935606872,
      "grad_norm": 2.0080182552337646,
      "learning_rate": 1.9037177502625697e-05,
      "loss": 0.4480120658874512,
      "memory(GiB)": 73.83,
      "step": 83160,
      "token_acc": 0.9125475285171103,
      "train_speed(iter/s)": 1.454723
    },
    {
      "epoch": 3.5630435713979693,
      "grad_norm": 3.441713333129883,
      "learning_rate": 1.9031893640689735e-05,
      "loss": 0.31622045040130614,
      "memory(GiB)": 73.83,
      "step": 83165,
      "token_acc": 0.9262295081967213,
      "train_speed(iter/s)": 1.454729
    },
    {
      "epoch": 3.563257786727218,
      "grad_norm": 2.5885865688323975,
      "learning_rate": 1.9026610339770074e-05,
      "loss": 0.32485575675964357,
      "memory(GiB)": 73.83,
      "step": 83170,
      "token_acc": 0.9219330855018587,
      "train_speed(iter/s)": 1.454735
    },
    {
      "epoch": 3.563472002056467,
      "grad_norm": 3.747483253479004,
      "learning_rate": 1.902132759996242e-05,
      "loss": 0.29209222793579104,
      "memory(GiB)": 73.83,
      "step": 83175,
      "token_acc": 0.9194630872483222,
      "train_speed(iter/s)": 1.454747
    },
    {
      "epoch": 3.5636862173857162,
      "grad_norm": 5.113152980804443,
      "learning_rate": 1.9016045421362478e-05,
      "loss": 0.5367871284484863,
      "memory(GiB)": 73.83,
      "step": 83180,
      "token_acc": 0.8865979381443299,
      "train_speed(iter/s)": 1.454749
    },
    {
      "epoch": 3.563900432714965,
      "grad_norm": 1.6357795000076294,
      "learning_rate": 1.901076380406594e-05,
      "loss": 0.5205078125,
      "memory(GiB)": 73.83,
      "step": 83185,
      "token_acc": 0.8746081504702194,
      "train_speed(iter/s)": 1.454751
    },
    {
      "epoch": 3.564114648044214,
      "grad_norm": 1.8484914302825928,
      "learning_rate": 1.9005482748168468e-05,
      "loss": 0.3461295127868652,
      "memory(GiB)": 73.83,
      "step": 83190,
      "token_acc": 0.9411764705882353,
      "train_speed(iter/s)": 1.454756
    },
    {
      "epoch": 3.564328863373463,
      "grad_norm": 1.899789810180664,
      "learning_rate": 1.900020225376575e-05,
      "loss": 0.4665538787841797,
      "memory(GiB)": 73.83,
      "step": 83195,
      "token_acc": 0.9172661870503597,
      "train_speed(iter/s)": 1.454759
    },
    {
      "epoch": 3.564543078702712,
      "grad_norm": 1.2041634321212769,
      "learning_rate": 1.8994922320953462e-05,
      "loss": 0.1408810019493103,
      "memory(GiB)": 73.83,
      "step": 83200,
      "token_acc": 0.9516728624535316,
      "train_speed(iter/s)": 1.45477
    },
    {
      "epoch": 3.5647572940319607,
      "grad_norm": 1.863242506980896,
      "learning_rate": 1.8989642949827246e-05,
      "loss": 0.2961249351501465,
      "memory(GiB)": 73.83,
      "step": 83205,
      "token_acc": 0.9321533923303835,
      "train_speed(iter/s)": 1.45477
    },
    {
      "epoch": 3.56497150936121,
      "grad_norm": 2.7906134128570557,
      "learning_rate": 1.898436414048274e-05,
      "loss": 0.46633281707763674,
      "memory(GiB)": 73.83,
      "step": 83210,
      "token_acc": 0.9138755980861244,
      "train_speed(iter/s)": 1.454775
    },
    {
      "epoch": 3.565185724690459,
      "grad_norm": 2.6256091594696045,
      "learning_rate": 1.897908589301557e-05,
      "loss": 0.29205572605133057,
      "memory(GiB)": 73.83,
      "step": 83215,
      "token_acc": 0.9330985915492958,
      "train_speed(iter/s)": 1.454786
    },
    {
      "epoch": 3.5653999400197076,
      "grad_norm": 3.1572585105895996,
      "learning_rate": 1.8973808207521344e-05,
      "loss": 0.5493988037109375,
      "memory(GiB)": 73.83,
      "step": 83220,
      "token_acc": 0.8821917808219178,
      "train_speed(iter/s)": 1.454794
    },
    {
      "epoch": 3.565614155348957,
      "grad_norm": 3.4405524730682373,
      "learning_rate": 1.89685310840957e-05,
      "loss": 0.2133331298828125,
      "memory(GiB)": 73.83,
      "step": 83225,
      "token_acc": 0.9373040752351097,
      "train_speed(iter/s)": 1.454807
    },
    {
      "epoch": 3.5658283706782057,
      "grad_norm": 6.040633201599121,
      "learning_rate": 1.8963254522834227e-05,
      "loss": 0.19840580224990845,
      "memory(GiB)": 73.83,
      "step": 83230,
      "token_acc": 0.9603174603174603,
      "train_speed(iter/s)": 1.454824
    },
    {
      "epoch": 3.5660425860074545,
      "grad_norm": 1.533953070640564,
      "learning_rate": 1.8957978523832514e-05,
      "loss": 0.42151904106140137,
      "memory(GiB)": 73.83,
      "step": 83235,
      "token_acc": 0.9306930693069307,
      "train_speed(iter/s)": 1.454826
    },
    {
      "epoch": 3.5662568013367038,
      "grad_norm": 2.2695865631103516,
      "learning_rate": 1.8952703087186142e-05,
      "loss": 0.22348875999450685,
      "memory(GiB)": 73.83,
      "step": 83240,
      "token_acc": 0.9507692307692308,
      "train_speed(iter/s)": 1.454831
    },
    {
      "epoch": 3.5664710166659526,
      "grad_norm": 4.656896591186523,
      "learning_rate": 1.894742821299067e-05,
      "loss": 0.3124478816986084,
      "memory(GiB)": 73.83,
      "step": 83245,
      "token_acc": 0.9385665529010239,
      "train_speed(iter/s)": 1.454837
    },
    {
      "epoch": 3.5666852319952014,
      "grad_norm": 1.2086801528930664,
      "learning_rate": 1.894215390134166e-05,
      "loss": 0.20404586791992188,
      "memory(GiB)": 73.83,
      "step": 83250,
      "token_acc": 0.9465648854961832,
      "train_speed(iter/s)": 1.454839
    },
    {
      "epoch": 3.5668994473244506,
      "grad_norm": 13.151522636413574,
      "learning_rate": 1.8936880152334674e-05,
      "loss": 0.4190983295440674,
      "memory(GiB)": 73.83,
      "step": 83255,
      "token_acc": 0.9014598540145985,
      "train_speed(iter/s)": 1.454842
    },
    {
      "epoch": 3.5671136626536994,
      "grad_norm": 2.7549970149993896,
      "learning_rate": 1.8931606966065247e-05,
      "loss": 0.3210273742675781,
      "memory(GiB)": 73.83,
      "step": 83260,
      "token_acc": 0.9398496240601504,
      "train_speed(iter/s)": 1.454848
    },
    {
      "epoch": 3.5673278779829483,
      "grad_norm": 4.723351955413818,
      "learning_rate": 1.8926334342628888e-05,
      "loss": 0.4464094161987305,
      "memory(GiB)": 73.83,
      "step": 83265,
      "token_acc": 0.9049586776859504,
      "train_speed(iter/s)": 1.45485
    },
    {
      "epoch": 3.5675420933121975,
      "grad_norm": 0.14952020347118378,
      "learning_rate": 1.892106228212115e-05,
      "loss": 0.1290210485458374,
      "memory(GiB)": 73.83,
      "step": 83270,
      "token_acc": 0.9668874172185431,
      "train_speed(iter/s)": 1.45485
    },
    {
      "epoch": 3.5677563086414463,
      "grad_norm": 1.6283111572265625,
      "learning_rate": 1.891579078463752e-05,
      "loss": 0.4963671207427979,
      "memory(GiB)": 73.83,
      "step": 83275,
      "token_acc": 0.9057377049180327,
      "train_speed(iter/s)": 1.454861
    },
    {
      "epoch": 3.567970523970695,
      "grad_norm": 1.8061492443084717,
      "learning_rate": 1.8910519850273485e-05,
      "loss": 0.22953457832336427,
      "memory(GiB)": 73.83,
      "step": 83280,
      "token_acc": 0.9584775086505191,
      "train_speed(iter/s)": 1.454874
    },
    {
      "epoch": 3.5681847392999444,
      "grad_norm": 0.691479504108429,
      "learning_rate": 1.8905249479124563e-05,
      "loss": 0.239646577835083,
      "memory(GiB)": 73.83,
      "step": 83285,
      "token_acc": 0.9427609427609428,
      "train_speed(iter/s)": 1.454877
    },
    {
      "epoch": 3.568398954629193,
      "grad_norm": 2.9299333095550537,
      "learning_rate": 1.8899979671286216e-05,
      "loss": 0.36429145336151125,
      "memory(GiB)": 73.83,
      "step": 83290,
      "token_acc": 0.9114285714285715,
      "train_speed(iter/s)": 1.454878
    },
    {
      "epoch": 3.568613169958442,
      "grad_norm": 0.4936175048351288,
      "learning_rate": 1.8894710426853913e-05,
      "loss": 0.20470848083496093,
      "memory(GiB)": 73.83,
      "step": 83295,
      "token_acc": 0.9342105263157895,
      "train_speed(iter/s)": 1.45488
    },
    {
      "epoch": 3.5688273852876913,
      "grad_norm": 3.9269139766693115,
      "learning_rate": 1.888944174592311e-05,
      "loss": 0.6389199256896972,
      "memory(GiB)": 73.83,
      "step": 83300,
      "token_acc": 0.8375796178343949,
      "train_speed(iter/s)": 1.454889
    },
    {
      "epoch": 3.56904160061694,
      "grad_norm": 2.703742742538452,
      "learning_rate": 1.8884173628589236e-05,
      "loss": 0.4914207935333252,
      "memory(GiB)": 73.83,
      "step": 83305,
      "token_acc": 0.9100346020761245,
      "train_speed(iter/s)": 1.454894
    },
    {
      "epoch": 3.569255815946189,
      "grad_norm": 3.8393967151641846,
      "learning_rate": 1.887890607494776e-05,
      "loss": 0.7071762084960938,
      "memory(GiB)": 73.83,
      "step": 83310,
      "token_acc": 0.852233676975945,
      "train_speed(iter/s)": 1.454898
    },
    {
      "epoch": 3.569470031275438,
      "grad_norm": 3.129276752471924,
      "learning_rate": 1.8873639085094097e-05,
      "loss": 0.21298296451568605,
      "memory(GiB)": 73.83,
      "step": 83315,
      "token_acc": 0.9525691699604744,
      "train_speed(iter/s)": 1.454902
    },
    {
      "epoch": 3.569684246604687,
      "grad_norm": 1.7277249097824097,
      "learning_rate": 1.8868372659123655e-05,
      "loss": 0.18405275344848632,
      "memory(GiB)": 73.83,
      "step": 83320,
      "token_acc": 0.9594594594594594,
      "train_speed(iter/s)": 1.454906
    },
    {
      "epoch": 3.569898461933936,
      "grad_norm": 0.7340644598007202,
      "learning_rate": 1.8863106797131857e-05,
      "loss": 0.3669852018356323,
      "memory(GiB)": 73.83,
      "step": 83325,
      "token_acc": 0.9230769230769231,
      "train_speed(iter/s)": 1.454907
    },
    {
      "epoch": 3.570112677263185,
      "grad_norm": 4.982223987579346,
      "learning_rate": 1.885784149921408e-05,
      "loss": 0.22461464405059814,
      "memory(GiB)": 73.83,
      "step": 83330,
      "token_acc": 0.9458483754512635,
      "train_speed(iter/s)": 1.454914
    },
    {
      "epoch": 3.570326892592434,
      "grad_norm": 2.8463690280914307,
      "learning_rate": 1.88525767654657e-05,
      "loss": 0.16648612022399903,
      "memory(GiB)": 73.83,
      "step": 83335,
      "token_acc": 0.9594594594594594,
      "train_speed(iter/s)": 1.45492
    },
    {
      "epoch": 3.5705411079216827,
      "grad_norm": 1.6854814291000366,
      "learning_rate": 1.884731259598212e-05,
      "loss": 0.5353155136108398,
      "memory(GiB)": 73.83,
      "step": 83340,
      "token_acc": 0.8938053097345132,
      "train_speed(iter/s)": 1.454925
    },
    {
      "epoch": 3.570755323250932,
      "grad_norm": 1.9441086053848267,
      "learning_rate": 1.8842048990858706e-05,
      "loss": 0.28264384269714354,
      "memory(GiB)": 73.83,
      "step": 83345,
      "token_acc": 0.9305019305019305,
      "train_speed(iter/s)": 1.454928
    },
    {
      "epoch": 3.5709695385801807,
      "grad_norm": 3.461916446685791,
      "learning_rate": 1.8836785950190804e-05,
      "loss": 0.18782401084899902,
      "memory(GiB)": 73.83,
      "step": 83350,
      "token_acc": 0.9664179104477612,
      "train_speed(iter/s)": 1.454937
    },
    {
      "epoch": 3.5711837539094295,
      "grad_norm": 4.252659797668457,
      "learning_rate": 1.883152347407376e-05,
      "loss": 0.2700216293334961,
      "memory(GiB)": 73.83,
      "step": 83355,
      "token_acc": 0.9459459459459459,
      "train_speed(iter/s)": 1.454941
    },
    {
      "epoch": 3.571397969238679,
      "grad_norm": 2.41085147857666,
      "learning_rate": 1.8826261562602905e-05,
      "loss": 0.35955564975738524,
      "memory(GiB)": 73.83,
      "step": 83360,
      "token_acc": 0.9156626506024096,
      "train_speed(iter/s)": 1.454941
    },
    {
      "epoch": 3.5716121845679276,
      "grad_norm": 1.3237805366516113,
      "learning_rate": 1.8821000215873548e-05,
      "loss": 0.37464520931243894,
      "memory(GiB)": 73.83,
      "step": 83365,
      "token_acc": 0.9154078549848943,
      "train_speed(iter/s)": 1.454943
    },
    {
      "epoch": 3.5718263998971764,
      "grad_norm": 4.138921737670898,
      "learning_rate": 1.8815739433981034e-05,
      "loss": 0.2973820447921753,
      "memory(GiB)": 73.83,
      "step": 83370,
      "token_acc": 0.9377049180327869,
      "train_speed(iter/s)": 1.454951
    },
    {
      "epoch": 3.5720406152264257,
      "grad_norm": 5.130585670471191,
      "learning_rate": 1.8810479217020654e-05,
      "loss": 0.5985065460205078,
      "memory(GiB)": 73.83,
      "step": 83375,
      "token_acc": 0.8870431893687708,
      "train_speed(iter/s)": 1.454952
    },
    {
      "epoch": 3.5722548305556745,
      "grad_norm": 2.258355140686035,
      "learning_rate": 1.8805219565087707e-05,
      "loss": 0.35796661376953126,
      "memory(GiB)": 73.83,
      "step": 83380,
      "token_acc": 0.9365671641791045,
      "train_speed(iter/s)": 1.454963
    },
    {
      "epoch": 3.5724690458849233,
      "grad_norm": 3.809922695159912,
      "learning_rate": 1.879996047827747e-05,
      "loss": 0.2661355257034302,
      "memory(GiB)": 73.83,
      "step": 83385,
      "token_acc": 0.9464882943143813,
      "train_speed(iter/s)": 1.454966
    },
    {
      "epoch": 3.5726832612141726,
      "grad_norm": 1.8173246383666992,
      "learning_rate": 1.8794701956685212e-05,
      "loss": 0.14454957246780395,
      "memory(GiB)": 73.83,
      "step": 83390,
      "token_acc": 0.9702380952380952,
      "train_speed(iter/s)": 1.454974
    },
    {
      "epoch": 3.5728974765434214,
      "grad_norm": 4.507790565490723,
      "learning_rate": 1.878944400040618e-05,
      "loss": 0.25590713024139405,
      "memory(GiB)": 73.83,
      "step": 83395,
      "token_acc": 0.9418960244648318,
      "train_speed(iter/s)": 1.454977
    },
    {
      "epoch": 3.57311169187267,
      "grad_norm": 0.7590718865394592,
      "learning_rate": 1.8784186609535677e-05,
      "loss": 0.1475422501564026,
      "memory(GiB)": 73.83,
      "step": 83400,
      "token_acc": 0.9652777777777778,
      "train_speed(iter/s)": 1.454979
    },
    {
      "epoch": 3.5733259072019194,
      "grad_norm": 3.1602745056152344,
      "learning_rate": 1.877892978416891e-05,
      "loss": 0.17734873294830322,
      "memory(GiB)": 73.83,
      "step": 83405,
      "token_acc": 0.9576547231270358,
      "train_speed(iter/s)": 1.454979
    },
    {
      "epoch": 3.5735401225311683,
      "grad_norm": 1.4825173616409302,
      "learning_rate": 1.87736735244011e-05,
      "loss": 0.3649128437042236,
      "memory(GiB)": 73.83,
      "step": 83410,
      "token_acc": 0.92578125,
      "train_speed(iter/s)": 1.454986
    },
    {
      "epoch": 3.573754337860417,
      "grad_norm": 2.781432867050171,
      "learning_rate": 1.8768417830327507e-05,
      "loss": 0.43600778579711913,
      "memory(GiB)": 73.83,
      "step": 83415,
      "token_acc": 0.8962264150943396,
      "train_speed(iter/s)": 1.454988
    },
    {
      "epoch": 3.5739685531896663,
      "grad_norm": 5.880857944488525,
      "learning_rate": 1.876316270204332e-05,
      "loss": 0.4411581516265869,
      "memory(GiB)": 73.83,
      "step": 83420,
      "token_acc": 0.9032258064516129,
      "train_speed(iter/s)": 1.455006
    },
    {
      "epoch": 3.574182768518915,
      "grad_norm": 8.978337287902832,
      "learning_rate": 1.875790813964372e-05,
      "loss": 0.4469489097595215,
      "memory(GiB)": 73.83,
      "step": 83425,
      "token_acc": 0.8972602739726028,
      "train_speed(iter/s)": 1.455005
    },
    {
      "epoch": 3.574396983848164,
      "grad_norm": 4.5266032218933105,
      "learning_rate": 1.8752654143223946e-05,
      "loss": 0.6063688278198243,
      "memory(GiB)": 73.83,
      "step": 83430,
      "token_acc": 0.8725099601593626,
      "train_speed(iter/s)": 1.454999
    },
    {
      "epoch": 3.574611199177413,
      "grad_norm": 1.8259265422821045,
      "learning_rate": 1.8747400712879154e-05,
      "loss": 0.324949049949646,
      "memory(GiB)": 73.83,
      "step": 83435,
      "token_acc": 0.9381107491856677,
      "train_speed(iter/s)": 1.454997
    },
    {
      "epoch": 3.574825414506662,
      "grad_norm": 1.7260884046554565,
      "learning_rate": 1.8742147848704516e-05,
      "loss": 0.26282343864440916,
      "memory(GiB)": 73.83,
      "step": 83440,
      "token_acc": 0.9514285714285714,
      "train_speed(iter/s)": 1.454997
    },
    {
      "epoch": 3.575039629835911,
      "grad_norm": 0.6976860761642456,
      "learning_rate": 1.873689555079519e-05,
      "loss": 0.30485105514526367,
      "memory(GiB)": 73.83,
      "step": 83445,
      "token_acc": 0.9246987951807228,
      "train_speed(iter/s)": 1.455004
    },
    {
      "epoch": 3.57525384516516,
      "grad_norm": 6.593593120574951,
      "learning_rate": 1.8731643819246312e-05,
      "loss": 0.4526062965393066,
      "memory(GiB)": 73.83,
      "step": 83450,
      "token_acc": 0.9051094890510949,
      "train_speed(iter/s)": 1.455007
    },
    {
      "epoch": 3.575468060494409,
      "grad_norm": 2.6501033306121826,
      "learning_rate": 1.8726392654153058e-05,
      "loss": 0.4441520690917969,
      "memory(GiB)": 73.83,
      "step": 83455,
      "token_acc": 0.8994252873563219,
      "train_speed(iter/s)": 1.455017
    },
    {
      "epoch": 3.5756822758236577,
      "grad_norm": 3.656818151473999,
      "learning_rate": 1.8721142055610536e-05,
      "loss": 0.3176210880279541,
      "memory(GiB)": 73.83,
      "step": 83460,
      "token_acc": 0.9351145038167938,
      "train_speed(iter/s)": 1.45503
    },
    {
      "epoch": 3.575896491152907,
      "grad_norm": 5.11185884475708,
      "learning_rate": 1.8715892023713866e-05,
      "loss": 0.5747550010681153,
      "memory(GiB)": 73.83,
      "step": 83465,
      "token_acc": 0.8706293706293706,
      "train_speed(iter/s)": 1.455044
    },
    {
      "epoch": 3.576110706482156,
      "grad_norm": 2.327676296234131,
      "learning_rate": 1.8710642558558162e-05,
      "loss": 0.3058695554733276,
      "memory(GiB)": 73.83,
      "step": 83470,
      "token_acc": 0.9391634980988594,
      "train_speed(iter/s)": 1.455049
    },
    {
      "epoch": 3.5763249218114046,
      "grad_norm": 1.1566280126571655,
      "learning_rate": 1.870539366023852e-05,
      "loss": 0.2435901403427124,
      "memory(GiB)": 73.83,
      "step": 83475,
      "token_acc": 0.9475524475524476,
      "train_speed(iter/s)": 1.455049
    },
    {
      "epoch": 3.576539137140654,
      "grad_norm": 4.9418721199035645,
      "learning_rate": 1.8700145328850005e-05,
      "loss": 0.46068811416625977,
      "memory(GiB)": 73.83,
      "step": 83480,
      "token_acc": 0.9145569620253164,
      "train_speed(iter/s)": 1.455047
    },
    {
      "epoch": 3.5767533524699027,
      "grad_norm": 0.16073213517665863,
      "learning_rate": 1.8694897564487725e-05,
      "loss": 0.259464693069458,
      "memory(GiB)": 73.83,
      "step": 83485,
      "token_acc": 0.9466192170818505,
      "train_speed(iter/s)": 1.455052
    },
    {
      "epoch": 3.5769675677991515,
      "grad_norm": 0.6190118193626404,
      "learning_rate": 1.868965036724676e-05,
      "loss": 0.29434933662414553,
      "memory(GiB)": 73.83,
      "step": 83490,
      "token_acc": 0.9506172839506173,
      "train_speed(iter/s)": 1.455054
    },
    {
      "epoch": 3.5771817831284007,
      "grad_norm": 1.359618067741394,
      "learning_rate": 1.8684403737222144e-05,
      "loss": 0.31998133659362793,
      "memory(GiB)": 73.83,
      "step": 83495,
      "token_acc": 0.9276315789473685,
      "train_speed(iter/s)": 1.455053
    },
    {
      "epoch": 3.5773959984576496,
      "grad_norm": 1.4282809495925903,
      "learning_rate": 1.8679157674508936e-05,
      "loss": 0.29971842765808104,
      "memory(GiB)": 73.83,
      "step": 83500,
      "token_acc": 0.9328859060402684,
      "train_speed(iter/s)": 1.455054
    },
    {
      "epoch": 3.5773959984576496,
      "eval_loss": 2.3384077548980713,
      "eval_runtime": 11.5986,
      "eval_samples_per_second": 8.622,
      "eval_steps_per_second": 8.622,
      "eval_token_acc": 0.456,
      "step": 83500
    },
    {
      "epoch": 3.5776102137868984,
      "grad_norm": 3.308218002319336,
      "learning_rate": 1.8673912179202163e-05,
      "loss": 0.5179628372192383,
      "memory(GiB)": 73.83,
      "step": 83505,
      "token_acc": 0.5868544600938967,
      "train_speed(iter/s)": 1.454737
    },
    {
      "epoch": 3.5778244291161476,
      "grad_norm": 2.993112802505493,
      "learning_rate": 1.8668667251396847e-05,
      "loss": 0.3608139753341675,
      "memory(GiB)": 73.83,
      "step": 83510,
      "token_acc": 0.9127725856697819,
      "train_speed(iter/s)": 1.454744
    },
    {
      "epoch": 3.5780386444453964,
      "grad_norm": 4.1140522956848145,
      "learning_rate": 1.8663422891188024e-05,
      "loss": 0.8149113655090332,
      "memory(GiB)": 73.83,
      "step": 83515,
      "token_acc": 0.8540372670807453,
      "train_speed(iter/s)": 1.454742
    },
    {
      "epoch": 3.5782528597746452,
      "grad_norm": 1.3410913944244385,
      "learning_rate": 1.8658179098670698e-05,
      "loss": 0.11841206550598145,
      "memory(GiB)": 73.83,
      "step": 83520,
      "token_acc": 0.9681274900398407,
      "train_speed(iter/s)": 1.454746
    },
    {
      "epoch": 3.5784670751038945,
      "grad_norm": 7.435318946838379,
      "learning_rate": 1.8652935873939858e-05,
      "loss": 0.7217827796936035,
      "memory(GiB)": 73.83,
      "step": 83525,
      "token_acc": 0.8588709677419355,
      "train_speed(iter/s)": 1.454747
    },
    {
      "epoch": 3.5786812904331433,
      "grad_norm": 2.4547533988952637,
      "learning_rate": 1.864769321709049e-05,
      "loss": 0.552239179611206,
      "memory(GiB)": 73.83,
      "step": 83530,
      "token_acc": 0.8621794871794872,
      "train_speed(iter/s)": 1.454762
    },
    {
      "epoch": 3.578895505762392,
      "grad_norm": 2.090229034423828,
      "learning_rate": 1.864245112821757e-05,
      "loss": 0.3075311899185181,
      "memory(GiB)": 73.83,
      "step": 83535,
      "token_acc": 0.9333333333333333,
      "train_speed(iter/s)": 1.454765
    },
    {
      "epoch": 3.5791097210916414,
      "grad_norm": 3.2673285007476807,
      "learning_rate": 1.8637209607416044e-05,
      "loss": 0.23045220375061035,
      "memory(GiB)": 73.83,
      "step": 83540,
      "token_acc": 0.9496402877697842,
      "train_speed(iter/s)": 1.454766
    },
    {
      "epoch": 3.57932393642089,
      "grad_norm": 4.15147066116333,
      "learning_rate": 1.8631968654780906e-05,
      "loss": 0.3188222169876099,
      "memory(GiB)": 73.83,
      "step": 83545,
      "token_acc": 0.934984520123839,
      "train_speed(iter/s)": 1.454772
    },
    {
      "epoch": 3.579538151750139,
      "grad_norm": 4.070400238037109,
      "learning_rate": 1.8626728270407078e-05,
      "loss": 0.43737058639526366,
      "memory(GiB)": 73.83,
      "step": 83550,
      "token_acc": 0.8985074626865671,
      "train_speed(iter/s)": 1.454778
    },
    {
      "epoch": 3.5797523670793883,
      "grad_norm": 0.48707789182662964,
      "learning_rate": 1.86214884543895e-05,
      "loss": 0.2727456569671631,
      "memory(GiB)": 73.83,
      "step": 83555,
      "token_acc": 0.9539007092198581,
      "train_speed(iter/s)": 1.454779
    },
    {
      "epoch": 3.579966582408637,
      "grad_norm": 3.516005516052246,
      "learning_rate": 1.8616249206823085e-05,
      "loss": 0.16080327033996583,
      "memory(GiB)": 73.83,
      "step": 83560,
      "token_acc": 0.9575289575289575,
      "train_speed(iter/s)": 1.454782
    },
    {
      "epoch": 3.580180797737886,
      "grad_norm": 4.173983573913574,
      "learning_rate": 1.8611010527802763e-05,
      "loss": 0.2500807285308838,
      "memory(GiB)": 73.83,
      "step": 83565,
      "token_acc": 0.9233226837060703,
      "train_speed(iter/s)": 1.454777
    },
    {
      "epoch": 3.580395013067135,
      "grad_norm": 5.255550861358643,
      "learning_rate": 1.8605772417423417e-05,
      "loss": 0.5850184440612793,
      "memory(GiB)": 73.83,
      "step": 83570,
      "token_acc": 0.8862068965517241,
      "train_speed(iter/s)": 1.454779
    },
    {
      "epoch": 3.580609228396384,
      "grad_norm": 0.9731529951095581,
      "learning_rate": 1.8600534875779967e-05,
      "loss": 0.17501707077026368,
      "memory(GiB)": 73.83,
      "step": 83575,
      "token_acc": 0.9520958083832335,
      "train_speed(iter/s)": 1.45478
    },
    {
      "epoch": 3.5808234437256328,
      "grad_norm": 2.460339069366455,
      "learning_rate": 1.859529790296729e-05,
      "loss": 0.43626961708068845,
      "memory(GiB)": 73.83,
      "step": 83580,
      "token_acc": 0.9016949152542373,
      "train_speed(iter/s)": 1.454781
    },
    {
      "epoch": 3.581037659054882,
      "grad_norm": 5.151998996734619,
      "learning_rate": 1.8590061499080246e-05,
      "loss": 0.5948426723480225,
      "memory(GiB)": 73.83,
      "step": 83585,
      "token_acc": 0.8736462093862816,
      "train_speed(iter/s)": 1.454783
    },
    {
      "epoch": 3.581251874384131,
      "grad_norm": 9.977481842041016,
      "learning_rate": 1.8584825664213707e-05,
      "loss": 0.4972344398498535,
      "memory(GiB)": 73.83,
      "step": 83590,
      "token_acc": 0.9145299145299145,
      "train_speed(iter/s)": 1.454797
    },
    {
      "epoch": 3.5814660897133797,
      "grad_norm": 5.1662068367004395,
      "learning_rate": 1.85795903984625e-05,
      "loss": 0.37358109951019286,
      "memory(GiB)": 73.83,
      "step": 83595,
      "token_acc": 0.9103448275862069,
      "train_speed(iter/s)": 1.4548
    },
    {
      "epoch": 3.581680305042629,
      "grad_norm": 5.404575347900391,
      "learning_rate": 1.8574355701921502e-05,
      "loss": 0.32264080047607424,
      "memory(GiB)": 73.83,
      "step": 83600,
      "token_acc": 0.9291784702549575,
      "train_speed(iter/s)": 1.454813
    },
    {
      "epoch": 3.5818945203718777,
      "grad_norm": 4.094618797302246,
      "learning_rate": 1.8569121574685538e-05,
      "loss": 0.49597735404968263,
      "memory(GiB)": 73.83,
      "step": 83605,
      "token_acc": 0.8949152542372881,
      "train_speed(iter/s)": 1.454827
    },
    {
      "epoch": 3.5821087357011265,
      "grad_norm": 2.692103385925293,
      "learning_rate": 1.8563888016849417e-05,
      "loss": 0.6652783870697021,
      "memory(GiB)": 73.83,
      "step": 83610,
      "token_acc": 0.8717948717948718,
      "train_speed(iter/s)": 1.454848
    },
    {
      "epoch": 3.582322951030376,
      "grad_norm": 0.24769043922424316,
      "learning_rate": 1.8558655028507954e-05,
      "loss": 0.2245013952255249,
      "memory(GiB)": 73.83,
      "step": 83615,
      "token_acc": 0.9342465753424658,
      "train_speed(iter/s)": 1.454855
    },
    {
      "epoch": 3.5825371663596246,
      "grad_norm": 3.0825791358947754,
      "learning_rate": 1.855342260975595e-05,
      "loss": 0.5007987022399902,
      "memory(GiB)": 73.83,
      "step": 83620,
      "token_acc": 0.8857142857142857,
      "train_speed(iter/s)": 1.454859
    },
    {
      "epoch": 3.5827513816888734,
      "grad_norm": 3.236578941345215,
      "learning_rate": 1.8548190760688176e-05,
      "loss": 0.23279197216033937,
      "memory(GiB)": 73.83,
      "step": 83625,
      "token_acc": 0.9438943894389439,
      "train_speed(iter/s)": 1.454872
    },
    {
      "epoch": 3.5829655970181227,
      "grad_norm": 10.316884994506836,
      "learning_rate": 1.8542959481399435e-05,
      "loss": 0.37217006683349607,
      "memory(GiB)": 73.83,
      "step": 83630,
      "token_acc": 0.9386281588447654,
      "train_speed(iter/s)": 1.454873
    },
    {
      "epoch": 3.5831798123473715,
      "grad_norm": 4.722620487213135,
      "learning_rate": 1.8537728771984504e-05,
      "loss": 0.5569898128509522,
      "memory(GiB)": 73.83,
      "step": 83635,
      "token_acc": 0.8678414096916299,
      "train_speed(iter/s)": 1.454872
    },
    {
      "epoch": 3.5833940276766203,
      "grad_norm": 4.977457046508789,
      "learning_rate": 1.853249863253813e-05,
      "loss": 0.3246821165084839,
      "memory(GiB)": 73.83,
      "step": 83640,
      "token_acc": 0.9154929577464789,
      "train_speed(iter/s)": 1.454873
    },
    {
      "epoch": 3.5836082430058696,
      "grad_norm": 5.414421558380127,
      "learning_rate": 1.8527269063155068e-05,
      "loss": 0.5046092987060546,
      "memory(GiB)": 73.83,
      "step": 83645,
      "token_acc": 0.8664688427299704,
      "train_speed(iter/s)": 1.454878
    },
    {
      "epoch": 3.5838224583351184,
      "grad_norm": 2.2027649879455566,
      "learning_rate": 1.8522040063930045e-05,
      "loss": 0.32155771255493165,
      "memory(GiB)": 73.83,
      "step": 83650,
      "token_acc": 0.9436201780415431,
      "train_speed(iter/s)": 1.454878
    },
    {
      "epoch": 3.584036673664367,
      "grad_norm": 3.881291151046753,
      "learning_rate": 1.851681163495778e-05,
      "loss": 0.38850693702697753,
      "memory(GiB)": 73.83,
      "step": 83655,
      "token_acc": 0.9155844155844156,
      "train_speed(iter/s)": 1.45488
    },
    {
      "epoch": 3.5842508889936164,
      "grad_norm": 3.1986396312713623,
      "learning_rate": 1.8511583776333026e-05,
      "loss": 0.30535039901733396,
      "memory(GiB)": 73.83,
      "step": 83660,
      "token_acc": 0.9245283018867925,
      "train_speed(iter/s)": 1.454892
    },
    {
      "epoch": 3.5844651043228652,
      "grad_norm": 5.400013446807861,
      "learning_rate": 1.8506356488150467e-05,
      "loss": 0.28010756969451905,
      "memory(GiB)": 73.83,
      "step": 83665,
      "token_acc": 0.937888198757764,
      "train_speed(iter/s)": 1.454906
    },
    {
      "epoch": 3.584679319652114,
      "grad_norm": 3.4327588081359863,
      "learning_rate": 1.8501129770504805e-05,
      "loss": 0.4064549446105957,
      "memory(GiB)": 73.83,
      "step": 83670,
      "token_acc": 0.896414342629482,
      "train_speed(iter/s)": 1.454912
    },
    {
      "epoch": 3.5848935349813633,
      "grad_norm": 2.240985155105591,
      "learning_rate": 1.8495903623490722e-05,
      "loss": 0.20125257968902588,
      "memory(GiB)": 73.83,
      "step": 83675,
      "token_acc": 0.9607843137254902,
      "train_speed(iter/s)": 1.454918
    },
    {
      "epoch": 3.585107750310612,
      "grad_norm": 4.970316410064697,
      "learning_rate": 1.8490678047202885e-05,
      "loss": 0.535600996017456,
      "memory(GiB)": 73.83,
      "step": 83680,
      "token_acc": 0.8814102564102564,
      "train_speed(iter/s)": 1.454922
    },
    {
      "epoch": 3.585321965639861,
      "grad_norm": 2.544646978378296,
      "learning_rate": 1.848545304173599e-05,
      "loss": 0.1666674017906189,
      "memory(GiB)": 73.83,
      "step": 83685,
      "token_acc": 0.9565217391304348,
      "train_speed(iter/s)": 1.454925
    },
    {
      "epoch": 3.58553618096911,
      "grad_norm": 2.412808895111084,
      "learning_rate": 1.8480228607184675e-05,
      "loss": 0.45598907470703126,
      "memory(GiB)": 73.83,
      "step": 83690,
      "token_acc": 0.9183673469387755,
      "train_speed(iter/s)": 1.454928
    },
    {
      "epoch": 3.585750396298359,
      "grad_norm": 2.860337972640991,
      "learning_rate": 1.8475004743643587e-05,
      "loss": 0.2688626766204834,
      "memory(GiB)": 73.83,
      "step": 83695,
      "token_acc": 0.9426229508196722,
      "train_speed(iter/s)": 1.454929
    },
    {
      "epoch": 3.585964611627608,
      "grad_norm": 3.730309247970581,
      "learning_rate": 1.846978145120736e-05,
      "loss": 0.15022494792938232,
      "memory(GiB)": 73.83,
      "step": 83700,
      "token_acc": 0.9666666666666667,
      "train_speed(iter/s)": 1.454941
    },
    {
      "epoch": 3.586178826956857,
      "grad_norm": 3.70564866065979,
      "learning_rate": 1.8464558729970603e-05,
      "loss": 0.5120251178741455,
      "memory(GiB)": 73.83,
      "step": 83705,
      "token_acc": 0.869198312236287,
      "train_speed(iter/s)": 1.454946
    },
    {
      "epoch": 3.586393042286106,
      "grad_norm": 3.9638783931732178,
      "learning_rate": 1.845933658002797e-05,
      "loss": 0.5247711181640625,
      "memory(GiB)": 73.83,
      "step": 83710,
      "token_acc": 0.8931750741839762,
      "train_speed(iter/s)": 1.454966
    },
    {
      "epoch": 3.5866072576153547,
      "grad_norm": 4.3615641593933105,
      "learning_rate": 1.845411500147402e-05,
      "loss": 0.40490293502807617,
      "memory(GiB)": 73.83,
      "step": 83715,
      "token_acc": 0.9178470254957507,
      "train_speed(iter/s)": 1.454968
    },
    {
      "epoch": 3.586821472944604,
      "grad_norm": 3.4243288040161133,
      "learning_rate": 1.844889399440338e-05,
      "loss": 0.4278581142425537,
      "memory(GiB)": 73.83,
      "step": 83720,
      "token_acc": 0.9120879120879121,
      "train_speed(iter/s)": 1.45497
    },
    {
      "epoch": 3.5870356882738528,
      "grad_norm": 2.5954065322875977,
      "learning_rate": 1.8443673558910635e-05,
      "loss": 0.5436376571655274,
      "memory(GiB)": 73.83,
      "step": 83725,
      "token_acc": 0.8927444794952681,
      "train_speed(iter/s)": 1.454965
    },
    {
      "epoch": 3.5872499036031016,
      "grad_norm": 4.132730007171631,
      "learning_rate": 1.8438453695090342e-05,
      "loss": 0.3531831741333008,
      "memory(GiB)": 73.83,
      "step": 83730,
      "token_acc": 0.93,
      "train_speed(iter/s)": 1.454968
    },
    {
      "epoch": 3.587464118932351,
      "grad_norm": 3.5181641578674316,
      "learning_rate": 1.8433234403037065e-05,
      "loss": 0.40205774307250974,
      "memory(GiB)": 73.83,
      "step": 83735,
      "token_acc": 0.9193548387096774,
      "train_speed(iter/s)": 1.45497
    },
    {
      "epoch": 3.5876783342615997,
      "grad_norm": 6.839803695678711,
      "learning_rate": 1.842801568284534e-05,
      "loss": 0.43111767768859866,
      "memory(GiB)": 73.83,
      "step": 83740,
      "token_acc": 0.9212328767123288,
      "train_speed(iter/s)": 1.454972
    },
    {
      "epoch": 3.5878925495908485,
      "grad_norm": 3.6611015796661377,
      "learning_rate": 1.8422797534609748e-05,
      "loss": 0.22689337730407716,
      "memory(GiB)": 73.83,
      "step": 83745,
      "token_acc": 0.9437086092715232,
      "train_speed(iter/s)": 1.454971
    },
    {
      "epoch": 3.5881067649200977,
      "grad_norm": 4.713680744171143,
      "learning_rate": 1.8417579958424797e-05,
      "loss": 0.28430914878845215,
      "memory(GiB)": 73.83,
      "step": 83750,
      "token_acc": 0.9309090909090909,
      "train_speed(iter/s)": 1.454971
    },
    {
      "epoch": 3.5883209802493465,
      "grad_norm": 3.721791982650757,
      "learning_rate": 1.8412362954385015e-05,
      "loss": 0.3749727487564087,
      "memory(GiB)": 73.83,
      "step": 83755,
      "token_acc": 0.9245283018867925,
      "train_speed(iter/s)": 1.454978
    },
    {
      "epoch": 3.5885351955785953,
      "grad_norm": 0.7684990763664246,
      "learning_rate": 1.8407146522584906e-05,
      "loss": 0.15600347518920898,
      "memory(GiB)": 73.83,
      "step": 83760,
      "token_acc": 0.9655172413793104,
      "train_speed(iter/s)": 1.454979
    },
    {
      "epoch": 3.5887494109078446,
      "grad_norm": 3.795145273208618,
      "learning_rate": 1.8401930663118983e-05,
      "loss": 0.39545931816101076,
      "memory(GiB)": 73.83,
      "step": 83765,
      "token_acc": 0.9074074074074074,
      "train_speed(iter/s)": 1.454982
    },
    {
      "epoch": 3.5889636262370934,
      "grad_norm": 2.1206538677215576,
      "learning_rate": 1.83967153760817e-05,
      "loss": 0.19584736824035645,
      "memory(GiB)": 73.83,
      "step": 83770,
      "token_acc": 0.9456066945606695,
      "train_speed(iter/s)": 1.454985
    },
    {
      "epoch": 3.5891778415663422,
      "grad_norm": 3.023594617843628,
      "learning_rate": 1.8391500661567584e-05,
      "loss": 0.2550068378448486,
      "memory(GiB)": 73.83,
      "step": 83775,
      "token_acc": 0.9389830508474576,
      "train_speed(iter/s)": 1.454988
    },
    {
      "epoch": 3.5893920568955915,
      "grad_norm": 4.155740261077881,
      "learning_rate": 1.838628651967107e-05,
      "loss": 0.6118322372436523,
      "memory(GiB)": 73.83,
      "step": 83780,
      "token_acc": 0.8651315789473685,
      "train_speed(iter/s)": 1.455018
    },
    {
      "epoch": 3.5896062722248403,
      "grad_norm": 2.649761199951172,
      "learning_rate": 1.838107295048665e-05,
      "loss": 0.19266440868377685,
      "memory(GiB)": 73.83,
      "step": 83785,
      "token_acc": 0.9630996309963099,
      "train_speed(iter/s)": 1.455021
    },
    {
      "epoch": 3.589820487554089,
      "grad_norm": 3.2899978160858154,
      "learning_rate": 1.8375859954108753e-05,
      "loss": 0.281846284866333,
      "memory(GiB)": 73.83,
      "step": 83790,
      "token_acc": 0.9309090909090909,
      "train_speed(iter/s)": 1.455027
    },
    {
      "epoch": 3.5900347028833384,
      "grad_norm": 1.8669207096099854,
      "learning_rate": 1.8370647530631818e-05,
      "loss": 0.2779437780380249,
      "memory(GiB)": 73.83,
      "step": 83795,
      "token_acc": 0.9377049180327869,
      "train_speed(iter/s)": 1.455038
    },
    {
      "epoch": 3.590248918212587,
      "grad_norm": 3.877760171890259,
      "learning_rate": 1.8365435680150256e-05,
      "loss": 0.180114483833313,
      "memory(GiB)": 73.83,
      "step": 83800,
      "token_acc": 0.9615384615384616,
      "train_speed(iter/s)": 1.455037
    },
    {
      "epoch": 3.590463133541836,
      "grad_norm": 3.305105686187744,
      "learning_rate": 1.8360224402758525e-05,
      "loss": 0.48349785804748535,
      "memory(GiB)": 73.83,
      "step": 83805,
      "token_acc": 0.9068100358422939,
      "train_speed(iter/s)": 1.455035
    },
    {
      "epoch": 3.5906773488710853,
      "grad_norm": 2.419466257095337,
      "learning_rate": 1.8355013698551004e-05,
      "loss": 0.6338447570800781,
      "memory(GiB)": 73.83,
      "step": 83810,
      "token_acc": 0.8754208754208754,
      "train_speed(iter/s)": 1.455047
    },
    {
      "epoch": 3.590891564200334,
      "grad_norm": 3.5607404708862305,
      "learning_rate": 1.8349803567622094e-05,
      "loss": 0.24837181568145753,
      "memory(GiB)": 73.83,
      "step": 83815,
      "token_acc": 0.9461077844311377,
      "train_speed(iter/s)": 1.455062
    },
    {
      "epoch": 3.591105779529583,
      "grad_norm": 4.527656078338623,
      "learning_rate": 1.8344594010066184e-05,
      "loss": 0.40319271087646485,
      "memory(GiB)": 73.83,
      "step": 83820,
      "token_acc": 0.9230769230769231,
      "train_speed(iter/s)": 1.455075
    },
    {
      "epoch": 3.591319994858832,
      "grad_norm": 3.0153157711029053,
      "learning_rate": 1.8339385025977635e-05,
      "loss": 0.4990804195404053,
      "memory(GiB)": 73.83,
      "step": 83825,
      "token_acc": 0.9157509157509157,
      "train_speed(iter/s)": 1.455072
    },
    {
      "epoch": 3.591534210188081,
      "grad_norm": 4.788932800292969,
      "learning_rate": 1.833417661545084e-05,
      "loss": 0.48853492736816406,
      "memory(GiB)": 73.83,
      "step": 83830,
      "token_acc": 0.9013157894736842,
      "train_speed(iter/s)": 1.45508
    },
    {
      "epoch": 3.5917484255173298,
      "grad_norm": 2.0129573345184326,
      "learning_rate": 1.832896877858014e-05,
      "loss": 0.4999572277069092,
      "memory(GiB)": 73.83,
      "step": 83835,
      "token_acc": 0.8909090909090909,
      "train_speed(iter/s)": 1.455091
    },
    {
      "epoch": 3.591962640846579,
      "grad_norm": 3.7990715503692627,
      "learning_rate": 1.832376151545988e-05,
      "loss": 0.37760334014892577,
      "memory(GiB)": 73.83,
      "step": 83840,
      "token_acc": 0.9210526315789473,
      "train_speed(iter/s)": 1.455088
    },
    {
      "epoch": 3.592176856175828,
      "grad_norm": 2.248725652694702,
      "learning_rate": 1.83185548261844e-05,
      "loss": 0.3722368717193604,
      "memory(GiB)": 73.83,
      "step": 83845,
      "token_acc": 0.9013157894736842,
      "train_speed(iter/s)": 1.455088
    },
    {
      "epoch": 3.5923910715050766,
      "grad_norm": 3.130156993865967,
      "learning_rate": 1.8313348710848018e-05,
      "loss": 0.3320658206939697,
      "memory(GiB)": 73.83,
      "step": 83850,
      "token_acc": 0.9236641221374046,
      "train_speed(iter/s)": 1.455093
    },
    {
      "epoch": 3.592605286834326,
      "grad_norm": 3.2610011100769043,
      "learning_rate": 1.8308143169545028e-05,
      "loss": 0.48497848510742186,
      "memory(GiB)": 73.83,
      "step": 83855,
      "token_acc": 0.8767123287671232,
      "train_speed(iter/s)": 1.455112
    },
    {
      "epoch": 3.5928195021635747,
      "grad_norm": 2.5953991413116455,
      "learning_rate": 1.8302938202369752e-05,
      "loss": 0.15958253145217896,
      "memory(GiB)": 73.83,
      "step": 83860,
      "token_acc": 0.946875,
      "train_speed(iter/s)": 1.455117
    },
    {
      "epoch": 3.5930337174928235,
      "grad_norm": 2.5142154693603516,
      "learning_rate": 1.8297733809416505e-05,
      "loss": 0.2394260883331299,
      "memory(GiB)": 73.83,
      "step": 83865,
      "token_acc": 0.9355932203389831,
      "train_speed(iter/s)": 1.455128
    },
    {
      "epoch": 3.5932479328220728,
      "grad_norm": 1.418036699295044,
      "learning_rate": 1.829252999077955e-05,
      "loss": 0.1978306531906128,
      "memory(GiB)": 73.83,
      "step": 83870,
      "token_acc": 0.9552631578947368,
      "train_speed(iter/s)": 1.455135
    },
    {
      "epoch": 3.5934621481513216,
      "grad_norm": 2.3894522190093994,
      "learning_rate": 1.8287326746553157e-05,
      "loss": 0.39829206466674805,
      "memory(GiB)": 73.83,
      "step": 83875,
      "token_acc": 0.9244712990936556,
      "train_speed(iter/s)": 1.455154
    },
    {
      "epoch": 3.5936763634805704,
      "grad_norm": 4.444431304931641,
      "learning_rate": 1.8282124076831592e-05,
      "loss": 0.4021416664123535,
      "memory(GiB)": 73.83,
      "step": 83880,
      "token_acc": 0.9310344827586207,
      "train_speed(iter/s)": 1.455163
    },
    {
      "epoch": 3.5938905788098197,
      "grad_norm": 3.906766414642334,
      "learning_rate": 1.8276921981709077e-05,
      "loss": 0.21227715015411378,
      "memory(GiB)": 73.83,
      "step": 83885,
      "token_acc": 0.940677966101695,
      "train_speed(iter/s)": 1.455168
    },
    {
      "epoch": 3.5941047941390685,
      "grad_norm": 3.2344326972961426,
      "learning_rate": 1.8271720461279907e-05,
      "loss": 0.48596863746643065,
      "memory(GiB)": 73.83,
      "step": 83890,
      "token_acc": 0.9070631970260223,
      "train_speed(iter/s)": 1.455179
    },
    {
      "epoch": 3.5943190094683173,
      "grad_norm": 1.0713523626327515,
      "learning_rate": 1.8266519515638277e-05,
      "loss": 0.2736168146133423,
      "memory(GiB)": 73.83,
      "step": 83895,
      "token_acc": 0.958904109589041,
      "train_speed(iter/s)": 1.455177
    },
    {
      "epoch": 3.5945332247975665,
      "grad_norm": 2.6600849628448486,
      "learning_rate": 1.826131914487842e-05,
      "loss": 0.25623693466186526,
      "memory(GiB)": 73.83,
      "step": 83900,
      "token_acc": 0.9263157894736842,
      "train_speed(iter/s)": 1.455182
    },
    {
      "epoch": 3.5947474401268154,
      "grad_norm": 0.09106186777353287,
      "learning_rate": 1.8256119349094538e-05,
      "loss": 0.21782009601593016,
      "memory(GiB)": 73.83,
      "step": 83905,
      "token_acc": 0.948051948051948,
      "train_speed(iter/s)": 1.455185
    },
    {
      "epoch": 3.594961655456064,
      "grad_norm": 1.533737063407898,
      "learning_rate": 1.8250920128380826e-05,
      "loss": 0.11724026203155517,
      "memory(GiB)": 73.83,
      "step": 83910,
      "token_acc": 0.968503937007874,
      "train_speed(iter/s)": 1.455182
    },
    {
      "epoch": 3.5951758707853134,
      "grad_norm": 1.4775067567825317,
      "learning_rate": 1.8245721482831468e-05,
      "loss": 0.41606483459472654,
      "memory(GiB)": 73.83,
      "step": 83915,
      "token_acc": 0.8986013986013986,
      "train_speed(iter/s)": 1.455193
    },
    {
      "epoch": 3.5953900861145622,
      "grad_norm": 3.3315887451171875,
      "learning_rate": 1.8240523412540667e-05,
      "loss": 0.5974349498748779,
      "memory(GiB)": 73.83,
      "step": 83920,
      "token_acc": 0.8664596273291926,
      "train_speed(iter/s)": 1.455206
    },
    {
      "epoch": 3.595604301443811,
      "grad_norm": 5.6490044593811035,
      "learning_rate": 1.823532591760258e-05,
      "loss": 0.49692187309265134,
      "memory(GiB)": 73.83,
      "step": 83925,
      "token_acc": 0.8903654485049833,
      "train_speed(iter/s)": 1.455211
    },
    {
      "epoch": 3.5958185167730603,
      "grad_norm": 2.940509080886841,
      "learning_rate": 1.8230128998111346e-05,
      "loss": 0.33269944190979006,
      "memory(GiB)": 73.83,
      "step": 83930,
      "token_acc": 0.9261744966442953,
      "train_speed(iter/s)": 1.45521
    },
    {
      "epoch": 3.596032732102309,
      "grad_norm": 0.5419237613677979,
      "learning_rate": 1.8224932654161143e-05,
      "loss": 0.3651425838470459,
      "memory(GiB)": 73.83,
      "step": 83935,
      "token_acc": 0.9419795221843004,
      "train_speed(iter/s)": 1.455224
    },
    {
      "epoch": 3.596246947431558,
      "grad_norm": 7.007791042327881,
      "learning_rate": 1.821973688584609e-05,
      "loss": 0.17122186422348024,
      "memory(GiB)": 73.83,
      "step": 83940,
      "token_acc": 0.963265306122449,
      "train_speed(iter/s)": 1.455226
    },
    {
      "epoch": 3.596461162760807,
      "grad_norm": 2.6602556705474854,
      "learning_rate": 1.82145416932603e-05,
      "loss": 0.5245487689971924,
      "memory(GiB)": 73.83,
      "step": 83945,
      "token_acc": 0.8860759493670886,
      "train_speed(iter/s)": 1.455237
    },
    {
      "epoch": 3.596675378090056,
      "grad_norm": 5.152325630187988,
      "learning_rate": 1.8209347076497924e-05,
      "loss": 0.6444392204284668,
      "memory(GiB)": 73.83,
      "step": 83950,
      "token_acc": 0.8668831168831169,
      "train_speed(iter/s)": 1.455232
    },
    {
      "epoch": 3.596889593419305,
      "grad_norm": 3.653844118118286,
      "learning_rate": 1.820415303565305e-05,
      "loss": 0.27729430198669436,
      "memory(GiB)": 73.83,
      "step": 83955,
      "token_acc": 0.9280205655526992,
      "train_speed(iter/s)": 1.455228
    },
    {
      "epoch": 3.597103808748554,
      "grad_norm": 2.600645065307617,
      "learning_rate": 1.8198959570819763e-05,
      "loss": 0.35165834426879883,
      "memory(GiB)": 73.83,
      "step": 83960,
      "token_acc": 0.9238410596026491,
      "train_speed(iter/s)": 1.455234
    },
    {
      "epoch": 3.597318024077803,
      "grad_norm": 5.178638935089111,
      "learning_rate": 1.8193766682092155e-05,
      "loss": 0.46962995529174806,
      "memory(GiB)": 73.83,
      "step": 83965,
      "token_acc": 0.8903654485049833,
      "train_speed(iter/s)": 1.455244
    },
    {
      "epoch": 3.597532239407052,
      "grad_norm": 2.933964729309082,
      "learning_rate": 1.8188574369564293e-05,
      "loss": 0.40755791664123536,
      "memory(GiB)": 73.83,
      "step": 83970,
      "token_acc": 0.919093851132686,
      "train_speed(iter/s)": 1.45525
    },
    {
      "epoch": 3.597746454736301,
      "grad_norm": 3.322059154510498,
      "learning_rate": 1.8183382633330255e-05,
      "loss": 0.3220839023590088,
      "memory(GiB)": 73.83,
      "step": 83975,
      "token_acc": 0.9329268292682927,
      "train_speed(iter/s)": 1.455252
    },
    {
      "epoch": 3.5979606700655498,
      "grad_norm": 3.960167169570923,
      "learning_rate": 1.817819147348409e-05,
      "loss": 0.29753024578094484,
      "memory(GiB)": 73.83,
      "step": 83980,
      "token_acc": 0.9106529209621993,
      "train_speed(iter/s)": 1.455255
    },
    {
      "epoch": 3.598174885394799,
      "grad_norm": 0.09577272832393646,
      "learning_rate": 1.817300089011984e-05,
      "loss": 0.3367322444915771,
      "memory(GiB)": 73.83,
      "step": 83985,
      "token_acc": 0.9385964912280702,
      "train_speed(iter/s)": 1.455263
    },
    {
      "epoch": 3.598389100724048,
      "grad_norm": 1.7502124309539795,
      "learning_rate": 1.816781088333153e-05,
      "loss": 0.28187549114227295,
      "memory(GiB)": 73.83,
      "step": 83990,
      "token_acc": 0.9314079422382672,
      "train_speed(iter/s)": 1.455263
    },
    {
      "epoch": 3.5986033160532966,
      "grad_norm": 2.918959617614746,
      "learning_rate": 1.8162621453213197e-05,
      "loss": 0.3637899875640869,
      "memory(GiB)": 73.83,
      "step": 83995,
      "token_acc": 0.9102990033222591,
      "train_speed(iter/s)": 1.455265
    },
    {
      "epoch": 3.598817531382546,
      "grad_norm": 3.084956645965576,
      "learning_rate": 1.8157432599858814e-05,
      "loss": 0.34767067432403564,
      "memory(GiB)": 73.83,
      "step": 84000,
      "token_acc": 0.9157509157509157,
      "train_speed(iter/s)": 1.455274
    },
    {
      "epoch": 3.598817531382546,
      "eval_loss": 2.3531312942504883,
      "eval_runtime": 11.7244,
      "eval_samples_per_second": 8.529,
      "eval_steps_per_second": 8.529,
      "eval_token_acc": 0.4518950437317784,
      "step": 84000
    },
    {
      "epoch": 3.5990317467117947,
      "grad_norm": 4.862483501434326,
      "learning_rate": 1.8152244323362416e-05,
      "loss": 0.25082058906555177,
      "memory(GiB)": 73.83,
      "step": 84005,
      "token_acc": 0.5852090032154341,
      "train_speed(iter/s)": 1.454966
    },
    {
      "epoch": 3.5992459620410435,
      "grad_norm": 2.9174506664276123,
      "learning_rate": 1.8147056623818004e-05,
      "loss": 0.41420464515686034,
      "memory(GiB)": 73.83,
      "step": 84010,
      "token_acc": 0.9238754325259516,
      "train_speed(iter/s)": 1.454971
    },
    {
      "epoch": 3.599460177370293,
      "grad_norm": 0.3214283287525177,
      "learning_rate": 1.814186950131954e-05,
      "loss": 0.2997806310653687,
      "memory(GiB)": 73.83,
      "step": 84015,
      "token_acc": 0.9620853080568721,
      "train_speed(iter/s)": 1.454976
    },
    {
      "epoch": 3.5996743926995416,
      "grad_norm": 1.6118556261062622,
      "learning_rate": 1.8136682955960997e-05,
      "loss": 0.13780838251113892,
      "memory(GiB)": 73.83,
      "step": 84020,
      "token_acc": 0.9616858237547893,
      "train_speed(iter/s)": 1.454964
    },
    {
      "epoch": 3.5998886080287904,
      "grad_norm": 4.181699275970459,
      "learning_rate": 1.813149698783633e-05,
      "loss": 0.4362928867340088,
      "memory(GiB)": 73.83,
      "step": 84025,
      "token_acc": 0.9004149377593361,
      "train_speed(iter/s)": 1.454965
    },
    {
      "epoch": 3.6001028233580397,
      "grad_norm": 2.7917661666870117,
      "learning_rate": 1.812631159703948e-05,
      "loss": 0.24245057106018067,
      "memory(GiB)": 73.83,
      "step": 84030,
      "token_acc": 0.924924924924925,
      "train_speed(iter/s)": 1.454966
    },
    {
      "epoch": 3.6003170386872885,
      "grad_norm": 3.00593900680542,
      "learning_rate": 1.8121126783664406e-05,
      "loss": 0.31756227016448973,
      "memory(GiB)": 73.83,
      "step": 84035,
      "token_acc": 0.9203821656050956,
      "train_speed(iter/s)": 1.454966
    },
    {
      "epoch": 3.6005312540165373,
      "grad_norm": 0.12913979589939117,
      "learning_rate": 1.8115942547805025e-05,
      "loss": 0.26597068309783933,
      "memory(GiB)": 73.83,
      "step": 84040,
      "token_acc": 0.9543859649122807,
      "train_speed(iter/s)": 1.454966
    },
    {
      "epoch": 3.6007454693457865,
      "grad_norm": 5.272270202636719,
      "learning_rate": 1.8110758889555256e-05,
      "loss": 0.3613454818725586,
      "memory(GiB)": 73.83,
      "step": 84045,
      "token_acc": 0.8921568627450981,
      "train_speed(iter/s)": 1.454966
    },
    {
      "epoch": 3.6009596846750354,
      "grad_norm": 3.2140979766845703,
      "learning_rate": 1.8105575809009008e-05,
      "loss": 0.30244901180267336,
      "memory(GiB)": 73.83,
      "step": 84050,
      "token_acc": 0.9107981220657277,
      "train_speed(iter/s)": 1.454965
    },
    {
      "epoch": 3.601173900004284,
      "grad_norm": 5.081482410430908,
      "learning_rate": 1.8100393306260166e-05,
      "loss": 0.24523451328277587,
      "memory(GiB)": 73.83,
      "step": 84055,
      "token_acc": 0.9437086092715232,
      "train_speed(iter/s)": 1.454963
    },
    {
      "epoch": 3.6013881153335334,
      "grad_norm": 3.0181641578674316,
      "learning_rate": 1.809521138140261e-05,
      "loss": 0.25851755142211913,
      "memory(GiB)": 73.83,
      "step": 84060,
      "token_acc": 0.9391025641025641,
      "train_speed(iter/s)": 1.454965
    },
    {
      "epoch": 3.6016023306627822,
      "grad_norm": 2.1120572090148926,
      "learning_rate": 1.8090030034530247e-05,
      "loss": 0.28589372634887694,
      "memory(GiB)": 73.83,
      "step": 84065,
      "token_acc": 0.9265734265734266,
      "train_speed(iter/s)": 1.454974
    },
    {
      "epoch": 3.601816545992031,
      "grad_norm": 4.210361003875732,
      "learning_rate": 1.8084849265736927e-05,
      "loss": 0.4907377243041992,
      "memory(GiB)": 73.83,
      "step": 84070,
      "token_acc": 0.8888888888888888,
      "train_speed(iter/s)": 1.454976
    },
    {
      "epoch": 3.6020307613212803,
      "grad_norm": 4.671712875366211,
      "learning_rate": 1.807966907511648e-05,
      "loss": 0.23020679950714112,
      "memory(GiB)": 73.83,
      "step": 84075,
      "token_acc": 0.939799331103679,
      "train_speed(iter/s)": 1.454983
    },
    {
      "epoch": 3.602244976650529,
      "grad_norm": 3.0572946071624756,
      "learning_rate": 1.807448946276279e-05,
      "loss": 0.32141215801239015,
      "memory(GiB)": 73.83,
      "step": 84080,
      "token_acc": 0.926056338028169,
      "train_speed(iter/s)": 1.454999
    },
    {
      "epoch": 3.602459191979778,
      "grad_norm": 2.7339980602264404,
      "learning_rate": 1.806931042876967e-05,
      "loss": 0.35782608985900877,
      "memory(GiB)": 73.83,
      "step": 84085,
      "token_acc": 0.9186991869918699,
      "train_speed(iter/s)": 1.455008
    },
    {
      "epoch": 3.602673407309027,
      "grad_norm": 1.4496005773544312,
      "learning_rate": 1.806413197323093e-05,
      "loss": 0.3886574745178223,
      "memory(GiB)": 73.83,
      "step": 84090,
      "token_acc": 0.9172185430463576,
      "train_speed(iter/s)": 1.45501
    },
    {
      "epoch": 3.602887622638276,
      "grad_norm": 4.592532634735107,
      "learning_rate": 1.805895409624041e-05,
      "loss": 0.3122557640075684,
      "memory(GiB)": 73.83,
      "step": 84095,
      "token_acc": 0.9434523809523809,
      "train_speed(iter/s)": 1.455014
    },
    {
      "epoch": 3.603101837967525,
      "grad_norm": 3.890413761138916,
      "learning_rate": 1.80537767978919e-05,
      "loss": 0.586841344833374,
      "memory(GiB)": 73.83,
      "step": 84100,
      "token_acc": 0.8913738019169329,
      "train_speed(iter/s)": 1.455022
    },
    {
      "epoch": 3.603316053296774,
      "grad_norm": 2.0631563663482666,
      "learning_rate": 1.80486000782792e-05,
      "loss": 0.18741388320922853,
      "memory(GiB)": 73.83,
      "step": 84105,
      "token_acc": 0.9484126984126984,
      "train_speed(iter/s)": 1.455022
    },
    {
      "epoch": 3.603530268626023,
      "grad_norm": 2.6025807857513428,
      "learning_rate": 1.804342393749608e-05,
      "loss": 0.2340993881225586,
      "memory(GiB)": 73.83,
      "step": 84110,
      "token_acc": 0.9501779359430605,
      "train_speed(iter/s)": 1.455025
    },
    {
      "epoch": 3.6037444839552717,
      "grad_norm": 0.5295717716217041,
      "learning_rate": 1.803824837563629e-05,
      "loss": 0.2798517942428589,
      "memory(GiB)": 73.83,
      "step": 84115,
      "token_acc": 0.9298892988929889,
      "train_speed(iter/s)": 1.455023
    },
    {
      "epoch": 3.603958699284521,
      "grad_norm": 4.162315845489502,
      "learning_rate": 1.803307339279363e-05,
      "loss": 0.2141578435897827,
      "memory(GiB)": 73.83,
      "step": 84120,
      "token_acc": 0.9485294117647058,
      "train_speed(iter/s)": 1.45503
    },
    {
      "epoch": 3.6041729146137698,
      "grad_norm": 0.15541864931583405,
      "learning_rate": 1.8027898989061838e-05,
      "loss": 0.333713960647583,
      "memory(GiB)": 73.83,
      "step": 84125,
      "token_acc": 0.9236947791164659,
      "train_speed(iter/s)": 1.455033
    },
    {
      "epoch": 3.6043871299430186,
      "grad_norm": 2.355768918991089,
      "learning_rate": 1.8022725164534647e-05,
      "loss": 0.27733640670776366,
      "memory(GiB)": 73.83,
      "step": 84130,
      "token_acc": 0.9366666666666666,
      "train_speed(iter/s)": 1.455032
    },
    {
      "epoch": 3.604601345272268,
      "grad_norm": 2.697409152984619,
      "learning_rate": 1.8017551919305787e-05,
      "loss": 0.3305061817169189,
      "memory(GiB)": 73.83,
      "step": 84135,
      "token_acc": 0.9473684210526315,
      "train_speed(iter/s)": 1.455038
    },
    {
      "epoch": 3.6048155606015166,
      "grad_norm": 2.994265556335449,
      "learning_rate": 1.8012379253468975e-05,
      "loss": 0.33380439281463625,
      "memory(GiB)": 73.83,
      "step": 84140,
      "token_acc": 0.9180327868852459,
      "train_speed(iter/s)": 1.455046
    },
    {
      "epoch": 3.6050297759307655,
      "grad_norm": 3.0136072635650635,
      "learning_rate": 1.80072071671179e-05,
      "loss": 0.39999823570251464,
      "memory(GiB)": 73.83,
      "step": 84145,
      "token_acc": 0.8972602739726028,
      "train_speed(iter/s)": 1.455049
    },
    {
      "epoch": 3.6052439912600147,
      "grad_norm": 2.614556074142456,
      "learning_rate": 1.8002035660346283e-05,
      "loss": 0.3853168964385986,
      "memory(GiB)": 73.83,
      "step": 84150,
      "token_acc": 0.9016393442622951,
      "train_speed(iter/s)": 1.455047
    },
    {
      "epoch": 3.6054582065892635,
      "grad_norm": 1.0659188032150269,
      "learning_rate": 1.7996864733247822e-05,
      "loss": 0.2703362464904785,
      "memory(GiB)": 73.83,
      "step": 84155,
      "token_acc": 0.9455782312925171,
      "train_speed(iter/s)": 1.45505
    },
    {
      "epoch": 3.6056724219185123,
      "grad_norm": 3.6102335453033447,
      "learning_rate": 1.7991694385916176e-05,
      "loss": 0.38863515853881836,
      "memory(GiB)": 73.83,
      "step": 84160,
      "token_acc": 0.9101123595505618,
      "train_speed(iter/s)": 1.455046
    },
    {
      "epoch": 3.6058866372477616,
      "grad_norm": 2.2605018615722656,
      "learning_rate": 1.7986524618445017e-05,
      "loss": 0.24661026000976563,
      "memory(GiB)": 73.83,
      "step": 84165,
      "token_acc": 0.9451219512195121,
      "train_speed(iter/s)": 1.455051
    },
    {
      "epoch": 3.6061008525770104,
      "grad_norm": 5.156017780303955,
      "learning_rate": 1.7981355430927992e-05,
      "loss": 0.4328977108001709,
      "memory(GiB)": 73.83,
      "step": 84170,
      "token_acc": 0.9077380952380952,
      "train_speed(iter/s)": 1.45505
    },
    {
      "epoch": 3.606315067906259,
      "grad_norm": 1.7021595239639282,
      "learning_rate": 1.797618682345873e-05,
      "loss": 0.12054787874221802,
      "memory(GiB)": 73.83,
      "step": 84175,
      "token_acc": 0.9586206896551724,
      "train_speed(iter/s)": 1.455055
    },
    {
      "epoch": 3.6065292832355085,
      "grad_norm": 0.10237816721200943,
      "learning_rate": 1.7971018796130906e-05,
      "loss": 0.4718155384063721,
      "memory(GiB)": 73.83,
      "step": 84180,
      "token_acc": 0.8976377952755905,
      "train_speed(iter/s)": 1.455062
    },
    {
      "epoch": 3.6067434985647573,
      "grad_norm": 3.531283378601074,
      "learning_rate": 1.796585134903812e-05,
      "loss": 0.2466805934906006,
      "memory(GiB)": 73.83,
      "step": 84185,
      "token_acc": 0.9377049180327869,
      "train_speed(iter/s)": 1.455068
    },
    {
      "epoch": 3.606957713894006,
      "grad_norm": 3.4534084796905518,
      "learning_rate": 1.7960684482273986e-05,
      "loss": 0.5181027889251709,
      "memory(GiB)": 73.83,
      "step": 84190,
      "token_acc": 0.9111842105263158,
      "train_speed(iter/s)": 1.455068
    },
    {
      "epoch": 3.6071719292232554,
      "grad_norm": 7.89737606048584,
      "learning_rate": 1.7955518195932114e-05,
      "loss": 0.6232117652893067,
      "memory(GiB)": 73.83,
      "step": 84195,
      "token_acc": 0.8996655518394648,
      "train_speed(iter/s)": 1.455071
    },
    {
      "epoch": 3.607386144552504,
      "grad_norm": 2.775392770767212,
      "learning_rate": 1.7950352490106083e-05,
      "loss": 0.539932107925415,
      "memory(GiB)": 73.83,
      "step": 84200,
      "token_acc": 0.8928571428571429,
      "train_speed(iter/s)": 1.455094
    },
    {
      "epoch": 3.607600359881753,
      "grad_norm": 3.079920530319214,
      "learning_rate": 1.794518736488947e-05,
      "loss": 0.44122610092163084,
      "memory(GiB)": 73.83,
      "step": 84205,
      "token_acc": 0.9111111111111111,
      "train_speed(iter/s)": 1.455092
    },
    {
      "epoch": 3.6078145752110022,
      "grad_norm": 2.0752761363983154,
      "learning_rate": 1.794002282037587e-05,
      "loss": 0.2060330867767334,
      "memory(GiB)": 73.83,
      "step": 84210,
      "token_acc": 0.9591078066914498,
      "train_speed(iter/s)": 1.455095
    },
    {
      "epoch": 3.608028790540251,
      "grad_norm": 3.435302734375,
      "learning_rate": 1.793485885665883e-05,
      "loss": 0.3577293634414673,
      "memory(GiB)": 73.83,
      "step": 84215,
      "token_acc": 0.9083665338645418,
      "train_speed(iter/s)": 1.455107
    },
    {
      "epoch": 3.6082430058695,
      "grad_norm": 1.5544615983963013,
      "learning_rate": 1.792969547383191e-05,
      "loss": 0.27386162281036375,
      "memory(GiB)": 73.83,
      "step": 84220,
      "token_acc": 0.9493243243243243,
      "train_speed(iter/s)": 1.455122
    },
    {
      "epoch": 3.608457221198749,
      "grad_norm": 3.081909656524658,
      "learning_rate": 1.792453267198862e-05,
      "loss": 0.2732645750045776,
      "memory(GiB)": 73.83,
      "step": 84225,
      "token_acc": 0.952054794520548,
      "train_speed(iter/s)": 1.45512
    },
    {
      "epoch": 3.608671436527998,
      "grad_norm": 6.09186315536499,
      "learning_rate": 1.7919370451222523e-05,
      "loss": 0.656531286239624,
      "memory(GiB)": 73.83,
      "step": 84230,
      "token_acc": 0.8807947019867549,
      "train_speed(iter/s)": 1.45514
    },
    {
      "epoch": 3.6088856518572467,
      "grad_norm": 3.5534493923187256,
      "learning_rate": 1.791420881162711e-05,
      "loss": 0.44430222511291506,
      "memory(GiB)": 73.83,
      "step": 84235,
      "token_acc": 0.9096989966555183,
      "train_speed(iter/s)": 1.455152
    },
    {
      "epoch": 3.609099867186496,
      "grad_norm": 5.168217658996582,
      "learning_rate": 1.790904775329592e-05,
      "loss": 0.39095230102539064,
      "memory(GiB)": 73.83,
      "step": 84240,
      "token_acc": 0.9361702127659575,
      "train_speed(iter/s)": 1.455153
    },
    {
      "epoch": 3.609314082515745,
      "grad_norm": 3.8494389057159424,
      "learning_rate": 1.7903887276322433e-05,
      "loss": 0.3009265184402466,
      "memory(GiB)": 73.83,
      "step": 84245,
      "token_acc": 0.9344262295081968,
      "train_speed(iter/s)": 1.455152
    },
    {
      "epoch": 3.6095282978449936,
      "grad_norm": 3.633589029312134,
      "learning_rate": 1.789872738080014e-05,
      "loss": 0.204177188873291,
      "memory(GiB)": 73.83,
      "step": 84250,
      "token_acc": 0.9379310344827586,
      "train_speed(iter/s)": 1.455154
    },
    {
      "epoch": 3.609742513174243,
      "grad_norm": 5.139145851135254,
      "learning_rate": 1.7893568066822507e-05,
      "loss": 0.5844810485839844,
      "memory(GiB)": 73.83,
      "step": 84255,
      "token_acc": 0.8804347826086957,
      "train_speed(iter/s)": 1.455154
    },
    {
      "epoch": 3.6099567285034917,
      "grad_norm": 1.3206192255020142,
      "learning_rate": 1.7888409334483e-05,
      "loss": 0.12763750553131104,
      "memory(GiB)": 73.83,
      "step": 84260,
      "token_acc": 0.9683098591549296,
      "train_speed(iter/s)": 1.455167
    },
    {
      "epoch": 3.6101709438327405,
      "grad_norm": 2.060940742492676,
      "learning_rate": 1.788325118387509e-05,
      "loss": 0.3594426393508911,
      "memory(GiB)": 73.83,
      "step": 84265,
      "token_acc": 0.9110320284697508,
      "train_speed(iter/s)": 1.455172
    },
    {
      "epoch": 3.6103851591619898,
      "grad_norm": 1.84982168674469,
      "learning_rate": 1.787809361509221e-05,
      "loss": 0.2207127809524536,
      "memory(GiB)": 73.83,
      "step": 84270,
      "token_acc": 0.928030303030303,
      "train_speed(iter/s)": 1.455182
    },
    {
      "epoch": 3.6105993744912386,
      "grad_norm": 1.6860064268112183,
      "learning_rate": 1.7872936628227804e-05,
      "loss": 0.4120178699493408,
      "memory(GiB)": 73.83,
      "step": 84275,
      "token_acc": 0.911864406779661,
      "train_speed(iter/s)": 1.455196
    },
    {
      "epoch": 3.6108135898204874,
      "grad_norm": 0.10394991189241409,
      "learning_rate": 1.7867780223375284e-05,
      "loss": 0.22043933868408203,
      "memory(GiB)": 73.83,
      "step": 84280,
      "token_acc": 0.9559228650137741,
      "train_speed(iter/s)": 1.455195
    },
    {
      "epoch": 3.6110278051497366,
      "grad_norm": 0.07354453951120377,
      "learning_rate": 1.7862624400628074e-05,
      "loss": 0.2711911916732788,
      "memory(GiB)": 73.83,
      "step": 84285,
      "token_acc": 0.915625,
      "train_speed(iter/s)": 1.455195
    },
    {
      "epoch": 3.6112420204789855,
      "grad_norm": 2.304638147354126,
      "learning_rate": 1.785746916007955e-05,
      "loss": 0.3315845251083374,
      "memory(GiB)": 73.83,
      "step": 84290,
      "token_acc": 0.9342105263157895,
      "train_speed(iter/s)": 1.455197
    },
    {
      "epoch": 3.6114562358082343,
      "grad_norm": 2.1741621494293213,
      "learning_rate": 1.785231450182314e-05,
      "loss": 0.19761362075805664,
      "memory(GiB)": 73.83,
      "step": 84295,
      "token_acc": 0.9681159420289855,
      "train_speed(iter/s)": 1.455197
    },
    {
      "epoch": 3.6116704511374835,
      "grad_norm": 5.261202335357666,
      "learning_rate": 1.7847160425952193e-05,
      "loss": 0.4102391242980957,
      "memory(GiB)": 73.83,
      "step": 84300,
      "token_acc": 0.9172932330827067,
      "train_speed(iter/s)": 1.4552
    },
    {
      "epoch": 3.6118846664667323,
      "grad_norm": 6.212505340576172,
      "learning_rate": 1.7842006932560113e-05,
      "loss": 0.7748819828033447,
      "memory(GiB)": 73.83,
      "step": 84305,
      "token_acc": 0.8403041825095057,
      "train_speed(iter/s)": 1.455207
    },
    {
      "epoch": 3.6120988817959816,
      "grad_norm": 4.025906085968018,
      "learning_rate": 1.7836854021740245e-05,
      "loss": 0.3390922784805298,
      "memory(GiB)": 73.83,
      "step": 84310,
      "token_acc": 0.9084249084249084,
      "train_speed(iter/s)": 1.455211
    },
    {
      "epoch": 3.6123130971252304,
      "grad_norm": 0.14971007406711578,
      "learning_rate": 1.783170169358594e-05,
      "loss": 0.2111055612564087,
      "memory(GiB)": 73.83,
      "step": 84315,
      "token_acc": 0.9616613418530351,
      "train_speed(iter/s)": 1.455224
    },
    {
      "epoch": 3.6125273124544792,
      "grad_norm": 0.1410369873046875,
      "learning_rate": 1.7826549948190514e-05,
      "loss": 0.1648914098739624,
      "memory(GiB)": 73.83,
      "step": 84320,
      "token_acc": 0.9584775086505191,
      "train_speed(iter/s)": 1.455226
    },
    {
      "epoch": 3.6127415277837285,
      "grad_norm": 4.032229900360107,
      "learning_rate": 1.7821398785647338e-05,
      "loss": 0.4423069953918457,
      "memory(GiB)": 73.83,
      "step": 84325,
      "token_acc": 0.8855218855218855,
      "train_speed(iter/s)": 1.455225
    },
    {
      "epoch": 3.6129557431129773,
      "grad_norm": 2.270805597305298,
      "learning_rate": 1.7816248206049708e-05,
      "loss": 0.44481310844421384,
      "memory(GiB)": 73.83,
      "step": 84330,
      "token_acc": 0.8943661971830986,
      "train_speed(iter/s)": 1.455225
    },
    {
      "epoch": 3.613169958442226,
      "grad_norm": 0.3732922673225403,
      "learning_rate": 1.7811098209490927e-05,
      "loss": 0.280358624458313,
      "memory(GiB)": 73.83,
      "step": 84335,
      "token_acc": 0.9627118644067797,
      "train_speed(iter/s)": 1.455232
    },
    {
      "epoch": 3.6133841737714754,
      "grad_norm": 5.753911018371582,
      "learning_rate": 1.7805948796064305e-05,
      "loss": 0.60927734375,
      "memory(GiB)": 73.83,
      "step": 84340,
      "token_acc": 0.875,
      "train_speed(iter/s)": 1.455245
    },
    {
      "epoch": 3.613598389100724,
      "grad_norm": 3.927255392074585,
      "learning_rate": 1.780079996586312e-05,
      "loss": 0.3377927303314209,
      "memory(GiB)": 73.83,
      "step": 84345,
      "token_acc": 0.92,
      "train_speed(iter/s)": 1.455256
    },
    {
      "epoch": 3.613812604429973,
      "grad_norm": 2.5210132598876953,
      "learning_rate": 1.7795651718980626e-05,
      "loss": 0.3088147878646851,
      "memory(GiB)": 73.83,
      "step": 84350,
      "token_acc": 0.9175627240143369,
      "train_speed(iter/s)": 1.455272
    },
    {
      "epoch": 3.6140268197592222,
      "grad_norm": 3.9322967529296875,
      "learning_rate": 1.779050405551013e-05,
      "loss": 0.5872735500335693,
      "memory(GiB)": 73.83,
      "step": 84355,
      "token_acc": 0.8958333333333334,
      "train_speed(iter/s)": 1.455293
    },
    {
      "epoch": 3.614241035088471,
      "grad_norm": 3.9893009662628174,
      "learning_rate": 1.7785356975544875e-05,
      "loss": 0.6364948272705078,
      "memory(GiB)": 73.83,
      "step": 84360,
      "token_acc": 0.851063829787234,
      "train_speed(iter/s)": 1.455295
    },
    {
      "epoch": 3.61445525041772,
      "grad_norm": 5.873030662536621,
      "learning_rate": 1.7780210479178095e-05,
      "loss": 0.3870628595352173,
      "memory(GiB)": 73.83,
      "step": 84365,
      "token_acc": 0.9138461538461539,
      "train_speed(iter/s)": 1.455293
    },
    {
      "epoch": 3.614669465746969,
      "grad_norm": 3.2750041484832764,
      "learning_rate": 1.7775064566503008e-05,
      "loss": 0.3280526399612427,
      "memory(GiB)": 73.83,
      "step": 84370,
      "token_acc": 0.9263157894736842,
      "train_speed(iter/s)": 1.455296
    },
    {
      "epoch": 3.614883681076218,
      "grad_norm": 3.6202187538146973,
      "learning_rate": 1.776991923761287e-05,
      "loss": 0.4508617401123047,
      "memory(GiB)": 73.83,
      "step": 84375,
      "token_acc": 0.9133574007220217,
      "train_speed(iter/s)": 1.455315
    },
    {
      "epoch": 3.6150978964054667,
      "grad_norm": 3.1152145862579346,
      "learning_rate": 1.7764774492600866e-05,
      "loss": 0.3024734020233154,
      "memory(GiB)": 73.83,
      "step": 84380,
      "token_acc": 0.9543973941368078,
      "train_speed(iter/s)": 1.455326
    },
    {
      "epoch": 3.615312111734716,
      "grad_norm": 2.4500908851623535,
      "learning_rate": 1.775963033156023e-05,
      "loss": 0.4032568454742432,
      "memory(GiB)": 73.83,
      "step": 84385,
      "token_acc": 0.9140893470790378,
      "train_speed(iter/s)": 1.45533
    },
    {
      "epoch": 3.615526327063965,
      "grad_norm": 1.5512195825576782,
      "learning_rate": 1.7754486754584132e-05,
      "loss": 0.19552197456359863,
      "memory(GiB)": 73.83,
      "step": 84390,
      "token_acc": 0.9647435897435898,
      "train_speed(iter/s)": 1.455338
    },
    {
      "epoch": 3.6157405423932136,
      "grad_norm": 3.827230930328369,
      "learning_rate": 1.7749343761765753e-05,
      "loss": 0.5017722606658935,
      "memory(GiB)": 73.83,
      "step": 84395,
      "token_acc": 0.899641577060932,
      "train_speed(iter/s)": 1.455345
    },
    {
      "epoch": 3.615954757722463,
      "grad_norm": 5.409109592437744,
      "learning_rate": 1.7744201353198263e-05,
      "loss": 0.567815113067627,
      "memory(GiB)": 73.83,
      "step": 84400,
      "token_acc": 0.8735632183908046,
      "train_speed(iter/s)": 1.455347
    },
    {
      "epoch": 3.6161689730517117,
      "grad_norm": 2.6805431842803955,
      "learning_rate": 1.7739059528974815e-05,
      "loss": 0.25431070327758787,
      "memory(GiB)": 73.83,
      "step": 84405,
      "token_acc": 0.9389067524115756,
      "train_speed(iter/s)": 1.45535
    },
    {
      "epoch": 3.6163831883809605,
      "grad_norm": 2.1323933601379395,
      "learning_rate": 1.7733918289188577e-05,
      "loss": 0.4484558582305908,
      "memory(GiB)": 73.83,
      "step": 84410,
      "token_acc": 0.910828025477707,
      "train_speed(iter/s)": 1.455363
    },
    {
      "epoch": 3.6165974037102098,
      "grad_norm": 4.117961883544922,
      "learning_rate": 1.7728777633932688e-05,
      "loss": 0.4076814651489258,
      "memory(GiB)": 73.83,
      "step": 84415,
      "token_acc": 0.9187279151943463,
      "train_speed(iter/s)": 1.455373
    },
    {
      "epoch": 3.6168116190394586,
      "grad_norm": 5.277315139770508,
      "learning_rate": 1.7723637563300256e-05,
      "loss": 0.377270770072937,
      "memory(GiB)": 73.83,
      "step": 84420,
      "token_acc": 0.9358108108108109,
      "train_speed(iter/s)": 1.455376
    },
    {
      "epoch": 3.6170258343687074,
      "grad_norm": 5.531269550323486,
      "learning_rate": 1.7718498077384406e-05,
      "loss": 0.3211493492126465,
      "memory(GiB)": 73.83,
      "step": 84425,
      "token_acc": 0.9266409266409267,
      "train_speed(iter/s)": 1.455381
    },
    {
      "epoch": 3.6172400496979566,
      "grad_norm": 0.13552404940128326,
      "learning_rate": 1.771335917627825e-05,
      "loss": 0.19428508281707763,
      "memory(GiB)": 73.83,
      "step": 84430,
      "token_acc": 0.9609929078014184,
      "train_speed(iter/s)": 1.455385
    },
    {
      "epoch": 3.6174542650272055,
      "grad_norm": 3.419173002243042,
      "learning_rate": 1.7708220860074858e-05,
      "loss": 0.3414153575897217,
      "memory(GiB)": 73.83,
      "step": 84435,
      "token_acc": 0.9453924914675768,
      "train_speed(iter/s)": 1.4554
    },
    {
      "epoch": 3.6176684803564543,
      "grad_norm": 6.4722089767456055,
      "learning_rate": 1.770308312886736e-05,
      "loss": 0.3270731925964355,
      "memory(GiB)": 73.83,
      "step": 84440,
      "token_acc": 0.9363957597173145,
      "train_speed(iter/s)": 1.455413
    },
    {
      "epoch": 3.6178826956857035,
      "grad_norm": 3.8911468982696533,
      "learning_rate": 1.7697945982748786e-05,
      "loss": 0.2569157600402832,
      "memory(GiB)": 73.83,
      "step": 84445,
      "token_acc": 0.9433333333333334,
      "train_speed(iter/s)": 1.455415
    },
    {
      "epoch": 3.6180969110149523,
      "grad_norm": 5.318711280822754,
      "learning_rate": 1.7692809421812246e-05,
      "loss": 0.3063901424407959,
      "memory(GiB)": 73.83,
      "step": 84450,
      "token_acc": 0.915057915057915,
      "train_speed(iter/s)": 1.455418
    },
    {
      "epoch": 3.618311126344201,
      "grad_norm": 7.108423233032227,
      "learning_rate": 1.768767344615076e-05,
      "loss": 0.650964879989624,
      "memory(GiB)": 73.83,
      "step": 84455,
      "token_acc": 0.8639240506329114,
      "train_speed(iter/s)": 1.455421
    },
    {
      "epoch": 3.6185253416734504,
      "grad_norm": 5.227898597717285,
      "learning_rate": 1.768253805585739e-05,
      "loss": 0.3530306816101074,
      "memory(GiB)": 73.83,
      "step": 84460,
      "token_acc": 0.9278688524590164,
      "train_speed(iter/s)": 1.455428
    },
    {
      "epoch": 3.6187395570026992,
      "grad_norm": 3.4455742835998535,
      "learning_rate": 1.767740325102514e-05,
      "loss": 0.5094467163085937,
      "memory(GiB)": 73.83,
      "step": 84465,
      "token_acc": 0.8932584269662921,
      "train_speed(iter/s)": 1.455438
    },
    {
      "epoch": 3.618953772331948,
      "grad_norm": 2.3202943801879883,
      "learning_rate": 1.7672269031747065e-05,
      "loss": 0.23366374969482423,
      "memory(GiB)": 73.83,
      "step": 84470,
      "token_acc": 0.9326241134751773,
      "train_speed(iter/s)": 1.45545
    },
    {
      "epoch": 3.6191679876611973,
      "grad_norm": 7.409015655517578,
      "learning_rate": 1.7667135398116163e-05,
      "loss": 0.4340362071990967,
      "memory(GiB)": 73.83,
      "step": 84475,
      "token_acc": 0.9230769230769231,
      "train_speed(iter/s)": 1.455458
    },
    {
      "epoch": 3.619382202990446,
      "grad_norm": 3.7387142181396484,
      "learning_rate": 1.7662002350225437e-05,
      "loss": 0.3367814064025879,
      "memory(GiB)": 73.83,
      "step": 84480,
      "token_acc": 0.9154411764705882,
      "train_speed(iter/s)": 1.455458
    },
    {
      "epoch": 3.619596418319695,
      "grad_norm": 2.6357638835906982,
      "learning_rate": 1.765686988816787e-05,
      "loss": 0.2825544595718384,
      "memory(GiB)": 73.83,
      "step": 84485,
      "token_acc": 0.9455128205128205,
      "train_speed(iter/s)": 1.455458
    },
    {
      "epoch": 3.619810633648944,
      "grad_norm": 2.401129722595215,
      "learning_rate": 1.765173801203645e-05,
      "loss": 0.32756991386413575,
      "memory(GiB)": 73.83,
      "step": 84490,
      "token_acc": 0.9367816091954023,
      "train_speed(iter/s)": 1.455463
    },
    {
      "epoch": 3.620024848978193,
      "grad_norm": 2.765345811843872,
      "learning_rate": 1.7646606721924126e-05,
      "loss": 0.29236438274383547,
      "memory(GiB)": 73.83,
      "step": 84495,
      "token_acc": 0.9415807560137457,
      "train_speed(iter/s)": 1.455465
    },
    {
      "epoch": 3.620239064307442,
      "grad_norm": 2.988874673843384,
      "learning_rate": 1.764147601792388e-05,
      "loss": 0.3148065090179443,
      "memory(GiB)": 73.83,
      "step": 84500,
      "token_acc": 0.9323308270676691,
      "train_speed(iter/s)": 1.455479
    },
    {
      "epoch": 3.620239064307442,
      "eval_loss": 2.599130868911743,
      "eval_runtime": 12.0009,
      "eval_samples_per_second": 8.333,
      "eval_steps_per_second": 8.333,
      "eval_token_acc": 0.4375804375804376,
      "step": 84500
    },
    {
      "epoch": 3.620453279636691,
      "grad_norm": 2.268540859222412,
      "learning_rate": 1.7636345900128654e-05,
      "loss": 0.28068807125091555,
      "memory(GiB)": 73.83,
      "step": 84505,
      "token_acc": 0.5801668211306765,
      "train_speed(iter/s)": 1.455157
    },
    {
      "epoch": 3.62066749496594,
      "grad_norm": 3.708876371383667,
      "learning_rate": 1.763121636863138e-05,
      "loss": 0.46747651100158694,
      "memory(GiB)": 73.83,
      "step": 84510,
      "token_acc": 0.9120879120879121,
      "train_speed(iter/s)": 1.455168
    },
    {
      "epoch": 3.6208817102951887,
      "grad_norm": 3.2853832244873047,
      "learning_rate": 1.762608742352499e-05,
      "loss": 0.23694238662719727,
      "memory(GiB)": 73.83,
      "step": 84515,
      "token_acc": 0.9486301369863014,
      "train_speed(iter/s)": 1.455174
    },
    {
      "epoch": 3.621095925624438,
      "grad_norm": 0.40233224630355835,
      "learning_rate": 1.7620959064902376e-05,
      "loss": 0.4559582233428955,
      "memory(GiB)": 73.83,
      "step": 84520,
      "token_acc": 0.8685015290519877,
      "train_speed(iter/s)": 1.455186
    },
    {
      "epoch": 3.6213101409536868,
      "grad_norm": 6.409286975860596,
      "learning_rate": 1.7615831292856468e-05,
      "loss": 0.6856688499450684,
      "memory(GiB)": 73.83,
      "step": 84525,
      "token_acc": 0.8633333333333333,
      "train_speed(iter/s)": 1.455189
    },
    {
      "epoch": 3.6215243562829356,
      "grad_norm": 3.9631752967834473,
      "learning_rate": 1.7610704107480165e-05,
      "loss": 0.14927912950515748,
      "memory(GiB)": 73.83,
      "step": 84530,
      "token_acc": 0.9719298245614035,
      "train_speed(iter/s)": 1.455201
    },
    {
      "epoch": 3.621738571612185,
      "grad_norm": 3.220599412918091,
      "learning_rate": 1.760557750886634e-05,
      "loss": 0.2813973903656006,
      "memory(GiB)": 73.83,
      "step": 84535,
      "token_acc": 0.9345454545454546,
      "train_speed(iter/s)": 1.455199
    },
    {
      "epoch": 3.6219527869414336,
      "grad_norm": 4.972516059875488,
      "learning_rate": 1.7600451497107873e-05,
      "loss": 0.36602215766906737,
      "memory(GiB)": 73.83,
      "step": 84540,
      "token_acc": 0.9179331306990881,
      "train_speed(iter/s)": 1.455201
    },
    {
      "epoch": 3.6221670022706824,
      "grad_norm": 4.122875213623047,
      "learning_rate": 1.7595326072297615e-05,
      "loss": 0.4107524871826172,
      "memory(GiB)": 73.83,
      "step": 84545,
      "token_acc": 0.9110320284697508,
      "train_speed(iter/s)": 1.455201
    },
    {
      "epoch": 3.6223812175999317,
      "grad_norm": 1.5955376625061035,
      "learning_rate": 1.759020123452841e-05,
      "loss": 0.3604423522949219,
      "memory(GiB)": 73.83,
      "step": 84550,
      "token_acc": 0.9342560553633218,
      "train_speed(iter/s)": 1.455204
    },
    {
      "epoch": 3.6225954329291805,
      "grad_norm": 1.5362006425857544,
      "learning_rate": 1.758507698389313e-05,
      "loss": 0.41260762214660646,
      "memory(GiB)": 73.83,
      "step": 84555,
      "token_acc": 0.9217391304347826,
      "train_speed(iter/s)": 1.455204
    },
    {
      "epoch": 3.6228096482584293,
      "grad_norm": 1.8054417371749878,
      "learning_rate": 1.757995332048458e-05,
      "loss": 0.34844722747802737,
      "memory(GiB)": 73.83,
      "step": 84560,
      "token_acc": 0.9184397163120568,
      "train_speed(iter/s)": 1.455207
    },
    {
      "epoch": 3.6230238635876786,
      "grad_norm": 2.1866321563720703,
      "learning_rate": 1.7574830244395597e-05,
      "loss": 0.448900842666626,
      "memory(GiB)": 73.83,
      "step": 84565,
      "token_acc": 0.8933333333333333,
      "train_speed(iter/s)": 1.455228
    },
    {
      "epoch": 3.6232380789169274,
      "grad_norm": 4.603865146636963,
      "learning_rate": 1.756970775571898e-05,
      "loss": 0.3563878297805786,
      "memory(GiB)": 73.83,
      "step": 84570,
      "token_acc": 0.9329073482428115,
      "train_speed(iter/s)": 1.455231
    },
    {
      "epoch": 3.623452294246176,
      "grad_norm": 2.96891450881958,
      "learning_rate": 1.7564585854547522e-05,
      "loss": 0.5242298603057861,
      "memory(GiB)": 73.83,
      "step": 84575,
      "token_acc": 0.9019607843137255,
      "train_speed(iter/s)": 1.455231
    },
    {
      "epoch": 3.6236665095754255,
      "grad_norm": 10.131481170654297,
      "learning_rate": 1.755946454097401e-05,
      "loss": 0.5442590236663818,
      "memory(GiB)": 73.83,
      "step": 84580,
      "token_acc": 0.888235294117647,
      "train_speed(iter/s)": 1.455236
    },
    {
      "epoch": 3.6238807249046743,
      "grad_norm": 1.6663265228271484,
      "learning_rate": 1.755434381509124e-05,
      "loss": 0.17388161420822143,
      "memory(GiB)": 73.83,
      "step": 84585,
      "token_acc": 0.9519230769230769,
      "train_speed(iter/s)": 1.455242
    },
    {
      "epoch": 3.624094940233923,
      "grad_norm": 4.326173305511475,
      "learning_rate": 1.754922367699197e-05,
      "loss": 0.1737210750579834,
      "memory(GiB)": 73.83,
      "step": 84590,
      "token_acc": 0.9602649006622517,
      "train_speed(iter/s)": 1.455243
    },
    {
      "epoch": 3.6243091555631723,
      "grad_norm": 1.7945348024368286,
      "learning_rate": 1.754410412676894e-05,
      "loss": 0.2767282485961914,
      "memory(GiB)": 73.83,
      "step": 84595,
      "token_acc": 0.9588477366255144,
      "train_speed(iter/s)": 1.455242
    },
    {
      "epoch": 3.624523370892421,
      "grad_norm": 4.214382648468018,
      "learning_rate": 1.7538985164514925e-05,
      "loss": 0.3401796817779541,
      "memory(GiB)": 73.83,
      "step": 84600,
      "token_acc": 0.9118773946360154,
      "train_speed(iter/s)": 1.455249
    },
    {
      "epoch": 3.62473758622167,
      "grad_norm": 2.5410680770874023,
      "learning_rate": 1.7533866790322647e-05,
      "loss": 0.28688242435455324,
      "memory(GiB)": 73.83,
      "step": 84605,
      "token_acc": 0.9331210191082803,
      "train_speed(iter/s)": 1.455256
    },
    {
      "epoch": 3.6249518015509192,
      "grad_norm": 1.8872032165527344,
      "learning_rate": 1.7528749004284812e-05,
      "loss": 0.7526691913604736,
      "memory(GiB)": 73.83,
      "step": 84610,
      "token_acc": 0.8709677419354839,
      "train_speed(iter/s)": 1.455259
    },
    {
      "epoch": 3.625166016880168,
      "grad_norm": 3.2456727027893066,
      "learning_rate": 1.752363180649416e-05,
      "loss": 0.22249393463134765,
      "memory(GiB)": 73.83,
      "step": 84615,
      "token_acc": 0.9575971731448764,
      "train_speed(iter/s)": 1.455259
    },
    {
      "epoch": 3.625380232209417,
      "grad_norm": 3.2275168895721436,
      "learning_rate": 1.7518515197043383e-05,
      "loss": 0.2632605075836182,
      "memory(GiB)": 73.83,
      "step": 84620,
      "token_acc": 0.9347826086956522,
      "train_speed(iter/s)": 1.455263
    },
    {
      "epoch": 3.625594447538666,
      "grad_norm": 3.983342409133911,
      "learning_rate": 1.751339917602518e-05,
      "loss": 0.18620814085006715,
      "memory(GiB)": 73.83,
      "step": 84625,
      "token_acc": 0.9635036496350365,
      "train_speed(iter/s)": 1.455261
    },
    {
      "epoch": 3.625808662867915,
      "grad_norm": 3.919196605682373,
      "learning_rate": 1.7508283743532223e-05,
      "loss": 0.2220099687576294,
      "memory(GiB)": 73.83,
      "step": 84630,
      "token_acc": 0.9401408450704225,
      "train_speed(iter/s)": 1.455265
    },
    {
      "epoch": 3.6260228781971637,
      "grad_norm": 3.5931615829467773,
      "learning_rate": 1.7503168899657184e-05,
      "loss": 0.13175851106643677,
      "memory(GiB)": 73.83,
      "step": 84635,
      "token_acc": 0.9694189602446484,
      "train_speed(iter/s)": 1.455263
    },
    {
      "epoch": 3.626237093526413,
      "grad_norm": 3.554229497909546,
      "learning_rate": 1.749805464449271e-05,
      "loss": 0.3175937652587891,
      "memory(GiB)": 73.83,
      "step": 84640,
      "token_acc": 0.9163879598662207,
      "train_speed(iter/s)": 1.455264
    },
    {
      "epoch": 3.626451308855662,
      "grad_norm": 2.942842483520508,
      "learning_rate": 1.7492940978131478e-05,
      "loss": 0.47330360412597655,
      "memory(GiB)": 73.83,
      "step": 84645,
      "token_acc": 0.8992537313432836,
      "train_speed(iter/s)": 1.455268
    },
    {
      "epoch": 3.6266655241849106,
      "grad_norm": 2.6412055492401123,
      "learning_rate": 1.748782790066612e-05,
      "loss": 0.36357247829437256,
      "memory(GiB)": 73.83,
      "step": 84650,
      "token_acc": 0.9303135888501742,
      "train_speed(iter/s)": 1.455279
    },
    {
      "epoch": 3.62687973951416,
      "grad_norm": 0.18503254652023315,
      "learning_rate": 1.7482715412189253e-05,
      "loss": 0.2262439250946045,
      "memory(GiB)": 73.83,
      "step": 84655,
      "token_acc": 0.9586206896551724,
      "train_speed(iter/s)": 1.455284
    },
    {
      "epoch": 3.6270939548434087,
      "grad_norm": 2.152604818344116,
      "learning_rate": 1.7477603512793504e-05,
      "loss": 0.47420392036437986,
      "memory(GiB)": 73.83,
      "step": 84660,
      "token_acc": 0.9111842105263158,
      "train_speed(iter/s)": 1.455281
    },
    {
      "epoch": 3.6273081701726575,
      "grad_norm": 2.340676784515381,
      "learning_rate": 1.747249220257146e-05,
      "loss": 0.18244754076004027,
      "memory(GiB)": 73.83,
      "step": 84665,
      "token_acc": 0.9689655172413794,
      "train_speed(iter/s)": 1.455288
    },
    {
      "epoch": 3.6275223855019068,
      "grad_norm": 2.2578368186950684,
      "learning_rate": 1.746738148161573e-05,
      "loss": 0.29522769451141356,
      "memory(GiB)": 73.83,
      "step": 84670,
      "token_acc": 0.9405940594059405,
      "train_speed(iter/s)": 1.455292
    },
    {
      "epoch": 3.6277366008311556,
      "grad_norm": 1.2384312152862549,
      "learning_rate": 1.746227135001892e-05,
      "loss": 0.29834043979644775,
      "memory(GiB)": 73.83,
      "step": 84675,
      "token_acc": 0.9323308270676691,
      "train_speed(iter/s)": 1.455299
    },
    {
      "epoch": 3.6279508161604044,
      "grad_norm": 9.88237190246582,
      "learning_rate": 1.745716180787359e-05,
      "loss": 0.9224892616271972,
      "memory(GiB)": 73.83,
      "step": 84680,
      "token_acc": 0.8566176470588235,
      "train_speed(iter/s)": 1.455316
    },
    {
      "epoch": 3.6281650314896536,
      "grad_norm": 2.7513656616210938,
      "learning_rate": 1.7452052855272298e-05,
      "loss": 0.27963504791259763,
      "memory(GiB)": 73.83,
      "step": 84685,
      "token_acc": 0.9415584415584416,
      "train_speed(iter/s)": 1.455319
    },
    {
      "epoch": 3.6283792468189024,
      "grad_norm": 0.46101856231689453,
      "learning_rate": 1.7446944492307605e-05,
      "loss": 0.15969583988189698,
      "memory(GiB)": 73.83,
      "step": 84690,
      "token_acc": 0.9572953736654805,
      "train_speed(iter/s)": 1.45532
    },
    {
      "epoch": 3.6285934621481513,
      "grad_norm": 2.299628734588623,
      "learning_rate": 1.744183671907203e-05,
      "loss": 0.6869184494018554,
      "memory(GiB)": 73.83,
      "step": 84695,
      "token_acc": 0.8838709677419355,
      "train_speed(iter/s)": 1.455319
    },
    {
      "epoch": 3.6288076774774005,
      "grad_norm": 2.1364521980285645,
      "learning_rate": 1.743672953565814e-05,
      "loss": 0.17343060970306395,
      "memory(GiB)": 73.83,
      "step": 84700,
      "token_acc": 0.958904109589041,
      "train_speed(iter/s)": 1.455325
    },
    {
      "epoch": 3.6290218928066493,
      "grad_norm": 1.6832716464996338,
      "learning_rate": 1.7431622942158445e-05,
      "loss": 0.41300296783447266,
      "memory(GiB)": 73.83,
      "step": 84705,
      "token_acc": 0.9219858156028369,
      "train_speed(iter/s)": 1.455324
    },
    {
      "epoch": 3.629236108135898,
      "grad_norm": 0.0870814248919487,
      "learning_rate": 1.742651693866545e-05,
      "loss": 0.28507606983184813,
      "memory(GiB)": 73.83,
      "step": 84710,
      "token_acc": 0.9344827586206896,
      "train_speed(iter/s)": 1.455331
    },
    {
      "epoch": 3.6294503234651474,
      "grad_norm": 1.973046064376831,
      "learning_rate": 1.742141152527166e-05,
      "loss": 0.5529794692993164,
      "memory(GiB)": 73.83,
      "step": 84715,
      "token_acc": 0.900990099009901,
      "train_speed(iter/s)": 1.455352
    },
    {
      "epoch": 3.629664538794396,
      "grad_norm": 3.8759260177612305,
      "learning_rate": 1.7416306702069558e-05,
      "loss": 0.3662945508956909,
      "memory(GiB)": 73.83,
      "step": 84720,
      "token_acc": 0.9188191881918819,
      "train_speed(iter/s)": 1.455354
    },
    {
      "epoch": 3.629878754123645,
      "grad_norm": 1.2035819292068481,
      "learning_rate": 1.7411202469151606e-05,
      "loss": 0.3199406385421753,
      "memory(GiB)": 73.83,
      "step": 84725,
      "token_acc": 0.9401408450704225,
      "train_speed(iter/s)": 1.455353
    },
    {
      "epoch": 3.6300929694528943,
      "grad_norm": 3.2085936069488525,
      "learning_rate": 1.7406098826610313e-05,
      "loss": 0.5073770999908447,
      "memory(GiB)": 73.83,
      "step": 84730,
      "token_acc": 0.9148936170212766,
      "train_speed(iter/s)": 1.455359
    },
    {
      "epoch": 3.630307184782143,
      "grad_norm": 4.693083763122559,
      "learning_rate": 1.7400995774538116e-05,
      "loss": 0.3149114608764648,
      "memory(GiB)": 73.83,
      "step": 84735,
      "token_acc": 0.9346153846153846,
      "train_speed(iter/s)": 1.455362
    },
    {
      "epoch": 3.630521400111392,
      "grad_norm": 2.4075093269348145,
      "learning_rate": 1.739589331302744e-05,
      "loss": 0.48406238555908204,
      "memory(GiB)": 73.83,
      "step": 84740,
      "token_acc": 0.8865979381443299,
      "train_speed(iter/s)": 1.455366
    },
    {
      "epoch": 3.630735615440641,
      "grad_norm": 2.5791890621185303,
      "learning_rate": 1.7390791442170763e-05,
      "loss": 0.19986716508865357,
      "memory(GiB)": 73.83,
      "step": 84745,
      "token_acc": 0.939873417721519,
      "train_speed(iter/s)": 1.455365
    },
    {
      "epoch": 3.63094983076989,
      "grad_norm": 1.928654670715332,
      "learning_rate": 1.7385690162060487e-05,
      "loss": 0.20792243480682374,
      "memory(GiB)": 73.83,
      "step": 84750,
      "token_acc": 0.9550561797752809,
      "train_speed(iter/s)": 1.455371
    },
    {
      "epoch": 3.631164046099139,
      "grad_norm": 4.148499011993408,
      "learning_rate": 1.7380589472789015e-05,
      "loss": 0.49706258773803713,
      "memory(GiB)": 73.83,
      "step": 84755,
      "token_acc": 0.9026845637583892,
      "train_speed(iter/s)": 1.455383
    },
    {
      "epoch": 3.631378261428388,
      "grad_norm": 1.7117925882339478,
      "learning_rate": 1.7375489374448776e-05,
      "loss": 0.6889981269836426,
      "memory(GiB)": 73.83,
      "step": 84760,
      "token_acc": 0.8666666666666667,
      "train_speed(iter/s)": 1.455385
    },
    {
      "epoch": 3.631592476757637,
      "grad_norm": 1.9761631488800049,
      "learning_rate": 1.7370389867132154e-05,
      "loss": 0.4737450122833252,
      "memory(GiB)": 73.83,
      "step": 84765,
      "token_acc": 0.917981072555205,
      "train_speed(iter/s)": 1.455407
    },
    {
      "epoch": 3.6318066920868857,
      "grad_norm": 0.7478182911872864,
      "learning_rate": 1.7365290950931527e-05,
      "loss": 0.24358510971069336,
      "memory(GiB)": 73.83,
      "step": 84770,
      "token_acc": 0.9269102990033222,
      "train_speed(iter/s)": 1.45541
    },
    {
      "epoch": 3.632020907416135,
      "grad_norm": 2.429429769515991,
      "learning_rate": 1.736019262593927e-05,
      "loss": 0.27790539264678954,
      "memory(GiB)": 73.83,
      "step": 84775,
      "token_acc": 0.9238754325259516,
      "train_speed(iter/s)": 1.455424
    },
    {
      "epoch": 3.6322351227453837,
      "grad_norm": 2.5810718536376953,
      "learning_rate": 1.7355094892247725e-05,
      "loss": 0.47934589385986326,
      "memory(GiB)": 73.83,
      "step": 84780,
      "token_acc": 0.9138576779026217,
      "train_speed(iter/s)": 1.455431
    },
    {
      "epoch": 3.6324493380746325,
      "grad_norm": 1.4737153053283691,
      "learning_rate": 1.7349997749949277e-05,
      "loss": 0.366125226020813,
      "memory(GiB)": 73.83,
      "step": 84785,
      "token_acc": 0.9372549019607843,
      "train_speed(iter/s)": 1.455439
    },
    {
      "epoch": 3.632663553403882,
      "grad_norm": 3.4532766342163086,
      "learning_rate": 1.734490119913625e-05,
      "loss": 0.5486924171447753,
      "memory(GiB)": 73.83,
      "step": 84790,
      "token_acc": 0.88,
      "train_speed(iter/s)": 1.455441
    },
    {
      "epoch": 3.6328777687331306,
      "grad_norm": 3.79963755607605,
      "learning_rate": 1.7339805239900964e-05,
      "loss": 0.39167869091033936,
      "memory(GiB)": 73.83,
      "step": 84795,
      "token_acc": 0.8933717579250721,
      "train_speed(iter/s)": 1.455445
    },
    {
      "epoch": 3.6330919840623794,
      "grad_norm": 4.724519729614258,
      "learning_rate": 1.7334709872335746e-05,
      "loss": 0.5849620819091796,
      "memory(GiB)": 73.83,
      "step": 84800,
      "token_acc": 0.8790560471976401,
      "train_speed(iter/s)": 1.45545
    },
    {
      "epoch": 3.6333061993916287,
      "grad_norm": 0.6091716885566711,
      "learning_rate": 1.7329615096532905e-05,
      "loss": 0.2853246212005615,
      "memory(GiB)": 73.83,
      "step": 84805,
      "token_acc": 0.9431818181818182,
      "train_speed(iter/s)": 1.455468
    },
    {
      "epoch": 3.6335204147208775,
      "grad_norm": 3.6296536922454834,
      "learning_rate": 1.7324520912584713e-05,
      "loss": 0.44779696464538576,
      "memory(GiB)": 73.83,
      "step": 84810,
      "token_acc": 0.9025270758122743,
      "train_speed(iter/s)": 1.455479
    },
    {
      "epoch": 3.6337346300501263,
      "grad_norm": 0.5422691106796265,
      "learning_rate": 1.731942732058348e-05,
      "loss": 0.28625035285949707,
      "memory(GiB)": 73.83,
      "step": 84815,
      "token_acc": 0.9296296296296296,
      "train_speed(iter/s)": 1.455478
    },
    {
      "epoch": 3.6339488453793756,
      "grad_norm": 1.4898202419281006,
      "learning_rate": 1.7314334320621494e-05,
      "loss": 0.2983667850494385,
      "memory(GiB)": 73.83,
      "step": 84820,
      "token_acc": 0.9303030303030303,
      "train_speed(iter/s)": 1.455485
    },
    {
      "epoch": 3.6341630607086244,
      "grad_norm": 1.488313913345337,
      "learning_rate": 1.7309241912791e-05,
      "loss": 0.17286795377731323,
      "memory(GiB)": 73.83,
      "step": 84825,
      "token_acc": 0.9545454545454546,
      "train_speed(iter/s)": 1.45549
    },
    {
      "epoch": 3.634377276037873,
      "grad_norm": 3.184971332550049,
      "learning_rate": 1.7304150097184257e-05,
      "loss": 0.5806660652160645,
      "memory(GiB)": 73.83,
      "step": 84830,
      "token_acc": 0.8697183098591549,
      "train_speed(iter/s)": 1.455492
    },
    {
      "epoch": 3.6345914913671225,
      "grad_norm": 3.238234758377075,
      "learning_rate": 1.7299058873893507e-05,
      "loss": 0.3849640846252441,
      "memory(GiB)": 73.83,
      "step": 84835,
      "token_acc": 0.9153005464480874,
      "train_speed(iter/s)": 1.455505
    },
    {
      "epoch": 3.6348057066963713,
      "grad_norm": 0.6076539754867554,
      "learning_rate": 1.7293968243010967e-05,
      "loss": 0.3264890432357788,
      "memory(GiB)": 73.83,
      "step": 84840,
      "token_acc": 0.9371428571428572,
      "train_speed(iter/s)": 1.45552
    },
    {
      "epoch": 3.63501992202562,
      "grad_norm": 4.209481239318848,
      "learning_rate": 1.728887820462889e-05,
      "loss": 0.474809455871582,
      "memory(GiB)": 73.83,
      "step": 84845,
      "token_acc": 0.8758169934640523,
      "train_speed(iter/s)": 1.455522
    },
    {
      "epoch": 3.6352341373548693,
      "grad_norm": 0.05387924984097481,
      "learning_rate": 1.7283788758839463e-05,
      "loss": 0.3784687042236328,
      "memory(GiB)": 73.83,
      "step": 84850,
      "token_acc": 0.9132075471698113,
      "train_speed(iter/s)": 1.455522
    },
    {
      "epoch": 3.635448352684118,
      "grad_norm": 3.2663023471832275,
      "learning_rate": 1.7278699905734897e-05,
      "loss": 0.3462654113769531,
      "memory(GiB)": 73.83,
      "step": 84855,
      "token_acc": 0.9252873563218391,
      "train_speed(iter/s)": 1.455526
    },
    {
      "epoch": 3.635662568013367,
      "grad_norm": 2.904634714126587,
      "learning_rate": 1.727361164540738e-05,
      "loss": 0.332716178894043,
      "memory(GiB)": 73.83,
      "step": 84860,
      "token_acc": 0.9278350515463918,
      "train_speed(iter/s)": 1.455528
    },
    {
      "epoch": 3.635876783342616,
      "grad_norm": 2.59281587600708,
      "learning_rate": 1.7268523977949084e-05,
      "loss": 0.3801145076751709,
      "memory(GiB)": 73.83,
      "step": 84865,
      "token_acc": 0.8942857142857142,
      "train_speed(iter/s)": 1.45553
    },
    {
      "epoch": 3.636090998671865,
      "grad_norm": 1.904036045074463,
      "learning_rate": 1.7263436903452162e-05,
      "loss": 0.26854207515716555,
      "memory(GiB)": 73.83,
      "step": 84870,
      "token_acc": 0.9303135888501742,
      "train_speed(iter/s)": 1.455535
    },
    {
      "epoch": 3.636305214001114,
      "grad_norm": 4.159412384033203,
      "learning_rate": 1.7258350422008813e-05,
      "loss": 0.2652168035507202,
      "memory(GiB)": 73.83,
      "step": 84875,
      "token_acc": 0.9305555555555556,
      "train_speed(iter/s)": 1.455537
    },
    {
      "epoch": 3.636519429330363,
      "grad_norm": 2.1200814247131348,
      "learning_rate": 1.7253264533711155e-05,
      "loss": 0.42333507537841797,
      "memory(GiB)": 73.83,
      "step": 84880,
      "token_acc": 0.909433962264151,
      "train_speed(iter/s)": 1.455541
    },
    {
      "epoch": 3.636733644659612,
      "grad_norm": 3.960738182067871,
      "learning_rate": 1.7248179238651334e-05,
      "loss": 0.5000528812408447,
      "memory(GiB)": 73.83,
      "step": 84885,
      "token_acc": 0.9066666666666666,
      "train_speed(iter/s)": 1.455535
    },
    {
      "epoch": 3.6369478599888607,
      "grad_norm": 7.796975612640381,
      "learning_rate": 1.724309453692145e-05,
      "loss": 0.3123769760131836,
      "memory(GiB)": 73.83,
      "step": 84890,
      "token_acc": 0.930327868852459,
      "train_speed(iter/s)": 1.45554
    },
    {
      "epoch": 3.63716207531811,
      "grad_norm": 1.746814489364624,
      "learning_rate": 1.7238010428613654e-05,
      "loss": 0.2749701738357544,
      "memory(GiB)": 73.83,
      "step": 84895,
      "token_acc": 0.9257950530035336,
      "train_speed(iter/s)": 1.455539
    },
    {
      "epoch": 3.637376290647359,
      "grad_norm": 2.9658570289611816,
      "learning_rate": 1.7232926913820015e-05,
      "loss": 0.3321285009384155,
      "memory(GiB)": 73.83,
      "step": 84900,
      "token_acc": 0.935361216730038,
      "train_speed(iter/s)": 1.455546
    },
    {
      "epoch": 3.6375905059766076,
      "grad_norm": 1.7014753818511963,
      "learning_rate": 1.7227843992632658e-05,
      "loss": 0.15717430114746095,
      "memory(GiB)": 73.83,
      "step": 84905,
      "token_acc": 0.9495268138801262,
      "train_speed(iter/s)": 1.45555
    },
    {
      "epoch": 3.637804721305857,
      "grad_norm": 2.4631309509277344,
      "learning_rate": 1.7222761665143654e-05,
      "loss": 0.17426137924194335,
      "memory(GiB)": 73.83,
      "step": 84910,
      "token_acc": 0.9536231884057971,
      "train_speed(iter/s)": 1.455564
    },
    {
      "epoch": 3.6380189366351057,
      "grad_norm": 4.583262920379639,
      "learning_rate": 1.7217679931445068e-05,
      "loss": 0.5617744445800781,
      "memory(GiB)": 73.83,
      "step": 84915,
      "token_acc": 0.8672839506172839,
      "train_speed(iter/s)": 1.455566
    },
    {
      "epoch": 3.6382331519643545,
      "grad_norm": 4.975739002227783,
      "learning_rate": 1.721259879162896e-05,
      "loss": 0.4750051498413086,
      "memory(GiB)": 73.83,
      "step": 84920,
      "token_acc": 0.9026548672566371,
      "train_speed(iter/s)": 1.455567
    },
    {
      "epoch": 3.6384473672936037,
      "grad_norm": 3.4463553428649902,
      "learning_rate": 1.720751824578737e-05,
      "loss": 0.3932312488555908,
      "memory(GiB)": 73.83,
      "step": 84925,
      "token_acc": 0.9097472924187726,
      "train_speed(iter/s)": 1.455575
    },
    {
      "epoch": 3.6386615826228526,
      "grad_norm": 4.216175556182861,
      "learning_rate": 1.7202438294012363e-05,
      "loss": 0.4523204803466797,
      "memory(GiB)": 73.83,
      "step": 84930,
      "token_acc": 0.8909090909090909,
      "train_speed(iter/s)": 1.455581
    },
    {
      "epoch": 3.6388757979521014,
      "grad_norm": 2.0542876720428467,
      "learning_rate": 1.719735893639595e-05,
      "loss": 0.3252962350845337,
      "memory(GiB)": 73.83,
      "step": 84935,
      "token_acc": 0.9357142857142857,
      "train_speed(iter/s)": 1.455588
    },
    {
      "epoch": 3.6390900132813506,
      "grad_norm": 1.1314418315887451,
      "learning_rate": 1.7192280173030156e-05,
      "loss": 0.10671091079711914,
      "memory(GiB)": 73.83,
      "step": 84940,
      "token_acc": 0.976,
      "train_speed(iter/s)": 1.45559
    },
    {
      "epoch": 3.6393042286105994,
      "grad_norm": 3.301194190979004,
      "learning_rate": 1.718720200400698e-05,
      "loss": 0.49462018013000486,
      "memory(GiB)": 73.83,
      "step": 84945,
      "token_acc": 0.8913043478260869,
      "train_speed(iter/s)": 1.455589
    },
    {
      "epoch": 3.6395184439398482,
      "grad_norm": 4.0315775871276855,
      "learning_rate": 1.718212442941842e-05,
      "loss": 0.2776619911193848,
      "memory(GiB)": 73.83,
      "step": 84950,
      "token_acc": 0.9343065693430657,
      "train_speed(iter/s)": 1.455602
    },
    {
      "epoch": 3.6397326592690975,
      "grad_norm": 2.3925485610961914,
      "learning_rate": 1.7177047449356447e-05,
      "loss": 0.4321001052856445,
      "memory(GiB)": 73.83,
      "step": 84955,
      "token_acc": 0.8876811594202898,
      "train_speed(iter/s)": 1.455606
    },
    {
      "epoch": 3.6399468745983463,
      "grad_norm": 0.15649345517158508,
      "learning_rate": 1.7171971063913066e-05,
      "loss": 0.10088841915130616,
      "memory(GiB)": 73.83,
      "step": 84960,
      "token_acc": 0.9854545454545455,
      "train_speed(iter/s)": 1.455606
    },
    {
      "epoch": 3.640161089927595,
      "grad_norm": 1.8411109447479248,
      "learning_rate": 1.716689527318021e-05,
      "loss": 0.2164064407348633,
      "memory(GiB)": 73.83,
      "step": 84965,
      "token_acc": 0.9538461538461539,
      "train_speed(iter/s)": 1.455609
    },
    {
      "epoch": 3.6403753052568444,
      "grad_norm": 3.215235948562622,
      "learning_rate": 1.7161820077249856e-05,
      "loss": 0.3384519100189209,
      "memory(GiB)": 73.83,
      "step": 84970,
      "token_acc": 0.9139784946236559,
      "train_speed(iter/s)": 1.45562
    },
    {
      "epoch": 3.640589520586093,
      "grad_norm": 0.6410582661628723,
      "learning_rate": 1.715674547621394e-05,
      "loss": 0.22209951877593995,
      "memory(GiB)": 73.83,
      "step": 84975,
      "token_acc": 0.9403508771929825,
      "train_speed(iter/s)": 1.455629
    },
    {
      "epoch": 3.640803735915342,
      "grad_norm": 3.258997678756714,
      "learning_rate": 1.7151671470164392e-05,
      "loss": 0.44397554397583006,
      "memory(GiB)": 73.83,
      "step": 84980,
      "token_acc": 0.9115646258503401,
      "train_speed(iter/s)": 1.45564
    },
    {
      "epoch": 3.6410179512445913,
      "grad_norm": 3.2499234676361084,
      "learning_rate": 1.7146598059193113e-05,
      "loss": 0.4746755599975586,
      "memory(GiB)": 73.83,
      "step": 84985,
      "token_acc": 0.9189944134078212,
      "train_speed(iter/s)": 1.455649
    },
    {
      "epoch": 3.64123216657384,
      "grad_norm": 10.539017677307129,
      "learning_rate": 1.714152524339204e-05,
      "loss": 0.31077051162719727,
      "memory(GiB)": 73.83,
      "step": 84990,
      "token_acc": 0.9304029304029304,
      "train_speed(iter/s)": 1.455665
    },
    {
      "epoch": 3.641446381903089,
      "grad_norm": 0.46304407715797424,
      "learning_rate": 1.7136453022853067e-05,
      "loss": 0.4647937774658203,
      "memory(GiB)": 73.83,
      "step": 84995,
      "token_acc": 0.9128787878787878,
      "train_speed(iter/s)": 1.455671
    },
    {
      "epoch": 3.641660597232338,
      "grad_norm": 2.6787619590759277,
      "learning_rate": 1.7131381397668072e-05,
      "loss": 0.5713058471679687,
      "memory(GiB)": 73.83,
      "step": 85000,
      "token_acc": 0.8860759493670886,
      "train_speed(iter/s)": 1.455692
    },
    {
      "epoch": 3.641660597232338,
      "eval_loss": 2.480652093887329,
      "eval_runtime": 11.6774,
      "eval_samples_per_second": 8.564,
      "eval_steps_per_second": 8.564,
      "eval_token_acc": 0.46984924623115576,
      "step": 85000
    },
    {
      "epoch": 3.641874812561587,
      "grad_norm": 1.658840298652649,
      "learning_rate": 1.7126310367928937e-05,
      "loss": 0.24935743808746338,
      "memory(GiB)": 73.83,
      "step": 85005,
      "token_acc": 0.5942698706099815,
      "train_speed(iter/s)": 1.455384
    },
    {
      "epoch": 3.6420890278908358,
      "grad_norm": 3.3213610649108887,
      "learning_rate": 1.712123993372753e-05,
      "loss": 0.38069634437561034,
      "memory(GiB)": 73.83,
      "step": 85010,
      "token_acc": 0.9176029962546817,
      "train_speed(iter/s)": 1.455382
    },
    {
      "epoch": 3.642303243220085,
      "grad_norm": 1.8307712078094482,
      "learning_rate": 1.7116170095155687e-05,
      "loss": 0.37449705600738525,
      "memory(GiB)": 73.83,
      "step": 85015,
      "token_acc": 0.933933933933934,
      "train_speed(iter/s)": 1.455388
    },
    {
      "epoch": 3.642517458549334,
      "grad_norm": 3.459676504135132,
      "learning_rate": 1.7111100852305283e-05,
      "loss": 0.5411282539367676,
      "memory(GiB)": 73.83,
      "step": 85020,
      "token_acc": 0.869198312236287,
      "train_speed(iter/s)": 1.455409
    },
    {
      "epoch": 3.6427316738785827,
      "grad_norm": 3.0025839805603027,
      "learning_rate": 1.710603220526814e-05,
      "loss": 0.5254673957824707,
      "memory(GiB)": 73.83,
      "step": 85025,
      "token_acc": 0.9005847953216374,
      "train_speed(iter/s)": 1.455409
    },
    {
      "epoch": 3.642945889207832,
      "grad_norm": 2.4461143016815186,
      "learning_rate": 1.7100964154136086e-05,
      "loss": 0.36118690967559813,
      "memory(GiB)": 73.83,
      "step": 85030,
      "token_acc": 0.9385245901639344,
      "train_speed(iter/s)": 1.455412
    },
    {
      "epoch": 3.6431601045370807,
      "grad_norm": 0.7349397540092468,
      "learning_rate": 1.7095896699000908e-05,
      "loss": 0.3303581953048706,
      "memory(GiB)": 73.83,
      "step": 85035,
      "token_acc": 0.9339622641509434,
      "train_speed(iter/s)": 1.455426
    },
    {
      "epoch": 3.6433743198663295,
      "grad_norm": 2.8592042922973633,
      "learning_rate": 1.709082983995444e-05,
      "loss": 0.24393000602722167,
      "memory(GiB)": 73.83,
      "step": 85040,
      "token_acc": 0.9596273291925466,
      "train_speed(iter/s)": 1.455427
    },
    {
      "epoch": 3.643588535195579,
      "grad_norm": 3.1705336570739746,
      "learning_rate": 1.7085763577088453e-05,
      "loss": 0.5330641269683838,
      "memory(GiB)": 73.83,
      "step": 85045,
      "token_acc": 0.8741007194244604,
      "train_speed(iter/s)": 1.45543
    },
    {
      "epoch": 3.6438027505248276,
      "grad_norm": 2.4354286193847656,
      "learning_rate": 1.708069791049475e-05,
      "loss": 0.33804802894592284,
      "memory(GiB)": 73.83,
      "step": 85050,
      "token_acc": 0.912,
      "train_speed(iter/s)": 1.455433
    },
    {
      "epoch": 3.6440169658540764,
      "grad_norm": 4.236267566680908,
      "learning_rate": 1.7075632840265083e-05,
      "loss": 0.19280288219451905,
      "memory(GiB)": 73.83,
      "step": 85055,
      "token_acc": 0.9586776859504132,
      "train_speed(iter/s)": 1.455439
    },
    {
      "epoch": 3.6442311811833257,
      "grad_norm": 0.6290088295936584,
      "learning_rate": 1.7070568366491208e-05,
      "loss": 0.2019174575805664,
      "memory(GiB)": 73.83,
      "step": 85060,
      "token_acc": 0.953125,
      "train_speed(iter/s)": 1.455448
    },
    {
      "epoch": 3.6444453965125745,
      "grad_norm": 0.40611037611961365,
      "learning_rate": 1.7065504489264884e-05,
      "loss": 0.19389145374298095,
      "memory(GiB)": 73.83,
      "step": 85065,
      "token_acc": 0.9658703071672355,
      "train_speed(iter/s)": 1.45545
    },
    {
      "epoch": 3.6446596118418233,
      "grad_norm": 1.6086479425430298,
      "learning_rate": 1.7060441208677818e-05,
      "loss": 0.24945759773254395,
      "memory(GiB)": 73.83,
      "step": 85070,
      "token_acc": 0.9272727272727272,
      "train_speed(iter/s)": 1.455462
    },
    {
      "epoch": 3.6448738271710726,
      "grad_norm": 1.7841715812683105,
      "learning_rate": 1.705537852482178e-05,
      "loss": 0.40915560722351074,
      "memory(GiB)": 73.83,
      "step": 85075,
      "token_acc": 0.9050847457627119,
      "train_speed(iter/s)": 1.455465
    },
    {
      "epoch": 3.6450880425003214,
      "grad_norm": 2.227587938308716,
      "learning_rate": 1.7050316437788466e-05,
      "loss": 0.4381927490234375,
      "memory(GiB)": 73.83,
      "step": 85080,
      "token_acc": 0.8844884488448845,
      "train_speed(iter/s)": 1.455477
    },
    {
      "epoch": 3.64530225782957,
      "grad_norm": 1.1842252016067505,
      "learning_rate": 1.704525494766958e-05,
      "loss": 0.32046988010406496,
      "memory(GiB)": 73.83,
      "step": 85085,
      "token_acc": 0.9220338983050848,
      "train_speed(iter/s)": 1.455481
    },
    {
      "epoch": 3.6455164731588194,
      "grad_norm": 0.3329131305217743,
      "learning_rate": 1.7040194054556813e-05,
      "loss": 0.24882223606109619,
      "memory(GiB)": 73.83,
      "step": 85090,
      "token_acc": 0.9333333333333333,
      "train_speed(iter/s)": 1.455486
    },
    {
      "epoch": 3.6457306884880682,
      "grad_norm": 3.4257755279541016,
      "learning_rate": 1.703513375854185e-05,
      "loss": 0.4820141315460205,
      "memory(GiB)": 73.83,
      "step": 85095,
      "token_acc": 0.8932038834951457,
      "train_speed(iter/s)": 1.455506
    },
    {
      "epoch": 3.645944903817317,
      "grad_norm": 0.2610407769680023,
      "learning_rate": 1.7030074059716338e-05,
      "loss": 0.2698278665542603,
      "memory(GiB)": 73.83,
      "step": 85100,
      "token_acc": 0.9366666666666666,
      "train_speed(iter/s)": 1.45551
    },
    {
      "epoch": 3.6461591191465663,
      "grad_norm": 3.684516191482544,
      "learning_rate": 1.7025014958171993e-05,
      "loss": 0.4262853622436523,
      "memory(GiB)": 73.83,
      "step": 85105,
      "token_acc": 0.90625,
      "train_speed(iter/s)": 1.455509
    },
    {
      "epoch": 3.646373334475815,
      "grad_norm": 1.4784436225891113,
      "learning_rate": 1.7019956454000406e-05,
      "loss": 0.32891390323638914,
      "memory(GiB)": 73.83,
      "step": 85110,
      "token_acc": 0.9188311688311688,
      "train_speed(iter/s)": 1.45551
    },
    {
      "epoch": 3.646587549805064,
      "grad_norm": 3.056138515472412,
      "learning_rate": 1.7014898547293266e-05,
      "loss": 0.3020773410797119,
      "memory(GiB)": 73.83,
      "step": 85115,
      "token_acc": 0.9303030303030303,
      "train_speed(iter/s)": 1.455517
    },
    {
      "epoch": 3.646801765134313,
      "grad_norm": 8.816566467285156,
      "learning_rate": 1.7009841238142188e-05,
      "loss": 0.3571493148803711,
      "memory(GiB)": 73.83,
      "step": 85120,
      "token_acc": 0.9433198380566802,
      "train_speed(iter/s)": 1.455526
    },
    {
      "epoch": 3.647015980463562,
      "grad_norm": 1.7757985591888428,
      "learning_rate": 1.7004784526638777e-05,
      "loss": 0.09310899376869201,
      "memory(GiB)": 73.83,
      "step": 85125,
      "token_acc": 0.9785932721712538,
      "train_speed(iter/s)": 1.455529
    },
    {
      "epoch": 3.647230195792811,
      "grad_norm": 5.146609783172607,
      "learning_rate": 1.6999728412874632e-05,
      "loss": 0.37035164833068845,
      "memory(GiB)": 73.83,
      "step": 85130,
      "token_acc": 0.920863309352518,
      "train_speed(iter/s)": 1.455539
    },
    {
      "epoch": 3.64744441112206,
      "grad_norm": 0.42925769090652466,
      "learning_rate": 1.6994672896941377e-05,
      "loss": 0.20235414505004884,
      "memory(GiB)": 73.83,
      "step": 85135,
      "token_acc": 0.9459459459459459,
      "train_speed(iter/s)": 1.455551
    },
    {
      "epoch": 3.647658626451309,
      "grad_norm": 4.060281753540039,
      "learning_rate": 1.6989617978930587e-05,
      "loss": 0.4045952320098877,
      "memory(GiB)": 73.83,
      "step": 85140,
      "token_acc": 0.9259259259259259,
      "train_speed(iter/s)": 1.455552
    },
    {
      "epoch": 3.6478728417805577,
      "grad_norm": 3.9016005992889404,
      "learning_rate": 1.6984563658933834e-05,
      "loss": 0.3653436183929443,
      "memory(GiB)": 73.83,
      "step": 85145,
      "token_acc": 0.9146757679180887,
      "train_speed(iter/s)": 1.455555
    },
    {
      "epoch": 3.648087057109807,
      "grad_norm": 2.847740411758423,
      "learning_rate": 1.697950993704268e-05,
      "loss": 0.36018483638763427,
      "memory(GiB)": 73.83,
      "step": 85150,
      "token_acc": 0.9297658862876255,
      "train_speed(iter/s)": 1.455561
    },
    {
      "epoch": 3.6483012724390558,
      "grad_norm": 3.4928317070007324,
      "learning_rate": 1.6974456813348678e-05,
      "loss": 0.2980233430862427,
      "memory(GiB)": 73.83,
      "step": 85155,
      "token_acc": 0.929368029739777,
      "train_speed(iter/s)": 1.455574
    },
    {
      "epoch": 3.6485154877683046,
      "grad_norm": 1.2492904663085938,
      "learning_rate": 1.6969404287943356e-05,
      "loss": 0.5699841499328613,
      "memory(GiB)": 73.83,
      "step": 85160,
      "token_acc": 0.8785714285714286,
      "train_speed(iter/s)": 1.455579
    },
    {
      "epoch": 3.648729703097554,
      "grad_norm": 1.2042981386184692,
      "learning_rate": 1.6964352360918277e-05,
      "loss": 0.23140065670013427,
      "memory(GiB)": 73.83,
      "step": 85165,
      "token_acc": 0.9448275862068966,
      "train_speed(iter/s)": 1.455586
    },
    {
      "epoch": 3.6489439184268027,
      "grad_norm": 2.7284605503082275,
      "learning_rate": 1.6959301032364944e-05,
      "loss": 0.1567060112953186,
      "memory(GiB)": 73.83,
      "step": 85170,
      "token_acc": 0.9611650485436893,
      "train_speed(iter/s)": 1.455596
    },
    {
      "epoch": 3.6491581337560515,
      "grad_norm": 2.881941556930542,
      "learning_rate": 1.695425030237487e-05,
      "loss": 0.42087488174438475,
      "memory(GiB)": 73.83,
      "step": 85175,
      "token_acc": 0.9210526315789473,
      "train_speed(iter/s)": 1.455602
    },
    {
      "epoch": 3.6493723490853007,
      "grad_norm": 2.2493457794189453,
      "learning_rate": 1.6949200171039547e-05,
      "loss": 0.28561174869537354,
      "memory(GiB)": 73.83,
      "step": 85180,
      "token_acc": 0.9319526627218935,
      "train_speed(iter/s)": 1.455619
    },
    {
      "epoch": 3.6495865644145495,
      "grad_norm": 4.29683780670166,
      "learning_rate": 1.6944150638450457e-05,
      "loss": 0.6185987949371338,
      "memory(GiB)": 73.83,
      "step": 85185,
      "token_acc": 0.8762886597938144,
      "train_speed(iter/s)": 1.455637
    },
    {
      "epoch": 3.6498007797437984,
      "grad_norm": 3.1530022621154785,
      "learning_rate": 1.6939101704699077e-05,
      "loss": 0.36092052459716795,
      "memory(GiB)": 73.83,
      "step": 85190,
      "token_acc": 0.9249146757679181,
      "train_speed(iter/s)": 1.455643
    },
    {
      "epoch": 3.6500149950730476,
      "grad_norm": 3.0987744331359863,
      "learning_rate": 1.6934053369876912e-05,
      "loss": 0.3608614444732666,
      "memory(GiB)": 73.83,
      "step": 85195,
      "token_acc": 0.9281437125748503,
      "train_speed(iter/s)": 1.455644
    },
    {
      "epoch": 3.6502292104022964,
      "grad_norm": 6.195904731750488,
      "learning_rate": 1.692900563407538e-05,
      "loss": 0.6218371391296387,
      "memory(GiB)": 73.83,
      "step": 85200,
      "token_acc": 0.8616352201257862,
      "train_speed(iter/s)": 1.455653
    },
    {
      "epoch": 3.6504434257315452,
      "grad_norm": 4.082941055297852,
      "learning_rate": 1.692395849738594e-05,
      "loss": 0.1719043731689453,
      "memory(GiB)": 73.83,
      "step": 85205,
      "token_acc": 0.9355932203389831,
      "train_speed(iter/s)": 1.455664
    },
    {
      "epoch": 3.6506576410607945,
      "grad_norm": 2.4983794689178467,
      "learning_rate": 1.6918911959900015e-05,
      "loss": 0.3838533401489258,
      "memory(GiB)": 73.83,
      "step": 85210,
      "token_acc": 0.9072164948453608,
      "train_speed(iter/s)": 1.455666
    },
    {
      "epoch": 3.6508718563900433,
      "grad_norm": 1.4284487962722778,
      "learning_rate": 1.691386602170902e-05,
      "loss": 0.35015454292297366,
      "memory(GiB)": 73.83,
      "step": 85215,
      "token_acc": 0.927710843373494,
      "train_speed(iter/s)": 1.455668
    },
    {
      "epoch": 3.651086071719292,
      "grad_norm": 1.9926799535751343,
      "learning_rate": 1.6908820682904387e-05,
      "loss": 0.18020226955413818,
      "memory(GiB)": 73.83,
      "step": 85220,
      "token_acc": 0.9578947368421052,
      "train_speed(iter/s)": 1.455671
    },
    {
      "epoch": 3.6513002870485414,
      "grad_norm": 3.178421974182129,
      "learning_rate": 1.6903775943577516e-05,
      "loss": 0.17347185611724852,
      "memory(GiB)": 73.83,
      "step": 85225,
      "token_acc": 0.9442622950819672,
      "train_speed(iter/s)": 1.455677
    },
    {
      "epoch": 3.65151450237779,
      "grad_norm": 2.6514203548431396,
      "learning_rate": 1.689873180381979e-05,
      "loss": 0.31878750324249266,
      "memory(GiB)": 73.83,
      "step": 85230,
      "token_acc": 0.9161290322580645,
      "train_speed(iter/s)": 1.455682
    },
    {
      "epoch": 3.651728717707039,
      "grad_norm": 5.146410942077637,
      "learning_rate": 1.689368826372259e-05,
      "loss": 0.5499526023864746,
      "memory(GiB)": 73.83,
      "step": 85235,
      "token_acc": 0.8677966101694915,
      "train_speed(iter/s)": 1.455697
    },
    {
      "epoch": 3.6519429330362883,
      "grad_norm": 2.203754186630249,
      "learning_rate": 1.6888645323377283e-05,
      "loss": 0.4187911510467529,
      "memory(GiB)": 73.83,
      "step": 85240,
      "token_acc": 0.9269102990033222,
      "train_speed(iter/s)": 1.455696
    },
    {
      "epoch": 3.652157148365537,
      "grad_norm": 1.2788670063018799,
      "learning_rate": 1.6883602982875207e-05,
      "loss": 0.24135329723358154,
      "memory(GiB)": 73.83,
      "step": 85245,
      "token_acc": 0.9523809523809523,
      "train_speed(iter/s)": 1.455699
    },
    {
      "epoch": 3.652371363694786,
      "grad_norm": 2.581453800201416,
      "learning_rate": 1.687856124230775e-05,
      "loss": 0.35436215400695803,
      "memory(GiB)": 73.83,
      "step": 85250,
      "token_acc": 0.9042904290429042,
      "train_speed(iter/s)": 1.455712
    },
    {
      "epoch": 3.652585579024035,
      "grad_norm": 5.25248384475708,
      "learning_rate": 1.6873520101766223e-05,
      "loss": 0.17770180702209473,
      "memory(GiB)": 73.83,
      "step": 85255,
      "token_acc": 0.9586466165413534,
      "train_speed(iter/s)": 1.455712
    },
    {
      "epoch": 3.652799794353284,
      "grad_norm": 4.122638702392578,
      "learning_rate": 1.6868479561341936e-05,
      "loss": 0.48606457710266116,
      "memory(GiB)": 73.83,
      "step": 85260,
      "token_acc": 0.9071428571428571,
      "train_speed(iter/s)": 1.455721
    },
    {
      "epoch": 3.6530140096825328,
      "grad_norm": 3.089265823364258,
      "learning_rate": 1.6863439621126243e-05,
      "loss": 0.3240772247314453,
      "memory(GiB)": 73.83,
      "step": 85265,
      "token_acc": 0.9172185430463576,
      "train_speed(iter/s)": 1.455721
    },
    {
      "epoch": 3.653228225011782,
      "grad_norm": 1.4804751873016357,
      "learning_rate": 1.6858400281210423e-05,
      "loss": 0.22364933490753175,
      "memory(GiB)": 73.83,
      "step": 85270,
      "token_acc": 0.9440298507462687,
      "train_speed(iter/s)": 1.455724
    },
    {
      "epoch": 3.653442440341031,
      "grad_norm": 4.9647955894470215,
      "learning_rate": 1.685336154168576e-05,
      "loss": 0.611812973022461,
      "memory(GiB)": 73.83,
      "step": 85275,
      "token_acc": 0.8650306748466258,
      "train_speed(iter/s)": 1.455727
    },
    {
      "epoch": 3.6536566556702796,
      "grad_norm": 3.4440724849700928,
      "learning_rate": 1.6848323402643558e-05,
      "loss": 0.44167141914367675,
      "memory(GiB)": 73.83,
      "step": 85280,
      "token_acc": 0.8698630136986302,
      "train_speed(iter/s)": 1.455736
    },
    {
      "epoch": 3.653870870999529,
      "grad_norm": 4.644118309020996,
      "learning_rate": 1.684328586417508e-05,
      "loss": 0.5079066276550293,
      "memory(GiB)": 73.83,
      "step": 85285,
      "token_acc": 0.8746268656716418,
      "train_speed(iter/s)": 1.455736
    },
    {
      "epoch": 3.6540850863287777,
      "grad_norm": 2.421334981918335,
      "learning_rate": 1.6838248926371575e-05,
      "loss": 0.42854795455932615,
      "memory(GiB)": 73.83,
      "step": 85290,
      "token_acc": 0.8858131487889274,
      "train_speed(iter/s)": 1.455746
    },
    {
      "epoch": 3.6542993016580265,
      "grad_norm": 2.8078558444976807,
      "learning_rate": 1.6833212589324304e-05,
      "loss": 0.2702193260192871,
      "memory(GiB)": 73.83,
      "step": 85295,
      "token_acc": 0.9450171821305842,
      "train_speed(iter/s)": 1.455759
    },
    {
      "epoch": 3.654513516987276,
      "grad_norm": 2.7431845664978027,
      "learning_rate": 1.68281768531245e-05,
      "loss": 0.47848973274230955,
      "memory(GiB)": 73.83,
      "step": 85300,
      "token_acc": 0.9018987341772152,
      "train_speed(iter/s)": 1.45576
    },
    {
      "epoch": 3.6547277323165246,
      "grad_norm": 4.509565830230713,
      "learning_rate": 1.682314171786337e-05,
      "loss": 0.2445290803909302,
      "memory(GiB)": 73.83,
      "step": 85305,
      "token_acc": 0.9407407407407408,
      "train_speed(iter/s)": 1.455772
    },
    {
      "epoch": 3.6549419476457734,
      "grad_norm": 4.395664691925049,
      "learning_rate": 1.6818107183632176e-05,
      "loss": 0.618990421295166,
      "memory(GiB)": 73.83,
      "step": 85310,
      "token_acc": 0.8834586466165414,
      "train_speed(iter/s)": 1.455784
    },
    {
      "epoch": 3.6551561629750227,
      "grad_norm": 2.6855077743530273,
      "learning_rate": 1.681307325052209e-05,
      "loss": 0.34689228534698485,
      "memory(GiB)": 73.83,
      "step": 85315,
      "token_acc": 0.9429530201342282,
      "train_speed(iter/s)": 1.455792
    },
    {
      "epoch": 3.6553703783042715,
      "grad_norm": 0.9291130900382996,
      "learning_rate": 1.6808039918624313e-05,
      "loss": 0.30923378467559814,
      "memory(GiB)": 73.83,
      "step": 85320,
      "token_acc": 0.9285714285714286,
      "train_speed(iter/s)": 1.455795
    },
    {
      "epoch": 3.6555845936335203,
      "grad_norm": 0.5144397020339966,
      "learning_rate": 1.6803007188030036e-05,
      "loss": 0.4605696678161621,
      "memory(GiB)": 73.83,
      "step": 85325,
      "token_acc": 0.8933333333333333,
      "train_speed(iter/s)": 1.455796
    },
    {
      "epoch": 3.6557988089627695,
      "grad_norm": 4.429498672485352,
      "learning_rate": 1.67979750588304e-05,
      "loss": 0.29962069988250734,
      "memory(GiB)": 73.83,
      "step": 85330,
      "token_acc": 0.950530035335689,
      "train_speed(iter/s)": 1.455812
    },
    {
      "epoch": 3.6560130242920184,
      "grad_norm": 4.912877082824707,
      "learning_rate": 1.6792943531116594e-05,
      "loss": 0.5517233848571778,
      "memory(GiB)": 73.83,
      "step": 85335,
      "token_acc": 0.8884758364312267,
      "train_speed(iter/s)": 1.455813
    },
    {
      "epoch": 3.656227239621267,
      "grad_norm": 4.168037414550781,
      "learning_rate": 1.678791260497979e-05,
      "loss": 0.4059295654296875,
      "memory(GiB)": 73.83,
      "step": 85340,
      "token_acc": 0.9442379182156134,
      "train_speed(iter/s)": 1.455817
    },
    {
      "epoch": 3.6564414549505164,
      "grad_norm": 2.3151729106903076,
      "learning_rate": 1.6782882280511097e-05,
      "loss": 0.263493013381958,
      "memory(GiB)": 73.83,
      "step": 85345,
      "token_acc": 0.9230769230769231,
      "train_speed(iter/s)": 1.45582
    },
    {
      "epoch": 3.6566556702797652,
      "grad_norm": 4.255663871765137,
      "learning_rate": 1.6777852557801655e-05,
      "loss": 0.5080109596252441,
      "memory(GiB)": 73.83,
      "step": 85350,
      "token_acc": 0.8870431893687708,
      "train_speed(iter/s)": 1.455832
    },
    {
      "epoch": 3.656869885609014,
      "grad_norm": 0.7807896733283997,
      "learning_rate": 1.6772823436942582e-05,
      "loss": 0.205572509765625,
      "memory(GiB)": 73.83,
      "step": 85355,
      "token_acc": 0.9638989169675091,
      "train_speed(iter/s)": 1.455836
    },
    {
      "epoch": 3.6570841009382633,
      "grad_norm": 0.06924213469028473,
      "learning_rate": 1.676779491802496e-05,
      "loss": 0.3454721212387085,
      "memory(GiB)": 73.83,
      "step": 85360,
      "token_acc": 0.9296187683284457,
      "train_speed(iter/s)": 1.455837
    },
    {
      "epoch": 3.657298316267512,
      "grad_norm": 2.061215400695801,
      "learning_rate": 1.676276700113992e-05,
      "loss": 0.24504239559173585,
      "memory(GiB)": 73.83,
      "step": 85365,
      "token_acc": 0.9627329192546584,
      "train_speed(iter/s)": 1.455843
    },
    {
      "epoch": 3.657512531596761,
      "grad_norm": 0.23981158435344696,
      "learning_rate": 1.6757739686378543e-05,
      "loss": 0.1617782235145569,
      "memory(GiB)": 73.83,
      "step": 85370,
      "token_acc": 0.9689655172413794,
      "train_speed(iter/s)": 1.455849
    },
    {
      "epoch": 3.65772674692601,
      "grad_norm": 9.2125825881958,
      "learning_rate": 1.6752712973831898e-05,
      "loss": 0.7635993003845215,
      "memory(GiB)": 73.83,
      "step": 85375,
      "token_acc": 0.8544061302681992,
      "train_speed(iter/s)": 1.455867
    },
    {
      "epoch": 3.657940962255259,
      "grad_norm": 2.733912467956543,
      "learning_rate": 1.674768686359104e-05,
      "loss": 0.24520764350891114,
      "memory(GiB)": 73.83,
      "step": 85380,
      "token_acc": 0.9335548172757475,
      "train_speed(iter/s)": 1.455875
    },
    {
      "epoch": 3.658155177584508,
      "grad_norm": 3.432100534439087,
      "learning_rate": 1.6742661355747026e-05,
      "loss": 0.45276460647583006,
      "memory(GiB)": 73.83,
      "step": 85385,
      "token_acc": 0.8625429553264605,
      "train_speed(iter/s)": 1.455878
    },
    {
      "epoch": 3.658369392913757,
      "grad_norm": 4.28159236907959,
      "learning_rate": 1.6737636450390887e-05,
      "loss": 0.30258448123931886,
      "memory(GiB)": 73.83,
      "step": 85390,
      "token_acc": 0.914396887159533,
      "train_speed(iter/s)": 1.455882
    },
    {
      "epoch": 3.658583608243006,
      "grad_norm": 1.3914330005645752,
      "learning_rate": 1.673261214761368e-05,
      "loss": 0.44840850830078127,
      "memory(GiB)": 73.83,
      "step": 85395,
      "token_acc": 0.8771186440677966,
      "train_speed(iter/s)": 1.455889
    },
    {
      "epoch": 3.6587978235722547,
      "grad_norm": 2.568897008895874,
      "learning_rate": 1.6727588447506408e-05,
      "loss": 0.30730490684509276,
      "memory(GiB)": 73.83,
      "step": 85400,
      "token_acc": 0.9195402298850575,
      "train_speed(iter/s)": 1.455887
    },
    {
      "epoch": 3.659012038901504,
      "grad_norm": 4.025860786437988,
      "learning_rate": 1.6722565350160075e-05,
      "loss": 0.4565929889678955,
      "memory(GiB)": 73.83,
      "step": 85405,
      "token_acc": 0.8986013986013986,
      "train_speed(iter/s)": 1.455891
    },
    {
      "epoch": 3.6592262542307528,
      "grad_norm": 1.2617261409759521,
      "learning_rate": 1.6717542855665702e-05,
      "loss": 0.3724967479705811,
      "memory(GiB)": 73.83,
      "step": 85410,
      "token_acc": 0.9247311827956989,
      "train_speed(iter/s)": 1.455896
    },
    {
      "epoch": 3.6594404695600016,
      "grad_norm": 2.8795323371887207,
      "learning_rate": 1.671252096411426e-05,
      "loss": 0.2536862850189209,
      "memory(GiB)": 73.83,
      "step": 85415,
      "token_acc": 0.947565543071161,
      "train_speed(iter/s)": 1.455896
    },
    {
      "epoch": 3.659654684889251,
      "grad_norm": 5.336465358734131,
      "learning_rate": 1.670749967559671e-05,
      "loss": 0.34186253547668455,
      "memory(GiB)": 73.83,
      "step": 85420,
      "token_acc": 0.9230769230769231,
      "train_speed(iter/s)": 1.455907
    },
    {
      "epoch": 3.6598689002184996,
      "grad_norm": 3.079824924468994,
      "learning_rate": 1.670247899020405e-05,
      "loss": 0.4480170249938965,
      "memory(GiB)": 73.83,
      "step": 85425,
      "token_acc": 0.9058441558441559,
      "train_speed(iter/s)": 1.455915
    },
    {
      "epoch": 3.6600831155477485,
      "grad_norm": 3.547112464904785,
      "learning_rate": 1.669745890802722e-05,
      "loss": 0.4339588165283203,
      "memory(GiB)": 73.83,
      "step": 85430,
      "token_acc": 0.88,
      "train_speed(iter/s)": 1.455937
    },
    {
      "epoch": 3.6602973308769977,
      "grad_norm": 2.7204720973968506,
      "learning_rate": 1.6692439429157164e-05,
      "loss": 0.5012048244476318,
      "memory(GiB)": 73.83,
      "step": 85435,
      "token_acc": 0.9128919860627178,
      "train_speed(iter/s)": 1.455941
    },
    {
      "epoch": 3.6605115462062465,
      "grad_norm": 5.675271511077881,
      "learning_rate": 1.6687420553684808e-05,
      "loss": 0.4012794494628906,
      "memory(GiB)": 73.83,
      "step": 85440,
      "token_acc": 0.9215017064846417,
      "train_speed(iter/s)": 1.45594
    },
    {
      "epoch": 3.6607257615354953,
      "grad_norm": 3.7571208477020264,
      "learning_rate": 1.668240228170108e-05,
      "loss": 0.1875072479248047,
      "memory(GiB)": 73.83,
      "step": 85445,
      "token_acc": 0.9655172413793104,
      "train_speed(iter/s)": 1.455954
    },
    {
      "epoch": 3.6609399768647446,
      "grad_norm": 0.06047994643449783,
      "learning_rate": 1.6677384613296875e-05,
      "loss": 0.4474231243133545,
      "memory(GiB)": 73.83,
      "step": 85450,
      "token_acc": 0.8927444794952681,
      "train_speed(iter/s)": 1.45596
    },
    {
      "epoch": 3.6611541921939934,
      "grad_norm": 3.4464192390441895,
      "learning_rate": 1.6672367548563124e-05,
      "loss": 0.3406353950500488,
      "memory(GiB)": 73.83,
      "step": 85455,
      "token_acc": 0.9285714285714286,
      "train_speed(iter/s)": 1.455966
    },
    {
      "epoch": 3.661368407523242,
      "grad_norm": 7.788421154022217,
      "learning_rate": 1.6667351087590693e-05,
      "loss": 0.5091786861419678,
      "memory(GiB)": 73.83,
      "step": 85460,
      "token_acc": 0.896551724137931,
      "train_speed(iter/s)": 1.455989
    },
    {
      "epoch": 3.6615826228524915,
      "grad_norm": 2.2980434894561768,
      "learning_rate": 1.6662335230470472e-05,
      "loss": 0.37836270332336425,
      "memory(GiB)": 73.83,
      "step": 85465,
      "token_acc": 0.9230769230769231,
      "train_speed(iter/s)": 1.455993
    },
    {
      "epoch": 3.6617968381817403,
      "grad_norm": 4.589694023132324,
      "learning_rate": 1.665731997729332e-05,
      "loss": 0.39293575286865234,
      "memory(GiB)": 73.83,
      "step": 85470,
      "token_acc": 0.9141914191419142,
      "train_speed(iter/s)": 1.456008
    },
    {
      "epoch": 3.662011053510989,
      "grad_norm": 0.7374311685562134,
      "learning_rate": 1.6652305328150074e-05,
      "loss": 0.23578188419342042,
      "memory(GiB)": 73.83,
      "step": 85475,
      "token_acc": 0.931899641577061,
      "train_speed(iter/s)": 1.456008
    },
    {
      "epoch": 3.6622252688402384,
      "grad_norm": 3.001132011413574,
      "learning_rate": 1.6647291283131606e-05,
      "loss": 0.32589921951293943,
      "memory(GiB)": 73.83,
      "step": 85480,
      "token_acc": 0.92,
      "train_speed(iter/s)": 1.456013
    },
    {
      "epoch": 3.662439484169487,
      "grad_norm": 3.355503797531128,
      "learning_rate": 1.664227784232876e-05,
      "loss": 0.22255079746246337,
      "memory(GiB)": 73.83,
      "step": 85485,
      "token_acc": 0.9296875,
      "train_speed(iter/s)": 1.456017
    },
    {
      "epoch": 3.662653699498736,
      "grad_norm": 6.457998752593994,
      "learning_rate": 1.6637265005832335e-05,
      "loss": 0.35281686782836913,
      "memory(GiB)": 73.83,
      "step": 85490,
      "token_acc": 0.9131832797427653,
      "train_speed(iter/s)": 1.456019
    },
    {
      "epoch": 3.6628679148279852,
      "grad_norm": 1.3810322284698486,
      "learning_rate": 1.6632252773733154e-05,
      "loss": 0.23752291202545167,
      "memory(GiB)": 73.83,
      "step": 85495,
      "token_acc": 0.95,
      "train_speed(iter/s)": 1.456024
    },
    {
      "epoch": 3.663082130157234,
      "grad_norm": 2.4690048694610596,
      "learning_rate": 1.6627241146122017e-05,
      "loss": 0.2771263599395752,
      "memory(GiB)": 73.83,
      "step": 85500,
      "token_acc": 0.9490909090909091,
      "train_speed(iter/s)": 1.456026
    },
    {
      "epoch": 3.663082130157234,
      "eval_loss": 2.480156183242798,
      "eval_runtime": 11.3211,
      "eval_samples_per_second": 8.833,
      "eval_steps_per_second": 8.833,
      "eval_token_acc": 0.4534412955465587,
      "step": 85500
    },
    {
      "epoch": 3.663296345486483,
      "grad_norm": 3.3228061199188232,
      "learning_rate": 1.66222301230897e-05,
      "loss": 0.24368879795074463,
      "memory(GiB)": 73.83,
      "step": 85505,
      "token_acc": 0.5934489402697495,
      "train_speed(iter/s)": 1.455723
    },
    {
      "epoch": 3.663510560815732,
      "grad_norm": 2.555943489074707,
      "learning_rate": 1.6617219704727004e-05,
      "loss": 0.44446773529052735,
      "memory(GiB)": 73.83,
      "step": 85510,
      "token_acc": 0.9166666666666666,
      "train_speed(iter/s)": 1.455728
    },
    {
      "epoch": 3.663724776144981,
      "grad_norm": 0.19601626694202423,
      "learning_rate": 1.6612209891124696e-05,
      "loss": 0.20760009288787842,
      "memory(GiB)": 73.83,
      "step": 85515,
      "token_acc": 0.9481481481481482,
      "train_speed(iter/s)": 1.455732
    },
    {
      "epoch": 3.6639389914742297,
      "grad_norm": 3.1283724308013916,
      "learning_rate": 1.6607200682373526e-05,
      "loss": 0.3231987237930298,
      "memory(GiB)": 73.83,
      "step": 85520,
      "token_acc": 0.9309090909090909,
      "train_speed(iter/s)": 1.455736
    },
    {
      "epoch": 3.664153206803479,
      "grad_norm": 2.5909717082977295,
      "learning_rate": 1.6602192078564237e-05,
      "loss": 0.3547219276428223,
      "memory(GiB)": 73.83,
      "step": 85525,
      "token_acc": 0.9142857142857143,
      "train_speed(iter/s)": 1.45574
    },
    {
      "epoch": 3.664367422132728,
      "grad_norm": 1.321881651878357,
      "learning_rate": 1.659718407978757e-05,
      "loss": 0.3256812572479248,
      "memory(GiB)": 73.83,
      "step": 85530,
      "token_acc": 0.9094650205761317,
      "train_speed(iter/s)": 1.455743
    },
    {
      "epoch": 3.6645816374619766,
      "grad_norm": 1.2784698009490967,
      "learning_rate": 1.6592176686134232e-05,
      "loss": 0.40720367431640625,
      "memory(GiB)": 73.83,
      "step": 85535,
      "token_acc": 0.9314079422382672,
      "train_speed(iter/s)": 1.455747
    },
    {
      "epoch": 3.664795852791226,
      "grad_norm": 3.4416208267211914,
      "learning_rate": 1.6587169897694965e-05,
      "loss": 0.3554516315460205,
      "memory(GiB)": 73.83,
      "step": 85540,
      "token_acc": 0.9236111111111112,
      "train_speed(iter/s)": 1.455757
    },
    {
      "epoch": 3.6650100681204747,
      "grad_norm": 1.31523859500885,
      "learning_rate": 1.658216371456046e-05,
      "loss": 0.08070356845855713,
      "memory(GiB)": 73.83,
      "step": 85545,
      "token_acc": 0.9813432835820896,
      "train_speed(iter/s)": 1.45576
    },
    {
      "epoch": 3.6652242834497235,
      "grad_norm": 2.863142967224121,
      "learning_rate": 1.6577158136821408e-05,
      "loss": 0.30609705448150637,
      "memory(GiB)": 73.83,
      "step": 85550,
      "token_acc": 0.9303030303030303,
      "train_speed(iter/s)": 1.455756
    },
    {
      "epoch": 3.6654384987789728,
      "grad_norm": 4.716795444488525,
      "learning_rate": 1.6572153164568478e-05,
      "loss": 0.3746392011642456,
      "memory(GiB)": 73.83,
      "step": 85555,
      "token_acc": 0.9121338912133892,
      "train_speed(iter/s)": 1.455761
    },
    {
      "epoch": 3.6656527141082216,
      "grad_norm": 3.56790828704834,
      "learning_rate": 1.6567148797892362e-05,
      "loss": 0.27708275318145753,
      "memory(GiB)": 73.83,
      "step": 85560,
      "token_acc": 0.9411764705882353,
      "train_speed(iter/s)": 1.455764
    },
    {
      "epoch": 3.6658669294374704,
      "grad_norm": 3.6156623363494873,
      "learning_rate": 1.6562145036883692e-05,
      "loss": 0.2397301197052002,
      "memory(GiB)": 73.83,
      "step": 85565,
      "token_acc": 0.9473684210526315,
      "train_speed(iter/s)": 1.455766
    },
    {
      "epoch": 3.6660811447667196,
      "grad_norm": 3.6083669662475586,
      "learning_rate": 1.6557141881633152e-05,
      "loss": 0.46715970039367677,
      "memory(GiB)": 73.83,
      "step": 85570,
      "token_acc": 0.9093484419263456,
      "train_speed(iter/s)": 1.455767
    },
    {
      "epoch": 3.6662953600959685,
      "grad_norm": 0.6637826561927795,
      "learning_rate": 1.6552139332231354e-05,
      "loss": 0.3384159326553345,
      "memory(GiB)": 73.83,
      "step": 85575,
      "token_acc": 0.9209726443768997,
      "train_speed(iter/s)": 1.45577
    },
    {
      "epoch": 3.6665095754252173,
      "grad_norm": 0.1318703442811966,
      "learning_rate": 1.6547137388768937e-05,
      "loss": 0.12819000482559204,
      "memory(GiB)": 73.83,
      "step": 85580,
      "token_acc": 0.9715189873417721,
      "train_speed(iter/s)": 1.455785
    },
    {
      "epoch": 3.6667237907544665,
      "grad_norm": 2.758835792541504,
      "learning_rate": 1.65421360513365e-05,
      "loss": 0.3514916181564331,
      "memory(GiB)": 73.83,
      "step": 85585,
      "token_acc": 0.9218106995884774,
      "train_speed(iter/s)": 1.455783
    },
    {
      "epoch": 3.6669380060837153,
      "grad_norm": 3.936845541000366,
      "learning_rate": 1.6537135320024654e-05,
      "loss": 0.3210469722747803,
      "memory(GiB)": 73.83,
      "step": 85590,
      "token_acc": 0.930921052631579,
      "train_speed(iter/s)": 1.455786
    },
    {
      "epoch": 3.667152221412964,
      "grad_norm": 8.713886260986328,
      "learning_rate": 1.6532135194923982e-05,
      "loss": 0.3991896152496338,
      "memory(GiB)": 73.83,
      "step": 85595,
      "token_acc": 0.9030303030303031,
      "train_speed(iter/s)": 1.455798
    },
    {
      "epoch": 3.6673664367422134,
      "grad_norm": 4.43655252456665,
      "learning_rate": 1.652713567612509e-05,
      "loss": 0.37987775802612306,
      "memory(GiB)": 73.83,
      "step": 85600,
      "token_acc": 0.910394265232975,
      "train_speed(iter/s)": 1.455797
    },
    {
      "epoch": 3.667580652071462,
      "grad_norm": 3.1140778064727783,
      "learning_rate": 1.6522136763718533e-05,
      "loss": 0.5236390590667724,
      "memory(GiB)": 73.83,
      "step": 85605,
      "token_acc": 0.8737541528239202,
      "train_speed(iter/s)": 1.455801
    },
    {
      "epoch": 3.667794867400711,
      "grad_norm": 2.0063483715057373,
      "learning_rate": 1.6517138457794873e-05,
      "loss": 0.48443970680236814,
      "memory(GiB)": 73.83,
      "step": 85610,
      "token_acc": 0.9236947791164659,
      "train_speed(iter/s)": 1.45582
    },
    {
      "epoch": 3.6680090827299603,
      "grad_norm": 1.2072612047195435,
      "learning_rate": 1.651214075844466e-05,
      "loss": 0.13519517183303834,
      "memory(GiB)": 73.83,
      "step": 85615,
      "token_acc": 0.9662576687116564,
      "train_speed(iter/s)": 1.455819
    },
    {
      "epoch": 3.668223298059209,
      "grad_norm": 4.182684421539307,
      "learning_rate": 1.6507143665758417e-05,
      "loss": 0.23797082901000977,
      "memory(GiB)": 73.83,
      "step": 85620,
      "token_acc": 0.939622641509434,
      "train_speed(iter/s)": 1.455822
    },
    {
      "epoch": 3.668437513388458,
      "grad_norm": 1.9104297161102295,
      "learning_rate": 1.65021471798267e-05,
      "loss": 0.1816033124923706,
      "memory(GiB)": 73.83,
      "step": 85625,
      "token_acc": 0.9608540925266904,
      "train_speed(iter/s)": 1.455824
    },
    {
      "epoch": 3.668651728717707,
      "grad_norm": 3.4781603813171387,
      "learning_rate": 1.6497151300739994e-05,
      "loss": 0.3202920436859131,
      "memory(GiB)": 73.83,
      "step": 85630,
      "token_acc": 0.9144981412639405,
      "train_speed(iter/s)": 1.455826
    },
    {
      "epoch": 3.668865944046956,
      "grad_norm": 4.398792743682861,
      "learning_rate": 1.6492156028588833e-05,
      "loss": 0.22837426662445068,
      "memory(GiB)": 73.83,
      "step": 85635,
      "token_acc": 0.9622641509433962,
      "train_speed(iter/s)": 1.455818
    },
    {
      "epoch": 3.669080159376205,
      "grad_norm": 2.7799346446990967,
      "learning_rate": 1.6487161363463705e-05,
      "loss": 0.4384561538696289,
      "memory(GiB)": 73.83,
      "step": 85640,
      "token_acc": 0.9186440677966101,
      "train_speed(iter/s)": 1.455816
    },
    {
      "epoch": 3.669294374705454,
      "grad_norm": 2.437143564224243,
      "learning_rate": 1.6482167305455086e-05,
      "loss": 0.45282754898071287,
      "memory(GiB)": 73.83,
      "step": 85645,
      "token_acc": 0.9110320284697508,
      "train_speed(iter/s)": 1.455822
    },
    {
      "epoch": 3.669508590034703,
      "grad_norm": 0.42133015394210815,
      "learning_rate": 1.6477173854653433e-05,
      "loss": 0.1953510284423828,
      "memory(GiB)": 73.83,
      "step": 85650,
      "token_acc": 0.9448275862068966,
      "train_speed(iter/s)": 1.455827
    },
    {
      "epoch": 3.6697228053639517,
      "grad_norm": 1.3981984853744507,
      "learning_rate": 1.6472181011149233e-05,
      "loss": 0.3667210578918457,
      "memory(GiB)": 73.83,
      "step": 85655,
      "token_acc": 0.9185667752442996,
      "train_speed(iter/s)": 1.455832
    },
    {
      "epoch": 3.669937020693201,
      "grad_norm": 1.826606035232544,
      "learning_rate": 1.6467188775032925e-05,
      "loss": 0.30634613037109376,
      "memory(GiB)": 73.83,
      "step": 85660,
      "token_acc": 0.9191919191919192,
      "train_speed(iter/s)": 1.455834
    },
    {
      "epoch": 3.6701512360224497,
      "grad_norm": 4.300900459289551,
      "learning_rate": 1.646219714639496e-05,
      "loss": 0.2943427085876465,
      "memory(GiB)": 73.83,
      "step": 85665,
      "token_acc": 0.928,
      "train_speed(iter/s)": 1.455835
    },
    {
      "epoch": 3.6703654513516986,
      "grad_norm": 3.8381662368774414,
      "learning_rate": 1.6457206125325747e-05,
      "loss": 0.31317408084869386,
      "memory(GiB)": 73.83,
      "step": 85670,
      "token_acc": 0.9471830985915493,
      "train_speed(iter/s)": 1.45583
    },
    {
      "epoch": 3.670579666680948,
      "grad_norm": 3.0502569675445557,
      "learning_rate": 1.6452215711915708e-05,
      "loss": 0.46876039505004885,
      "memory(GiB)": 73.83,
      "step": 85675,
      "token_acc": 0.8981132075471698,
      "train_speed(iter/s)": 1.45583
    },
    {
      "epoch": 3.6707938820101966,
      "grad_norm": 6.733222007751465,
      "learning_rate": 1.6447225906255237e-05,
      "loss": 0.26306962966918945,
      "memory(GiB)": 73.83,
      "step": 85680,
      "token_acc": 0.9503311258278145,
      "train_speed(iter/s)": 1.455831
    },
    {
      "epoch": 3.6710080973394454,
      "grad_norm": 2.704061985015869,
      "learning_rate": 1.6442236708434767e-05,
      "loss": 0.35575549602508544,
      "memory(GiB)": 73.83,
      "step": 85685,
      "token_acc": 0.9368421052631579,
      "train_speed(iter/s)": 1.455834
    },
    {
      "epoch": 3.6712223126686947,
      "grad_norm": 7.065561294555664,
      "learning_rate": 1.643724811854465e-05,
      "loss": 0.5679893016815185,
      "memory(GiB)": 73.83,
      "step": 85690,
      "token_acc": 0.9032258064516129,
      "train_speed(iter/s)": 1.455845
    },
    {
      "epoch": 3.6714365279979435,
      "grad_norm": 2.079160213470459,
      "learning_rate": 1.643226013667527e-05,
      "loss": 0.21528258323669433,
      "memory(GiB)": 73.83,
      "step": 85695,
      "token_acc": 0.967741935483871,
      "train_speed(iter/s)": 1.455853
    },
    {
      "epoch": 3.6716507433271923,
      "grad_norm": 1.2198034524917603,
      "learning_rate": 1.6427272762916973e-05,
      "loss": 0.39172232151031494,
      "memory(GiB)": 73.83,
      "step": 85700,
      "token_acc": 0.9342560553633218,
      "train_speed(iter/s)": 1.455857
    },
    {
      "epoch": 3.6718649586564416,
      "grad_norm": 2.659916877746582,
      "learning_rate": 1.6422285997360136e-05,
      "loss": 0.2926163911819458,
      "memory(GiB)": 73.83,
      "step": 85705,
      "token_acc": 0.9385665529010239,
      "train_speed(iter/s)": 1.455865
    },
    {
      "epoch": 3.6720791739856904,
      "grad_norm": 2.750915288925171,
      "learning_rate": 1.6417299840095073e-05,
      "loss": 0.2426231861114502,
      "memory(GiB)": 73.83,
      "step": 85710,
      "token_acc": 0.9561128526645768,
      "train_speed(iter/s)": 1.455866
    },
    {
      "epoch": 3.672293389314939,
      "grad_norm": 1.4829301834106445,
      "learning_rate": 1.6412314291212143e-05,
      "loss": 0.2907297134399414,
      "memory(GiB)": 73.83,
      "step": 85715,
      "token_acc": 0.9427609427609428,
      "train_speed(iter/s)": 1.455863
    },
    {
      "epoch": 3.6725076046441885,
      "grad_norm": 0.6401042938232422,
      "learning_rate": 1.6407329350801647e-05,
      "loss": 0.18085321187973022,
      "memory(GiB)": 73.83,
      "step": 85720,
      "token_acc": 0.9668674698795181,
      "train_speed(iter/s)": 1.455866
    },
    {
      "epoch": 3.6727218199734373,
      "grad_norm": 4.2723469734191895,
      "learning_rate": 1.640234501895389e-05,
      "loss": 0.38560757637023924,
      "memory(GiB)": 73.83,
      "step": 85725,
      "token_acc": 0.9136690647482014,
      "train_speed(iter/s)": 1.45588
    },
    {
      "epoch": 3.672936035302686,
      "grad_norm": 3.8191514015197754,
      "learning_rate": 1.6397361295759172e-05,
      "loss": 0.35737996101379393,
      "memory(GiB)": 73.83,
      "step": 85730,
      "token_acc": 0.9183673469387755,
      "train_speed(iter/s)": 1.455875
    },
    {
      "epoch": 3.6731502506319353,
      "grad_norm": 5.115346908569336,
      "learning_rate": 1.6392378181307777e-05,
      "loss": 0.3188910007476807,
      "memory(GiB)": 73.83,
      "step": 85735,
      "token_acc": 0.9237668161434978,
      "train_speed(iter/s)": 1.455875
    },
    {
      "epoch": 3.673364465961184,
      "grad_norm": 3.200712203979492,
      "learning_rate": 1.6387395675689964e-05,
      "loss": 0.35973300933837893,
      "memory(GiB)": 73.83,
      "step": 85740,
      "token_acc": 0.9155555555555556,
      "train_speed(iter/s)": 1.455884
    },
    {
      "epoch": 3.673578681290433,
      "grad_norm": 2.7655177116394043,
      "learning_rate": 1.6382413778996018e-05,
      "loss": 0.42629122734069824,
      "memory(GiB)": 73.83,
      "step": 85745,
      "token_acc": 0.906060606060606,
      "train_speed(iter/s)": 1.455901
    },
    {
      "epoch": 3.6737928966196822,
      "grad_norm": 3.917531728744507,
      "learning_rate": 1.637743249131619e-05,
      "loss": 0.369297456741333,
      "memory(GiB)": 73.83,
      "step": 85750,
      "token_acc": 0.9107806691449815,
      "train_speed(iter/s)": 1.455908
    },
    {
      "epoch": 3.674007111948931,
      "grad_norm": 1.2728103399276733,
      "learning_rate": 1.637245181274071e-05,
      "loss": 0.5813206195831299,
      "memory(GiB)": 73.83,
      "step": 85755,
      "token_acc": 0.8603773584905661,
      "train_speed(iter/s)": 1.455923
    },
    {
      "epoch": 3.67422132727818,
      "grad_norm": 4.151219844818115,
      "learning_rate": 1.6367471743359814e-05,
      "loss": 0.4867987632751465,
      "memory(GiB)": 73.83,
      "step": 85760,
      "token_acc": 0.9347826086956522,
      "train_speed(iter/s)": 1.455926
    },
    {
      "epoch": 3.674435542607429,
      "grad_norm": 4.367049694061279,
      "learning_rate": 1.636249228326369e-05,
      "loss": 0.37424745559692385,
      "memory(GiB)": 73.83,
      "step": 85765,
      "token_acc": 0.9090909090909091,
      "train_speed(iter/s)": 1.455928
    },
    {
      "epoch": 3.674649757936678,
      "grad_norm": 3.86497163772583,
      "learning_rate": 1.63575134325426e-05,
      "loss": 0.40400142669677735,
      "memory(GiB)": 73.83,
      "step": 85770,
      "token_acc": 0.9111111111111111,
      "train_speed(iter/s)": 1.455933
    },
    {
      "epoch": 3.6748639732659267,
      "grad_norm": 4.430786609649658,
      "learning_rate": 1.6352535191286693e-05,
      "loss": 0.4475820541381836,
      "memory(GiB)": 73.83,
      "step": 85775,
      "token_acc": 0.9019607843137255,
      "train_speed(iter/s)": 1.455935
    },
    {
      "epoch": 3.675078188595176,
      "grad_norm": 5.519897937774658,
      "learning_rate": 1.6347557559586192e-05,
      "loss": 0.16984057426452637,
      "memory(GiB)": 73.83,
      "step": 85780,
      "token_acc": 0.9469964664310954,
      "train_speed(iter/s)": 1.455951
    },
    {
      "epoch": 3.675292403924425,
      "grad_norm": 3.2697713375091553,
      "learning_rate": 1.6342580537531256e-05,
      "loss": 0.39145755767822266,
      "memory(GiB)": 73.83,
      "step": 85785,
      "token_acc": 0.9053708439897699,
      "train_speed(iter/s)": 1.455961
    },
    {
      "epoch": 3.6755066192536736,
      "grad_norm": 3.1280739307403564,
      "learning_rate": 1.633760412521204e-05,
      "loss": 0.29427304267883303,
      "memory(GiB)": 73.83,
      "step": 85790,
      "token_acc": 0.9310344827586207,
      "train_speed(iter/s)": 1.455971
    },
    {
      "epoch": 3.675720834582923,
      "grad_norm": 1.483605980873108,
      "learning_rate": 1.6332628322718696e-05,
      "loss": 0.2715842962265015,
      "memory(GiB)": 73.83,
      "step": 85795,
      "token_acc": 0.9342560553633218,
      "train_speed(iter/s)": 1.455978
    },
    {
      "epoch": 3.6759350499121717,
      "grad_norm": 0.32730188965797424,
      "learning_rate": 1.6327653130141385e-05,
      "loss": 0.17031391859054565,
      "memory(GiB)": 73.83,
      "step": 85800,
      "token_acc": 0.9609929078014184,
      "train_speed(iter/s)": 1.455985
    },
    {
      "epoch": 3.6761492652414205,
      "grad_norm": 2.4048733711242676,
      "learning_rate": 1.6322678547570224e-05,
      "loss": 0.3292550563812256,
      "memory(GiB)": 73.83,
      "step": 85805,
      "token_acc": 0.924812030075188,
      "train_speed(iter/s)": 1.455983
    },
    {
      "epoch": 3.6763634805706698,
      "grad_norm": 3.3971147537231445,
      "learning_rate": 1.6317704575095333e-05,
      "loss": 0.446869945526123,
      "memory(GiB)": 73.83,
      "step": 85810,
      "token_acc": 0.9076923076923077,
      "train_speed(iter/s)": 1.455983
    },
    {
      "epoch": 3.6765776958999186,
      "grad_norm": 3.836110830307007,
      "learning_rate": 1.631273121280682e-05,
      "loss": 0.36555185317993166,
      "memory(GiB)": 73.83,
      "step": 85815,
      "token_acc": 0.9368029739776952,
      "train_speed(iter/s)": 1.455986
    },
    {
      "epoch": 3.6767919112291674,
      "grad_norm": 2.6939339637756348,
      "learning_rate": 1.630775846079478e-05,
      "loss": 0.36034255027770995,
      "memory(GiB)": 73.83,
      "step": 85820,
      "token_acc": 0.9181494661921709,
      "train_speed(iter/s)": 1.455994
    },
    {
      "epoch": 3.6770061265584166,
      "grad_norm": 4.361734390258789,
      "learning_rate": 1.630278631914929e-05,
      "loss": 0.2187499761581421,
      "memory(GiB)": 73.83,
      "step": 85825,
      "token_acc": 0.9505703422053232,
      "train_speed(iter/s)": 1.456009
    },
    {
      "epoch": 3.6772203418876654,
      "grad_norm": 1.4638450145721436,
      "learning_rate": 1.6297814787960453e-05,
      "loss": 0.35900495052337644,
      "memory(GiB)": 73.83,
      "step": 85830,
      "token_acc": 0.9028776978417267,
      "train_speed(iter/s)": 1.45601
    },
    {
      "epoch": 3.6774345572169143,
      "grad_norm": 6.052178859710693,
      "learning_rate": 1.6292843867318307e-05,
      "loss": 0.5527513980865478,
      "memory(GiB)": 73.83,
      "step": 85835,
      "token_acc": 0.8979591836734694,
      "train_speed(iter/s)": 1.456013
    },
    {
      "epoch": 3.6776487725461635,
      "grad_norm": 6.2615742683410645,
      "learning_rate": 1.6287873557312927e-05,
      "loss": 0.42367162704467776,
      "memory(GiB)": 73.83,
      "step": 85840,
      "token_acc": 0.9278996865203761,
      "train_speed(iter/s)": 1.456015
    },
    {
      "epoch": 3.6778629878754123,
      "grad_norm": 0.14822062849998474,
      "learning_rate": 1.628290385803433e-05,
      "loss": 0.3093691825866699,
      "memory(GiB)": 73.83,
      "step": 85845,
      "token_acc": 0.9085173501577287,
      "train_speed(iter/s)": 1.456028
    },
    {
      "epoch": 3.678077203204661,
      "grad_norm": 3.588545322418213,
      "learning_rate": 1.6277934769572552e-05,
      "loss": 0.32029476165771487,
      "memory(GiB)": 73.83,
      "step": 85850,
      "token_acc": 0.9214285714285714,
      "train_speed(iter/s)": 1.456028
    },
    {
      "epoch": 3.6782914185339104,
      "grad_norm": 3.5951216220855713,
      "learning_rate": 1.6272966292017616e-05,
      "loss": 0.2953484296798706,
      "memory(GiB)": 73.83,
      "step": 85855,
      "token_acc": 0.9434628975265018,
      "train_speed(iter/s)": 1.456031
    },
    {
      "epoch": 3.678505633863159,
      "grad_norm": 6.847243309020996,
      "learning_rate": 1.6267998425459552e-05,
      "loss": 0.336742639541626,
      "memory(GiB)": 73.83,
      "step": 85860,
      "token_acc": 0.9391891891891891,
      "train_speed(iter/s)": 1.456036
    },
    {
      "epoch": 3.678719849192408,
      "grad_norm": 1.1270840167999268,
      "learning_rate": 1.6263031169988337e-05,
      "loss": 0.23390662670135498,
      "memory(GiB)": 73.83,
      "step": 85865,
      "token_acc": 0.9432835820895522,
      "train_speed(iter/s)": 1.456047
    },
    {
      "epoch": 3.6789340645216573,
      "grad_norm": 1.5542718172073364,
      "learning_rate": 1.625806452569396e-05,
      "loss": 0.2598039865493774,
      "memory(GiB)": 73.83,
      "step": 85870,
      "token_acc": 0.9521276595744681,
      "train_speed(iter/s)": 1.456055
    },
    {
      "epoch": 3.679148279850906,
      "grad_norm": 0.34121549129486084,
      "learning_rate": 1.6253098492666397e-05,
      "loss": 0.3513902425765991,
      "memory(GiB)": 73.83,
      "step": 85875,
      "token_acc": 0.9175257731958762,
      "train_speed(iter/s)": 1.456053
    },
    {
      "epoch": 3.679362495180155,
      "grad_norm": 3.192391872406006,
      "learning_rate": 1.6248133070995613e-05,
      "loss": 0.5075417518615722,
      "memory(GiB)": 73.83,
      "step": 85880,
      "token_acc": 0.8758620689655172,
      "train_speed(iter/s)": 1.456052
    },
    {
      "epoch": 3.679576710509404,
      "grad_norm": 0.9737005829811096,
      "learning_rate": 1.6243168260771547e-05,
      "loss": 0.3058526039123535,
      "memory(GiB)": 73.83,
      "step": 85885,
      "token_acc": 0.926056338028169,
      "train_speed(iter/s)": 1.456057
    },
    {
      "epoch": 3.679790925838653,
      "grad_norm": 3.6033308506011963,
      "learning_rate": 1.623820406208417e-05,
      "loss": 0.4912543296813965,
      "memory(GiB)": 73.83,
      "step": 85890,
      "token_acc": 0.8773006134969326,
      "train_speed(iter/s)": 1.456058
    },
    {
      "epoch": 3.680005141167902,
      "grad_norm": 1.2774447202682495,
      "learning_rate": 1.6233240475023394e-05,
      "loss": 0.42133173942565916,
      "memory(GiB)": 73.83,
      "step": 85895,
      "token_acc": 0.9187279151943463,
      "train_speed(iter/s)": 1.456071
    },
    {
      "epoch": 3.680219356497151,
      "grad_norm": 2.6917333602905273,
      "learning_rate": 1.622827749967914e-05,
      "loss": 0.31435940265655515,
      "memory(GiB)": 73.83,
      "step": 85900,
      "token_acc": 0.9216417910447762,
      "train_speed(iter/s)": 1.456073
    },
    {
      "epoch": 3.6804335718264,
      "grad_norm": 2.53239107131958,
      "learning_rate": 1.6223315136141327e-05,
      "loss": 0.3651005744934082,
      "memory(GiB)": 73.83,
      "step": 85905,
      "token_acc": 0.923728813559322,
      "train_speed(iter/s)": 1.456082
    },
    {
      "epoch": 3.6806477871556487,
      "grad_norm": 2.9649109840393066,
      "learning_rate": 1.6218353384499824e-05,
      "loss": 0.39882750511169435,
      "memory(GiB)": 73.83,
      "step": 85910,
      "token_acc": 0.9049295774647887,
      "train_speed(iter/s)": 1.456081
    },
    {
      "epoch": 3.680862002484898,
      "grad_norm": 4.4029340744018555,
      "learning_rate": 1.6213392244844554e-05,
      "loss": 0.4204558849334717,
      "memory(GiB)": 73.83,
      "step": 85915,
      "token_acc": 0.9015873015873016,
      "train_speed(iter/s)": 1.456084
    },
    {
      "epoch": 3.6810762178141467,
      "grad_norm": 2.9976003170013428,
      "learning_rate": 1.6208431717265382e-05,
      "loss": 0.5344247341156005,
      "memory(GiB)": 73.83,
      "step": 85920,
      "token_acc": 0.8928571428571429,
      "train_speed(iter/s)": 1.456089
    },
    {
      "epoch": 3.6812904331433955,
      "grad_norm": 1.8039182424545288,
      "learning_rate": 1.6203471801852148e-05,
      "loss": 0.30608229637145995,
      "memory(GiB)": 73.83,
      "step": 85925,
      "token_acc": 0.9407894736842105,
      "train_speed(iter/s)": 1.456094
    },
    {
      "epoch": 3.681504648472645,
      "grad_norm": 3.5821192264556885,
      "learning_rate": 1.6198512498694744e-05,
      "loss": 0.23120782375335694,
      "memory(GiB)": 73.83,
      "step": 85930,
      "token_acc": 0.9583333333333334,
      "train_speed(iter/s)": 1.456105
    },
    {
      "epoch": 3.6817188638018936,
      "grad_norm": 3.245274782180786,
      "learning_rate": 1.6193553807882998e-05,
      "loss": 0.38730435371398925,
      "memory(GiB)": 73.83,
      "step": 85935,
      "token_acc": 0.9139072847682119,
      "train_speed(iter/s)": 1.456108
    },
    {
      "epoch": 3.6819330791311424,
      "grad_norm": 2.749162435531616,
      "learning_rate": 1.6188595729506722e-05,
      "loss": 0.3406409502029419,
      "memory(GiB)": 73.83,
      "step": 85940,
      "token_acc": 0.920863309352518,
      "train_speed(iter/s)": 1.456111
    },
    {
      "epoch": 3.6821472944603917,
      "grad_norm": 3.2846837043762207,
      "learning_rate": 1.6183638263655765e-05,
      "loss": 0.27967472076416017,
      "memory(GiB)": 73.83,
      "step": 85945,
      "token_acc": 0.9344262295081968,
      "train_speed(iter/s)": 1.456119
    },
    {
      "epoch": 3.6823615097896405,
      "grad_norm": 2.678818464279175,
      "learning_rate": 1.617868141041992e-05,
      "loss": 0.2652535676956177,
      "memory(GiB)": 73.83,
      "step": 85950,
      "token_acc": 0.958904109589041,
      "train_speed(iter/s)": 1.456129
    },
    {
      "epoch": 3.6825757251188893,
      "grad_norm": 2.77040433883667,
      "learning_rate": 1.6173725169888994e-05,
      "loss": 0.33785419464111327,
      "memory(GiB)": 73.83,
      "step": 85955,
      "token_acc": 0.9342105263157895,
      "train_speed(iter/s)": 1.456131
    },
    {
      "epoch": 3.6827899404481386,
      "grad_norm": 0.4535753130912781,
      "learning_rate": 1.6168769542152767e-05,
      "loss": 0.2504436492919922,
      "memory(GiB)": 73.83,
      "step": 85960,
      "token_acc": 0.9575757575757575,
      "train_speed(iter/s)": 1.456139
    },
    {
      "epoch": 3.6830041557773874,
      "grad_norm": 5.017334461212158,
      "learning_rate": 1.6163814527301013e-05,
      "loss": 0.4826827049255371,
      "memory(GiB)": 73.83,
      "step": 85965,
      "token_acc": 0.8996865203761756,
      "train_speed(iter/s)": 1.456144
    },
    {
      "epoch": 3.683218371106636,
      "grad_norm": 2.2979044914245605,
      "learning_rate": 1.6158860125423485e-05,
      "loss": 0.3173861265182495,
      "memory(GiB)": 73.83,
      "step": 85970,
      "token_acc": 0.9207920792079208,
      "train_speed(iter/s)": 1.456147
    },
    {
      "epoch": 3.6834325864358854,
      "grad_norm": 1.7847763299942017,
      "learning_rate": 1.615390633660997e-05,
      "loss": 0.16367714405059813,
      "memory(GiB)": 73.83,
      "step": 85975,
      "token_acc": 0.9699453551912568,
      "train_speed(iter/s)": 1.456148
    },
    {
      "epoch": 3.6836468017651343,
      "grad_norm": 3.0547780990600586,
      "learning_rate": 1.6148953160950187e-05,
      "loss": 0.5965682983398437,
      "memory(GiB)": 73.83,
      "step": 85980,
      "token_acc": 0.8711656441717791,
      "train_speed(iter/s)": 1.456148
    },
    {
      "epoch": 3.683861017094383,
      "grad_norm": 2.2586748600006104,
      "learning_rate": 1.6144000598533877e-05,
      "loss": 0.2012610912322998,
      "memory(GiB)": 73.83,
      "step": 85985,
      "token_acc": 0.9601226993865031,
      "train_speed(iter/s)": 1.456144
    },
    {
      "epoch": 3.6840752324236323,
      "grad_norm": 4.084204196929932,
      "learning_rate": 1.6139048649450756e-05,
      "loss": 0.5593907356262207,
      "memory(GiB)": 73.83,
      "step": 85990,
      "token_acc": 0.87890625,
      "train_speed(iter/s)": 1.456146
    },
    {
      "epoch": 3.684289447752881,
      "grad_norm": 2.4185142517089844,
      "learning_rate": 1.6134097313790515e-05,
      "loss": 0.2217728614807129,
      "memory(GiB)": 73.83,
      "step": 85995,
      "token_acc": 0.9515570934256056,
      "train_speed(iter/s)": 1.456148
    },
    {
      "epoch": 3.68450366308213,
      "grad_norm": 2.715411424636841,
      "learning_rate": 1.6129146591642868e-05,
      "loss": 0.39624199867248533,
      "memory(GiB)": 73.83,
      "step": 86000,
      "token_acc": 0.8989547038327527,
      "train_speed(iter/s)": 1.456156
    },
    {
      "epoch": 3.68450366308213,
      "eval_loss": 2.520899772644043,
      "eval_runtime": 11.3049,
      "eval_samples_per_second": 8.846,
      "eval_steps_per_second": 8.846,
      "eval_token_acc": 0.4561933534743202,
      "step": 86000
    },
    {
      "epoch": 3.684717878411379,
      "grad_norm": 6.514016151428223,
      "learning_rate": 1.612419648309752e-05,
      "loss": 0.3164398193359375,
      "memory(GiB)": 73.83,
      "step": 86005,
      "token_acc": 0.6064382139148494,
      "train_speed(iter/s)": 1.455856
    },
    {
      "epoch": 3.684932093740628,
      "grad_norm": 1.7712620496749878,
      "learning_rate": 1.6119246988244136e-05,
      "loss": 0.25573642253875734,
      "memory(GiB)": 73.83,
      "step": 86010,
      "token_acc": 0.9636363636363636,
      "train_speed(iter/s)": 1.455859
    },
    {
      "epoch": 3.685146309069877,
      "grad_norm": 4.187249183654785,
      "learning_rate": 1.6114298107172372e-05,
      "loss": 0.2982205390930176,
      "memory(GiB)": 73.83,
      "step": 86015,
      "token_acc": 0.921875,
      "train_speed(iter/s)": 1.455867
    },
    {
      "epoch": 3.685360524399126,
      "grad_norm": 4.829846382141113,
      "learning_rate": 1.6109349839971883e-05,
      "loss": 0.3440863609313965,
      "memory(GiB)": 73.83,
      "step": 86020,
      "token_acc": 0.948,
      "train_speed(iter/s)": 1.455868
    },
    {
      "epoch": 3.685574739728375,
      "grad_norm": 3.2263858318328857,
      "learning_rate": 1.61044021867323e-05,
      "loss": 0.2412175416946411,
      "memory(GiB)": 73.83,
      "step": 86025,
      "token_acc": 0.9372549019607843,
      "train_speed(iter/s)": 1.455864
    },
    {
      "epoch": 3.6857889550576237,
      "grad_norm": 3.001725435256958,
      "learning_rate": 1.6099455147543284e-05,
      "loss": 0.47093887329101564,
      "memory(GiB)": 73.83,
      "step": 86030,
      "token_acc": 0.9063670411985019,
      "train_speed(iter/s)": 1.455863
    },
    {
      "epoch": 3.686003170386873,
      "grad_norm": 1.0416817665100098,
      "learning_rate": 1.609450872249444e-05,
      "loss": 0.399900484085083,
      "memory(GiB)": 73.83,
      "step": 86035,
      "token_acc": 0.9285714285714286,
      "train_speed(iter/s)": 1.455872
    },
    {
      "epoch": 3.686217385716122,
      "grad_norm": 4.720424175262451,
      "learning_rate": 1.6089562911675377e-05,
      "loss": 0.30922350883483884,
      "memory(GiB)": 73.83,
      "step": 86040,
      "token_acc": 0.9243421052631579,
      "train_speed(iter/s)": 1.455874
    },
    {
      "epoch": 3.6864316010453706,
      "grad_norm": 2.651855945587158,
      "learning_rate": 1.6084617715175686e-05,
      "loss": 0.18607418537139891,
      "memory(GiB)": 73.83,
      "step": 86045,
      "token_acc": 0.9418181818181818,
      "train_speed(iter/s)": 1.455881
    },
    {
      "epoch": 3.68664581637462,
      "grad_norm": 3.687436819076538,
      "learning_rate": 1.6079673133084967e-05,
      "loss": 0.43903064727783203,
      "memory(GiB)": 73.83,
      "step": 86050,
      "token_acc": 0.905982905982906,
      "train_speed(iter/s)": 1.455881
    },
    {
      "epoch": 3.6868600317038687,
      "grad_norm": 1.7503939867019653,
      "learning_rate": 1.607472916549277e-05,
      "loss": 0.2443093776702881,
      "memory(GiB)": 73.83,
      "step": 86055,
      "token_acc": 0.9348534201954397,
      "train_speed(iter/s)": 1.455879
    },
    {
      "epoch": 3.6870742470331175,
      "grad_norm": 2.5121026039123535,
      "learning_rate": 1.6069785812488696e-05,
      "loss": 0.40393686294555664,
      "memory(GiB)": 73.83,
      "step": 86060,
      "token_acc": 0.916083916083916,
      "train_speed(iter/s)": 1.455878
    },
    {
      "epoch": 3.6872884623623667,
      "grad_norm": 3.2762131690979004,
      "learning_rate": 1.6064843074162285e-05,
      "loss": 0.20856754779815673,
      "memory(GiB)": 73.83,
      "step": 86065,
      "token_acc": 0.951048951048951,
      "train_speed(iter/s)": 1.455881
    },
    {
      "epoch": 3.6875026776916155,
      "grad_norm": 3.852480411529541,
      "learning_rate": 1.6059900950603052e-05,
      "loss": 0.1828879952430725,
      "memory(GiB)": 73.83,
      "step": 86070,
      "token_acc": 0.9591836734693877,
      "train_speed(iter/s)": 1.455879
    },
    {
      "epoch": 3.6877168930208644,
      "grad_norm": 4.963402271270752,
      "learning_rate": 1.6054959441900574e-05,
      "loss": 0.1796713352203369,
      "memory(GiB)": 73.83,
      "step": 86075,
      "token_acc": 0.9615384615384616,
      "train_speed(iter/s)": 1.455888
    },
    {
      "epoch": 3.6879311083501136,
      "grad_norm": 5.219747066497803,
      "learning_rate": 1.605001854814434e-05,
      "loss": 0.15474414825439453,
      "memory(GiB)": 73.83,
      "step": 86080,
      "token_acc": 0.9604743083003953,
      "train_speed(iter/s)": 1.455891
    },
    {
      "epoch": 3.6881453236793624,
      "grad_norm": 1.0409921407699585,
      "learning_rate": 1.6045078269423864e-05,
      "loss": 0.32428631782531736,
      "memory(GiB)": 73.83,
      "step": 86085,
      "token_acc": 0.9225589225589226,
      "train_speed(iter/s)": 1.455898
    },
    {
      "epoch": 3.6883595390086112,
      "grad_norm": 3.4910523891448975,
      "learning_rate": 1.6040138605828653e-05,
      "loss": 0.30091884136199953,
      "memory(GiB)": 73.83,
      "step": 86090,
      "token_acc": 0.9256505576208178,
      "train_speed(iter/s)": 1.455898
    },
    {
      "epoch": 3.6885737543378605,
      "grad_norm": 6.763954162597656,
      "learning_rate": 1.6035199557448194e-05,
      "loss": 0.47142753601074217,
      "memory(GiB)": 73.83,
      "step": 86095,
      "token_acc": 0.9,
      "train_speed(iter/s)": 1.455902
    },
    {
      "epoch": 3.6887879696671093,
      "grad_norm": 0.4360121786594391,
      "learning_rate": 1.6030261124371953e-05,
      "loss": 0.22367212772369385,
      "memory(GiB)": 73.83,
      "step": 86100,
      "token_acc": 0.9384057971014492,
      "train_speed(iter/s)": 1.455906
    },
    {
      "epoch": 3.689002184996358,
      "grad_norm": 4.936406135559082,
      "learning_rate": 1.60253233066894e-05,
      "loss": 0.4561013698577881,
      "memory(GiB)": 73.83,
      "step": 86105,
      "token_acc": 0.9069767441860465,
      "train_speed(iter/s)": 1.455905
    },
    {
      "epoch": 3.6892164003256074,
      "grad_norm": 0.20614059269428253,
      "learning_rate": 1.6020386104489986e-05,
      "loss": 0.2479762315750122,
      "memory(GiB)": 73.83,
      "step": 86110,
      "token_acc": 0.9238410596026491,
      "train_speed(iter/s)": 1.455916
    },
    {
      "epoch": 3.689430615654856,
      "grad_norm": 0.48647087812423706,
      "learning_rate": 1.6015449517863133e-05,
      "loss": 0.22419435977935792,
      "memory(GiB)": 73.83,
      "step": 86115,
      "token_acc": 0.9460227272727273,
      "train_speed(iter/s)": 1.455919
    },
    {
      "epoch": 3.689644830984105,
      "grad_norm": 5.665931701660156,
      "learning_rate": 1.6010513546898316e-05,
      "loss": 0.2066988468170166,
      "memory(GiB)": 73.83,
      "step": 86120,
      "token_acc": 0.9498432601880877,
      "train_speed(iter/s)": 1.455929
    },
    {
      "epoch": 3.6898590463133543,
      "grad_norm": 5.039323329925537,
      "learning_rate": 1.600557819168493e-05,
      "loss": 0.7267226219177246,
      "memory(GiB)": 73.83,
      "step": 86125,
      "token_acc": 0.8825910931174089,
      "train_speed(iter/s)": 1.45593
    },
    {
      "epoch": 3.690073261642603,
      "grad_norm": 5.271035671234131,
      "learning_rate": 1.600064345231238e-05,
      "loss": 0.2978257656097412,
      "memory(GiB)": 73.83,
      "step": 86130,
      "token_acc": 0.9463087248322147,
      "train_speed(iter/s)": 1.455935
    },
    {
      "epoch": 3.690287476971852,
      "grad_norm": 2.2048628330230713,
      "learning_rate": 1.5995709328870067e-05,
      "loss": 0.40038042068481444,
      "memory(GiB)": 73.83,
      "step": 86135,
      "token_acc": 0.9219858156028369,
      "train_speed(iter/s)": 1.455938
    },
    {
      "epoch": 3.690501692301101,
      "grad_norm": 3.7192516326904297,
      "learning_rate": 1.5990775821447363e-05,
      "loss": 0.39777650833129885,
      "memory(GiB)": 73.83,
      "step": 86140,
      "token_acc": 0.9131944444444444,
      "train_speed(iter/s)": 1.455937
    },
    {
      "epoch": 3.69071590763035,
      "grad_norm": 4.611566543579102,
      "learning_rate": 1.598584293013366e-05,
      "loss": 0.5543557167053222,
      "memory(GiB)": 73.83,
      "step": 86145,
      "token_acc": 0.881578947368421,
      "train_speed(iter/s)": 1.455951
    },
    {
      "epoch": 3.6909301229595988,
      "grad_norm": 5.276882648468018,
      "learning_rate": 1.5980910655018332e-05,
      "loss": 0.4669938087463379,
      "memory(GiB)": 73.83,
      "step": 86150,
      "token_acc": 0.8884758364312267,
      "train_speed(iter/s)": 1.455952
    },
    {
      "epoch": 3.691144338288848,
      "grad_norm": 5.369640350341797,
      "learning_rate": 1.5975978996190727e-05,
      "loss": 0.7622966766357422,
      "memory(GiB)": 73.83,
      "step": 86155,
      "token_acc": 0.875,
      "train_speed(iter/s)": 1.455968
    },
    {
      "epoch": 3.691358553618097,
      "grad_norm": 3.379021167755127,
      "learning_rate": 1.5971047953740174e-05,
      "loss": 0.37014198303222656,
      "memory(GiB)": 73.83,
      "step": 86160,
      "token_acc": 0.924924924924925,
      "train_speed(iter/s)": 1.455968
    },
    {
      "epoch": 3.6915727689473457,
      "grad_norm": 2.439462900161743,
      "learning_rate": 1.5966117527756013e-05,
      "loss": 0.28227131366729735,
      "memory(GiB)": 73.83,
      "step": 86165,
      "token_acc": 0.939209726443769,
      "train_speed(iter/s)": 1.45597
    },
    {
      "epoch": 3.691786984276595,
      "grad_norm": 2.7496607303619385,
      "learning_rate": 1.596118771832754e-05,
      "loss": 0.3309345722198486,
      "memory(GiB)": 73.83,
      "step": 86170,
      "token_acc": 0.9254901960784314,
      "train_speed(iter/s)": 1.455975
    },
    {
      "epoch": 3.6920011996058437,
      "grad_norm": 2.5959527492523193,
      "learning_rate": 1.59562585255441e-05,
      "loss": 0.3495686769485474,
      "memory(GiB)": 73.83,
      "step": 86175,
      "token_acc": 0.9166666666666666,
      "train_speed(iter/s)": 1.455979
    },
    {
      "epoch": 3.6922154149350925,
      "grad_norm": 1.7547175884246826,
      "learning_rate": 1.5951329949494976e-05,
      "loss": 0.280863881111145,
      "memory(GiB)": 73.83,
      "step": 86180,
      "token_acc": 0.9324324324324325,
      "train_speed(iter/s)": 1.455984
    },
    {
      "epoch": 3.692429630264342,
      "grad_norm": 3.025142192840576,
      "learning_rate": 1.5946401990269444e-05,
      "loss": 0.3376279354095459,
      "memory(GiB)": 73.83,
      "step": 86185,
      "token_acc": 0.9312714776632303,
      "train_speed(iter/s)": 1.455987
    },
    {
      "epoch": 3.6926438455935906,
      "grad_norm": 2.1948325634002686,
      "learning_rate": 1.5941474647956788e-05,
      "loss": 0.2819032669067383,
      "memory(GiB)": 73.83,
      "step": 86190,
      "token_acc": 0.9292307692307692,
      "train_speed(iter/s)": 1.455994
    },
    {
      "epoch": 3.6928580609228394,
      "grad_norm": 2.798572540283203,
      "learning_rate": 1.5936547922646268e-05,
      "loss": 0.5927255153656006,
      "memory(GiB)": 73.83,
      "step": 86195,
      "token_acc": 0.875,
      "train_speed(iter/s)": 1.455999
    },
    {
      "epoch": 3.6930722762520887,
      "grad_norm": 3.671405553817749,
      "learning_rate": 1.5931621814427118e-05,
      "loss": 0.37481091022491453,
      "memory(GiB)": 73.83,
      "step": 86200,
      "token_acc": 0.9173333333333333,
      "train_speed(iter/s)": 1.456014
    },
    {
      "epoch": 3.6932864915813375,
      "grad_norm": 4.664531707763672,
      "learning_rate": 1.5926696323388618e-05,
      "loss": 0.5575116157531739,
      "memory(GiB)": 73.83,
      "step": 86205,
      "token_acc": 0.8803986710963455,
      "train_speed(iter/s)": 1.456026
    },
    {
      "epoch": 3.6935007069105863,
      "grad_norm": 5.078563690185547,
      "learning_rate": 1.5921771449619977e-05,
      "loss": 0.3807117223739624,
      "memory(GiB)": 73.83,
      "step": 86210,
      "token_acc": 0.9375,
      "train_speed(iter/s)": 1.456028
    },
    {
      "epoch": 3.6937149222398356,
      "grad_norm": 4.747751712799072,
      "learning_rate": 1.591684719321041e-05,
      "loss": 0.512553358078003,
      "memory(GiB)": 73.83,
      "step": 86215,
      "token_acc": 0.8958333333333334,
      "train_speed(iter/s)": 1.456043
    },
    {
      "epoch": 3.6939291375690844,
      "grad_norm": 4.499035835266113,
      "learning_rate": 1.5911923554249113e-05,
      "loss": 0.7828083038330078,
      "memory(GiB)": 73.83,
      "step": 86220,
      "token_acc": 0.8503649635036497,
      "train_speed(iter/s)": 1.456059
    },
    {
      "epoch": 3.694143352898333,
      "grad_norm": 9.705803871154785,
      "learning_rate": 1.590700053282532e-05,
      "loss": 0.5587888717651367,
      "memory(GiB)": 73.83,
      "step": 86225,
      "token_acc": 0.8851351351351351,
      "train_speed(iter/s)": 1.456071
    },
    {
      "epoch": 3.6943575682275824,
      "grad_norm": 3.2180464267730713,
      "learning_rate": 1.590207812902817e-05,
      "loss": 0.458724308013916,
      "memory(GiB)": 73.83,
      "step": 86230,
      "token_acc": 0.9148936170212766,
      "train_speed(iter/s)": 1.456071
    },
    {
      "epoch": 3.6945717835568312,
      "grad_norm": 8.176648139953613,
      "learning_rate": 1.5897156342946883e-05,
      "loss": 0.4887696743011475,
      "memory(GiB)": 73.83,
      "step": 86235,
      "token_acc": 0.9043824701195219,
      "train_speed(iter/s)": 1.456086
    },
    {
      "epoch": 3.69478599888608,
      "grad_norm": 4.9323554039001465,
      "learning_rate": 1.58922351746706e-05,
      "loss": 0.5633634090423584,
      "memory(GiB)": 73.83,
      "step": 86240,
      "token_acc": 0.8496503496503497,
      "train_speed(iter/s)": 1.456095
    },
    {
      "epoch": 3.6950002142153293,
      "grad_norm": 1.3778960704803467,
      "learning_rate": 1.5887314624288467e-05,
      "loss": 0.3135730981826782,
      "memory(GiB)": 73.83,
      "step": 86245,
      "token_acc": 0.9265734265734266,
      "train_speed(iter/s)": 1.456109
    },
    {
      "epoch": 3.695214429544578,
      "grad_norm": 4.179458141326904,
      "learning_rate": 1.5882394691889636e-05,
      "loss": 0.7561168670654297,
      "memory(GiB)": 73.83,
      "step": 86250,
      "token_acc": 0.8535911602209945,
      "train_speed(iter/s)": 1.456109
    },
    {
      "epoch": 3.695428644873827,
      "grad_norm": 1.5537174940109253,
      "learning_rate": 1.587747537756323e-05,
      "loss": 0.29591960906982423,
      "memory(GiB)": 73.83,
      "step": 86255,
      "token_acc": 0.9438202247191011,
      "train_speed(iter/s)": 1.456111
    },
    {
      "epoch": 3.695642860203076,
      "grad_norm": 2.771462917327881,
      "learning_rate": 1.5872556681398342e-05,
      "loss": 0.25510706901550295,
      "memory(GiB)": 73.83,
      "step": 86260,
      "token_acc": 0.9489795918367347,
      "train_speed(iter/s)": 1.456112
    },
    {
      "epoch": 3.695857075532325,
      "grad_norm": 0.5530331134796143,
      "learning_rate": 1.5867638603484132e-05,
      "loss": 0.32990360260009766,
      "memory(GiB)": 73.83,
      "step": 86265,
      "token_acc": 0.9315960912052117,
      "train_speed(iter/s)": 1.456125
    },
    {
      "epoch": 3.696071290861574,
      "grad_norm": 3.0807998180389404,
      "learning_rate": 1.5862721143909658e-05,
      "loss": 0.35419378280639646,
      "memory(GiB)": 73.83,
      "step": 86270,
      "token_acc": 0.926923076923077,
      "train_speed(iter/s)": 1.456131
    },
    {
      "epoch": 3.696285506190823,
      "grad_norm": 2.784602165222168,
      "learning_rate": 1.585780430276402e-05,
      "loss": 0.31907947063446046,
      "memory(GiB)": 73.83,
      "step": 86275,
      "token_acc": 0.9385113268608414,
      "train_speed(iter/s)": 1.456134
    },
    {
      "epoch": 3.696499721520072,
      "grad_norm": 2.370708703994751,
      "learning_rate": 1.585288808013628e-05,
      "loss": 0.5940621852874756,
      "memory(GiB)": 73.83,
      "step": 86280,
      "token_acc": 0.8872727272727273,
      "train_speed(iter/s)": 1.456146
    },
    {
      "epoch": 3.6967139368493207,
      "grad_norm": 3.7672665119171143,
      "learning_rate": 1.584797247611549e-05,
      "loss": 0.35608444213867185,
      "memory(GiB)": 73.83,
      "step": 86285,
      "token_acc": 0.9218106995884774,
      "train_speed(iter/s)": 1.456147
    },
    {
      "epoch": 3.69692815217857,
      "grad_norm": 4.789624214172363,
      "learning_rate": 1.5843057490790737e-05,
      "loss": 0.6043405532836914,
      "memory(GiB)": 73.83,
      "step": 86290,
      "token_acc": 0.8664596273291926,
      "train_speed(iter/s)": 1.456149
    },
    {
      "epoch": 3.6971423675078188,
      "grad_norm": 2.8716719150543213,
      "learning_rate": 1.583814312425102e-05,
      "loss": 0.49538397789001465,
      "memory(GiB)": 73.83,
      "step": 86295,
      "token_acc": 0.8613138686131386,
      "train_speed(iter/s)": 1.456152
    },
    {
      "epoch": 3.6973565828370676,
      "grad_norm": 2.2736103534698486,
      "learning_rate": 1.5833229376585402e-05,
      "loss": 0.2223264217376709,
      "memory(GiB)": 73.83,
      "step": 86300,
      "token_acc": 0.9442508710801394,
      "train_speed(iter/s)": 1.456148
    },
    {
      "epoch": 3.697570798166317,
      "grad_norm": 3.163020133972168,
      "learning_rate": 1.5828316247882884e-05,
      "loss": 0.39141533374786375,
      "memory(GiB)": 73.83,
      "step": 86305,
      "token_acc": 0.9292929292929293,
      "train_speed(iter/s)": 1.456145
    },
    {
      "epoch": 3.6977850134955657,
      "grad_norm": 4.793633460998535,
      "learning_rate": 1.582340373823248e-05,
      "loss": 0.5446385860443115,
      "memory(GiB)": 73.83,
      "step": 86310,
      "token_acc": 0.892128279883382,
      "train_speed(iter/s)": 1.456158
    },
    {
      "epoch": 3.6979992288248145,
      "grad_norm": 0.1738761067390442,
      "learning_rate": 1.581849184772315e-05,
      "loss": 0.204237961769104,
      "memory(GiB)": 73.83,
      "step": 86315,
      "token_acc": 0.9625850340136054,
      "train_speed(iter/s)": 1.456161
    },
    {
      "epoch": 3.6982134441540637,
      "grad_norm": 2.8817601203918457,
      "learning_rate": 1.581358057644393e-05,
      "loss": 0.1781486988067627,
      "memory(GiB)": 73.83,
      "step": 86320,
      "token_acc": 0.9522184300341296,
      "train_speed(iter/s)": 1.456159
    },
    {
      "epoch": 3.6984276594833125,
      "grad_norm": 4.730991363525391,
      "learning_rate": 1.5808669924483765e-05,
      "loss": 0.19211474657058716,
      "memory(GiB)": 73.83,
      "step": 86325,
      "token_acc": 0.9584905660377359,
      "train_speed(iter/s)": 1.456165
    },
    {
      "epoch": 3.6986418748125613,
      "grad_norm": 4.814511299133301,
      "learning_rate": 1.5803759891931613e-05,
      "loss": 0.28403291702270506,
      "memory(GiB)": 73.83,
      "step": 86330,
      "token_acc": 0.937888198757764,
      "train_speed(iter/s)": 1.456171
    },
    {
      "epoch": 3.6988560901418106,
      "grad_norm": 2.8096559047698975,
      "learning_rate": 1.579885047887644e-05,
      "loss": 0.3727332830429077,
      "memory(GiB)": 73.83,
      "step": 86335,
      "token_acc": 0.9214285714285714,
      "train_speed(iter/s)": 1.456173
    },
    {
      "epoch": 3.6990703054710594,
      "grad_norm": 2.0895299911499023,
      "learning_rate": 1.5793941685407165e-05,
      "loss": 0.3703216314315796,
      "memory(GiB)": 73.83,
      "step": 86340,
      "token_acc": 0.9321428571428572,
      "train_speed(iter/s)": 1.456175
    },
    {
      "epoch": 3.6992845208003082,
      "grad_norm": 3.9632740020751953,
      "learning_rate": 1.5789033511612712e-05,
      "loss": 0.5556241989135742,
      "memory(GiB)": 73.83,
      "step": 86345,
      "token_acc": 0.90625,
      "train_speed(iter/s)": 1.456187
    },
    {
      "epoch": 3.6994987361295575,
      "grad_norm": 2.1718599796295166,
      "learning_rate": 1.5784125957582025e-05,
      "loss": 0.3322957277297974,
      "memory(GiB)": 73.83,
      "step": 86350,
      "token_acc": 0.946360153256705,
      "train_speed(iter/s)": 1.456191
    },
    {
      "epoch": 3.6997129514588063,
      "grad_norm": 3.3509225845336914,
      "learning_rate": 1.577921902340399e-05,
      "loss": 0.41789674758911133,
      "memory(GiB)": 73.83,
      "step": 86355,
      "token_acc": 0.9115853658536586,
      "train_speed(iter/s)": 1.4562
    },
    {
      "epoch": 3.699927166788055,
      "grad_norm": 1.1213862895965576,
      "learning_rate": 1.5774312709167505e-05,
      "loss": 0.09223368167877197,
      "memory(GiB)": 73.83,
      "step": 86360,
      "token_acc": 0.9820143884892086,
      "train_speed(iter/s)": 1.456203
    },
    {
      "epoch": 3.7001413821173044,
      "grad_norm": 1.4829670190811157,
      "learning_rate": 1.576940701496144e-05,
      "loss": 0.10668038129806519,
      "memory(GiB)": 73.83,
      "step": 86365,
      "token_acc": 0.9803921568627451,
      "train_speed(iter/s)": 1.456212
    },
    {
      "epoch": 3.700355597446553,
      "grad_norm": 3.350041627883911,
      "learning_rate": 1.5764501940874688e-05,
      "loss": 0.29639368057250975,
      "memory(GiB)": 73.83,
      "step": 86370,
      "token_acc": 0.9466666666666667,
      "train_speed(iter/s)": 1.456217
    },
    {
      "epoch": 3.700569812775802,
      "grad_norm": 2.77520751953125,
      "learning_rate": 1.5759597486996086e-05,
      "loss": 0.3453402042388916,
      "memory(GiB)": 73.83,
      "step": 86375,
      "token_acc": 0.9274924471299094,
      "train_speed(iter/s)": 1.456235
    },
    {
      "epoch": 3.7007840281050512,
      "grad_norm": 1.8816004991531372,
      "learning_rate": 1.5754693653414515e-05,
      "loss": 0.23163506984710694,
      "memory(GiB)": 73.83,
      "step": 86380,
      "token_acc": 0.9479166666666666,
      "train_speed(iter/s)": 1.456247
    },
    {
      "epoch": 3.7009982434343,
      "grad_norm": 3.305325984954834,
      "learning_rate": 1.5749790440218787e-05,
      "loss": 0.3815601348876953,
      "memory(GiB)": 73.83,
      "step": 86385,
      "token_acc": 0.928125,
      "train_speed(iter/s)": 1.456252
    },
    {
      "epoch": 3.701212458763549,
      "grad_norm": 3.1052589416503906,
      "learning_rate": 1.5744887847497735e-05,
      "loss": 0.40811829566955565,
      "memory(GiB)": 73.83,
      "step": 86390,
      "token_acc": 0.9049180327868852,
      "train_speed(iter/s)": 1.456273
    },
    {
      "epoch": 3.701426674092798,
      "grad_norm": 3.9341483116149902,
      "learning_rate": 1.573998587534018e-05,
      "loss": 0.4036720752716064,
      "memory(GiB)": 73.83,
      "step": 86395,
      "token_acc": 0.8905775075987842,
      "train_speed(iter/s)": 1.456273
    },
    {
      "epoch": 3.701640889422047,
      "grad_norm": 5.993445873260498,
      "learning_rate": 1.5735084523834913e-05,
      "loss": 0.34098291397094727,
      "memory(GiB)": 73.83,
      "step": 86400,
      "token_acc": 0.9240121580547113,
      "train_speed(iter/s)": 1.456274
    },
    {
      "epoch": 3.7018551047512958,
      "grad_norm": 2.8073158264160156,
      "learning_rate": 1.573018379307072e-05,
      "loss": 0.2575897932052612,
      "memory(GiB)": 73.83,
      "step": 86405,
      "token_acc": 0.9401993355481728,
      "train_speed(iter/s)": 1.456274
    },
    {
      "epoch": 3.702069320080545,
      "grad_norm": 4.19777250289917,
      "learning_rate": 1.572528368313641e-05,
      "loss": 0.25591697692871096,
      "memory(GiB)": 73.83,
      "step": 86410,
      "token_acc": 0.9372822299651568,
      "train_speed(iter/s)": 1.456276
    },
    {
      "epoch": 3.702283535409794,
      "grad_norm": 3.5293128490448,
      "learning_rate": 1.572038419412074e-05,
      "loss": 0.47513651847839355,
      "memory(GiB)": 73.83,
      "step": 86415,
      "token_acc": 0.9073482428115016,
      "train_speed(iter/s)": 1.456282
    },
    {
      "epoch": 3.7024977507390426,
      "grad_norm": 2.887653350830078,
      "learning_rate": 1.5715485326112467e-05,
      "loss": 0.30338387489318847,
      "memory(GiB)": 73.83,
      "step": 86420,
      "token_acc": 0.9260450160771704,
      "train_speed(iter/s)": 1.456287
    },
    {
      "epoch": 3.702711966068292,
      "grad_norm": 6.79017972946167,
      "learning_rate": 1.5710587079200335e-05,
      "loss": 0.40898609161376953,
      "memory(GiB)": 73.83,
      "step": 86425,
      "token_acc": 0.927536231884058,
      "train_speed(iter/s)": 1.45629
    },
    {
      "epoch": 3.7029261813975407,
      "grad_norm": 0.507209300994873,
      "learning_rate": 1.5705689453473072e-05,
      "loss": 0.35961825847625734,
      "memory(GiB)": 73.83,
      "step": 86430,
      "token_acc": 0.9318181818181818,
      "train_speed(iter/s)": 1.456291
    },
    {
      "epoch": 3.7031403967267895,
      "grad_norm": 2.2588517665863037,
      "learning_rate": 1.570079244901943e-05,
      "loss": 0.5477112293243408,
      "memory(GiB)": 73.83,
      "step": 86435,
      "token_acc": 0.8823529411764706,
      "train_speed(iter/s)": 1.456294
    },
    {
      "epoch": 3.7033546120560388,
      "grad_norm": 6.895777702331543,
      "learning_rate": 1.569589606592809e-05,
      "loss": 0.35275750160217284,
      "memory(GiB)": 73.83,
      "step": 86440,
      "token_acc": 0.932475884244373,
      "train_speed(iter/s)": 1.456297
    },
    {
      "epoch": 3.7035688273852876,
      "grad_norm": 3.892441749572754,
      "learning_rate": 1.569100030428779e-05,
      "loss": 0.5049467563629151,
      "memory(GiB)": 73.83,
      "step": 86445,
      "token_acc": 0.8856088560885609,
      "train_speed(iter/s)": 1.456297
    },
    {
      "epoch": 3.7037830427145364,
      "grad_norm": 3.3534200191497803,
      "learning_rate": 1.568610516418721e-05,
      "loss": 0.24745090007781984,
      "memory(GiB)": 73.83,
      "step": 86450,
      "token_acc": 0.9393939393939394,
      "train_speed(iter/s)": 1.45631
    },
    {
      "epoch": 3.7039972580437857,
      "grad_norm": 0.13415198028087616,
      "learning_rate": 1.5681210645715017e-05,
      "loss": 0.18126752376556396,
      "memory(GiB)": 73.83,
      "step": 86455,
      "token_acc": 0.9661016949152542,
      "train_speed(iter/s)": 1.45631
    },
    {
      "epoch": 3.7042114733730345,
      "grad_norm": 0.49916204810142517,
      "learning_rate": 1.567631674895987e-05,
      "loss": 0.2538217782974243,
      "memory(GiB)": 73.83,
      "step": 86460,
      "token_acc": 0.9545454545454546,
      "train_speed(iter/s)": 1.456315
    },
    {
      "epoch": 3.7044256887022833,
      "grad_norm": 5.125585079193115,
      "learning_rate": 1.567142347401046e-05,
      "loss": 0.3713226318359375,
      "memory(GiB)": 73.83,
      "step": 86465,
      "token_acc": 0.906896551724138,
      "train_speed(iter/s)": 1.456313
    },
    {
      "epoch": 3.7046399040315325,
      "grad_norm": 0.13969211280345917,
      "learning_rate": 1.566653082095542e-05,
      "loss": 0.297475266456604,
      "memory(GiB)": 73.83,
      "step": 86470,
      "token_acc": 0.9276315789473685,
      "train_speed(iter/s)": 1.456314
    },
    {
      "epoch": 3.7048541193607814,
      "grad_norm": 2.605316162109375,
      "learning_rate": 1.566163878988338e-05,
      "loss": 0.24478743076324463,
      "memory(GiB)": 73.83,
      "step": 86475,
      "token_acc": 0.9467084639498433,
      "train_speed(iter/s)": 1.456317
    },
    {
      "epoch": 3.70506833469003,
      "grad_norm": 3.543822765350342,
      "learning_rate": 1.5656747380882965e-05,
      "loss": 0.3264608383178711,
      "memory(GiB)": 73.83,
      "step": 86480,
      "token_acc": 0.9278350515463918,
      "train_speed(iter/s)": 1.456337
    },
    {
      "epoch": 3.7052825500192794,
      "grad_norm": 2.538923740386963,
      "learning_rate": 1.565185659404279e-05,
      "loss": 0.2951693296432495,
      "memory(GiB)": 73.83,
      "step": 86485,
      "token_acc": 0.9358490566037736,
      "train_speed(iter/s)": 1.456343
    },
    {
      "epoch": 3.7054967653485282,
      "grad_norm": 6.067057132720947,
      "learning_rate": 1.564696642945143e-05,
      "loss": 0.3979796409606934,
      "memory(GiB)": 73.83,
      "step": 86490,
      "token_acc": 0.9358490566037736,
      "train_speed(iter/s)": 1.456346
    },
    {
      "epoch": 3.705710980677777,
      "grad_norm": 3.0073740482330322,
      "learning_rate": 1.5642076887197527e-05,
      "loss": 0.4721244812011719,
      "memory(GiB)": 73.83,
      "step": 86495,
      "token_acc": 0.9084967320261438,
      "train_speed(iter/s)": 1.456345
    },
    {
      "epoch": 3.7059251960070263,
      "grad_norm": 3.4158332347869873,
      "learning_rate": 1.563718796736962e-05,
      "loss": 0.27952749729156495,
      "memory(GiB)": 73.83,
      "step": 86500,
      "token_acc": 0.9347181008902077,
      "train_speed(iter/s)": 1.456353
    },
    {
      "epoch": 3.7059251960070263,
      "eval_loss": 2.3224668502807617,
      "eval_runtime": 11.0459,
      "eval_samples_per_second": 9.053,
      "eval_steps_per_second": 9.053,
      "eval_token_acc": 0.4894179894179894,
      "step": 86500
    },
    {
      "epoch": 3.706139411336275,
      "grad_norm": 2.5008304119110107,
      "learning_rate": 1.5632299670056296e-05,
      "loss": 0.17160611152648925,
      "memory(GiB)": 73.83,
      "step": 86505,
      "token_acc": 0.6132167152575316,
      "train_speed(iter/s)": 1.456062
    },
    {
      "epoch": 3.706353626665524,
      "grad_norm": 2.4328625202178955,
      "learning_rate": 1.5627411995346105e-05,
      "loss": 0.5757106304168701,
      "memory(GiB)": 73.83,
      "step": 86510,
      "token_acc": 0.8685121107266436,
      "train_speed(iter/s)": 1.456076
    },
    {
      "epoch": 3.706567841994773,
      "grad_norm": 4.219996452331543,
      "learning_rate": 1.5622524943327567e-05,
      "loss": 0.3288883686065674,
      "memory(GiB)": 73.83,
      "step": 86515,
      "token_acc": 0.9317507418397626,
      "train_speed(iter/s)": 1.456086
    },
    {
      "epoch": 3.706782057324022,
      "grad_norm": 3.865825653076172,
      "learning_rate": 1.5617638514089237e-05,
      "loss": 0.397607159614563,
      "memory(GiB)": 73.83,
      "step": 86520,
      "token_acc": 0.9024390243902439,
      "train_speed(iter/s)": 1.456086
    },
    {
      "epoch": 3.706996272653271,
      "grad_norm": 3.093689203262329,
      "learning_rate": 1.561275270771966e-05,
      "loss": 0.3281337976455688,
      "memory(GiB)": 73.83,
      "step": 86525,
      "token_acc": 0.931740614334471,
      "train_speed(iter/s)": 1.456091
    },
    {
      "epoch": 3.70721048798252,
      "grad_norm": 3.290799379348755,
      "learning_rate": 1.5607867524307323e-05,
      "loss": 0.1496854305267334,
      "memory(GiB)": 73.83,
      "step": 86530,
      "token_acc": 0.9742765273311897,
      "train_speed(iter/s)": 1.456099
    },
    {
      "epoch": 3.707424703311769,
      "grad_norm": 0.9401967525482178,
      "learning_rate": 1.5602982963940726e-05,
      "loss": 0.3814944505691528,
      "memory(GiB)": 73.83,
      "step": 86535,
      "token_acc": 0.9032258064516129,
      "train_speed(iter/s)": 1.45612
    },
    {
      "epoch": 3.7076389186410177,
      "grad_norm": 2.6221728324890137,
      "learning_rate": 1.559809902670836e-05,
      "loss": 0.5684037208557129,
      "memory(GiB)": 73.83,
      "step": 86540,
      "token_acc": 0.8930041152263375,
      "train_speed(iter/s)": 1.456123
    },
    {
      "epoch": 3.707853133970267,
      "grad_norm": 3.948894500732422,
      "learning_rate": 1.5593215712698705e-05,
      "loss": 0.5553199768066406,
      "memory(GiB)": 73.83,
      "step": 86545,
      "token_acc": 0.86,
      "train_speed(iter/s)": 1.456129
    },
    {
      "epoch": 3.7080673492995158,
      "grad_norm": 3.156867265701294,
      "learning_rate": 1.5588333022000212e-05,
      "loss": 0.665732479095459,
      "memory(GiB)": 73.83,
      "step": 86550,
      "token_acc": 0.8586956521739131,
      "train_speed(iter/s)": 1.456143
    },
    {
      "epoch": 3.7082815646287646,
      "grad_norm": 2.647373676300049,
      "learning_rate": 1.5583450954701356e-05,
      "loss": 0.45194687843322756,
      "memory(GiB)": 73.83,
      "step": 86555,
      "token_acc": 0.8945454545454545,
      "train_speed(iter/s)": 1.456147
    },
    {
      "epoch": 3.708495779958014,
      "grad_norm": 2.694133996963501,
      "learning_rate": 1.5578569510890574e-05,
      "loss": 0.3717078685760498,
      "memory(GiB)": 73.83,
      "step": 86560,
      "token_acc": 0.9417989417989417,
      "train_speed(iter/s)": 1.456151
    },
    {
      "epoch": 3.7087099952872626,
      "grad_norm": 3.8943583965301514,
      "learning_rate": 1.557368869065629e-05,
      "loss": 0.22162089347839356,
      "memory(GiB)": 73.83,
      "step": 86565,
      "token_acc": 0.9601226993865031,
      "train_speed(iter/s)": 1.456153
    },
    {
      "epoch": 3.7089242106165115,
      "grad_norm": 1.316672921180725,
      "learning_rate": 1.5568808494086933e-05,
      "loss": 0.10968071222305298,
      "memory(GiB)": 73.83,
      "step": 86570,
      "token_acc": 0.9715189873417721,
      "train_speed(iter/s)": 1.456152
    },
    {
      "epoch": 3.7091384259457607,
      "grad_norm": 0.4705579876899719,
      "learning_rate": 1.5563928921270898e-05,
      "loss": 0.33449602127075195,
      "memory(GiB)": 73.83,
      "step": 86575,
      "token_acc": 0.9281045751633987,
      "train_speed(iter/s)": 1.456152
    },
    {
      "epoch": 3.7093526412750095,
      "grad_norm": 1.9868298768997192,
      "learning_rate": 1.5559049972296606e-05,
      "loss": 0.29568612575531006,
      "memory(GiB)": 73.83,
      "step": 86580,
      "token_acc": 0.9347826086956522,
      "train_speed(iter/s)": 1.456163
    },
    {
      "epoch": 3.7095668566042583,
      "grad_norm": 2.5071280002593994,
      "learning_rate": 1.555417164725243e-05,
      "loss": 0.33300812244415284,
      "memory(GiB)": 73.83,
      "step": 86585,
      "token_acc": 0.911864406779661,
      "train_speed(iter/s)": 1.456165
    },
    {
      "epoch": 3.7097810719335076,
      "grad_norm": 3.7040719985961914,
      "learning_rate": 1.5549293946226734e-05,
      "loss": 0.18733142614364623,
      "memory(GiB)": 73.83,
      "step": 86590,
      "token_acc": 0.9565217391304348,
      "train_speed(iter/s)": 1.456172
    },
    {
      "epoch": 3.7099952872627564,
      "grad_norm": 1.9654927253723145,
      "learning_rate": 1.5544416869307915e-05,
      "loss": 0.38363988399505616,
      "memory(GiB)": 73.83,
      "step": 86595,
      "token_acc": 0.9196141479099679,
      "train_speed(iter/s)": 1.456175
    },
    {
      "epoch": 3.710209502592005,
      "grad_norm": 1.6895934343338013,
      "learning_rate": 1.5539540416584304e-05,
      "loss": 0.3300363540649414,
      "memory(GiB)": 73.83,
      "step": 86600,
      "token_acc": 0.9451219512195121,
      "train_speed(iter/s)": 1.456176
    },
    {
      "epoch": 3.7104237179212545,
      "grad_norm": 1.1763430833816528,
      "learning_rate": 1.5534664588144226e-05,
      "loss": 0.26940183639526366,
      "memory(GiB)": 73.83,
      "step": 86605,
      "token_acc": 0.9539007092198581,
      "train_speed(iter/s)": 1.456181
    },
    {
      "epoch": 3.7106379332505033,
      "grad_norm": 0.6406923532485962,
      "learning_rate": 1.552978938407605e-05,
      "loss": 0.1981581449508667,
      "memory(GiB)": 73.83,
      "step": 86610,
      "token_acc": 0.9559322033898305,
      "train_speed(iter/s)": 1.456183
    },
    {
      "epoch": 3.710852148579752,
      "grad_norm": 6.2750020027160645,
      "learning_rate": 1.552491480446807e-05,
      "loss": 0.4411789894104004,
      "memory(GiB)": 73.83,
      "step": 86615,
      "token_acc": 0.9180327868852459,
      "train_speed(iter/s)": 1.456186
    },
    {
      "epoch": 3.7110663639090014,
      "grad_norm": 3.9004828929901123,
      "learning_rate": 1.55200408494086e-05,
      "loss": 0.21809759140014648,
      "memory(GiB)": 73.83,
      "step": 86620,
      "token_acc": 0.9361702127659575,
      "train_speed(iter/s)": 1.456195
    },
    {
      "epoch": 3.71128057923825,
      "grad_norm": 3.414832830429077,
      "learning_rate": 1.5515167518985933e-05,
      "loss": 0.35066976547241213,
      "memory(GiB)": 73.83,
      "step": 86625,
      "token_acc": 0.9182879377431906,
      "train_speed(iter/s)": 1.456198
    },
    {
      "epoch": 3.711494794567499,
      "grad_norm": 2.264183282852173,
      "learning_rate": 1.551029481328836e-05,
      "loss": 0.21008901596069335,
      "memory(GiB)": 73.83,
      "step": 86630,
      "token_acc": 0.9451219512195121,
      "train_speed(iter/s)": 1.456202
    },
    {
      "epoch": 3.7117090098967482,
      "grad_norm": 2.996159076690674,
      "learning_rate": 1.5505422732404134e-05,
      "loss": 0.3993529796600342,
      "memory(GiB)": 73.83,
      "step": 86635,
      "token_acc": 0.9011406844106464,
      "train_speed(iter/s)": 1.456204
    },
    {
      "epoch": 3.711923225225997,
      "grad_norm": 4.434667587280273,
      "learning_rate": 1.550055127642155e-05,
      "loss": 0.5166035175323487,
      "memory(GiB)": 73.83,
      "step": 86640,
      "token_acc": 0.8981132075471698,
      "train_speed(iter/s)": 1.456209
    },
    {
      "epoch": 3.712137440555246,
      "grad_norm": 6.50139856338501,
      "learning_rate": 1.549568044542884e-05,
      "loss": 0.46047163009643555,
      "memory(GiB)": 73.83,
      "step": 86645,
      "token_acc": 0.9129032258064517,
      "train_speed(iter/s)": 1.456207
    },
    {
      "epoch": 3.712351655884495,
      "grad_norm": 6.109774112701416,
      "learning_rate": 1.5490810239514254e-05,
      "loss": 0.4523061752319336,
      "memory(GiB)": 73.83,
      "step": 86650,
      "token_acc": 0.896414342629482,
      "train_speed(iter/s)": 1.45621
    },
    {
      "epoch": 3.712565871213744,
      "grad_norm": 1.8566553592681885,
      "learning_rate": 1.5485940658766e-05,
      "loss": 0.43149394989013673,
      "memory(GiB)": 73.83,
      "step": 86655,
      "token_acc": 0.8881789137380192,
      "train_speed(iter/s)": 1.456224
    },
    {
      "epoch": 3.7127800865429927,
      "grad_norm": 4.801576137542725,
      "learning_rate": 1.5481071703272304e-05,
      "loss": 0.5001307964324951,
      "memory(GiB)": 73.83,
      "step": 86660,
      "token_acc": 0.8987341772151899,
      "train_speed(iter/s)": 1.456222
    },
    {
      "epoch": 3.712994301872242,
      "grad_norm": 3.267465114593506,
      "learning_rate": 1.547620337312137e-05,
      "loss": 0.3090497970581055,
      "memory(GiB)": 73.83,
      "step": 86665,
      "token_acc": 0.9430604982206405,
      "train_speed(iter/s)": 1.456236
    },
    {
      "epoch": 3.713208517201491,
      "grad_norm": 2.1680099964141846,
      "learning_rate": 1.547133566840141e-05,
      "loss": 0.24562594890594483,
      "memory(GiB)": 73.83,
      "step": 86670,
      "token_acc": 0.935672514619883,
      "train_speed(iter/s)": 1.456236
    },
    {
      "epoch": 3.7134227325307396,
      "grad_norm": 4.225766181945801,
      "learning_rate": 1.54664685892006e-05,
      "loss": 0.38193306922912595,
      "memory(GiB)": 73.83,
      "step": 86675,
      "token_acc": 0.9163987138263665,
      "train_speed(iter/s)": 1.456242
    },
    {
      "epoch": 3.713636947859989,
      "grad_norm": 2.042895793914795,
      "learning_rate": 1.5461602135607105e-05,
      "loss": 0.33429670333862305,
      "memory(GiB)": 73.83,
      "step": 86680,
      "token_acc": 0.9420289855072463,
      "train_speed(iter/s)": 1.456244
    },
    {
      "epoch": 3.7138511631892377,
      "grad_norm": 2.486539840698242,
      "learning_rate": 1.545673630770909e-05,
      "loss": 0.3747528076171875,
      "memory(GiB)": 73.83,
      "step": 86685,
      "token_acc": 0.9036544850498339,
      "train_speed(iter/s)": 1.456249
    },
    {
      "epoch": 3.714065378518487,
      "grad_norm": 3.698108196258545,
      "learning_rate": 1.5451871105594696e-05,
      "loss": 0.2893351078033447,
      "memory(GiB)": 73.83,
      "step": 86690,
      "token_acc": 0.9253731343283582,
      "train_speed(iter/s)": 1.456255
    },
    {
      "epoch": 3.7142795938477358,
      "grad_norm": 5.320209503173828,
      "learning_rate": 1.5447006529352054e-05,
      "loss": 0.5064035892486572,
      "memory(GiB)": 73.83,
      "step": 86695,
      "token_acc": 0.8992805755395683,
      "train_speed(iter/s)": 1.456259
    },
    {
      "epoch": 3.7144938091769846,
      "grad_norm": 4.384225845336914,
      "learning_rate": 1.5442142579069315e-05,
      "loss": 0.19172627925872804,
      "memory(GiB)": 73.83,
      "step": 86700,
      "token_acc": 0.9420849420849421,
      "train_speed(iter/s)": 1.456258
    },
    {
      "epoch": 3.714708024506234,
      "grad_norm": 3.5765156745910645,
      "learning_rate": 1.543727925483458e-05,
      "loss": 0.19160308837890624,
      "memory(GiB)": 73.83,
      "step": 86705,
      "token_acc": 0.9704641350210971,
      "train_speed(iter/s)": 1.456256
    },
    {
      "epoch": 3.7149222398354826,
      "grad_norm": 2.1006577014923096,
      "learning_rate": 1.5432416556735957e-05,
      "loss": 0.25961012840270997,
      "memory(GiB)": 73.83,
      "step": 86710,
      "token_acc": 0.9233038348082596,
      "train_speed(iter/s)": 1.456257
    },
    {
      "epoch": 3.7151364551647315,
      "grad_norm": 6.88067102432251,
      "learning_rate": 1.5427554484861532e-05,
      "loss": 0.45476608276367186,
      "memory(GiB)": 73.83,
      "step": 86715,
      "token_acc": 0.9343629343629344,
      "train_speed(iter/s)": 1.456259
    },
    {
      "epoch": 3.7153506704939807,
      "grad_norm": 0.7711949348449707,
      "learning_rate": 1.542269303929938e-05,
      "loss": 0.2785215377807617,
      "memory(GiB)": 73.83,
      "step": 86720,
      "token_acc": 0.9322033898305084,
      "train_speed(iter/s)": 1.45627
    },
    {
      "epoch": 3.7155648858232295,
      "grad_norm": 6.3546061515808105,
      "learning_rate": 1.541783222013759e-05,
      "loss": 0.2152684211730957,
      "memory(GiB)": 73.83,
      "step": 86725,
      "token_acc": 0.9503311258278145,
      "train_speed(iter/s)": 1.45628
    },
    {
      "epoch": 3.7157791011524783,
      "grad_norm": 4.0721845626831055,
      "learning_rate": 1.5412972027464213e-05,
      "loss": 0.14652954339981078,
      "memory(GiB)": 73.83,
      "step": 86730,
      "token_acc": 0.9591078066914498,
      "train_speed(iter/s)": 1.456284
    },
    {
      "epoch": 3.7159933164817276,
      "grad_norm": 4.654726028442383,
      "learning_rate": 1.5408112461367268e-05,
      "loss": 0.5859488487243653,
      "memory(GiB)": 73.83,
      "step": 86735,
      "token_acc": 0.8996763754045307,
      "train_speed(iter/s)": 1.456298
    },
    {
      "epoch": 3.7162075318109764,
      "grad_norm": 3.037738561630249,
      "learning_rate": 1.540325352193484e-05,
      "loss": 0.4853825092315674,
      "memory(GiB)": 73.83,
      "step": 86740,
      "token_acc": 0.9015151515151515,
      "train_speed(iter/s)": 1.456299
    },
    {
      "epoch": 3.716421747140225,
      "grad_norm": 8.642136573791504,
      "learning_rate": 1.539839520925493e-05,
      "loss": 0.7932897090911866,
      "memory(GiB)": 73.83,
      "step": 86745,
      "token_acc": 0.8173652694610778,
      "train_speed(iter/s)": 1.456297
    },
    {
      "epoch": 3.7166359624694745,
      "grad_norm": 2.207895040512085,
      "learning_rate": 1.539353752341553e-05,
      "loss": 0.16908681392669678,
      "memory(GiB)": 73.83,
      "step": 86750,
      "token_acc": 0.9665653495440729,
      "train_speed(iter/s)": 1.4563
    },
    {
      "epoch": 3.7168501777987233,
      "grad_norm": 4.628236293792725,
      "learning_rate": 1.538868046450468e-05,
      "loss": 0.4637720584869385,
      "memory(GiB)": 73.83,
      "step": 86755,
      "token_acc": 0.902027027027027,
      "train_speed(iter/s)": 1.456298
    },
    {
      "epoch": 3.717064393127972,
      "grad_norm": 3.346383571624756,
      "learning_rate": 1.538382403261035e-05,
      "loss": 0.4588298797607422,
      "memory(GiB)": 73.83,
      "step": 86760,
      "token_acc": 0.9027355623100304,
      "train_speed(iter/s)": 1.456299
    },
    {
      "epoch": 3.7172786084572214,
      "grad_norm": 0.7814935445785522,
      "learning_rate": 1.5378968227820518e-05,
      "loss": 0.23215894699096679,
      "memory(GiB)": 73.83,
      "step": 86765,
      "token_acc": 0.9477611940298507,
      "train_speed(iter/s)": 1.456309
    },
    {
      "epoch": 3.71749282378647,
      "grad_norm": 1.750460147857666,
      "learning_rate": 1.5374113050223153e-05,
      "loss": 0.3060901641845703,
      "memory(GiB)": 73.83,
      "step": 86770,
      "token_acc": 0.9072164948453608,
      "train_speed(iter/s)": 1.456311
    },
    {
      "epoch": 3.717707039115719,
      "grad_norm": 3.2228598594665527,
      "learning_rate": 1.5369258499906215e-05,
      "loss": 0.4779972076416016,
      "memory(GiB)": 73.83,
      "step": 86775,
      "token_acc": 0.8897338403041825,
      "train_speed(iter/s)": 1.456325
    },
    {
      "epoch": 3.7179212544449682,
      "grad_norm": 7.056955814361572,
      "learning_rate": 1.536440457695763e-05,
      "loss": 0.33585894107818604,
      "memory(GiB)": 73.83,
      "step": 86780,
      "token_acc": 0.9190031152647975,
      "train_speed(iter/s)": 1.456326
    },
    {
      "epoch": 3.718135469774217,
      "grad_norm": 3.0679073333740234,
      "learning_rate": 1.5359551281465363e-05,
      "loss": 0.26288666725158694,
      "memory(GiB)": 73.83,
      "step": 86785,
      "token_acc": 0.9530516431924883,
      "train_speed(iter/s)": 1.45633
    },
    {
      "epoch": 3.718349685103466,
      "grad_norm": 1.2164638042449951,
      "learning_rate": 1.5354698613517316e-05,
      "loss": 0.19422628879547119,
      "memory(GiB)": 73.83,
      "step": 86790,
      "token_acc": 0.9501915708812261,
      "train_speed(iter/s)": 1.456342
    },
    {
      "epoch": 3.718563900432715,
      "grad_norm": 3.1410534381866455,
      "learning_rate": 1.534984657320141e-05,
      "loss": 0.239229154586792,
      "memory(GiB)": 73.83,
      "step": 86795,
      "token_acc": 0.9538043478260869,
      "train_speed(iter/s)": 1.456347
    },
    {
      "epoch": 3.718778115761964,
      "grad_norm": 3.1731224060058594,
      "learning_rate": 1.534499516060553e-05,
      "loss": 0.3527015209197998,
      "memory(GiB)": 73.83,
      "step": 86800,
      "token_acc": 0.9119718309859155,
      "train_speed(iter/s)": 1.456349
    },
    {
      "epoch": 3.7189923310912127,
      "grad_norm": 2.087923049926758,
      "learning_rate": 1.534014437581756e-05,
      "loss": 0.29475719928741456,
      "memory(GiB)": 73.83,
      "step": 86805,
      "token_acc": 0.9391891891891891,
      "train_speed(iter/s)": 1.456355
    },
    {
      "epoch": 3.719206546420462,
      "grad_norm": 4.8416595458984375,
      "learning_rate": 1.5335294218925388e-05,
      "loss": 0.2659485101699829,
      "memory(GiB)": 73.83,
      "step": 86810,
      "token_acc": 0.9311594202898551,
      "train_speed(iter/s)": 1.456378
    },
    {
      "epoch": 3.719420761749711,
      "grad_norm": 2.13016414642334,
      "learning_rate": 1.53304446900169e-05,
      "loss": 0.5101282119750976,
      "memory(GiB)": 73.83,
      "step": 86815,
      "token_acc": 0.9,
      "train_speed(iter/s)": 1.456382
    },
    {
      "epoch": 3.7196349770789596,
      "grad_norm": 5.698002815246582,
      "learning_rate": 1.532559578917992e-05,
      "loss": 0.3719517707824707,
      "memory(GiB)": 73.83,
      "step": 86820,
      "token_acc": 0.9064748201438849,
      "train_speed(iter/s)": 1.456387
    },
    {
      "epoch": 3.719849192408209,
      "grad_norm": 6.162614345550537,
      "learning_rate": 1.5320747516502303e-05,
      "loss": 0.34114985466003417,
      "memory(GiB)": 73.83,
      "step": 86825,
      "token_acc": 0.9341085271317829,
      "train_speed(iter/s)": 1.456397
    },
    {
      "epoch": 3.7200634077374577,
      "grad_norm": 5.307458877563477,
      "learning_rate": 1.5315899872071882e-05,
      "loss": 0.2796562433242798,
      "memory(GiB)": 73.83,
      "step": 86830,
      "token_acc": 0.9479553903345725,
      "train_speed(iter/s)": 1.456402
    },
    {
      "epoch": 3.7202776230667065,
      "grad_norm": 2.8511080741882324,
      "learning_rate": 1.5311052855976465e-05,
      "loss": 0.3198474645614624,
      "memory(GiB)": 73.83,
      "step": 86835,
      "token_acc": 0.9370629370629371,
      "train_speed(iter/s)": 1.456403
    },
    {
      "epoch": 3.7204918383959558,
      "grad_norm": 3.440875768661499,
      "learning_rate": 1.530620646830385e-05,
      "loss": 0.3567221164703369,
      "memory(GiB)": 73.83,
      "step": 86840,
      "token_acc": 0.93646408839779,
      "train_speed(iter/s)": 1.456408
    },
    {
      "epoch": 3.7207060537252046,
      "grad_norm": 2.2378268241882324,
      "learning_rate": 1.530136070914187e-05,
      "loss": 0.1804051637649536,
      "memory(GiB)": 73.83,
      "step": 86845,
      "token_acc": 0.9652509652509652,
      "train_speed(iter/s)": 1.456408
    },
    {
      "epoch": 3.7209202690544534,
      "grad_norm": 3.337488889694214,
      "learning_rate": 1.5296515578578285e-05,
      "loss": 0.42589964866638186,
      "memory(GiB)": 73.83,
      "step": 86850,
      "token_acc": 0.9154929577464789,
      "train_speed(iter/s)": 1.456411
    },
    {
      "epoch": 3.7211344843837026,
      "grad_norm": 2.234362840652466,
      "learning_rate": 1.5291671076700882e-05,
      "loss": 0.4944146633148193,
      "memory(GiB)": 73.83,
      "step": 86855,
      "token_acc": 0.8851963746223565,
      "train_speed(iter/s)": 1.45642
    },
    {
      "epoch": 3.7213486997129515,
      "grad_norm": 1.3373913764953613,
      "learning_rate": 1.5286827203597414e-05,
      "loss": 0.29716331958770753,
      "memory(GiB)": 73.83,
      "step": 86860,
      "token_acc": 0.9401408450704225,
      "train_speed(iter/s)": 1.456422
    },
    {
      "epoch": 3.7215629150422003,
      "grad_norm": 3.803710460662842,
      "learning_rate": 1.5281983959355615e-05,
      "loss": 0.34403190612792967,
      "memory(GiB)": 73.83,
      "step": 86865,
      "token_acc": 0.9143730886850153,
      "train_speed(iter/s)": 1.456425
    },
    {
      "epoch": 3.7217771303714495,
      "grad_norm": 4.220864772796631,
      "learning_rate": 1.5277141344063267e-05,
      "loss": 0.4485680103302002,
      "memory(GiB)": 73.83,
      "step": 86870,
      "token_acc": 0.9,
      "train_speed(iter/s)": 1.45643
    },
    {
      "epoch": 3.7219913457006983,
      "grad_norm": 2.3369951248168945,
      "learning_rate": 1.5272299357808072e-05,
      "loss": 0.15147160291671752,
      "memory(GiB)": 73.83,
      "step": 86875,
      "token_acc": 0.9577922077922078,
      "train_speed(iter/s)": 1.456434
    },
    {
      "epoch": 3.722205561029947,
      "grad_norm": 4.0533671379089355,
      "learning_rate": 1.5267458000677753e-05,
      "loss": 0.5562352180480957,
      "memory(GiB)": 73.83,
      "step": 86880,
      "token_acc": 0.896414342629482,
      "train_speed(iter/s)": 1.456455
    },
    {
      "epoch": 3.7224197763591964,
      "grad_norm": 4.939702033996582,
      "learning_rate": 1.5262617272759993e-05,
      "loss": 0.4288327217102051,
      "memory(GiB)": 73.83,
      "step": 86885,
      "token_acc": 0.9198473282442748,
      "train_speed(iter/s)": 1.456454
    },
    {
      "epoch": 3.722633991688445,
      "grad_norm": 2.0989797115325928,
      "learning_rate": 1.5257777174142529e-05,
      "loss": 0.24543309211730957,
      "memory(GiB)": 73.83,
      "step": 86890,
      "token_acc": 0.9437086092715232,
      "train_speed(iter/s)": 1.456457
    },
    {
      "epoch": 3.722848207017694,
      "grad_norm": 2.842198610305786,
      "learning_rate": 1.5252937704913006e-05,
      "loss": 0.4642052173614502,
      "memory(GiB)": 73.83,
      "step": 86895,
      "token_acc": 0.8898809523809523,
      "train_speed(iter/s)": 1.456464
    },
    {
      "epoch": 3.7230624223469433,
      "grad_norm": 4.787871837615967,
      "learning_rate": 1.5248098865159127e-05,
      "loss": 0.18455131053924562,
      "memory(GiB)": 73.83,
      "step": 86900,
      "token_acc": 0.9670781893004116,
      "train_speed(iter/s)": 1.456466
    },
    {
      "epoch": 3.723276637676192,
      "grad_norm": 0.5029523968696594,
      "learning_rate": 1.5243260654968539e-05,
      "loss": 0.179803204536438,
      "memory(GiB)": 73.83,
      "step": 86905,
      "token_acc": 0.9446494464944649,
      "train_speed(iter/s)": 1.456468
    },
    {
      "epoch": 3.723490853005441,
      "grad_norm": 1.3164472579956055,
      "learning_rate": 1.5238423074428888e-05,
      "loss": 0.13965196609497071,
      "memory(GiB)": 73.83,
      "step": 86910,
      "token_acc": 0.9595141700404858,
      "train_speed(iter/s)": 1.456474
    },
    {
      "epoch": 3.72370506833469,
      "grad_norm": 3.5303428173065186,
      "learning_rate": 1.5233586123627807e-05,
      "loss": 0.6621017932891846,
      "memory(GiB)": 73.83,
      "step": 86915,
      "token_acc": 0.8389610389610389,
      "train_speed(iter/s)": 1.456486
    },
    {
      "epoch": 3.723919283663939,
      "grad_norm": 1.9242618083953857,
      "learning_rate": 1.5228749802652932e-05,
      "loss": 0.48645291328430174,
      "memory(GiB)": 73.83,
      "step": 86920,
      "token_acc": 0.8876811594202898,
      "train_speed(iter/s)": 1.456487
    },
    {
      "epoch": 3.724133498993188,
      "grad_norm": 0.11569841206073761,
      "learning_rate": 1.5223914111591853e-05,
      "loss": 0.3594342231750488,
      "memory(GiB)": 73.83,
      "step": 86925,
      "token_acc": 0.9322709163346613,
      "train_speed(iter/s)": 1.456494
    },
    {
      "epoch": 3.724347714322437,
      "grad_norm": 2.152226209640503,
      "learning_rate": 1.5219079050532209e-05,
      "loss": 0.2989119291305542,
      "memory(GiB)": 73.83,
      "step": 86930,
      "token_acc": 0.942652329749104,
      "train_speed(iter/s)": 1.45649
    },
    {
      "epoch": 3.724561929651686,
      "grad_norm": 4.2679948806762695,
      "learning_rate": 1.521424461956158e-05,
      "loss": 0.32949802875518797,
      "memory(GiB)": 73.83,
      "step": 86935,
      "token_acc": 0.9151943462897526,
      "train_speed(iter/s)": 1.456492
    },
    {
      "epoch": 3.7247761449809347,
      "grad_norm": 0.6844266057014465,
      "learning_rate": 1.5209410818767539e-05,
      "loss": 0.330893874168396,
      "memory(GiB)": 73.83,
      "step": 86940,
      "token_acc": 0.9131944444444444,
      "train_speed(iter/s)": 1.4565
    },
    {
      "epoch": 3.724990360310184,
      "grad_norm": 2.5301647186279297,
      "learning_rate": 1.5204577648237656e-05,
      "loss": 0.17922425270080566,
      "memory(GiB)": 73.83,
      "step": 86945,
      "token_acc": 0.9533333333333334,
      "train_speed(iter/s)": 1.456503
    },
    {
      "epoch": 3.7252045756394327,
      "grad_norm": 5.7215256690979,
      "learning_rate": 1.519974510805947e-05,
      "loss": 0.43796358108520506,
      "memory(GiB)": 73.83,
      "step": 86950,
      "token_acc": 0.9204244031830239,
      "train_speed(iter/s)": 1.456511
    },
    {
      "epoch": 3.7254187909686816,
      "grad_norm": 0.9288546442985535,
      "learning_rate": 1.519491319832057e-05,
      "loss": 0.19836182594299318,
      "memory(GiB)": 73.83,
      "step": 86955,
      "token_acc": 0.9591836734693877,
      "train_speed(iter/s)": 1.456516
    },
    {
      "epoch": 3.725633006297931,
      "grad_norm": 3.9273626804351807,
      "learning_rate": 1.5190081919108445e-05,
      "loss": 0.2615997791290283,
      "memory(GiB)": 73.83,
      "step": 86960,
      "token_acc": 0.9463722397476341,
      "train_speed(iter/s)": 1.456517
    },
    {
      "epoch": 3.7258472216271796,
      "grad_norm": 2.673947334289551,
      "learning_rate": 1.5185251270510659e-05,
      "loss": 0.49450030326843264,
      "memory(GiB)": 73.83,
      "step": 86965,
      "token_acc": 0.8881118881118881,
      "train_speed(iter/s)": 1.456521
    },
    {
      "epoch": 3.7260614369564284,
      "grad_norm": 0.11244572699069977,
      "learning_rate": 1.5180421252614707e-05,
      "loss": 0.1952394127845764,
      "memory(GiB)": 73.83,
      "step": 86970,
      "token_acc": 0.9486166007905138,
      "train_speed(iter/s)": 1.456521
    },
    {
      "epoch": 3.7262756522856777,
      "grad_norm": 1.6918145418167114,
      "learning_rate": 1.5175591865508082e-05,
      "loss": 0.2135148286819458,
      "memory(GiB)": 73.83,
      "step": 86975,
      "token_acc": 0.9565217391304348,
      "train_speed(iter/s)": 1.456525
    },
    {
      "epoch": 3.7264898676149265,
      "grad_norm": 3.082714796066284,
      "learning_rate": 1.5170763109278285e-05,
      "loss": 0.44210500717163087,
      "memory(GiB)": 73.83,
      "step": 86980,
      "token_acc": 0.9083969465648855,
      "train_speed(iter/s)": 1.456537
    },
    {
      "epoch": 3.7267040829441753,
      "grad_norm": 2.2541584968566895,
      "learning_rate": 1.5165934984012769e-05,
      "loss": 0.23516664505004883,
      "memory(GiB)": 73.83,
      "step": 86985,
      "token_acc": 0.9552238805970149,
      "train_speed(iter/s)": 1.456536
    },
    {
      "epoch": 3.7269182982734246,
      "grad_norm": 5.646673679351807,
      "learning_rate": 1.5161107489799032e-05,
      "loss": 0.5169890403747559,
      "memory(GiB)": 73.83,
      "step": 86990,
      "token_acc": 0.8936170212765957,
      "train_speed(iter/s)": 1.456539
    },
    {
      "epoch": 3.7271325136026734,
      "grad_norm": 1.6392720937728882,
      "learning_rate": 1.5156280626724512e-05,
      "loss": 0.20703017711639404,
      "memory(GiB)": 73.83,
      "step": 86995,
      "token_acc": 0.9347079037800687,
      "train_speed(iter/s)": 1.45655
    },
    {
      "epoch": 3.727346728931922,
      "grad_norm": 1.1582248210906982,
      "learning_rate": 1.5151454394876658e-05,
      "loss": 0.18393789529800414,
      "memory(GiB)": 73.83,
      "step": 87000,
      "token_acc": 0.9686274509803922,
      "train_speed(iter/s)": 1.45655
    },
    {
      "epoch": 3.727346728931922,
      "eval_loss": 2.5674145221710205,
      "eval_runtime": 11.4436,
      "eval_samples_per_second": 8.738,
      "eval_steps_per_second": 8.738,
      "eval_token_acc": 0.45861601085481685,
      "step": 87000
    },
    {
      "epoch": 3.7275609442611715,
      "grad_norm": 11.885425567626953,
      "learning_rate": 1.5146628794342898e-05,
      "loss": 0.185082745552063,
      "memory(GiB)": 73.83,
      "step": 87005,
      "token_acc": 0.6019417475728155,
      "train_speed(iter/s)": 1.456253
    },
    {
      "epoch": 3.7277751595904203,
      "grad_norm": 1.645896315574646,
      "learning_rate": 1.5141803825210637e-05,
      "loss": 0.4032104015350342,
      "memory(GiB)": 73.83,
      "step": 87010,
      "token_acc": 0.9,
      "train_speed(iter/s)": 1.456255
    },
    {
      "epoch": 3.727989374919669,
      "grad_norm": 9.075528144836426,
      "learning_rate": 1.5136979487567315e-05,
      "loss": 0.5876794815063476,
      "memory(GiB)": 73.83,
      "step": 87015,
      "token_acc": 0.89,
      "train_speed(iter/s)": 1.456275
    },
    {
      "epoch": 3.7282035902489183,
      "grad_norm": 4.053476810455322,
      "learning_rate": 1.5132155781500313e-05,
      "loss": 0.33632869720458985,
      "memory(GiB)": 73.83,
      "step": 87020,
      "token_acc": 0.9180327868852459,
      "train_speed(iter/s)": 1.456284
    },
    {
      "epoch": 3.728417805578167,
      "grad_norm": 1.9380967617034912,
      "learning_rate": 1.5127332707097013e-05,
      "loss": 0.28337917327880857,
      "memory(GiB)": 73.83,
      "step": 87025,
      "token_acc": 0.9409282700421941,
      "train_speed(iter/s)": 1.456292
    },
    {
      "epoch": 3.7286320209074164,
      "grad_norm": 3.6581881046295166,
      "learning_rate": 1.5122510264444784e-05,
      "loss": 0.30681238174438474,
      "memory(GiB)": 73.83,
      "step": 87030,
      "token_acc": 0.9098360655737705,
      "train_speed(iter/s)": 1.456305
    },
    {
      "epoch": 3.7288462362366652,
      "grad_norm": 4.9294633865356445,
      "learning_rate": 1.5117688453631019e-05,
      "loss": 0.34650378227233886,
      "memory(GiB)": 73.83,
      "step": 87035,
      "token_acc": 0.9270516717325228,
      "train_speed(iter/s)": 1.456308
    },
    {
      "epoch": 3.729060451565914,
      "grad_norm": 3.9521586894989014,
      "learning_rate": 1.5112867274743026e-05,
      "loss": 0.2613146066665649,
      "memory(GiB)": 73.83,
      "step": 87040,
      "token_acc": 0.9496644295302014,
      "train_speed(iter/s)": 1.456318
    },
    {
      "epoch": 3.7292746668951633,
      "grad_norm": 2.7984721660614014,
      "learning_rate": 1.5108046727868186e-05,
      "loss": 0.5060186386108398,
      "memory(GiB)": 73.83,
      "step": 87045,
      "token_acc": 0.8907849829351536,
      "train_speed(iter/s)": 1.456325
    },
    {
      "epoch": 3.729488882224412,
      "grad_norm": 2.644829034805298,
      "learning_rate": 1.5103226813093813e-05,
      "loss": 0.38149275779724123,
      "memory(GiB)": 73.83,
      "step": 87050,
      "token_acc": 0.9224376731301939,
      "train_speed(iter/s)": 1.456323
    },
    {
      "epoch": 3.729703097553661,
      "grad_norm": 3.055943012237549,
      "learning_rate": 1.5098407530507225e-05,
      "loss": 0.33494508266448975,
      "memory(GiB)": 73.83,
      "step": 87055,
      "token_acc": 0.9266409266409267,
      "train_speed(iter/s)": 1.456324
    },
    {
      "epoch": 3.72991731288291,
      "grad_norm": 5.584092140197754,
      "learning_rate": 1.509358888019572e-05,
      "loss": 0.21997852325439454,
      "memory(GiB)": 73.83,
      "step": 87060,
      "token_acc": 0.9537366548042705,
      "train_speed(iter/s)": 1.456323
    },
    {
      "epoch": 3.730131528212159,
      "grad_norm": 4.721549034118652,
      "learning_rate": 1.5088770862246599e-05,
      "loss": 0.7990368366241455,
      "memory(GiB)": 73.83,
      "step": 87065,
      "token_acc": 0.8189189189189189,
      "train_speed(iter/s)": 1.456325
    },
    {
      "epoch": 3.730345743541408,
      "grad_norm": 7.216846466064453,
      "learning_rate": 1.508395347674713e-05,
      "loss": 0.5414923667907715,
      "memory(GiB)": 73.83,
      "step": 87070,
      "token_acc": 0.9352226720647774,
      "train_speed(iter/s)": 1.456337
    },
    {
      "epoch": 3.730559958870657,
      "grad_norm": 2.8067128658294678,
      "learning_rate": 1.507913672378461e-05,
      "loss": 0.6127458572387695,
      "memory(GiB)": 73.83,
      "step": 87075,
      "token_acc": 0.8558282208588958,
      "train_speed(iter/s)": 1.456342
    },
    {
      "epoch": 3.730774174199906,
      "grad_norm": 3.001377820968628,
      "learning_rate": 1.507432060344629e-05,
      "loss": 0.33167123794555664,
      "memory(GiB)": 73.83,
      "step": 87080,
      "token_acc": 0.9248366013071896,
      "train_speed(iter/s)": 1.456341
    },
    {
      "epoch": 3.7309883895291547,
      "grad_norm": 1.926758885383606,
      "learning_rate": 1.506950511581941e-05,
      "loss": 0.2570651531219482,
      "memory(GiB)": 73.83,
      "step": 87085,
      "token_acc": 0.9391304347826087,
      "train_speed(iter/s)": 1.456346
    },
    {
      "epoch": 3.731202604858404,
      "grad_norm": 2.334047794342041,
      "learning_rate": 1.5064690260991215e-05,
      "loss": 0.49306364059448243,
      "memory(GiB)": 73.83,
      "step": 87090,
      "token_acc": 0.9181494661921709,
      "train_speed(iter/s)": 1.456348
    },
    {
      "epoch": 3.7314168201876527,
      "grad_norm": 3.482724905014038,
      "learning_rate": 1.5059876039048914e-05,
      "loss": 0.33318586349487306,
      "memory(GiB)": 73.83,
      "step": 87095,
      "token_acc": 0.9381443298969072,
      "train_speed(iter/s)": 1.456349
    },
    {
      "epoch": 3.7316310355169016,
      "grad_norm": 4.061036109924316,
      "learning_rate": 1.5055062450079749e-05,
      "loss": 0.56529221534729,
      "memory(GiB)": 73.83,
      "step": 87100,
      "token_acc": 0.9023569023569024,
      "train_speed(iter/s)": 1.456349
    },
    {
      "epoch": 3.731845250846151,
      "grad_norm": 3.7960448265075684,
      "learning_rate": 1.5050249494170893e-05,
      "loss": 0.4047727108001709,
      "memory(GiB)": 73.83,
      "step": 87105,
      "token_acc": 0.9137931034482759,
      "train_speed(iter/s)": 1.456352
    },
    {
      "epoch": 3.7320594661753996,
      "grad_norm": 4.548225402832031,
      "learning_rate": 1.5045437171409571e-05,
      "loss": 0.5714143753051758,
      "memory(GiB)": 73.83,
      "step": 87110,
      "token_acc": 0.8806584362139918,
      "train_speed(iter/s)": 1.456356
    },
    {
      "epoch": 3.7322736815046484,
      "grad_norm": 3.964718818664551,
      "learning_rate": 1.5040625481882942e-05,
      "loss": 0.4020097255706787,
      "memory(GiB)": 73.83,
      "step": 87115,
      "token_acc": 0.915129151291513,
      "train_speed(iter/s)": 1.456354
    },
    {
      "epoch": 3.7324878968338977,
      "grad_norm": 2.6830694675445557,
      "learning_rate": 1.5035814425678174e-05,
      "loss": 0.5679525852203369,
      "memory(GiB)": 73.83,
      "step": 87120,
      "token_acc": 0.8864468864468864,
      "train_speed(iter/s)": 1.456365
    },
    {
      "epoch": 3.7327021121631465,
      "grad_norm": 2.861301898956299,
      "learning_rate": 1.5031004002882431e-05,
      "loss": 0.2845446109771729,
      "memory(GiB)": 73.83,
      "step": 87125,
      "token_acc": 0.9395017793594306,
      "train_speed(iter/s)": 1.456369
    },
    {
      "epoch": 3.7329163274923953,
      "grad_norm": 3.646801233291626,
      "learning_rate": 1.502619421358284e-05,
      "loss": 0.29165091514587405,
      "memory(GiB)": 73.83,
      "step": 87130,
      "token_acc": 0.9228070175438596,
      "train_speed(iter/s)": 1.456375
    },
    {
      "epoch": 3.7331305428216446,
      "grad_norm": 2.69575572013855,
      "learning_rate": 1.502138505786656e-05,
      "loss": 0.310504674911499,
      "memory(GiB)": 73.83,
      "step": 87135,
      "token_acc": 0.9417808219178082,
      "train_speed(iter/s)": 1.456381
    },
    {
      "epoch": 3.7333447581508934,
      "grad_norm": 3.3474133014678955,
      "learning_rate": 1.5016576535820708e-05,
      "loss": 0.4947092056274414,
      "memory(GiB)": 73.83,
      "step": 87140,
      "token_acc": 0.9301470588235294,
      "train_speed(iter/s)": 1.45639
    },
    {
      "epoch": 3.733558973480142,
      "grad_norm": 3.502133846282959,
      "learning_rate": 1.5011768647532382e-05,
      "loss": 0.18060071468353273,
      "memory(GiB)": 73.83,
      "step": 87145,
      "token_acc": 0.9555555555555556,
      "train_speed(iter/s)": 1.456399
    },
    {
      "epoch": 3.7337731888093915,
      "grad_norm": 2.918968915939331,
      "learning_rate": 1.5006961393088692e-05,
      "loss": 0.45080127716064455,
      "memory(GiB)": 73.83,
      "step": 87150,
      "token_acc": 0.9087719298245615,
      "train_speed(iter/s)": 1.45641
    },
    {
      "epoch": 3.7339874041386403,
      "grad_norm": 5.782954216003418,
      "learning_rate": 1.5002154772576709e-05,
      "loss": 0.6122774124145508,
      "memory(GiB)": 73.83,
      "step": 87155,
      "token_acc": 0.8435114503816794,
      "train_speed(iter/s)": 1.45641
    },
    {
      "epoch": 3.734201619467889,
      "grad_norm": 3.387338876724243,
      "learning_rate": 1.4997348786083537e-05,
      "loss": 0.35100018978118896,
      "memory(GiB)": 73.83,
      "step": 87160,
      "token_acc": 0.9281045751633987,
      "train_speed(iter/s)": 1.456412
    },
    {
      "epoch": 3.7344158347971383,
      "grad_norm": 1.893446922302246,
      "learning_rate": 1.4992543433696228e-05,
      "loss": 0.33830740451812746,
      "memory(GiB)": 73.83,
      "step": 87165,
      "token_acc": 0.9252336448598131,
      "train_speed(iter/s)": 1.456421
    },
    {
      "epoch": 3.734630050126387,
      "grad_norm": 3.036210298538208,
      "learning_rate": 1.4987738715501832e-05,
      "loss": 0.7033956050872803,
      "memory(GiB)": 73.83,
      "step": 87170,
      "token_acc": 0.8467336683417085,
      "train_speed(iter/s)": 1.456429
    },
    {
      "epoch": 3.734844265455636,
      "grad_norm": 5.619747161865234,
      "learning_rate": 1.4982934631587391e-05,
      "loss": 0.4179225444793701,
      "memory(GiB)": 73.83,
      "step": 87175,
      "token_acc": 0.9097472924187726,
      "train_speed(iter/s)": 1.45643
    },
    {
      "epoch": 3.7350584807848852,
      "grad_norm": 4.049317836761475,
      "learning_rate": 1.4978131182039928e-05,
      "loss": 0.395086669921875,
      "memory(GiB)": 73.83,
      "step": 87180,
      "token_acc": 0.9230769230769231,
      "train_speed(iter/s)": 1.456432
    },
    {
      "epoch": 3.735272696114134,
      "grad_norm": 3.407586097717285,
      "learning_rate": 1.4973328366946471e-05,
      "loss": 0.3336267232894897,
      "memory(GiB)": 73.83,
      "step": 87185,
      "token_acc": 0.9283387622149837,
      "train_speed(iter/s)": 1.456436
    },
    {
      "epoch": 3.735486911443383,
      "grad_norm": 2.577601671218872,
      "learning_rate": 1.4968526186394039e-05,
      "loss": 0.3324448108673096,
      "memory(GiB)": 73.83,
      "step": 87190,
      "token_acc": 0.9360902255639098,
      "train_speed(iter/s)": 1.456439
    },
    {
      "epoch": 3.735701126772632,
      "grad_norm": 5.352195739746094,
      "learning_rate": 1.4963724640469622e-05,
      "loss": 0.2483515977859497,
      "memory(GiB)": 73.83,
      "step": 87195,
      "token_acc": 0.9462809917355371,
      "train_speed(iter/s)": 1.456438
    },
    {
      "epoch": 3.735915342101881,
      "grad_norm": 6.0158281326293945,
      "learning_rate": 1.4958923729260198e-05,
      "loss": 0.31373291015625,
      "memory(GiB)": 73.83,
      "step": 87200,
      "token_acc": 0.9532710280373832,
      "train_speed(iter/s)": 1.456452
    },
    {
      "epoch": 3.7361295574311297,
      "grad_norm": 1.2476273775100708,
      "learning_rate": 1.4954123452852742e-05,
      "loss": 0.28197782039642333,
      "memory(GiB)": 73.83,
      "step": 87205,
      "token_acc": 0.9431137724550899,
      "train_speed(iter/s)": 1.456458
    },
    {
      "epoch": 3.736343772760379,
      "grad_norm": 2.7314748764038086,
      "learning_rate": 1.4949323811334214e-05,
      "loss": 0.3397878885269165,
      "memory(GiB)": 73.83,
      "step": 87210,
      "token_acc": 0.9115384615384615,
      "train_speed(iter/s)": 1.456473
    },
    {
      "epoch": 3.736557988089628,
      "grad_norm": 2.698343515396118,
      "learning_rate": 1.4944524804791554e-05,
      "loss": 0.22403936386108397,
      "memory(GiB)": 73.83,
      "step": 87215,
      "token_acc": 0.9411764705882353,
      "train_speed(iter/s)": 1.456478
    },
    {
      "epoch": 3.7367722034188766,
      "grad_norm": 4.075242519378662,
      "learning_rate": 1.4939726433311723e-05,
      "loss": 0.48752365112304685,
      "memory(GiB)": 73.83,
      "step": 87220,
      "token_acc": 0.8954248366013072,
      "train_speed(iter/s)": 1.456481
    },
    {
      "epoch": 3.736986418748126,
      "grad_norm": 0.6744279861450195,
      "learning_rate": 1.4934928696981636e-05,
      "loss": 0.3445396661758423,
      "memory(GiB)": 73.83,
      "step": 87225,
      "token_acc": 0.9323843416370107,
      "train_speed(iter/s)": 1.456487
    },
    {
      "epoch": 3.7372006340773747,
      "grad_norm": 4.84022855758667,
      "learning_rate": 1.4930131595888213e-05,
      "loss": 0.48425922393798826,
      "memory(GiB)": 73.83,
      "step": 87230,
      "token_acc": 0.903114186851211,
      "train_speed(iter/s)": 1.456493
    },
    {
      "epoch": 3.7374148494066235,
      "grad_norm": 2.2798514366149902,
      "learning_rate": 1.4925335130118357e-05,
      "loss": 0.4832958698272705,
      "memory(GiB)": 73.83,
      "step": 87235,
      "token_acc": 0.8864468864468864,
      "train_speed(iter/s)": 1.456492
    },
    {
      "epoch": 3.7376290647358728,
      "grad_norm": 1.8397743701934814,
      "learning_rate": 1.4920539299758935e-05,
      "loss": 0.1661761522293091,
      "memory(GiB)": 73.83,
      "step": 87240,
      "token_acc": 0.9697802197802198,
      "train_speed(iter/s)": 1.456502
    },
    {
      "epoch": 3.7378432800651216,
      "grad_norm": 4.958127975463867,
      "learning_rate": 1.4915744104896872e-05,
      "loss": 0.32421488761901857,
      "memory(GiB)": 73.83,
      "step": 87245,
      "token_acc": 0.9481132075471698,
      "train_speed(iter/s)": 1.456513
    },
    {
      "epoch": 3.7380574953943704,
      "grad_norm": 4.178220748901367,
      "learning_rate": 1.4910949545619013e-05,
      "loss": 0.33275089263916013,
      "memory(GiB)": 73.83,
      "step": 87250,
      "token_acc": 0.9273356401384083,
      "train_speed(iter/s)": 1.456517
    },
    {
      "epoch": 3.7382717107236196,
      "grad_norm": 2.487894058227539,
      "learning_rate": 1.4906155622012202e-05,
      "loss": 0.23456521034240724,
      "memory(GiB)": 73.83,
      "step": 87255,
      "token_acc": 0.955719557195572,
      "train_speed(iter/s)": 1.456513
    },
    {
      "epoch": 3.7384859260528684,
      "grad_norm": 3.865143299102783,
      "learning_rate": 1.490136233416332e-05,
      "loss": 0.3065745115280151,
      "memory(GiB)": 73.83,
      "step": 87260,
      "token_acc": 0.936,
      "train_speed(iter/s)": 1.456527
    },
    {
      "epoch": 3.7387001413821173,
      "grad_norm": 3.905266761779785,
      "learning_rate": 1.489656968215919e-05,
      "loss": 0.3347182750701904,
      "memory(GiB)": 73.83,
      "step": 87265,
      "token_acc": 0.9174041297935103,
      "train_speed(iter/s)": 1.456528
    },
    {
      "epoch": 3.7389143567113665,
      "grad_norm": 2.640137195587158,
      "learning_rate": 1.4891777666086609e-05,
      "loss": 0.4570337772369385,
      "memory(GiB)": 73.83,
      "step": 87270,
      "token_acc": 0.9090909090909091,
      "train_speed(iter/s)": 1.456538
    },
    {
      "epoch": 3.7391285720406153,
      "grad_norm": 2.532252311706543,
      "learning_rate": 1.4886986286032423e-05,
      "loss": 0.3997419118881226,
      "memory(GiB)": 73.83,
      "step": 87275,
      "token_acc": 0.8920634920634921,
      "train_speed(iter/s)": 1.456542
    },
    {
      "epoch": 3.739342787369864,
      "grad_norm": 4.582937240600586,
      "learning_rate": 1.4882195542083421e-05,
      "loss": 0.4792358875274658,
      "memory(GiB)": 73.83,
      "step": 87280,
      "token_acc": 0.9067524115755627,
      "train_speed(iter/s)": 1.456546
    },
    {
      "epoch": 3.7395570026991134,
      "grad_norm": 3.110398292541504,
      "learning_rate": 1.487740543432639e-05,
      "loss": 0.12302658557891846,
      "memory(GiB)": 73.83,
      "step": 87285,
      "token_acc": 0.9631147540983607,
      "train_speed(iter/s)": 1.456558
    },
    {
      "epoch": 3.739771218028362,
      "grad_norm": 4.628659248352051,
      "learning_rate": 1.4872615962848113e-05,
      "loss": 0.28327670097351076,
      "memory(GiB)": 73.83,
      "step": 87290,
      "token_acc": 0.9439252336448598,
      "train_speed(iter/s)": 1.456565
    },
    {
      "epoch": 3.739985433357611,
      "grad_norm": 4.729551792144775,
      "learning_rate": 1.4867827127735346e-05,
      "loss": 0.6145378589630127,
      "memory(GiB)": 73.83,
      "step": 87295,
      "token_acc": 0.8790035587188612,
      "train_speed(iter/s)": 1.456567
    },
    {
      "epoch": 3.7401996486868603,
      "grad_norm": 0.22413161396980286,
      "learning_rate": 1.486303892907483e-05,
      "loss": 0.5575769901275635,
      "memory(GiB)": 73.83,
      "step": 87300,
      "token_acc": 0.8876811594202898,
      "train_speed(iter/s)": 1.456564
    },
    {
      "epoch": 3.740413864016109,
      "grad_norm": 5.580371856689453,
      "learning_rate": 1.485825136695334e-05,
      "loss": 0.3409864902496338,
      "memory(GiB)": 73.83,
      "step": 87305,
      "token_acc": 0.9264214046822743,
      "train_speed(iter/s)": 1.456573
    },
    {
      "epoch": 3.740628079345358,
      "grad_norm": 1.6054210662841797,
      "learning_rate": 1.4853464441457593e-05,
      "loss": 0.4501772403717041,
      "memory(GiB)": 73.83,
      "step": 87310,
      "token_acc": 0.9096573208722741,
      "train_speed(iter/s)": 1.456576
    },
    {
      "epoch": 3.740842294674607,
      "grad_norm": 1.5612330436706543,
      "learning_rate": 1.4848678152674311e-05,
      "loss": 0.32308733463287354,
      "memory(GiB)": 73.83,
      "step": 87315,
      "token_acc": 0.9318181818181818,
      "train_speed(iter/s)": 1.456577
    },
    {
      "epoch": 3.741056510003856,
      "grad_norm": 7.6802754402160645,
      "learning_rate": 1.4843892500690193e-05,
      "loss": 0.3727866172790527,
      "memory(GiB)": 73.83,
      "step": 87320,
      "token_acc": 0.9188191881918819,
      "train_speed(iter/s)": 1.456592
    },
    {
      "epoch": 3.741270725333105,
      "grad_norm": 2.3323047161102295,
      "learning_rate": 1.483910748559193e-05,
      "loss": 0.3394496440887451,
      "memory(GiB)": 73.83,
      "step": 87325,
      "token_acc": 0.9163636363636364,
      "train_speed(iter/s)": 1.456595
    },
    {
      "epoch": 3.741484940662354,
      "grad_norm": 1.8474584817886353,
      "learning_rate": 1.4834323107466218e-05,
      "loss": 0.3275322198867798,
      "memory(GiB)": 73.83,
      "step": 87330,
      "token_acc": 0.9442815249266863,
      "train_speed(iter/s)": 1.45661
    },
    {
      "epoch": 3.741699155991603,
      "grad_norm": 3.070931911468506,
      "learning_rate": 1.4829539366399747e-05,
      "loss": 0.23812482357025147,
      "memory(GiB)": 73.83,
      "step": 87335,
      "token_acc": 0.9482758620689655,
      "train_speed(iter/s)": 1.456608
    },
    {
      "epoch": 3.7419133713208517,
      "grad_norm": 2.195324420928955,
      "learning_rate": 1.4824756262479161e-05,
      "loss": 0.37285771369934084,
      "memory(GiB)": 73.83,
      "step": 87340,
      "token_acc": 0.9155844155844156,
      "train_speed(iter/s)": 1.456611
    },
    {
      "epoch": 3.742127586650101,
      "grad_norm": 3.356989622116089,
      "learning_rate": 1.4819973795791115e-05,
      "loss": 0.5336360454559326,
      "memory(GiB)": 73.83,
      "step": 87345,
      "token_acc": 0.879245283018868,
      "train_speed(iter/s)": 1.456623
    },
    {
      "epoch": 3.7423418019793497,
      "grad_norm": 1.6469695568084717,
      "learning_rate": 1.4815191966422243e-05,
      "loss": 0.4333303451538086,
      "memory(GiB)": 73.83,
      "step": 87350,
      "token_acc": 0.9125874125874126,
      "train_speed(iter/s)": 1.456637
    },
    {
      "epoch": 3.7425560173085985,
      "grad_norm": 3.4765286445617676,
      "learning_rate": 1.4810410774459171e-05,
      "loss": 0.47931804656982424,
      "memory(GiB)": 73.83,
      "step": 87355,
      "token_acc": 0.8923611111111112,
      "train_speed(iter/s)": 1.45664
    },
    {
      "epoch": 3.742770232637848,
      "grad_norm": 1.6084353923797607,
      "learning_rate": 1.4805630219988508e-05,
      "loss": 0.5836724758148193,
      "memory(GiB)": 73.83,
      "step": 87360,
      "token_acc": 0.8625954198473282,
      "train_speed(iter/s)": 1.456644
    },
    {
      "epoch": 3.7429844479670966,
      "grad_norm": 2.933058738708496,
      "learning_rate": 1.4800850303096885e-05,
      "loss": 0.34665813446044924,
      "memory(GiB)": 73.83,
      "step": 87365,
      "token_acc": 0.9225589225589226,
      "train_speed(iter/s)": 1.456645
    },
    {
      "epoch": 3.7431986632963454,
      "grad_norm": 1.6410505771636963,
      "learning_rate": 1.4796071023870872e-05,
      "loss": 0.4794106960296631,
      "memory(GiB)": 73.83,
      "step": 87370,
      "token_acc": 0.9052287581699346,
      "train_speed(iter/s)": 1.456644
    },
    {
      "epoch": 3.7434128786255947,
      "grad_norm": 2.9460997581481934,
      "learning_rate": 1.4791292382397064e-05,
      "loss": 0.6299489974975586,
      "memory(GiB)": 73.83,
      "step": 87375,
      "token_acc": 0.8680555555555556,
      "train_speed(iter/s)": 1.456657
    },
    {
      "epoch": 3.7436270939548435,
      "grad_norm": 4.312121391296387,
      "learning_rate": 1.4786514378762017e-05,
      "loss": 0.2077418804168701,
      "memory(GiB)": 73.83,
      "step": 87380,
      "token_acc": 0.9527027027027027,
      "train_speed(iter/s)": 1.456658
    },
    {
      "epoch": 3.7438413092840923,
      "grad_norm": 1.4595903158187866,
      "learning_rate": 1.4781737013052282e-05,
      "loss": 0.21382105350494385,
      "memory(GiB)": 73.83,
      "step": 87385,
      "token_acc": 0.9409282700421941,
      "train_speed(iter/s)": 1.456659
    },
    {
      "epoch": 3.7440555246133416,
      "grad_norm": 1.6657493114471436,
      "learning_rate": 1.4776960285354436e-05,
      "loss": 0.16623919010162352,
      "memory(GiB)": 73.83,
      "step": 87390,
      "token_acc": 0.9766666666666667,
      "train_speed(iter/s)": 1.456668
    },
    {
      "epoch": 3.7442697399425904,
      "grad_norm": 6.433486461639404,
      "learning_rate": 1.4772184195754996e-05,
      "loss": 0.3977036476135254,
      "memory(GiB)": 73.83,
      "step": 87395,
      "token_acc": 0.9081272084805654,
      "train_speed(iter/s)": 1.456667
    },
    {
      "epoch": 3.744483955271839,
      "grad_norm": 3.141331434249878,
      "learning_rate": 1.4767408744340466e-05,
      "loss": 0.3634836673736572,
      "memory(GiB)": 73.83,
      "step": 87400,
      "token_acc": 0.9267515923566879,
      "train_speed(iter/s)": 1.456665
    },
    {
      "epoch": 3.7446981706010884,
      "grad_norm": 3.0173492431640625,
      "learning_rate": 1.4762633931197395e-05,
      "loss": 0.4932608127593994,
      "memory(GiB)": 73.83,
      "step": 87405,
      "token_acc": 0.9013605442176871,
      "train_speed(iter/s)": 1.456672
    },
    {
      "epoch": 3.7449123859303373,
      "grad_norm": 0.7075473666191101,
      "learning_rate": 1.4757859756412268e-05,
      "loss": 0.3787652254104614,
      "memory(GiB)": 73.83,
      "step": 87410,
      "token_acc": 0.9247311827956989,
      "train_speed(iter/s)": 1.456683
    },
    {
      "epoch": 3.745126601259586,
      "grad_norm": 2.852567672729492,
      "learning_rate": 1.475308622007155e-05,
      "loss": 0.27691450119018557,
      "memory(GiB)": 73.83,
      "step": 87415,
      "token_acc": 0.9501915708812261,
      "train_speed(iter/s)": 1.456687
    },
    {
      "epoch": 3.7453408165888353,
      "grad_norm": 5.574461936950684,
      "learning_rate": 1.4748313322261758e-05,
      "loss": 0.372035551071167,
      "memory(GiB)": 73.83,
      "step": 87420,
      "token_acc": 0.9090909090909091,
      "train_speed(iter/s)": 1.456692
    },
    {
      "epoch": 3.745555031918084,
      "grad_norm": 4.580835342407227,
      "learning_rate": 1.4743541063069339e-05,
      "loss": 0.4801356792449951,
      "memory(GiB)": 73.83,
      "step": 87425,
      "token_acc": 0.8920863309352518,
      "train_speed(iter/s)": 1.456697
    },
    {
      "epoch": 3.745769247247333,
      "grad_norm": 3.8432493209838867,
      "learning_rate": 1.4738769442580746e-05,
      "loss": 0.34275381565093993,
      "memory(GiB)": 73.83,
      "step": 87430,
      "token_acc": 0.9382352941176471,
      "train_speed(iter/s)": 1.456698
    },
    {
      "epoch": 3.745983462576582,
      "grad_norm": 3.273590564727783,
      "learning_rate": 1.4733998460882425e-05,
      "loss": 0.3120319366455078,
      "memory(GiB)": 73.83,
      "step": 87435,
      "token_acc": 0.9239766081871345,
      "train_speed(iter/s)": 1.456699
    },
    {
      "epoch": 3.746197677905831,
      "grad_norm": 4.257087230682373,
      "learning_rate": 1.4729228118060807e-05,
      "loss": 0.24862442016601563,
      "memory(GiB)": 73.83,
      "step": 87440,
      "token_acc": 0.9214285714285714,
      "train_speed(iter/s)": 1.456706
    },
    {
      "epoch": 3.74641189323508,
      "grad_norm": 3.450883150100708,
      "learning_rate": 1.4724458414202285e-05,
      "loss": 0.20722591876983643,
      "memory(GiB)": 73.83,
      "step": 87445,
      "token_acc": 0.9490445859872612,
      "train_speed(iter/s)": 1.456712
    },
    {
      "epoch": 3.746626108564329,
      "grad_norm": 2.3846495151519775,
      "learning_rate": 1.4719689349393312e-05,
      "loss": 0.3172950744628906,
      "memory(GiB)": 73.83,
      "step": 87450,
      "token_acc": 0.9236641221374046,
      "train_speed(iter/s)": 1.456714
    },
    {
      "epoch": 3.746840323893578,
      "grad_norm": 4.6452555656433105,
      "learning_rate": 1.4714920923720254e-05,
      "loss": 0.3291806221008301,
      "memory(GiB)": 73.83,
      "step": 87455,
      "token_acc": 0.9352750809061489,
      "train_speed(iter/s)": 1.456717
    },
    {
      "epoch": 3.7470545392228267,
      "grad_norm": 6.431586265563965,
      "learning_rate": 1.471015313726951e-05,
      "loss": 0.31506564617156985,
      "memory(GiB)": 73.83,
      "step": 87460,
      "token_acc": 0.9319148936170213,
      "train_speed(iter/s)": 1.45672
    },
    {
      "epoch": 3.747268754552076,
      "grad_norm": 4.447630405426025,
      "learning_rate": 1.4705385990127446e-05,
      "loss": 0.11045809984207153,
      "memory(GiB)": 73.83,
      "step": 87465,
      "token_acc": 0.9702970297029703,
      "train_speed(iter/s)": 1.456726
    },
    {
      "epoch": 3.747482969881325,
      "grad_norm": 1.1629797220230103,
      "learning_rate": 1.4700619482380406e-05,
      "loss": 0.23867359161376953,
      "memory(GiB)": 73.83,
      "step": 87470,
      "token_acc": 0.9396825396825397,
      "train_speed(iter/s)": 1.456734
    },
    {
      "epoch": 3.7476971852105736,
      "grad_norm": 2.6955411434173584,
      "learning_rate": 1.4695853614114763e-05,
      "loss": 0.24375741481781005,
      "memory(GiB)": 73.83,
      "step": 87475,
      "token_acc": 0.9330985915492958,
      "train_speed(iter/s)": 1.456733
    },
    {
      "epoch": 3.747911400539823,
      "grad_norm": 0.7290510535240173,
      "learning_rate": 1.4691088385416857e-05,
      "loss": 0.08554428219795226,
      "memory(GiB)": 73.83,
      "step": 87480,
      "token_acc": 0.9883268482490273,
      "train_speed(iter/s)": 1.456745
    },
    {
      "epoch": 3.7481256158690717,
      "grad_norm": 0.2929089665412903,
      "learning_rate": 1.4686323796373014e-05,
      "loss": 0.3663517475128174,
      "memory(GiB)": 73.83,
      "step": 87485,
      "token_acc": 0.9330543933054394,
      "train_speed(iter/s)": 1.45675
    },
    {
      "epoch": 3.7483398311983205,
      "grad_norm": 3.5109753608703613,
      "learning_rate": 1.4681559847069537e-05,
      "loss": 0.3950511932373047,
      "memory(GiB)": 73.83,
      "step": 87490,
      "token_acc": 0.9305993690851735,
      "train_speed(iter/s)": 1.456761
    },
    {
      "epoch": 3.7485540465275697,
      "grad_norm": 3.5530755519866943,
      "learning_rate": 1.467679653759274e-05,
      "loss": 0.3169077157974243,
      "memory(GiB)": 73.83,
      "step": 87495,
      "token_acc": 0.9429824561403509,
      "train_speed(iter/s)": 1.456763
    },
    {
      "epoch": 3.7487682618568186,
      "grad_norm": 0.23445384204387665,
      "learning_rate": 1.4672033868028907e-05,
      "loss": 0.08226295709609985,
      "memory(GiB)": 73.83,
      "step": 87500,
      "token_acc": 0.9815384615384616,
      "train_speed(iter/s)": 1.456766
    },
    {
      "epoch": 3.7487682618568186,
      "eval_loss": 2.355958938598633,
      "eval_runtime": 10.9104,
      "eval_samples_per_second": 9.166,
      "eval_steps_per_second": 9.166,
      "eval_token_acc": 0.468586387434555,
      "step": 87500
    },
    {
      "epoch": 3.7489824771860674,
      "grad_norm": 4.302363395690918,
      "learning_rate": 1.4667271838464303e-05,
      "loss": 0.6356454372406006,
      "memory(GiB)": 73.83,
      "step": 87505,
      "token_acc": 0.581042654028436,
      "train_speed(iter/s)": 1.45648
    },
    {
      "epoch": 3.7491966925153166,
      "grad_norm": 3.457827091217041,
      "learning_rate": 1.4662510448985234e-05,
      "loss": 0.5029096603393555,
      "memory(GiB)": 73.83,
      "step": 87510,
      "token_acc": 0.8931297709923665,
      "train_speed(iter/s)": 1.456487
    },
    {
      "epoch": 3.7494109078445654,
      "grad_norm": 8.956269264221191,
      "learning_rate": 1.4657749699677937e-05,
      "loss": 0.40855989456176756,
      "memory(GiB)": 73.83,
      "step": 87515,
      "token_acc": 0.9194139194139194,
      "train_speed(iter/s)": 1.456486
    },
    {
      "epoch": 3.7496251231738142,
      "grad_norm": 3.3349664211273193,
      "learning_rate": 1.4652989590628658e-05,
      "loss": 0.5076042652130127,
      "memory(GiB)": 73.83,
      "step": 87520,
      "token_acc": 0.9016949152542373,
      "train_speed(iter/s)": 1.456495
    },
    {
      "epoch": 3.7498393385030635,
      "grad_norm": 2.267692804336548,
      "learning_rate": 1.4648230121923629e-05,
      "loss": 0.23217968940734862,
      "memory(GiB)": 73.83,
      "step": 87525,
      "token_acc": 0.926829268292683,
      "train_speed(iter/s)": 1.456501
    },
    {
      "epoch": 3.7500535538323123,
      "grad_norm": 0.03194371610879898,
      "learning_rate": 1.4643471293649059e-05,
      "loss": 0.15650721788406372,
      "memory(GiB)": 73.83,
      "step": 87530,
      "token_acc": 0.9777777777777777,
      "train_speed(iter/s)": 1.456503
    },
    {
      "epoch": 3.750267769161561,
      "grad_norm": 2.4598782062530518,
      "learning_rate": 1.4638713105891188e-05,
      "loss": 0.373477840423584,
      "memory(GiB)": 73.83,
      "step": 87535,
      "token_acc": 0.9075907590759076,
      "train_speed(iter/s)": 1.456504
    },
    {
      "epoch": 3.7504819844908104,
      "grad_norm": 0.7451271414756775,
      "learning_rate": 1.4633955558736201e-05,
      "loss": 0.4612100124359131,
      "memory(GiB)": 73.83,
      "step": 87540,
      "token_acc": 0.8872727272727273,
      "train_speed(iter/s)": 1.456508
    },
    {
      "epoch": 3.750696199820059,
      "grad_norm": 4.130038738250732,
      "learning_rate": 1.4629198652270288e-05,
      "loss": 0.4262916088104248,
      "memory(GiB)": 73.83,
      "step": 87545,
      "token_acc": 0.9012738853503185,
      "train_speed(iter/s)": 1.456508
    },
    {
      "epoch": 3.750910415149308,
      "grad_norm": 0.630781352519989,
      "learning_rate": 1.4624442386579601e-05,
      "loss": 0.19932146072387696,
      "memory(GiB)": 73.83,
      "step": 87550,
      "token_acc": 0.9538043478260869,
      "train_speed(iter/s)": 1.456513
    },
    {
      "epoch": 3.7511246304785573,
      "grad_norm": 2.108792543411255,
      "learning_rate": 1.4619686761750345e-05,
      "loss": 0.5292571544647217,
      "memory(GiB)": 73.83,
      "step": 87555,
      "token_acc": 0.8954703832752613,
      "train_speed(iter/s)": 1.456511
    },
    {
      "epoch": 3.751338845807806,
      "grad_norm": 1.8905482292175293,
      "learning_rate": 1.4614931777868634e-05,
      "loss": 0.46469573974609374,
      "memory(GiB)": 73.83,
      "step": 87560,
      "token_acc": 0.8996282527881041,
      "train_speed(iter/s)": 1.456523
    },
    {
      "epoch": 3.751553061137055,
      "grad_norm": 2.830050230026245,
      "learning_rate": 1.4610177435020645e-05,
      "loss": 0.25890612602233887,
      "memory(GiB)": 73.83,
      "step": 87565,
      "token_acc": 0.9355932203389831,
      "train_speed(iter/s)": 1.456527
    },
    {
      "epoch": 3.751767276466304,
      "grad_norm": 4.319506645202637,
      "learning_rate": 1.4605423733292494e-05,
      "loss": 0.49800901412963866,
      "memory(GiB)": 73.83,
      "step": 87570,
      "token_acc": 0.9163879598662207,
      "train_speed(iter/s)": 1.456529
    },
    {
      "epoch": 3.751981491795553,
      "grad_norm": 0.44231173396110535,
      "learning_rate": 1.460067067277029e-05,
      "loss": 0.5321436405181885,
      "memory(GiB)": 73.83,
      "step": 87575,
      "token_acc": 0.8814814814814815,
      "train_speed(iter/s)": 1.456532
    },
    {
      "epoch": 3.7521957071248018,
      "grad_norm": 2.3129098415374756,
      "learning_rate": 1.4595918253540147e-05,
      "loss": 0.3941753625869751,
      "memory(GiB)": 73.83,
      "step": 87580,
      "token_acc": 0.927710843373494,
      "train_speed(iter/s)": 1.45653
    },
    {
      "epoch": 3.752409922454051,
      "grad_norm": 1.0056757926940918,
      "learning_rate": 1.459116647568815e-05,
      "loss": 0.4815830230712891,
      "memory(GiB)": 73.83,
      "step": 87585,
      "token_acc": 0.9134948096885813,
      "train_speed(iter/s)": 1.456532
    },
    {
      "epoch": 3.7526241377833,
      "grad_norm": 2.361565113067627,
      "learning_rate": 1.458641533930038e-05,
      "loss": 0.2665820598602295,
      "memory(GiB)": 73.83,
      "step": 87590,
      "token_acc": 0.9409448818897638,
      "train_speed(iter/s)": 1.45654
    },
    {
      "epoch": 3.7528383531125487,
      "grad_norm": 3.797078847885132,
      "learning_rate": 1.4581664844462929e-05,
      "loss": 0.299461817741394,
      "memory(GiB)": 73.83,
      "step": 87595,
      "token_acc": 0.9404388714733543,
      "train_speed(iter/s)": 1.456541
    },
    {
      "epoch": 3.753052568441798,
      "grad_norm": 3.0146853923797607,
      "learning_rate": 1.4576914991261848e-05,
      "loss": 0.5967714786529541,
      "memory(GiB)": 73.83,
      "step": 87600,
      "token_acc": 0.9028776978417267,
      "train_speed(iter/s)": 1.456546
    },
    {
      "epoch": 3.7532667837710467,
      "grad_norm": 0.7296326756477356,
      "learning_rate": 1.4572165779783176e-05,
      "loss": 0.5864129543304444,
      "memory(GiB)": 73.83,
      "step": 87605,
      "token_acc": 0.8504983388704319,
      "train_speed(iter/s)": 1.456542
    },
    {
      "epoch": 3.7534809991002955,
      "grad_norm": 0.5881764888763428,
      "learning_rate": 1.456741721011296e-05,
      "loss": 0.27382075786590576,
      "memory(GiB)": 73.83,
      "step": 87610,
      "token_acc": 0.9393939393939394,
      "train_speed(iter/s)": 1.456544
    },
    {
      "epoch": 3.753695214429545,
      "grad_norm": 4.688806533813477,
      "learning_rate": 1.4562669282337198e-05,
      "loss": 0.3062721252441406,
      "memory(GiB)": 73.83,
      "step": 87615,
      "token_acc": 0.9204545454545454,
      "train_speed(iter/s)": 1.456549
    },
    {
      "epoch": 3.7539094297587936,
      "grad_norm": 3.069723129272461,
      "learning_rate": 1.4557921996541946e-05,
      "loss": 0.29157233238220215,
      "memory(GiB)": 73.83,
      "step": 87620,
      "token_acc": 0.9541984732824428,
      "train_speed(iter/s)": 1.456552
    },
    {
      "epoch": 3.7541236450880424,
      "grad_norm": 2.554424285888672,
      "learning_rate": 1.455317535281317e-05,
      "loss": 0.48914251327514646,
      "memory(GiB)": 73.83,
      "step": 87625,
      "token_acc": 0.8986013986013986,
      "train_speed(iter/s)": 1.456558
    },
    {
      "epoch": 3.7543378604172917,
      "grad_norm": 1.0003759860992432,
      "learning_rate": 1.4548429351236886e-05,
      "loss": 0.2539220333099365,
      "memory(GiB)": 73.83,
      "step": 87630,
      "token_acc": 0.9512195121951219,
      "train_speed(iter/s)": 1.456573
    },
    {
      "epoch": 3.7545520757465405,
      "grad_norm": 2.9295177459716797,
      "learning_rate": 1.454368399189906e-05,
      "loss": 0.38617041110992434,
      "memory(GiB)": 73.83,
      "step": 87635,
      "token_acc": 0.889967637540453,
      "train_speed(iter/s)": 1.456574
    },
    {
      "epoch": 3.7547662910757893,
      "grad_norm": 2.82039475440979,
      "learning_rate": 1.4538939274885665e-05,
      "loss": 0.14877382516860962,
      "memory(GiB)": 73.83,
      "step": 87640,
      "token_acc": 0.9739130434782609,
      "train_speed(iter/s)": 1.456576
    },
    {
      "epoch": 3.7549805064050386,
      "grad_norm": 3.6667234897613525,
      "learning_rate": 1.4534195200282646e-05,
      "loss": 0.31948564052581785,
      "memory(GiB)": 73.83,
      "step": 87645,
      "token_acc": 0.9362549800796812,
      "train_speed(iter/s)": 1.45658
    },
    {
      "epoch": 3.7551947217342874,
      "grad_norm": 3.439580202102661,
      "learning_rate": 1.4529451768175933e-05,
      "loss": 0.4665986061096191,
      "memory(GiB)": 73.83,
      "step": 87650,
      "token_acc": 0.9018987341772152,
      "train_speed(iter/s)": 1.456584
    },
    {
      "epoch": 3.755408937063536,
      "grad_norm": 3.7969000339508057,
      "learning_rate": 1.4524708978651491e-05,
      "loss": 0.537476921081543,
      "memory(GiB)": 73.83,
      "step": 87655,
      "token_acc": 0.9039145907473309,
      "train_speed(iter/s)": 1.456589
    },
    {
      "epoch": 3.7556231523927854,
      "grad_norm": 2.5495691299438477,
      "learning_rate": 1.4519966831795228e-05,
      "loss": 0.2508310079574585,
      "memory(GiB)": 73.83,
      "step": 87660,
      "token_acc": 0.9233333333333333,
      "train_speed(iter/s)": 1.456599
    },
    {
      "epoch": 3.7558373677220342,
      "grad_norm": 4.260451793670654,
      "learning_rate": 1.4515225327693049e-05,
      "loss": 0.18839993476867675,
      "memory(GiB)": 73.83,
      "step": 87665,
      "token_acc": 0.9461279461279462,
      "train_speed(iter/s)": 1.456605
    },
    {
      "epoch": 3.756051583051283,
      "grad_norm": 2.704655647277832,
      "learning_rate": 1.4510484466430846e-05,
      "loss": 0.3708745002746582,
      "memory(GiB)": 73.83,
      "step": 87670,
      "token_acc": 0.9347079037800687,
      "train_speed(iter/s)": 1.4566
    },
    {
      "epoch": 3.7562657983805323,
      "grad_norm": 4.131824970245361,
      "learning_rate": 1.45057442480945e-05,
      "loss": 0.21156842708587648,
      "memory(GiB)": 73.83,
      "step": 87675,
      "token_acc": 0.956953642384106,
      "train_speed(iter/s)": 1.456601
    },
    {
      "epoch": 3.756480013709781,
      "grad_norm": 2.923067331314087,
      "learning_rate": 1.4501004672769903e-05,
      "loss": 0.3456393241882324,
      "memory(GiB)": 73.83,
      "step": 87680,
      "token_acc": 0.9111111111111111,
      "train_speed(iter/s)": 1.456604
    },
    {
      "epoch": 3.75669422903903,
      "grad_norm": 4.505685329437256,
      "learning_rate": 1.4496265740542908e-05,
      "loss": 0.6423911094665528,
      "memory(GiB)": 73.83,
      "step": 87685,
      "token_acc": 0.864516129032258,
      "train_speed(iter/s)": 1.456608
    },
    {
      "epoch": 3.756908444368279,
      "grad_norm": 3.1176929473876953,
      "learning_rate": 1.4491527451499365e-05,
      "loss": 0.535536813735962,
      "memory(GiB)": 73.83,
      "step": 87690,
      "token_acc": 0.8877551020408163,
      "train_speed(iter/s)": 1.45661
    },
    {
      "epoch": 3.757122659697528,
      "grad_norm": 2.1930131912231445,
      "learning_rate": 1.448678980572511e-05,
      "loss": 0.28474903106689453,
      "memory(GiB)": 73.83,
      "step": 87695,
      "token_acc": 0.9345794392523364,
      "train_speed(iter/s)": 1.456613
    },
    {
      "epoch": 3.757336875026777,
      "grad_norm": 6.469902992248535,
      "learning_rate": 1.4482052803305962e-05,
      "loss": 0.8751742362976074,
      "memory(GiB)": 73.83,
      "step": 87700,
      "token_acc": 0.8428571428571429,
      "train_speed(iter/s)": 1.456614
    },
    {
      "epoch": 3.757551090356026,
      "grad_norm": 2.2639458179473877,
      "learning_rate": 1.4477316444327738e-05,
      "loss": 0.22298948764801024,
      "memory(GiB)": 73.83,
      "step": 87705,
      "token_acc": 0.9543973941368078,
      "train_speed(iter/s)": 1.456618
    },
    {
      "epoch": 3.757765305685275,
      "grad_norm": 5.239924430847168,
      "learning_rate": 1.4472580728876272e-05,
      "loss": 0.31403541564941406,
      "memory(GiB)": 73.83,
      "step": 87710,
      "token_acc": 0.9190283400809717,
      "train_speed(iter/s)": 1.456622
    },
    {
      "epoch": 3.7579795210145237,
      "grad_norm": 2.773214817047119,
      "learning_rate": 1.4467845657037332e-05,
      "loss": 0.27083351612091067,
      "memory(GiB)": 73.83,
      "step": 87715,
      "token_acc": 0.9298780487804879,
      "train_speed(iter/s)": 1.456631
    },
    {
      "epoch": 3.758193736343773,
      "grad_norm": 2.818932294845581,
      "learning_rate": 1.4463111228896697e-05,
      "loss": 0.528998327255249,
      "memory(GiB)": 73.83,
      "step": 87720,
      "token_acc": 0.8737201365187713,
      "train_speed(iter/s)": 1.456636
    },
    {
      "epoch": 3.7584079516730218,
      "grad_norm": 3.6785099506378174,
      "learning_rate": 1.4458377444540139e-05,
      "loss": 0.4241046905517578,
      "memory(GiB)": 73.83,
      "step": 87725,
      "token_acc": 0.9108527131782945,
      "train_speed(iter/s)": 1.456638
    },
    {
      "epoch": 3.7586221670022706,
      "grad_norm": 0.22854885458946228,
      "learning_rate": 1.4453644304053415e-05,
      "loss": 0.20421693325042725,
      "memory(GiB)": 73.83,
      "step": 87730,
      "token_acc": 0.9663299663299664,
      "train_speed(iter/s)": 1.45664
    },
    {
      "epoch": 3.75883638233152,
      "grad_norm": 3.467942237854004,
      "learning_rate": 1.4448911807522253e-05,
      "loss": 0.6610170841217041,
      "memory(GiB)": 73.83,
      "step": 87735,
      "token_acc": 0.8648648648648649,
      "train_speed(iter/s)": 1.456651
    },
    {
      "epoch": 3.7590505976607687,
      "grad_norm": 5.370941638946533,
      "learning_rate": 1.4444179955032422e-05,
      "loss": 0.2924372911453247,
      "memory(GiB)": 73.83,
      "step": 87740,
      "token_acc": 0.9158576051779935,
      "train_speed(iter/s)": 1.456659
    },
    {
      "epoch": 3.7592648129900175,
      "grad_norm": 2.785581350326538,
      "learning_rate": 1.443944874666962e-05,
      "loss": 0.221519136428833,
      "memory(GiB)": 73.83,
      "step": 87745,
      "token_acc": 0.9361702127659575,
      "train_speed(iter/s)": 1.456672
    },
    {
      "epoch": 3.7594790283192667,
      "grad_norm": 2.768505096435547,
      "learning_rate": 1.443471818251957e-05,
      "loss": 0.2962604284286499,
      "memory(GiB)": 73.83,
      "step": 87750,
      "token_acc": 0.9304635761589404,
      "train_speed(iter/s)": 1.456676
    },
    {
      "epoch": 3.7596932436485155,
      "grad_norm": 1.0384190082550049,
      "learning_rate": 1.4429988262667959e-05,
      "loss": 0.2202453851699829,
      "memory(GiB)": 73.83,
      "step": 87755,
      "token_acc": 0.9515151515151515,
      "train_speed(iter/s)": 1.456684
    },
    {
      "epoch": 3.7599074589777643,
      "grad_norm": 2.450810194015503,
      "learning_rate": 1.4425258987200463e-05,
      "loss": 0.5325818061828613,
      "memory(GiB)": 73.83,
      "step": 87760,
      "token_acc": 0.8928571428571429,
      "train_speed(iter/s)": 1.456685
    },
    {
      "epoch": 3.7601216743070136,
      "grad_norm": 8.352216720581055,
      "learning_rate": 1.4420530356202783e-05,
      "loss": 0.24083528518676758,
      "memory(GiB)": 73.83,
      "step": 87765,
      "token_acc": 0.9490740740740741,
      "train_speed(iter/s)": 1.456689
    },
    {
      "epoch": 3.7603358896362624,
      "grad_norm": 1.9395887851715088,
      "learning_rate": 1.4415802369760562e-05,
      "loss": 0.3411598205566406,
      "memory(GiB)": 73.83,
      "step": 87770,
      "token_acc": 0.9354838709677419,
      "train_speed(iter/s)": 1.456694
    },
    {
      "epoch": 3.7605501049655112,
      "grad_norm": 5.777861595153809,
      "learning_rate": 1.4411075027959475e-05,
      "loss": 0.24050405025482177,
      "memory(GiB)": 73.83,
      "step": 87775,
      "token_acc": 0.9444444444444444,
      "train_speed(iter/s)": 1.456701
    },
    {
      "epoch": 3.7607643202947605,
      "grad_norm": 5.6315741539001465,
      "learning_rate": 1.440634833088515e-05,
      "loss": 0.34117560386657714,
      "memory(GiB)": 73.83,
      "step": 87780,
      "token_acc": 0.9247311827956989,
      "train_speed(iter/s)": 1.456706
    },
    {
      "epoch": 3.7609785356240093,
      "grad_norm": 3.592973470687866,
      "learning_rate": 1.4401622278623217e-05,
      "loss": 0.518140172958374,
      "memory(GiB)": 73.83,
      "step": 87785,
      "token_acc": 0.8769230769230769,
      "train_speed(iter/s)": 1.456712
    },
    {
      "epoch": 3.761192750953258,
      "grad_norm": 1.1872650384902954,
      "learning_rate": 1.4396896871259286e-05,
      "loss": 0.49545788764953613,
      "memory(GiB)": 73.83,
      "step": 87790,
      "token_acc": 0.9115853658536586,
      "train_speed(iter/s)": 1.456724
    },
    {
      "epoch": 3.7614069662825074,
      "grad_norm": 0.3333216607570648,
      "learning_rate": 1.4392172108878954e-05,
      "loss": 0.30185015201568605,
      "memory(GiB)": 73.83,
      "step": 87795,
      "token_acc": 0.9328621908127208,
      "train_speed(iter/s)": 1.456729
    },
    {
      "epoch": 3.761621181611756,
      "grad_norm": 4.299720764160156,
      "learning_rate": 1.4387447991567838e-05,
      "loss": 0.16833313703536987,
      "memory(GiB)": 73.83,
      "step": 87800,
      "token_acc": 0.9721254355400697,
      "train_speed(iter/s)": 1.456731
    },
    {
      "epoch": 3.761835396941005,
      "grad_norm": 3.7686710357666016,
      "learning_rate": 1.438272451941151e-05,
      "loss": 0.3017200231552124,
      "memory(GiB)": 73.83,
      "step": 87805,
      "token_acc": 0.9180327868852459,
      "train_speed(iter/s)": 1.456741
    },
    {
      "epoch": 3.7620496122702543,
      "grad_norm": 2.9464759826660156,
      "learning_rate": 1.4378001692495546e-05,
      "loss": 0.2535681247711182,
      "memory(GiB)": 73.83,
      "step": 87810,
      "token_acc": 0.9588014981273408,
      "train_speed(iter/s)": 1.45675
    },
    {
      "epoch": 3.762263827599503,
      "grad_norm": 2.542750835418701,
      "learning_rate": 1.437327951090549e-05,
      "loss": 0.3238539218902588,
      "memory(GiB)": 73.83,
      "step": 87815,
      "token_acc": 0.9384164222873901,
      "train_speed(iter/s)": 1.45676
    },
    {
      "epoch": 3.762478042928752,
      "grad_norm": 2.521824836730957,
      "learning_rate": 1.4368557974726882e-05,
      "loss": 0.3465795755386353,
      "memory(GiB)": 73.83,
      "step": 87820,
      "token_acc": 0.9090909090909091,
      "train_speed(iter/s)": 1.456768
    },
    {
      "epoch": 3.762692258258001,
      "grad_norm": 2.2558207511901855,
      "learning_rate": 1.436383708404529e-05,
      "loss": 0.32413363456726074,
      "memory(GiB)": 73.83,
      "step": 87825,
      "token_acc": 0.9326241134751773,
      "train_speed(iter/s)": 1.456778
    },
    {
      "epoch": 3.76290647358725,
      "grad_norm": 2.0757899284362793,
      "learning_rate": 1.4359116838946219e-05,
      "loss": 0.2908461093902588,
      "memory(GiB)": 73.83,
      "step": 87830,
      "token_acc": 0.92578125,
      "train_speed(iter/s)": 1.4568
    },
    {
      "epoch": 3.7631206889164988,
      "grad_norm": 1.0663639307022095,
      "learning_rate": 1.4354397239515177e-05,
      "loss": 0.12890830039978027,
      "memory(GiB)": 73.83,
      "step": 87835,
      "token_acc": 0.9714285714285714,
      "train_speed(iter/s)": 1.456803
    },
    {
      "epoch": 3.763334904245748,
      "grad_norm": 5.8623785972595215,
      "learning_rate": 1.434967828583767e-05,
      "loss": 0.4113141059875488,
      "memory(GiB)": 73.83,
      "step": 87840,
      "token_acc": 0.9157894736842105,
      "train_speed(iter/s)": 1.456803
    },
    {
      "epoch": 3.763549119574997,
      "grad_norm": 4.112277030944824,
      "learning_rate": 1.4344959977999162e-05,
      "loss": 0.3031275749206543,
      "memory(GiB)": 73.83,
      "step": 87845,
      "token_acc": 0.927007299270073,
      "train_speed(iter/s)": 1.45681
    },
    {
      "epoch": 3.7637633349042456,
      "grad_norm": 4.169903755187988,
      "learning_rate": 1.4340242316085156e-05,
      "loss": 0.21757643222808837,
      "memory(GiB)": 73.83,
      "step": 87850,
      "token_acc": 0.9632352941176471,
      "train_speed(iter/s)": 1.456821
    },
    {
      "epoch": 3.763977550233495,
      "grad_norm": 1.9107385873794556,
      "learning_rate": 1.433552530018113e-05,
      "loss": 0.4290291786193848,
      "memory(GiB)": 73.83,
      "step": 87855,
      "token_acc": 0.8823529411764706,
      "train_speed(iter/s)": 1.456835
    },
    {
      "epoch": 3.7641917655627437,
      "grad_norm": 3.043807029724121,
      "learning_rate": 1.4330808930372514e-05,
      "loss": 0.4385784149169922,
      "memory(GiB)": 73.83,
      "step": 87860,
      "token_acc": 0.9262820512820513,
      "train_speed(iter/s)": 1.456842
    },
    {
      "epoch": 3.7644059808919925,
      "grad_norm": 5.3874993324279785,
      "learning_rate": 1.4326093206744756e-05,
      "loss": 0.16175079345703125,
      "memory(GiB)": 73.83,
      "step": 87865,
      "token_acc": 0.961764705882353,
      "train_speed(iter/s)": 1.456847
    },
    {
      "epoch": 3.7646201962212418,
      "grad_norm": 4.5297112464904785,
      "learning_rate": 1.432137812938329e-05,
      "loss": 0.5458257675170899,
      "memory(GiB)": 73.83,
      "step": 87870,
      "token_acc": 0.89198606271777,
      "train_speed(iter/s)": 1.456861
    },
    {
      "epoch": 3.7648344115504906,
      "grad_norm": 2.4850258827209473,
      "learning_rate": 1.4316663698373522e-05,
      "loss": 0.43190755844116213,
      "memory(GiB)": 73.83,
      "step": 87875,
      "token_acc": 0.9087719298245615,
      "train_speed(iter/s)": 1.456864
    },
    {
      "epoch": 3.7650486268797394,
      "grad_norm": 3.8851559162139893,
      "learning_rate": 1.4311949913800848e-05,
      "loss": 0.3703805923461914,
      "memory(GiB)": 73.83,
      "step": 87880,
      "token_acc": 0.9206349206349206,
      "train_speed(iter/s)": 1.456867
    },
    {
      "epoch": 3.7652628422089887,
      "grad_norm": 0.8414949178695679,
      "learning_rate": 1.4307236775750699e-05,
      "loss": 0.2154920816421509,
      "memory(GiB)": 73.83,
      "step": 87885,
      "token_acc": 0.9346153846153846,
      "train_speed(iter/s)": 1.45687
    },
    {
      "epoch": 3.7654770575382375,
      "grad_norm": 5.23362922668457,
      "learning_rate": 1.4302524284308438e-05,
      "loss": 0.4534431457519531,
      "memory(GiB)": 73.83,
      "step": 87890,
      "token_acc": 0.9163498098859315,
      "train_speed(iter/s)": 1.456885
    },
    {
      "epoch": 3.7656912728674863,
      "grad_norm": 1.0402021408081055,
      "learning_rate": 1.4297812439559439e-05,
      "loss": 0.3450049161911011,
      "memory(GiB)": 73.83,
      "step": 87895,
      "token_acc": 0.917910447761194,
      "train_speed(iter/s)": 1.456897
    },
    {
      "epoch": 3.7659054881967355,
      "grad_norm": 1.9804376363754272,
      "learning_rate": 1.4293101241589051e-05,
      "loss": 0.42007598876953123,
      "memory(GiB)": 73.83,
      "step": 87900,
      "token_acc": 0.9099099099099099,
      "train_speed(iter/s)": 1.456898
    },
    {
      "epoch": 3.7661197035259844,
      "grad_norm": 3.1921463012695312,
      "learning_rate": 1.4288390690482622e-05,
      "loss": 0.23211932182312012,
      "memory(GiB)": 73.83,
      "step": 87905,
      "token_acc": 0.9393939393939394,
      "train_speed(iter/s)": 1.456897
    },
    {
      "epoch": 3.766333918855233,
      "grad_norm": 2.653989315032959,
      "learning_rate": 1.428368078632551e-05,
      "loss": 0.34328346252441405,
      "memory(GiB)": 73.83,
      "step": 87910,
      "token_acc": 0.9338842975206612,
      "train_speed(iter/s)": 1.456898
    },
    {
      "epoch": 3.7665481341844824,
      "grad_norm": 2.986644744873047,
      "learning_rate": 1.4278971529203023e-05,
      "loss": 0.23361246585845946,
      "memory(GiB)": 73.83,
      "step": 87915,
      "token_acc": 0.9318181818181818,
      "train_speed(iter/s)": 1.456898
    },
    {
      "epoch": 3.7667623495137312,
      "grad_norm": 0.08987720310688019,
      "learning_rate": 1.427426291920046e-05,
      "loss": 0.17053804397583008,
      "memory(GiB)": 73.83,
      "step": 87920,
      "token_acc": 0.956140350877193,
      "train_speed(iter/s)": 1.456898
    },
    {
      "epoch": 3.76697656484298,
      "grad_norm": 5.258199214935303,
      "learning_rate": 1.4269554956403153e-05,
      "loss": 0.36530652046203616,
      "memory(GiB)": 73.83,
      "step": 87925,
      "token_acc": 0.9311594202898551,
      "train_speed(iter/s)": 1.4569
    },
    {
      "epoch": 3.7671907801722293,
      "grad_norm": 1.8349214792251587,
      "learning_rate": 1.4264847640896378e-05,
      "loss": 0.33083009719848633,
      "memory(GiB)": 73.83,
      "step": 87930,
      "token_acc": 0.9313725490196079,
      "train_speed(iter/s)": 1.456915
    },
    {
      "epoch": 3.767404995501478,
      "grad_norm": 3.3721964359283447,
      "learning_rate": 1.4260140972765407e-05,
      "loss": 0.29479274749755857,
      "memory(GiB)": 73.83,
      "step": 87935,
      "token_acc": 0.9343629343629344,
      "train_speed(iter/s)": 1.456925
    },
    {
      "epoch": 3.767619210830727,
      "grad_norm": 4.605485439300537,
      "learning_rate": 1.4255434952095498e-05,
      "loss": 0.5179016590118408,
      "memory(GiB)": 73.83,
      "step": 87940,
      "token_acc": 0.9128919860627178,
      "train_speed(iter/s)": 1.456937
    },
    {
      "epoch": 3.767833426159976,
      "grad_norm": 4.55964469909668,
      "learning_rate": 1.4250729578971927e-05,
      "loss": 0.5088517189025878,
      "memory(GiB)": 73.83,
      "step": 87945,
      "token_acc": 0.8905109489051095,
      "train_speed(iter/s)": 1.456958
    },
    {
      "epoch": 3.768047641489225,
      "grad_norm": 2.2303807735443115,
      "learning_rate": 1.4246024853479928e-05,
      "loss": 0.4008045196533203,
      "memory(GiB)": 73.83,
      "step": 87950,
      "token_acc": 0.9090909090909091,
      "train_speed(iter/s)": 1.456965
    },
    {
      "epoch": 3.768261856818474,
      "grad_norm": 2.5739431381225586,
      "learning_rate": 1.4241320775704725e-05,
      "loss": 0.14822659492492676,
      "memory(GiB)": 73.83,
      "step": 87955,
      "token_acc": 0.9696969696969697,
      "train_speed(iter/s)": 1.456973
    },
    {
      "epoch": 3.768476072147723,
      "grad_norm": 0.7277286052703857,
      "learning_rate": 1.4236617345731546e-05,
      "loss": 0.2368946075439453,
      "memory(GiB)": 73.83,
      "step": 87960,
      "token_acc": 0.9395017793594306,
      "train_speed(iter/s)": 1.456975
    },
    {
      "epoch": 3.768690287476972,
      "grad_norm": 0.488859623670578,
      "learning_rate": 1.4231914563645576e-05,
      "loss": 0.3030246734619141,
      "memory(GiB)": 73.83,
      "step": 87965,
      "token_acc": 0.9421768707482994,
      "train_speed(iter/s)": 1.456976
    },
    {
      "epoch": 3.7689045028062207,
      "grad_norm": 2.1749751567840576,
      "learning_rate": 1.4227212429532038e-05,
      "loss": 0.20795366764068604,
      "memory(GiB)": 73.83,
      "step": 87970,
      "token_acc": 0.952054794520548,
      "train_speed(iter/s)": 1.456976
    },
    {
      "epoch": 3.76911871813547,
      "grad_norm": 3.9091906547546387,
      "learning_rate": 1.4222510943476109e-05,
      "loss": 0.31670193672180175,
      "memory(GiB)": 73.83,
      "step": 87975,
      "token_acc": 0.9040590405904059,
      "train_speed(iter/s)": 1.456979
    },
    {
      "epoch": 3.7693329334647188,
      "grad_norm": 1.4561642408370972,
      "learning_rate": 1.4217810105562957e-05,
      "loss": 0.16806299686431886,
      "memory(GiB)": 73.83,
      "step": 87980,
      "token_acc": 0.9720496894409938,
      "train_speed(iter/s)": 1.456981
    },
    {
      "epoch": 3.7695471487939676,
      "grad_norm": 2.6203086376190186,
      "learning_rate": 1.4213109915877736e-05,
      "loss": 0.36385014057159426,
      "memory(GiB)": 73.83,
      "step": 87985,
      "token_acc": 0.9205776173285198,
      "train_speed(iter/s)": 1.456982
    },
    {
      "epoch": 3.769761364123217,
      "grad_norm": 1.917945384979248,
      "learning_rate": 1.4208410374505587e-05,
      "loss": 0.28604276180267335,
      "memory(GiB)": 73.83,
      "step": 87990,
      "token_acc": 0.9331306990881459,
      "train_speed(iter/s)": 1.456981
    },
    {
      "epoch": 3.7699755794524656,
      "grad_norm": 2.253056526184082,
      "learning_rate": 1.4203711481531662e-05,
      "loss": 0.4649319648742676,
      "memory(GiB)": 73.83,
      "step": 87995,
      "token_acc": 0.9133333333333333,
      "train_speed(iter/s)": 1.456988
    },
    {
      "epoch": 3.7701897947817145,
      "grad_norm": 1.3679131269454956,
      "learning_rate": 1.4199013237041093e-05,
      "loss": 0.3008065938949585,
      "memory(GiB)": 73.83,
      "step": 88000,
      "token_acc": 0.9326599326599326,
      "train_speed(iter/s)": 1.456987
    },
    {
      "epoch": 3.7701897947817145,
      "eval_loss": 2.4800615310668945,
      "eval_runtime": 11.5404,
      "eval_samples_per_second": 8.665,
      "eval_steps_per_second": 8.665,
      "eval_token_acc": 0.4675324675324675,
      "step": 88000
    },
    {
      "epoch": 3.7704040101109637,
      "grad_norm": 2.7231647968292236,
      "learning_rate": 1.4194315641118989e-05,
      "loss": 0.21390280723571778,
      "memory(GiB)": 73.83,
      "step": 88005,
      "token_acc": 0.6057513914656771,
      "train_speed(iter/s)": 1.456684
    },
    {
      "epoch": 3.7706182254402125,
      "grad_norm": 3.206044912338257,
      "learning_rate": 1.4189618693850444e-05,
      "loss": 0.5781827449798584,
      "memory(GiB)": 73.83,
      "step": 88010,
      "token_acc": 0.899390243902439,
      "train_speed(iter/s)": 1.456707
    },
    {
      "epoch": 3.7708324407694613,
      "grad_norm": 2.323753595352173,
      "learning_rate": 1.4184922395320543e-05,
      "loss": 0.32648696899414065,
      "memory(GiB)": 73.83,
      "step": 88015,
      "token_acc": 0.922360248447205,
      "train_speed(iter/s)": 1.456713
    },
    {
      "epoch": 3.7710466560987106,
      "grad_norm": 0.33933207392692566,
      "learning_rate": 1.4180226745614379e-05,
      "loss": 0.16078503131866456,
      "memory(GiB)": 73.83,
      "step": 88020,
      "token_acc": 0.9715302491103203,
      "train_speed(iter/s)": 1.456707
    },
    {
      "epoch": 3.7712608714279594,
      "grad_norm": 3.771108627319336,
      "learning_rate": 1.4175531744816989e-05,
      "loss": 0.4059595584869385,
      "memory(GiB)": 73.83,
      "step": 88025,
      "token_acc": 0.9208860759493671,
      "train_speed(iter/s)": 1.456711
    },
    {
      "epoch": 3.771475086757208,
      "grad_norm": 4.587892055511475,
      "learning_rate": 1.4170837393013465e-05,
      "loss": 0.37561323642730715,
      "memory(GiB)": 73.83,
      "step": 88030,
      "token_acc": 0.9216300940438872,
      "train_speed(iter/s)": 1.456714
    },
    {
      "epoch": 3.7716893020864575,
      "grad_norm": 1.8240737915039062,
      "learning_rate": 1.416614369028883e-05,
      "loss": 0.14492737054824828,
      "memory(GiB)": 73.83,
      "step": 88035,
      "token_acc": 0.967741935483871,
      "train_speed(iter/s)": 1.456718
    },
    {
      "epoch": 3.7719035174157063,
      "grad_norm": 2.6911439895629883,
      "learning_rate": 1.4161450636728119e-05,
      "loss": 0.18010106086730956,
      "memory(GiB)": 73.83,
      "step": 88040,
      "token_acc": 0.9545454545454546,
      "train_speed(iter/s)": 1.456719
    },
    {
      "epoch": 3.772117732744955,
      "grad_norm": 0.2951025068759918,
      "learning_rate": 1.4156758232416345e-05,
      "loss": 0.5817102432250977,
      "memory(GiB)": 73.83,
      "step": 88045,
      "token_acc": 0.878419452887538,
      "train_speed(iter/s)": 1.456721
    },
    {
      "epoch": 3.7723319480742044,
      "grad_norm": 3.4875078201293945,
      "learning_rate": 1.4152066477438508e-05,
      "loss": 0.23476829528808593,
      "memory(GiB)": 73.83,
      "step": 88050,
      "token_acc": 0.9586466165413534,
      "train_speed(iter/s)": 1.456724
    },
    {
      "epoch": 3.772546163403453,
      "grad_norm": 3.5090222358703613,
      "learning_rate": 1.4147375371879628e-05,
      "loss": 0.3248572826385498,
      "memory(GiB)": 73.83,
      "step": 88055,
      "token_acc": 0.924187725631769,
      "train_speed(iter/s)": 1.456732
    },
    {
      "epoch": 3.772760378732702,
      "grad_norm": 6.331042766571045,
      "learning_rate": 1.4142684915824678e-05,
      "loss": 0.24439048767089844,
      "memory(GiB)": 73.83,
      "step": 88060,
      "token_acc": 0.9343065693430657,
      "train_speed(iter/s)": 1.456748
    },
    {
      "epoch": 3.7729745940619512,
      "grad_norm": 4.909460067749023,
      "learning_rate": 1.413799510935861e-05,
      "loss": 0.6453730583190918,
      "memory(GiB)": 73.83,
      "step": 88065,
      "token_acc": 0.8613138686131386,
      "train_speed(iter/s)": 1.456752
    },
    {
      "epoch": 3.7731888093912,
      "grad_norm": 5.145352840423584,
      "learning_rate": 1.4133305952566416e-05,
      "loss": 0.31262590885162356,
      "memory(GiB)": 73.83,
      "step": 88070,
      "token_acc": 0.9360902255639098,
      "train_speed(iter/s)": 1.456758
    },
    {
      "epoch": 3.773403024720449,
      "grad_norm": 2.757838726043701,
      "learning_rate": 1.4128617445533037e-05,
      "loss": 0.21394648551940917,
      "memory(GiB)": 73.83,
      "step": 88075,
      "token_acc": 0.933649289099526,
      "train_speed(iter/s)": 1.456757
    },
    {
      "epoch": 3.773617240049698,
      "grad_norm": 0.11779265105724335,
      "learning_rate": 1.4123929588343398e-05,
      "loss": 0.27238690853118896,
      "memory(GiB)": 73.83,
      "step": 88080,
      "token_acc": 0.9236641221374046,
      "train_speed(iter/s)": 1.456759
    },
    {
      "epoch": 3.773831455378947,
      "grad_norm": 0.06996823847293854,
      "learning_rate": 1.4119242381082415e-05,
      "loss": 0.36380393505096437,
      "memory(GiB)": 73.83,
      "step": 88085,
      "token_acc": 0.9358490566037736,
      "train_speed(iter/s)": 1.456761
    },
    {
      "epoch": 3.7740456707081957,
      "grad_norm": 8.139211654663086,
      "learning_rate": 1.411455582383503e-05,
      "loss": 0.8194849967956543,
      "memory(GiB)": 73.83,
      "step": 88090,
      "token_acc": 0.832,
      "train_speed(iter/s)": 1.456772
    },
    {
      "epoch": 3.774259886037445,
      "grad_norm": 2.216822624206543,
      "learning_rate": 1.4109869916686125e-05,
      "loss": 0.536731481552124,
      "memory(GiB)": 73.83,
      "step": 88095,
      "token_acc": 0.9100346020761245,
      "train_speed(iter/s)": 1.456774
    },
    {
      "epoch": 3.774474101366694,
      "grad_norm": 0.2714904844760895,
      "learning_rate": 1.41051846597206e-05,
      "loss": 0.3082357168197632,
      "memory(GiB)": 73.83,
      "step": 88100,
      "token_acc": 0.9453924914675768,
      "train_speed(iter/s)": 1.45678
    },
    {
      "epoch": 3.7746883166959426,
      "grad_norm": 0.4630705714225769,
      "learning_rate": 1.4100500053023324e-05,
      "loss": 0.37295663356781006,
      "memory(GiB)": 73.83,
      "step": 88105,
      "token_acc": 0.896797153024911,
      "train_speed(iter/s)": 1.456793
    },
    {
      "epoch": 3.774902532025192,
      "grad_norm": 2.247687578201294,
      "learning_rate": 1.4095816096679155e-05,
      "loss": 0.28163738250732423,
      "memory(GiB)": 73.83,
      "step": 88110,
      "token_acc": 0.9305555555555556,
      "train_speed(iter/s)": 1.456793
    },
    {
      "epoch": 3.7751167473544407,
      "grad_norm": 3.450664520263672,
      "learning_rate": 1.409113279077297e-05,
      "loss": 0.6055199146270752,
      "memory(GiB)": 73.83,
      "step": 88115,
      "token_acc": 0.8773841961852861,
      "train_speed(iter/s)": 1.456792
    },
    {
      "epoch": 3.7753309626836895,
      "grad_norm": 3.0984714031219482,
      "learning_rate": 1.40864501353896e-05,
      "loss": 0.3809164047241211,
      "memory(GiB)": 73.83,
      "step": 88120,
      "token_acc": 0.9090909090909091,
      "train_speed(iter/s)": 1.456792
    },
    {
      "epoch": 3.7755451780129388,
      "grad_norm": 3.3192341327667236,
      "learning_rate": 1.4081768130613877e-05,
      "loss": 0.3897262096405029,
      "memory(GiB)": 73.83,
      "step": 88125,
      "token_acc": 0.9032258064516129,
      "train_speed(iter/s)": 1.456801
    },
    {
      "epoch": 3.7757593933421876,
      "grad_norm": 5.356209754943848,
      "learning_rate": 1.4077086776530618e-05,
      "loss": 0.5977663516998291,
      "memory(GiB)": 73.83,
      "step": 88130,
      "token_acc": 0.8613861386138614,
      "train_speed(iter/s)": 1.456801
    },
    {
      "epoch": 3.7759736086714364,
      "grad_norm": 2.903724431991577,
      "learning_rate": 1.4072406073224608e-05,
      "loss": 0.45613579750061034,
      "memory(GiB)": 73.83,
      "step": 88135,
      "token_acc": 0.896875,
      "train_speed(iter/s)": 1.456804
    },
    {
      "epoch": 3.7761878240006856,
      "grad_norm": 4.213232040405273,
      "learning_rate": 1.4067726020780675e-05,
      "loss": 0.37814922332763673,
      "memory(GiB)": 73.83,
      "step": 88140,
      "token_acc": 0.9358490566037736,
      "train_speed(iter/s)": 1.456815
    },
    {
      "epoch": 3.7764020393299345,
      "grad_norm": 2.580904006958008,
      "learning_rate": 1.4063046619283604e-05,
      "loss": 0.35132005214691164,
      "memory(GiB)": 73.83,
      "step": 88145,
      "token_acc": 0.9292307692307692,
      "train_speed(iter/s)": 1.456814
    },
    {
      "epoch": 3.7766162546591833,
      "grad_norm": 3.8372132778167725,
      "learning_rate": 1.4058367868818156e-05,
      "loss": 0.38877644538879397,
      "memory(GiB)": 73.83,
      "step": 88150,
      "token_acc": 0.9016393442622951,
      "train_speed(iter/s)": 1.456815
    },
    {
      "epoch": 3.7768304699884325,
      "grad_norm": 1.4773447513580322,
      "learning_rate": 1.4053689769469085e-05,
      "loss": 0.4701677322387695,
      "memory(GiB)": 73.83,
      "step": 88155,
      "token_acc": 0.8870967741935484,
      "train_speed(iter/s)": 1.456818
    },
    {
      "epoch": 3.7770446853176813,
      "grad_norm": 3.652554512023926,
      "learning_rate": 1.4049012321321147e-05,
      "loss": 0.29754798412322997,
      "memory(GiB)": 73.83,
      "step": 88160,
      "token_acc": 0.9130434782608695,
      "train_speed(iter/s)": 1.456821
    },
    {
      "epoch": 3.77725890064693,
      "grad_norm": 1.2534102201461792,
      "learning_rate": 1.4044335524459078e-05,
      "loss": 0.19804657697677613,
      "memory(GiB)": 73.83,
      "step": 88165,
      "token_acc": 0.953125,
      "train_speed(iter/s)": 1.456836
    },
    {
      "epoch": 3.7774731159761794,
      "grad_norm": 3.5923354625701904,
      "learning_rate": 1.4039659378967584e-05,
      "loss": 0.46805105209350584,
      "memory(GiB)": 73.83,
      "step": 88170,
      "token_acc": 0.8900343642611683,
      "train_speed(iter/s)": 1.456859
    },
    {
      "epoch": 3.777687331305428,
      "grad_norm": 2.3633527755737305,
      "learning_rate": 1.4034983884931407e-05,
      "loss": 0.5085732460021972,
      "memory(GiB)": 73.83,
      "step": 88175,
      "token_acc": 0.8846153846153846,
      "train_speed(iter/s)": 1.45687
    },
    {
      "epoch": 3.777901546634677,
      "grad_norm": 4.123544216156006,
      "learning_rate": 1.4030309042435236e-05,
      "loss": 0.2081777572631836,
      "memory(GiB)": 73.83,
      "step": 88180,
      "token_acc": 0.9470404984423676,
      "train_speed(iter/s)": 1.456873
    },
    {
      "epoch": 3.7781157619639263,
      "grad_norm": 4.17136812210083,
      "learning_rate": 1.4025634851563762e-05,
      "loss": 0.3354024410247803,
      "memory(GiB)": 73.83,
      "step": 88185,
      "token_acc": 0.9186746987951807,
      "train_speed(iter/s)": 1.456874
    },
    {
      "epoch": 3.778329977293175,
      "grad_norm": 1.6605355739593506,
      "learning_rate": 1.4020961312401653e-05,
      "loss": 0.2461474895477295,
      "memory(GiB)": 73.83,
      "step": 88190,
      "token_acc": 0.9364548494983278,
      "train_speed(iter/s)": 1.456879
    },
    {
      "epoch": 3.778544192622424,
      "grad_norm": 4.635175704956055,
      "learning_rate": 1.4016288425033574e-05,
      "loss": 0.4268338680267334,
      "memory(GiB)": 73.83,
      "step": 88195,
      "token_acc": 0.92,
      "train_speed(iter/s)": 1.456881
    },
    {
      "epoch": 3.778758407951673,
      "grad_norm": 4.6166090965271,
      "learning_rate": 1.4011616189544197e-05,
      "loss": 0.6041233539581299,
      "memory(GiB)": 73.83,
      "step": 88200,
      "token_acc": 0.8782894736842105,
      "train_speed(iter/s)": 1.456882
    },
    {
      "epoch": 3.778972623280922,
      "grad_norm": 2.845432996749878,
      "learning_rate": 1.4006944606018147e-05,
      "loss": 0.2894142627716064,
      "memory(GiB)": 73.83,
      "step": 88205,
      "token_acc": 0.9407665505226481,
      "train_speed(iter/s)": 1.456886
    },
    {
      "epoch": 3.779186838610171,
      "grad_norm": 2.505445957183838,
      "learning_rate": 1.4002273674540067e-05,
      "loss": 0.3616512298583984,
      "memory(GiB)": 73.83,
      "step": 88210,
      "token_acc": 0.9233038348082596,
      "train_speed(iter/s)": 1.456889
    },
    {
      "epoch": 3.77940105393942,
      "grad_norm": 3.2208778858184814,
      "learning_rate": 1.3997603395194548e-05,
      "loss": 0.1678795576095581,
      "memory(GiB)": 73.83,
      "step": 88215,
      "token_acc": 0.9545454545454546,
      "train_speed(iter/s)": 1.456897
    },
    {
      "epoch": 3.779615269268669,
      "grad_norm": 0.7334513664245605,
      "learning_rate": 1.3992933768066235e-05,
      "loss": 0.1099295973777771,
      "memory(GiB)": 73.83,
      "step": 88220,
      "token_acc": 0.9706959706959707,
      "train_speed(iter/s)": 1.456901
    },
    {
      "epoch": 3.7798294845979177,
      "grad_norm": 2.411384105682373,
      "learning_rate": 1.3988264793239702e-05,
      "loss": 0.24616823196411133,
      "memory(GiB)": 73.83,
      "step": 88225,
      "token_acc": 0.9261744966442953,
      "train_speed(iter/s)": 1.456906
    },
    {
      "epoch": 3.780043699927167,
      "grad_norm": 5.995630741119385,
      "learning_rate": 1.398359647079952e-05,
      "loss": 0.3973590850830078,
      "memory(GiB)": 73.83,
      "step": 88230,
      "token_acc": 0.9312977099236641,
      "train_speed(iter/s)": 1.456923
    },
    {
      "epoch": 3.7802579152564157,
      "grad_norm": 4.394443035125732,
      "learning_rate": 1.3978928800830288e-05,
      "loss": 0.38198940753936766,
      "memory(GiB)": 73.83,
      "step": 88235,
      "token_acc": 0.920265780730897,
      "train_speed(iter/s)": 1.456933
    },
    {
      "epoch": 3.7804721305856646,
      "grad_norm": 3.2235360145568848,
      "learning_rate": 1.3974261783416554e-05,
      "loss": 0.4461069583892822,
      "memory(GiB)": 73.83,
      "step": 88240,
      "token_acc": 0.9215686274509803,
      "train_speed(iter/s)": 1.456948
    },
    {
      "epoch": 3.780686345914914,
      "grad_norm": 0.6115776300430298,
      "learning_rate": 1.3969595418642862e-05,
      "loss": 0.2951629877090454,
      "memory(GiB)": 73.83,
      "step": 88245,
      "token_acc": 0.9315960912052117,
      "train_speed(iter/s)": 1.456949
    },
    {
      "epoch": 3.7809005612441626,
      "grad_norm": 4.836719512939453,
      "learning_rate": 1.396492970659375e-05,
      "loss": 0.39173736572265627,
      "memory(GiB)": 73.83,
      "step": 88250,
      "token_acc": 0.9306569343065694,
      "train_speed(iter/s)": 1.456948
    },
    {
      "epoch": 3.7811147765734114,
      "grad_norm": 1.4876501560211182,
      "learning_rate": 1.3960264647353721e-05,
      "loss": 0.07967473864555359,
      "memory(GiB)": 73.83,
      "step": 88255,
      "token_acc": 0.9851301115241635,
      "train_speed(iter/s)": 1.456945
    },
    {
      "epoch": 3.7813289919026607,
      "grad_norm": 2.6014058589935303,
      "learning_rate": 1.3955600241007322e-05,
      "loss": 0.29705469608306884,
      "memory(GiB)": 73.83,
      "step": 88260,
      "token_acc": 0.95,
      "train_speed(iter/s)": 1.456953
    },
    {
      "epoch": 3.7815432072319095,
      "grad_norm": 7.084413051605225,
      "learning_rate": 1.3950936487639039e-05,
      "loss": 0.3924772500991821,
      "memory(GiB)": 73.83,
      "step": 88265,
      "token_acc": 0.92,
      "train_speed(iter/s)": 1.456966
    },
    {
      "epoch": 3.7817574225611583,
      "grad_norm": 4.621966361999512,
      "learning_rate": 1.3946273387333352e-05,
      "loss": 0.2480093002319336,
      "memory(GiB)": 73.83,
      "step": 88270,
      "token_acc": 0.9591194968553459,
      "train_speed(iter/s)": 1.456973
    },
    {
      "epoch": 3.7819716378904076,
      "grad_norm": 4.75291109085083,
      "learning_rate": 1.3941610940174748e-05,
      "loss": 0.48856382369995116,
      "memory(GiB)": 73.83,
      "step": 88275,
      "token_acc": 0.9028776978417267,
      "train_speed(iter/s)": 1.456975
    },
    {
      "epoch": 3.7821858532196564,
      "grad_norm": 2.7756266593933105,
      "learning_rate": 1.3936949146247675e-05,
      "loss": 0.43760342597961427,
      "memory(GiB)": 73.83,
      "step": 88280,
      "token_acc": 0.90625,
      "train_speed(iter/s)": 1.456988
    },
    {
      "epoch": 3.782400068548905,
      "grad_norm": 0.9339724183082581,
      "learning_rate": 1.3932288005636607e-05,
      "loss": 0.22516329288482667,
      "memory(GiB)": 73.83,
      "step": 88285,
      "token_acc": 0.946843853820598,
      "train_speed(iter/s)": 1.456997
    },
    {
      "epoch": 3.7826142838781545,
      "grad_norm": 0.45739319920539856,
      "learning_rate": 1.3927627518425967e-05,
      "loss": 0.11948771476745605,
      "memory(GiB)": 73.83,
      "step": 88290,
      "token_acc": 0.9676258992805755,
      "train_speed(iter/s)": 1.457005
    },
    {
      "epoch": 3.7828284992074033,
      "grad_norm": 2.1895751953125,
      "learning_rate": 1.3922967684700206e-05,
      "loss": 0.21545469760894775,
      "memory(GiB)": 73.83,
      "step": 88295,
      "token_acc": 0.9473684210526315,
      "train_speed(iter/s)": 1.457016
    },
    {
      "epoch": 3.783042714536652,
      "grad_norm": 2.644301176071167,
      "learning_rate": 1.3918308504543725e-05,
      "loss": 0.25476765632629395,
      "memory(GiB)": 73.83,
      "step": 88300,
      "token_acc": 0.9371069182389937,
      "train_speed(iter/s)": 1.457022
    },
    {
      "epoch": 3.7832569298659013,
      "grad_norm": 4.195491790771484,
      "learning_rate": 1.3913649978040939e-05,
      "loss": 0.416339635848999,
      "memory(GiB)": 73.83,
      "step": 88305,
      "token_acc": 0.9090909090909091,
      "train_speed(iter/s)": 1.457022
    },
    {
      "epoch": 3.78347114519515,
      "grad_norm": 4.5467376708984375,
      "learning_rate": 1.390899210527623e-05,
      "loss": 0.5892419815063477,
      "memory(GiB)": 73.83,
      "step": 88310,
      "token_acc": 0.882943143812709,
      "train_speed(iter/s)": 1.457027
    },
    {
      "epoch": 3.783685360524399,
      "grad_norm": 3.3766067028045654,
      "learning_rate": 1.3904334886333975e-05,
      "loss": 0.33979482650756837,
      "memory(GiB)": 73.83,
      "step": 88315,
      "token_acc": 0.9263565891472868,
      "train_speed(iter/s)": 1.457031
    },
    {
      "epoch": 3.7838995758536482,
      "grad_norm": 2.1209523677825928,
      "learning_rate": 1.3899678321298565e-05,
      "loss": 0.21984195709228516,
      "memory(GiB)": 73.83,
      "step": 88320,
      "token_acc": 0.9477911646586346,
      "train_speed(iter/s)": 1.457034
    },
    {
      "epoch": 3.784113791182897,
      "grad_norm": 2.34822940826416,
      "learning_rate": 1.3895022410254348e-05,
      "loss": 0.16399235725402833,
      "memory(GiB)": 73.83,
      "step": 88325,
      "token_acc": 0.9555555555555556,
      "train_speed(iter/s)": 1.457035
    },
    {
      "epoch": 3.784328006512146,
      "grad_norm": 3.1278631687164307,
      "learning_rate": 1.3890367153285672e-05,
      "loss": 0.4156914234161377,
      "memory(GiB)": 73.83,
      "step": 88330,
      "token_acc": 0.923728813559322,
      "train_speed(iter/s)": 1.457049
    },
    {
      "epoch": 3.784542221841395,
      "grad_norm": 5.097813129425049,
      "learning_rate": 1.3885712550476864e-05,
      "loss": 0.3119208812713623,
      "memory(GiB)": 73.83,
      "step": 88335,
      "token_acc": 0.9304635761589404,
      "train_speed(iter/s)": 1.457052
    },
    {
      "epoch": 3.784756437170644,
      "grad_norm": 3.241579294204712,
      "learning_rate": 1.388105860191224e-05,
      "loss": 0.538060998916626,
      "memory(GiB)": 73.83,
      "step": 88340,
      "token_acc": 0.8949044585987261,
      "train_speed(iter/s)": 1.457052
    },
    {
      "epoch": 3.7849706524998927,
      "grad_norm": 2.766648292541504,
      "learning_rate": 1.3876405307676133e-05,
      "loss": 0.3017817735671997,
      "memory(GiB)": 73.83,
      "step": 88345,
      "token_acc": 0.9272151898734177,
      "train_speed(iter/s)": 1.457052
    },
    {
      "epoch": 3.785184867829142,
      "grad_norm": 1.519771933555603,
      "learning_rate": 1.3871752667852833e-05,
      "loss": 0.12503559589385987,
      "memory(GiB)": 73.83,
      "step": 88350,
      "token_acc": 0.9648562300319489,
      "train_speed(iter/s)": 1.457057
    },
    {
      "epoch": 3.785399083158391,
      "grad_norm": 8.596531867980957,
      "learning_rate": 1.3867100682526624e-05,
      "loss": 0.6158252716064453,
      "memory(GiB)": 73.83,
      "step": 88355,
      "token_acc": 0.9055944055944056,
      "train_speed(iter/s)": 1.457057
    },
    {
      "epoch": 3.7856132984876396,
      "grad_norm": 3.0548582077026367,
      "learning_rate": 1.386244935178178e-05,
      "loss": 0.4094383716583252,
      "memory(GiB)": 73.83,
      "step": 88360,
      "token_acc": 0.8942598187311178,
      "train_speed(iter/s)": 1.457054
    },
    {
      "epoch": 3.785827513816889,
      "grad_norm": 3.7040438652038574,
      "learning_rate": 1.3857798675702555e-05,
      "loss": 0.503433084487915,
      "memory(GiB)": 73.83,
      "step": 88365,
      "token_acc": 0.9127906976744186,
      "train_speed(iter/s)": 1.457053
    },
    {
      "epoch": 3.7860417291461377,
      "grad_norm": 4.602436065673828,
      "learning_rate": 1.385314865437322e-05,
      "loss": 0.43120441436767576,
      "memory(GiB)": 73.83,
      "step": 88370,
      "token_acc": 0.900398406374502,
      "train_speed(iter/s)": 1.457063
    },
    {
      "epoch": 3.7862559444753865,
      "grad_norm": 2.964221477508545,
      "learning_rate": 1.3848499287877998e-05,
      "loss": 0.4771317481994629,
      "memory(GiB)": 73.83,
      "step": 88375,
      "token_acc": 0.898360655737705,
      "train_speed(iter/s)": 1.457064
    },
    {
      "epoch": 3.7864701598046357,
      "grad_norm": 6.530442714691162,
      "learning_rate": 1.3843850576301137e-05,
      "loss": 0.25171163082122805,
      "memory(GiB)": 73.83,
      "step": 88380,
      "token_acc": 0.93,
      "train_speed(iter/s)": 1.457065
    },
    {
      "epoch": 3.7866843751338846,
      "grad_norm": 4.519328594207764,
      "learning_rate": 1.3839202519726835e-05,
      "loss": 0.21986637115478516,
      "memory(GiB)": 73.83,
      "step": 88385,
      "token_acc": 0.9448529411764706,
      "train_speed(iter/s)": 1.457077
    },
    {
      "epoch": 3.7868985904631334,
      "grad_norm": 3.0779690742492676,
      "learning_rate": 1.3834555118239306e-05,
      "loss": 0.2490718126296997,
      "memory(GiB)": 73.83,
      "step": 88390,
      "token_acc": 0.9494584837545126,
      "train_speed(iter/s)": 1.457082
    },
    {
      "epoch": 3.7871128057923826,
      "grad_norm": 3.1946208477020264,
      "learning_rate": 1.3829908371922734e-05,
      "loss": 0.32241086959838866,
      "memory(GiB)": 73.83,
      "step": 88395,
      "token_acc": 0.9204152249134948,
      "train_speed(iter/s)": 1.457088
    },
    {
      "epoch": 3.7873270211216314,
      "grad_norm": 1.5969773530960083,
      "learning_rate": 1.382526228086129e-05,
      "loss": 0.6178904056549073,
      "memory(GiB)": 73.83,
      "step": 88400,
      "token_acc": 0.8771929824561403,
      "train_speed(iter/s)": 1.457088
    },
    {
      "epoch": 3.7875412364508803,
      "grad_norm": 1.9816948175430298,
      "learning_rate": 1.3820616845139168e-05,
      "loss": 0.5006093978881836,
      "memory(GiB)": 73.83,
      "step": 88405,
      "token_acc": 0.9271255060728745,
      "train_speed(iter/s)": 1.457094
    },
    {
      "epoch": 3.7877554517801295,
      "grad_norm": 0.09972275048494339,
      "learning_rate": 1.381597206484051e-05,
      "loss": 0.2125955581665039,
      "memory(GiB)": 73.83,
      "step": 88410,
      "token_acc": 0.9588014981273408,
      "train_speed(iter/s)": 1.457095
    },
    {
      "epoch": 3.7879696671093783,
      "grad_norm": 3.3093931674957275,
      "learning_rate": 1.3811327940049462e-05,
      "loss": 0.2723142147064209,
      "memory(GiB)": 73.83,
      "step": 88415,
      "token_acc": 0.9350180505415162,
      "train_speed(iter/s)": 1.457098
    },
    {
      "epoch": 3.788183882438627,
      "grad_norm": 3.6358253955841064,
      "learning_rate": 1.3806684470850156e-05,
      "loss": 0.4129199504852295,
      "memory(GiB)": 73.83,
      "step": 88420,
      "token_acc": 0.9244604316546763,
      "train_speed(iter/s)": 1.457098
    },
    {
      "epoch": 3.7883980977678764,
      "grad_norm": 4.4815354347229,
      "learning_rate": 1.3802041657326698e-05,
      "loss": 0.5469314575195312,
      "memory(GiB)": 73.83,
      "step": 88425,
      "token_acc": 0.8838709677419355,
      "train_speed(iter/s)": 1.457102
    },
    {
      "epoch": 3.788612313097125,
      "grad_norm": 3.8970444202423096,
      "learning_rate": 1.3797399499563229e-05,
      "loss": 0.37824859619140627,
      "memory(GiB)": 73.83,
      "step": 88430,
      "token_acc": 0.8966942148760331,
      "train_speed(iter/s)": 1.457103
    },
    {
      "epoch": 3.788826528426374,
      "grad_norm": 4.211906909942627,
      "learning_rate": 1.3792757997643806e-05,
      "loss": 0.45983190536499025,
      "memory(GiB)": 73.83,
      "step": 88435,
      "token_acc": 0.907051282051282,
      "train_speed(iter/s)": 1.457115
    },
    {
      "epoch": 3.7890407437556233,
      "grad_norm": 0.9726155996322632,
      "learning_rate": 1.3788117151652563e-05,
      "loss": 0.3672039985656738,
      "memory(GiB)": 73.83,
      "step": 88440,
      "token_acc": 0.92,
      "train_speed(iter/s)": 1.457122
    },
    {
      "epoch": 3.789254959084872,
      "grad_norm": 1.9194949865341187,
      "learning_rate": 1.3783476961673541e-05,
      "loss": 0.2607538938522339,
      "memory(GiB)": 73.83,
      "step": 88445,
      "token_acc": 0.9765395894428153,
      "train_speed(iter/s)": 1.457133
    },
    {
      "epoch": 3.789469174414121,
      "grad_norm": 3.9736742973327637,
      "learning_rate": 1.3778837427790809e-05,
      "loss": 0.4226045608520508,
      "memory(GiB)": 73.83,
      "step": 88450,
      "token_acc": 0.9173553719008265,
      "train_speed(iter/s)": 1.457133
    },
    {
      "epoch": 3.78968338974337,
      "grad_norm": 1.555812120437622,
      "learning_rate": 1.3774198550088413e-05,
      "loss": 0.2770125150680542,
      "memory(GiB)": 73.83,
      "step": 88455,
      "token_acc": 0.9415807560137457,
      "train_speed(iter/s)": 1.457134
    },
    {
      "epoch": 3.789897605072619,
      "grad_norm": 1.008170247077942,
      "learning_rate": 1.3769560328650383e-05,
      "loss": 0.12698500156402587,
      "memory(GiB)": 73.83,
      "step": 88460,
      "token_acc": 0.9724137931034482,
      "train_speed(iter/s)": 1.457131
    },
    {
      "epoch": 3.790111820401868,
      "grad_norm": 1.4525030851364136,
      "learning_rate": 1.3764922763560767e-05,
      "loss": 0.15052647590637208,
      "memory(GiB)": 73.83,
      "step": 88465,
      "token_acc": 0.9537953795379538,
      "train_speed(iter/s)": 1.457136
    },
    {
      "epoch": 3.790326035731117,
      "grad_norm": 8.258538246154785,
      "learning_rate": 1.3760285854903566e-05,
      "loss": 0.38093137741088867,
      "memory(GiB)": 73.83,
      "step": 88470,
      "token_acc": 0.9094202898550725,
      "train_speed(iter/s)": 1.457146
    },
    {
      "epoch": 3.790540251060366,
      "grad_norm": 2.407921314239502,
      "learning_rate": 1.3755649602762777e-05,
      "loss": 0.24075047969818114,
      "memory(GiB)": 73.83,
      "step": 88475,
      "token_acc": 0.946843853820598,
      "train_speed(iter/s)": 1.457149
    },
    {
      "epoch": 3.7907544663896147,
      "grad_norm": 1.6778743267059326,
      "learning_rate": 1.3751014007222402e-05,
      "loss": 0.3443167686462402,
      "memory(GiB)": 73.83,
      "step": 88480,
      "token_acc": 0.9066666666666666,
      "train_speed(iter/s)": 1.457168
    },
    {
      "epoch": 3.790968681718864,
      "grad_norm": 4.132898807525635,
      "learning_rate": 1.3746379068366394e-05,
      "loss": 0.39044556617736814,
      "memory(GiB)": 73.83,
      "step": 88485,
      "token_acc": 0.9233226837060703,
      "train_speed(iter/s)": 1.457171
    },
    {
      "epoch": 3.7911828970481127,
      "grad_norm": 3.4288530349731445,
      "learning_rate": 1.374174478627876e-05,
      "loss": 0.39546856880187986,
      "memory(GiB)": 73.83,
      "step": 88490,
      "token_acc": 0.9215017064846417,
      "train_speed(iter/s)": 1.457174
    },
    {
      "epoch": 3.7913971123773615,
      "grad_norm": 4.62682580947876,
      "learning_rate": 1.3737111161043426e-05,
      "loss": 0.4137721061706543,
      "memory(GiB)": 73.83,
      "step": 88495,
      "token_acc": 0.930379746835443,
      "train_speed(iter/s)": 1.45718
    },
    {
      "epoch": 3.791611327706611,
      "grad_norm": 3.7608323097229004,
      "learning_rate": 1.3732478192744342e-05,
      "loss": 0.23770203590393066,
      "memory(GiB)": 73.83,
      "step": 88500,
      "token_acc": 0.9583333333333334,
      "train_speed(iter/s)": 1.457188
    },
    {
      "epoch": 3.791611327706611,
      "eval_loss": 2.520193099975586,
      "eval_runtime": 11.4377,
      "eval_samples_per_second": 8.743,
      "eval_steps_per_second": 8.743,
      "eval_token_acc": 0.46473029045643155,
      "step": 88500
    },
    {
      "epoch": 3.7918255430358596,
      "grad_norm": 2.9907424449920654,
      "learning_rate": 1.3727845881465434e-05,
      "loss": 0.16600488424301146,
      "memory(GiB)": 73.83,
      "step": 88505,
      "token_acc": 0.604,
      "train_speed(iter/s)": 1.456891
    },
    {
      "epoch": 3.7920397583651084,
      "grad_norm": 7.0753326416015625,
      "learning_rate": 1.3723214227290615e-05,
      "loss": 0.4355946063995361,
      "memory(GiB)": 73.83,
      "step": 88510,
      "token_acc": 0.9159663865546218,
      "train_speed(iter/s)": 1.456897
    },
    {
      "epoch": 3.7922539736943577,
      "grad_norm": 5.118392467498779,
      "learning_rate": 1.3718583230303794e-05,
      "loss": 0.3744483947753906,
      "memory(GiB)": 73.83,
      "step": 88515,
      "token_acc": 0.9186746987951807,
      "train_speed(iter/s)": 1.456894
    },
    {
      "epoch": 3.7924681890236065,
      "grad_norm": 1.5211447477340698,
      "learning_rate": 1.3713952890588894e-05,
      "loss": 0.29867141246795653,
      "memory(GiB)": 73.83,
      "step": 88520,
      "token_acc": 0.9376947040498442,
      "train_speed(iter/s)": 1.456897
    },
    {
      "epoch": 3.7926824043528553,
      "grad_norm": 6.081250190734863,
      "learning_rate": 1.370932320822977e-05,
      "loss": 0.5975732803344727,
      "memory(GiB)": 73.83,
      "step": 88525,
      "token_acc": 0.9029850746268657,
      "train_speed(iter/s)": 1.456905
    },
    {
      "epoch": 3.7928966196821046,
      "grad_norm": 4.0585174560546875,
      "learning_rate": 1.3704694183310301e-05,
      "loss": 0.2027266502380371,
      "memory(GiB)": 73.83,
      "step": 88530,
      "token_acc": 0.953307392996109,
      "train_speed(iter/s)": 1.456911
    },
    {
      "epoch": 3.7931108350113534,
      "grad_norm": 3.2841854095458984,
      "learning_rate": 1.3700065815914348e-05,
      "loss": 0.47589359283447263,
      "memory(GiB)": 73.83,
      "step": 88535,
      "token_acc": 0.900355871886121,
      "train_speed(iter/s)": 1.456927
    },
    {
      "epoch": 3.793325050340602,
      "grad_norm": 4.710651874542236,
      "learning_rate": 1.3695438106125757e-05,
      "loss": 0.7293900966644287,
      "memory(GiB)": 73.83,
      "step": 88540,
      "token_acc": 0.8549382716049383,
      "train_speed(iter/s)": 1.456932
    },
    {
      "epoch": 3.7935392656698514,
      "grad_norm": 4.143630504608154,
      "learning_rate": 1.369081105402834e-05,
      "loss": 0.2016227960586548,
      "memory(GiB)": 73.83,
      "step": 88545,
      "token_acc": 0.9698996655518395,
      "train_speed(iter/s)": 1.456935
    },
    {
      "epoch": 3.7937534809991003,
      "grad_norm": 2.046172857284546,
      "learning_rate": 1.3686184659705959e-05,
      "loss": 0.1062273383140564,
      "memory(GiB)": 73.83,
      "step": 88550,
      "token_acc": 0.9685314685314685,
      "train_speed(iter/s)": 1.456941
    },
    {
      "epoch": 3.793967696328349,
      "grad_norm": 4.243168354034424,
      "learning_rate": 1.368155892324241e-05,
      "loss": 0.4026055335998535,
      "memory(GiB)": 73.83,
      "step": 88555,
      "token_acc": 0.9127272727272727,
      "train_speed(iter/s)": 1.45694
    },
    {
      "epoch": 3.7941819116575983,
      "grad_norm": 2.436600923538208,
      "learning_rate": 1.3676933844721484e-05,
      "loss": 0.2866849899291992,
      "memory(GiB)": 73.83,
      "step": 88560,
      "token_acc": 0.935064935064935,
      "train_speed(iter/s)": 1.45694
    },
    {
      "epoch": 3.794396126986847,
      "grad_norm": 3.3253512382507324,
      "learning_rate": 1.3672309424226981e-05,
      "loss": 0.42428159713745117,
      "memory(GiB)": 73.83,
      "step": 88565,
      "token_acc": 0.8969072164948454,
      "train_speed(iter/s)": 1.456943
    },
    {
      "epoch": 3.794610342316096,
      "grad_norm": 2.539125442504883,
      "learning_rate": 1.3667685661842655e-05,
      "loss": 0.15588984489440919,
      "memory(GiB)": 73.83,
      "step": 88570,
      "token_acc": 0.9550561797752809,
      "train_speed(iter/s)": 1.456943
    },
    {
      "epoch": 3.794824557645345,
      "grad_norm": 4.428744316101074,
      "learning_rate": 1.36630625576523e-05,
      "loss": 0.4510500431060791,
      "memory(GiB)": 73.83,
      "step": 88575,
      "token_acc": 0.9044117647058824,
      "train_speed(iter/s)": 1.456944
    },
    {
      "epoch": 3.795038772974594,
      "grad_norm": 2.417034387588501,
      "learning_rate": 1.3658440111739657e-05,
      "loss": 0.31004602909088136,
      "memory(GiB)": 73.83,
      "step": 88580,
      "token_acc": 0.9391634980988594,
      "train_speed(iter/s)": 1.456947
    },
    {
      "epoch": 3.795252988303843,
      "grad_norm": 3.53369140625,
      "learning_rate": 1.3653818324188444e-05,
      "loss": 0.27495059967041013,
      "memory(GiB)": 73.83,
      "step": 88585,
      "token_acc": 0.9409937888198758,
      "train_speed(iter/s)": 1.456947
    },
    {
      "epoch": 3.795467203633092,
      "grad_norm": 2.9974000453948975,
      "learning_rate": 1.364919719508242e-05,
      "loss": 0.6425052642822265,
      "memory(GiB)": 73.83,
      "step": 88590,
      "token_acc": 0.8866396761133604,
      "train_speed(iter/s)": 1.456949
    },
    {
      "epoch": 3.795681418962341,
      "grad_norm": 1.710260272026062,
      "learning_rate": 1.3644576724505292e-05,
      "loss": 0.19031543731689454,
      "memory(GiB)": 73.83,
      "step": 88595,
      "token_acc": 0.9638989169675091,
      "train_speed(iter/s)": 1.456954
    },
    {
      "epoch": 3.7958956342915897,
      "grad_norm": 2.6909546852111816,
      "learning_rate": 1.3639956912540764e-05,
      "loss": 0.29423458576202394,
      "memory(GiB)": 73.83,
      "step": 88600,
      "token_acc": 0.9431818181818182,
      "train_speed(iter/s)": 1.456956
    },
    {
      "epoch": 3.796109849620839,
      "grad_norm": 2.1830363273620605,
      "learning_rate": 1.3635337759272503e-05,
      "loss": 0.14689942598342895,
      "memory(GiB)": 73.83,
      "step": 88605,
      "token_acc": 0.9644268774703557,
      "train_speed(iter/s)": 1.456959
    },
    {
      "epoch": 3.796324064950088,
      "grad_norm": 11.354378700256348,
      "learning_rate": 1.363071926478423e-05,
      "loss": 0.5218536376953125,
      "memory(GiB)": 73.83,
      "step": 88610,
      "token_acc": 0.9205020920502092,
      "train_speed(iter/s)": 1.456957
    },
    {
      "epoch": 3.7965382802793366,
      "grad_norm": 3.13045597076416,
      "learning_rate": 1.3626101429159593e-05,
      "loss": 0.33273146152496336,
      "memory(GiB)": 73.83,
      "step": 88615,
      "token_acc": 0.9151785714285714,
      "train_speed(iter/s)": 1.456959
    },
    {
      "epoch": 3.796752495608586,
      "grad_norm": 2.1521685123443604,
      "learning_rate": 1.3621484252482252e-05,
      "loss": 0.29184784889221194,
      "memory(GiB)": 73.83,
      "step": 88620,
      "token_acc": 0.9367588932806324,
      "train_speed(iter/s)": 1.456969
    },
    {
      "epoch": 3.7969667109378347,
      "grad_norm": 1.8804973363876343,
      "learning_rate": 1.3616867734835854e-05,
      "loss": 0.41937432289123533,
      "memory(GiB)": 73.83,
      "step": 88625,
      "token_acc": 0.9076923076923077,
      "train_speed(iter/s)": 1.456974
    },
    {
      "epoch": 3.7971809262670835,
      "grad_norm": 1.758719563484192,
      "learning_rate": 1.3612251876304005e-05,
      "loss": 0.2676429510116577,
      "memory(GiB)": 73.83,
      "step": 88630,
      "token_acc": 0.9446494464944649,
      "train_speed(iter/s)": 1.456974
    },
    {
      "epoch": 3.7973951415963327,
      "grad_norm": 1.9822144508361816,
      "learning_rate": 1.3607636676970365e-05,
      "loss": 0.30718460083007815,
      "memory(GiB)": 73.83,
      "step": 88635,
      "token_acc": 0.9426751592356688,
      "train_speed(iter/s)": 1.456977
    },
    {
      "epoch": 3.7976093569255815,
      "grad_norm": 0.9961543679237366,
      "learning_rate": 1.3603022136918526e-05,
      "loss": 0.21139798164367676,
      "memory(GiB)": 73.83,
      "step": 88640,
      "token_acc": 0.94,
      "train_speed(iter/s)": 1.456979
    },
    {
      "epoch": 3.7978235722548304,
      "grad_norm": 4.012458801269531,
      "learning_rate": 1.3598408256232082e-05,
      "loss": 0.3961158275604248,
      "memory(GiB)": 73.83,
      "step": 88645,
      "token_acc": 0.8846153846153846,
      "train_speed(iter/s)": 1.45698
    },
    {
      "epoch": 3.7980377875840796,
      "grad_norm": 2.2158424854278564,
      "learning_rate": 1.3593795034994622e-05,
      "loss": 0.34885568618774415,
      "memory(GiB)": 73.83,
      "step": 88650,
      "token_acc": 0.9087837837837838,
      "train_speed(iter/s)": 1.45698
    },
    {
      "epoch": 3.7982520029133284,
      "grad_norm": 1.9314872026443481,
      "learning_rate": 1.3589182473289703e-05,
      "loss": 0.4627446174621582,
      "memory(GiB)": 73.83,
      "step": 88655,
      "token_acc": 0.892128279883382,
      "train_speed(iter/s)": 1.45698
    },
    {
      "epoch": 3.7984662182425772,
      "grad_norm": 3.0533666610717773,
      "learning_rate": 1.3584570571200895e-05,
      "loss": 0.3048647165298462,
      "memory(GiB)": 73.83,
      "step": 88660,
      "token_acc": 0.9190283400809717,
      "train_speed(iter/s)": 1.456983
    },
    {
      "epoch": 3.7986804335718265,
      "grad_norm": 3.3210456371307373,
      "learning_rate": 1.357995932881177e-05,
      "loss": 0.34237587451934814,
      "memory(GiB)": 73.83,
      "step": 88665,
      "token_acc": 0.9233226837060703,
      "train_speed(iter/s)": 1.456993
    },
    {
      "epoch": 3.7988946489010753,
      "grad_norm": 5.287013530731201,
      "learning_rate": 1.3575348746205847e-05,
      "loss": 0.44275712966918945,
      "memory(GiB)": 73.83,
      "step": 88670,
      "token_acc": 0.9029126213592233,
      "train_speed(iter/s)": 1.456989
    },
    {
      "epoch": 3.799108864230324,
      "grad_norm": 6.218090057373047,
      "learning_rate": 1.3570738823466645e-05,
      "loss": 0.4933112144470215,
      "memory(GiB)": 73.83,
      "step": 88675,
      "token_acc": 0.9143730886850153,
      "train_speed(iter/s)": 1.456985
    },
    {
      "epoch": 3.7993230795595734,
      "grad_norm": 2.9756417274475098,
      "learning_rate": 1.3566129560677687e-05,
      "loss": 0.2312488079071045,
      "memory(GiB)": 73.83,
      "step": 88680,
      "token_acc": 0.9450171821305842,
      "train_speed(iter/s)": 1.456998
    },
    {
      "epoch": 3.799537294888822,
      "grad_norm": 3.540557861328125,
      "learning_rate": 1.3561520957922469e-05,
      "loss": 0.4166999340057373,
      "memory(GiB)": 73.83,
      "step": 88685,
      "token_acc": 0.922509225092251,
      "train_speed(iter/s)": 1.456998
    },
    {
      "epoch": 3.799751510218071,
      "grad_norm": 1.8116025924682617,
      "learning_rate": 1.3556913015284467e-05,
      "loss": 0.28646020889282225,
      "memory(GiB)": 73.83,
      "step": 88690,
      "token_acc": 0.935361216730038,
      "train_speed(iter/s)": 1.457001
    },
    {
      "epoch": 3.7999657255473203,
      "grad_norm": 2.4937336444854736,
      "learning_rate": 1.3552305732847186e-05,
      "loss": 0.3876781940460205,
      "memory(GiB)": 73.83,
      "step": 88695,
      "token_acc": 0.9061488673139159,
      "train_speed(iter/s)": 1.457004
    },
    {
      "epoch": 3.800179940876569,
      "grad_norm": 3.5831198692321777,
      "learning_rate": 1.3547699110694079e-05,
      "loss": 0.34786272048950195,
      "memory(GiB)": 73.83,
      "step": 88700,
      "token_acc": 0.9051987767584098,
      "train_speed(iter/s)": 1.457024
    },
    {
      "epoch": 3.800394156205818,
      "grad_norm": 3.5419509410858154,
      "learning_rate": 1.3543093148908597e-05,
      "loss": 0.19025396108627318,
      "memory(GiB)": 73.83,
      "step": 88705,
      "token_acc": 0.946360153256705,
      "train_speed(iter/s)": 1.457021
    },
    {
      "epoch": 3.800608371535067,
      "grad_norm": 3.1547646522521973,
      "learning_rate": 1.3538487847574183e-05,
      "loss": 0.17297773361206054,
      "memory(GiB)": 73.83,
      "step": 88710,
      "token_acc": 0.95,
      "train_speed(iter/s)": 1.457024
    },
    {
      "epoch": 3.800822586864316,
      "grad_norm": 2.9235212802886963,
      "learning_rate": 1.353388320677425e-05,
      "loss": 0.4811316967010498,
      "memory(GiB)": 73.83,
      "step": 88715,
      "token_acc": 0.9040590405904059,
      "train_speed(iter/s)": 1.457029
    },
    {
      "epoch": 3.8010368021935648,
      "grad_norm": 1.8567113876342773,
      "learning_rate": 1.3529279226592245e-05,
      "loss": 0.26682870388031005,
      "memory(GiB)": 73.83,
      "step": 88720,
      "token_acc": 0.9377162629757786,
      "train_speed(iter/s)": 1.457034
    },
    {
      "epoch": 3.801251017522814,
      "grad_norm": 0.38733482360839844,
      "learning_rate": 1.3524675907111555e-05,
      "loss": 0.18547893762588502,
      "memory(GiB)": 73.83,
      "step": 88725,
      "token_acc": 0.9494584837545126,
      "train_speed(iter/s)": 1.457045
    },
    {
      "epoch": 3.801465232852063,
      "grad_norm": 4.087436676025391,
      "learning_rate": 1.3520073248415565e-05,
      "loss": 0.16862367391586303,
      "memory(GiB)": 73.83,
      "step": 88730,
      "token_acc": 0.9506172839506173,
      "train_speed(iter/s)": 1.457047
    },
    {
      "epoch": 3.8016794481813116,
      "grad_norm": 2.153421401977539,
      "learning_rate": 1.3515471250587686e-05,
      "loss": 0.19620712995529174,
      "memory(GiB)": 73.83,
      "step": 88735,
      "token_acc": 0.9363295880149812,
      "train_speed(iter/s)": 1.457047
    },
    {
      "epoch": 3.801893663510561,
      "grad_norm": 6.074466228485107,
      "learning_rate": 1.3510869913711272e-05,
      "loss": 0.1866615891456604,
      "memory(GiB)": 73.83,
      "step": 88740,
      "token_acc": 0.9649122807017544,
      "train_speed(iter/s)": 1.457045
    },
    {
      "epoch": 3.8021078788398097,
      "grad_norm": 6.06599235534668,
      "learning_rate": 1.3506269237869679e-05,
      "loss": 0.35361537933349607,
      "memory(GiB)": 73.83,
      "step": 88745,
      "token_acc": 0.9367588932806324,
      "train_speed(iter/s)": 1.457045
    },
    {
      "epoch": 3.8023220941690585,
      "grad_norm": 1.9426521062850952,
      "learning_rate": 1.3501669223146236e-05,
      "loss": 0.3799251079559326,
      "memory(GiB)": 73.83,
      "step": 88750,
      "token_acc": 0.9174603174603174,
      "train_speed(iter/s)": 1.457052
    },
    {
      "epoch": 3.802536309498308,
      "grad_norm": 2.195702075958252,
      "learning_rate": 1.3497069869624307e-05,
      "loss": 0.47948784828186036,
      "memory(GiB)": 73.83,
      "step": 88755,
      "token_acc": 0.8942857142857142,
      "train_speed(iter/s)": 1.457054
    },
    {
      "epoch": 3.8027505248275566,
      "grad_norm": 1.1096007823944092,
      "learning_rate": 1.34924711773872e-05,
      "loss": 0.08100058436393738,
      "memory(GiB)": 73.83,
      "step": 88760,
      "token_acc": 0.972972972972973,
      "train_speed(iter/s)": 1.457058
    },
    {
      "epoch": 3.8029647401568054,
      "grad_norm": 4.006720542907715,
      "learning_rate": 1.348787314651822e-05,
      "loss": 0.5187687397003173,
      "memory(GiB)": 73.83,
      "step": 88765,
      "token_acc": 0.89198606271777,
      "train_speed(iter/s)": 1.457057
    },
    {
      "epoch": 3.8031789554860547,
      "grad_norm": 5.188313961029053,
      "learning_rate": 1.3483275777100679e-05,
      "loss": 0.36913561820983887,
      "memory(GiB)": 73.83,
      "step": 88770,
      "token_acc": 0.9235294117647059,
      "train_speed(iter/s)": 1.457059
    },
    {
      "epoch": 3.8033931708153035,
      "grad_norm": 4.449752330780029,
      "learning_rate": 1.3478679069217831e-05,
      "loss": 0.2544647216796875,
      "memory(GiB)": 73.83,
      "step": 88775,
      "token_acc": 0.9282700421940928,
      "train_speed(iter/s)": 1.457061
    },
    {
      "epoch": 3.8036073861445523,
      "grad_norm": 1.4977693557739258,
      "learning_rate": 1.3474083022952987e-05,
      "loss": 0.3329331398010254,
      "memory(GiB)": 73.83,
      "step": 88780,
      "token_acc": 0.9260355029585798,
      "train_speed(iter/s)": 1.457072
    },
    {
      "epoch": 3.8038216014738016,
      "grad_norm": 4.614362716674805,
      "learning_rate": 1.3469487638389394e-05,
      "loss": 0.3831953525543213,
      "memory(GiB)": 73.83,
      "step": 88785,
      "token_acc": 0.9236363636363636,
      "train_speed(iter/s)": 1.457076
    },
    {
      "epoch": 3.8040358168030504,
      "grad_norm": 2.6943013668060303,
      "learning_rate": 1.3464892915610305e-05,
      "loss": 0.38463678359985354,
      "memory(GiB)": 73.83,
      "step": 88790,
      "token_acc": 0.909967845659164,
      "train_speed(iter/s)": 1.457079
    },
    {
      "epoch": 3.804250032132299,
      "grad_norm": 2.5188777446746826,
      "learning_rate": 1.346029885469895e-05,
      "loss": 0.27452127933502196,
      "memory(GiB)": 73.83,
      "step": 88795,
      "token_acc": 0.9345238095238095,
      "train_speed(iter/s)": 1.457082
    },
    {
      "epoch": 3.8044642474615484,
      "grad_norm": 3.9475252628326416,
      "learning_rate": 1.3455705455738543e-05,
      "loss": 0.4682624816894531,
      "memory(GiB)": 73.83,
      "step": 88800,
      "token_acc": 0.9035714285714286,
      "train_speed(iter/s)": 1.457086
    },
    {
      "epoch": 3.8046784627907972,
      "grad_norm": 1.7576967477798462,
      "learning_rate": 1.3451112718812308e-05,
      "loss": 0.3423571825027466,
      "memory(GiB)": 73.83,
      "step": 88805,
      "token_acc": 0.9146341463414634,
      "train_speed(iter/s)": 1.457087
    },
    {
      "epoch": 3.804892678120046,
      "grad_norm": 2.1742186546325684,
      "learning_rate": 1.3446520644003474e-05,
      "loss": 0.408040714263916,
      "memory(GiB)": 73.83,
      "step": 88810,
      "token_acc": 0.9176470588235294,
      "train_speed(iter/s)": 1.457087
    },
    {
      "epoch": 3.8051068934492953,
      "grad_norm": 3.5067648887634277,
      "learning_rate": 1.3441929231395207e-05,
      "loss": 0.3419168949127197,
      "memory(GiB)": 73.83,
      "step": 88815,
      "token_acc": 0.9102990033222591,
      "train_speed(iter/s)": 1.45709
    },
    {
      "epoch": 3.805321108778544,
      "grad_norm": 2.324113130569458,
      "learning_rate": 1.3437338481070689e-05,
      "loss": 0.3187922477722168,
      "memory(GiB)": 73.83,
      "step": 88820,
      "token_acc": 0.9329268292682927,
      "train_speed(iter/s)": 1.457097
    },
    {
      "epoch": 3.805535324107793,
      "grad_norm": 1.1809388399124146,
      "learning_rate": 1.3432748393113075e-05,
      "loss": 0.48137450218200684,
      "memory(GiB)": 73.83,
      "step": 88825,
      "token_acc": 0.9033232628398792,
      "train_speed(iter/s)": 1.457113
    },
    {
      "epoch": 3.805749539437042,
      "grad_norm": 2.7040963172912598,
      "learning_rate": 1.342815896760553e-05,
      "loss": 0.17008495330810547,
      "memory(GiB)": 73.83,
      "step": 88830,
      "token_acc": 0.9771241830065359,
      "train_speed(iter/s)": 1.45712
    },
    {
      "epoch": 3.805963754766291,
      "grad_norm": 16.200450897216797,
      "learning_rate": 1.342357020463118e-05,
      "loss": 0.3219730854034424,
      "memory(GiB)": 73.83,
      "step": 88835,
      "token_acc": 0.9275862068965517,
      "train_speed(iter/s)": 1.457134
    },
    {
      "epoch": 3.80617797009554,
      "grad_norm": 2.23276948928833,
      "learning_rate": 1.3418982104273182e-05,
      "loss": 0.35723395347595216,
      "memory(GiB)": 73.83,
      "step": 88840,
      "token_acc": 0.9025270758122743,
      "train_speed(iter/s)": 1.45713
    },
    {
      "epoch": 3.806392185424789,
      "grad_norm": 2.711451292037964,
      "learning_rate": 1.3414394666614638e-05,
      "loss": 0.3587924957275391,
      "memory(GiB)": 73.83,
      "step": 88845,
      "token_acc": 0.928,
      "train_speed(iter/s)": 1.45713
    },
    {
      "epoch": 3.806606400754038,
      "grad_norm": 1.5188441276550293,
      "learning_rate": 1.3409807891738652e-05,
      "loss": 0.3756037712097168,
      "memory(GiB)": 73.83,
      "step": 88850,
      "token_acc": 0.9034267912772586,
      "train_speed(iter/s)": 1.45714
    },
    {
      "epoch": 3.8068206160832867,
      "grad_norm": 2.898495674133301,
      "learning_rate": 1.3405221779728327e-05,
      "loss": 0.1174772024154663,
      "memory(GiB)": 73.83,
      "step": 88855,
      "token_acc": 0.9779874213836478,
      "train_speed(iter/s)": 1.457144
    },
    {
      "epoch": 3.807034831412536,
      "grad_norm": 1.0761914253234863,
      "learning_rate": 1.3400636330666716e-05,
      "loss": 0.2598790884017944,
      "memory(GiB)": 73.83,
      "step": 88860,
      "token_acc": 0.9466666666666667,
      "train_speed(iter/s)": 1.457146
    },
    {
      "epoch": 3.8072490467417848,
      "grad_norm": 2.0361828804016113,
      "learning_rate": 1.3396051544636928e-05,
      "loss": 0.3408914089202881,
      "memory(GiB)": 73.83,
      "step": 88865,
      "token_acc": 0.9362416107382551,
      "train_speed(iter/s)": 1.45715
    },
    {
      "epoch": 3.8074632620710336,
      "grad_norm": 1.6532117128372192,
      "learning_rate": 1.3391467421722004e-05,
      "loss": 0.3617713212966919,
      "memory(GiB)": 73.83,
      "step": 88870,
      "token_acc": 0.9085173501577287,
      "train_speed(iter/s)": 1.457163
    },
    {
      "epoch": 3.807677477400283,
      "grad_norm": 4.851116180419922,
      "learning_rate": 1.3386883962004992e-05,
      "loss": 0.4590874195098877,
      "memory(GiB)": 73.83,
      "step": 88875,
      "token_acc": 0.9230769230769231,
      "train_speed(iter/s)": 1.457164
    },
    {
      "epoch": 3.8078916927295317,
      "grad_norm": 5.64520788192749,
      "learning_rate": 1.3382301165568905e-05,
      "loss": 0.3979153871536255,
      "memory(GiB)": 73.83,
      "step": 88880,
      "token_acc": 0.9305555555555556,
      "train_speed(iter/s)": 1.457174
    },
    {
      "epoch": 3.8081059080587805,
      "grad_norm": 2.3750674724578857,
      "learning_rate": 1.33777190324968e-05,
      "loss": 0.2935717344284058,
      "memory(GiB)": 73.83,
      "step": 88885,
      "token_acc": 0.941358024691358,
      "train_speed(iter/s)": 1.457174
    },
    {
      "epoch": 3.8083201233880297,
      "grad_norm": 5.567019462585449,
      "learning_rate": 1.3373137562871668e-05,
      "loss": 0.4402009010314941,
      "memory(GiB)": 73.83,
      "step": 88890,
      "token_acc": 0.8900343642611683,
      "train_speed(iter/s)": 1.457179
    },
    {
      "epoch": 3.8085343387172785,
      "grad_norm": 1.6836751699447632,
      "learning_rate": 1.336855675677649e-05,
      "loss": 0.2916707038879395,
      "memory(GiB)": 73.83,
      "step": 88895,
      "token_acc": 0.928125,
      "train_speed(iter/s)": 1.45718
    },
    {
      "epoch": 3.8087485540465273,
      "grad_norm": 2.5001449584960938,
      "learning_rate": 1.3363976614294288e-05,
      "loss": 0.1948784112930298,
      "memory(GiB)": 73.83,
      "step": 88900,
      "token_acc": 0.9551020408163265,
      "train_speed(iter/s)": 1.457181
    },
    {
      "epoch": 3.8089627693757766,
      "grad_norm": 2.848118305206299,
      "learning_rate": 1.3359397135508017e-05,
      "loss": 0.20049328804016114,
      "memory(GiB)": 73.83,
      "step": 88905,
      "token_acc": 0.9583333333333334,
      "train_speed(iter/s)": 1.457178
    },
    {
      "epoch": 3.8091769847050254,
      "grad_norm": 4.302458763122559,
      "learning_rate": 1.3354818320500634e-05,
      "loss": 0.30415565967559816,
      "memory(GiB)": 73.83,
      "step": 88910,
      "token_acc": 0.9274193548387096,
      "train_speed(iter/s)": 1.45718
    },
    {
      "epoch": 3.8093912000342742,
      "grad_norm": 2.962663412094116,
      "learning_rate": 1.3350240169355099e-05,
      "loss": 0.3467595100402832,
      "memory(GiB)": 73.83,
      "step": 88915,
      "token_acc": 0.915057915057915,
      "train_speed(iter/s)": 1.45718
    },
    {
      "epoch": 3.8096054153635235,
      "grad_norm": 3.9264228343963623,
      "learning_rate": 1.3345662682154326e-05,
      "loss": 0.7652600288391114,
      "memory(GiB)": 73.83,
      "step": 88920,
      "token_acc": 0.8765822784810127,
      "train_speed(iter/s)": 1.457185
    },
    {
      "epoch": 3.8098196306927723,
      "grad_norm": 2.215611457824707,
      "learning_rate": 1.3341085858981273e-05,
      "loss": 0.25749294757843016,
      "memory(GiB)": 73.83,
      "step": 88925,
      "token_acc": 0.9285714285714286,
      "train_speed(iter/s)": 1.45719
    },
    {
      "epoch": 3.810033846022021,
      "grad_norm": 1.9741681814193726,
      "learning_rate": 1.3336509699918837e-05,
      "loss": 0.4165189743041992,
      "memory(GiB)": 73.83,
      "step": 88930,
      "token_acc": 0.9126506024096386,
      "train_speed(iter/s)": 1.457189
    },
    {
      "epoch": 3.8102480613512704,
      "grad_norm": 1.1905468702316284,
      "learning_rate": 1.3331934205049924e-05,
      "loss": 0.19900121688842773,
      "memory(GiB)": 73.83,
      "step": 88935,
      "token_acc": 0.9596774193548387,
      "train_speed(iter/s)": 1.45719
    },
    {
      "epoch": 3.810462276680519,
      "grad_norm": 3.0563340187072754,
      "learning_rate": 1.3327359374457415e-05,
      "loss": 0.37336030006408694,
      "memory(GiB)": 73.83,
      "step": 88940,
      "token_acc": 0.9228295819935691,
      "train_speed(iter/s)": 1.457194
    },
    {
      "epoch": 3.810676492009768,
      "grad_norm": 1.0985363721847534,
      "learning_rate": 1.3322785208224181e-05,
      "loss": 0.25724425315856936,
      "memory(GiB)": 73.83,
      "step": 88945,
      "token_acc": 0.9520295202952029,
      "train_speed(iter/s)": 1.457194
    },
    {
      "epoch": 3.8108907073390172,
      "grad_norm": 3.9021739959716797,
      "learning_rate": 1.3318211706433114e-05,
      "loss": 0.1916749358177185,
      "memory(GiB)": 73.83,
      "step": 88950,
      "token_acc": 0.9483870967741935,
      "train_speed(iter/s)": 1.457206
    },
    {
      "epoch": 3.811104922668266,
      "grad_norm": 5.484462261199951,
      "learning_rate": 1.331363886916704e-05,
      "loss": 0.3795084238052368,
      "memory(GiB)": 73.83,
      "step": 88955,
      "token_acc": 0.9273927392739274,
      "train_speed(iter/s)": 1.457205
    },
    {
      "epoch": 3.811319137997515,
      "grad_norm": 5.836116790771484,
      "learning_rate": 1.3309066696508826e-05,
      "loss": 0.6640644073486328,
      "memory(GiB)": 73.83,
      "step": 88960,
      "token_acc": 0.8628048780487805,
      "train_speed(iter/s)": 1.457233
    },
    {
      "epoch": 3.811533353326764,
      "grad_norm": 4.165044784545898,
      "learning_rate": 1.3304495188541283e-05,
      "loss": 0.3203861713409424,
      "memory(GiB)": 73.83,
      "step": 88965,
      "token_acc": 0.9363636363636364,
      "train_speed(iter/s)": 1.457228
    },
    {
      "epoch": 3.811747568656013,
      "grad_norm": 5.877482891082764,
      "learning_rate": 1.3299924345347237e-05,
      "loss": 0.4524073600769043,
      "memory(GiB)": 73.83,
      "step": 88970,
      "token_acc": 0.918918918918919,
      "train_speed(iter/s)": 1.457233
    },
    {
      "epoch": 3.8119617839852618,
      "grad_norm": 6.697021484375,
      "learning_rate": 1.3295354167009489e-05,
      "loss": 0.5628479957580567,
      "memory(GiB)": 73.83,
      "step": 88975,
      "token_acc": 0.8909090909090909,
      "train_speed(iter/s)": 1.457243
    },
    {
      "epoch": 3.812175999314511,
      "grad_norm": 0.12722107768058777,
      "learning_rate": 1.3290784653610817e-05,
      "loss": 0.5682216167449952,
      "memory(GiB)": 73.83,
      "step": 88980,
      "token_acc": 0.8885714285714286,
      "train_speed(iter/s)": 1.457238
    },
    {
      "epoch": 3.81239021464376,
      "grad_norm": 2.2524654865264893,
      "learning_rate": 1.328621580523403e-05,
      "loss": 0.25486633777618406,
      "memory(GiB)": 73.83,
      "step": 88985,
      "token_acc": 0.9315068493150684,
      "train_speed(iter/s)": 1.457247
    },
    {
      "epoch": 3.8126044299730086,
      "grad_norm": 2.8049750328063965,
      "learning_rate": 1.3281647621961885e-05,
      "loss": 0.26191470623016355,
      "memory(GiB)": 73.83,
      "step": 88990,
      "token_acc": 0.9433962264150944,
      "train_speed(iter/s)": 1.457252
    },
    {
      "epoch": 3.812818645302258,
      "grad_norm": 2.0797922611236572,
      "learning_rate": 1.3277080103877138e-05,
      "loss": 0.3286327123641968,
      "memory(GiB)": 73.83,
      "step": 88995,
      "token_acc": 0.928082191780822,
      "train_speed(iter/s)": 1.457266
    },
    {
      "epoch": 3.8130328606315067,
      "grad_norm": 0.7407163381576538,
      "learning_rate": 1.3272513251062535e-05,
      "loss": 0.19406720399856567,
      "memory(GiB)": 73.83,
      "step": 89000,
      "token_acc": 0.9586466165413534,
      "train_speed(iter/s)": 1.45727
    },
    {
      "epoch": 3.8130328606315067,
      "eval_loss": 2.250037431716919,
      "eval_runtime": 11.7355,
      "eval_samples_per_second": 8.521,
      "eval_steps_per_second": 8.521,
      "eval_token_acc": 0.4807692307692308,
      "step": 89000
    },
    {
      "epoch": 3.8132470759607555,
      "grad_norm": 3.7816162109375,
      "learning_rate": 1.3267947063600794e-05,
      "loss": 0.38748555183410643,
      "memory(GiB)": 73.83,
      "step": 89005,
      "token_acc": 0.6071428571428571,
      "train_speed(iter/s)": 1.456978
    },
    {
      "epoch": 3.8134612912900048,
      "grad_norm": 2.1009175777435303,
      "learning_rate": 1.3263381541574659e-05,
      "loss": 0.27103486061096194,
      "memory(GiB)": 73.83,
      "step": 89010,
      "token_acc": 0.9311475409836065,
      "train_speed(iter/s)": 1.456985
    },
    {
      "epoch": 3.8136755066192536,
      "grad_norm": 1.385169506072998,
      "learning_rate": 1.3258816685066832e-05,
      "loss": 0.669259786605835,
      "memory(GiB)": 73.83,
      "step": 89015,
      "token_acc": 0.8910256410256411,
      "train_speed(iter/s)": 1.457004
    },
    {
      "epoch": 3.8138897219485024,
      "grad_norm": 1.638204574584961,
      "learning_rate": 1.3254252494160007e-05,
      "loss": 0.21292293071746826,
      "memory(GiB)": 73.83,
      "step": 89020,
      "token_acc": 0.9469964664310954,
      "train_speed(iter/s)": 1.457006
    },
    {
      "epoch": 3.8141039372777517,
      "grad_norm": 4.090872287750244,
      "learning_rate": 1.3249688968936869e-05,
      "loss": 0.38696064949035647,
      "memory(GiB)": 73.83,
      "step": 89025,
      "token_acc": 0.9026845637583892,
      "train_speed(iter/s)": 1.457008
    },
    {
      "epoch": 3.8143181526070005,
      "grad_norm": 4.3688201904296875,
      "learning_rate": 1.3245126109480076e-05,
      "loss": 0.4872419834136963,
      "memory(GiB)": 73.83,
      "step": 89030,
      "token_acc": 0.9029411764705882,
      "train_speed(iter/s)": 1.457009
    },
    {
      "epoch": 3.8145323679362493,
      "grad_norm": 1.3836475610733032,
      "learning_rate": 1.3240563915872316e-05,
      "loss": 0.28295533657073973,
      "memory(GiB)": 73.83,
      "step": 89035,
      "token_acc": 0.9440298507462687,
      "train_speed(iter/s)": 1.457013
    },
    {
      "epoch": 3.8147465832654985,
      "grad_norm": 3.51057767868042,
      "learning_rate": 1.3236002388196206e-05,
      "loss": 0.24318327903747558,
      "memory(GiB)": 73.83,
      "step": 89040,
      "token_acc": 0.9508196721311475,
      "train_speed(iter/s)": 1.457012
    },
    {
      "epoch": 3.8149607985947473,
      "grad_norm": 2.2884654998779297,
      "learning_rate": 1.3231441526534422e-05,
      "loss": 0.4687757968902588,
      "memory(GiB)": 73.83,
      "step": 89045,
      "token_acc": 0.9094650205761317,
      "train_speed(iter/s)": 1.457014
    },
    {
      "epoch": 3.815175013923996,
      "grad_norm": 3.6652345657348633,
      "learning_rate": 1.3226881330969559e-05,
      "loss": 0.442633056640625,
      "memory(GiB)": 73.83,
      "step": 89050,
      "token_acc": 0.9003831417624522,
      "train_speed(iter/s)": 1.457027
    },
    {
      "epoch": 3.8153892292532454,
      "grad_norm": 4.668616771697998,
      "learning_rate": 1.3222321801584242e-05,
      "loss": 0.32612946033477785,
      "memory(GiB)": 73.83,
      "step": 89055,
      "token_acc": 0.9057377049180327,
      "train_speed(iter/s)": 1.457038
    },
    {
      "epoch": 3.8156034445824942,
      "grad_norm": 2.317929983139038,
      "learning_rate": 1.3217762938461065e-05,
      "loss": 0.47237472534179686,
      "memory(GiB)": 73.83,
      "step": 89060,
      "token_acc": 0.8827586206896552,
      "train_speed(iter/s)": 1.45705
    },
    {
      "epoch": 3.815817659911743,
      "grad_norm": 2.8983778953552246,
      "learning_rate": 1.32132047416826e-05,
      "loss": 0.31597537994384767,
      "memory(GiB)": 73.83,
      "step": 89065,
      "token_acc": 0.952,
      "train_speed(iter/s)": 1.45705
    },
    {
      "epoch": 3.8160318752409923,
      "grad_norm": 0.9461668133735657,
      "learning_rate": 1.3208647211331454e-05,
      "loss": 0.5149258136749267,
      "memory(GiB)": 73.83,
      "step": 89070,
      "token_acc": 0.8846153846153846,
      "train_speed(iter/s)": 1.457054
    },
    {
      "epoch": 3.816246090570241,
      "grad_norm": 3.0785584449768066,
      "learning_rate": 1.3204090347490178e-05,
      "loss": 0.3748481273651123,
      "memory(GiB)": 73.83,
      "step": 89075,
      "token_acc": 0.9245901639344263,
      "train_speed(iter/s)": 1.457053
    },
    {
      "epoch": 3.81646030589949,
      "grad_norm": 0.31157186627388,
      "learning_rate": 1.3199534150241321e-05,
      "loss": 0.3090924501419067,
      "memory(GiB)": 73.83,
      "step": 89080,
      "token_acc": 0.9494584837545126,
      "train_speed(iter/s)": 1.457058
    },
    {
      "epoch": 3.816674521228739,
      "grad_norm": 0.7575863599777222,
      "learning_rate": 1.319497861966743e-05,
      "loss": 0.3888145685195923,
      "memory(GiB)": 73.83,
      "step": 89085,
      "token_acc": 0.8888888888888888,
      "train_speed(iter/s)": 1.457074
    },
    {
      "epoch": 3.816888736557988,
      "grad_norm": 3.702726364135742,
      "learning_rate": 1.3190423755851005e-05,
      "loss": 0.40952210426330565,
      "memory(GiB)": 73.83,
      "step": 89090,
      "token_acc": 0.9297658862876255,
      "train_speed(iter/s)": 1.457075
    },
    {
      "epoch": 3.817102951887237,
      "grad_norm": 1.4493169784545898,
      "learning_rate": 1.3185869558874602e-05,
      "loss": 0.3389871597290039,
      "memory(GiB)": 73.83,
      "step": 89095,
      "token_acc": 0.9422492401215805,
      "train_speed(iter/s)": 1.457074
    },
    {
      "epoch": 3.817317167216486,
      "grad_norm": 8.771236419677734,
      "learning_rate": 1.3181316028820695e-05,
      "loss": 0.6651852607727051,
      "memory(GiB)": 73.83,
      "step": 89100,
      "token_acc": 0.8666666666666667,
      "train_speed(iter/s)": 1.457074
    },
    {
      "epoch": 3.817531382545735,
      "grad_norm": 3.491645574569702,
      "learning_rate": 1.31767631657718e-05,
      "loss": 0.5450372695922852,
      "memory(GiB)": 73.83,
      "step": 89105,
      "token_acc": 0.9024390243902439,
      "train_speed(iter/s)": 1.457096
    },
    {
      "epoch": 3.8177455978749837,
      "grad_norm": 2.1068716049194336,
      "learning_rate": 1.3172210969810378e-05,
      "loss": 0.4559269905090332,
      "memory(GiB)": 73.83,
      "step": 89110,
      "token_acc": 0.8989547038327527,
      "train_speed(iter/s)": 1.457101
    },
    {
      "epoch": 3.817959813204233,
      "grad_norm": 3.072139263153076,
      "learning_rate": 1.3167659441018909e-05,
      "loss": 0.41988444328308105,
      "memory(GiB)": 73.83,
      "step": 89115,
      "token_acc": 0.9180327868852459,
      "train_speed(iter/s)": 1.457107
    },
    {
      "epoch": 3.8181740285334818,
      "grad_norm": 2.357112169265747,
      "learning_rate": 1.3163108579479838e-05,
      "loss": 0.2728205919265747,
      "memory(GiB)": 73.83,
      "step": 89120,
      "token_acc": 0.9315068493150684,
      "train_speed(iter/s)": 1.457108
    },
    {
      "epoch": 3.8183882438627306,
      "grad_norm": 3.6715071201324463,
      "learning_rate": 1.3158558385275594e-05,
      "loss": 0.37722508907318114,
      "memory(GiB)": 73.83,
      "step": 89125,
      "token_acc": 0.9372549019607843,
      "train_speed(iter/s)": 1.457115
    },
    {
      "epoch": 3.81860245919198,
      "grad_norm": 3.2456910610198975,
      "learning_rate": 1.3154008858488643e-05,
      "loss": 0.0854350209236145,
      "memory(GiB)": 73.83,
      "step": 89130,
      "token_acc": 0.9779179810725552,
      "train_speed(iter/s)": 1.457121
    },
    {
      "epoch": 3.8188166745212286,
      "grad_norm": 6.080156326293945,
      "learning_rate": 1.314945999920138e-05,
      "loss": 0.4016472339630127,
      "memory(GiB)": 73.83,
      "step": 89135,
      "token_acc": 0.9096774193548387,
      "train_speed(iter/s)": 1.457123
    },
    {
      "epoch": 3.8190308898504775,
      "grad_norm": 1.558573603630066,
      "learning_rate": 1.3144911807496224e-05,
      "loss": 0.18009812831878663,
      "memory(GiB)": 73.83,
      "step": 89140,
      "token_acc": 0.9556451612903226,
      "train_speed(iter/s)": 1.457136
    },
    {
      "epoch": 3.8192451051797267,
      "grad_norm": 4.053117752075195,
      "learning_rate": 1.3140364283455558e-05,
      "loss": 0.26087982654571534,
      "memory(GiB)": 73.83,
      "step": 89145,
      "token_acc": 0.948948948948949,
      "train_speed(iter/s)": 1.457136
    },
    {
      "epoch": 3.8194593205089755,
      "grad_norm": 3.0979626178741455,
      "learning_rate": 1.3135817427161762e-05,
      "loss": 0.29939894676208495,
      "memory(GiB)": 73.83,
      "step": 89150,
      "token_acc": 0.9056603773584906,
      "train_speed(iter/s)": 1.457139
    },
    {
      "epoch": 3.8196735358382243,
      "grad_norm": 2.464858293533325,
      "learning_rate": 1.3131271238697223e-05,
      "loss": 0.38623623847961425,
      "memory(GiB)": 73.83,
      "step": 89155,
      "token_acc": 0.9156626506024096,
      "train_speed(iter/s)": 1.457142
    },
    {
      "epoch": 3.8198877511674736,
      "grad_norm": 1.6810930967330933,
      "learning_rate": 1.3126725718144295e-05,
      "loss": 0.22565348148345948,
      "memory(GiB)": 73.83,
      "step": 89160,
      "token_acc": 0.9373040752351097,
      "train_speed(iter/s)": 1.457147
    },
    {
      "epoch": 3.8201019664967224,
      "grad_norm": 4.196789264678955,
      "learning_rate": 1.312218086558532e-05,
      "loss": 0.27126944065093994,
      "memory(GiB)": 73.83,
      "step": 89165,
      "token_acc": 0.9222614840989399,
      "train_speed(iter/s)": 1.457151
    },
    {
      "epoch": 3.820316181825971,
      "grad_norm": 5.363186836242676,
      "learning_rate": 1.3117636681102635e-05,
      "loss": 0.3128215789794922,
      "memory(GiB)": 73.83,
      "step": 89170,
      "token_acc": 0.9194139194139194,
      "train_speed(iter/s)": 1.45716
    },
    {
      "epoch": 3.8205303971552205,
      "grad_norm": 8.287461280822754,
      "learning_rate": 1.311309316477854e-05,
      "loss": 0.3651684284210205,
      "memory(GiB)": 73.83,
      "step": 89175,
      "token_acc": 0.9175627240143369,
      "train_speed(iter/s)": 1.457163
    },
    {
      "epoch": 3.8207446124844693,
      "grad_norm": 1.8943554162979126,
      "learning_rate": 1.3108550316695383e-05,
      "loss": 0.3448534727096558,
      "memory(GiB)": 73.83,
      "step": 89180,
      "token_acc": 0.9468085106382979,
      "train_speed(iter/s)": 1.457166
    },
    {
      "epoch": 3.820958827813718,
      "grad_norm": 2.913262128829956,
      "learning_rate": 1.3104008136935431e-05,
      "loss": 0.2641591548919678,
      "memory(GiB)": 73.83,
      "step": 89185,
      "token_acc": 0.928,
      "train_speed(iter/s)": 1.457166
    },
    {
      "epoch": 3.8211730431429674,
      "grad_norm": 2.6010143756866455,
      "learning_rate": 1.3099466625580992e-05,
      "loss": 0.26800026893615725,
      "memory(GiB)": 73.83,
      "step": 89190,
      "token_acc": 0.946236559139785,
      "train_speed(iter/s)": 1.457169
    },
    {
      "epoch": 3.821387258472216,
      "grad_norm": 0.1260673701763153,
      "learning_rate": 1.3094925782714335e-05,
      "loss": 0.2829886913299561,
      "memory(GiB)": 73.83,
      "step": 89195,
      "token_acc": 0.9423076923076923,
      "train_speed(iter/s)": 1.457173
    },
    {
      "epoch": 3.821601473801465,
      "grad_norm": 2.617450475692749,
      "learning_rate": 1.3090385608417716e-05,
      "loss": 0.40515689849853515,
      "memory(GiB)": 73.83,
      "step": 89200,
      "token_acc": 0.9310344827586207,
      "train_speed(iter/s)": 1.457177
    },
    {
      "epoch": 3.8218156891307142,
      "grad_norm": 2.763673782348633,
      "learning_rate": 1.3085846102773386e-05,
      "loss": 0.38201351165771485,
      "memory(GiB)": 73.83,
      "step": 89205,
      "token_acc": 0.9153094462540716,
      "train_speed(iter/s)": 1.457179
    },
    {
      "epoch": 3.822029904459963,
      "grad_norm": 0.609691858291626,
      "learning_rate": 1.3081307265863568e-05,
      "loss": 0.2393643856048584,
      "memory(GiB)": 73.83,
      "step": 89210,
      "token_acc": 0.9344827586206896,
      "train_speed(iter/s)": 1.457179
    },
    {
      "epoch": 3.822244119789212,
      "grad_norm": 2.9034485816955566,
      "learning_rate": 1.3076769097770514e-05,
      "loss": 0.518011999130249,
      "memory(GiB)": 73.83,
      "step": 89215,
      "token_acc": 0.9029411764705882,
      "train_speed(iter/s)": 1.457186
    },
    {
      "epoch": 3.822458335118461,
      "grad_norm": 2.9681813716888428,
      "learning_rate": 1.3072231598576423e-05,
      "loss": 0.5492692947387695,
      "memory(GiB)": 73.83,
      "step": 89220,
      "token_acc": 0.9013605442176871,
      "train_speed(iter/s)": 1.457185
    },
    {
      "epoch": 3.82267255044771,
      "grad_norm": 1.4662150144577026,
      "learning_rate": 1.3067694768363502e-05,
      "loss": 0.28319127559661866,
      "memory(GiB)": 73.83,
      "step": 89225,
      "token_acc": 0.9477124183006536,
      "train_speed(iter/s)": 1.457187
    },
    {
      "epoch": 3.8228867657769587,
      "grad_norm": 3.4911723136901855,
      "learning_rate": 1.3063158607213938e-05,
      "loss": 0.33071844577789306,
      "memory(GiB)": 73.83,
      "step": 89230,
      "token_acc": 0.9264214046822743,
      "train_speed(iter/s)": 1.457186
    },
    {
      "epoch": 3.823100981106208,
      "grad_norm": 5.073183059692383,
      "learning_rate": 1.3058623115209884e-05,
      "loss": 0.6934484481811524,
      "memory(GiB)": 73.83,
      "step": 89235,
      "token_acc": 0.8653198653198653,
      "train_speed(iter/s)": 1.457195
    },
    {
      "epoch": 3.823315196435457,
      "grad_norm": 3.4178853034973145,
      "learning_rate": 1.3054088292433542e-05,
      "loss": 0.4502855777740479,
      "memory(GiB)": 73.83,
      "step": 89240,
      "token_acc": 0.8839285714285714,
      "train_speed(iter/s)": 1.457197
    },
    {
      "epoch": 3.8235294117647056,
      "grad_norm": 4.59379768371582,
      "learning_rate": 1.3049554138967051e-05,
      "loss": 0.6210983276367188,
      "memory(GiB)": 73.83,
      "step": 89245,
      "token_acc": 0.8709677419354839,
      "train_speed(iter/s)": 1.4572
    },
    {
      "epoch": 3.823743627093955,
      "grad_norm": 4.176398277282715,
      "learning_rate": 1.3045020654892537e-05,
      "loss": 0.32607581615448,
      "memory(GiB)": 73.83,
      "step": 89250,
      "token_acc": 0.9013157894736842,
      "train_speed(iter/s)": 1.457213
    },
    {
      "epoch": 3.8239578424232037,
      "grad_norm": 0.5092312097549438,
      "learning_rate": 1.3040487840292148e-05,
      "loss": 0.4953601360321045,
      "memory(GiB)": 73.83,
      "step": 89255,
      "token_acc": 0.917981072555205,
      "train_speed(iter/s)": 1.457216
    },
    {
      "epoch": 3.8241720577524525,
      "grad_norm": 0.2534432113170624,
      "learning_rate": 1.3035955695247998e-05,
      "loss": 0.2859842777252197,
      "memory(GiB)": 73.83,
      "step": 89260,
      "token_acc": 0.9331103678929766,
      "train_speed(iter/s)": 1.457217
    },
    {
      "epoch": 3.8243862730817018,
      "grad_norm": 1.7772616147994995,
      "learning_rate": 1.3031424219842186e-05,
      "loss": 0.30834777355194093,
      "memory(GiB)": 73.83,
      "step": 89265,
      "token_acc": 0.9297658862876255,
      "train_speed(iter/s)": 1.457219
    },
    {
      "epoch": 3.8246004884109506,
      "grad_norm": 2.5155391693115234,
      "learning_rate": 1.3026893414156783e-05,
      "loss": 0.32396886348724363,
      "memory(GiB)": 73.83,
      "step": 89270,
      "token_acc": 0.9328859060402684,
      "train_speed(iter/s)": 1.45722
    },
    {
      "epoch": 3.8248147037401994,
      "grad_norm": 3.467865228652954,
      "learning_rate": 1.3022363278273908e-05,
      "loss": 0.31321940422058103,
      "memory(GiB)": 73.83,
      "step": 89275,
      "token_acc": 0.9246987951807228,
      "train_speed(iter/s)": 1.457236
    },
    {
      "epoch": 3.8250289190694486,
      "grad_norm": 6.733109951019287,
      "learning_rate": 1.3017833812275609e-05,
      "loss": 0.5125834465026855,
      "memory(GiB)": 73.83,
      "step": 89280,
      "token_acc": 0.8782287822878229,
      "train_speed(iter/s)": 1.457242
    },
    {
      "epoch": 3.8252431343986975,
      "grad_norm": 1.9977303743362427,
      "learning_rate": 1.3013305016243949e-05,
      "loss": 0.5859471797943115,
      "memory(GiB)": 73.83,
      "step": 89285,
      "token_acc": 0.9158576051779935,
      "train_speed(iter/s)": 1.457252
    },
    {
      "epoch": 3.8254573497279463,
      "grad_norm": 3.511303186416626,
      "learning_rate": 1.300877689026096e-05,
      "loss": 0.175292706489563,
      "memory(GiB)": 73.83,
      "step": 89290,
      "token_acc": 0.952755905511811,
      "train_speed(iter/s)": 1.45726
    },
    {
      "epoch": 3.8256715650571955,
      "grad_norm": 4.128093719482422,
      "learning_rate": 1.300424943440866e-05,
      "loss": 0.2367017984390259,
      "memory(GiB)": 73.83,
      "step": 89295,
      "token_acc": 0.9367088607594937,
      "train_speed(iter/s)": 1.457262
    },
    {
      "epoch": 3.8258857803864443,
      "grad_norm": 3.275277853012085,
      "learning_rate": 1.2999722648769103e-05,
      "loss": 0.4583712577819824,
      "memory(GiB)": 73.83,
      "step": 89300,
      "token_acc": 0.9208333333333333,
      "train_speed(iter/s)": 1.457268
    },
    {
      "epoch": 3.826099995715693,
      "grad_norm": 2.284900188446045,
      "learning_rate": 1.299519653342428e-05,
      "loss": 0.1951335310935974,
      "memory(GiB)": 73.83,
      "step": 89305,
      "token_acc": 0.9584775086505191,
      "train_speed(iter/s)": 1.457268
    },
    {
      "epoch": 3.8263142110449424,
      "grad_norm": 6.079990386962891,
      "learning_rate": 1.2990671088456186e-05,
      "loss": 0.32642784118652346,
      "memory(GiB)": 73.83,
      "step": 89310,
      "token_acc": 0.9123376623376623,
      "train_speed(iter/s)": 1.45727
    },
    {
      "epoch": 3.826528426374191,
      "grad_norm": 1.8517518043518066,
      "learning_rate": 1.2986146313946807e-05,
      "loss": 0.4126152038574219,
      "memory(GiB)": 73.83,
      "step": 89315,
      "token_acc": 0.9117647058823529,
      "train_speed(iter/s)": 1.457279
    },
    {
      "epoch": 3.82674264170344,
      "grad_norm": 3.0715341567993164,
      "learning_rate": 1.298162220997809e-05,
      "loss": 0.1662973642349243,
      "memory(GiB)": 73.83,
      "step": 89320,
      "token_acc": 0.9536423841059603,
      "train_speed(iter/s)": 1.457278
    },
    {
      "epoch": 3.8269568570326893,
      "grad_norm": 1.126139521598816,
      "learning_rate": 1.2977098776632023e-05,
      "loss": 0.25049331188201907,
      "memory(GiB)": 73.83,
      "step": 89325,
      "token_acc": 0.9630681818181818,
      "train_speed(iter/s)": 1.457279
    },
    {
      "epoch": 3.827171072361938,
      "grad_norm": 2.728590726852417,
      "learning_rate": 1.2972576013990534e-05,
      "loss": 0.23315703868865967,
      "memory(GiB)": 73.83,
      "step": 89330,
      "token_acc": 0.9515570934256056,
      "train_speed(iter/s)": 1.457279
    },
    {
      "epoch": 3.827385287691187,
      "grad_norm": 2.963805675506592,
      "learning_rate": 1.2968053922135576e-05,
      "loss": 0.4190267562866211,
      "memory(GiB)": 73.83,
      "step": 89335,
      "token_acc": 0.9066666666666666,
      "train_speed(iter/s)": 1.457275
    },
    {
      "epoch": 3.827599503020436,
      "grad_norm": 1.7101678848266602,
      "learning_rate": 1.2963532501149062e-05,
      "loss": 0.36665635108947753,
      "memory(GiB)": 73.83,
      "step": 89340,
      "token_acc": 0.9267515923566879,
      "train_speed(iter/s)": 1.457281
    },
    {
      "epoch": 3.827813718349685,
      "grad_norm": 0.3867921233177185,
      "learning_rate": 1.2959011751112898e-05,
      "loss": 0.10416609048843384,
      "memory(GiB)": 73.83,
      "step": 89345,
      "token_acc": 0.9711538461538461,
      "train_speed(iter/s)": 1.457297
    },
    {
      "epoch": 3.828027933678934,
      "grad_norm": 1.4983128309249878,
      "learning_rate": 1.2954491672108987e-05,
      "loss": 0.19866631031036378,
      "memory(GiB)": 73.83,
      "step": 89350,
      "token_acc": 0.9635761589403974,
      "train_speed(iter/s)": 1.457301
    },
    {
      "epoch": 3.828242149008183,
      "grad_norm": 4.405649185180664,
      "learning_rate": 1.294997226421919e-05,
      "loss": 0.7467461585998535,
      "memory(GiB)": 73.83,
      "step": 89355,
      "token_acc": 0.827922077922078,
      "train_speed(iter/s)": 1.457301
    },
    {
      "epoch": 3.828456364337432,
      "grad_norm": 4.933469772338867,
      "learning_rate": 1.294545352752542e-05,
      "loss": 0.3518479347229004,
      "memory(GiB)": 73.83,
      "step": 89360,
      "token_acc": 0.9139072847682119,
      "train_speed(iter/s)": 1.457302
    },
    {
      "epoch": 3.8286705796666807,
      "grad_norm": 4.621524810791016,
      "learning_rate": 1.2940935462109522e-05,
      "loss": 0.32778158187866213,
      "memory(GiB)": 73.83,
      "step": 89365,
      "token_acc": 0.9352941176470588,
      "train_speed(iter/s)": 1.457306
    },
    {
      "epoch": 3.82888479499593,
      "grad_norm": 3.836827278137207,
      "learning_rate": 1.2936418068053335e-05,
      "loss": 0.6267382621765136,
      "memory(GiB)": 73.83,
      "step": 89370,
      "token_acc": 0.8928571428571429,
      "train_speed(iter/s)": 1.457309
    },
    {
      "epoch": 3.8290990103251787,
      "grad_norm": 2.2992801666259766,
      "learning_rate": 1.2931901345438708e-05,
      "loss": 0.4928610801696777,
      "memory(GiB)": 73.83,
      "step": 89375,
      "token_acc": 0.8984615384615384,
      "train_speed(iter/s)": 1.457323
    },
    {
      "epoch": 3.8293132256544276,
      "grad_norm": 4.265336990356445,
      "learning_rate": 1.2927385294347444e-05,
      "loss": 0.4345077991485596,
      "memory(GiB)": 73.83,
      "step": 89380,
      "token_acc": 0.9129129129129129,
      "train_speed(iter/s)": 1.457327
    },
    {
      "epoch": 3.829527440983677,
      "grad_norm": 3.3082540035247803,
      "learning_rate": 1.292286991486139e-05,
      "loss": 0.33842039108276367,
      "memory(GiB)": 73.83,
      "step": 89385,
      "token_acc": 0.9285714285714286,
      "train_speed(iter/s)": 1.45733
    },
    {
      "epoch": 3.8297416563129256,
      "grad_norm": 3.8641653060913086,
      "learning_rate": 1.2918355207062327e-05,
      "loss": 0.5227192401885986,
      "memory(GiB)": 73.83,
      "step": 89390,
      "token_acc": 0.9097222222222222,
      "train_speed(iter/s)": 1.457328
    },
    {
      "epoch": 3.829955871642175,
      "grad_norm": 2.1945009231567383,
      "learning_rate": 1.2913841171032033e-05,
      "loss": 0.34328086376190187,
      "memory(GiB)": 73.83,
      "step": 89395,
      "token_acc": 0.9273356401384083,
      "train_speed(iter/s)": 1.457331
    },
    {
      "epoch": 3.8301700869714237,
      "grad_norm": 2.546400547027588,
      "learning_rate": 1.2909327806852305e-05,
      "loss": 0.8315006256103515,
      "memory(GiB)": 73.83,
      "step": 89400,
      "token_acc": 0.8269230769230769,
      "train_speed(iter/s)": 1.457339
    },
    {
      "epoch": 3.8303843023006725,
      "grad_norm": 5.322629451751709,
      "learning_rate": 1.2904815114604901e-05,
      "loss": 0.46747546195983886,
      "memory(GiB)": 73.83,
      "step": 89405,
      "token_acc": 0.908284023668639,
      "train_speed(iter/s)": 1.457342
    },
    {
      "epoch": 3.8305985176299218,
      "grad_norm": 3.5516486167907715,
      "learning_rate": 1.2900303094371568e-05,
      "loss": 0.8484651565551757,
      "memory(GiB)": 73.83,
      "step": 89410,
      "token_acc": 0.8047945205479452,
      "train_speed(iter/s)": 1.457341
    },
    {
      "epoch": 3.8308127329591706,
      "grad_norm": 4.358623504638672,
      "learning_rate": 1.2895791746234032e-05,
      "loss": 0.3979602098464966,
      "memory(GiB)": 73.83,
      "step": 89415,
      "token_acc": 0.919732441471572,
      "train_speed(iter/s)": 1.457343
    },
    {
      "epoch": 3.8310269482884194,
      "grad_norm": 3.762190818786621,
      "learning_rate": 1.2891281070274052e-05,
      "loss": 0.2910939693450928,
      "memory(GiB)": 73.83,
      "step": 89420,
      "token_acc": 0.9351145038167938,
      "train_speed(iter/s)": 1.45734
    },
    {
      "epoch": 3.8312411636176686,
      "grad_norm": 0.9614093899726868,
      "learning_rate": 1.2886771066573323e-05,
      "loss": 0.19378029108047484,
      "memory(GiB)": 73.83,
      "step": 89425,
      "token_acc": 0.9545454545454546,
      "train_speed(iter/s)": 1.457346
    },
    {
      "epoch": 3.8314553789469175,
      "grad_norm": 2.6606173515319824,
      "learning_rate": 1.2882261735213552e-05,
      "loss": 0.25302674770355227,
      "memory(GiB)": 73.83,
      "step": 89430,
      "token_acc": 0.954248366013072,
      "train_speed(iter/s)": 1.457348
    },
    {
      "epoch": 3.8316695942761663,
      "grad_norm": 0.15792740881443024,
      "learning_rate": 1.2877753076276434e-05,
      "loss": 0.44028172492980955,
      "memory(GiB)": 73.83,
      "step": 89435,
      "token_acc": 0.9068825910931174,
      "train_speed(iter/s)": 1.457353
    },
    {
      "epoch": 3.8318838096054155,
      "grad_norm": 2.6175031661987305,
      "learning_rate": 1.2873245089843621e-05,
      "loss": 0.19942970275878907,
      "memory(GiB)": 73.83,
      "step": 89440,
      "token_acc": 0.9671532846715328,
      "train_speed(iter/s)": 1.457349
    },
    {
      "epoch": 3.8320980249346643,
      "grad_norm": 4.621310710906982,
      "learning_rate": 1.286873777599682e-05,
      "loss": 0.4914806842803955,
      "memory(GiB)": 73.83,
      "step": 89445,
      "token_acc": 0.8888888888888888,
      "train_speed(iter/s)": 1.45735
    },
    {
      "epoch": 3.832312240263913,
      "grad_norm": 3.3213818073272705,
      "learning_rate": 1.2864231134817661e-05,
      "loss": 0.4458664894104004,
      "memory(GiB)": 73.83,
      "step": 89450,
      "token_acc": 0.9087837837837838,
      "train_speed(iter/s)": 1.457353
    },
    {
      "epoch": 3.8325264555931624,
      "grad_norm": 6.759099006652832,
      "learning_rate": 1.2859725166387798e-05,
      "loss": 0.35695490837097166,
      "memory(GiB)": 73.83,
      "step": 89455,
      "token_acc": 0.9212121212121213,
      "train_speed(iter/s)": 1.457356
    },
    {
      "epoch": 3.832740670922411,
      "grad_norm": 0.2380647212266922,
      "learning_rate": 1.2855219870788849e-05,
      "loss": 0.16485223770141602,
      "memory(GiB)": 73.83,
      "step": 89460,
      "token_acc": 0.9682539682539683,
      "train_speed(iter/s)": 1.457363
    },
    {
      "epoch": 3.83295488625166,
      "grad_norm": 2.0765609741210938,
      "learning_rate": 1.2850715248102425e-05,
      "loss": 0.27645819187164306,
      "memory(GiB)": 73.83,
      "step": 89465,
      "token_acc": 0.9516616314199395,
      "train_speed(iter/s)": 1.457369
    },
    {
      "epoch": 3.8331691015809093,
      "grad_norm": 3.9927217960357666,
      "learning_rate": 1.2846211298410155e-05,
      "loss": 0.4372418403625488,
      "memory(GiB)": 73.83,
      "step": 89470,
      "token_acc": 0.9205776173285198,
      "train_speed(iter/s)": 1.457374
    },
    {
      "epoch": 3.833383316910158,
      "grad_norm": 2.753727912902832,
      "learning_rate": 1.2841708021793608e-05,
      "loss": 0.3481900691986084,
      "memory(GiB)": 73.83,
      "step": 89475,
      "token_acc": 0.9230769230769231,
      "train_speed(iter/s)": 1.457381
    },
    {
      "epoch": 3.833597532239407,
      "grad_norm": 2.9406144618988037,
      "learning_rate": 1.2837205418334392e-05,
      "loss": 0.24243764877319335,
      "memory(GiB)": 73.83,
      "step": 89480,
      "token_acc": 0.9436619718309859,
      "train_speed(iter/s)": 1.457397
    },
    {
      "epoch": 3.833811747568656,
      "grad_norm": 3.204026222229004,
      "learning_rate": 1.2832703488114055e-05,
      "loss": 0.269146466255188,
      "memory(GiB)": 73.83,
      "step": 89485,
      "token_acc": 0.9461279461279462,
      "train_speed(iter/s)": 1.457398
    },
    {
      "epoch": 3.834025962897905,
      "grad_norm": 3.1283466815948486,
      "learning_rate": 1.2828202231214171e-05,
      "loss": 0.251559853553772,
      "memory(GiB)": 73.83,
      "step": 89490,
      "token_acc": 0.943217665615142,
      "train_speed(iter/s)": 1.457398
    },
    {
      "epoch": 3.834240178227154,
      "grad_norm": 4.645019054412842,
      "learning_rate": 1.2823701647716269e-05,
      "loss": 0.2473212480545044,
      "memory(GiB)": 73.83,
      "step": 89495,
      "token_acc": 0.966996699669967,
      "train_speed(iter/s)": 1.4574
    },
    {
      "epoch": 3.834454393556403,
      "grad_norm": 0.5934627056121826,
      "learning_rate": 1.281920173770187e-05,
      "loss": 0.5117452144622803,
      "memory(GiB)": 73.83,
      "step": 89500,
      "token_acc": 0.9017543859649123,
      "train_speed(iter/s)": 1.457403
    },
    {
      "epoch": 3.834454393556403,
      "eval_loss": 2.394327163696289,
      "eval_runtime": 11.1893,
      "eval_samples_per_second": 8.937,
      "eval_steps_per_second": 8.937,
      "eval_token_acc": 0.4522875816993464,
      "step": 89500
    },
    {
      "epoch": 3.834668608885652,
      "grad_norm": 1.673627257347107,
      "learning_rate": 1.2814702501252524e-05,
      "loss": 0.26978416442871095,
      "memory(GiB)": 73.83,
      "step": 89505,
      "token_acc": 0.5807984790874525,
      "train_speed(iter/s)": 1.457118
    },
    {
      "epoch": 3.8348828242149007,
      "grad_norm": 6.506279945373535,
      "learning_rate": 1.2810203938449721e-05,
      "loss": 0.4459816932678223,
      "memory(GiB)": 73.83,
      "step": 89510,
      "token_acc": 0.884375,
      "train_speed(iter/s)": 1.457121
    },
    {
      "epoch": 3.83509703954415,
      "grad_norm": 3.3007731437683105,
      "learning_rate": 1.2805706049374967e-05,
      "loss": 0.5556180000305175,
      "memory(GiB)": 73.83,
      "step": 89515,
      "token_acc": 0.8885793871866295,
      "train_speed(iter/s)": 1.457127
    },
    {
      "epoch": 3.8353112548733987,
      "grad_norm": 0.39006999135017395,
      "learning_rate": 1.280120883410974e-05,
      "loss": 0.27123658657073973,
      "memory(GiB)": 73.83,
      "step": 89520,
      "token_acc": 0.9283276450511946,
      "train_speed(iter/s)": 1.457135
    },
    {
      "epoch": 3.8355254702026476,
      "grad_norm": 0.416657030582428,
      "learning_rate": 1.2796712292735491e-05,
      "loss": 0.23994085788726807,
      "memory(GiB)": 73.83,
      "step": 89525,
      "token_acc": 0.9444444444444444,
      "train_speed(iter/s)": 1.457142
    },
    {
      "epoch": 3.835739685531897,
      "grad_norm": 1.410352110862732,
      "learning_rate": 1.2792216425333715e-05,
      "loss": 0.2811130523681641,
      "memory(GiB)": 73.83,
      "step": 89530,
      "token_acc": 0.950354609929078,
      "train_speed(iter/s)": 1.457149
    },
    {
      "epoch": 3.8359539008611456,
      "grad_norm": 2.6053686141967773,
      "learning_rate": 1.2787721231985845e-05,
      "loss": 0.2443610191345215,
      "memory(GiB)": 73.83,
      "step": 89535,
      "token_acc": 0.9363057324840764,
      "train_speed(iter/s)": 1.457152
    },
    {
      "epoch": 3.8361681161903944,
      "grad_norm": 3.5066258907318115,
      "learning_rate": 1.2783226712773305e-05,
      "loss": 0.2823799133300781,
      "memory(GiB)": 73.83,
      "step": 89540,
      "token_acc": 0.9364548494983278,
      "train_speed(iter/s)": 1.457161
    },
    {
      "epoch": 3.8363823315196437,
      "grad_norm": 0.8300315737724304,
      "learning_rate": 1.2778732867777515e-05,
      "loss": 0.2661010980606079,
      "memory(GiB)": 73.83,
      "step": 89545,
      "token_acc": 0.9479553903345725,
      "train_speed(iter/s)": 1.457168
    },
    {
      "epoch": 3.8365965468488925,
      "grad_norm": 5.818176746368408,
      "learning_rate": 1.2774239697079915e-05,
      "loss": 0.6362083435058594,
      "memory(GiB)": 73.83,
      "step": 89550,
      "token_acc": 0.823170731707317,
      "train_speed(iter/s)": 1.45717
    },
    {
      "epoch": 3.8368107621781413,
      "grad_norm": 0.7993121147155762,
      "learning_rate": 1.2769747200761878e-05,
      "loss": 0.21700546741485596,
      "memory(GiB)": 73.83,
      "step": 89555,
      "token_acc": 0.9565217391304348,
      "train_speed(iter/s)": 1.457176
    },
    {
      "epoch": 3.8370249775073906,
      "grad_norm": 4.048269748687744,
      "learning_rate": 1.2765255378904778e-05,
      "loss": 0.2583456993103027,
      "memory(GiB)": 73.83,
      "step": 89560,
      "token_acc": 0.9415204678362573,
      "train_speed(iter/s)": 1.457178
    },
    {
      "epoch": 3.8372391928366394,
      "grad_norm": 2.287994623184204,
      "learning_rate": 1.2760764231590027e-05,
      "loss": 0.15938153266906738,
      "memory(GiB)": 73.83,
      "step": 89565,
      "token_acc": 0.9735973597359736,
      "train_speed(iter/s)": 1.45718
    },
    {
      "epoch": 3.837453408165888,
      "grad_norm": 3.525359630584717,
      "learning_rate": 1.2756273758898962e-05,
      "loss": 0.5944365501403809,
      "memory(GiB)": 73.83,
      "step": 89570,
      "token_acc": 0.8725868725868726,
      "train_speed(iter/s)": 1.457188
    },
    {
      "epoch": 3.8376676234951375,
      "grad_norm": 2.4666686058044434,
      "learning_rate": 1.2751783960912933e-05,
      "loss": 0.31646368503570554,
      "memory(GiB)": 73.83,
      "step": 89575,
      "token_acc": 0.9227941176470589,
      "train_speed(iter/s)": 1.457187
    },
    {
      "epoch": 3.8378818388243863,
      "grad_norm": 1.5351396799087524,
      "learning_rate": 1.2747294837713285e-05,
      "loss": 0.6580258369445801,
      "memory(GiB)": 73.83,
      "step": 89580,
      "token_acc": 0.8936170212765957,
      "train_speed(iter/s)": 1.457197
    },
    {
      "epoch": 3.838096054153635,
      "grad_norm": 3.2422242164611816,
      "learning_rate": 1.2742806389381318e-05,
      "loss": 0.37071616649627687,
      "memory(GiB)": 73.83,
      "step": 89585,
      "token_acc": 0.917910447761194,
      "train_speed(iter/s)": 1.457201
    },
    {
      "epoch": 3.8383102694828843,
      "grad_norm": 2.4957330226898193,
      "learning_rate": 1.2738318615998379e-05,
      "loss": 0.5837108135223389,
      "memory(GiB)": 73.83,
      "step": 89590,
      "token_acc": 0.8880208333333334,
      "train_speed(iter/s)": 1.45722
    },
    {
      "epoch": 3.838524484812133,
      "grad_norm": 2.7270233631134033,
      "learning_rate": 1.273383151764575e-05,
      "loss": 0.44471397399902346,
      "memory(GiB)": 73.83,
      "step": 89595,
      "token_acc": 0.900355871886121,
      "train_speed(iter/s)": 1.457222
    },
    {
      "epoch": 3.838738700141382,
      "grad_norm": 4.087234020233154,
      "learning_rate": 1.2729345094404727e-05,
      "loss": 0.4069051265716553,
      "memory(GiB)": 73.83,
      "step": 89600,
      "token_acc": 0.9102990033222591,
      "train_speed(iter/s)": 1.457219
    },
    {
      "epoch": 3.838952915470631,
      "grad_norm": 0.26143571734428406,
      "learning_rate": 1.2724859346356577e-05,
      "loss": 0.2635300636291504,
      "memory(GiB)": 73.83,
      "step": 89605,
      "token_acc": 0.9448529411764706,
      "train_speed(iter/s)": 1.457219
    },
    {
      "epoch": 3.83916713079988,
      "grad_norm": 2.8486554622650146,
      "learning_rate": 1.2720374273582553e-05,
      "loss": 0.32081735134124756,
      "memory(GiB)": 73.83,
      "step": 89610,
      "token_acc": 0.9539473684210527,
      "train_speed(iter/s)": 1.457224
    },
    {
      "epoch": 3.839381346129129,
      "grad_norm": 0.05879000946879387,
      "learning_rate": 1.2715889876163933e-05,
      "loss": 0.30605862140655515,
      "memory(GiB)": 73.83,
      "step": 89615,
      "token_acc": 0.9379310344827586,
      "train_speed(iter/s)": 1.457242
    },
    {
      "epoch": 3.839595561458378,
      "grad_norm": 2.4468789100646973,
      "learning_rate": 1.2711406154181933e-05,
      "loss": 0.3797661304473877,
      "memory(GiB)": 73.83,
      "step": 89620,
      "token_acc": 0.9153846153846154,
      "train_speed(iter/s)": 1.457251
    },
    {
      "epoch": 3.839809776787627,
      "grad_norm": 1.7187321186065674,
      "learning_rate": 1.27069231077178e-05,
      "loss": 0.375709080696106,
      "memory(GiB)": 73.83,
      "step": 89625,
      "token_acc": 0.9440993788819876,
      "train_speed(iter/s)": 1.457251
    },
    {
      "epoch": 3.8400239921168757,
      "grad_norm": 4.413370609283447,
      "learning_rate": 1.270244073685274e-05,
      "loss": 0.34961373805999757,
      "memory(GiB)": 73.83,
      "step": 89630,
      "token_acc": 0.9147727272727273,
      "train_speed(iter/s)": 1.457254
    },
    {
      "epoch": 3.840238207446125,
      "grad_norm": 0.5263944268226624,
      "learning_rate": 1.269795904166795e-05,
      "loss": 0.2742105722427368,
      "memory(GiB)": 73.83,
      "step": 89635,
      "token_acc": 0.9380530973451328,
      "train_speed(iter/s)": 1.45726
    },
    {
      "epoch": 3.840452422775374,
      "grad_norm": 0.6510595083236694,
      "learning_rate": 1.2693478022244631e-05,
      "loss": 0.3288670778274536,
      "memory(GiB)": 73.83,
      "step": 89640,
      "token_acc": 0.9205776173285198,
      "train_speed(iter/s)": 1.457267
    },
    {
      "epoch": 3.8406666381046226,
      "grad_norm": 4.708770275115967,
      "learning_rate": 1.268899767866394e-05,
      "loss": 0.5544778347015381,
      "memory(GiB)": 73.83,
      "step": 89645,
      "token_acc": 0.8653846153846154,
      "train_speed(iter/s)": 1.457259
    },
    {
      "epoch": 3.840880853433872,
      "grad_norm": 5.914555549621582,
      "learning_rate": 1.2684518011007062e-05,
      "loss": 0.6864283084869385,
      "memory(GiB)": 73.83,
      "step": 89650,
      "token_acc": 0.863768115942029,
      "train_speed(iter/s)": 1.457278
    },
    {
      "epoch": 3.8410950687631207,
      "grad_norm": 4.489391326904297,
      "learning_rate": 1.2680039019355156e-05,
      "loss": 0.2920753717422485,
      "memory(GiB)": 73.83,
      "step": 89655,
      "token_acc": 0.9263157894736842,
      "train_speed(iter/s)": 1.457294
    },
    {
      "epoch": 3.8413092840923695,
      "grad_norm": 1.480999231338501,
      "learning_rate": 1.2675560703789347e-05,
      "loss": 0.3149597406387329,
      "memory(GiB)": 73.83,
      "step": 89660,
      "token_acc": 0.9357142857142857,
      "train_speed(iter/s)": 1.457303
    },
    {
      "epoch": 3.8415234994216187,
      "grad_norm": 4.419018745422363,
      "learning_rate": 1.2671083064390765e-05,
      "loss": 0.4292929649353027,
      "memory(GiB)": 73.83,
      "step": 89665,
      "token_acc": 0.9102990033222591,
      "train_speed(iter/s)": 1.457305
    },
    {
      "epoch": 3.8417377147508676,
      "grad_norm": 1.6658402681350708,
      "learning_rate": 1.2666606101240525e-05,
      "loss": 0.38507676124572754,
      "memory(GiB)": 73.83,
      "step": 89670,
      "token_acc": 0.8988439306358381,
      "train_speed(iter/s)": 1.457309
    },
    {
      "epoch": 3.8419519300801164,
      "grad_norm": 1.477668046951294,
      "learning_rate": 1.2662129814419742e-05,
      "loss": 0.34076247215270994,
      "memory(GiB)": 73.83,
      "step": 89675,
      "token_acc": 0.9304635761589404,
      "train_speed(iter/s)": 1.457312
    },
    {
      "epoch": 3.8421661454093656,
      "grad_norm": 3.00964093208313,
      "learning_rate": 1.2657654204009512e-05,
      "loss": 0.22746012210845948,
      "memory(GiB)": 73.83,
      "step": 89680,
      "token_acc": 0.9477611940298507,
      "train_speed(iter/s)": 1.457315
    },
    {
      "epoch": 3.8423803607386144,
      "grad_norm": 4.306890964508057,
      "learning_rate": 1.2653179270090897e-05,
      "loss": 0.45505437850952146,
      "memory(GiB)": 73.83,
      "step": 89685,
      "token_acc": 0.9097472924187726,
      "train_speed(iter/s)": 1.457329
    },
    {
      "epoch": 3.8425945760678633,
      "grad_norm": 2.3975305557250977,
      "learning_rate": 1.2648705012744983e-05,
      "loss": 0.4228024482727051,
      "memory(GiB)": 73.83,
      "step": 89690,
      "token_acc": 0.907185628742515,
      "train_speed(iter/s)": 1.457326
    },
    {
      "epoch": 3.8428087913971125,
      "grad_norm": 2.2259974479675293,
      "learning_rate": 1.2644231432052794e-05,
      "loss": 0.3930291414260864,
      "memory(GiB)": 73.83,
      "step": 89695,
      "token_acc": 0.9152542372881356,
      "train_speed(iter/s)": 1.457336
    },
    {
      "epoch": 3.8430230067263613,
      "grad_norm": 2.675023078918457,
      "learning_rate": 1.2639758528095414e-05,
      "loss": 0.5865394115447998,
      "memory(GiB)": 73.83,
      "step": 89700,
      "token_acc": 0.8821548821548821,
      "train_speed(iter/s)": 1.457345
    },
    {
      "epoch": 3.84323722205561,
      "grad_norm": 3.54189133644104,
      "learning_rate": 1.2635286300953841e-05,
      "loss": 0.47478322982788085,
      "memory(GiB)": 73.83,
      "step": 89705,
      "token_acc": 0.9248366013071896,
      "train_speed(iter/s)": 1.457349
    },
    {
      "epoch": 3.8434514373848594,
      "grad_norm": 2.6250834465026855,
      "learning_rate": 1.2630814750709119e-05,
      "loss": 0.2073514223098755,
      "memory(GiB)": 73.83,
      "step": 89710,
      "token_acc": 0.9572953736654805,
      "train_speed(iter/s)": 1.457357
    },
    {
      "epoch": 3.843665652714108,
      "grad_norm": 2.004713773727417,
      "learning_rate": 1.2626343877442242e-05,
      "loss": 0.20246787071228028,
      "memory(GiB)": 73.83,
      "step": 89715,
      "token_acc": 0.9447852760736196,
      "train_speed(iter/s)": 1.457363
    },
    {
      "epoch": 3.843879868043357,
      "grad_norm": 3.4132866859436035,
      "learning_rate": 1.2621873681234208e-05,
      "loss": 0.33318026065826417,
      "memory(GiB)": 73.83,
      "step": 89720,
      "token_acc": 0.9282868525896414,
      "train_speed(iter/s)": 1.457363
    },
    {
      "epoch": 3.8440940833726063,
      "grad_norm": 14.460667610168457,
      "learning_rate": 1.2617404162165997e-05,
      "loss": 0.4473127365112305,
      "memory(GiB)": 73.83,
      "step": 89725,
      "token_acc": 0.8785942492012779,
      "train_speed(iter/s)": 1.457377
    },
    {
      "epoch": 3.844308298701855,
      "grad_norm": 2.0186030864715576,
      "learning_rate": 1.2612935320318558e-05,
      "loss": 0.40214881896972654,
      "memory(GiB)": 73.83,
      "step": 89730,
      "token_acc": 0.9108527131782945,
      "train_speed(iter/s)": 1.457389
    },
    {
      "epoch": 3.8445225140311043,
      "grad_norm": 3.3075509071350098,
      "learning_rate": 1.2608467155772885e-05,
      "loss": 0.43241395950317385,
      "memory(GiB)": 73.83,
      "step": 89735,
      "token_acc": 0.8803680981595092,
      "train_speed(iter/s)": 1.457394
    },
    {
      "epoch": 3.844736729360353,
      "grad_norm": 3.651207447052002,
      "learning_rate": 1.2603999668609906e-05,
      "loss": 0.5370546340942383,
      "memory(GiB)": 73.83,
      "step": 89740,
      "token_acc": 0.8872727272727273,
      "train_speed(iter/s)": 1.457395
    },
    {
      "epoch": 3.844950944689602,
      "grad_norm": 2.5115163326263428,
      "learning_rate": 1.2599532858910556e-05,
      "loss": 0.26034505367279054,
      "memory(GiB)": 73.83,
      "step": 89745,
      "token_acc": 0.9452554744525548,
      "train_speed(iter/s)": 1.457398
    },
    {
      "epoch": 3.8451651600188512,
      "grad_norm": 2.875990629196167,
      "learning_rate": 1.259506672675575e-05,
      "loss": 0.27001171112060546,
      "memory(GiB)": 73.83,
      "step": 89750,
      "token_acc": 0.9346938775510204,
      "train_speed(iter/s)": 1.457403
    },
    {
      "epoch": 3.8453793753481,
      "grad_norm": 5.02173376083374,
      "learning_rate": 1.2590601272226383e-05,
      "loss": 0.31949167251586913,
      "memory(GiB)": 73.83,
      "step": 89755,
      "token_acc": 0.9385113268608414,
      "train_speed(iter/s)": 1.457406
    },
    {
      "epoch": 3.845593590677349,
      "grad_norm": 0.8828774094581604,
      "learning_rate": 1.2586136495403384e-05,
      "loss": 0.31624276638031007,
      "memory(GiB)": 73.83,
      "step": 89760,
      "token_acc": 0.946236559139785,
      "train_speed(iter/s)": 1.457408
    },
    {
      "epoch": 3.845807806006598,
      "grad_norm": 3.089514970779419,
      "learning_rate": 1.25816723963676e-05,
      "loss": 0.15284936428070067,
      "memory(GiB)": 73.83,
      "step": 89765,
      "token_acc": 0.9609375,
      "train_speed(iter/s)": 1.45742
    },
    {
      "epoch": 3.846022021335847,
      "grad_norm": 4.875441074371338,
      "learning_rate": 1.257720897519994e-05,
      "loss": 0.1267408847808838,
      "memory(GiB)": 73.83,
      "step": 89770,
      "token_acc": 0.9726962457337884,
      "train_speed(iter/s)": 1.457418
    },
    {
      "epoch": 3.8462362366650957,
      "grad_norm": 3.9166054725646973,
      "learning_rate": 1.2572746231981247e-05,
      "loss": 0.26367266178131105,
      "memory(GiB)": 73.83,
      "step": 89775,
      "token_acc": 0.9473684210526315,
      "train_speed(iter/s)": 1.457418
    },
    {
      "epoch": 3.846450451994345,
      "grad_norm": 1.8622535467147827,
      "learning_rate": 1.256828416679236e-05,
      "loss": 0.20538997650146484,
      "memory(GiB)": 73.83,
      "step": 89780,
      "token_acc": 0.9405594405594405,
      "train_speed(iter/s)": 1.457423
    },
    {
      "epoch": 3.846664667323594,
      "grad_norm": 2.2805583477020264,
      "learning_rate": 1.2563822779714125e-05,
      "loss": 0.4130858421325684,
      "memory(GiB)": 73.83,
      "step": 89785,
      "token_acc": 0.9141104294478528,
      "train_speed(iter/s)": 1.457426
    },
    {
      "epoch": 3.8468788826528426,
      "grad_norm": 3.2482235431671143,
      "learning_rate": 1.2559362070827341e-05,
      "loss": 0.1562129497528076,
      "memory(GiB)": 73.83,
      "step": 89790,
      "token_acc": 0.959375,
      "train_speed(iter/s)": 1.457431
    },
    {
      "epoch": 3.847093097982092,
      "grad_norm": 1.6329224109649658,
      "learning_rate": 1.2554902040212846e-05,
      "loss": 0.32967779636383054,
      "memory(GiB)": 73.83,
      "step": 89795,
      "token_acc": 0.9292929292929293,
      "train_speed(iter/s)": 1.457434
    },
    {
      "epoch": 3.8473073133113407,
      "grad_norm": 2.1721041202545166,
      "learning_rate": 1.2550442687951431e-05,
      "loss": 0.22789597511291504,
      "memory(GiB)": 73.83,
      "step": 89800,
      "token_acc": 0.9346938775510204,
      "train_speed(iter/s)": 1.457437
    },
    {
      "epoch": 3.8475215286405895,
      "grad_norm": 3.152730941772461,
      "learning_rate": 1.2545984014123879e-05,
      "loss": 0.42853622436523436,
      "memory(GiB)": 73.83,
      "step": 89805,
      "token_acc": 0.9366197183098591,
      "train_speed(iter/s)": 1.457436
    },
    {
      "epoch": 3.8477357439698388,
      "grad_norm": 2.1413075923919678,
      "learning_rate": 1.2541526018810956e-05,
      "loss": 0.19325697422027588,
      "memory(GiB)": 73.83,
      "step": 89810,
      "token_acc": 0.9571428571428572,
      "train_speed(iter/s)": 1.457442
    },
    {
      "epoch": 3.8479499592990876,
      "grad_norm": 2.946376085281372,
      "learning_rate": 1.253706870209342e-05,
      "loss": 0.37539119720458985,
      "memory(GiB)": 73.83,
      "step": 89815,
      "token_acc": 0.9149560117302052,
      "train_speed(iter/s)": 1.457444
    },
    {
      "epoch": 3.8481641746283364,
      "grad_norm": 1.604448676109314,
      "learning_rate": 1.2532612064052036e-05,
      "loss": 0.23733949661254883,
      "memory(GiB)": 73.83,
      "step": 89820,
      "token_acc": 0.94,
      "train_speed(iter/s)": 1.45745
    },
    {
      "epoch": 3.8483783899575856,
      "grad_norm": 4.976438522338867,
      "learning_rate": 1.2528156104767536e-05,
      "loss": 0.4919173240661621,
      "memory(GiB)": 73.83,
      "step": 89825,
      "token_acc": 0.8820058997050148,
      "train_speed(iter/s)": 1.457452
    },
    {
      "epoch": 3.8485926052868344,
      "grad_norm": 2.5945935249328613,
      "learning_rate": 1.2523700824320638e-05,
      "loss": 0.2056877851486206,
      "memory(GiB)": 73.83,
      "step": 89830,
      "token_acc": 0.9615384615384616,
      "train_speed(iter/s)": 1.457452
    },
    {
      "epoch": 3.8488068206160833,
      "grad_norm": 4.267788410186768,
      "learning_rate": 1.2519246222792053e-05,
      "loss": 0.38594608306884765,
      "memory(GiB)": 73.83,
      "step": 89835,
      "token_acc": 0.9161290322580645,
      "train_speed(iter/s)": 1.457455
    },
    {
      "epoch": 3.8490210359453325,
      "grad_norm": 3.218634843826294,
      "learning_rate": 1.2514792300262474e-05,
      "loss": 0.31998701095581056,
      "memory(GiB)": 73.83,
      "step": 89840,
      "token_acc": 0.9323843416370107,
      "train_speed(iter/s)": 1.457465
    },
    {
      "epoch": 3.8492352512745813,
      "grad_norm": 4.664677619934082,
      "learning_rate": 1.2510339056812603e-05,
      "loss": 0.24486105442047118,
      "memory(GiB)": 73.83,
      "step": 89845,
      "token_acc": 0.9457627118644067,
      "train_speed(iter/s)": 1.457469
    },
    {
      "epoch": 3.84944946660383,
      "grad_norm": 4.773383617401123,
      "learning_rate": 1.25058864925231e-05,
      "loss": 0.6946078300476074,
      "memory(GiB)": 73.83,
      "step": 89850,
      "token_acc": 0.863481228668942,
      "train_speed(iter/s)": 1.457475
    },
    {
      "epoch": 3.8496636819330794,
      "grad_norm": 5.824710845947266,
      "learning_rate": 1.2501434607474644e-05,
      "loss": 0.5318926811218262,
      "memory(GiB)": 73.83,
      "step": 89855,
      "token_acc": 0.8955823293172691,
      "train_speed(iter/s)": 1.457476
    },
    {
      "epoch": 3.849877897262328,
      "grad_norm": 4.021597862243652,
      "learning_rate": 1.249698340174788e-05,
      "loss": 0.5093765735626221,
      "memory(GiB)": 73.83,
      "step": 89860,
      "token_acc": 0.8879310344827587,
      "train_speed(iter/s)": 1.457476
    },
    {
      "epoch": 3.850092112591577,
      "grad_norm": 4.027347087860107,
      "learning_rate": 1.2492532875423445e-05,
      "loss": 0.349655818939209,
      "memory(GiB)": 73.83,
      "step": 89865,
      "token_acc": 0.8939929328621908,
      "train_speed(iter/s)": 1.457478
    },
    {
      "epoch": 3.8503063279208263,
      "grad_norm": 4.20241117477417,
      "learning_rate": 1.248808302858196e-05,
      "loss": 0.31057071685791016,
      "memory(GiB)": 73.83,
      "step": 89870,
      "token_acc": 0.9372822299651568,
      "train_speed(iter/s)": 1.457489
    },
    {
      "epoch": 3.850520543250075,
      "grad_norm": 2.721275568008423,
      "learning_rate": 1.2483633861304023e-05,
      "loss": 0.3758589744567871,
      "memory(GiB)": 73.83,
      "step": 89875,
      "token_acc": 0.9163763066202091,
      "train_speed(iter/s)": 1.457489
    },
    {
      "epoch": 3.850734758579324,
      "grad_norm": 8.012887954711914,
      "learning_rate": 1.2479185373670272e-05,
      "loss": 0.2426370143890381,
      "memory(GiB)": 73.83,
      "step": 89880,
      "token_acc": 0.946843853820598,
      "train_speed(iter/s)": 1.457507
    },
    {
      "epoch": 3.850948973908573,
      "grad_norm": 5.142782211303711,
      "learning_rate": 1.2474737565761268e-05,
      "loss": 0.44075846672058105,
      "memory(GiB)": 73.83,
      "step": 89885,
      "token_acc": 0.9059233449477352,
      "train_speed(iter/s)": 1.457518
    },
    {
      "epoch": 3.851163189237822,
      "grad_norm": 2.96393084526062,
      "learning_rate": 1.24702904376576e-05,
      "loss": 0.20552680492401124,
      "memory(GiB)": 73.83,
      "step": 89890,
      "token_acc": 0.9621993127147767,
      "train_speed(iter/s)": 1.457521
    },
    {
      "epoch": 3.851377404567071,
      "grad_norm": 2.5408027172088623,
      "learning_rate": 1.2465843989439824e-05,
      "loss": 0.4066408634185791,
      "memory(GiB)": 73.83,
      "step": 89895,
      "token_acc": 0.9166666666666666,
      "train_speed(iter/s)": 1.457521
    },
    {
      "epoch": 3.85159161989632,
      "grad_norm": 2.881105899810791,
      "learning_rate": 1.246139822118848e-05,
      "loss": 0.26322226524353026,
      "memory(GiB)": 73.83,
      "step": 89900,
      "token_acc": 0.9381443298969072,
      "train_speed(iter/s)": 1.457528
    },
    {
      "epoch": 3.851805835225569,
      "grad_norm": 4.234750270843506,
      "learning_rate": 1.2456953132984133e-05,
      "loss": 0.28910777568817136,
      "memory(GiB)": 73.83,
      "step": 89905,
      "token_acc": 0.927007299270073,
      "train_speed(iter/s)": 1.457527
    },
    {
      "epoch": 3.8520200505548177,
      "grad_norm": 5.329709529876709,
      "learning_rate": 1.2452508724907303e-05,
      "loss": 0.20626609325408934,
      "memory(GiB)": 73.83,
      "step": 89910,
      "token_acc": 0.9631901840490797,
      "train_speed(iter/s)": 1.45753
    },
    {
      "epoch": 3.852234265884067,
      "grad_norm": 3.0921530723571777,
      "learning_rate": 1.2448064997038483e-05,
      "loss": 0.2691296100616455,
      "memory(GiB)": 73.83,
      "step": 89915,
      "token_acc": 0.9259259259259259,
      "train_speed(iter/s)": 1.457533
    },
    {
      "epoch": 3.8524484812133157,
      "grad_norm": 4.996209621429443,
      "learning_rate": 1.2443621949458206e-05,
      "loss": 0.4237973213195801,
      "memory(GiB)": 73.83,
      "step": 89920,
      "token_acc": 0.9227642276422764,
      "train_speed(iter/s)": 1.457536
    },
    {
      "epoch": 3.8526626965425645,
      "grad_norm": 4.621468544006348,
      "learning_rate": 1.2439179582246952e-05,
      "loss": 0.3503897666931152,
      "memory(GiB)": 73.83,
      "step": 89925,
      "token_acc": 0.9321428571428572,
      "train_speed(iter/s)": 1.457539
    },
    {
      "epoch": 3.852876911871814,
      "grad_norm": 2.7529425621032715,
      "learning_rate": 1.2434737895485188e-05,
      "loss": 0.39475882053375244,
      "memory(GiB)": 73.83,
      "step": 89930,
      "token_acc": 0.9100719424460432,
      "train_speed(iter/s)": 1.457545
    },
    {
      "epoch": 3.8530911272010626,
      "grad_norm": 6.842846393585205,
      "learning_rate": 1.2430296889253378e-05,
      "loss": 0.3444344997406006,
      "memory(GiB)": 73.83,
      "step": 89935,
      "token_acc": 0.9485294117647058,
      "train_speed(iter/s)": 1.457545
    },
    {
      "epoch": 3.8533053425303114,
      "grad_norm": 0.7725549340248108,
      "learning_rate": 1.2425856563631993e-05,
      "loss": 0.1819888949394226,
      "memory(GiB)": 73.83,
      "step": 89940,
      "token_acc": 0.9651898734177216,
      "train_speed(iter/s)": 1.457549
    },
    {
      "epoch": 3.8535195578595607,
      "grad_norm": 6.798842430114746,
      "learning_rate": 1.2421416918701467e-05,
      "loss": 0.45990500450134275,
      "memory(GiB)": 73.83,
      "step": 89945,
      "token_acc": 0.8996138996138996,
      "train_speed(iter/s)": 1.45756
    },
    {
      "epoch": 3.8537337731888095,
      "grad_norm": 4.396656036376953,
      "learning_rate": 1.2416977954542225e-05,
      "loss": 0.42119760513305665,
      "memory(GiB)": 73.83,
      "step": 89950,
      "token_acc": 0.9166666666666666,
      "train_speed(iter/s)": 1.457561
    },
    {
      "epoch": 3.8539479885180583,
      "grad_norm": 4.873146057128906,
      "learning_rate": 1.241253967123468e-05,
      "loss": 0.358493709564209,
      "memory(GiB)": 73.83,
      "step": 89955,
      "token_acc": 0.91701244813278,
      "train_speed(iter/s)": 1.457572
    },
    {
      "epoch": 3.8541622038473076,
      "grad_norm": 1.1649448871612549,
      "learning_rate": 1.2408102068859228e-05,
      "loss": 0.26464688777923584,
      "memory(GiB)": 73.83,
      "step": 89960,
      "token_acc": 0.9467680608365019,
      "train_speed(iter/s)": 1.457577
    },
    {
      "epoch": 3.8543764191765564,
      "grad_norm": 4.948370456695557,
      "learning_rate": 1.2403665147496285e-05,
      "loss": 0.36743528842926027,
      "memory(GiB)": 73.83,
      "step": 89965,
      "token_acc": 0.9267399267399268,
      "train_speed(iter/s)": 1.457584
    },
    {
      "epoch": 3.854590634505805,
      "grad_norm": 2.861097812652588,
      "learning_rate": 1.2399228907226212e-05,
      "loss": 0.37211833000183103,
      "memory(GiB)": 73.83,
      "step": 89970,
      "token_acc": 0.9290540540540541,
      "train_speed(iter/s)": 1.457589
    },
    {
      "epoch": 3.8548048498350544,
      "grad_norm": 1.4576095342636108,
      "learning_rate": 1.2394793348129385e-05,
      "loss": 0.5923669815063477,
      "memory(GiB)": 73.83,
      "step": 89975,
      "token_acc": 0.8828337874659401,
      "train_speed(iter/s)": 1.457602
    },
    {
      "epoch": 3.8550190651643033,
      "grad_norm": 3.8015475273132324,
      "learning_rate": 1.2390358470286151e-05,
      "loss": 0.2943552494049072,
      "memory(GiB)": 73.83,
      "step": 89980,
      "token_acc": 0.95578231292517,
      "train_speed(iter/s)": 1.457602
    },
    {
      "epoch": 3.855233280493552,
      "grad_norm": 3.0733988285064697,
      "learning_rate": 1.2385924273776839e-05,
      "loss": 0.1820844292640686,
      "memory(GiB)": 73.83,
      "step": 89985,
      "token_acc": 0.95703125,
      "train_speed(iter/s)": 1.457605
    },
    {
      "epoch": 3.8554474958228013,
      "grad_norm": 4.699697494506836,
      "learning_rate": 1.2381490758681808e-05,
      "loss": 0.45168018341064453,
      "memory(GiB)": 73.83,
      "step": 89990,
      "token_acc": 0.9192982456140351,
      "train_speed(iter/s)": 1.457608
    },
    {
      "epoch": 3.85566171115205,
      "grad_norm": 4.739465713500977,
      "learning_rate": 1.2377057925081342e-05,
      "loss": 0.28493614196777345,
      "memory(GiB)": 73.83,
      "step": 89995,
      "token_acc": 0.9401408450704225,
      "train_speed(iter/s)": 1.457615
    },
    {
      "epoch": 3.855875926481299,
      "grad_norm": 0.1979711949825287,
      "learning_rate": 1.2372625773055784e-05,
      "loss": 0.4288204193115234,
      "memory(GiB)": 73.83,
      "step": 90000,
      "token_acc": 0.8940809968847352,
      "train_speed(iter/s)": 1.457621
    },
    {
      "epoch": 3.855875926481299,
      "eval_loss": 2.4813294410705566,
      "eval_runtime": 11.1955,
      "eval_samples_per_second": 8.932,
      "eval_steps_per_second": 8.932,
      "eval_token_acc": 0.461133069828722,
      "step": 90000
    },
    {
      "epoch": 3.856090141810548,
      "grad_norm": 4.806739807128906,
      "learning_rate": 1.236819430268541e-05,
      "loss": 0.40329957008361816,
      "memory(GiB)": 73.83,
      "step": 90005,
      "token_acc": 0.5827751196172248,
      "train_speed(iter/s)": 1.457338
    },
    {
      "epoch": 3.856304357139797,
      "grad_norm": 5.686683654785156,
      "learning_rate": 1.2363763514050496e-05,
      "loss": 0.500183391571045,
      "memory(GiB)": 73.83,
      "step": 90010,
      "token_acc": 0.9099378881987578,
      "train_speed(iter/s)": 1.457348
    },
    {
      "epoch": 3.856518572469046,
      "grad_norm": 1.7681432962417603,
      "learning_rate": 1.235933340723131e-05,
      "loss": 0.15034539699554444,
      "memory(GiB)": 73.83,
      "step": 90015,
      "token_acc": 0.9597069597069597,
      "train_speed(iter/s)": 1.457346
    },
    {
      "epoch": 3.856732787798295,
      "grad_norm": 2.9349136352539062,
      "learning_rate": 1.2354903982308098e-05,
      "loss": 0.21499948501586913,
      "memory(GiB)": 73.83,
      "step": 90020,
      "token_acc": 0.9536423841059603,
      "train_speed(iter/s)": 1.457347
    },
    {
      "epoch": 3.856947003127544,
      "grad_norm": 2.645108461380005,
      "learning_rate": 1.2350475239361126e-05,
      "loss": 0.23597075939178466,
      "memory(GiB)": 73.83,
      "step": 90025,
      "token_acc": 0.9517241379310345,
      "train_speed(iter/s)": 1.457355
    },
    {
      "epoch": 3.8571612184567927,
      "grad_norm": 0.41614821553230286,
      "learning_rate": 1.234604717847061e-05,
      "loss": 0.18529168367385865,
      "memory(GiB)": 73.83,
      "step": 90030,
      "token_acc": 0.9446808510638298,
      "train_speed(iter/s)": 1.457359
    },
    {
      "epoch": 3.857375433786042,
      "grad_norm": 3.862795114517212,
      "learning_rate": 1.2341619799716775e-05,
      "loss": 0.2588310718536377,
      "memory(GiB)": 73.83,
      "step": 90035,
      "token_acc": 0.9525691699604744,
      "train_speed(iter/s)": 1.457363
    },
    {
      "epoch": 3.857589649115291,
      "grad_norm": 8.077220916748047,
      "learning_rate": 1.2337193103179823e-05,
      "loss": 0.36286890506744385,
      "memory(GiB)": 73.83,
      "step": 90040,
      "token_acc": 0.9288888888888889,
      "train_speed(iter/s)": 1.457361
    },
    {
      "epoch": 3.8578038644445396,
      "grad_norm": 2.1984524726867676,
      "learning_rate": 1.2332767088939935e-05,
      "loss": 0.5010680198669434,
      "memory(GiB)": 73.83,
      "step": 90045,
      "token_acc": 0.9032258064516129,
      "train_speed(iter/s)": 1.457364
    },
    {
      "epoch": 3.858018079773789,
      "grad_norm": 2.3095309734344482,
      "learning_rate": 1.2328341757077322e-05,
      "loss": 0.1698877215385437,
      "memory(GiB)": 73.83,
      "step": 90050,
      "token_acc": 0.9380804953560371,
      "train_speed(iter/s)": 1.457361
    },
    {
      "epoch": 3.8582322951030377,
      "grad_norm": 1.9761264324188232,
      "learning_rate": 1.2323917107672134e-05,
      "loss": 0.25360538959503176,
      "memory(GiB)": 73.83,
      "step": 90055,
      "token_acc": 0.946875,
      "train_speed(iter/s)": 1.457358
    },
    {
      "epoch": 3.8584465104322865,
      "grad_norm": 1.0605487823486328,
      "learning_rate": 1.2319493140804534e-05,
      "loss": 0.37806949615478513,
      "memory(GiB)": 73.83,
      "step": 90060,
      "token_acc": 0.9333333333333333,
      "train_speed(iter/s)": 1.45736
    },
    {
      "epoch": 3.8586607257615357,
      "grad_norm": 7.771230220794678,
      "learning_rate": 1.2315069856554645e-05,
      "loss": 0.7430219650268555,
      "memory(GiB)": 73.83,
      "step": 90065,
      "token_acc": 0.8517110266159695,
      "train_speed(iter/s)": 1.457359
    },
    {
      "epoch": 3.8588749410907845,
      "grad_norm": 1.2878715991973877,
      "learning_rate": 1.2310647255002634e-05,
      "loss": 0.28627448081970214,
      "memory(GiB)": 73.83,
      "step": 90070,
      "token_acc": 0.9361702127659575,
      "train_speed(iter/s)": 1.457361
    },
    {
      "epoch": 3.8590891564200334,
      "grad_norm": 2.7434139251708984,
      "learning_rate": 1.23062253362286e-05,
      "loss": 0.5407601356506347,
      "memory(GiB)": 73.83,
      "step": 90075,
      "token_acc": 0.8858024691358025,
      "train_speed(iter/s)": 1.457367
    },
    {
      "epoch": 3.8593033717492826,
      "grad_norm": 3.3385863304138184,
      "learning_rate": 1.2301804100312642e-05,
      "loss": 0.2633014678955078,
      "memory(GiB)": 73.83,
      "step": 90080,
      "token_acc": 0.9283276450511946,
      "train_speed(iter/s)": 1.457368
    },
    {
      "epoch": 3.8595175870785314,
      "grad_norm": 3.1813693046569824,
      "learning_rate": 1.229738354733488e-05,
      "loss": 0.2799059391021729,
      "memory(GiB)": 73.83,
      "step": 90085,
      "token_acc": 0.9361022364217252,
      "train_speed(iter/s)": 1.457372
    },
    {
      "epoch": 3.8597318024077802,
      "grad_norm": 1.7382640838623047,
      "learning_rate": 1.229296367737538e-05,
      "loss": 0.26642348766326907,
      "memory(GiB)": 73.83,
      "step": 90090,
      "token_acc": 0.9397163120567376,
      "train_speed(iter/s)": 1.457386
    },
    {
      "epoch": 3.8599460177370295,
      "grad_norm": 3.106786012649536,
      "learning_rate": 1.228854449051422e-05,
      "loss": 0.2535837411880493,
      "memory(GiB)": 73.83,
      "step": 90095,
      "token_acc": 0.939297124600639,
      "train_speed(iter/s)": 1.457383
    },
    {
      "epoch": 3.8601602330662783,
      "grad_norm": 1.9984363317489624,
      "learning_rate": 1.2284125986831452e-05,
      "loss": 0.3563959836959839,
      "memory(GiB)": 73.83,
      "step": 90100,
      "token_acc": 0.9290780141843972,
      "train_speed(iter/s)": 1.457383
    },
    {
      "epoch": 3.860374448395527,
      "grad_norm": 0.08810495585203171,
      "learning_rate": 1.2279708166407106e-05,
      "loss": 0.07364892363548278,
      "memory(GiB)": 73.83,
      "step": 90105,
      "token_acc": 0.9862542955326461,
      "train_speed(iter/s)": 1.457386
    },
    {
      "epoch": 3.8605886637247764,
      "grad_norm": 1.7941850423812866,
      "learning_rate": 1.2275291029321246e-05,
      "loss": 0.24037108421325684,
      "memory(GiB)": 73.83,
      "step": 90110,
      "token_acc": 0.9470198675496688,
      "train_speed(iter/s)": 1.457381
    },
    {
      "epoch": 3.860802879054025,
      "grad_norm": 2.1794633865356445,
      "learning_rate": 1.227087457565388e-05,
      "loss": 0.27299036979675295,
      "memory(GiB)": 73.83,
      "step": 90115,
      "token_acc": 0.9423076923076923,
      "train_speed(iter/s)": 1.457386
    },
    {
      "epoch": 3.861017094383274,
      "grad_norm": 3.2210497856140137,
      "learning_rate": 1.2266458805485009e-05,
      "loss": 0.2833712100982666,
      "memory(GiB)": 73.83,
      "step": 90120,
      "token_acc": 0.9424460431654677,
      "train_speed(iter/s)": 1.457387
    },
    {
      "epoch": 3.8612313097125233,
      "grad_norm": 2.356083869934082,
      "learning_rate": 1.2262043718894633e-05,
      "loss": 0.3288550853729248,
      "memory(GiB)": 73.83,
      "step": 90125,
      "token_acc": 0.9300699300699301,
      "train_speed(iter/s)": 1.457393
    },
    {
      "epoch": 3.861445525041772,
      "grad_norm": 1.2101541757583618,
      "learning_rate": 1.2257629315962726e-05,
      "loss": 0.4526925563812256,
      "memory(GiB)": 73.83,
      "step": 90130,
      "token_acc": 0.9194630872483222,
      "train_speed(iter/s)": 1.457395
    },
    {
      "epoch": 3.861659740371021,
      "grad_norm": 2.5838747024536133,
      "learning_rate": 1.2253215596769285e-05,
      "loss": 0.3231498718261719,
      "memory(GiB)": 73.83,
      "step": 90135,
      "token_acc": 0.9191616766467066,
      "train_speed(iter/s)": 1.457399
    },
    {
      "epoch": 3.86187395570027,
      "grad_norm": 2.44923996925354,
      "learning_rate": 1.2248802561394234e-05,
      "loss": 0.3713390350341797,
      "memory(GiB)": 73.83,
      "step": 90140,
      "token_acc": 0.9198717948717948,
      "train_speed(iter/s)": 1.457403
    },
    {
      "epoch": 3.862088171029519,
      "grad_norm": 1.7816448211669922,
      "learning_rate": 1.2244390209917555e-05,
      "loss": 0.281220531463623,
      "memory(GiB)": 73.83,
      "step": 90145,
      "token_acc": 0.9454545454545454,
      "train_speed(iter/s)": 1.45741
    },
    {
      "epoch": 3.8623023863587678,
      "grad_norm": 1.0256550312042236,
      "learning_rate": 1.2239978542419162e-05,
      "loss": 0.17075731754302978,
      "memory(GiB)": 73.83,
      "step": 90150,
      "token_acc": 0.9509803921568627,
      "train_speed(iter/s)": 1.457412
    },
    {
      "epoch": 3.862516601688017,
      "grad_norm": 3.5504112243652344,
      "learning_rate": 1.2235567558978983e-05,
      "loss": 0.19468886852264405,
      "memory(GiB)": 73.83,
      "step": 90155,
      "token_acc": 0.9623287671232876,
      "train_speed(iter/s)": 1.457416
    },
    {
      "epoch": 3.862730817017266,
      "grad_norm": 3.670356512069702,
      "learning_rate": 1.2231157259676923e-05,
      "loss": 0.38615190982818604,
      "memory(GiB)": 73.83,
      "step": 90160,
      "token_acc": 0.9193083573487032,
      "train_speed(iter/s)": 1.457418
    },
    {
      "epoch": 3.8629450323465147,
      "grad_norm": 3.1300787925720215,
      "learning_rate": 1.2226747644592862e-05,
      "loss": 0.5497417449951172,
      "memory(GiB)": 73.83,
      "step": 90165,
      "token_acc": 0.8717948717948718,
      "train_speed(iter/s)": 1.45742
    },
    {
      "epoch": 3.863159247675764,
      "grad_norm": 4.117883205413818,
      "learning_rate": 1.2222338713806718e-05,
      "loss": 0.13011384010314941,
      "memory(GiB)": 73.83,
      "step": 90170,
      "token_acc": 0.9666666666666667,
      "train_speed(iter/s)": 1.457425
    },
    {
      "epoch": 3.8633734630050127,
      "grad_norm": 5.063903331756592,
      "learning_rate": 1.2217930467398348e-05,
      "loss": 0.37989728450775145,
      "memory(GiB)": 73.83,
      "step": 90175,
      "token_acc": 0.9364548494983278,
      "train_speed(iter/s)": 1.457435
    },
    {
      "epoch": 3.8635876783342615,
      "grad_norm": 4.614716529846191,
      "learning_rate": 1.2213522905447612e-05,
      "loss": 0.4760242462158203,
      "memory(GiB)": 73.83,
      "step": 90180,
      "token_acc": 0.8644578313253012,
      "train_speed(iter/s)": 1.457436
    },
    {
      "epoch": 3.863801893663511,
      "grad_norm": 6.472898483276367,
      "learning_rate": 1.2209116028034351e-05,
      "loss": 0.6448237419128418,
      "memory(GiB)": 73.83,
      "step": 90185,
      "token_acc": 0.8916083916083916,
      "train_speed(iter/s)": 1.457438
    },
    {
      "epoch": 3.8640161089927596,
      "grad_norm": 4.828573226928711,
      "learning_rate": 1.2204709835238388e-05,
      "loss": 0.43872604370117185,
      "memory(GiB)": 73.83,
      "step": 90190,
      "token_acc": 0.9161676646706587,
      "train_speed(iter/s)": 1.457447
    },
    {
      "epoch": 3.8642303243220084,
      "grad_norm": 2.182910680770874,
      "learning_rate": 1.2200304327139578e-05,
      "loss": 0.2390150785446167,
      "memory(GiB)": 73.83,
      "step": 90195,
      "token_acc": 0.937984496124031,
      "train_speed(iter/s)": 1.457444
    },
    {
      "epoch": 3.8644445396512577,
      "grad_norm": 3.638308525085449,
      "learning_rate": 1.2195899503817715e-05,
      "loss": 0.4701512813568115,
      "memory(GiB)": 73.83,
      "step": 90200,
      "token_acc": 0.9012875536480687,
      "train_speed(iter/s)": 1.457448
    },
    {
      "epoch": 3.8646587549805065,
      "grad_norm": 3.2881875038146973,
      "learning_rate": 1.2191495365352596e-05,
      "loss": 0.754229211807251,
      "memory(GiB)": 73.83,
      "step": 90205,
      "token_acc": 0.8783783783783784,
      "train_speed(iter/s)": 1.457443
    },
    {
      "epoch": 3.8648729703097553,
      "grad_norm": 2.447166919708252,
      "learning_rate": 1.2187091911823989e-05,
      "loss": 0.4928779125213623,
      "memory(GiB)": 73.83,
      "step": 90210,
      "token_acc": 0.9102564102564102,
      "train_speed(iter/s)": 1.457438
    },
    {
      "epoch": 3.8650871856390046,
      "grad_norm": 3.4038572311401367,
      "learning_rate": 1.21826891433117e-05,
      "loss": 0.6780456066131592,
      "memory(GiB)": 73.83,
      "step": 90215,
      "token_acc": 0.8673139158576052,
      "train_speed(iter/s)": 1.457437
    },
    {
      "epoch": 3.8653014009682534,
      "grad_norm": 3.956204891204834,
      "learning_rate": 1.2178287059895471e-05,
      "loss": 0.3937422752380371,
      "memory(GiB)": 73.83,
      "step": 90220,
      "token_acc": 0.9087301587301587,
      "train_speed(iter/s)": 1.457438
    },
    {
      "epoch": 3.865515616297502,
      "grad_norm": 4.645510196685791,
      "learning_rate": 1.2173885661655038e-05,
      "loss": 0.5751981258392334,
      "memory(GiB)": 73.83,
      "step": 90225,
      "token_acc": 0.8930817610062893,
      "train_speed(iter/s)": 1.457441
    },
    {
      "epoch": 3.8657298316267514,
      "grad_norm": 1.853915810585022,
      "learning_rate": 1.2169484948670162e-05,
      "loss": 0.4810508728027344,
      "memory(GiB)": 73.83,
      "step": 90230,
      "token_acc": 0.9014084507042254,
      "train_speed(iter/s)": 1.457441
    },
    {
      "epoch": 3.8659440469560002,
      "grad_norm": 3.9416821002960205,
      "learning_rate": 1.2165084921020558e-05,
      "loss": 0.4966928482055664,
      "memory(GiB)": 73.83,
      "step": 90235,
      "token_acc": 0.8981818181818182,
      "train_speed(iter/s)": 1.457453
    },
    {
      "epoch": 3.866158262285249,
      "grad_norm": 2.8704171180725098,
      "learning_rate": 1.216068557878593e-05,
      "loss": 0.2680001974105835,
      "memory(GiB)": 73.83,
      "step": 90240,
      "token_acc": 0.9419795221843004,
      "train_speed(iter/s)": 1.457456
    },
    {
      "epoch": 3.8663724776144983,
      "grad_norm": 2.7927212715148926,
      "learning_rate": 1.215628692204598e-05,
      "loss": 0.37238397598266604,
      "memory(GiB)": 73.83,
      "step": 90245,
      "token_acc": 0.9233128834355828,
      "train_speed(iter/s)": 1.45747
    },
    {
      "epoch": 3.866586692943747,
      "grad_norm": 4.554950714111328,
      "learning_rate": 1.2151888950880374e-05,
      "loss": 0.14976338148117066,
      "memory(GiB)": 73.83,
      "step": 90250,
      "token_acc": 0.9746835443037974,
      "train_speed(iter/s)": 1.457473
    },
    {
      "epoch": 3.866800908272996,
      "grad_norm": 2.50860333442688,
      "learning_rate": 1.2147491665368826e-05,
      "loss": 0.35147318840026853,
      "memory(GiB)": 73.83,
      "step": 90255,
      "token_acc": 0.9288256227758007,
      "train_speed(iter/s)": 1.457474
    },
    {
      "epoch": 3.867015123602245,
      "grad_norm": 3.0630247592926025,
      "learning_rate": 1.214309506559097e-05,
      "loss": 0.4210465431213379,
      "memory(GiB)": 73.83,
      "step": 90260,
      "token_acc": 0.937037037037037,
      "train_speed(iter/s)": 1.457477
    },
    {
      "epoch": 3.867229338931494,
      "grad_norm": 2.8269124031066895,
      "learning_rate": 1.213869915162646e-05,
      "loss": 0.18160852193832397,
      "memory(GiB)": 73.83,
      "step": 90265,
      "token_acc": 0.9631147540983607,
      "train_speed(iter/s)": 1.457476
    },
    {
      "epoch": 3.867443554260743,
      "grad_norm": 5.111919403076172,
      "learning_rate": 1.2134303923554935e-05,
      "loss": 0.4171594619750977,
      "memory(GiB)": 73.83,
      "step": 90270,
      "token_acc": 0.9145907473309609,
      "train_speed(iter/s)": 1.457489
    },
    {
      "epoch": 3.867657769589992,
      "grad_norm": 3.9220895767211914,
      "learning_rate": 1.2129909381455996e-05,
      "loss": 0.2932011127471924,
      "memory(GiB)": 73.83,
      "step": 90275,
      "token_acc": 0.9538461538461539,
      "train_speed(iter/s)": 1.457508
    },
    {
      "epoch": 3.867871984919241,
      "grad_norm": 2.5833663940429688,
      "learning_rate": 1.2125515525409293e-05,
      "loss": 0.1876129150390625,
      "memory(GiB)": 73.83,
      "step": 90280,
      "token_acc": 0.9716981132075472,
      "train_speed(iter/s)": 1.457514
    },
    {
      "epoch": 3.8680862002484897,
      "grad_norm": 4.021392822265625,
      "learning_rate": 1.2121122355494385e-05,
      "loss": 0.32950944900512696,
      "memory(GiB)": 73.83,
      "step": 90285,
      "token_acc": 0.9341692789968652,
      "train_speed(iter/s)": 1.457514
    },
    {
      "epoch": 3.868300415577739,
      "grad_norm": 2.347498655319214,
      "learning_rate": 1.21167298717909e-05,
      "loss": 0.18596528768539428,
      "memory(GiB)": 73.83,
      "step": 90290,
      "token_acc": 0.9570552147239264,
      "train_speed(iter/s)": 1.457523
    },
    {
      "epoch": 3.8685146309069878,
      "grad_norm": 0.16016380488872528,
      "learning_rate": 1.2112338074378381e-05,
      "loss": 0.47811245918273926,
      "memory(GiB)": 73.83,
      "step": 90295,
      "token_acc": 0.9207920792079208,
      "train_speed(iter/s)": 1.457528
    },
    {
      "epoch": 3.8687288462362366,
      "grad_norm": 1.2047635316848755,
      "learning_rate": 1.210794696333641e-05,
      "loss": 0.09452207684516907,
      "memory(GiB)": 73.83,
      "step": 90300,
      "token_acc": 0.9653846153846154,
      "train_speed(iter/s)": 1.457533
    },
    {
      "epoch": 3.868943061565486,
      "grad_norm": 3.549401044845581,
      "learning_rate": 1.210355653874452e-05,
      "loss": 0.4050013542175293,
      "memory(GiB)": 73.83,
      "step": 90305,
      "token_acc": 0.9136904761904762,
      "train_speed(iter/s)": 1.457534
    },
    {
      "epoch": 3.8691572768947347,
      "grad_norm": 1.0841261148452759,
      "learning_rate": 1.2099166800682238e-05,
      "loss": 0.3076289653778076,
      "memory(GiB)": 73.83,
      "step": 90310,
      "token_acc": 0.9246031746031746,
      "train_speed(iter/s)": 1.457537
    },
    {
      "epoch": 3.8693714922239835,
      "grad_norm": 3.77402663230896,
      "learning_rate": 1.209477774922912e-05,
      "loss": 0.5155835628509522,
      "memory(GiB)": 73.83,
      "step": 90315,
      "token_acc": 0.9133574007220217,
      "train_speed(iter/s)": 1.457539
    },
    {
      "epoch": 3.8695857075532327,
      "grad_norm": 2.495979070663452,
      "learning_rate": 1.2090389384464662e-05,
      "loss": 0.34235801696777346,
      "memory(GiB)": 73.83,
      "step": 90320,
      "token_acc": 0.9259259259259259,
      "train_speed(iter/s)": 1.457539
    },
    {
      "epoch": 3.8697999228824815,
      "grad_norm": 10.177538871765137,
      "learning_rate": 1.2086001706468358e-05,
      "loss": 0.39511561393737793,
      "memory(GiB)": 73.83,
      "step": 90325,
      "token_acc": 0.9239543726235742,
      "train_speed(iter/s)": 1.457554
    },
    {
      "epoch": 3.8700141382117303,
      "grad_norm": 0.10641231387853622,
      "learning_rate": 1.2081614715319706e-05,
      "loss": 0.36195385456085205,
      "memory(GiB)": 73.83,
      "step": 90330,
      "token_acc": 0.9070631970260223,
      "train_speed(iter/s)": 1.457559
    },
    {
      "epoch": 3.8702283535409796,
      "grad_norm": 3.1472694873809814,
      "learning_rate": 1.207722841109815e-05,
      "loss": 0.23217742443084716,
      "memory(GiB)": 73.83,
      "step": 90335,
      "token_acc": 0.9370629370629371,
      "train_speed(iter/s)": 1.457562
    },
    {
      "epoch": 3.8704425688702284,
      "grad_norm": 3.0688858032226562,
      "learning_rate": 1.2072842793883199e-05,
      "loss": 0.4226864814758301,
      "memory(GiB)": 73.83,
      "step": 90340,
      "token_acc": 0.8971061093247589,
      "train_speed(iter/s)": 1.457566
    },
    {
      "epoch": 3.8706567841994772,
      "grad_norm": 4.951725482940674,
      "learning_rate": 1.2068457863754273e-05,
      "loss": 0.3048563480377197,
      "memory(GiB)": 73.83,
      "step": 90345,
      "token_acc": 0.931740614334471,
      "train_speed(iter/s)": 1.457568
    },
    {
      "epoch": 3.8708709995287265,
      "grad_norm": 2.439950704574585,
      "learning_rate": 1.2064073620790823e-05,
      "loss": 0.3128660678863525,
      "memory(GiB)": 73.83,
      "step": 90350,
      "token_acc": 0.9349593495934959,
      "train_speed(iter/s)": 1.45757
    },
    {
      "epoch": 3.8710852148579753,
      "grad_norm": 3.8248281478881836,
      "learning_rate": 1.205969006507226e-05,
      "loss": 0.13602793216705322,
      "memory(GiB)": 73.83,
      "step": 90355,
      "token_acc": 0.9508771929824561,
      "train_speed(iter/s)": 1.457581
    },
    {
      "epoch": 3.871299430187224,
      "grad_norm": 1.6617017984390259,
      "learning_rate": 1.205530719667799e-05,
      "loss": 0.15389457941055298,
      "memory(GiB)": 73.83,
      "step": 90360,
      "token_acc": 0.9755351681957186,
      "train_speed(iter/s)": 1.457585
    },
    {
      "epoch": 3.8715136455164734,
      "grad_norm": 2.4739532470703125,
      "learning_rate": 1.2050925015687437e-05,
      "loss": 0.4062896728515625,
      "memory(GiB)": 73.83,
      "step": 90365,
      "token_acc": 0.9056603773584906,
      "train_speed(iter/s)": 1.457598
    },
    {
      "epoch": 3.871727860845722,
      "grad_norm": 0.7302627563476562,
      "learning_rate": 1.2046543522179966e-05,
      "loss": 0.17991070747375487,
      "memory(GiB)": 73.83,
      "step": 90370,
      "token_acc": 0.9585987261146497,
      "train_speed(iter/s)": 1.457602
    },
    {
      "epoch": 3.871942076174971,
      "grad_norm": 5.571044445037842,
      "learning_rate": 1.2042162716234972e-05,
      "loss": 0.3249815464019775,
      "memory(GiB)": 73.83,
      "step": 90375,
      "token_acc": 0.9446494464944649,
      "train_speed(iter/s)": 1.457607
    },
    {
      "epoch": 3.8721562915042202,
      "grad_norm": 1.0400327444076538,
      "learning_rate": 1.2037782597931812e-05,
      "loss": 0.1887362241744995,
      "memory(GiB)": 73.83,
      "step": 90380,
      "token_acc": 0.9601328903654485,
      "train_speed(iter/s)": 1.457608
    },
    {
      "epoch": 3.872370506833469,
      "grad_norm": 4.439963340759277,
      "learning_rate": 1.2033403167349833e-05,
      "loss": 0.24457411766052245,
      "memory(GiB)": 73.83,
      "step": 90385,
      "token_acc": 0.942652329749104,
      "train_speed(iter/s)": 1.45761
    },
    {
      "epoch": 3.872584722162718,
      "grad_norm": 1.2967875003814697,
      "learning_rate": 1.2029024424568363e-05,
      "loss": 0.28574085235595703,
      "memory(GiB)": 73.83,
      "step": 90390,
      "token_acc": 0.9433962264150944,
      "train_speed(iter/s)": 1.457613
    },
    {
      "epoch": 3.872798937491967,
      "grad_norm": 3.647479295730591,
      "learning_rate": 1.2024646369666731e-05,
      "loss": 0.33872523307800295,
      "memory(GiB)": 73.83,
      "step": 90395,
      "token_acc": 0.9212598425196851,
      "train_speed(iter/s)": 1.457627
    },
    {
      "epoch": 3.873013152821216,
      "grad_norm": 5.6863837242126465,
      "learning_rate": 1.202026900272426e-05,
      "loss": 0.5259632110595703,
      "memory(GiB)": 73.83,
      "step": 90400,
      "token_acc": 0.8989169675090253,
      "train_speed(iter/s)": 1.457628
    },
    {
      "epoch": 3.8732273681504648,
      "grad_norm": 2.368912935256958,
      "learning_rate": 1.201589232382025e-05,
      "loss": 0.2677757263183594,
      "memory(GiB)": 73.83,
      "step": 90405,
      "token_acc": 0.9468085106382979,
      "train_speed(iter/s)": 1.457627
    },
    {
      "epoch": 3.873441583479714,
      "grad_norm": 5.095505714416504,
      "learning_rate": 1.2011516333033979e-05,
      "loss": 0.4998190879821777,
      "memory(GiB)": 73.83,
      "step": 90410,
      "token_acc": 0.9094076655052264,
      "train_speed(iter/s)": 1.457627
    },
    {
      "epoch": 3.873655798808963,
      "grad_norm": 4.009832382202148,
      "learning_rate": 1.2007141030444723e-05,
      "loss": 0.45952515602111815,
      "memory(GiB)": 73.83,
      "step": 90415,
      "token_acc": 0.8922558922558923,
      "train_speed(iter/s)": 1.457628
    },
    {
      "epoch": 3.8738700141382116,
      "grad_norm": 1.43552565574646,
      "learning_rate": 1.2002766416131739e-05,
      "loss": 0.21014256477355958,
      "memory(GiB)": 73.83,
      "step": 90420,
      "token_acc": 0.964,
      "train_speed(iter/s)": 1.457637
    },
    {
      "epoch": 3.874084229467461,
      "grad_norm": 2.1989970207214355,
      "learning_rate": 1.1998392490174299e-05,
      "loss": 0.45302639007568357,
      "memory(GiB)": 73.83,
      "step": 90425,
      "token_acc": 0.899641577060932,
      "train_speed(iter/s)": 1.457648
    },
    {
      "epoch": 3.8742984447967097,
      "grad_norm": 0.3741726577281952,
      "learning_rate": 1.1994019252651611e-05,
      "loss": 0.15927313566207885,
      "memory(GiB)": 73.83,
      "step": 90430,
      "token_acc": 0.9695817490494296,
      "train_speed(iter/s)": 1.457658
    },
    {
      "epoch": 3.8745126601259585,
      "grad_norm": 6.14724063873291,
      "learning_rate": 1.1989646703642931e-05,
      "loss": 0.40214738845825193,
      "memory(GiB)": 73.83,
      "step": 90435,
      "token_acc": 0.9195046439628483,
      "train_speed(iter/s)": 1.457669
    },
    {
      "epoch": 3.8747268754552078,
      "grad_norm": 2.9086146354675293,
      "learning_rate": 1.1985274843227456e-05,
      "loss": 0.29502975940704346,
      "memory(GiB)": 73.83,
      "step": 90440,
      "token_acc": 0.9476923076923077,
      "train_speed(iter/s)": 1.457674
    },
    {
      "epoch": 3.8749410907844566,
      "grad_norm": 1.8223053216934204,
      "learning_rate": 1.1980903671484389e-05,
      "loss": 0.5855454444885254,
      "memory(GiB)": 73.83,
      "step": 90445,
      "token_acc": 0.897887323943662,
      "train_speed(iter/s)": 1.457677
    },
    {
      "epoch": 3.8751553061137054,
      "grad_norm": 2.3409841060638428,
      "learning_rate": 1.1976533188492922e-05,
      "loss": 0.4984877586364746,
      "memory(GiB)": 73.83,
      "step": 90450,
      "token_acc": 0.9163763066202091,
      "train_speed(iter/s)": 1.457687
    },
    {
      "epoch": 3.8753695214429547,
      "grad_norm": 4.361268520355225,
      "learning_rate": 1.1972163394332203e-05,
      "loss": 0.40771145820617677,
      "memory(GiB)": 73.83,
      "step": 90455,
      "token_acc": 0.916955017301038,
      "train_speed(iter/s)": 1.45769
    },
    {
      "epoch": 3.8755837367722035,
      "grad_norm": 1.1491026878356934,
      "learning_rate": 1.1967794289081436e-05,
      "loss": 0.3543394088745117,
      "memory(GiB)": 73.83,
      "step": 90460,
      "token_acc": 0.9205298013245033,
      "train_speed(iter/s)": 1.457695
    },
    {
      "epoch": 3.8757979521014523,
      "grad_norm": 1.9203346967697144,
      "learning_rate": 1.1963425872819755e-05,
      "loss": 0.3337294578552246,
      "memory(GiB)": 73.83,
      "step": 90465,
      "token_acc": 0.9329073482428115,
      "train_speed(iter/s)": 1.457696
    },
    {
      "epoch": 3.8760121674307015,
      "grad_norm": 4.244836807250977,
      "learning_rate": 1.1959058145626289e-05,
      "loss": 0.18789503574371338,
      "memory(GiB)": 73.83,
      "step": 90470,
      "token_acc": 0.9675324675324676,
      "train_speed(iter/s)": 1.457701
    },
    {
      "epoch": 3.8762263827599504,
      "grad_norm": 5.271153926849365,
      "learning_rate": 1.1954691107580174e-05,
      "loss": 0.4623249053955078,
      "memory(GiB)": 73.83,
      "step": 90475,
      "token_acc": 0.8961538461538462,
      "train_speed(iter/s)": 1.457696
    },
    {
      "epoch": 3.876440598089199,
      "grad_norm": 4.489410877227783,
      "learning_rate": 1.1950324758760507e-05,
      "loss": 0.43621373176574707,
      "memory(GiB)": 73.83,
      "step": 90480,
      "token_acc": 0.9163987138263665,
      "train_speed(iter/s)": 1.457696
    },
    {
      "epoch": 3.8766548134184484,
      "grad_norm": 2.939131021499634,
      "learning_rate": 1.1945959099246407e-05,
      "loss": 0.38207640647888186,
      "memory(GiB)": 73.83,
      "step": 90485,
      "token_acc": 0.915057915057915,
      "train_speed(iter/s)": 1.457713
    },
    {
      "epoch": 3.8768690287476972,
      "grad_norm": 4.192682266235352,
      "learning_rate": 1.1941594129116962e-05,
      "loss": 0.27038209438323973,
      "memory(GiB)": 73.83,
      "step": 90490,
      "token_acc": 0.9333333333333333,
      "train_speed(iter/s)": 1.457724
    },
    {
      "epoch": 3.877083244076946,
      "grad_norm": 2.1259169578552246,
      "learning_rate": 1.1937229848451237e-05,
      "loss": 0.39382214546203614,
      "memory(GiB)": 73.83,
      "step": 90495,
      "token_acc": 0.9263456090651558,
      "train_speed(iter/s)": 1.457729
    },
    {
      "epoch": 3.8772974594061953,
      "grad_norm": 6.3020758628845215,
      "learning_rate": 1.1932866257328302e-05,
      "loss": 0.4188670635223389,
      "memory(GiB)": 73.83,
      "step": 90500,
      "token_acc": 0.9221183800623053,
      "train_speed(iter/s)": 1.457739
    },
    {
      "epoch": 3.8772974594061953,
      "eval_loss": 2.4842469692230225,
      "eval_runtime": 11.1068,
      "eval_samples_per_second": 9.003,
      "eval_steps_per_second": 9.003,
      "eval_token_acc": 0.45174825174825173,
      "step": 90500
    },
    {
      "epoch": 3.877511674735444,
      "grad_norm": 3.378347396850586,
      "learning_rate": 1.1928503355827192e-05,
      "loss": 0.26643321514129636,
      "memory(GiB)": 73.83,
      "step": 90505,
      "token_acc": 0.5895372233400402,
      "train_speed(iter/s)": 1.457458
    },
    {
      "epoch": 3.877725890064693,
      "grad_norm": 4.694216251373291,
      "learning_rate": 1.1924141144026969e-05,
      "loss": 0.3961156368255615,
      "memory(GiB)": 73.83,
      "step": 90510,
      "token_acc": 0.9126506024096386,
      "train_speed(iter/s)": 1.457457
    },
    {
      "epoch": 3.877940105393942,
      "grad_norm": 3.4190866947174072,
      "learning_rate": 1.1919779622006632e-05,
      "loss": 0.38622446060180665,
      "memory(GiB)": 73.83,
      "step": 90515,
      "token_acc": 0.9142857142857143,
      "train_speed(iter/s)": 1.457456
    },
    {
      "epoch": 3.878154320723191,
      "grad_norm": 3.268723487854004,
      "learning_rate": 1.1915418789845229e-05,
      "loss": 0.5263411521911621,
      "memory(GiB)": 73.83,
      "step": 90520,
      "token_acc": 0.9041533546325878,
      "train_speed(iter/s)": 1.457465
    },
    {
      "epoch": 3.87836853605244,
      "grad_norm": 5.56354284286499,
      "learning_rate": 1.1911058647621737e-05,
      "loss": 0.7750755310058594,
      "memory(GiB)": 73.83,
      "step": 90525,
      "token_acc": 0.8424657534246576,
      "train_speed(iter/s)": 1.457467
    },
    {
      "epoch": 3.878582751381689,
      "grad_norm": 3.199101686477661,
      "learning_rate": 1.1906699195415144e-05,
      "loss": 0.31588382720947267,
      "memory(GiB)": 73.83,
      "step": 90530,
      "token_acc": 0.9253731343283582,
      "train_speed(iter/s)": 1.457465
    },
    {
      "epoch": 3.878796966710938,
      "grad_norm": 4.295632362365723,
      "learning_rate": 1.1902340433304431e-05,
      "loss": 0.3535521745681763,
      "memory(GiB)": 73.83,
      "step": 90535,
      "token_acc": 0.9176029962546817,
      "train_speed(iter/s)": 1.457472
    },
    {
      "epoch": 3.8790111820401867,
      "grad_norm": 3.7717227935791016,
      "learning_rate": 1.1897982361368548e-05,
      "loss": 0.3499160289764404,
      "memory(GiB)": 73.83,
      "step": 90540,
      "token_acc": 0.9240506329113924,
      "train_speed(iter/s)": 1.457484
    },
    {
      "epoch": 3.879225397369436,
      "grad_norm": 3.9248483180999756,
      "learning_rate": 1.1893624979686474e-05,
      "loss": 0.5079047679901123,
      "memory(GiB)": 73.83,
      "step": 90545,
      "token_acc": 0.9016393442622951,
      "train_speed(iter/s)": 1.457497
    },
    {
      "epoch": 3.8794396126986848,
      "grad_norm": 4.80728006362915,
      "learning_rate": 1.1889268288337124e-05,
      "loss": 0.1805684447288513,
      "memory(GiB)": 73.83,
      "step": 90550,
      "token_acc": 0.9532710280373832,
      "train_speed(iter/s)": 1.457498
    },
    {
      "epoch": 3.8796538280279336,
      "grad_norm": 1.228669285774231,
      "learning_rate": 1.1884912287399436e-05,
      "loss": 0.40908002853393555,
      "memory(GiB)": 73.83,
      "step": 90555,
      "token_acc": 0.9116719242902208,
      "train_speed(iter/s)": 1.457498
    },
    {
      "epoch": 3.879868043357183,
      "grad_norm": 2.6514434814453125,
      "learning_rate": 1.1880556976952312e-05,
      "loss": 0.33432927131652834,
      "memory(GiB)": 73.83,
      "step": 90560,
      "token_acc": 0.9206349206349206,
      "train_speed(iter/s)": 1.457504
    },
    {
      "epoch": 3.8800822586864316,
      "grad_norm": 3.4750449657440186,
      "learning_rate": 1.1876202357074645e-05,
      "loss": 0.2889508008956909,
      "memory(GiB)": 73.83,
      "step": 90565,
      "token_acc": 0.9457364341085271,
      "train_speed(iter/s)": 1.457504
    },
    {
      "epoch": 3.8802964740156805,
      "grad_norm": 2.7290427684783936,
      "learning_rate": 1.187184842784535e-05,
      "loss": 0.39651989936828613,
      "memory(GiB)": 73.83,
      "step": 90570,
      "token_acc": 0.9130434782608695,
      "train_speed(iter/s)": 1.457507
    },
    {
      "epoch": 3.8805106893449297,
      "grad_norm": 2.2924935817718506,
      "learning_rate": 1.1867495189343286e-05,
      "loss": 0.2579569101333618,
      "memory(GiB)": 73.83,
      "step": 90575,
      "token_acc": 0.9465875370919882,
      "train_speed(iter/s)": 1.45751
    },
    {
      "epoch": 3.8807249046741785,
      "grad_norm": 1.5062179565429688,
      "learning_rate": 1.1863142641647307e-05,
      "loss": 0.16184935569763184,
      "memory(GiB)": 73.83,
      "step": 90580,
      "token_acc": 0.9645390070921985,
      "train_speed(iter/s)": 1.45751
    },
    {
      "epoch": 3.8809391200034273,
      "grad_norm": 3.763275623321533,
      "learning_rate": 1.1858790784836282e-05,
      "loss": 0.32626590728759763,
      "memory(GiB)": 73.83,
      "step": 90585,
      "token_acc": 0.9308176100628931,
      "train_speed(iter/s)": 1.45751
    },
    {
      "epoch": 3.8811533353326766,
      "grad_norm": 1.9954270124435425,
      "learning_rate": 1.185443961898905e-05,
      "loss": 0.11104137897491455,
      "memory(GiB)": 73.83,
      "step": 90590,
      "token_acc": 0.9713261648745519,
      "train_speed(iter/s)": 1.457513
    },
    {
      "epoch": 3.8813675506619254,
      "grad_norm": 3.4293577671051025,
      "learning_rate": 1.1850089144184423e-05,
      "loss": 0.5828761577606201,
      "memory(GiB)": 73.83,
      "step": 90595,
      "token_acc": 0.9047619047619048,
      "train_speed(iter/s)": 1.45752
    },
    {
      "epoch": 3.881581765991174,
      "grad_norm": 1.4560145139694214,
      "learning_rate": 1.18457393605012e-05,
      "loss": 0.21939258575439452,
      "memory(GiB)": 73.83,
      "step": 90600,
      "token_acc": 0.940959409594096,
      "train_speed(iter/s)": 1.457525
    },
    {
      "epoch": 3.8817959813204235,
      "grad_norm": 1.29267418384552,
      "learning_rate": 1.184139026801822e-05,
      "loss": 0.3058335542678833,
      "memory(GiB)": 73.83,
      "step": 90605,
      "token_acc": 0.9381107491856677,
      "train_speed(iter/s)": 1.457532
    },
    {
      "epoch": 3.8820101966496723,
      "grad_norm": 3.2843403816223145,
      "learning_rate": 1.1837041866814252e-05,
      "loss": 0.5483071804046631,
      "memory(GiB)": 73.83,
      "step": 90610,
      "token_acc": 0.8814102564102564,
      "train_speed(iter/s)": 1.457525
    },
    {
      "epoch": 3.882224411978921,
      "grad_norm": 0.7982764840126038,
      "learning_rate": 1.1832694156968066e-05,
      "loss": 0.4335508346557617,
      "memory(GiB)": 73.83,
      "step": 90615,
      "token_acc": 0.90625,
      "train_speed(iter/s)": 1.457528
    },
    {
      "epoch": 3.8824386273081704,
      "grad_norm": 4.200196266174316,
      "learning_rate": 1.1828347138558432e-05,
      "loss": 0.5126582145690918,
      "memory(GiB)": 73.83,
      "step": 90620,
      "token_acc": 0.8740458015267175,
      "train_speed(iter/s)": 1.457529
    },
    {
      "epoch": 3.882652842637419,
      "grad_norm": 0.384503573179245,
      "learning_rate": 1.1824000811664083e-05,
      "loss": 0.4376936435699463,
      "memory(GiB)": 73.83,
      "step": 90625,
      "token_acc": 0.8850574712643678,
      "train_speed(iter/s)": 1.457528
    },
    {
      "epoch": 3.882867057966668,
      "grad_norm": 2.879732608795166,
      "learning_rate": 1.1819655176363786e-05,
      "loss": 0.30875391960144044,
      "memory(GiB)": 73.83,
      "step": 90630,
      "token_acc": 0.9228486646884273,
      "train_speed(iter/s)": 1.457528
    },
    {
      "epoch": 3.8830812732959172,
      "grad_norm": 0.9128987789154053,
      "learning_rate": 1.1815310232736249e-05,
      "loss": 0.24763970375061034,
      "memory(GiB)": 73.83,
      "step": 90635,
      "token_acc": 0.9511278195488722,
      "train_speed(iter/s)": 1.457536
    },
    {
      "epoch": 3.883295488625166,
      "grad_norm": 6.16156005859375,
      "learning_rate": 1.1810965980860189e-05,
      "loss": 0.5324638366699219,
      "memory(GiB)": 73.83,
      "step": 90640,
      "token_acc": 0.889967637540453,
      "train_speed(iter/s)": 1.457546
    },
    {
      "epoch": 3.883509703954415,
      "grad_norm": 3.5398502349853516,
      "learning_rate": 1.1806622420814306e-05,
      "loss": 0.34369065761566164,
      "memory(GiB)": 73.83,
      "step": 90645,
      "token_acc": 0.9259259259259259,
      "train_speed(iter/s)": 1.457559
    },
    {
      "epoch": 3.883723919283664,
      "grad_norm": 3.94158935546875,
      "learning_rate": 1.1802279552677282e-05,
      "loss": 0.1725207209587097,
      "memory(GiB)": 73.83,
      "step": 90650,
      "token_acc": 0.9477611940298507,
      "train_speed(iter/s)": 1.457561
    },
    {
      "epoch": 3.883938134612913,
      "grad_norm": 2.3705971240997314,
      "learning_rate": 1.1797937376527784e-05,
      "loss": 0.4201171875,
      "memory(GiB)": 73.83,
      "step": 90655,
      "token_acc": 0.8959731543624161,
      "train_speed(iter/s)": 1.457569
    },
    {
      "epoch": 3.8841523499421617,
      "grad_norm": 4.576180458068848,
      "learning_rate": 1.1793595892444492e-05,
      "loss": 0.15951237678527833,
      "memory(GiB)": 73.83,
      "step": 90660,
      "token_acc": 0.9651162790697675,
      "train_speed(iter/s)": 1.457571
    },
    {
      "epoch": 3.884366565271411,
      "grad_norm": 4.026871681213379,
      "learning_rate": 1.1789255100506057e-05,
      "loss": 0.29544754028320314,
      "memory(GiB)": 73.83,
      "step": 90665,
      "token_acc": 0.9462809917355371,
      "train_speed(iter/s)": 1.457574
    },
    {
      "epoch": 3.88458078060066,
      "grad_norm": 5.779103755950928,
      "learning_rate": 1.1784915000791114e-05,
      "loss": 0.5278478145599366,
      "memory(GiB)": 73.83,
      "step": 90670,
      "token_acc": 0.8850574712643678,
      "train_speed(iter/s)": 1.457591
    },
    {
      "epoch": 3.8847949959299086,
      "grad_norm": 5.528655052185059,
      "learning_rate": 1.1780575593378284e-05,
      "loss": 0.4569265842437744,
      "memory(GiB)": 73.83,
      "step": 90675,
      "token_acc": 0.9044368600682594,
      "train_speed(iter/s)": 1.457592
    },
    {
      "epoch": 3.885009211259158,
      "grad_norm": 4.000006675720215,
      "learning_rate": 1.177623687834618e-05,
      "loss": 0.28462882041931153,
      "memory(GiB)": 73.83,
      "step": 90680,
      "token_acc": 0.938953488372093,
      "train_speed(iter/s)": 1.457591
    },
    {
      "epoch": 3.8852234265884067,
      "grad_norm": 2.9860682487487793,
      "learning_rate": 1.1771898855773388e-05,
      "loss": 0.3386664867401123,
      "memory(GiB)": 73.83,
      "step": 90685,
      "token_acc": 0.9397163120567376,
      "train_speed(iter/s)": 1.457592
    },
    {
      "epoch": 3.8854376419176555,
      "grad_norm": 1.9474713802337646,
      "learning_rate": 1.1767561525738525e-05,
      "loss": 0.22866222858428956,
      "memory(GiB)": 73.83,
      "step": 90690,
      "token_acc": 0.948339483394834,
      "train_speed(iter/s)": 1.457601
    },
    {
      "epoch": 3.8856518572469048,
      "grad_norm": 3.789435625076294,
      "learning_rate": 1.1763224888320145e-05,
      "loss": 0.2423105239868164,
      "memory(GiB)": 73.83,
      "step": 90695,
      "token_acc": 0.9541984732824428,
      "train_speed(iter/s)": 1.457614
    },
    {
      "epoch": 3.8858660725761536,
      "grad_norm": 0.9913832545280457,
      "learning_rate": 1.1758888943596818e-05,
      "loss": 0.3358945846557617,
      "memory(GiB)": 73.83,
      "step": 90700,
      "token_acc": 0.9465648854961832,
      "train_speed(iter/s)": 1.457614
    },
    {
      "epoch": 3.8860802879054024,
      "grad_norm": 0.5320296287536621,
      "learning_rate": 1.1754553691647092e-05,
      "loss": 0.27064101696014403,
      "memory(GiB)": 73.83,
      "step": 90705,
      "token_acc": 0.9455128205128205,
      "train_speed(iter/s)": 1.457626
    },
    {
      "epoch": 3.8862945032346516,
      "grad_norm": 1.6522294282913208,
      "learning_rate": 1.1750219132549489e-05,
      "loss": 0.2916949510574341,
      "memory(GiB)": 73.83,
      "step": 90710,
      "token_acc": 0.9283154121863799,
      "train_speed(iter/s)": 1.457629
    },
    {
      "epoch": 3.8865087185639005,
      "grad_norm": 10.367413520812988,
      "learning_rate": 1.1745885266382561e-05,
      "loss": 0.31367380619049073,
      "memory(GiB)": 73.83,
      "step": 90715,
      "token_acc": 0.9339080459770115,
      "train_speed(iter/s)": 1.457632
    },
    {
      "epoch": 3.8867229338931493,
      "grad_norm": 3.011582374572754,
      "learning_rate": 1.1741552093224805e-05,
      "loss": 0.35669121742248533,
      "memory(GiB)": 73.83,
      "step": 90720,
      "token_acc": 0.926984126984127,
      "train_speed(iter/s)": 1.457638
    },
    {
      "epoch": 3.8869371492223985,
      "grad_norm": 3.762279987335205,
      "learning_rate": 1.1737219613154727e-05,
      "loss": 0.5395762920379639,
      "memory(GiB)": 73.83,
      "step": 90725,
      "token_acc": 0.8782051282051282,
      "train_speed(iter/s)": 1.457645
    },
    {
      "epoch": 3.8871513645516473,
      "grad_norm": 3.7383968830108643,
      "learning_rate": 1.1732887826250787e-05,
      "loss": 0.3326548099517822,
      "memory(GiB)": 73.83,
      "step": 90730,
      "token_acc": 0.9383116883116883,
      "train_speed(iter/s)": 1.457661
    },
    {
      "epoch": 3.887365579880896,
      "grad_norm": 0.2810438871383667,
      "learning_rate": 1.1728556732591501e-05,
      "loss": 0.34749057292938235,
      "memory(GiB)": 73.83,
      "step": 90735,
      "token_acc": 0.9250936329588015,
      "train_speed(iter/s)": 1.457665
    },
    {
      "epoch": 3.8875797952101454,
      "grad_norm": 2.4828131198883057,
      "learning_rate": 1.172422633225531e-05,
      "loss": 0.25553069114685056,
      "memory(GiB)": 73.83,
      "step": 90740,
      "token_acc": 0.9243421052631579,
      "train_speed(iter/s)": 1.457671
    },
    {
      "epoch": 3.887794010539394,
      "grad_norm": 6.071589946746826,
      "learning_rate": 1.1719896625320654e-05,
      "loss": 0.21765007972717285,
      "memory(GiB)": 73.83,
      "step": 90745,
      "token_acc": 0.956386292834891,
      "train_speed(iter/s)": 1.457684
    },
    {
      "epoch": 3.888008225868643,
      "grad_norm": 1.4205396175384521,
      "learning_rate": 1.1715567611865991e-05,
      "loss": 0.38486812114715574,
      "memory(GiB)": 73.83,
      "step": 90750,
      "token_acc": 0.9172661870503597,
      "train_speed(iter/s)": 1.457689
    },
    {
      "epoch": 3.8882224411978923,
      "grad_norm": 3.4763662815093994,
      "learning_rate": 1.1711239291969733e-05,
      "loss": 0.2986193418502808,
      "memory(GiB)": 73.83,
      "step": 90755,
      "token_acc": 0.9254237288135593,
      "train_speed(iter/s)": 1.457698
    },
    {
      "epoch": 3.888436656527141,
      "grad_norm": 3.5906896591186523,
      "learning_rate": 1.1706911665710296e-05,
      "loss": 0.24403109550476074,
      "memory(GiB)": 73.83,
      "step": 90760,
      "token_acc": 0.9324324324324325,
      "train_speed(iter/s)": 1.457694
    },
    {
      "epoch": 3.88865087185639,
      "grad_norm": 1.6510474681854248,
      "learning_rate": 1.1702584733166073e-05,
      "loss": 0.2805623531341553,
      "memory(GiB)": 73.83,
      "step": 90765,
      "token_acc": 0.9344262295081968,
      "train_speed(iter/s)": 1.457697
    },
    {
      "epoch": 3.888865087185639,
      "grad_norm": 3.885110378265381,
      "learning_rate": 1.1698258494415443e-05,
      "loss": 0.357115650177002,
      "memory(GiB)": 73.83,
      "step": 90770,
      "token_acc": 0.9215017064846417,
      "train_speed(iter/s)": 1.457699
    },
    {
      "epoch": 3.889079302514888,
      "grad_norm": 3.3046727180480957,
      "learning_rate": 1.1693932949536801e-05,
      "loss": 0.2732023954391479,
      "memory(GiB)": 73.83,
      "step": 90775,
      "token_acc": 0.9642857142857143,
      "train_speed(iter/s)": 1.457705
    },
    {
      "epoch": 3.889293517844137,
      "grad_norm": 3.9724385738372803,
      "learning_rate": 1.1689608098608495e-05,
      "loss": 0.26155757904052734,
      "memory(GiB)": 73.83,
      "step": 90780,
      "token_acc": 0.9346938775510204,
      "train_speed(iter/s)": 1.457707
    },
    {
      "epoch": 3.889507733173386,
      "grad_norm": 3.007251501083374,
      "learning_rate": 1.168528394170888e-05,
      "loss": 0.4491099834442139,
      "memory(GiB)": 73.83,
      "step": 90785,
      "token_acc": 0.9228295819935691,
      "train_speed(iter/s)": 1.457714
    },
    {
      "epoch": 3.889721948502635,
      "grad_norm": 5.536174297332764,
      "learning_rate": 1.1680960478916292e-05,
      "loss": 0.37458722591400145,
      "memory(GiB)": 73.83,
      "step": 90790,
      "token_acc": 0.9292604501607717,
      "train_speed(iter/s)": 1.45772
    },
    {
      "epoch": 3.8899361638318837,
      "grad_norm": 3.3828043937683105,
      "learning_rate": 1.1676637710309047e-05,
      "loss": 0.4107633113861084,
      "memory(GiB)": 73.83,
      "step": 90795,
      "token_acc": 0.895910780669145,
      "train_speed(iter/s)": 1.45772
    },
    {
      "epoch": 3.890150379161133,
      "grad_norm": 4.32712984085083,
      "learning_rate": 1.1672315635965447e-05,
      "loss": 0.6891708850860596,
      "memory(GiB)": 73.83,
      "step": 90800,
      "token_acc": 0.84375,
      "train_speed(iter/s)": 1.457712
    },
    {
      "epoch": 3.8903645944903817,
      "grad_norm": 4.63887357711792,
      "learning_rate": 1.1667994255963805e-05,
      "loss": 0.3176675796508789,
      "memory(GiB)": 73.83,
      "step": 90805,
      "token_acc": 0.9335664335664335,
      "train_speed(iter/s)": 1.457713
    },
    {
      "epoch": 3.8905788098196306,
      "grad_norm": 0.8413729071617126,
      "learning_rate": 1.1663673570382416e-05,
      "loss": 0.31972532272338866,
      "memory(GiB)": 73.83,
      "step": 90810,
      "token_acc": 0.9230769230769231,
      "train_speed(iter/s)": 1.457715
    },
    {
      "epoch": 3.89079302514888,
      "grad_norm": 4.970249176025391,
      "learning_rate": 1.1659353579299543e-05,
      "loss": 0.3181858777999878,
      "memory(GiB)": 73.83,
      "step": 90815,
      "token_acc": 0.9347826086956522,
      "train_speed(iter/s)": 1.457712
    },
    {
      "epoch": 3.8910072404781286,
      "grad_norm": 3.5169949531555176,
      "learning_rate": 1.1655034282793448e-05,
      "loss": 0.20919620990753174,
      "memory(GiB)": 73.83,
      "step": 90820,
      "token_acc": 0.9468085106382979,
      "train_speed(iter/s)": 1.457722
    },
    {
      "epoch": 3.8912214558073774,
      "grad_norm": 4.84558629989624,
      "learning_rate": 1.1650715680942381e-05,
      "loss": 0.5051758766174317,
      "memory(GiB)": 73.83,
      "step": 90825,
      "token_acc": 0.8932038834951457,
      "train_speed(iter/s)": 1.45772
    },
    {
      "epoch": 3.8914356711366267,
      "grad_norm": 1.319471001625061,
      "learning_rate": 1.1646397773824553e-05,
      "loss": 0.2046119451522827,
      "memory(GiB)": 73.83,
      "step": 90830,
      "token_acc": 0.9580838323353293,
      "train_speed(iter/s)": 1.457725
    },
    {
      "epoch": 3.8916498864658755,
      "grad_norm": 2.8459391593933105,
      "learning_rate": 1.1642080561518226e-05,
      "loss": 0.26075472831726076,
      "memory(GiB)": 73.83,
      "step": 90835,
      "token_acc": 0.9364548494983278,
      "train_speed(iter/s)": 1.457729
    },
    {
      "epoch": 3.8918641017951243,
      "grad_norm": 2.512054681777954,
      "learning_rate": 1.163776404410159e-05,
      "loss": 0.24284090995788574,
      "memory(GiB)": 73.83,
      "step": 90840,
      "token_acc": 0.9590163934426229,
      "train_speed(iter/s)": 1.457732
    },
    {
      "epoch": 3.8920783171243736,
      "grad_norm": 0.5419874787330627,
      "learning_rate": 1.1633448221652848e-05,
      "loss": 0.39919726848602294,
      "memory(GiB)": 73.83,
      "step": 90845,
      "token_acc": 0.9322033898305084,
      "train_speed(iter/s)": 1.457734
    },
    {
      "epoch": 3.8922925324536224,
      "grad_norm": 0.7300463318824768,
      "learning_rate": 1.1629133094250183e-05,
      "loss": 0.2945871353149414,
      "memory(GiB)": 73.83,
      "step": 90850,
      "token_acc": 0.9363636363636364,
      "train_speed(iter/s)": 1.457739
    },
    {
      "epoch": 3.892506747782871,
      "grad_norm": 0.1734209954738617,
      "learning_rate": 1.1624818661971747e-05,
      "loss": 0.26758565902709963,
      "memory(GiB)": 73.83,
      "step": 90855,
      "token_acc": 0.9350180505415162,
      "train_speed(iter/s)": 1.457739
    },
    {
      "epoch": 3.8927209631121205,
      "grad_norm": 3.174577474594116,
      "learning_rate": 1.1620504924895737e-05,
      "loss": 0.26487016677856445,
      "memory(GiB)": 73.83,
      "step": 90860,
      "token_acc": 0.9327485380116959,
      "train_speed(iter/s)": 1.457752
    },
    {
      "epoch": 3.8929351784413693,
      "grad_norm": 2.960054874420166,
      "learning_rate": 1.1616191883100285e-05,
      "loss": 0.5078456401824951,
      "memory(GiB)": 73.83,
      "step": 90865,
      "token_acc": 0.8936170212765957,
      "train_speed(iter/s)": 1.45776
    },
    {
      "epoch": 3.893149393770618,
      "grad_norm": 5.287675857543945,
      "learning_rate": 1.1611879536663523e-05,
      "loss": 0.20877516269683838,
      "memory(GiB)": 73.83,
      "step": 90870,
      "token_acc": 0.9508196721311475,
      "train_speed(iter/s)": 1.457775
    },
    {
      "epoch": 3.8933636090998673,
      "grad_norm": 0.6956615447998047,
      "learning_rate": 1.1607567885663555e-05,
      "loss": 0.21232635974884034,
      "memory(GiB)": 73.83,
      "step": 90875,
      "token_acc": 0.9534883720930233,
      "train_speed(iter/s)": 1.45778
    },
    {
      "epoch": 3.893577824429116,
      "grad_norm": 7.241737365722656,
      "learning_rate": 1.160325693017853e-05,
      "loss": 0.3612092971801758,
      "memory(GiB)": 73.83,
      "step": 90880,
      "token_acc": 0.9196141479099679,
      "train_speed(iter/s)": 1.457783
    },
    {
      "epoch": 3.893792039758365,
      "grad_norm": 2.8794517517089844,
      "learning_rate": 1.1598946670286525e-05,
      "loss": 0.26961510181427,
      "memory(GiB)": 73.83,
      "step": 90885,
      "token_acc": 0.9419795221843004,
      "train_speed(iter/s)": 1.45779
    },
    {
      "epoch": 3.894006255087614,
      "grad_norm": 0.19230271875858307,
      "learning_rate": 1.1594637106065608e-05,
      "loss": 0.41100587844848635,
      "memory(GiB)": 73.83,
      "step": 90890,
      "token_acc": 0.9110320284697508,
      "train_speed(iter/s)": 1.457794
    },
    {
      "epoch": 3.894220470416863,
      "grad_norm": 0.7278115153312683,
      "learning_rate": 1.1590328237593878e-05,
      "loss": 0.2054546594619751,
      "memory(GiB)": 73.83,
      "step": 90895,
      "token_acc": 0.959409594095941,
      "train_speed(iter/s)": 1.457795
    },
    {
      "epoch": 3.894434685746112,
      "grad_norm": 2.9802396297454834,
      "learning_rate": 1.1586020064949387e-05,
      "loss": 0.19142534732818603,
      "memory(GiB)": 73.83,
      "step": 90900,
      "token_acc": 0.9501661129568106,
      "train_speed(iter/s)": 1.457807
    },
    {
      "epoch": 3.894648901075361,
      "grad_norm": 3.0349340438842773,
      "learning_rate": 1.1581712588210181e-05,
      "loss": 0.26067638397216797,
      "memory(GiB)": 73.83,
      "step": 90905,
      "token_acc": 0.9464882943143813,
      "train_speed(iter/s)": 1.457818
    },
    {
      "epoch": 3.89486311640461,
      "grad_norm": 3.469395399093628,
      "learning_rate": 1.1577405807454283e-05,
      "loss": 0.2861616134643555,
      "memory(GiB)": 73.83,
      "step": 90910,
      "token_acc": 0.9206349206349206,
      "train_speed(iter/s)": 1.457825
    },
    {
      "epoch": 3.8950773317338587,
      "grad_norm": 1.405258059501648,
      "learning_rate": 1.1573099722759712e-05,
      "loss": 0.2463066577911377,
      "memory(GiB)": 73.83,
      "step": 90915,
      "token_acc": 0.9391891891891891,
      "train_speed(iter/s)": 1.457839
    },
    {
      "epoch": 3.895291547063108,
      "grad_norm": 0.6816351413726807,
      "learning_rate": 1.1568794334204502e-05,
      "loss": 0.218516206741333,
      "memory(GiB)": 73.83,
      "step": 90920,
      "token_acc": 0.9547038327526133,
      "train_speed(iter/s)": 1.457843
    },
    {
      "epoch": 3.895505762392357,
      "grad_norm": 2.554910659790039,
      "learning_rate": 1.1564489641866633e-05,
      "loss": 0.4748044967651367,
      "memory(GiB)": 73.83,
      "step": 90925,
      "token_acc": 0.9019607843137255,
      "train_speed(iter/s)": 1.45785
    },
    {
      "epoch": 3.8957199777216056,
      "grad_norm": 4.0920729637146,
      "learning_rate": 1.156018564582409e-05,
      "loss": 0.5031590461730957,
      "memory(GiB)": 73.83,
      "step": 90930,
      "token_acc": 0.8859060402684564,
      "train_speed(iter/s)": 1.457864
    },
    {
      "epoch": 3.895934193050855,
      "grad_norm": 2.680917978286743,
      "learning_rate": 1.1555882346154845e-05,
      "loss": 0.3709068775177002,
      "memory(GiB)": 73.83,
      "step": 90935,
      "token_acc": 0.9230769230769231,
      "train_speed(iter/s)": 1.457871
    },
    {
      "epoch": 3.8961484083801037,
      "grad_norm": 2.5939857959747314,
      "learning_rate": 1.1551579742936852e-05,
      "loss": 0.38845648765563967,
      "memory(GiB)": 73.83,
      "step": 90940,
      "token_acc": 0.9126984126984127,
      "train_speed(iter/s)": 1.457873
    },
    {
      "epoch": 3.8963626237093525,
      "grad_norm": 3.087005615234375,
      "learning_rate": 1.1547277836248043e-05,
      "loss": 0.479155445098877,
      "memory(GiB)": 73.83,
      "step": 90945,
      "token_acc": 0.9190140845070423,
      "train_speed(iter/s)": 1.457885
    },
    {
      "epoch": 3.8965768390386017,
      "grad_norm": 3.8949804306030273,
      "learning_rate": 1.1542976626166374e-05,
      "loss": 0.3188114881515503,
      "memory(GiB)": 73.83,
      "step": 90950,
      "token_acc": 0.9351535836177475,
      "train_speed(iter/s)": 1.457891
    },
    {
      "epoch": 3.8967910543678506,
      "grad_norm": 6.156152725219727,
      "learning_rate": 1.153867611276977e-05,
      "loss": 0.4296678066253662,
      "memory(GiB)": 73.83,
      "step": 90955,
      "token_acc": 0.8993055555555556,
      "train_speed(iter/s)": 1.457889
    },
    {
      "epoch": 3.8970052696970994,
      "grad_norm": 5.166787624359131,
      "learning_rate": 1.1534376296136124e-05,
      "loss": 0.4322836399078369,
      "memory(GiB)": 73.83,
      "step": 90960,
      "token_acc": 0.9119718309859155,
      "train_speed(iter/s)": 1.45789
    },
    {
      "epoch": 3.8972194850263486,
      "grad_norm": 2.869427442550659,
      "learning_rate": 1.153007717634334e-05,
      "loss": 0.4284999847412109,
      "memory(GiB)": 73.83,
      "step": 90965,
      "token_acc": 0.8847352024922118,
      "train_speed(iter/s)": 1.457888
    },
    {
      "epoch": 3.8974337003555974,
      "grad_norm": 0.6782225370407104,
      "learning_rate": 1.1525778753469297e-05,
      "loss": 0.1420462965965271,
      "memory(GiB)": 73.83,
      "step": 90970,
      "token_acc": 0.9780701754385965,
      "train_speed(iter/s)": 1.45789
    },
    {
      "epoch": 3.8976479156848463,
      "grad_norm": 2.9080607891082764,
      "learning_rate": 1.1521481027591847e-05,
      "loss": 0.5227378368377685,
      "memory(GiB)": 73.83,
      "step": 90975,
      "token_acc": 0.8837920489296636,
      "train_speed(iter/s)": 1.457909
    },
    {
      "epoch": 3.8978621310140955,
      "grad_norm": 1.8099223375320435,
      "learning_rate": 1.1517183998788877e-05,
      "loss": 0.5329712390899658,
      "memory(GiB)": 73.83,
      "step": 90980,
      "token_acc": 0.8695652173913043,
      "train_speed(iter/s)": 1.457915
    },
    {
      "epoch": 3.8980763463433443,
      "grad_norm": 4.930373668670654,
      "learning_rate": 1.1512887667138217e-05,
      "loss": 0.4073484420776367,
      "memory(GiB)": 73.83,
      "step": 90985,
      "token_acc": 0.8928571428571429,
      "train_speed(iter/s)": 1.457915
    },
    {
      "epoch": 3.898290561672593,
      "grad_norm": 4.958105564117432,
      "learning_rate": 1.1508592032717701e-05,
      "loss": 0.5263996124267578,
      "memory(GiB)": 73.83,
      "step": 90990,
      "token_acc": 0.905511811023622,
      "train_speed(iter/s)": 1.457928
    },
    {
      "epoch": 3.8985047770018424,
      "grad_norm": 3.6781303882598877,
      "learning_rate": 1.1504297095605154e-05,
      "loss": 0.2759371280670166,
      "memory(GiB)": 73.83,
      "step": 90995,
      "token_acc": 0.9438202247191011,
      "train_speed(iter/s)": 1.45794
    },
    {
      "epoch": 3.898718992331091,
      "grad_norm": 3.056676149368286,
      "learning_rate": 1.1500002855878362e-05,
      "loss": 0.3003842353820801,
      "memory(GiB)": 73.83,
      "step": 91000,
      "token_acc": 0.9439655172413793,
      "train_speed(iter/s)": 1.457941
    },
    {
      "epoch": 3.898718992331091,
      "eval_loss": 2.283008098602295,
      "eval_runtime": 11.2978,
      "eval_samples_per_second": 8.851,
      "eval_steps_per_second": 8.851,
      "eval_token_acc": 0.4743935309973046,
      "step": 91000
    },
    {
      "epoch": 3.89893320766034,
      "grad_norm": 1.0669194459915161,
      "learning_rate": 1.1495709313615143e-05,
      "loss": 0.3634622812271118,
      "memory(GiB)": 73.83,
      "step": 91005,
      "token_acc": 0.5842583249243188,
      "train_speed(iter/s)": 1.457656
    },
    {
      "epoch": 3.8991474229895893,
      "grad_norm": 4.1106696128845215,
      "learning_rate": 1.1491416468893274e-05,
      "loss": 0.5322070121765137,
      "memory(GiB)": 73.83,
      "step": 91010,
      "token_acc": 0.8732394366197183,
      "train_speed(iter/s)": 1.457669
    },
    {
      "epoch": 3.899361638318838,
      "grad_norm": 0.5300968885421753,
      "learning_rate": 1.1487124321790515e-05,
      "loss": 0.426801061630249,
      "memory(GiB)": 73.83,
      "step": 91015,
      "token_acc": 0.8982456140350877,
      "train_speed(iter/s)": 1.457679
    },
    {
      "epoch": 3.899575853648087,
      "grad_norm": 3.7978427410125732,
      "learning_rate": 1.148283287238463e-05,
      "loss": 0.41280522346496584,
      "memory(GiB)": 73.83,
      "step": 91020,
      "token_acc": 0.9108910891089109,
      "train_speed(iter/s)": 1.457677
    },
    {
      "epoch": 3.899790068977336,
      "grad_norm": 5.917712211608887,
      "learning_rate": 1.1478542120753344e-05,
      "loss": 0.4478609561920166,
      "memory(GiB)": 73.83,
      "step": 91025,
      "token_acc": 0.9330708661417323,
      "train_speed(iter/s)": 1.457686
    },
    {
      "epoch": 3.900004284306585,
      "grad_norm": 0.37611451745033264,
      "learning_rate": 1.1474252066974422e-05,
      "loss": 0.13512693643569945,
      "memory(GiB)": 73.83,
      "step": 91030,
      "token_acc": 0.967391304347826,
      "train_speed(iter/s)": 1.457689
    },
    {
      "epoch": 3.900218499635834,
      "grad_norm": 5.373564720153809,
      "learning_rate": 1.1469962711125548e-05,
      "loss": 0.3215423822402954,
      "memory(GiB)": 73.83,
      "step": 91035,
      "token_acc": 0.941747572815534,
      "train_speed(iter/s)": 1.457694
    },
    {
      "epoch": 3.900432714965083,
      "grad_norm": 2.056446075439453,
      "learning_rate": 1.1465674053284452e-05,
      "loss": 0.19418163299560548,
      "memory(GiB)": 73.83,
      "step": 91040,
      "token_acc": 0.9536423841059603,
      "train_speed(iter/s)": 1.457702
    },
    {
      "epoch": 3.900646930294332,
      "grad_norm": 3.2290022373199463,
      "learning_rate": 1.1461386093528826e-05,
      "loss": 0.43697481155395507,
      "memory(GiB)": 73.83,
      "step": 91045,
      "token_acc": 0.91875,
      "train_speed(iter/s)": 1.457705
    },
    {
      "epoch": 3.9008611456235807,
      "grad_norm": 1.9609496593475342,
      "learning_rate": 1.1457098831936342e-05,
      "loss": 0.20117173194885254,
      "memory(GiB)": 73.83,
      "step": 91050,
      "token_acc": 0.9614147909967846,
      "train_speed(iter/s)": 1.457717
    },
    {
      "epoch": 3.90107536095283,
      "grad_norm": 2.2066526412963867,
      "learning_rate": 1.1452812268584667e-05,
      "loss": 0.23923470973968505,
      "memory(GiB)": 73.83,
      "step": 91055,
      "token_acc": 0.9415807560137457,
      "train_speed(iter/s)": 1.457721
    },
    {
      "epoch": 3.9012895762820787,
      "grad_norm": 4.608396053314209,
      "learning_rate": 1.1448526403551441e-05,
      "loss": 0.5464173316955566,
      "memory(GiB)": 73.83,
      "step": 91060,
      "token_acc": 0.8853868194842407,
      "train_speed(iter/s)": 1.457718
    },
    {
      "epoch": 3.9015037916113275,
      "grad_norm": 2.861891746520996,
      "learning_rate": 1.1444241236914343e-05,
      "loss": 0.22468876838684082,
      "memory(GiB)": 73.83,
      "step": 91065,
      "token_acc": 0.9429657794676806,
      "train_speed(iter/s)": 1.45772
    },
    {
      "epoch": 3.901718006940577,
      "grad_norm": 4.112911224365234,
      "learning_rate": 1.143995676875098e-05,
      "loss": 0.36719536781311035,
      "memory(GiB)": 73.83,
      "step": 91070,
      "token_acc": 0.9178571428571428,
      "train_speed(iter/s)": 1.457726
    },
    {
      "epoch": 3.9019322222698256,
      "grad_norm": 3.509002923965454,
      "learning_rate": 1.1435672999138975e-05,
      "loss": 0.5159715175628662,
      "memory(GiB)": 73.83,
      "step": 91075,
      "token_acc": 0.8932384341637011,
      "train_speed(iter/s)": 1.457742
    },
    {
      "epoch": 3.9021464375990744,
      "grad_norm": 0.48365306854248047,
      "learning_rate": 1.1431389928155922e-05,
      "loss": 0.3299422025680542,
      "memory(GiB)": 73.83,
      "step": 91080,
      "token_acc": 0.904320987654321,
      "train_speed(iter/s)": 1.457748
    },
    {
      "epoch": 3.9023606529283237,
      "grad_norm": 3.2347378730773926,
      "learning_rate": 1.1427107555879412e-05,
      "loss": 0.3947983026504517,
      "memory(GiB)": 73.83,
      "step": 91085,
      "token_acc": 0.934984520123839,
      "train_speed(iter/s)": 1.457752
    },
    {
      "epoch": 3.9025748682575725,
      "grad_norm": 2.268125057220459,
      "learning_rate": 1.142282588238705e-05,
      "loss": 0.40955724716186526,
      "memory(GiB)": 73.83,
      "step": 91090,
      "token_acc": 0.9019607843137255,
      "train_speed(iter/s)": 1.457752
    },
    {
      "epoch": 3.9027890835868213,
      "grad_norm": 3.7068190574645996,
      "learning_rate": 1.1418544907756368e-05,
      "loss": 0.483968448638916,
      "memory(GiB)": 73.83,
      "step": 91095,
      "token_acc": 0.8871473354231975,
      "train_speed(iter/s)": 1.457762
    },
    {
      "epoch": 3.9030032989160706,
      "grad_norm": 4.165232181549072,
      "learning_rate": 1.1414264632064952e-05,
      "loss": 0.1699204683303833,
      "memory(GiB)": 73.83,
      "step": 91100,
      "token_acc": 0.9690402476780186,
      "train_speed(iter/s)": 1.457768
    },
    {
      "epoch": 3.9032175142453194,
      "grad_norm": 0.6733167171478271,
      "learning_rate": 1.1409985055390332e-05,
      "loss": 0.197745418548584,
      "memory(GiB)": 73.83,
      "step": 91105,
      "token_acc": 0.9437229437229437,
      "train_speed(iter/s)": 1.457775
    },
    {
      "epoch": 3.903431729574568,
      "grad_norm": 6.096571445465088,
      "learning_rate": 1.1405706177810027e-05,
      "loss": 0.5168612003326416,
      "memory(GiB)": 73.83,
      "step": 91110,
      "token_acc": 0.8918918918918919,
      "train_speed(iter/s)": 1.457786
    },
    {
      "epoch": 3.9036459449038174,
      "grad_norm": 2.3120319843292236,
      "learning_rate": 1.1401427999401565e-05,
      "loss": 0.38667471408843995,
      "memory(GiB)": 73.83,
      "step": 91115,
      "token_acc": 0.8976897689768977,
      "train_speed(iter/s)": 1.4578
    },
    {
      "epoch": 3.9038601602330663,
      "grad_norm": 3.131805181503296,
      "learning_rate": 1.1397150520242422e-05,
      "loss": 0.5390504837036133,
      "memory(GiB)": 73.83,
      "step": 91120,
      "token_acc": 0.9114754098360656,
      "train_speed(iter/s)": 1.457807
    },
    {
      "epoch": 3.904074375562315,
      "grad_norm": 4.741940021514893,
      "learning_rate": 1.1392873740410132e-05,
      "loss": 0.420134162902832,
      "memory(GiB)": 73.83,
      "step": 91125,
      "token_acc": 0.8996282527881041,
      "train_speed(iter/s)": 1.457812
    },
    {
      "epoch": 3.9042885908915643,
      "grad_norm": 7.278970241546631,
      "learning_rate": 1.1388597659982148e-05,
      "loss": 0.5865985870361328,
      "memory(GiB)": 73.83,
      "step": 91130,
      "token_acc": 0.9006410256410257,
      "train_speed(iter/s)": 1.457824
    },
    {
      "epoch": 3.904502806220813,
      "grad_norm": 4.308842182159424,
      "learning_rate": 1.138432227903593e-05,
      "loss": 0.25224077701568604,
      "memory(GiB)": 73.83,
      "step": 91135,
      "token_acc": 0.927007299270073,
      "train_speed(iter/s)": 1.457824
    },
    {
      "epoch": 3.904717021550062,
      "grad_norm": 3.3313984870910645,
      "learning_rate": 1.1380047597648946e-05,
      "loss": 0.46082444190979005,
      "memory(GiB)": 73.83,
      "step": 91140,
      "token_acc": 0.9007633587786259,
      "train_speed(iter/s)": 1.457836
    },
    {
      "epoch": 3.904931236879311,
      "grad_norm": 2.733034610748291,
      "learning_rate": 1.1375773615898617e-05,
      "loss": 0.39096105098724365,
      "memory(GiB)": 73.83,
      "step": 91145,
      "token_acc": 0.925531914893617,
      "train_speed(iter/s)": 1.457847
    },
    {
      "epoch": 3.90514545220856,
      "grad_norm": 2.086001396179199,
      "learning_rate": 1.137150033386239e-05,
      "loss": 0.2681437492370605,
      "memory(GiB)": 73.83,
      "step": 91150,
      "token_acc": 0.9347079037800687,
      "train_speed(iter/s)": 1.457861
    },
    {
      "epoch": 3.905359667537809,
      "grad_norm": 3.09391188621521,
      "learning_rate": 1.1367227751617671e-05,
      "loss": 0.23886497020721437,
      "memory(GiB)": 73.83,
      "step": 91155,
      "token_acc": 0.9328621908127208,
      "train_speed(iter/s)": 1.457863
    },
    {
      "epoch": 3.905573882867058,
      "grad_norm": 3.0024495124816895,
      "learning_rate": 1.1362955869241865e-05,
      "loss": 0.5457503318786621,
      "memory(GiB)": 73.83,
      "step": 91160,
      "token_acc": 0.8818897637795275,
      "train_speed(iter/s)": 1.457873
    },
    {
      "epoch": 3.905788098196307,
      "grad_norm": 4.002335071563721,
      "learning_rate": 1.1358684686812354e-05,
      "loss": 0.38543190956115725,
      "memory(GiB)": 73.83,
      "step": 91165,
      "token_acc": 0.920863309352518,
      "train_speed(iter/s)": 1.457876
    },
    {
      "epoch": 3.9060023135255557,
      "grad_norm": 0.83725905418396,
      "learning_rate": 1.1354414204406505e-05,
      "loss": 0.26732423305511477,
      "memory(GiB)": 73.83,
      "step": 91170,
      "token_acc": 0.9468085106382979,
      "train_speed(iter/s)": 1.457881
    },
    {
      "epoch": 3.906216528854805,
      "grad_norm": 3.2213079929351807,
      "learning_rate": 1.135014442210171e-05,
      "loss": 0.2430692195892334,
      "memory(GiB)": 73.83,
      "step": 91175,
      "token_acc": 0.9424460431654677,
      "train_speed(iter/s)": 1.457886
    },
    {
      "epoch": 3.906430744184054,
      "grad_norm": 4.467784404754639,
      "learning_rate": 1.1345875339975292e-05,
      "loss": 0.25074281692504885,
      "memory(GiB)": 73.83,
      "step": 91180,
      "token_acc": 0.9427710843373494,
      "train_speed(iter/s)": 1.457886
    },
    {
      "epoch": 3.9066449595133026,
      "grad_norm": 1.904608130455017,
      "learning_rate": 1.1341606958104616e-05,
      "loss": 0.25010297298431394,
      "memory(GiB)": 73.83,
      "step": 91185,
      "token_acc": 0.9383561643835616,
      "train_speed(iter/s)": 1.457883
    },
    {
      "epoch": 3.906859174842552,
      "grad_norm": 2.6763086318969727,
      "learning_rate": 1.1337339276566993e-05,
      "loss": 0.4181967735290527,
      "memory(GiB)": 73.83,
      "step": 91190,
      "token_acc": 0.8987730061349694,
      "train_speed(iter/s)": 1.457902
    },
    {
      "epoch": 3.9070733901718007,
      "grad_norm": 5.5242919921875,
      "learning_rate": 1.1333072295439739e-05,
      "loss": 0.9844871520996094,
      "memory(GiB)": 73.83,
      "step": 91195,
      "token_acc": 0.8202247191011236,
      "train_speed(iter/s)": 1.457902
    },
    {
      "epoch": 3.9072876055010495,
      "grad_norm": 4.098672389984131,
      "learning_rate": 1.1328806014800158e-05,
      "loss": 0.1638599991798401,
      "memory(GiB)": 73.83,
      "step": 91200,
      "token_acc": 0.9682539682539683,
      "train_speed(iter/s)": 1.457911
    },
    {
      "epoch": 3.9075018208302987,
      "grad_norm": 0.7275869846343994,
      "learning_rate": 1.132454043472551e-05,
      "loss": 0.30180404186248777,
      "memory(GiB)": 73.83,
      "step": 91205,
      "token_acc": 0.9028776978417267,
      "train_speed(iter/s)": 1.45791
    },
    {
      "epoch": 3.9077160361595475,
      "grad_norm": 4.1869401931762695,
      "learning_rate": 1.1320275555293113e-05,
      "loss": 0.2046203851699829,
      "memory(GiB)": 73.83,
      "step": 91210,
      "token_acc": 0.9493670886075949,
      "train_speed(iter/s)": 1.457919
    },
    {
      "epoch": 3.9079302514887964,
      "grad_norm": 3.054114818572998,
      "learning_rate": 1.1316011376580204e-05,
      "loss": 0.3405191421508789,
      "memory(GiB)": 73.83,
      "step": 91215,
      "token_acc": 0.9377777777777778,
      "train_speed(iter/s)": 1.457915
    },
    {
      "epoch": 3.9081444668180456,
      "grad_norm": 2.747586727142334,
      "learning_rate": 1.1311747898664038e-05,
      "loss": 0.4966853141784668,
      "memory(GiB)": 73.83,
      "step": 91220,
      "token_acc": 0.8694267515923567,
      "train_speed(iter/s)": 1.457919
    },
    {
      "epoch": 3.9083586821472944,
      "grad_norm": 0.6367446780204773,
      "learning_rate": 1.1307485121621858e-05,
      "loss": 0.18903902769088746,
      "memory(GiB)": 73.83,
      "step": 91225,
      "token_acc": 0.9513888888888888,
      "train_speed(iter/s)": 1.457926
    },
    {
      "epoch": 3.9085728974765432,
      "grad_norm": 3.996934652328491,
      "learning_rate": 1.1303223045530859e-05,
      "loss": 0.4915400505065918,
      "memory(GiB)": 73.83,
      "step": 91230,
      "token_acc": 0.9067055393586005,
      "train_speed(iter/s)": 1.457936
    },
    {
      "epoch": 3.9087871128057925,
      "grad_norm": 0.12196636945009232,
      "learning_rate": 1.1298961670468294e-05,
      "loss": 0.1647907018661499,
      "memory(GiB)": 73.83,
      "step": 91235,
      "token_acc": 0.9702602230483272,
      "train_speed(iter/s)": 1.457932
    },
    {
      "epoch": 3.9090013281350413,
      "grad_norm": 4.840312957763672,
      "learning_rate": 1.1294700996511342e-05,
      "loss": 0.26951000690460203,
      "memory(GiB)": 73.83,
      "step": 91240,
      "token_acc": 0.9528985507246377,
      "train_speed(iter/s)": 1.457937
    },
    {
      "epoch": 3.90921554346429,
      "grad_norm": 2.312631845474243,
      "learning_rate": 1.1290441023737175e-05,
      "loss": 0.27956862449645997,
      "memory(GiB)": 73.83,
      "step": 91245,
      "token_acc": 0.9294117647058824,
      "train_speed(iter/s)": 1.457942
    },
    {
      "epoch": 3.9094297587935394,
      "grad_norm": 3.925098180770874,
      "learning_rate": 1.1286181752222996e-05,
      "loss": 0.7830999374389649,
      "memory(GiB)": 73.83,
      "step": 91250,
      "token_acc": 0.8539325842696629,
      "train_speed(iter/s)": 1.457941
    },
    {
      "epoch": 3.909643974122788,
      "grad_norm": 4.322506427764893,
      "learning_rate": 1.128192318204595e-05,
      "loss": 0.557285213470459,
      "memory(GiB)": 73.83,
      "step": 91255,
      "token_acc": 0.8562300319488818,
      "train_speed(iter/s)": 1.457941
    },
    {
      "epoch": 3.909858189452037,
      "grad_norm": 7.242366313934326,
      "learning_rate": 1.1277665313283187e-05,
      "loss": 0.6659724235534668,
      "memory(GiB)": 73.83,
      "step": 91260,
      "token_acc": 0.8618181818181818,
      "train_speed(iter/s)": 1.457948
    },
    {
      "epoch": 3.9100724047812863,
      "grad_norm": 4.049862861633301,
      "learning_rate": 1.1273408146011827e-05,
      "loss": 0.39203662872314454,
      "memory(GiB)": 73.83,
      "step": 91265,
      "token_acc": 0.9060402684563759,
      "train_speed(iter/s)": 1.45795
    },
    {
      "epoch": 3.910286620110535,
      "grad_norm": 0.2829808294773102,
      "learning_rate": 1.1269151680309021e-05,
      "loss": 0.35770719051361083,
      "memory(GiB)": 73.83,
      "step": 91270,
      "token_acc": 0.9192307692307692,
      "train_speed(iter/s)": 1.457962
    },
    {
      "epoch": 3.910500835439784,
      "grad_norm": 2.342261552810669,
      "learning_rate": 1.126489591625186e-05,
      "loss": 0.4231730937957764,
      "memory(GiB)": 73.83,
      "step": 91275,
      "token_acc": 0.9275862068965517,
      "train_speed(iter/s)": 1.457963
    },
    {
      "epoch": 3.910715050769033,
      "grad_norm": 12.165470123291016,
      "learning_rate": 1.1260640853917453e-05,
      "loss": 0.71180100440979,
      "memory(GiB)": 73.83,
      "step": 91280,
      "token_acc": 0.8645833333333334,
      "train_speed(iter/s)": 1.457977
    },
    {
      "epoch": 3.910929266098282,
      "grad_norm": 6.365111351013184,
      "learning_rate": 1.1256386493382876e-05,
      "loss": 0.5071557998657227,
      "memory(GiB)": 73.83,
      "step": 91285,
      "token_acc": 0.8931297709923665,
      "train_speed(iter/s)": 1.457986
    },
    {
      "epoch": 3.9111434814275308,
      "grad_norm": 4.296713829040527,
      "learning_rate": 1.1252132834725187e-05,
      "loss": 0.4073168754577637,
      "memory(GiB)": 73.83,
      "step": 91290,
      "token_acc": 0.9090909090909091,
      "train_speed(iter/s)": 1.457998
    },
    {
      "epoch": 3.91135769675678,
      "grad_norm": 4.150421142578125,
      "learning_rate": 1.1247879878021472e-05,
      "loss": 0.5954475402832031,
      "memory(GiB)": 73.83,
      "step": 91295,
      "token_acc": 0.8469387755102041,
      "train_speed(iter/s)": 1.457998
    },
    {
      "epoch": 3.911571912086029,
      "grad_norm": 1.7464042901992798,
      "learning_rate": 1.1243627623348769e-05,
      "loss": 0.376607608795166,
      "memory(GiB)": 73.83,
      "step": 91300,
      "token_acc": 0.9183006535947712,
      "train_speed(iter/s)": 1.458004
    },
    {
      "epoch": 3.9117861274152776,
      "grad_norm": 3.4221487045288086,
      "learning_rate": 1.1239376070784108e-05,
      "loss": 0.335605525970459,
      "memory(GiB)": 73.83,
      "step": 91305,
      "token_acc": 0.942652329749104,
      "train_speed(iter/s)": 1.458002
    },
    {
      "epoch": 3.912000342744527,
      "grad_norm": 2.3293142318725586,
      "learning_rate": 1.1235125220404507e-05,
      "loss": 0.2641822338104248,
      "memory(GiB)": 73.83,
      "step": 91310,
      "token_acc": 0.9435483870967742,
      "train_speed(iter/s)": 1.458004
    },
    {
      "epoch": 3.9122145580737757,
      "grad_norm": 1.999759554862976,
      "learning_rate": 1.1230875072286979e-05,
      "loss": 0.15882608890533448,
      "memory(GiB)": 73.83,
      "step": 91315,
      "token_acc": 0.9529914529914529,
      "train_speed(iter/s)": 1.458004
    },
    {
      "epoch": 3.9124287734030245,
      "grad_norm": 0.7291763424873352,
      "learning_rate": 1.1226625626508502e-05,
      "loss": 0.27457003593444823,
      "memory(GiB)": 73.83,
      "step": 91320,
      "token_acc": 0.9363295880149812,
      "train_speed(iter/s)": 1.458014
    },
    {
      "epoch": 3.912642988732274,
      "grad_norm": 3.723565101623535,
      "learning_rate": 1.1222376883146079e-05,
      "loss": 0.49408931732177735,
      "memory(GiB)": 73.83,
      "step": 91325,
      "token_acc": 0.919732441471572,
      "train_speed(iter/s)": 1.458019
    },
    {
      "epoch": 3.9128572040615226,
      "grad_norm": 3.158301830291748,
      "learning_rate": 1.1218128842276688e-05,
      "loss": 0.6796288013458252,
      "memory(GiB)": 73.83,
      "step": 91330,
      "token_acc": 0.8534798534798534,
      "train_speed(iter/s)": 1.458022
    },
    {
      "epoch": 3.9130714193907714,
      "grad_norm": 4.605672836303711,
      "learning_rate": 1.121388150397727e-05,
      "loss": 0.22416868209838867,
      "memory(GiB)": 73.83,
      "step": 91335,
      "token_acc": 0.9497907949790795,
      "train_speed(iter/s)": 1.458024
    },
    {
      "epoch": 3.9132856347200207,
      "grad_norm": 3.3996944427490234,
      "learning_rate": 1.120963486832477e-05,
      "loss": 0.35319702625274657,
      "memory(GiB)": 73.83,
      "step": 91340,
      "token_acc": 0.9341085271317829,
      "train_speed(iter/s)": 1.458044
    },
    {
      "epoch": 3.9134998500492695,
      "grad_norm": 4.632585048675537,
      "learning_rate": 1.1205388935396127e-05,
      "loss": 0.3825770139694214,
      "memory(GiB)": 73.83,
      "step": 91345,
      "token_acc": 0.9191176470588235,
      "train_speed(iter/s)": 1.458041
    },
    {
      "epoch": 3.9137140653785183,
      "grad_norm": 2.985145092010498,
      "learning_rate": 1.120114370526824e-05,
      "loss": 0.23938283920288086,
      "memory(GiB)": 73.83,
      "step": 91350,
      "token_acc": 0.9370629370629371,
      "train_speed(iter/s)": 1.458039
    },
    {
      "epoch": 3.9139282807077675,
      "grad_norm": 4.880465507507324,
      "learning_rate": 1.119689917801805e-05,
      "loss": 0.47259230613708497,
      "memory(GiB)": 73.83,
      "step": 91355,
      "token_acc": 0.9074733096085409,
      "train_speed(iter/s)": 1.458039
    },
    {
      "epoch": 3.9141424960370164,
      "grad_norm": 3.552344799041748,
      "learning_rate": 1.1192655353722425e-05,
      "loss": 0.4804570198059082,
      "memory(GiB)": 73.83,
      "step": 91360,
      "token_acc": 0.8980263157894737,
      "train_speed(iter/s)": 1.458051
    },
    {
      "epoch": 3.914356711366265,
      "grad_norm": 0.8001114130020142,
      "learning_rate": 1.1188412232458256e-05,
      "loss": 0.2270660877227783,
      "memory(GiB)": 73.83,
      "step": 91365,
      "token_acc": 0.9446254071661238,
      "train_speed(iter/s)": 1.458058
    },
    {
      "epoch": 3.9145709266955144,
      "grad_norm": 2.203639268875122,
      "learning_rate": 1.1184169814302409e-05,
      "loss": 0.30090980529785155,
      "memory(GiB)": 73.83,
      "step": 91370,
      "token_acc": 0.9300911854103343,
      "train_speed(iter/s)": 1.458065
    },
    {
      "epoch": 3.9147851420247632,
      "grad_norm": 2.647027015686035,
      "learning_rate": 1.117992809933172e-05,
      "loss": 0.13991138935089112,
      "memory(GiB)": 73.83,
      "step": 91375,
      "token_acc": 0.9638989169675091,
      "train_speed(iter/s)": 1.458068
    },
    {
      "epoch": 3.914999357354012,
      "grad_norm": 2.902872323989868,
      "learning_rate": 1.1175687087623066e-05,
      "loss": 0.4930086135864258,
      "memory(GiB)": 73.83,
      "step": 91380,
      "token_acc": 0.8869257950530035,
      "train_speed(iter/s)": 1.458078
    },
    {
      "epoch": 3.9152135726832613,
      "grad_norm": 0.16884928941726685,
      "learning_rate": 1.1171446779253258e-05,
      "loss": 0.32490570545196534,
      "memory(GiB)": 73.83,
      "step": 91385,
      "token_acc": 0.9265734265734266,
      "train_speed(iter/s)": 1.458082
    },
    {
      "epoch": 3.91542778801251,
      "grad_norm": 2.0970873832702637,
      "learning_rate": 1.116720717429912e-05,
      "loss": 0.3508862257003784,
      "memory(GiB)": 73.83,
      "step": 91390,
      "token_acc": 0.9291044776119403,
      "train_speed(iter/s)": 1.458087
    },
    {
      "epoch": 3.915642003341759,
      "grad_norm": 5.189492225646973,
      "learning_rate": 1.1162968272837438e-05,
      "loss": 0.3059358596801758,
      "memory(GiB)": 73.83,
      "step": 91395,
      "token_acc": 0.9251700680272109,
      "train_speed(iter/s)": 1.458085
    },
    {
      "epoch": 3.915856218671008,
      "grad_norm": 0.8638033270835876,
      "learning_rate": 1.1158730074945029e-05,
      "loss": 0.3315077781677246,
      "memory(GiB)": 73.83,
      "step": 91400,
      "token_acc": 0.9403508771929825,
      "train_speed(iter/s)": 1.458084
    },
    {
      "epoch": 3.916070434000257,
      "grad_norm": 2.037128210067749,
      "learning_rate": 1.1154492580698661e-05,
      "loss": 0.2710346460342407,
      "memory(GiB)": 73.83,
      "step": 91405,
      "token_acc": 0.9548387096774194,
      "train_speed(iter/s)": 1.458097
    },
    {
      "epoch": 3.916284649329506,
      "grad_norm": 1.7496336698532104,
      "learning_rate": 1.1150255790175086e-05,
      "loss": 0.2638402462005615,
      "memory(GiB)": 73.83,
      "step": 91410,
      "token_acc": 0.940983606557377,
      "train_speed(iter/s)": 1.458099
    },
    {
      "epoch": 3.916498864658755,
      "grad_norm": 2.890815019607544,
      "learning_rate": 1.1146019703451083e-05,
      "loss": 0.2876424312591553,
      "memory(GiB)": 73.83,
      "step": 91415,
      "token_acc": 0.9365079365079365,
      "train_speed(iter/s)": 1.458107
    },
    {
      "epoch": 3.916713079988004,
      "grad_norm": 3.205042600631714,
      "learning_rate": 1.1141784320603382e-05,
      "loss": 0.5849930286407471,
      "memory(GiB)": 73.83,
      "step": 91420,
      "token_acc": 0.8687943262411347,
      "train_speed(iter/s)": 1.458109
    },
    {
      "epoch": 3.9169272953172527,
      "grad_norm": 0.6587882041931152,
      "learning_rate": 1.1137549641708717e-05,
      "loss": 0.3379584789276123,
      "memory(GiB)": 73.83,
      "step": 91425,
      "token_acc": 0.926829268292683,
      "train_speed(iter/s)": 1.458107
    },
    {
      "epoch": 3.917141510646502,
      "grad_norm": 2.67872953414917,
      "learning_rate": 1.1133315666843791e-05,
      "loss": 0.1787131905555725,
      "memory(GiB)": 73.83,
      "step": 91430,
      "token_acc": 0.958041958041958,
      "train_speed(iter/s)": 1.458111
    },
    {
      "epoch": 3.9173557259757508,
      "grad_norm": 3.1058096885681152,
      "learning_rate": 1.1129082396085294e-05,
      "loss": 0.2664060592651367,
      "memory(GiB)": 73.83,
      "step": 91435,
      "token_acc": 0.9403973509933775,
      "train_speed(iter/s)": 1.458129
    },
    {
      "epoch": 3.9175699413049996,
      "grad_norm": 2.396226644515991,
      "learning_rate": 1.1124849829509953e-05,
      "loss": 0.22731118202209472,
      "memory(GiB)": 73.83,
      "step": 91440,
      "token_acc": 0.9479553903345725,
      "train_speed(iter/s)": 1.458132
    },
    {
      "epoch": 3.917784156634249,
      "grad_norm": 3.872570037841797,
      "learning_rate": 1.1120617967194425e-05,
      "loss": 0.1873868227005005,
      "memory(GiB)": 73.83,
      "step": 91445,
      "token_acc": 0.9695652173913043,
      "train_speed(iter/s)": 1.458149
    },
    {
      "epoch": 3.9179983719634977,
      "grad_norm": 5.92330265045166,
      "learning_rate": 1.1116386809215368e-05,
      "loss": 0.6381815433502197,
      "memory(GiB)": 73.83,
      "step": 91450,
      "token_acc": 0.8701298701298701,
      "train_speed(iter/s)": 1.458159
    },
    {
      "epoch": 3.9182125872927465,
      "grad_norm": 1.3099873065948486,
      "learning_rate": 1.1112156355649444e-05,
      "loss": 0.3329931735992432,
      "memory(GiB)": 73.83,
      "step": 91455,
      "token_acc": 0.9156976744186046,
      "train_speed(iter/s)": 1.458158
    },
    {
      "epoch": 3.9184268026219957,
      "grad_norm": 2.1500282287597656,
      "learning_rate": 1.1107926606573287e-05,
      "loss": 0.37689805030822754,
      "memory(GiB)": 73.83,
      "step": 91460,
      "token_acc": 0.9115646258503401,
      "train_speed(iter/s)": 1.458164
    },
    {
      "epoch": 3.9186410179512445,
      "grad_norm": 3.1329219341278076,
      "learning_rate": 1.1103697562063513e-05,
      "loss": 0.271016263961792,
      "memory(GiB)": 73.83,
      "step": 91465,
      "token_acc": 0.9385665529010239,
      "train_speed(iter/s)": 1.458166
    },
    {
      "epoch": 3.9188552332804933,
      "grad_norm": 0.15283501148223877,
      "learning_rate": 1.109946922219674e-05,
      "loss": 0.15472275018692017,
      "memory(GiB)": 73.83,
      "step": 91470,
      "token_acc": 0.9646643109540636,
      "train_speed(iter/s)": 1.458175
    },
    {
      "epoch": 3.9190694486097426,
      "grad_norm": 1.3507678508758545,
      "learning_rate": 1.1095241587049593e-05,
      "loss": 0.3030203342437744,
      "memory(GiB)": 73.83,
      "step": 91475,
      "token_acc": 0.9247311827956989,
      "train_speed(iter/s)": 1.458186
    },
    {
      "epoch": 3.9192836639389914,
      "grad_norm": 6.726649284362793,
      "learning_rate": 1.1091014656698634e-05,
      "loss": 0.27059574127197267,
      "memory(GiB)": 73.83,
      "step": 91480,
      "token_acc": 0.9309090909090909,
      "train_speed(iter/s)": 1.458187
    },
    {
      "epoch": 3.9194978792682402,
      "grad_norm": 2.6539368629455566,
      "learning_rate": 1.1086788431220446e-05,
      "loss": 0.19522749185562133,
      "memory(GiB)": 73.83,
      "step": 91485,
      "token_acc": 0.9563758389261745,
      "train_speed(iter/s)": 1.458199
    },
    {
      "epoch": 3.9197120945974895,
      "grad_norm": 0.40296903252601624,
      "learning_rate": 1.108256291069159e-05,
      "loss": 0.2910623550415039,
      "memory(GiB)": 73.83,
      "step": 91490,
      "token_acc": 0.9251101321585903,
      "train_speed(iter/s)": 1.458204
    },
    {
      "epoch": 3.9199263099267383,
      "grad_norm": 2.706145763397217,
      "learning_rate": 1.1078338095188601e-05,
      "loss": 0.5221336364746094,
      "memory(GiB)": 73.83,
      "step": 91495,
      "token_acc": 0.8884892086330936,
      "train_speed(iter/s)": 1.458213
    },
    {
      "epoch": 3.920140525255987,
      "grad_norm": 4.028011322021484,
      "learning_rate": 1.1074113984788043e-05,
      "loss": 0.308853006362915,
      "memory(GiB)": 73.83,
      "step": 91500,
      "token_acc": 0.9437751004016064,
      "train_speed(iter/s)": 1.458215
    },
    {
      "epoch": 3.920140525255987,
      "eval_loss": 2.5758440494537354,
      "eval_runtime": 11.4481,
      "eval_samples_per_second": 8.735,
      "eval_steps_per_second": 8.735,
      "eval_token_acc": 0.4457070707070707,
      "step": 91500
    },
    {
      "epoch": 3.9203547405852364,
      "grad_norm": 3.9008448123931885,
      "learning_rate": 1.1069890579566427e-05,
      "loss": 0.3023218631744385,
      "memory(GiB)": 73.83,
      "step": 91505,
      "token_acc": 0.5840071877807727,
      "train_speed(iter/s)": 1.457918
    },
    {
      "epoch": 3.920568955914485,
      "grad_norm": 1.292372465133667,
      "learning_rate": 1.106566787960026e-05,
      "loss": 0.2808968544006348,
      "memory(GiB)": 73.83,
      "step": 91510,
      "token_acc": 0.9596774193548387,
      "train_speed(iter/s)": 1.457918
    },
    {
      "epoch": 3.920783171243734,
      "grad_norm": 2.2550652027130127,
      "learning_rate": 1.1061445884966042e-05,
      "loss": 0.12767796516418456,
      "memory(GiB)": 73.83,
      "step": 91515,
      "token_acc": 0.967741935483871,
      "train_speed(iter/s)": 1.45792
    },
    {
      "epoch": 3.9209973865729832,
      "grad_norm": 2.222951889038086,
      "learning_rate": 1.1057224595740246e-05,
      "loss": 0.39107584953308105,
      "memory(GiB)": 73.83,
      "step": 91520,
      "token_acc": 0.9201277955271565,
      "train_speed(iter/s)": 1.457921
    },
    {
      "epoch": 3.921211601902232,
      "grad_norm": 4.765552520751953,
      "learning_rate": 1.1053004011999374e-05,
      "loss": 0.45908393859863283,
      "memory(GiB)": 73.83,
      "step": 91525,
      "token_acc": 0.900355871886121,
      "train_speed(iter/s)": 1.457927
    },
    {
      "epoch": 3.921425817231481,
      "grad_norm": 3.7131199836730957,
      "learning_rate": 1.1048784133819867e-05,
      "loss": 0.22529094219207763,
      "memory(GiB)": 73.83,
      "step": 91530,
      "token_acc": 0.9413919413919414,
      "train_speed(iter/s)": 1.457929
    },
    {
      "epoch": 3.92164003256073,
      "grad_norm": 3.2461938858032227,
      "learning_rate": 1.1044564961278175e-05,
      "loss": 0.473720121383667,
      "memory(GiB)": 73.83,
      "step": 91535,
      "token_acc": 0.898989898989899,
      "train_speed(iter/s)": 1.457937
    },
    {
      "epoch": 3.921854247889979,
      "grad_norm": 2.257159948348999,
      "learning_rate": 1.104034649445072e-05,
      "loss": 0.35536043643951415,
      "memory(GiB)": 73.83,
      "step": 91540,
      "token_acc": 0.9292604501607717,
      "train_speed(iter/s)": 1.457937
    },
    {
      "epoch": 3.9220684632192278,
      "grad_norm": 4.146340847015381,
      "learning_rate": 1.1036128733413948e-05,
      "loss": 0.20813589096069335,
      "memory(GiB)": 73.83,
      "step": 91545,
      "token_acc": 0.950354609929078,
      "train_speed(iter/s)": 1.45794
    },
    {
      "epoch": 3.922282678548477,
      "grad_norm": 3.267580509185791,
      "learning_rate": 1.1031911678244255e-05,
      "loss": 0.40640764236450194,
      "memory(GiB)": 73.83,
      "step": 91550,
      "token_acc": 0.9072164948453608,
      "train_speed(iter/s)": 1.457941
    },
    {
      "epoch": 3.922496893877726,
      "grad_norm": 0.32521113753318787,
      "learning_rate": 1.1027695329018023e-05,
      "loss": 0.08435572385787964,
      "memory(GiB)": 73.83,
      "step": 91555,
      "token_acc": 0.9651162790697675,
      "train_speed(iter/s)": 1.457946
    },
    {
      "epoch": 3.9227111092069746,
      "grad_norm": 0.7093426585197449,
      "learning_rate": 1.102347968581166e-05,
      "loss": 0.15180329084396363,
      "memory(GiB)": 73.83,
      "step": 91560,
      "token_acc": 0.9541666666666667,
      "train_speed(iter/s)": 1.457951
    },
    {
      "epoch": 3.922925324536224,
      "grad_norm": 4.173666954040527,
      "learning_rate": 1.101926474870153e-05,
      "loss": 0.41053028106689454,
      "memory(GiB)": 73.83,
      "step": 91565,
      "token_acc": 0.9111111111111111,
      "train_speed(iter/s)": 1.457961
    },
    {
      "epoch": 3.9231395398654727,
      "grad_norm": 2.570300817489624,
      "learning_rate": 1.1015050517763987e-05,
      "loss": 0.22688181400299073,
      "memory(GiB)": 73.83,
      "step": 91570,
      "token_acc": 0.9411764705882353,
      "train_speed(iter/s)": 1.457969
    },
    {
      "epoch": 3.9233537551947215,
      "grad_norm": 1.6287587881088257,
      "learning_rate": 1.101083699307537e-05,
      "loss": 0.2198075532913208,
      "memory(GiB)": 73.83,
      "step": 91575,
      "token_acc": 0.9444444444444444,
      "train_speed(iter/s)": 1.457966
    },
    {
      "epoch": 3.9235679705239708,
      "grad_norm": 4.619167327880859,
      "learning_rate": 1.1006624174711999e-05,
      "loss": 0.52133207321167,
      "memory(GiB)": 73.83,
      "step": 91580,
      "token_acc": 0.887240356083086,
      "train_speed(iter/s)": 1.457975
    },
    {
      "epoch": 3.9237821858532196,
      "grad_norm": 6.403381824493408,
      "learning_rate": 1.1002412062750233e-05,
      "loss": 0.35586249828338623,
      "memory(GiB)": 73.83,
      "step": 91585,
      "token_acc": 0.9196787148594378,
      "train_speed(iter/s)": 1.457987
    },
    {
      "epoch": 3.9239964011824684,
      "grad_norm": 0.6540128588676453,
      "learning_rate": 1.099820065726635e-05,
      "loss": 0.13758621215820313,
      "memory(GiB)": 73.83,
      "step": 91590,
      "token_acc": 0.9692307692307692,
      "train_speed(iter/s)": 1.457991
    },
    {
      "epoch": 3.9242106165117177,
      "grad_norm": 5.357930660247803,
      "learning_rate": 1.0993989958336648e-05,
      "loss": 0.5887109279632569,
      "memory(GiB)": 73.83,
      "step": 91595,
      "token_acc": 0.8944281524926686,
      "train_speed(iter/s)": 1.45799
    },
    {
      "epoch": 3.9244248318409665,
      "grad_norm": 1.540175437927246,
      "learning_rate": 1.098977996603741e-05,
      "loss": 0.3847651958465576,
      "memory(GiB)": 73.83,
      "step": 91600,
      "token_acc": 0.9215686274509803,
      "train_speed(iter/s)": 1.457991
    },
    {
      "epoch": 3.9246390471702153,
      "grad_norm": 1.8642610311508179,
      "learning_rate": 1.09855706804449e-05,
      "loss": 0.40784592628479005,
      "memory(GiB)": 73.83,
      "step": 91605,
      "token_acc": 0.9175257731958762,
      "train_speed(iter/s)": 1.457999
    },
    {
      "epoch": 3.9248532624994645,
      "grad_norm": 1.7369176149368286,
      "learning_rate": 1.0981362101635367e-05,
      "loss": 0.23652191162109376,
      "memory(GiB)": 73.83,
      "step": 91610,
      "token_acc": 0.9583333333333334,
      "train_speed(iter/s)": 1.458001
    },
    {
      "epoch": 3.9250674778287133,
      "grad_norm": 3.2242937088012695,
      "learning_rate": 1.0977154229685055e-05,
      "loss": 0.45053863525390625,
      "memory(GiB)": 73.83,
      "step": 91615,
      "token_acc": 0.8983050847457628,
      "train_speed(iter/s)": 1.458006
    },
    {
      "epoch": 3.925281693157962,
      "grad_norm": 1.3247929811477661,
      "learning_rate": 1.097294706467022e-05,
      "loss": 0.42120065689086916,
      "memory(GiB)": 73.83,
      "step": 91620,
      "token_acc": 0.9100346020761245,
      "train_speed(iter/s)": 1.458007
    },
    {
      "epoch": 3.9254959084872114,
      "grad_norm": 2.686821699142456,
      "learning_rate": 1.096874060666706e-05,
      "loss": 0.3599431276321411,
      "memory(GiB)": 73.83,
      "step": 91625,
      "token_acc": 0.9178082191780822,
      "train_speed(iter/s)": 1.458016
    },
    {
      "epoch": 3.9257101238164602,
      "grad_norm": 0.33125001192092896,
      "learning_rate": 1.0964534855751774e-05,
      "loss": 0.3414464950561523,
      "memory(GiB)": 73.83,
      "step": 91630,
      "token_acc": 0.940983606557377,
      "train_speed(iter/s)": 1.458023
    },
    {
      "epoch": 3.925924339145709,
      "grad_norm": 1.9407265186309814,
      "learning_rate": 1.0960329812000557e-05,
      "loss": 0.4116572380065918,
      "memory(GiB)": 73.83,
      "step": 91635,
      "token_acc": 0.8888888888888888,
      "train_speed(iter/s)": 1.45803
    },
    {
      "epoch": 3.9261385544749583,
      "grad_norm": 2.994199514389038,
      "learning_rate": 1.0956125475489575e-05,
      "loss": 0.2259655475616455,
      "memory(GiB)": 73.83,
      "step": 91640,
      "token_acc": 0.9404388714733543,
      "train_speed(iter/s)": 1.458031
    },
    {
      "epoch": 3.926352769804207,
      "grad_norm": 6.596823692321777,
      "learning_rate": 1.095192184629502e-05,
      "loss": 0.7681463241577149,
      "memory(GiB)": 73.83,
      "step": 91645,
      "token_acc": 0.8571428571428571,
      "train_speed(iter/s)": 1.458029
    },
    {
      "epoch": 3.926566985133456,
      "grad_norm": 4.970283031463623,
      "learning_rate": 1.0947718924493034e-05,
      "loss": 0.5388926029205322,
      "memory(GiB)": 73.83,
      "step": 91650,
      "token_acc": 0.875,
      "train_speed(iter/s)": 1.458041
    },
    {
      "epoch": 3.926781200462705,
      "grad_norm": 4.2132134437561035,
      "learning_rate": 1.0943516710159751e-05,
      "loss": 0.4341888427734375,
      "memory(GiB)": 73.83,
      "step": 91655,
      "token_acc": 0.9174917491749175,
      "train_speed(iter/s)": 1.458041
    },
    {
      "epoch": 3.926995415791954,
      "grad_norm": 4.49338960647583,
      "learning_rate": 1.0939315203371303e-05,
      "loss": 0.31499905586242677,
      "memory(GiB)": 73.83,
      "step": 91660,
      "token_acc": 0.9329608938547486,
      "train_speed(iter/s)": 1.458042
    },
    {
      "epoch": 3.927209631121203,
      "grad_norm": 2.347440719604492,
      "learning_rate": 1.0935114404203783e-05,
      "loss": 0.34077303409576415,
      "memory(GiB)": 73.83,
      "step": 91665,
      "token_acc": 0.9076433121019108,
      "train_speed(iter/s)": 1.45804
    },
    {
      "epoch": 3.927423846450452,
      "grad_norm": 2.778613805770874,
      "learning_rate": 1.0930914312733332e-05,
      "loss": 0.5651789665222168,
      "memory(GiB)": 73.83,
      "step": 91670,
      "token_acc": 0.9,
      "train_speed(iter/s)": 1.458046
    },
    {
      "epoch": 3.927638061779701,
      "grad_norm": 3.5154995918273926,
      "learning_rate": 1.0926714929036014e-05,
      "loss": 0.17024749517440796,
      "memory(GiB)": 73.83,
      "step": 91675,
      "token_acc": 0.9695817490494296,
      "train_speed(iter/s)": 1.45805
    },
    {
      "epoch": 3.9278522771089497,
      "grad_norm": 2.5934159755706787,
      "learning_rate": 1.0922516253187909e-05,
      "loss": 0.5703732967376709,
      "memory(GiB)": 73.83,
      "step": 91680,
      "token_acc": 0.9017543859649123,
      "train_speed(iter/s)": 1.458061
    },
    {
      "epoch": 3.928066492438199,
      "grad_norm": 3.65692400932312,
      "learning_rate": 1.0918318285265078e-05,
      "loss": 0.30271828174591064,
      "memory(GiB)": 73.83,
      "step": 91685,
      "token_acc": 0.9375,
      "train_speed(iter/s)": 1.458065
    },
    {
      "epoch": 3.9282807077674478,
      "grad_norm": 3.431220293045044,
      "learning_rate": 1.091412102534356e-05,
      "loss": 0.39194815158843993,
      "memory(GiB)": 73.83,
      "step": 91690,
      "token_acc": 0.9111842105263158,
      "train_speed(iter/s)": 1.458067
    },
    {
      "epoch": 3.9284949230966966,
      "grad_norm": 1.8125990629196167,
      "learning_rate": 1.0909924473499423e-05,
      "loss": 0.28984191417694094,
      "memory(GiB)": 73.83,
      "step": 91695,
      "token_acc": 0.9402390438247012,
      "train_speed(iter/s)": 1.458073
    },
    {
      "epoch": 3.928709138425946,
      "grad_norm": 3.257910966873169,
      "learning_rate": 1.0905728629808654e-05,
      "loss": 0.2887981176376343,
      "memory(GiB)": 73.83,
      "step": 91700,
      "token_acc": 0.9476923076923077,
      "train_speed(iter/s)": 1.458074
    },
    {
      "epoch": 3.9289233537551946,
      "grad_norm": 4.957387924194336,
      "learning_rate": 1.0901533494347304e-05,
      "loss": 0.586701774597168,
      "memory(GiB)": 73.83,
      "step": 91705,
      "token_acc": 0.8836565096952909,
      "train_speed(iter/s)": 1.458078
    },
    {
      "epoch": 3.9291375690844434,
      "grad_norm": 3.5388522148132324,
      "learning_rate": 1.0897339067191347e-05,
      "loss": 0.8287006378173828,
      "memory(GiB)": 73.83,
      "step": 91710,
      "token_acc": 0.8350515463917526,
      "train_speed(iter/s)": 1.45808
    },
    {
      "epoch": 3.9293517844136927,
      "grad_norm": 8.285316467285156,
      "learning_rate": 1.0893145348416778e-05,
      "loss": 0.5036337852478028,
      "memory(GiB)": 73.83,
      "step": 91715,
      "token_acc": 0.8767772511848341,
      "train_speed(iter/s)": 1.458088
    },
    {
      "epoch": 3.9295659997429415,
      "grad_norm": 2.8332388401031494,
      "learning_rate": 1.0888952338099561e-05,
      "loss": 0.5213450908660888,
      "memory(GiB)": 73.83,
      "step": 91720,
      "token_acc": 0.90234375,
      "train_speed(iter/s)": 1.458108
    },
    {
      "epoch": 3.9297802150721903,
      "grad_norm": 0.0724354162812233,
      "learning_rate": 1.088476003631565e-05,
      "loss": 0.33218839168548586,
      "memory(GiB)": 73.83,
      "step": 91725,
      "token_acc": 0.9354838709677419,
      "train_speed(iter/s)": 1.458121
    },
    {
      "epoch": 3.9299944304014396,
      "grad_norm": 4.580667018890381,
      "learning_rate": 1.088056844314102e-05,
      "loss": 0.5888550281524658,
      "memory(GiB)": 73.83,
      "step": 91730,
      "token_acc": 0.90625,
      "train_speed(iter/s)": 1.458119
    },
    {
      "epoch": 3.9302086457306884,
      "grad_norm": 2.321489095687866,
      "learning_rate": 1.087637755865159e-05,
      "loss": 0.4488957405090332,
      "memory(GiB)": 73.83,
      "step": 91735,
      "token_acc": 0.8992805755395683,
      "train_speed(iter/s)": 1.458122
    },
    {
      "epoch": 3.930422861059937,
      "grad_norm": 1.7353183031082153,
      "learning_rate": 1.0872187382923277e-05,
      "loss": 0.37646892070770266,
      "memory(GiB)": 73.83,
      "step": 91740,
      "token_acc": 0.9117647058823529,
      "train_speed(iter/s)": 1.458122
    },
    {
      "epoch": 3.9306370763891865,
      "grad_norm": 0.49422168731689453,
      "learning_rate": 1.0867997916031997e-05,
      "loss": 0.2183070421218872,
      "memory(GiB)": 73.83,
      "step": 91745,
      "token_acc": 0.9672727272727273,
      "train_speed(iter/s)": 1.458128
    },
    {
      "epoch": 3.9308512917184353,
      "grad_norm": 7.483141899108887,
      "learning_rate": 1.0863809158053645e-05,
      "loss": 0.5710744857788086,
      "memory(GiB)": 73.83,
      "step": 91750,
      "token_acc": 0.8728323699421965,
      "train_speed(iter/s)": 1.458139
    },
    {
      "epoch": 3.931065507047684,
      "grad_norm": 5.349090099334717,
      "learning_rate": 1.0859621109064089e-05,
      "loss": 0.34262771606445314,
      "memory(GiB)": 73.83,
      "step": 91755,
      "token_acc": 0.9176470588235294,
      "train_speed(iter/s)": 1.458152
    },
    {
      "epoch": 3.9312797223769333,
      "grad_norm": 1.865323543548584,
      "learning_rate": 1.0855433769139223e-05,
      "loss": 0.33566510677337646,
      "memory(GiB)": 73.83,
      "step": 91760,
      "token_acc": 0.9306569343065694,
      "train_speed(iter/s)": 1.458153
    },
    {
      "epoch": 3.931493937706182,
      "grad_norm": 2.492424249649048,
      "learning_rate": 1.0851247138354886e-05,
      "loss": 0.18887959718704223,
      "memory(GiB)": 73.83,
      "step": 91765,
      "token_acc": 0.9638989169675091,
      "train_speed(iter/s)": 1.458157
    },
    {
      "epoch": 3.931708153035431,
      "grad_norm": 5.626111030578613,
      "learning_rate": 1.084706121678694e-05,
      "loss": 0.47156682014465334,
      "memory(GiB)": 73.83,
      "step": 91770,
      "token_acc": 0.8984615384615384,
      "train_speed(iter/s)": 1.45816
    },
    {
      "epoch": 3.9319223683646802,
      "grad_norm": 0.5531324148178101,
      "learning_rate": 1.0842876004511215e-05,
      "loss": 0.6185770511627198,
      "memory(GiB)": 73.83,
      "step": 91775,
      "token_acc": 0.8929889298892989,
      "train_speed(iter/s)": 1.458167
    },
    {
      "epoch": 3.932136583693929,
      "grad_norm": 4.476040840148926,
      "learning_rate": 1.083869150160352e-05,
      "loss": 0.37564663887023925,
      "memory(GiB)": 73.83,
      "step": 91780,
      "token_acc": 0.9104477611940298,
      "train_speed(iter/s)": 1.458164
    },
    {
      "epoch": 3.932350799023178,
      "grad_norm": 3.644111156463623,
      "learning_rate": 1.0834507708139651e-05,
      "loss": 0.4385236740112305,
      "memory(GiB)": 73.83,
      "step": 91785,
      "token_acc": 0.8879668049792531,
      "train_speed(iter/s)": 1.458173
    },
    {
      "epoch": 3.932565014352427,
      "grad_norm": 3.798424005508423,
      "learning_rate": 1.083032462419543e-05,
      "loss": 0.38988988399505614,
      "memory(GiB)": 73.83,
      "step": 91790,
      "token_acc": 0.925,
      "train_speed(iter/s)": 1.458176
    },
    {
      "epoch": 3.932779229681676,
      "grad_norm": 1.6732984781265259,
      "learning_rate": 1.0826142249846621e-05,
      "loss": 0.21159737110137938,
      "memory(GiB)": 73.83,
      "step": 91795,
      "token_acc": 0.9463087248322147,
      "train_speed(iter/s)": 1.45818
    },
    {
      "epoch": 3.9329934450109247,
      "grad_norm": 2.150635242462158,
      "learning_rate": 1.0821960585168994e-05,
      "loss": 0.1822056531906128,
      "memory(GiB)": 73.83,
      "step": 91800,
      "token_acc": 0.9559322033898305,
      "train_speed(iter/s)": 1.45818
    },
    {
      "epoch": 3.933207660340174,
      "grad_norm": 1.3695580959320068,
      "learning_rate": 1.0817779630238301e-05,
      "loss": 0.22789301872253417,
      "memory(GiB)": 73.83,
      "step": 91805,
      "token_acc": 0.9436619718309859,
      "train_speed(iter/s)": 1.458181
    },
    {
      "epoch": 3.933421875669423,
      "grad_norm": 2.2031073570251465,
      "learning_rate": 1.0813599385130274e-05,
      "loss": 0.2973299264907837,
      "memory(GiB)": 73.83,
      "step": 91810,
      "token_acc": 0.9307958477508651,
      "train_speed(iter/s)": 1.458181
    },
    {
      "epoch": 3.9336360909986716,
      "grad_norm": 4.603542804718018,
      "learning_rate": 1.0809419849920671e-05,
      "loss": 0.35037319660186766,
      "memory(GiB)": 73.83,
      "step": 91815,
      "token_acc": 0.926056338028169,
      "train_speed(iter/s)": 1.45819
    },
    {
      "epoch": 3.933850306327921,
      "grad_norm": 2.092822551727295,
      "learning_rate": 1.0805241024685186e-05,
      "loss": 0.33410236835479734,
      "memory(GiB)": 73.83,
      "step": 91820,
      "token_acc": 0.924187725631769,
      "train_speed(iter/s)": 1.458187
    },
    {
      "epoch": 3.9340645216571697,
      "grad_norm": 6.465167045593262,
      "learning_rate": 1.0801062909499526e-05,
      "loss": 0.5786396026611328,
      "memory(GiB)": 73.83,
      "step": 91825,
      "token_acc": 0.8996138996138996,
      "train_speed(iter/s)": 1.458181
    },
    {
      "epoch": 3.9342787369864185,
      "grad_norm": 3.4842307567596436,
      "learning_rate": 1.0796885504439391e-05,
      "loss": 0.42449150085449217,
      "memory(GiB)": 73.83,
      "step": 91830,
      "token_acc": 0.9169675090252708,
      "train_speed(iter/s)": 1.458191
    },
    {
      "epoch": 3.9344929523156678,
      "grad_norm": 2.196397066116333,
      "learning_rate": 1.0792708809580431e-05,
      "loss": 0.36484899520874026,
      "memory(GiB)": 73.83,
      "step": 91835,
      "token_acc": 0.928082191780822,
      "train_speed(iter/s)": 1.458196
    },
    {
      "epoch": 3.9347071676449166,
      "grad_norm": 4.147243976593018,
      "learning_rate": 1.0788532824998343e-05,
      "loss": 0.5388880729675293,
      "memory(GiB)": 73.83,
      "step": 91840,
      "token_acc": 0.8803680981595092,
      "train_speed(iter/s)": 1.458195
    },
    {
      "epoch": 3.9349213829741654,
      "grad_norm": 2.141339063644409,
      "learning_rate": 1.0784357550768753e-05,
      "loss": 0.4251612663269043,
      "memory(GiB)": 73.83,
      "step": 91845,
      "token_acc": 0.8970099667774086,
      "train_speed(iter/s)": 1.458197
    },
    {
      "epoch": 3.9351355983034146,
      "grad_norm": 5.231916427612305,
      "learning_rate": 1.078018298696733e-05,
      "loss": 0.4741776466369629,
      "memory(GiB)": 73.83,
      "step": 91850,
      "token_acc": 0.8865248226950354,
      "train_speed(iter/s)": 1.458209
    },
    {
      "epoch": 3.9353498136326635,
      "grad_norm": 2.660727024078369,
      "learning_rate": 1.0776009133669684e-05,
      "loss": 0.39154829978942873,
      "memory(GiB)": 73.83,
      "step": 91855,
      "token_acc": 0.9242902208201893,
      "train_speed(iter/s)": 1.458209
    },
    {
      "epoch": 3.9355640289619123,
      "grad_norm": 3.7976598739624023,
      "learning_rate": 1.0771835990951424e-05,
      "loss": 0.4729097843170166,
      "memory(GiB)": 73.83,
      "step": 91860,
      "token_acc": 0.9049180327868852,
      "train_speed(iter/s)": 1.458209
    },
    {
      "epoch": 3.9357782442911615,
      "grad_norm": 7.704154014587402,
      "learning_rate": 1.0767663558888159e-05,
      "loss": 0.5629953384399414,
      "memory(GiB)": 73.83,
      "step": 91865,
      "token_acc": 0.8949579831932774,
      "train_speed(iter/s)": 1.45822
    },
    {
      "epoch": 3.9359924596204103,
      "grad_norm": 1.7600975036621094,
      "learning_rate": 1.076349183755545e-05,
      "loss": 0.11985470056533813,
      "memory(GiB)": 73.83,
      "step": 91870,
      "token_acc": 0.9772727272727273,
      "train_speed(iter/s)": 1.458226
    },
    {
      "epoch": 3.936206674949659,
      "grad_norm": 4.641913890838623,
      "learning_rate": 1.0759320827028913e-05,
      "loss": 0.22133755683898926,
      "memory(GiB)": 73.83,
      "step": 91875,
      "token_acc": 0.9471544715447154,
      "train_speed(iter/s)": 1.458229
    },
    {
      "epoch": 3.9364208902789084,
      "grad_norm": 4.311718940734863,
      "learning_rate": 1.0755150527384089e-05,
      "loss": 0.14660476446151732,
      "memory(GiB)": 73.83,
      "step": 91880,
      "token_acc": 0.9559322033898305,
      "train_speed(iter/s)": 1.458232
    },
    {
      "epoch": 3.936635105608157,
      "grad_norm": 3.0836613178253174,
      "learning_rate": 1.0750980938696525e-05,
      "loss": 0.1871357798576355,
      "memory(GiB)": 73.83,
      "step": 91885,
      "token_acc": 0.9493670886075949,
      "train_speed(iter/s)": 1.458229
    },
    {
      "epoch": 3.936849320937406,
      "grad_norm": 4.354429244995117,
      "learning_rate": 1.0746812061041761e-05,
      "loss": 0.3549583911895752,
      "memory(GiB)": 73.83,
      "step": 91890,
      "token_acc": 0.911864406779661,
      "train_speed(iter/s)": 1.45823
    },
    {
      "epoch": 3.9370635362666553,
      "grad_norm": 4.656513214111328,
      "learning_rate": 1.0742643894495319e-05,
      "loss": 0.35665230751037597,
      "memory(GiB)": 73.83,
      "step": 91895,
      "token_acc": 0.9078498293515358,
      "train_speed(iter/s)": 1.458239
    },
    {
      "epoch": 3.937277751595904,
      "grad_norm": 1.1920605897903442,
      "learning_rate": 1.07384764391327e-05,
      "loss": 0.2665479898452759,
      "memory(GiB)": 73.83,
      "step": 91900,
      "token_acc": 0.9527272727272728,
      "train_speed(iter/s)": 1.458244
    },
    {
      "epoch": 3.937491966925153,
      "grad_norm": 2.7819643020629883,
      "learning_rate": 1.0734309695029422e-05,
      "loss": 0.31835570335388186,
      "memory(GiB)": 73.83,
      "step": 91905,
      "token_acc": 0.9372693726937269,
      "train_speed(iter/s)": 1.458251
    },
    {
      "epoch": 3.937706182254402,
      "grad_norm": 5.406821250915527,
      "learning_rate": 1.0730143662260938e-05,
      "loss": 0.5297123908996582,
      "memory(GiB)": 73.83,
      "step": 91910,
      "token_acc": 0.8838709677419355,
      "train_speed(iter/s)": 1.458252
    },
    {
      "epoch": 3.937920397583651,
      "grad_norm": 2.6077048778533936,
      "learning_rate": 1.0725978340902758e-05,
      "loss": 0.39276459217071535,
      "memory(GiB)": 73.83,
      "step": 91915,
      "token_acc": 0.9409722222222222,
      "train_speed(iter/s)": 1.458253
    },
    {
      "epoch": 3.9381346129129,
      "grad_norm": 3.0141048431396484,
      "learning_rate": 1.0721813731030328e-05,
      "loss": 0.4537950992584229,
      "memory(GiB)": 73.83,
      "step": 91920,
      "token_acc": 0.89375,
      "train_speed(iter/s)": 1.458257
    },
    {
      "epoch": 3.938348828242149,
      "grad_norm": 3.9463205337524414,
      "learning_rate": 1.071764983271908e-05,
      "loss": 0.4366273880004883,
      "memory(GiB)": 73.83,
      "step": 91925,
      "token_acc": 0.8918918918918919,
      "train_speed(iter/s)": 1.458258
    },
    {
      "epoch": 3.938563043571398,
      "grad_norm": 4.291007041931152,
      "learning_rate": 1.0713486646044446e-05,
      "loss": 0.25856590270996094,
      "memory(GiB)": 73.83,
      "step": 91930,
      "token_acc": 0.9495268138801262,
      "train_speed(iter/s)": 1.45826
    },
    {
      "epoch": 3.9387772589006467,
      "grad_norm": 7.359781742095947,
      "learning_rate": 1.0709324171081863e-05,
      "loss": 0.4291681289672852,
      "memory(GiB)": 73.83,
      "step": 91935,
      "token_acc": 0.9256965944272446,
      "train_speed(iter/s)": 1.458265
    },
    {
      "epoch": 3.938991474229896,
      "grad_norm": 3.5364532470703125,
      "learning_rate": 1.0705162407906739e-05,
      "loss": 0.5646511077880859,
      "memory(GiB)": 73.83,
      "step": 91940,
      "token_acc": 0.8773584905660378,
      "train_speed(iter/s)": 1.458273
    },
    {
      "epoch": 3.9392056895591447,
      "grad_norm": 3.812408447265625,
      "learning_rate": 1.0701001356594453e-05,
      "loss": 0.3190268039703369,
      "memory(GiB)": 73.83,
      "step": 91945,
      "token_acc": 0.9314079422382672,
      "train_speed(iter/s)": 1.458272
    },
    {
      "epoch": 3.9394199048883936,
      "grad_norm": 4.0262603759765625,
      "learning_rate": 1.0696841017220394e-05,
      "loss": 0.577215051651001,
      "memory(GiB)": 73.83,
      "step": 91950,
      "token_acc": 0.9038461538461539,
      "train_speed(iter/s)": 1.458277
    },
    {
      "epoch": 3.939634120217643,
      "grad_norm": 4.692511558532715,
      "learning_rate": 1.0692681389859916e-05,
      "loss": 0.21852402687072753,
      "memory(GiB)": 73.83,
      "step": 91955,
      "token_acc": 0.9632352941176471,
      "train_speed(iter/s)": 1.458278
    },
    {
      "epoch": 3.9398483355468916,
      "grad_norm": 2.1052279472351074,
      "learning_rate": 1.0688522474588403e-05,
      "loss": 0.17277097702026367,
      "memory(GiB)": 73.83,
      "step": 91960,
      "token_acc": 0.961038961038961,
      "train_speed(iter/s)": 1.458284
    },
    {
      "epoch": 3.9400625508761404,
      "grad_norm": 2.2497546672821045,
      "learning_rate": 1.0684364271481184e-05,
      "loss": 0.3116642713546753,
      "memory(GiB)": 73.83,
      "step": 91965,
      "token_acc": 0.9305555555555556,
      "train_speed(iter/s)": 1.458287
    },
    {
      "epoch": 3.9402767662053897,
      "grad_norm": 2.3484268188476562,
      "learning_rate": 1.0680206780613583e-05,
      "loss": 0.2698577880859375,
      "memory(GiB)": 73.83,
      "step": 91970,
      "token_acc": 0.9335260115606936,
      "train_speed(iter/s)": 1.458287
    },
    {
      "epoch": 3.9404909815346385,
      "grad_norm": 5.977365493774414,
      "learning_rate": 1.0676050002060922e-05,
      "loss": 0.5378568172454834,
      "memory(GiB)": 73.83,
      "step": 91975,
      "token_acc": 0.8758169934640523,
      "train_speed(iter/s)": 1.458286
    },
    {
      "epoch": 3.9407051968638873,
      "grad_norm": 4.692793846130371,
      "learning_rate": 1.0671893935898509e-05,
      "loss": 0.3439932823181152,
      "memory(GiB)": 73.83,
      "step": 91980,
      "token_acc": 0.9205607476635514,
      "train_speed(iter/s)": 1.45829
    },
    {
      "epoch": 3.9409194121931366,
      "grad_norm": 3.3791568279266357,
      "learning_rate": 1.0667738582201608e-05,
      "loss": 0.5396737098693848,
      "memory(GiB)": 73.83,
      "step": 91985,
      "token_acc": 0.8742331288343558,
      "train_speed(iter/s)": 1.458291
    },
    {
      "epoch": 3.9411336275223854,
      "grad_norm": 1.580499529838562,
      "learning_rate": 1.0663583941045525e-05,
      "loss": 0.3632943153381348,
      "memory(GiB)": 73.83,
      "step": 91990,
      "token_acc": 0.9125475285171103,
      "train_speed(iter/s)": 1.458294
    },
    {
      "epoch": 3.941347842851634,
      "grad_norm": 1.3945199251174927,
      "learning_rate": 1.0659430012505534e-05,
      "loss": 0.22328295707702636,
      "memory(GiB)": 73.83,
      "step": 91995,
      "token_acc": 0.9572192513368984,
      "train_speed(iter/s)": 1.458294
    },
    {
      "epoch": 3.9415620581808835,
      "grad_norm": 2.8940165042877197,
      "learning_rate": 1.0655276796656871e-05,
      "loss": 0.3357869625091553,
      "memory(GiB)": 73.83,
      "step": 92000,
      "token_acc": 0.9341085271317829,
      "train_speed(iter/s)": 1.458295
    },
    {
      "epoch": 3.9415620581808835,
      "eval_loss": 2.466050148010254,
      "eval_runtime": 11.2912,
      "eval_samples_per_second": 8.856,
      "eval_steps_per_second": 8.856,
      "eval_token_acc": 0.44906166219839144,
      "step": 92000
    },
    {
      "epoch": 3.9417762735101323,
      "grad_norm": 0.307390958070755,
      "learning_rate": 1.0651124293574777e-05,
      "loss": 0.29802689552307127,
      "memory(GiB)": 73.83,
      "step": 92005,
      "token_acc": 0.5903041825095057,
      "train_speed(iter/s)": 1.458015
    },
    {
      "epoch": 3.941990488839381,
      "grad_norm": 5.098630905151367,
      "learning_rate": 1.0646972503334474e-05,
      "loss": 0.3144557476043701,
      "memory(GiB)": 73.83,
      "step": 92010,
      "token_acc": 0.935361216730038,
      "train_speed(iter/s)": 1.458014
    },
    {
      "epoch": 3.9422047041686303,
      "grad_norm": 4.086143493652344,
      "learning_rate": 1.0642821426011174e-05,
      "loss": 0.4205376625061035,
      "memory(GiB)": 73.83,
      "step": 92015,
      "token_acc": 0.9106529209621993,
      "train_speed(iter/s)": 1.458014
    },
    {
      "epoch": 3.942418919497879,
      "grad_norm": 8.585102081298828,
      "learning_rate": 1.0638671061680095e-05,
      "loss": 0.2811316728591919,
      "memory(GiB)": 73.83,
      "step": 92020,
      "token_acc": 0.9395161290322581,
      "train_speed(iter/s)": 1.458019
    },
    {
      "epoch": 3.942633134827128,
      "grad_norm": 2.991922378540039,
      "learning_rate": 1.063452141041641e-05,
      "loss": 0.12433822154998779,
      "memory(GiB)": 73.83,
      "step": 92025,
      "token_acc": 0.9665551839464883,
      "train_speed(iter/s)": 1.45802
    },
    {
      "epoch": 3.942847350156377,
      "grad_norm": 2.5897274017333984,
      "learning_rate": 1.0630372472295303e-05,
      "loss": 0.27375576496124265,
      "memory(GiB)": 73.83,
      "step": 92030,
      "token_acc": 0.9489795918367347,
      "train_speed(iter/s)": 1.458029
    },
    {
      "epoch": 3.943061565485626,
      "grad_norm": 0.11095355451107025,
      "learning_rate": 1.0626224247391924e-05,
      "loss": 0.3405829668045044,
      "memory(GiB)": 73.83,
      "step": 92035,
      "token_acc": 0.9108108108108108,
      "train_speed(iter/s)": 1.458028
    },
    {
      "epoch": 3.943275780814875,
      "grad_norm": 1.7361444234848022,
      "learning_rate": 1.0622076735781433e-05,
      "loss": 0.3717683792114258,
      "memory(GiB)": 73.83,
      "step": 92040,
      "token_acc": 0.9148148148148149,
      "train_speed(iter/s)": 1.458029
    },
    {
      "epoch": 3.943489996144124,
      "grad_norm": 0.25377124547958374,
      "learning_rate": 1.0617929937538951e-05,
      "loss": 0.2572933673858643,
      "memory(GiB)": 73.83,
      "step": 92045,
      "token_acc": 0.9354838709677419,
      "train_speed(iter/s)": 1.458027
    },
    {
      "epoch": 3.943704211473373,
      "grad_norm": 0.14430515468120575,
      "learning_rate": 1.0613783852739617e-05,
      "loss": 0.34719860553741455,
      "memory(GiB)": 73.83,
      "step": 92050,
      "token_acc": 0.9442622950819672,
      "train_speed(iter/s)": 1.458036
    },
    {
      "epoch": 3.9439184268026217,
      "grad_norm": 2.989487886428833,
      "learning_rate": 1.0609638481458545e-05,
      "loss": 0.30168392658233645,
      "memory(GiB)": 73.83,
      "step": 92055,
      "token_acc": 0.9236363636363636,
      "train_speed(iter/s)": 1.45804
    },
    {
      "epoch": 3.944132642131871,
      "grad_norm": 5.5336384773254395,
      "learning_rate": 1.0605493823770801e-05,
      "loss": 0.43814849853515625,
      "memory(GiB)": 73.83,
      "step": 92060,
      "token_acc": 0.9158878504672897,
      "train_speed(iter/s)": 1.458047
    },
    {
      "epoch": 3.94434685746112,
      "grad_norm": 1.4845309257507324,
      "learning_rate": 1.060134987975151e-05,
      "loss": 0.223112154006958,
      "memory(GiB)": 73.83,
      "step": 92065,
      "token_acc": 0.9381443298969072,
      "train_speed(iter/s)": 1.458051
    },
    {
      "epoch": 3.9445610727903686,
      "grad_norm": 6.505062103271484,
      "learning_rate": 1.0597206649475721e-05,
      "loss": 0.44588298797607423,
      "memory(GiB)": 73.83,
      "step": 92070,
      "token_acc": 0.9138576779026217,
      "train_speed(iter/s)": 1.458051
    },
    {
      "epoch": 3.944775288119618,
      "grad_norm": 4.1430559158325195,
      "learning_rate": 1.0593064133018488e-05,
      "loss": 0.2278979778289795,
      "memory(GiB)": 73.83,
      "step": 92075,
      "token_acc": 0.9572953736654805,
      "train_speed(iter/s)": 1.458051
    },
    {
      "epoch": 3.9449895034488667,
      "grad_norm": 1.8072991371154785,
      "learning_rate": 1.0588922330454876e-05,
      "loss": 0.4149333000183105,
      "memory(GiB)": 73.83,
      "step": 92080,
      "token_acc": 0.9196428571428571,
      "train_speed(iter/s)": 1.458054
    },
    {
      "epoch": 3.9452037187781155,
      "grad_norm": 1.2612733840942383,
      "learning_rate": 1.0584781241859903e-05,
      "loss": 0.1928694248199463,
      "memory(GiB)": 73.83,
      "step": 92085,
      "token_acc": 0.9694656488549618,
      "train_speed(iter/s)": 1.458055
    },
    {
      "epoch": 3.9454179341073647,
      "grad_norm": 2.9599416255950928,
      "learning_rate": 1.05806408673086e-05,
      "loss": 0.34561135768890383,
      "memory(GiB)": 73.83,
      "step": 92090,
      "token_acc": 0.9246031746031746,
      "train_speed(iter/s)": 1.45806
    },
    {
      "epoch": 3.9456321494366136,
      "grad_norm": 2.3018686771392822,
      "learning_rate": 1.057650120687596e-05,
      "loss": 0.374979567527771,
      "memory(GiB)": 73.83,
      "step": 92095,
      "token_acc": 0.9258064516129032,
      "train_speed(iter/s)": 1.458061
    },
    {
      "epoch": 3.9458463647658624,
      "grad_norm": 3.81473708152771,
      "learning_rate": 1.057236226063697e-05,
      "loss": 0.22179090976715088,
      "memory(GiB)": 73.83,
      "step": 92100,
      "token_acc": 0.9432835820895522,
      "train_speed(iter/s)": 1.458083
    },
    {
      "epoch": 3.9460605800951116,
      "grad_norm": 2.850142240524292,
      "learning_rate": 1.056822402866664e-05,
      "loss": 0.34001023769378663,
      "memory(GiB)": 73.83,
      "step": 92105,
      "token_acc": 0.9171974522292994,
      "train_speed(iter/s)": 1.458091
    },
    {
      "epoch": 3.9462747954243604,
      "grad_norm": 5.859430313110352,
      "learning_rate": 1.0564086511039917e-05,
      "loss": 0.5409473419189453,
      "memory(GiB)": 73.83,
      "step": 92110,
      "token_acc": 0.887240356083086,
      "train_speed(iter/s)": 1.458103
    },
    {
      "epoch": 3.9464890107536097,
      "grad_norm": 2.4363861083984375,
      "learning_rate": 1.0559949707831762e-05,
      "loss": 0.4343570709228516,
      "memory(GiB)": 73.83,
      "step": 92115,
      "token_acc": 0.9206798866855525,
      "train_speed(iter/s)": 1.458107
    },
    {
      "epoch": 3.9467032260828585,
      "grad_norm": 4.017660140991211,
      "learning_rate": 1.0555813619117122e-05,
      "loss": 0.30574536323547363,
      "memory(GiB)": 73.83,
      "step": 92120,
      "token_acc": 0.9402390438247012,
      "train_speed(iter/s)": 1.458118
    },
    {
      "epoch": 3.9469174414121073,
      "grad_norm": 3.7990074157714844,
      "learning_rate": 1.0551678244970914e-05,
      "loss": 0.32439794540405276,
      "memory(GiB)": 73.83,
      "step": 92125,
      "token_acc": 0.9307692307692308,
      "train_speed(iter/s)": 1.458124
    },
    {
      "epoch": 3.9471316567413566,
      "grad_norm": 3.5529696941375732,
      "learning_rate": 1.0547543585468044e-05,
      "loss": 0.41310648918151854,
      "memory(GiB)": 73.83,
      "step": 92130,
      "token_acc": 0.9100346020761245,
      "train_speed(iter/s)": 1.458136
    },
    {
      "epoch": 3.9473458720706054,
      "grad_norm": 2.724929094314575,
      "learning_rate": 1.0543409640683439e-05,
      "loss": 0.17263193130493165,
      "memory(GiB)": 73.83,
      "step": 92135,
      "token_acc": 0.948,
      "train_speed(iter/s)": 1.458149
    },
    {
      "epoch": 3.947560087399854,
      "grad_norm": 3.05900502204895,
      "learning_rate": 1.053927641069199e-05,
      "loss": 0.36132285594940183,
      "memory(GiB)": 73.83,
      "step": 92140,
      "token_acc": 0.9267515923566879,
      "train_speed(iter/s)": 1.458158
    },
    {
      "epoch": 3.9477743027291035,
      "grad_norm": 1.6091015338897705,
      "learning_rate": 1.0535143895568566e-05,
      "loss": 0.2578601360321045,
      "memory(GiB)": 73.83,
      "step": 92145,
      "token_acc": 0.9530386740331491,
      "train_speed(iter/s)": 1.458159
    },
    {
      "epoch": 3.9479885180583523,
      "grad_norm": 2.392016649246216,
      "learning_rate": 1.0531012095388032e-05,
      "loss": 0.34826323986053465,
      "memory(GiB)": 73.83,
      "step": 92150,
      "token_acc": 0.9387755102040817,
      "train_speed(iter/s)": 1.458162
    },
    {
      "epoch": 3.948202733387601,
      "grad_norm": 2.8935139179229736,
      "learning_rate": 1.0526881010225242e-05,
      "loss": 0.1045226812362671,
      "memory(GiB)": 73.83,
      "step": 92155,
      "token_acc": 0.9783393501805054,
      "train_speed(iter/s)": 1.458165
    },
    {
      "epoch": 3.9484169487168503,
      "grad_norm": 2.8860890865325928,
      "learning_rate": 1.0522750640155016e-05,
      "loss": 0.2406538486480713,
      "memory(GiB)": 73.83,
      "step": 92160,
      "token_acc": 0.946236559139785,
      "train_speed(iter/s)": 1.458166
    },
    {
      "epoch": 3.948631164046099,
      "grad_norm": 6.720494270324707,
      "learning_rate": 1.0518620985252208e-05,
      "loss": 0.4827274322509766,
      "memory(GiB)": 73.83,
      "step": 92165,
      "token_acc": 0.9263565891472868,
      "train_speed(iter/s)": 1.458162
    },
    {
      "epoch": 3.948845379375348,
      "grad_norm": 0.24428491294384003,
      "learning_rate": 1.0514492045591617e-05,
      "loss": 0.1384440302848816,
      "memory(GiB)": 73.83,
      "step": 92170,
      "token_acc": 0.9692832764505119,
      "train_speed(iter/s)": 1.458162
    },
    {
      "epoch": 3.949059594704597,
      "grad_norm": 3.1829946041107178,
      "learning_rate": 1.0510363821248042e-05,
      "loss": 0.24751641750335693,
      "memory(GiB)": 73.83,
      "step": 92175,
      "token_acc": 0.951310861423221,
      "train_speed(iter/s)": 1.458162
    },
    {
      "epoch": 3.949273810033846,
      "grad_norm": 1.6949812173843384,
      "learning_rate": 1.050623631229627e-05,
      "loss": 0.3307502031326294,
      "memory(GiB)": 73.83,
      "step": 92180,
      "token_acc": 0.9251700680272109,
      "train_speed(iter/s)": 1.458172
    },
    {
      "epoch": 3.949488025363095,
      "grad_norm": 6.001053810119629,
      "learning_rate": 1.0502109518811065e-05,
      "loss": 0.45359277725219727,
      "memory(GiB)": 73.83,
      "step": 92185,
      "token_acc": 0.9158249158249159,
      "train_speed(iter/s)": 1.458175
    },
    {
      "epoch": 3.949702240692344,
      "grad_norm": 3.8597371578216553,
      "learning_rate": 1.049798344086721e-05,
      "loss": 0.344010066986084,
      "memory(GiB)": 73.83,
      "step": 92190,
      "token_acc": 0.9324324324324325,
      "train_speed(iter/s)": 1.458174
    },
    {
      "epoch": 3.949916456021593,
      "grad_norm": 0.40956366062164307,
      "learning_rate": 1.0493858078539442e-05,
      "loss": 0.27058389186859133,
      "memory(GiB)": 73.83,
      "step": 92195,
      "token_acc": 0.9365671641791045,
      "train_speed(iter/s)": 1.458181
    },
    {
      "epoch": 3.9501306713508417,
      "grad_norm": 5.368690490722656,
      "learning_rate": 1.0489733431902494e-05,
      "loss": 0.3126669406890869,
      "memory(GiB)": 73.83,
      "step": 92200,
      "token_acc": 0.9242902208201893,
      "train_speed(iter/s)": 1.458181
    },
    {
      "epoch": 3.950344886680091,
      "grad_norm": 2.5240182876586914,
      "learning_rate": 1.0485609501031074e-05,
      "loss": 0.30764193534851075,
      "memory(GiB)": 73.83,
      "step": 92205,
      "token_acc": 0.9178082191780822,
      "train_speed(iter/s)": 1.458191
    },
    {
      "epoch": 3.95055910200934,
      "grad_norm": 5.936232089996338,
      "learning_rate": 1.048148628599992e-05,
      "loss": 0.542138147354126,
      "memory(GiB)": 73.83,
      "step": 92210,
      "token_acc": 0.8888888888888888,
      "train_speed(iter/s)": 1.458191
    },
    {
      "epoch": 3.9507733173385886,
      "grad_norm": 2.831481695175171,
      "learning_rate": 1.0477363786883709e-05,
      "loss": 0.4616283416748047,
      "memory(GiB)": 73.83,
      "step": 92215,
      "token_acc": 0.9035714285714286,
      "train_speed(iter/s)": 1.4582
    },
    {
      "epoch": 3.950987532667838,
      "grad_norm": 5.454102993011475,
      "learning_rate": 1.0473242003757123e-05,
      "loss": 0.36570186614990235,
      "memory(GiB)": 73.83,
      "step": 92220,
      "token_acc": 0.925531914893617,
      "train_speed(iter/s)": 1.458201
    },
    {
      "epoch": 3.9512017479970867,
      "grad_norm": 4.384995937347412,
      "learning_rate": 1.0469120936694843e-05,
      "loss": 0.3359992027282715,
      "memory(GiB)": 73.83,
      "step": 92225,
      "token_acc": 0.9138576779026217,
      "train_speed(iter/s)": 1.458211
    },
    {
      "epoch": 3.9514159633263355,
      "grad_norm": 3.4364101886749268,
      "learning_rate": 1.0465000585771522e-05,
      "loss": 0.3610379219055176,
      "memory(GiB)": 73.83,
      "step": 92230,
      "token_acc": 0.9335664335664335,
      "train_speed(iter/s)": 1.458212
    },
    {
      "epoch": 3.9516301786555847,
      "grad_norm": 0.7378700375556946,
      "learning_rate": 1.0460880951061807e-05,
      "loss": 0.15783169269561767,
      "memory(GiB)": 73.83,
      "step": 92235,
      "token_acc": 0.9544072948328267,
      "train_speed(iter/s)": 1.458217
    },
    {
      "epoch": 3.9518443939848336,
      "grad_norm": 6.650496006011963,
      "learning_rate": 1.0456762032640322e-05,
      "loss": 0.3515087842941284,
      "memory(GiB)": 73.83,
      "step": 92240,
      "token_acc": 0.9233449477351916,
      "train_speed(iter/s)": 1.458219
    },
    {
      "epoch": 3.9520586093140824,
      "grad_norm": 4.153378009796143,
      "learning_rate": 1.0452643830581672e-05,
      "loss": 0.3619898557662964,
      "memory(GiB)": 73.83,
      "step": 92245,
      "token_acc": 0.9344262295081968,
      "train_speed(iter/s)": 1.458233
    },
    {
      "epoch": 3.9522728246433316,
      "grad_norm": 0.2780580520629883,
      "learning_rate": 1.0448526344960491e-05,
      "loss": 0.604233980178833,
      "memory(GiB)": 73.83,
      "step": 92250,
      "token_acc": 0.8972332015810277,
      "train_speed(iter/s)": 1.458237
    },
    {
      "epoch": 3.9524870399725804,
      "grad_norm": 2.925341844558716,
      "learning_rate": 1.0444409575851355e-05,
      "loss": 0.4277377128601074,
      "memory(GiB)": 73.83,
      "step": 92255,
      "token_acc": 0.8907849829351536,
      "train_speed(iter/s)": 1.458241
    },
    {
      "epoch": 3.9527012553018293,
      "grad_norm": 1.5810261964797974,
      "learning_rate": 1.0440293523328847e-05,
      "loss": 0.33086304664611815,
      "memory(GiB)": 73.83,
      "step": 92260,
      "token_acc": 0.9239130434782609,
      "train_speed(iter/s)": 1.458246
    },
    {
      "epoch": 3.9529154706310785,
      "grad_norm": 6.718324661254883,
      "learning_rate": 1.0436178187467538e-05,
      "loss": 0.7319259643554688,
      "memory(GiB)": 73.83,
      "step": 92265,
      "token_acc": 0.8507462686567164,
      "train_speed(iter/s)": 1.458254
    },
    {
      "epoch": 3.9531296859603273,
      "grad_norm": 9.120609283447266,
      "learning_rate": 1.043206356834197e-05,
      "loss": 0.5497824668884277,
      "memory(GiB)": 73.83,
      "step": 92270,
      "token_acc": 0.9105058365758755,
      "train_speed(iter/s)": 1.458259
    },
    {
      "epoch": 3.953343901289576,
      "grad_norm": 0.6339030265808105,
      "learning_rate": 1.0427949666026677e-05,
      "loss": 0.5640312194824219,
      "memory(GiB)": 73.83,
      "step": 92275,
      "token_acc": 0.8901960784313725,
      "train_speed(iter/s)": 1.45827
    },
    {
      "epoch": 3.9535581166188254,
      "grad_norm": 3.5111119747161865,
      "learning_rate": 1.0423836480596195e-05,
      "loss": 0.5866907596588135,
      "memory(GiB)": 73.83,
      "step": 92280,
      "token_acc": 0.8774928774928775,
      "train_speed(iter/s)": 1.458271
    },
    {
      "epoch": 3.953772331948074,
      "grad_norm": 3.15960693359375,
      "learning_rate": 1.0419724012125053e-05,
      "loss": 0.650423812866211,
      "memory(GiB)": 73.83,
      "step": 92285,
      "token_acc": 0.8736842105263158,
      "train_speed(iter/s)": 1.458272
    },
    {
      "epoch": 3.953986547277323,
      "grad_norm": 2.4097793102264404,
      "learning_rate": 1.041561226068774e-05,
      "loss": 0.45790901184082033,
      "memory(GiB)": 73.83,
      "step": 92290,
      "token_acc": 0.903954802259887,
      "train_speed(iter/s)": 1.458276
    },
    {
      "epoch": 3.9542007626065723,
      "grad_norm": 4.113375663757324,
      "learning_rate": 1.041150122635875e-05,
      "loss": 0.33031044006347654,
      "memory(GiB)": 73.83,
      "step": 92295,
      "token_acc": 0.9145569620253164,
      "train_speed(iter/s)": 1.458281
    },
    {
      "epoch": 3.954414977935821,
      "grad_norm": 3.629880905151367,
      "learning_rate": 1.0407390909212544e-05,
      "loss": 0.48749375343322754,
      "memory(GiB)": 73.83,
      "step": 92300,
      "token_acc": 0.9050847457627119,
      "train_speed(iter/s)": 1.458284
    },
    {
      "epoch": 3.95462919326507,
      "grad_norm": 7.1313910484313965,
      "learning_rate": 1.0403281309323587e-05,
      "loss": 0.7189833641052246,
      "memory(GiB)": 73.83,
      "step": 92305,
      "token_acc": 0.7965517241379311,
      "train_speed(iter/s)": 1.45827
    },
    {
      "epoch": 3.954843408594319,
      "grad_norm": 2.8810789585113525,
      "learning_rate": 1.0399172426766341e-05,
      "loss": 0.2228269100189209,
      "memory(GiB)": 73.83,
      "step": 92310,
      "token_acc": 0.9441340782122905,
      "train_speed(iter/s)": 1.458274
    },
    {
      "epoch": 3.955057623923568,
      "grad_norm": 10.447203636169434,
      "learning_rate": 1.039506426161524e-05,
      "loss": 0.3526034116744995,
      "memory(GiB)": 73.83,
      "step": 92315,
      "token_acc": 0.9275862068965517,
      "train_speed(iter/s)": 1.458273
    },
    {
      "epoch": 3.955271839252817,
      "grad_norm": 1.7845966815948486,
      "learning_rate": 1.0390956813944697e-05,
      "loss": 0.18762779235839844,
      "memory(GiB)": 73.83,
      "step": 92320,
      "token_acc": 0.9575971731448764,
      "train_speed(iter/s)": 1.458274
    },
    {
      "epoch": 3.955486054582066,
      "grad_norm": 4.2458271980285645,
      "learning_rate": 1.038685008382913e-05,
      "loss": 0.3321269750595093,
      "memory(GiB)": 73.83,
      "step": 92325,
      "token_acc": 0.9365079365079365,
      "train_speed(iter/s)": 1.458286
    },
    {
      "epoch": 3.955700269911315,
      "grad_norm": 3.0590806007385254,
      "learning_rate": 1.038274407134292e-05,
      "loss": 0.2685011625289917,
      "memory(GiB)": 73.83,
      "step": 92330,
      "token_acc": 0.934375,
      "train_speed(iter/s)": 1.458286
    },
    {
      "epoch": 3.9559144852405637,
      "grad_norm": 1.9036005735397339,
      "learning_rate": 1.0378638776560483e-05,
      "loss": 0.4175253391265869,
      "memory(GiB)": 73.83,
      "step": 92335,
      "token_acc": 0.9051094890510949,
      "train_speed(iter/s)": 1.458288
    },
    {
      "epoch": 3.956128700569813,
      "grad_norm": 0.16929462552070618,
      "learning_rate": 1.0374534199556168e-05,
      "loss": 0.25741019248962405,
      "memory(GiB)": 73.83,
      "step": 92340,
      "token_acc": 0.9405594405594405,
      "train_speed(iter/s)": 1.458293
    },
    {
      "epoch": 3.9563429158990617,
      "grad_norm": 1.0377558469772339,
      "learning_rate": 1.0370430340404336e-05,
      "loss": 0.2893967628479004,
      "memory(GiB)": 73.83,
      "step": 92345,
      "token_acc": 0.933579335793358,
      "train_speed(iter/s)": 1.458297
    },
    {
      "epoch": 3.9565571312283105,
      "grad_norm": 4.4159770011901855,
      "learning_rate": 1.0366327199179338e-05,
      "loss": 0.3498523712158203,
      "memory(GiB)": 73.83,
      "step": 92350,
      "token_acc": 0.9372549019607843,
      "train_speed(iter/s)": 1.458301
    },
    {
      "epoch": 3.95677134655756,
      "grad_norm": 1.5684224367141724,
      "learning_rate": 1.0362224775955486e-05,
      "loss": 0.25644793510437014,
      "memory(GiB)": 73.83,
      "step": 92355,
      "token_acc": 0.9436619718309859,
      "train_speed(iter/s)": 1.458312
    },
    {
      "epoch": 3.9569855618868086,
      "grad_norm": 1.570952296257019,
      "learning_rate": 1.035812307080713e-05,
      "loss": 0.2928192138671875,
      "memory(GiB)": 73.83,
      "step": 92360,
      "token_acc": 0.9329608938547486,
      "train_speed(iter/s)": 1.458327
    },
    {
      "epoch": 3.9571997772160574,
      "grad_norm": 4.223345756530762,
      "learning_rate": 1.0354022083808551e-05,
      "loss": 0.4730949401855469,
      "memory(GiB)": 73.83,
      "step": 92365,
      "token_acc": 0.8900709219858156,
      "train_speed(iter/s)": 1.45833
    },
    {
      "epoch": 3.9574139925453067,
      "grad_norm": 5.907159805297852,
      "learning_rate": 1.0349921815034063e-05,
      "loss": 0.663557767868042,
      "memory(GiB)": 73.83,
      "step": 92370,
      "token_acc": 0.8656716417910447,
      "train_speed(iter/s)": 1.45833
    },
    {
      "epoch": 3.9576282078745555,
      "grad_norm": 2.916459083557129,
      "learning_rate": 1.0345822264557936e-05,
      "loss": 0.2770711898803711,
      "memory(GiB)": 73.83,
      "step": 92375,
      "token_acc": 0.9398496240601504,
      "train_speed(iter/s)": 1.458337
    },
    {
      "epoch": 3.9578424232038043,
      "grad_norm": 4.338794708251953,
      "learning_rate": 1.0341723432454437e-05,
      "loss": 0.8423773765563964,
      "memory(GiB)": 73.83,
      "step": 92380,
      "token_acc": 0.8118466898954704,
      "train_speed(iter/s)": 1.458339
    },
    {
      "epoch": 3.9580566385330536,
      "grad_norm": 5.849497318267822,
      "learning_rate": 1.0337625318797822e-05,
      "loss": 0.3981311559677124,
      "memory(GiB)": 73.83,
      "step": 92385,
      "token_acc": 0.9074733096085409,
      "train_speed(iter/s)": 1.458351
    },
    {
      "epoch": 3.9582708538623024,
      "grad_norm": 3.1614551544189453,
      "learning_rate": 1.0333527923662318e-05,
      "loss": 0.37824230194091796,
      "memory(GiB)": 73.83,
      "step": 92390,
      "token_acc": 0.9198717948717948,
      "train_speed(iter/s)": 1.458354
    },
    {
      "epoch": 3.958485069191551,
      "grad_norm": 3.61651349067688,
      "learning_rate": 1.0329431247122179e-05,
      "loss": 0.35536966323852537,
      "memory(GiB)": 73.83,
      "step": 92395,
      "token_acc": 0.927536231884058,
      "train_speed(iter/s)": 1.45836
    },
    {
      "epoch": 3.9586992845208004,
      "grad_norm": 1.8378973007202148,
      "learning_rate": 1.0325335289251602e-05,
      "loss": 0.4828056335449219,
      "memory(GiB)": 73.83,
      "step": 92400,
      "token_acc": 0.8815331010452961,
      "train_speed(iter/s)": 1.458364
    },
    {
      "epoch": 3.9589134998500493,
      "grad_norm": 3.6257519721984863,
      "learning_rate": 1.0321240050124797e-05,
      "loss": 0.3946316957473755,
      "memory(GiB)": 73.83,
      "step": 92405,
      "token_acc": 0.905829596412556,
      "train_speed(iter/s)": 1.458379
    },
    {
      "epoch": 3.959127715179298,
      "grad_norm": 4.813309669494629,
      "learning_rate": 1.0317145529815952e-05,
      "loss": 0.2569340705871582,
      "memory(GiB)": 73.83,
      "step": 92410,
      "token_acc": 0.9411764705882353,
      "train_speed(iter/s)": 1.458381
    },
    {
      "epoch": 3.9593419305085473,
      "grad_norm": 2.7887043952941895,
      "learning_rate": 1.0313051728399243e-05,
      "loss": 0.18359026908874512,
      "memory(GiB)": 73.83,
      "step": 92415,
      "token_acc": 0.9695945945945946,
      "train_speed(iter/s)": 1.458389
    },
    {
      "epoch": 3.959556145837796,
      "grad_norm": 2.6403355598449707,
      "learning_rate": 1.0308958645948814e-05,
      "loss": 0.21345221996307373,
      "memory(GiB)": 73.83,
      "step": 92420,
      "token_acc": 0.9400921658986175,
      "train_speed(iter/s)": 1.458404
    },
    {
      "epoch": 3.959770361167045,
      "grad_norm": 5.237696170806885,
      "learning_rate": 1.030486628253885e-05,
      "loss": 0.5520557403564453,
      "memory(GiB)": 73.83,
      "step": 92425,
      "token_acc": 0.89171974522293,
      "train_speed(iter/s)": 1.458404
    },
    {
      "epoch": 3.959984576496294,
      "grad_norm": 3.1873974800109863,
      "learning_rate": 1.0300774638243454e-05,
      "loss": 0.40987114906311034,
      "memory(GiB)": 73.83,
      "step": 92430,
      "token_acc": 0.906832298136646,
      "train_speed(iter/s)": 1.458406
    },
    {
      "epoch": 3.960198791825543,
      "grad_norm": 2.1203501224517822,
      "learning_rate": 1.0296683713136779e-05,
      "loss": 0.2407849073410034,
      "memory(GiB)": 73.83,
      "step": 92435,
      "token_acc": 0.9487179487179487,
      "train_speed(iter/s)": 1.458416
    },
    {
      "epoch": 3.960413007154792,
      "grad_norm": 2.935182571411133,
      "learning_rate": 1.0292593507292924e-05,
      "loss": 0.4136331558227539,
      "memory(GiB)": 73.83,
      "step": 92440,
      "token_acc": 0.9077490774907749,
      "train_speed(iter/s)": 1.458427
    },
    {
      "epoch": 3.960627222484041,
      "grad_norm": 4.088423728942871,
      "learning_rate": 1.0288504020785983e-05,
      "loss": 0.3175637245178223,
      "memory(GiB)": 73.83,
      "step": 92445,
      "token_acc": 0.9261538461538461,
      "train_speed(iter/s)": 1.458428
    },
    {
      "epoch": 3.96084143781329,
      "grad_norm": 2.262399911880493,
      "learning_rate": 1.0284415253690032e-05,
      "loss": 0.48650393486022947,
      "memory(GiB)": 73.83,
      "step": 92450,
      "token_acc": 0.9,
      "train_speed(iter/s)": 1.458425
    },
    {
      "epoch": 3.961055653142539,
      "grad_norm": 1.811157464981079,
      "learning_rate": 1.0280327206079172e-05,
      "loss": 0.3032386064529419,
      "memory(GiB)": 73.83,
      "step": 92455,
      "token_acc": 0.9380530973451328,
      "train_speed(iter/s)": 1.458428
    },
    {
      "epoch": 3.961269868471788,
      "grad_norm": 0.47404035925865173,
      "learning_rate": 1.0276239878027443e-05,
      "loss": 0.19175275564193725,
      "memory(GiB)": 73.83,
      "step": 92460,
      "token_acc": 0.95578231292517,
      "train_speed(iter/s)": 1.45844
    },
    {
      "epoch": 3.961484083801037,
      "grad_norm": 7.246684551239014,
      "learning_rate": 1.0272153269608892e-05,
      "loss": 0.6605988502502441,
      "memory(GiB)": 73.83,
      "step": 92465,
      "token_acc": 0.8601823708206687,
      "train_speed(iter/s)": 1.45846
    },
    {
      "epoch": 3.961698299130286,
      "grad_norm": 1.4843446016311646,
      "learning_rate": 1.0268067380897556e-05,
      "loss": 0.4642601490020752,
      "memory(GiB)": 73.83,
      "step": 92470,
      "token_acc": 0.9078212290502793,
      "train_speed(iter/s)": 1.458455
    },
    {
      "epoch": 3.961912514459535,
      "grad_norm": 1.6381276845932007,
      "learning_rate": 1.0263982211967433e-05,
      "loss": 0.2150951623916626,
      "memory(GiB)": 73.83,
      "step": 92475,
      "token_acc": 0.9498432601880877,
      "train_speed(iter/s)": 1.458456
    },
    {
      "epoch": 3.9621267297887837,
      "grad_norm": 2.506582021713257,
      "learning_rate": 1.0259897762892562e-05,
      "loss": 0.3798380374908447,
      "memory(GiB)": 73.83,
      "step": 92480,
      "token_acc": 0.9358490566037736,
      "train_speed(iter/s)": 1.458464
    },
    {
      "epoch": 3.962340945118033,
      "grad_norm": 2.2125155925750732,
      "learning_rate": 1.0255814033746925e-05,
      "loss": 0.25460176467895507,
      "memory(GiB)": 73.83,
      "step": 92485,
      "token_acc": 0.9433962264150944,
      "train_speed(iter/s)": 1.45847
    },
    {
      "epoch": 3.9625551604472817,
      "grad_norm": 2.380335569381714,
      "learning_rate": 1.0251731024604495e-05,
      "loss": 0.3954993009567261,
      "memory(GiB)": 73.83,
      "step": 92490,
      "token_acc": 0.9184397163120568,
      "train_speed(iter/s)": 1.458469
    },
    {
      "epoch": 3.9627693757765305,
      "grad_norm": 0.6796833276748657,
      "learning_rate": 1.0247648735539245e-05,
      "loss": 0.21683621406555176,
      "memory(GiB)": 73.83,
      "step": 92495,
      "token_acc": 0.9563758389261745,
      "train_speed(iter/s)": 1.458484
    },
    {
      "epoch": 3.96298359110578,
      "grad_norm": 3.916163206100464,
      "learning_rate": 1.0243567166625117e-05,
      "loss": 0.24865176677703857,
      "memory(GiB)": 73.83,
      "step": 92500,
      "token_acc": 0.9464882943143813,
      "train_speed(iter/s)": 1.458495
    },
    {
      "epoch": 3.96298359110578,
      "eval_loss": 2.3006350994110107,
      "eval_runtime": 11.4307,
      "eval_samples_per_second": 8.748,
      "eval_steps_per_second": 8.748,
      "eval_token_acc": 0.4518950437317784,
      "step": 92500
    },
    {
      "epoch": 3.9631978064350286,
      "grad_norm": 3.208667755126953,
      "learning_rate": 1.0239486317936081e-05,
      "loss": 0.5928923130035401,
      "memory(GiB)": 73.83,
      "step": 92505,
      "token_acc": 0.6035120147874307,
      "train_speed(iter/s)": 1.458221
    },
    {
      "epoch": 3.9634120217642774,
      "grad_norm": 5.235823631286621,
      "learning_rate": 1.0235406189546031e-05,
      "loss": 0.3054505348205566,
      "memory(GiB)": 73.83,
      "step": 92510,
      "token_acc": 0.9267399267399268,
      "train_speed(iter/s)": 1.458225
    },
    {
      "epoch": 3.9636262370935267,
      "grad_norm": 3.298004150390625,
      "learning_rate": 1.0231326781528916e-05,
      "loss": 0.10134743452072144,
      "memory(GiB)": 73.83,
      "step": 92515,
      "token_acc": 0.9698996655518395,
      "train_speed(iter/s)": 1.458228
    },
    {
      "epoch": 3.9638404524227755,
      "grad_norm": 5.271418571472168,
      "learning_rate": 1.022724809395862e-05,
      "loss": 0.4250916004180908,
      "memory(GiB)": 73.83,
      "step": 92520,
      "token_acc": 0.9213836477987422,
      "train_speed(iter/s)": 1.458233
    },
    {
      "epoch": 3.9640546677520243,
      "grad_norm": 0.19133611023426056,
      "learning_rate": 1.0223170126909038e-05,
      "loss": 0.11166917085647583,
      "memory(GiB)": 73.83,
      "step": 92525,
      "token_acc": 0.9733333333333334,
      "train_speed(iter/s)": 1.458235
    },
    {
      "epoch": 3.9642688830812736,
      "grad_norm": 0.601818323135376,
      "learning_rate": 1.021909288045404e-05,
      "loss": 0.28193514347076415,
      "memory(GiB)": 73.83,
      "step": 92530,
      "token_acc": 0.9124087591240876,
      "train_speed(iter/s)": 1.458243
    },
    {
      "epoch": 3.9644830984105224,
      "grad_norm": 5.3390793800354,
      "learning_rate": 1.0215016354667477e-05,
      "loss": 0.44277005195617675,
      "memory(GiB)": 73.83,
      "step": 92535,
      "token_acc": 0.8963210702341137,
      "train_speed(iter/s)": 1.458251
    },
    {
      "epoch": 3.964697313739771,
      "grad_norm": 2.647008180618286,
      "learning_rate": 1.0210940549623227e-05,
      "loss": 0.18514593839645385,
      "memory(GiB)": 73.83,
      "step": 92540,
      "token_acc": 0.9615384615384616,
      "train_speed(iter/s)": 1.458249
    },
    {
      "epoch": 3.9649115290690204,
      "grad_norm": 2.945587396621704,
      "learning_rate": 1.020686546539512e-05,
      "loss": 0.25972685813903806,
      "memory(GiB)": 73.83,
      "step": 92545,
      "token_acc": 0.9527027027027027,
      "train_speed(iter/s)": 1.458253
    },
    {
      "epoch": 3.9651257443982693,
      "grad_norm": 1.7511917352676392,
      "learning_rate": 1.0202791102056969e-05,
      "loss": 0.15670106410980225,
      "memory(GiB)": 73.83,
      "step": 92550,
      "token_acc": 0.9679715302491103,
      "train_speed(iter/s)": 1.458257
    },
    {
      "epoch": 3.965339959727518,
      "grad_norm": 1.1686538457870483,
      "learning_rate": 1.0198717459682594e-05,
      "loss": 0.17904587984085082,
      "memory(GiB)": 73.83,
      "step": 92555,
      "token_acc": 0.9568965517241379,
      "train_speed(iter/s)": 1.458264
    },
    {
      "epoch": 3.9655541750567673,
      "grad_norm": 1.8520727157592773,
      "learning_rate": 1.0194644538345787e-05,
      "loss": 0.1343826174736023,
      "memory(GiB)": 73.83,
      "step": 92560,
      "token_acc": 0.9635627530364372,
      "train_speed(iter/s)": 1.458272
    },
    {
      "epoch": 3.965768390386016,
      "grad_norm": 0.33481818437576294,
      "learning_rate": 1.0190572338120318e-05,
      "loss": 0.4152646064758301,
      "memory(GiB)": 73.83,
      "step": 92565,
      "token_acc": 0.9149659863945578,
      "train_speed(iter/s)": 1.458276
    },
    {
      "epoch": 3.965982605715265,
      "grad_norm": 3.1921305656433105,
      "learning_rate": 1.0186500859079995e-05,
      "loss": 0.384043025970459,
      "memory(GiB)": 73.83,
      "step": 92570,
      "token_acc": 0.9081272084805654,
      "train_speed(iter/s)": 1.45828
    },
    {
      "epoch": 3.966196821044514,
      "grad_norm": 3.5475127696990967,
      "learning_rate": 1.018243010129854e-05,
      "loss": 0.35916838645935056,
      "memory(GiB)": 73.83,
      "step": 92575,
      "token_acc": 0.9297520661157025,
      "train_speed(iter/s)": 1.458281
    },
    {
      "epoch": 3.966411036373763,
      "grad_norm": 2.098214864730835,
      "learning_rate": 1.017836006484973e-05,
      "loss": 0.39766950607299806,
      "memory(GiB)": 73.83,
      "step": 92580,
      "token_acc": 0.9239130434782609,
      "train_speed(iter/s)": 1.458281
    },
    {
      "epoch": 3.966625251703012,
      "grad_norm": 4.819207191467285,
      "learning_rate": 1.0174290749807281e-05,
      "loss": 0.3205896854400635,
      "memory(GiB)": 73.83,
      "step": 92585,
      "token_acc": 0.9105691056910569,
      "train_speed(iter/s)": 1.458281
    },
    {
      "epoch": 3.966839467032261,
      "grad_norm": 0.5328640341758728,
      "learning_rate": 1.0170222156244914e-05,
      "loss": 0.1851873517036438,
      "memory(GiB)": 73.83,
      "step": 92590,
      "token_acc": 0.9520958083832335,
      "train_speed(iter/s)": 1.458286
    },
    {
      "epoch": 3.96705368236151,
      "grad_norm": 4.5671234130859375,
      "learning_rate": 1.0166154284236324e-05,
      "loss": 0.40915713310241697,
      "memory(GiB)": 73.83,
      "step": 92595,
      "token_acc": 0.9253246753246753,
      "train_speed(iter/s)": 1.458292
    },
    {
      "epoch": 3.9672678976907587,
      "grad_norm": 2.4836487770080566,
      "learning_rate": 1.016208713385523e-05,
      "loss": 0.39462316036224365,
      "memory(GiB)": 73.83,
      "step": 92600,
      "token_acc": 0.9124087591240876,
      "train_speed(iter/s)": 1.458302
    },
    {
      "epoch": 3.967482113020008,
      "grad_norm": 1.6868109703063965,
      "learning_rate": 1.0158020705175298e-05,
      "loss": 0.34497761726379395,
      "memory(GiB)": 73.83,
      "step": 92605,
      "token_acc": 0.9135802469135802,
      "train_speed(iter/s)": 1.458314
    },
    {
      "epoch": 3.967696328349257,
      "grad_norm": 1.3532942533493042,
      "learning_rate": 1.01539549982702e-05,
      "loss": 0.3855916976928711,
      "memory(GiB)": 73.83,
      "step": 92610,
      "token_acc": 0.9127272727272727,
      "train_speed(iter/s)": 1.458332
    },
    {
      "epoch": 3.9679105436785056,
      "grad_norm": 0.6402592658996582,
      "learning_rate": 1.014989001321358e-05,
      "loss": 0.1783931612968445,
      "memory(GiB)": 73.83,
      "step": 92615,
      "token_acc": 0.9560439560439561,
      "train_speed(iter/s)": 1.458332
    },
    {
      "epoch": 3.968124759007755,
      "grad_norm": 3.7956337928771973,
      "learning_rate": 1.0145825750079075e-05,
      "loss": 0.6137558937072753,
      "memory(GiB)": 73.83,
      "step": 92620,
      "token_acc": 0.8487972508591065,
      "train_speed(iter/s)": 1.458336
    },
    {
      "epoch": 3.9683389743370037,
      "grad_norm": 3.8072266578674316,
      "learning_rate": 1.0141762208940337e-05,
      "loss": 0.42281455993652345,
      "memory(GiB)": 73.83,
      "step": 92625,
      "token_acc": 0.9118942731277533,
      "train_speed(iter/s)": 1.458342
    },
    {
      "epoch": 3.9685531896662525,
      "grad_norm": 2.0093886852264404,
      "learning_rate": 1.0137699389870963e-05,
      "loss": 0.30936102867126464,
      "memory(GiB)": 73.83,
      "step": 92630,
      "token_acc": 0.9309090909090909,
      "train_speed(iter/s)": 1.458346
    },
    {
      "epoch": 3.9687674049955017,
      "grad_norm": 1.1863210201263428,
      "learning_rate": 1.013363729294456e-05,
      "loss": 0.257472562789917,
      "memory(GiB)": 73.83,
      "step": 92635,
      "token_acc": 0.9477124183006536,
      "train_speed(iter/s)": 1.458351
    },
    {
      "epoch": 3.9689816203247505,
      "grad_norm": 0.5442156195640564,
      "learning_rate": 1.0129575918234713e-05,
      "loss": 0.4649616241455078,
      "memory(GiB)": 73.83,
      "step": 92640,
      "token_acc": 0.9111969111969112,
      "train_speed(iter/s)": 1.458351
    },
    {
      "epoch": 3.9691958356539994,
      "grad_norm": 2.5520901679992676,
      "learning_rate": 1.0125515265815005e-05,
      "loss": 0.36203484535217284,
      "memory(GiB)": 73.83,
      "step": 92645,
      "token_acc": 0.9250814332247557,
      "train_speed(iter/s)": 1.458355
    },
    {
      "epoch": 3.9694100509832486,
      "grad_norm": 3.8289952278137207,
      "learning_rate": 1.0121455335758978e-05,
      "loss": 0.5139838218688965,
      "memory(GiB)": 73.83,
      "step": 92650,
      "token_acc": 0.8821548821548821,
      "train_speed(iter/s)": 1.45836
    },
    {
      "epoch": 3.9696242663124974,
      "grad_norm": 2.704388380050659,
      "learning_rate": 1.0117396128140194e-05,
      "loss": 0.3351579189300537,
      "memory(GiB)": 73.83,
      "step": 92655,
      "token_acc": 0.9306569343065694,
      "train_speed(iter/s)": 1.458365
    },
    {
      "epoch": 3.9698384816417462,
      "grad_norm": 0.364583820104599,
      "learning_rate": 1.0113337643032206e-05,
      "loss": 0.20801684856414795,
      "memory(GiB)": 73.83,
      "step": 92660,
      "token_acc": 0.9576271186440678,
      "train_speed(iter/s)": 1.458369
    },
    {
      "epoch": 3.9700526969709955,
      "grad_norm": 4.954829216003418,
      "learning_rate": 1.0109279880508527e-05,
      "loss": 0.3350972175598145,
      "memory(GiB)": 73.83,
      "step": 92665,
      "token_acc": 0.9366197183098591,
      "train_speed(iter/s)": 1.45838
    },
    {
      "epoch": 3.9702669123002443,
      "grad_norm": 1.769304633140564,
      "learning_rate": 1.010522284064266e-05,
      "loss": 0.3373068571090698,
      "memory(GiB)": 73.83,
      "step": 92670,
      "token_acc": 0.9131832797427653,
      "train_speed(iter/s)": 1.458385
    },
    {
      "epoch": 3.970481127629493,
      "grad_norm": 1.8145276308059692,
      "learning_rate": 1.0101166523508104e-05,
      "loss": 0.22074730396270753,
      "memory(GiB)": 73.83,
      "step": 92675,
      "token_acc": 0.955719557195572,
      "train_speed(iter/s)": 1.458386
    },
    {
      "epoch": 3.9706953429587424,
      "grad_norm": 1.923877239227295,
      "learning_rate": 1.0097110929178332e-05,
      "loss": 0.35237860679626465,
      "memory(GiB)": 73.83,
      "step": 92680,
      "token_acc": 0.9144981412639405,
      "train_speed(iter/s)": 1.458395
    },
    {
      "epoch": 3.970909558287991,
      "grad_norm": 3.722052574157715,
      "learning_rate": 1.009305605772684e-05,
      "loss": 0.34524056911468504,
      "memory(GiB)": 73.83,
      "step": 92685,
      "token_acc": 0.9144736842105263,
      "train_speed(iter/s)": 1.458398
    },
    {
      "epoch": 3.97112377361724,
      "grad_norm": 5.170253276824951,
      "learning_rate": 1.008900190922708e-05,
      "loss": 0.520012092590332,
      "memory(GiB)": 73.83,
      "step": 92690,
      "token_acc": 0.8977635782747604,
      "train_speed(iter/s)": 1.458398
    },
    {
      "epoch": 3.9713379889464893,
      "grad_norm": 3.830428123474121,
      "learning_rate": 1.0084948483752482e-05,
      "loss": 0.29186277389526366,
      "memory(GiB)": 73.83,
      "step": 92695,
      "token_acc": 0.9166666666666666,
      "train_speed(iter/s)": 1.458402
    },
    {
      "epoch": 3.971552204275738,
      "grad_norm": 0.20663076639175415,
      "learning_rate": 1.0080895781376493e-05,
      "loss": 0.3154005765914917,
      "memory(GiB)": 73.83,
      "step": 92700,
      "token_acc": 0.922509225092251,
      "train_speed(iter/s)": 1.458408
    },
    {
      "epoch": 3.971766419604987,
      "grad_norm": 2.6747145652770996,
      "learning_rate": 1.007684380217252e-05,
      "loss": 0.13770754337310792,
      "memory(GiB)": 73.83,
      "step": 92705,
      "token_acc": 0.9591078066914498,
      "train_speed(iter/s)": 1.458412
    },
    {
      "epoch": 3.971980634934236,
      "grad_norm": 2.1820173263549805,
      "learning_rate": 1.007279254621396e-05,
      "loss": 0.41775174140930177,
      "memory(GiB)": 73.83,
      "step": 92710,
      "token_acc": 0.9018987341772152,
      "train_speed(iter/s)": 1.458413
    },
    {
      "epoch": 3.972194850263485,
      "grad_norm": 6.143526077270508,
      "learning_rate": 1.0068742013574229e-05,
      "loss": 0.5782939910888671,
      "memory(GiB)": 73.83,
      "step": 92715,
      "token_acc": 0.8582677165354331,
      "train_speed(iter/s)": 1.458423
    },
    {
      "epoch": 3.9724090655927338,
      "grad_norm": 2.8790132999420166,
      "learning_rate": 1.0064692204326699e-05,
      "loss": 0.25708780288696287,
      "memory(GiB)": 73.83,
      "step": 92720,
      "token_acc": 0.9425287356321839,
      "train_speed(iter/s)": 1.458424
    },
    {
      "epoch": 3.972623280921983,
      "grad_norm": 6.0841288566589355,
      "learning_rate": 1.006064311854471e-05,
      "loss": 0.4435241222381592,
      "memory(GiB)": 73.83,
      "step": 92725,
      "token_acc": 0.9169960474308301,
      "train_speed(iter/s)": 1.45843
    },
    {
      "epoch": 3.972837496251232,
      "grad_norm": 4.923411846160889,
      "learning_rate": 1.0056594756301658e-05,
      "loss": 0.35997135639190675,
      "memory(GiB)": 73.83,
      "step": 92730,
      "token_acc": 0.904320987654321,
      "train_speed(iter/s)": 1.458439
    },
    {
      "epoch": 3.9730517115804806,
      "grad_norm": 1.5304800271987915,
      "learning_rate": 1.0052547117670863e-05,
      "loss": 0.2614882946014404,
      "memory(GiB)": 73.83,
      "step": 92735,
      "token_acc": 0.9302949061662198,
      "train_speed(iter/s)": 1.458439
    },
    {
      "epoch": 3.97326592690973,
      "grad_norm": 1.6848472356796265,
      "learning_rate": 1.004850020272563e-05,
      "loss": 0.2304358959197998,
      "memory(GiB)": 73.83,
      "step": 92740,
      "token_acc": 0.9552238805970149,
      "train_speed(iter/s)": 1.45844
    },
    {
      "epoch": 3.9734801422389787,
      "grad_norm": 2.339149236679077,
      "learning_rate": 1.0044454011539317e-05,
      "loss": 0.281096887588501,
      "memory(GiB)": 73.83,
      "step": 92745,
      "token_acc": 0.9352226720647774,
      "train_speed(iter/s)": 1.458441
    },
    {
      "epoch": 3.9736943575682275,
      "grad_norm": 4.135396957397461,
      "learning_rate": 1.0040408544185192e-05,
      "loss": 0.42684712409973147,
      "memory(GiB)": 73.83,
      "step": 92750,
      "token_acc": 0.8962962962962963,
      "train_speed(iter/s)": 1.458439
    },
    {
      "epoch": 3.973908572897477,
      "grad_norm": 2.7473461627960205,
      "learning_rate": 1.0036363800736554e-05,
      "loss": 0.29967057704925537,
      "memory(GiB)": 73.83,
      "step": 92755,
      "token_acc": 0.9245283018867925,
      "train_speed(iter/s)": 1.458449
    },
    {
      "epoch": 3.9741227882267256,
      "grad_norm": 2.381883144378662,
      "learning_rate": 1.0032319781266674e-05,
      "loss": 0.21881027221679689,
      "memory(GiB)": 73.83,
      "step": 92760,
      "token_acc": 0.9482758620689655,
      "train_speed(iter/s)": 1.458453
    },
    {
      "epoch": 3.9743370035559744,
      "grad_norm": 3.0337517261505127,
      "learning_rate": 1.0028276485848803e-05,
      "loss": 0.3863114595413208,
      "memory(GiB)": 73.83,
      "step": 92765,
      "token_acc": 0.9390681003584229,
      "train_speed(iter/s)": 1.458461
    },
    {
      "epoch": 3.9745512188852237,
      "grad_norm": 4.188570499420166,
      "learning_rate": 1.0024233914556213e-05,
      "loss": 0.35970778465270997,
      "memory(GiB)": 73.83,
      "step": 92770,
      "token_acc": 0.9186046511627907,
      "train_speed(iter/s)": 1.458455
    },
    {
      "epoch": 3.9747654342144725,
      "grad_norm": 1.997742772102356,
      "learning_rate": 1.0020192067462125e-05,
      "loss": 0.44922075271606443,
      "memory(GiB)": 73.83,
      "step": 92775,
      "token_acc": 0.9065155807365439,
      "train_speed(iter/s)": 1.458456
    },
    {
      "epoch": 3.9749796495437213,
      "grad_norm": 3.2650489807128906,
      "learning_rate": 1.0016150944639763e-05,
      "loss": 0.5257848262786865,
      "memory(GiB)": 73.83,
      "step": 92780,
      "token_acc": 0.9059233449477352,
      "train_speed(iter/s)": 1.458461
    },
    {
      "epoch": 3.9751938648729706,
      "grad_norm": 1.6735663414001465,
      "learning_rate": 1.0012110546162334e-05,
      "loss": 0.18579860925674438,
      "memory(GiB)": 73.83,
      "step": 92785,
      "token_acc": 0.9437086092715232,
      "train_speed(iter/s)": 1.458463
    },
    {
      "epoch": 3.9754080802022194,
      "grad_norm": 1.7263730764389038,
      "learning_rate": 1.0008070872103032e-05,
      "loss": 0.3944389820098877,
      "memory(GiB)": 73.83,
      "step": 92790,
      "token_acc": 0.9265734265734266,
      "train_speed(iter/s)": 1.458469
    },
    {
      "epoch": 3.975622295531468,
      "grad_norm": 4.040563583374023,
      "learning_rate": 1.0004031922535029e-05,
      "loss": 0.2931070327758789,
      "memory(GiB)": 73.83,
      "step": 92795,
      "token_acc": 0.9384615384615385,
      "train_speed(iter/s)": 1.45847
    },
    {
      "epoch": 3.9758365108607174,
      "grad_norm": 1.5992316007614136,
      "learning_rate": 9.999993697531512e-06,
      "loss": 0.22988884449005126,
      "memory(GiB)": 73.83,
      "step": 92800,
      "token_acc": 0.950530035335689,
      "train_speed(iter/s)": 1.458468
    },
    {
      "epoch": 3.9760507261899662,
      "grad_norm": 1.985144019126892,
      "learning_rate": 9.99595619716564e-06,
      "loss": 0.43945822715759275,
      "memory(GiB)": 73.83,
      "step": 92805,
      "token_acc": 0.9028571428571428,
      "train_speed(iter/s)": 1.458467
    },
    {
      "epoch": 3.976264941519215,
      "grad_norm": 4.836609840393066,
      "learning_rate": 9.991919421510547e-06,
      "loss": 0.31491737365722655,
      "memory(GiB)": 73.83,
      "step": 92810,
      "token_acc": 0.9233576642335767,
      "train_speed(iter/s)": 1.458467
    },
    {
      "epoch": 3.9764791568484643,
      "grad_norm": 4.353375434875488,
      "learning_rate": 9.987883370639368e-06,
      "loss": 0.23467001914978028,
      "memory(GiB)": 73.83,
      "step": 92815,
      "token_acc": 0.954225352112676,
      "train_speed(iter/s)": 1.458478
    },
    {
      "epoch": 3.976693372177713,
      "grad_norm": 1.3454228639602661,
      "learning_rate": 9.983848044625216e-06,
      "loss": 0.23791189193725587,
      "memory(GiB)": 73.83,
      "step": 92820,
      "token_acc": 0.952112676056338,
      "train_speed(iter/s)": 1.458493
    },
    {
      "epoch": 3.976907587506962,
      "grad_norm": 3.425621271133423,
      "learning_rate": 9.97981344354118e-06,
      "loss": 0.3122744083404541,
      "memory(GiB)": 73.83,
      "step": 92825,
      "token_acc": 0.9144736842105263,
      "train_speed(iter/s)": 1.458503
    },
    {
      "epoch": 3.977121802836211,
      "grad_norm": 2.0792055130004883,
      "learning_rate": 9.97577956746038e-06,
      "loss": 0.3410488605499268,
      "memory(GiB)": 73.83,
      "step": 92830,
      "token_acc": 0.9271523178807947,
      "train_speed(iter/s)": 1.458501
    },
    {
      "epoch": 3.97733601816546,
      "grad_norm": 1.9698941707611084,
      "learning_rate": 9.971746416455879e-06,
      "loss": 0.09859130382537842,
      "memory(GiB)": 73.83,
      "step": 92835,
      "token_acc": 0.9753521126760564,
      "train_speed(iter/s)": 1.458512
    },
    {
      "epoch": 3.977550233494709,
      "grad_norm": 3.278618812561035,
      "learning_rate": 9.96771399060074e-06,
      "loss": 0.2561699390411377,
      "memory(GiB)": 73.83,
      "step": 92840,
      "token_acc": 0.932806324110672,
      "train_speed(iter/s)": 1.458525
    },
    {
      "epoch": 3.977764448823958,
      "grad_norm": 1.0933654308319092,
      "learning_rate": 9.963682289968018e-06,
      "loss": 0.2734501838684082,
      "memory(GiB)": 73.83,
      "step": 92845,
      "token_acc": 0.9419354838709677,
      "train_speed(iter/s)": 1.458529
    },
    {
      "epoch": 3.977978664153207,
      "grad_norm": 4.557270526885986,
      "learning_rate": 9.959651314630747e-06,
      "loss": 0.2414107322692871,
      "memory(GiB)": 73.83,
      "step": 92850,
      "token_acc": 0.9404255319148936,
      "train_speed(iter/s)": 1.458541
    },
    {
      "epoch": 3.9781928794824557,
      "grad_norm": 3.144547700881958,
      "learning_rate": 9.955621064661935e-06,
      "loss": 0.24893105030059814,
      "memory(GiB)": 73.83,
      "step": 92855,
      "token_acc": 0.9420289855072463,
      "train_speed(iter/s)": 1.458545
    },
    {
      "epoch": 3.978407094811705,
      "grad_norm": 2.1108238697052,
      "learning_rate": 9.95159154013463e-06,
      "loss": 0.28245632648468016,
      "memory(GiB)": 73.83,
      "step": 92860,
      "token_acc": 0.937037037037037,
      "train_speed(iter/s)": 1.458542
    },
    {
      "epoch": 3.9786213101409538,
      "grad_norm": 2.910305976867676,
      "learning_rate": 9.947562741121813e-06,
      "loss": 0.3240018367767334,
      "memory(GiB)": 73.83,
      "step": 92865,
      "token_acc": 0.9087301587301587,
      "train_speed(iter/s)": 1.45855
    },
    {
      "epoch": 3.9788355254702026,
      "grad_norm": 4.537869453430176,
      "learning_rate": 9.943534667696459e-06,
      "loss": 0.47360405921936033,
      "memory(GiB)": 73.83,
      "step": 92870,
      "token_acc": 0.8918032786885246,
      "train_speed(iter/s)": 1.458552
    },
    {
      "epoch": 3.979049740799452,
      "grad_norm": 1.594789743423462,
      "learning_rate": 9.939507319931557e-06,
      "loss": 0.21985912322998047,
      "memory(GiB)": 73.83,
      "step": 92875,
      "token_acc": 0.9543859649122807,
      "train_speed(iter/s)": 1.458554
    },
    {
      "epoch": 3.9792639561287007,
      "grad_norm": 4.012551307678223,
      "learning_rate": 9.935480697900063e-06,
      "loss": 0.3999828100204468,
      "memory(GiB)": 73.83,
      "step": 92880,
      "token_acc": 0.9238754325259516,
      "train_speed(iter/s)": 1.458559
    },
    {
      "epoch": 3.9794781714579495,
      "grad_norm": 4.502296447753906,
      "learning_rate": 9.931454801674906e-06,
      "loss": 0.336596155166626,
      "memory(GiB)": 73.83,
      "step": 92885,
      "token_acc": 0.9288135593220339,
      "train_speed(iter/s)": 1.45856
    },
    {
      "epoch": 3.9796923867871987,
      "grad_norm": 7.0745110511779785,
      "learning_rate": 9.92742963132905e-06,
      "loss": 0.4553853511810303,
      "memory(GiB)": 73.83,
      "step": 92890,
      "token_acc": 0.9104477611940298,
      "train_speed(iter/s)": 1.458569
    },
    {
      "epoch": 3.9799066021164475,
      "grad_norm": 6.2436394691467285,
      "learning_rate": 9.923405186935392e-06,
      "loss": 0.41385812759399415,
      "memory(GiB)": 73.83,
      "step": 92895,
      "token_acc": 0.9209621993127147,
      "train_speed(iter/s)": 1.458583
    },
    {
      "epoch": 3.9801208174456963,
      "grad_norm": 2.010312795639038,
      "learning_rate": 9.919381468566846e-06,
      "loss": 0.47264814376831055,
      "memory(GiB)": 73.83,
      "step": 92900,
      "token_acc": 0.9161490683229814,
      "train_speed(iter/s)": 1.458586
    },
    {
      "epoch": 3.9803350327749456,
      "grad_norm": 1.3403801918029785,
      "learning_rate": 9.9153584762963e-06,
      "loss": 0.20572166442871093,
      "memory(GiB)": 73.83,
      "step": 92905,
      "token_acc": 0.9603960396039604,
      "train_speed(iter/s)": 1.458587
    },
    {
      "epoch": 3.9805492481041944,
      "grad_norm": 2.7936453819274902,
      "learning_rate": 9.911336210196626e-06,
      "loss": 0.1591116189956665,
      "memory(GiB)": 73.83,
      "step": 92910,
      "token_acc": 0.9585062240663901,
      "train_speed(iter/s)": 1.458594
    },
    {
      "epoch": 3.9807634634334432,
      "grad_norm": 2.1348323822021484,
      "learning_rate": 9.907314670340717e-06,
      "loss": 0.33284406661987304,
      "memory(GiB)": 73.83,
      "step": 92915,
      "token_acc": 0.9452054794520548,
      "train_speed(iter/s)": 1.458594
    },
    {
      "epoch": 3.9809776787626925,
      "grad_norm": 2.6088593006134033,
      "learning_rate": 9.903293856801415e-06,
      "loss": 0.4111870288848877,
      "memory(GiB)": 73.83,
      "step": 92920,
      "token_acc": 0.8914473684210527,
      "train_speed(iter/s)": 1.458597
    },
    {
      "epoch": 3.9811918940919413,
      "grad_norm": 6.075390338897705,
      "learning_rate": 9.899273769651557e-06,
      "loss": 0.3000878572463989,
      "memory(GiB)": 73.83,
      "step": 92925,
      "token_acc": 0.935361216730038,
      "train_speed(iter/s)": 1.4586
    },
    {
      "epoch": 3.98140610942119,
      "grad_norm": 6.6653900146484375,
      "learning_rate": 9.895254408963972e-06,
      "loss": 0.3254518508911133,
      "memory(GiB)": 73.83,
      "step": 92930,
      "token_acc": 0.9257950530035336,
      "train_speed(iter/s)": 1.458602
    },
    {
      "epoch": 3.9816203247504394,
      "grad_norm": 3.2101171016693115,
      "learning_rate": 9.891235774811474e-06,
      "loss": 0.22819674015045166,
      "memory(GiB)": 73.83,
      "step": 92935,
      "token_acc": 0.9439252336448598,
      "train_speed(iter/s)": 1.458604
    },
    {
      "epoch": 3.981834540079688,
      "grad_norm": 1.3484232425689697,
      "learning_rate": 9.88721786726685e-06,
      "loss": 0.20009124279022217,
      "memory(GiB)": 73.83,
      "step": 92940,
      "token_acc": 0.9508771929824561,
      "train_speed(iter/s)": 1.458612
    },
    {
      "epoch": 3.982048755408937,
      "grad_norm": 1.7389353513717651,
      "learning_rate": 9.883200686402905e-06,
      "loss": 0.11466193199157715,
      "memory(GiB)": 73.83,
      "step": 92945,
      "token_acc": 0.9686274509803922,
      "train_speed(iter/s)": 1.458616
    },
    {
      "epoch": 3.9822629707381862,
      "grad_norm": 4.322993755340576,
      "learning_rate": 9.879184232292426e-06,
      "loss": 0.3901206016540527,
      "memory(GiB)": 73.83,
      "step": 92950,
      "token_acc": 0.8958333333333334,
      "train_speed(iter/s)": 1.458622
    },
    {
      "epoch": 3.982477186067435,
      "grad_norm": 4.862278461456299,
      "learning_rate": 9.875168505008159e-06,
      "loss": 0.34976911544799805,
      "memory(GiB)": 73.83,
      "step": 92955,
      "token_acc": 0.9141104294478528,
      "train_speed(iter/s)": 1.458626
    },
    {
      "epoch": 3.982691401396684,
      "grad_norm": 3.5191123485565186,
      "learning_rate": 9.87115350462286e-06,
      "loss": 0.21760244369506837,
      "memory(GiB)": 73.83,
      "step": 92960,
      "token_acc": 0.9540229885057471,
      "train_speed(iter/s)": 1.45863
    },
    {
      "epoch": 3.982905616725933,
      "grad_norm": 3.7881901264190674,
      "learning_rate": 9.867139231209255e-06,
      "loss": 0.4231268405914307,
      "memory(GiB)": 73.83,
      "step": 92965,
      "token_acc": 0.9240121580547113,
      "train_speed(iter/s)": 1.458632
    },
    {
      "epoch": 3.983119832055182,
      "grad_norm": 2.282968044281006,
      "learning_rate": 9.863125684840059e-06,
      "loss": 0.43421497344970705,
      "memory(GiB)": 73.83,
      "step": 92970,
      "token_acc": 0.895910780669145,
      "train_speed(iter/s)": 1.458633
    },
    {
      "epoch": 3.9833340473844308,
      "grad_norm": 3.6180107593536377,
      "learning_rate": 9.859112865588e-06,
      "loss": 0.3724878549575806,
      "memory(GiB)": 73.83,
      "step": 92975,
      "token_acc": 0.9328859060402684,
      "train_speed(iter/s)": 1.458637
    },
    {
      "epoch": 3.98354826271368,
      "grad_norm": 4.068251609802246,
      "learning_rate": 9.855100773525771e-06,
      "loss": 0.30672035217285154,
      "memory(GiB)": 73.83,
      "step": 92980,
      "token_acc": 0.9361022364217252,
      "train_speed(iter/s)": 1.458643
    },
    {
      "epoch": 3.983762478042929,
      "grad_norm": 5.796994209289551,
      "learning_rate": 9.851089408726055e-06,
      "loss": 0.32082836627960204,
      "memory(GiB)": 73.83,
      "step": 92985,
      "token_acc": 0.9274193548387096,
      "train_speed(iter/s)": 1.458645
    },
    {
      "epoch": 3.9839766933721776,
      "grad_norm": 0.5429520606994629,
      "learning_rate": 9.847078771261509e-06,
      "loss": 0.19980701208114623,
      "memory(GiB)": 73.83,
      "step": 92990,
      "token_acc": 0.9571428571428572,
      "train_speed(iter/s)": 1.458649
    },
    {
      "epoch": 3.984190908701427,
      "grad_norm": 3.3081729412078857,
      "learning_rate": 9.843068861204801e-06,
      "loss": 0.1755264639854431,
      "memory(GiB)": 73.83,
      "step": 92995,
      "token_acc": 0.9724409448818898,
      "train_speed(iter/s)": 1.458656
    },
    {
      "epoch": 3.9844051240306757,
      "grad_norm": 1.6102442741394043,
      "learning_rate": 9.839059678628559e-06,
      "loss": 0.28764240741729735,
      "memory(GiB)": 73.83,
      "step": 93000,
      "token_acc": 0.928082191780822,
      "train_speed(iter/s)": 1.458673
    },
    {
      "epoch": 3.9844051240306757,
      "eval_loss": 2.442375421524048,
      "eval_runtime": 11.2114,
      "eval_samples_per_second": 8.92,
      "eval_steps_per_second": 8.92,
      "eval_token_acc": 0.44,
      "step": 93000
    },
    {
      "epoch": 3.9846193393599245,
      "grad_norm": 5.601236820220947,
      "learning_rate": 9.83505122360544e-06,
      "loss": 0.37116830348968505,
      "memory(GiB)": 73.83,
      "step": 93005,
      "token_acc": 0.5642633228840125,
      "train_speed(iter/s)": 1.458396
    },
    {
      "epoch": 3.9848335546891738,
      "grad_norm": 2.198046922683716,
      "learning_rate": 9.831043496208042e-06,
      "loss": 0.25783958435058596,
      "memory(GiB)": 73.83,
      "step": 93010,
      "token_acc": 0.9416058394160584,
      "train_speed(iter/s)": 1.4584
    },
    {
      "epoch": 3.9850477700184226,
      "grad_norm": 3.2466633319854736,
      "learning_rate": 9.827036496508973e-06,
      "loss": 0.6105743408203125,
      "memory(GiB)": 73.83,
      "step": 93015,
      "token_acc": 0.875,
      "train_speed(iter/s)": 1.458411
    },
    {
      "epoch": 3.9852619853476714,
      "grad_norm": 2.6678099632263184,
      "learning_rate": 9.823030224580809e-06,
      "loss": 0.2881613254547119,
      "memory(GiB)": 73.83,
      "step": 93020,
      "token_acc": 0.9348534201954397,
      "train_speed(iter/s)": 1.458412
    },
    {
      "epoch": 3.9854762006769207,
      "grad_norm": 2.995086193084717,
      "learning_rate": 9.819024680496159e-06,
      "loss": 0.33956863880157473,
      "memory(GiB)": 73.83,
      "step": 93025,
      "token_acc": 0.9317507418397626,
      "train_speed(iter/s)": 1.458415
    },
    {
      "epoch": 3.9856904160061695,
      "grad_norm": 3.1987063884735107,
      "learning_rate": 9.815019864327551e-06,
      "loss": 0.2315971612930298,
      "memory(GiB)": 73.83,
      "step": 93030,
      "token_acc": 0.9367469879518072,
      "train_speed(iter/s)": 1.458418
    },
    {
      "epoch": 3.9859046313354183,
      "grad_norm": 3.8487956523895264,
      "learning_rate": 9.81101577614757e-06,
      "loss": 0.2592129945755005,
      "memory(GiB)": 73.83,
      "step": 93035,
      "token_acc": 0.932258064516129,
      "train_speed(iter/s)": 1.458416
    },
    {
      "epoch": 3.9861188466646675,
      "grad_norm": 6.435823440551758,
      "learning_rate": 9.807012416028739e-06,
      "loss": 0.4902402400970459,
      "memory(GiB)": 73.83,
      "step": 93040,
      "token_acc": 0.8943894389438944,
      "train_speed(iter/s)": 1.458421
    },
    {
      "epoch": 3.9863330619939163,
      "grad_norm": 1.7811022996902466,
      "learning_rate": 9.803009784043581e-06,
      "loss": 0.4464315414428711,
      "memory(GiB)": 73.83,
      "step": 93045,
      "token_acc": 0.9225806451612903,
      "train_speed(iter/s)": 1.458426
    },
    {
      "epoch": 3.986547277323165,
      "grad_norm": 2.809879779815674,
      "learning_rate": 9.799007880264611e-06,
      "loss": 0.40581607818603516,
      "memory(GiB)": 73.83,
      "step": 93050,
      "token_acc": 0.9134948096885813,
      "train_speed(iter/s)": 1.45843
    },
    {
      "epoch": 3.9867614926524144,
      "grad_norm": 4.030426979064941,
      "learning_rate": 9.79500670476431e-06,
      "loss": 0.3927032709121704,
      "memory(GiB)": 73.83,
      "step": 93055,
      "token_acc": 0.9163763066202091,
      "train_speed(iter/s)": 1.458437
    },
    {
      "epoch": 3.9869757079816632,
      "grad_norm": 4.6223673820495605,
      "learning_rate": 9.791006257615192e-06,
      "loss": 0.6183012008666993,
      "memory(GiB)": 73.83,
      "step": 93060,
      "token_acc": 0.8688046647230321,
      "train_speed(iter/s)": 1.45844
    },
    {
      "epoch": 3.987189923310912,
      "grad_norm": 5.612214088439941,
      "learning_rate": 9.787006538889714e-06,
      "loss": 0.4575809478759766,
      "memory(GiB)": 73.83,
      "step": 93065,
      "token_acc": 0.875968992248062,
      "train_speed(iter/s)": 1.458439
    },
    {
      "epoch": 3.9874041386401613,
      "grad_norm": 4.7367353439331055,
      "learning_rate": 9.783007548660338e-06,
      "loss": 0.24752445220947267,
      "memory(GiB)": 73.83,
      "step": 93070,
      "token_acc": 0.9514925373134329,
      "train_speed(iter/s)": 1.458444
    },
    {
      "epoch": 3.98761835396941,
      "grad_norm": 3.0838499069213867,
      "learning_rate": 9.779009286999501e-06,
      "loss": 0.20063726902008056,
      "memory(GiB)": 73.83,
      "step": 93075,
      "token_acc": 0.9519650655021834,
      "train_speed(iter/s)": 1.458445
    },
    {
      "epoch": 3.987832569298659,
      "grad_norm": 3.9276552200317383,
      "learning_rate": 9.775011753979646e-06,
      "loss": 0.530812931060791,
      "memory(GiB)": 73.83,
      "step": 93080,
      "token_acc": 0.8812949640287769,
      "train_speed(iter/s)": 1.458442
    },
    {
      "epoch": 3.988046784627908,
      "grad_norm": 2.0181422233581543,
      "learning_rate": 9.771014949673174e-06,
      "loss": 0.3383587121963501,
      "memory(GiB)": 73.83,
      "step": 93085,
      "token_acc": 0.8956228956228957,
      "train_speed(iter/s)": 1.458451
    },
    {
      "epoch": 3.988260999957157,
      "grad_norm": 0.18907420337200165,
      "learning_rate": 9.767018874152517e-06,
      "loss": 0.2865665197372437,
      "memory(GiB)": 73.83,
      "step": 93090,
      "token_acc": 0.9285714285714286,
      "train_speed(iter/s)": 1.458456
    },
    {
      "epoch": 3.988475215286406,
      "grad_norm": 1.0803462266921997,
      "learning_rate": 9.76302352749004e-06,
      "loss": 0.49110636711120603,
      "memory(GiB)": 73.83,
      "step": 93095,
      "token_acc": 0.9046052631578947,
      "train_speed(iter/s)": 1.458468
    },
    {
      "epoch": 3.988689430615655,
      "grad_norm": 5.432915687561035,
      "learning_rate": 9.75902890975815e-06,
      "loss": 0.5720970153808593,
      "memory(GiB)": 73.83,
      "step": 93100,
      "token_acc": 0.8683274021352313,
      "train_speed(iter/s)": 1.458469
    },
    {
      "epoch": 3.988903645944904,
      "grad_norm": 7.08799409866333,
      "learning_rate": 9.755035021029202e-06,
      "loss": 0.5607736110687256,
      "memory(GiB)": 73.83,
      "step": 93105,
      "token_acc": 0.9186440677966101,
      "train_speed(iter/s)": 1.458469
    },
    {
      "epoch": 3.9891178612741527,
      "grad_norm": 3.442924737930298,
      "learning_rate": 9.751041861375549e-06,
      "loss": 0.3985152244567871,
      "memory(GiB)": 73.83,
      "step": 93110,
      "token_acc": 0.9,
      "train_speed(iter/s)": 1.458467
    },
    {
      "epoch": 3.989332076603402,
      "grad_norm": 2.1890339851379395,
      "learning_rate": 9.74704943086951e-06,
      "loss": 0.23418068885803223,
      "memory(GiB)": 73.83,
      "step": 93115,
      "token_acc": 0.9372693726937269,
      "train_speed(iter/s)": 1.458467
    },
    {
      "epoch": 3.9895462919326508,
      "grad_norm": 4.335849285125732,
      "learning_rate": 9.74305772958345e-06,
      "loss": 0.49205813407897947,
      "memory(GiB)": 73.83,
      "step": 93120,
      "token_acc": 0.9166666666666666,
      "train_speed(iter/s)": 1.458479
    },
    {
      "epoch": 3.9897605072618996,
      "grad_norm": 1.310845971107483,
      "learning_rate": 9.73906675758966e-06,
      "loss": 0.29150710105895994,
      "memory(GiB)": 73.83,
      "step": 93125,
      "token_acc": 0.9097472924187726,
      "train_speed(iter/s)": 1.458479
    },
    {
      "epoch": 3.989974722591149,
      "grad_norm": 0.40125882625579834,
      "learning_rate": 9.735076514960445e-06,
      "loss": 0.39795398712158203,
      "memory(GiB)": 73.83,
      "step": 93130,
      "token_acc": 0.9170305676855895,
      "train_speed(iter/s)": 1.4585
    },
    {
      "epoch": 3.9901889379203976,
      "grad_norm": 1.5966051816940308,
      "learning_rate": 9.731087001768085e-06,
      "loss": 0.3828551769256592,
      "memory(GiB)": 73.83,
      "step": 93135,
      "token_acc": 0.9118942731277533,
      "train_speed(iter/s)": 1.458504
    },
    {
      "epoch": 3.9904031532496465,
      "grad_norm": 1.3962452411651611,
      "learning_rate": 9.727098218084868e-06,
      "loss": 0.32921576499938965,
      "memory(GiB)": 73.83,
      "step": 93140,
      "token_acc": 0.9390243902439024,
      "train_speed(iter/s)": 1.458505
    },
    {
      "epoch": 3.9906173685788957,
      "grad_norm": 6.005207538604736,
      "learning_rate": 9.72311016398303e-06,
      "loss": 0.9285135269165039,
      "memory(GiB)": 73.83,
      "step": 93145,
      "token_acc": 0.8057324840764332,
      "train_speed(iter/s)": 1.458533
    },
    {
      "epoch": 3.9908315839081445,
      "grad_norm": 0.45455634593963623,
      "learning_rate": 9.719122839534844e-06,
      "loss": 0.21018919944763184,
      "memory(GiB)": 73.83,
      "step": 93150,
      "token_acc": 0.9464882943143813,
      "train_speed(iter/s)": 1.458537
    },
    {
      "epoch": 3.9910457992373933,
      "grad_norm": 2.8301820755004883,
      "learning_rate": 9.715136244812533e-06,
      "loss": 0.39438316822052,
      "memory(GiB)": 73.83,
      "step": 93155,
      "token_acc": 0.9103448275862069,
      "train_speed(iter/s)": 1.458542
    },
    {
      "epoch": 3.9912600145666426,
      "grad_norm": 3.4190773963928223,
      "learning_rate": 9.711150379888328e-06,
      "loss": 0.24300537109375,
      "memory(GiB)": 73.83,
      "step": 93160,
      "token_acc": 0.9491525423728814,
      "train_speed(iter/s)": 1.458544
    },
    {
      "epoch": 3.9914742298958914,
      "grad_norm": 5.705650329589844,
      "learning_rate": 9.70716524483441e-06,
      "loss": 0.2915026187896729,
      "memory(GiB)": 73.83,
      "step": 93165,
      "token_acc": 0.9180327868852459,
      "train_speed(iter/s)": 1.458542
    },
    {
      "epoch": 3.99168844522514,
      "grad_norm": 4.797740459442139,
      "learning_rate": 9.703180839723003e-06,
      "loss": 0.3527646541595459,
      "memory(GiB)": 73.83,
      "step": 93170,
      "token_acc": 0.909375,
      "train_speed(iter/s)": 1.458548
    },
    {
      "epoch": 3.9919026605543895,
      "grad_norm": 4.1988677978515625,
      "learning_rate": 9.699197164626261e-06,
      "loss": 0.4048208236694336,
      "memory(GiB)": 73.83,
      "step": 93175,
      "token_acc": 0.9169435215946844,
      "train_speed(iter/s)": 1.458542
    },
    {
      "epoch": 3.9921168758836383,
      "grad_norm": 4.587080478668213,
      "learning_rate": 9.695214219616383e-06,
      "loss": 0.33542752265930176,
      "memory(GiB)": 73.83,
      "step": 93180,
      "token_acc": 0.9368421052631579,
      "train_speed(iter/s)": 1.458543
    },
    {
      "epoch": 3.992331091212887,
      "grad_norm": 2.6883511543273926,
      "learning_rate": 9.69123200476551e-06,
      "loss": 0.24370856285095216,
      "memory(GiB)": 73.83,
      "step": 93185,
      "token_acc": 0.9528619528619529,
      "train_speed(iter/s)": 1.458542
    },
    {
      "epoch": 3.9925453065421364,
      "grad_norm": 2.5199596881866455,
      "learning_rate": 9.687250520145785e-06,
      "loss": 0.3558960914611816,
      "memory(GiB)": 73.83,
      "step": 93190,
      "token_acc": 0.924901185770751,
      "train_speed(iter/s)": 1.458543
    },
    {
      "epoch": 3.992759521871385,
      "grad_norm": 0.8902509808540344,
      "learning_rate": 9.683269765829328e-06,
      "loss": 0.34066627025604246,
      "memory(GiB)": 73.83,
      "step": 93195,
      "token_acc": 0.9243243243243243,
      "train_speed(iter/s)": 1.458545
    },
    {
      "epoch": 3.992973737200634,
      "grad_norm": 2.4178473949432373,
      "learning_rate": 9.679289741888248e-06,
      "loss": 0.366081690788269,
      "memory(GiB)": 73.83,
      "step": 93200,
      "token_acc": 0.9274924471299094,
      "train_speed(iter/s)": 1.458545
    },
    {
      "epoch": 3.9931879525298832,
      "grad_norm": 0.9989567399024963,
      "learning_rate": 9.67531044839467e-06,
      "loss": 0.26615917682647705,
      "memory(GiB)": 73.83,
      "step": 93205,
      "token_acc": 0.9304029304029304,
      "train_speed(iter/s)": 1.458548
    },
    {
      "epoch": 3.993402167859132,
      "grad_norm": 3.0208961963653564,
      "learning_rate": 9.67133188542067e-06,
      "loss": 0.4207324981689453,
      "memory(GiB)": 73.83,
      "step": 93210,
      "token_acc": 0.9078014184397163,
      "train_speed(iter/s)": 1.458556
    },
    {
      "epoch": 3.993616383188381,
      "grad_norm": 4.284745693206787,
      "learning_rate": 9.667354053038329e-06,
      "loss": 0.5243640899658203,
      "memory(GiB)": 73.83,
      "step": 93215,
      "token_acc": 0.889589905362776,
      "train_speed(iter/s)": 1.458568
    },
    {
      "epoch": 3.99383059851763,
      "grad_norm": 2.510524272918701,
      "learning_rate": 9.663376951319702e-06,
      "loss": 0.42661342620849607,
      "memory(GiB)": 73.83,
      "step": 93220,
      "token_acc": 0.900398406374502,
      "train_speed(iter/s)": 1.458572
    },
    {
      "epoch": 3.994044813846879,
      "grad_norm": 2.117854356765747,
      "learning_rate": 9.659400580336836e-06,
      "loss": 0.4046923160552979,
      "memory(GiB)": 73.83,
      "step": 93225,
      "token_acc": 0.9121621621621622,
      "train_speed(iter/s)": 1.45857
    },
    {
      "epoch": 3.9942590291761277,
      "grad_norm": 5.335406303405762,
      "learning_rate": 9.655424940161761e-06,
      "loss": 0.5262259006500244,
      "memory(GiB)": 73.83,
      "step": 93230,
      "token_acc": 0.8763250883392226,
      "train_speed(iter/s)": 1.458569
    },
    {
      "epoch": 3.994473244505377,
      "grad_norm": 1.563000202178955,
      "learning_rate": 9.651450030866527e-06,
      "loss": 0.24569201469421387,
      "memory(GiB)": 73.83,
      "step": 93235,
      "token_acc": 0.9400544959128065,
      "train_speed(iter/s)": 1.458573
    },
    {
      "epoch": 3.994687459834626,
      "grad_norm": 5.185432434082031,
      "learning_rate": 9.647475852523109e-06,
      "loss": 0.615963363647461,
      "memory(GiB)": 73.83,
      "step": 93240,
      "token_acc": 0.8854166666666666,
      "train_speed(iter/s)": 1.45857
    },
    {
      "epoch": 3.9949016751638746,
      "grad_norm": 2.4824483394622803,
      "learning_rate": 9.64350240520353e-06,
      "loss": 0.41025490760803224,
      "memory(GiB)": 73.83,
      "step": 93245,
      "token_acc": 0.9228187919463087,
      "train_speed(iter/s)": 1.458574
    },
    {
      "epoch": 3.995115890493124,
      "grad_norm": 4.036127090454102,
      "learning_rate": 9.639529688979765e-06,
      "loss": 0.21744813919067382,
      "memory(GiB)": 73.83,
      "step": 93250,
      "token_acc": 0.935064935064935,
      "train_speed(iter/s)": 1.458587
    },
    {
      "epoch": 3.9953301058223727,
      "grad_norm": 0.21154797077178955,
      "learning_rate": 9.63555770392378e-06,
      "loss": 0.6604944229125976,
      "memory(GiB)": 73.83,
      "step": 93255,
      "token_acc": 0.8401486988847584,
      "train_speed(iter/s)": 1.458592
    },
    {
      "epoch": 3.9955443211516215,
      "grad_norm": 5.095943450927734,
      "learning_rate": 9.63158645010752e-06,
      "loss": 0.45545291900634766,
      "memory(GiB)": 73.83,
      "step": 93260,
      "token_acc": 0.8846153846153846,
      "train_speed(iter/s)": 1.458587
    },
    {
      "epoch": 3.9957585364808708,
      "grad_norm": 2.6238598823547363,
      "learning_rate": 9.627615927602957e-06,
      "loss": 0.16402019262313844,
      "memory(GiB)": 73.83,
      "step": 93265,
      "token_acc": 0.9563636363636364,
      "train_speed(iter/s)": 1.458589
    },
    {
      "epoch": 3.9959727518101196,
      "grad_norm": 1.1541974544525146,
      "learning_rate": 9.623646136482e-06,
      "loss": 0.2592662811279297,
      "memory(GiB)": 73.83,
      "step": 93270,
      "token_acc": 0.940983606557377,
      "train_speed(iter/s)": 1.458608
    },
    {
      "epoch": 3.9961869671393684,
      "grad_norm": 2.788583993911743,
      "learning_rate": 9.619677076816568e-06,
      "loss": 0.35111203193664553,
      "memory(GiB)": 73.83,
      "step": 93275,
      "token_acc": 0.9096774193548387,
      "train_speed(iter/s)": 1.45861
    },
    {
      "epoch": 3.9964011824686176,
      "grad_norm": 4.898138046264648,
      "learning_rate": 9.615708748678565e-06,
      "loss": 0.2878578186035156,
      "memory(GiB)": 73.83,
      "step": 93280,
      "token_acc": 0.9454022988505747,
      "train_speed(iter/s)": 1.458613
    },
    {
      "epoch": 3.9966153977978665,
      "grad_norm": 0.6068550944328308,
      "learning_rate": 9.611741152139886e-06,
      "loss": 0.3334269762039185,
      "memory(GiB)": 73.83,
      "step": 93285,
      "token_acc": 0.9255663430420712,
      "train_speed(iter/s)": 1.458615
    },
    {
      "epoch": 3.9968296131271153,
      "grad_norm": 0.10267291218042374,
      "learning_rate": 9.607774287272386e-06,
      "loss": 0.3733291387557983,
      "memory(GiB)": 73.83,
      "step": 93290,
      "token_acc": 0.9261744966442953,
      "train_speed(iter/s)": 1.45862
    },
    {
      "epoch": 3.9970438284563645,
      "grad_norm": 2.9866318702697754,
      "learning_rate": 9.603808154147958e-06,
      "loss": 0.37077620029449465,
      "memory(GiB)": 73.83,
      "step": 93295,
      "token_acc": 0.9023569023569024,
      "train_speed(iter/s)": 1.458626
    },
    {
      "epoch": 3.9972580437856133,
      "grad_norm": 3.380307674407959,
      "learning_rate": 9.599842752838444e-06,
      "loss": 0.5926393032073974,
      "memory(GiB)": 73.83,
      "step": 93300,
      "token_acc": 0.8898550724637682,
      "train_speed(iter/s)": 1.458629
    },
    {
      "epoch": 3.997472259114862,
      "grad_norm": 4.445250511169434,
      "learning_rate": 9.595878083415676e-06,
      "loss": 0.42943425178527833,
      "memory(GiB)": 73.83,
      "step": 93305,
      "token_acc": 0.8945454545454545,
      "train_speed(iter/s)": 1.458636
    },
    {
      "epoch": 3.9976864744441114,
      "grad_norm": 1.9646614789962769,
      "learning_rate": 9.59191414595148e-06,
      "loss": 0.28893356323242186,
      "memory(GiB)": 73.83,
      "step": 93310,
      "token_acc": 0.9306930693069307,
      "train_speed(iter/s)": 1.458642
    },
    {
      "epoch": 3.99790068977336,
      "grad_norm": 1.1868969202041626,
      "learning_rate": 9.587950940517648e-06,
      "loss": 0.1778350591659546,
      "memory(GiB)": 73.83,
      "step": 93315,
      "token_acc": 0.9656357388316151,
      "train_speed(iter/s)": 1.458645
    },
    {
      "epoch": 3.998114905102609,
      "grad_norm": 4.2819905281066895,
      "learning_rate": 9.583988467185995e-06,
      "loss": 0.31158583164215087,
      "memory(GiB)": 73.83,
      "step": 93320,
      "token_acc": 0.9433962264150944,
      "train_speed(iter/s)": 1.458652
    },
    {
      "epoch": 3.9983291204318583,
      "grad_norm": 0.6234617829322815,
      "learning_rate": 9.580026726028318e-06,
      "loss": 0.3350935459136963,
      "memory(GiB)": 73.83,
      "step": 93325,
      "token_acc": 0.9303030303030303,
      "train_speed(iter/s)": 1.458652
    },
    {
      "epoch": 3.998543335761107,
      "grad_norm": 2.7107503414154053,
      "learning_rate": 9.576065717116378e-06,
      "loss": 0.28310861587524416,
      "memory(GiB)": 73.83,
      "step": 93330,
      "token_acc": 0.9353846153846154,
      "train_speed(iter/s)": 1.458653
    },
    {
      "epoch": 3.998757551090356,
      "grad_norm": 3.0142312049865723,
      "learning_rate": 9.572105440521922e-06,
      "loss": 0.7036429882049561,
      "memory(GiB)": 73.83,
      "step": 93335,
      "token_acc": 0.8692579505300353,
      "train_speed(iter/s)": 1.458668
    },
    {
      "epoch": 3.998971766419605,
      "grad_norm": 2.1198885440826416,
      "learning_rate": 9.568145896316704e-06,
      "loss": 0.2729969024658203,
      "memory(GiB)": 73.83,
      "step": 93340,
      "token_acc": 0.9367816091954023,
      "train_speed(iter/s)": 1.45867
    },
    {
      "epoch": 3.999185981748854,
      "grad_norm": 3.959475040435791,
      "learning_rate": 9.56418708457244e-06,
      "loss": 0.2647205352783203,
      "memory(GiB)": 73.83,
      "step": 93345,
      "token_acc": 0.9409282700421941,
      "train_speed(iter/s)": 1.458678
    },
    {
      "epoch": 3.999400197078103,
      "grad_norm": 3.5694737434387207,
      "learning_rate": 9.560229005360866e-06,
      "loss": 0.20955891609191896,
      "memory(GiB)": 73.83,
      "step": 93350,
      "token_acc": 0.9350180505415162,
      "train_speed(iter/s)": 1.458698
    },
    {
      "epoch": 3.999614412407352,
      "grad_norm": 3.8273561000823975,
      "learning_rate": 9.556271658753685e-06,
      "loss": 0.24987831115722656,
      "memory(GiB)": 73.83,
      "step": 93355,
      "token_acc": 0.9359430604982206,
      "train_speed(iter/s)": 1.458696
    },
    {
      "epoch": 3.999828627736601,
      "grad_norm": 0.1563795655965805,
      "learning_rate": 9.552315044822579e-06,
      "loss": 0.38870813846588137,
      "memory(GiB)": 73.83,
      "step": 93360,
      "token_acc": 0.9254901960784314,
      "train_speed(iter/s)": 1.458696
    },
    {
      "epoch": 4.00004284306585,
      "grad_norm": 3.916023015975952,
      "learning_rate": 9.548359163639226e-06,
      "loss": 0.29577367305755614,
      "memory(GiB)": 73.83,
      "step": 93365,
      "token_acc": 0.9392712550607287,
      "train_speed(iter/s)": 1.4587
    },
    {
      "epoch": 4.000257058395099,
      "grad_norm": 0.4506331980228424,
      "learning_rate": 9.5444040152753e-06,
      "loss": 0.3477515459060669,
      "memory(GiB)": 73.83,
      "step": 93370,
      "token_acc": 0.9320388349514563,
      "train_speed(iter/s)": 1.458713
    },
    {
      "epoch": 4.000471273724347,
      "grad_norm": 4.63006591796875,
      "learning_rate": 9.540449599802426e-06,
      "loss": 0.728610897064209,
      "memory(GiB)": 73.83,
      "step": 93375,
      "token_acc": 0.85,
      "train_speed(iter/s)": 1.458728
    },
    {
      "epoch": 4.0006854890535966,
      "grad_norm": 4.47650146484375,
      "learning_rate": 9.536495917292283e-06,
      "loss": 0.434998083114624,
      "memory(GiB)": 73.83,
      "step": 93380,
      "token_acc": 0.9280575539568345,
      "train_speed(iter/s)": 1.45874
    },
    {
      "epoch": 4.000899704382846,
      "grad_norm": 3.7281570434570312,
      "learning_rate": 9.532542967816466e-06,
      "loss": 0.32059602737426757,
      "memory(GiB)": 73.83,
      "step": 93385,
      "token_acc": 0.9333333333333333,
      "train_speed(iter/s)": 1.45874
    },
    {
      "epoch": 4.001113919712094,
      "grad_norm": 0.5371716618537903,
      "learning_rate": 9.528590751446587e-06,
      "loss": 0.23748533725738524,
      "memory(GiB)": 73.83,
      "step": 93390,
      "token_acc": 0.9346938775510204,
      "train_speed(iter/s)": 1.458741
    },
    {
      "epoch": 4.001328135041343,
      "grad_norm": 6.396268844604492,
      "learning_rate": 9.524639268254259e-06,
      "loss": 0.548110055923462,
      "memory(GiB)": 73.83,
      "step": 93395,
      "token_acc": 0.9035714285714286,
      "train_speed(iter/s)": 1.458753
    },
    {
      "epoch": 4.001542350370593,
      "grad_norm": 5.089548110961914,
      "learning_rate": 9.520688518311065e-06,
      "loss": 0.3861522674560547,
      "memory(GiB)": 73.83,
      "step": 93400,
      "token_acc": 0.9033457249070632,
      "train_speed(iter/s)": 1.458763
    },
    {
      "epoch": 4.001756565699841,
      "grad_norm": 4.393570423126221,
      "learning_rate": 9.51673850168856e-06,
      "loss": 0.23543233871459962,
      "memory(GiB)": 73.83,
      "step": 93405,
      "token_acc": 0.9341085271317829,
      "train_speed(iter/s)": 1.458775
    },
    {
      "epoch": 4.00197078102909,
      "grad_norm": 1.887742042541504,
      "learning_rate": 9.512789218458323e-06,
      "loss": 0.3425728797912598,
      "memory(GiB)": 73.83,
      "step": 93410,
      "token_acc": 0.9202127659574468,
      "train_speed(iter/s)": 1.458776
    },
    {
      "epoch": 4.00218499635834,
      "grad_norm": 2.7362582683563232,
      "learning_rate": 9.508840668691887e-06,
      "loss": 0.2525345325469971,
      "memory(GiB)": 73.83,
      "step": 93415,
      "token_acc": 0.9213483146067416,
      "train_speed(iter/s)": 1.458793
    },
    {
      "epoch": 4.002399211687588,
      "grad_norm": 4.050759792327881,
      "learning_rate": 9.50489285246079e-06,
      "loss": 0.42478628158569337,
      "memory(GiB)": 73.83,
      "step": 93420,
      "token_acc": 0.9135446685878963,
      "train_speed(iter/s)": 1.458798
    },
    {
      "epoch": 4.002613427016837,
      "grad_norm": 0.381220281124115,
      "learning_rate": 9.500945769836545e-06,
      "loss": 0.21056513786315917,
      "memory(GiB)": 73.83,
      "step": 93425,
      "token_acc": 0.9555555555555556,
      "train_speed(iter/s)": 1.458808
    },
    {
      "epoch": 4.0028276423460865,
      "grad_norm": 2.8244640827178955,
      "learning_rate": 9.496999420890646e-06,
      "loss": 0.18346045017242432,
      "memory(GiB)": 73.83,
      "step": 93430,
      "token_acc": 0.939622641509434,
      "train_speed(iter/s)": 1.458808
    },
    {
      "epoch": 4.003041857675335,
      "grad_norm": 5.253096580505371,
      "learning_rate": 9.493053805694608e-06,
      "loss": 0.17649508714675904,
      "memory(GiB)": 73.83,
      "step": 93435,
      "token_acc": 0.9768339768339769,
      "train_speed(iter/s)": 1.458817
    },
    {
      "epoch": 4.003256073004584,
      "grad_norm": 0.8488630056381226,
      "learning_rate": 9.4891089243199e-06,
      "loss": 0.34626216888427735,
      "memory(GiB)": 73.83,
      "step": 93440,
      "token_acc": 0.9246575342465754,
      "train_speed(iter/s)": 1.458815
    },
    {
      "epoch": 4.003470288333833,
      "grad_norm": 5.417370796203613,
      "learning_rate": 9.48516477683799e-06,
      "loss": 0.499052095413208,
      "memory(GiB)": 73.83,
      "step": 93445,
      "token_acc": 0.9047619047619048,
      "train_speed(iter/s)": 1.458816
    },
    {
      "epoch": 4.003684503663082,
      "grad_norm": 2.142089366912842,
      "learning_rate": 9.48122136332032e-06,
      "loss": 0.2743516445159912,
      "memory(GiB)": 73.83,
      "step": 93450,
      "token_acc": 0.9228295819935691,
      "train_speed(iter/s)": 1.458819
    },
    {
      "epoch": 4.003898718992331,
      "grad_norm": 5.5771918296813965,
      "learning_rate": 9.477278683838341e-06,
      "loss": 0.3277240514755249,
      "memory(GiB)": 73.83,
      "step": 93455,
      "token_acc": 0.9572953736654805,
      "train_speed(iter/s)": 1.458827
    },
    {
      "epoch": 4.00411293432158,
      "grad_norm": 3.3601415157318115,
      "learning_rate": 9.473336738463457e-06,
      "loss": 0.2802829027175903,
      "memory(GiB)": 73.83,
      "step": 93460,
      "token_acc": 0.9340659340659341,
      "train_speed(iter/s)": 1.458835
    },
    {
      "epoch": 4.004327149650829,
      "grad_norm": 6.004004955291748,
      "learning_rate": 9.469395527267089e-06,
      "loss": 0.2626879453659058,
      "memory(GiB)": 73.83,
      "step": 93465,
      "token_acc": 0.9419354838709677,
      "train_speed(iter/s)": 1.458838
    },
    {
      "epoch": 4.004541364980078,
      "grad_norm": 4.2246880531311035,
      "learning_rate": 9.46545505032066e-06,
      "loss": 0.2990840196609497,
      "memory(GiB)": 73.83,
      "step": 93470,
      "token_acc": 0.92578125,
      "train_speed(iter/s)": 1.458838
    },
    {
      "epoch": 4.004755580309327,
      "grad_norm": 10.853462219238281,
      "learning_rate": 9.46151530769554e-06,
      "loss": 0.49813504219055177,
      "memory(GiB)": 73.83,
      "step": 93475,
      "token_acc": 0.9055374592833876,
      "train_speed(iter/s)": 1.45884
    },
    {
      "epoch": 4.0049697956385755,
      "grad_norm": 2.1875975131988525,
      "learning_rate": 9.457576299463094e-06,
      "loss": 0.3097047805786133,
      "memory(GiB)": 73.83,
      "step": 93480,
      "token_acc": 0.9305555555555556,
      "train_speed(iter/s)": 1.458839
    },
    {
      "epoch": 4.005184010967825,
      "grad_norm": 3.589834690093994,
      "learning_rate": 9.45363802569469e-06,
      "loss": 0.2982046604156494,
      "memory(GiB)": 73.83,
      "step": 93485,
      "token_acc": 0.9425675675675675,
      "train_speed(iter/s)": 1.45884
    },
    {
      "epoch": 4.005398226297074,
      "grad_norm": 3.389155864715576,
      "learning_rate": 9.449700486461649e-06,
      "loss": 0.41328582763671873,
      "memory(GiB)": 73.83,
      "step": 93490,
      "token_acc": 0.9166666666666666,
      "train_speed(iter/s)": 1.45884
    },
    {
      "epoch": 4.005612441626322,
      "grad_norm": 0.4820370078086853,
      "learning_rate": 9.44576368183534e-06,
      "loss": 0.612665319442749,
      "memory(GiB)": 73.83,
      "step": 93495,
      "token_acc": 0.8683385579937304,
      "train_speed(iter/s)": 1.45885
    },
    {
      "epoch": 4.005826656955572,
      "grad_norm": 4.048168659210205,
      "learning_rate": 9.44182761188706e-06,
      "loss": 0.3150007247924805,
      "memory(GiB)": 73.83,
      "step": 93500,
      "token_acc": 0.9260700389105059,
      "train_speed(iter/s)": 1.458847
    },
    {
      "epoch": 4.005826656955572,
      "eval_loss": 2.2783761024475098,
      "eval_runtime": 12.0493,
      "eval_samples_per_second": 8.299,
      "eval_steps_per_second": 8.299,
      "eval_token_acc": 0.4879032258064516,
      "step": 93500
    },
    {
      "epoch": 4.006040872284821,
      "grad_norm": 3.5521578788757324,
      "learning_rate": 9.437892276688126e-06,
      "loss": 0.376718544960022,
      "memory(GiB)": 73.83,
      "step": 93505,
      "token_acc": 0.6218721037998146,
      "train_speed(iter/s)": 1.458555
    },
    {
      "epoch": 4.006255087614069,
      "grad_norm": 5.210806369781494,
      "learning_rate": 9.433957676309823e-06,
      "loss": 0.4067685604095459,
      "memory(GiB)": 73.83,
      "step": 93510,
      "token_acc": 0.9283154121863799,
      "train_speed(iter/s)": 1.458566
    },
    {
      "epoch": 4.0064693029433185,
      "grad_norm": 3.425699234008789,
      "learning_rate": 9.43002381082343e-06,
      "loss": 0.35170233249664307,
      "memory(GiB)": 73.83,
      "step": 93515,
      "token_acc": 0.9310344827586207,
      "train_speed(iter/s)": 1.458573
    },
    {
      "epoch": 4.006683518272568,
      "grad_norm": 4.446146488189697,
      "learning_rate": 9.426090680300197e-06,
      "loss": 0.5149882316589356,
      "memory(GiB)": 73.83,
      "step": 93520,
      "token_acc": 0.912751677852349,
      "train_speed(iter/s)": 1.458574
    },
    {
      "epoch": 4.006897733601816,
      "grad_norm": 2.739867687225342,
      "learning_rate": 9.422158284811406e-06,
      "loss": 0.33726844787597654,
      "memory(GiB)": 73.83,
      "step": 93525,
      "token_acc": 0.9368131868131868,
      "train_speed(iter/s)": 1.458573
    },
    {
      "epoch": 4.007111948931065,
      "grad_norm": 0.4762301743030548,
      "learning_rate": 9.41822662442829e-06,
      "loss": 0.20419113636016845,
      "memory(GiB)": 73.83,
      "step": 93530,
      "token_acc": 0.9471830985915493,
      "train_speed(iter/s)": 1.458586
    },
    {
      "epoch": 4.007326164260315,
      "grad_norm": 3.2680375576019287,
      "learning_rate": 9.414295699222048e-06,
      "loss": 0.3540801525115967,
      "memory(GiB)": 73.83,
      "step": 93535,
      "token_acc": 0.9052287581699346,
      "train_speed(iter/s)": 1.458586
    },
    {
      "epoch": 4.007540379589563,
      "grad_norm": 4.533607482910156,
      "learning_rate": 9.410365509263924e-06,
      "loss": 0.1103330373764038,
      "memory(GiB)": 73.83,
      "step": 93540,
      "token_acc": 0.9854014598540146,
      "train_speed(iter/s)": 1.458587
    },
    {
      "epoch": 4.007754594918812,
      "grad_norm": 3.8703627586364746,
      "learning_rate": 9.406436054625106e-06,
      "loss": 0.4382792949676514,
      "memory(GiB)": 73.83,
      "step": 93545,
      "token_acc": 0.9296875,
      "train_speed(iter/s)": 1.458598
    },
    {
      "epoch": 4.0079688102480615,
      "grad_norm": 2.679769515991211,
      "learning_rate": 9.40250733537677e-06,
      "loss": 0.4223890781402588,
      "memory(GiB)": 73.83,
      "step": 93550,
      "token_acc": 0.9172932330827067,
      "train_speed(iter/s)": 1.458613
    },
    {
      "epoch": 4.00818302557731,
      "grad_norm": 1.4475817680358887,
      "learning_rate": 9.398579351590103e-06,
      "loss": 0.3539857864379883,
      "memory(GiB)": 73.83,
      "step": 93555,
      "token_acc": 0.9055944055944056,
      "train_speed(iter/s)": 1.458615
    },
    {
      "epoch": 4.008397240906559,
      "grad_norm": 4.246394157409668,
      "learning_rate": 9.394652103336265e-06,
      "loss": 0.5706164360046386,
      "memory(GiB)": 73.83,
      "step": 93560,
      "token_acc": 0.8910891089108911,
      "train_speed(iter/s)": 1.458627
    },
    {
      "epoch": 4.008611456235808,
      "grad_norm": 3.9084489345550537,
      "learning_rate": 9.39072559068639e-06,
      "loss": 0.3348174810409546,
      "memory(GiB)": 73.83,
      "step": 93565,
      "token_acc": 0.9426229508196722,
      "train_speed(iter/s)": 1.458635
    },
    {
      "epoch": 4.008825671565057,
      "grad_norm": 4.397092819213867,
      "learning_rate": 9.386799813711617e-06,
      "loss": 0.541400146484375,
      "memory(GiB)": 73.83,
      "step": 93570,
      "token_acc": 0.9219330855018587,
      "train_speed(iter/s)": 1.458644
    },
    {
      "epoch": 4.009039886894306,
      "grad_norm": 2.6127676963806152,
      "learning_rate": 9.382874772483052e-06,
      "loss": 0.3688701391220093,
      "memory(GiB)": 73.83,
      "step": 93575,
      "token_acc": 0.910958904109589,
      "train_speed(iter/s)": 1.458649
    },
    {
      "epoch": 4.009254102223555,
      "grad_norm": 2.3174703121185303,
      "learning_rate": 9.378950467071829e-06,
      "loss": 0.2734518051147461,
      "memory(GiB)": 73.83,
      "step": 93580,
      "token_acc": 0.9337539432176656,
      "train_speed(iter/s)": 1.45865
    },
    {
      "epoch": 4.009468317552804,
      "grad_norm": 1.418569803237915,
      "learning_rate": 9.375026897549017e-06,
      "loss": 0.34462239742279055,
      "memory(GiB)": 73.83,
      "step": 93585,
      "token_acc": 0.9294478527607362,
      "train_speed(iter/s)": 1.458651
    },
    {
      "epoch": 4.009682532882053,
      "grad_norm": 3.0033833980560303,
      "learning_rate": 9.371104063985702e-06,
      "loss": 0.30479295253753663,
      "memory(GiB)": 73.83,
      "step": 93590,
      "token_acc": 0.9180327868852459,
      "train_speed(iter/s)": 1.458657
    },
    {
      "epoch": 4.009896748211302,
      "grad_norm": 3.3660402297973633,
      "learning_rate": 9.367181966452953e-06,
      "loss": 0.34887094497680665,
      "memory(GiB)": 73.83,
      "step": 93595,
      "token_acc": 0.9144981412639405,
      "train_speed(iter/s)": 1.458652
    },
    {
      "epoch": 4.0101109635405505,
      "grad_norm": 0.40253347158432007,
      "learning_rate": 9.363260605021824e-06,
      "loss": 0.26095645427703856,
      "memory(GiB)": 73.83,
      "step": 93600,
      "token_acc": 0.9433962264150944,
      "train_speed(iter/s)": 1.458656
    },
    {
      "epoch": 4.0103251788698,
      "grad_norm": 1.8917664289474487,
      "learning_rate": 9.359339979763326e-06,
      "loss": 0.4101395606994629,
      "memory(GiB)": 73.83,
      "step": 93605,
      "token_acc": 0.9178082191780822,
      "train_speed(iter/s)": 1.458663
    },
    {
      "epoch": 4.010539394199049,
      "grad_norm": 1.7363628149032593,
      "learning_rate": 9.355420090748518e-06,
      "loss": 0.1633205771446228,
      "memory(GiB)": 73.83,
      "step": 93610,
      "token_acc": 0.966542750929368,
      "train_speed(iter/s)": 1.458664
    },
    {
      "epoch": 4.010753609528297,
      "grad_norm": 2.600647449493408,
      "learning_rate": 9.351500938048408e-06,
      "loss": 0.4201503753662109,
      "memory(GiB)": 73.83,
      "step": 93615,
      "token_acc": 0.9082278481012658,
      "train_speed(iter/s)": 1.458674
    },
    {
      "epoch": 4.010967824857547,
      "grad_norm": 2.679264545440674,
      "learning_rate": 9.347582521733994e-06,
      "loss": 0.23682219982147218,
      "memory(GiB)": 73.83,
      "step": 93620,
      "token_acc": 0.9545454545454546,
      "train_speed(iter/s)": 1.458675
    },
    {
      "epoch": 4.011182040186796,
      "grad_norm": 2.947183132171631,
      "learning_rate": 9.34366484187626e-06,
      "loss": 0.3066393852233887,
      "memory(GiB)": 73.83,
      "step": 93625,
      "token_acc": 0.9310344827586207,
      "train_speed(iter/s)": 1.458681
    },
    {
      "epoch": 4.011396255516045,
      "grad_norm": 3.586968183517456,
      "learning_rate": 9.339747898546169e-06,
      "loss": 0.2517491340637207,
      "memory(GiB)": 73.83,
      "step": 93630,
      "token_acc": 0.9517684887459807,
      "train_speed(iter/s)": 1.458676
    },
    {
      "epoch": 4.0116104708452935,
      "grad_norm": 1.5459405183792114,
      "learning_rate": 9.335831691814684e-06,
      "loss": 0.23121790885925292,
      "memory(GiB)": 73.83,
      "step": 93635,
      "token_acc": 0.9550898203592815,
      "train_speed(iter/s)": 1.458681
    },
    {
      "epoch": 4.011824686174543,
      "grad_norm": 2.1160244941711426,
      "learning_rate": 9.331916221752756e-06,
      "loss": 0.21334149837493896,
      "memory(GiB)": 73.83,
      "step": 93640,
      "token_acc": 0.9438596491228071,
      "train_speed(iter/s)": 1.458683
    },
    {
      "epoch": 4.012038901503792,
      "grad_norm": 3.4494283199310303,
      "learning_rate": 9.328001488431326e-06,
      "loss": 0.36775186061859133,
      "memory(GiB)": 73.83,
      "step": 93645,
      "token_acc": 0.9291338582677166,
      "train_speed(iter/s)": 1.458681
    },
    {
      "epoch": 4.01225311683304,
      "grad_norm": 4.273740768432617,
      "learning_rate": 9.324087491921296e-06,
      "loss": 0.47138171195983886,
      "memory(GiB)": 73.83,
      "step": 93650,
      "token_acc": 0.9070422535211268,
      "train_speed(iter/s)": 1.458687
    },
    {
      "epoch": 4.01246733216229,
      "grad_norm": 2.144360065460205,
      "learning_rate": 9.320174232293576e-06,
      "loss": 0.2099216938018799,
      "memory(GiB)": 73.83,
      "step": 93655,
      "token_acc": 0.9504132231404959,
      "train_speed(iter/s)": 1.458692
    },
    {
      "epoch": 4.012681547491539,
      "grad_norm": 2.0558924674987793,
      "learning_rate": 9.316261709619068e-06,
      "loss": 0.3360844612121582,
      "memory(GiB)": 73.83,
      "step": 93660,
      "token_acc": 0.9227799227799228,
      "train_speed(iter/s)": 1.458703
    },
    {
      "epoch": 4.012895762820787,
      "grad_norm": 4.390480995178223,
      "learning_rate": 9.312349923968628e-06,
      "loss": 0.34025580883026124,
      "memory(GiB)": 73.83,
      "step": 93665,
      "token_acc": 0.9267515923566879,
      "train_speed(iter/s)": 1.458709
    },
    {
      "epoch": 4.013109978150037,
      "grad_norm": 0.14915616810321808,
      "learning_rate": 9.308438875413145e-06,
      "loss": 0.2920227527618408,
      "memory(GiB)": 73.83,
      "step": 93670,
      "token_acc": 0.934640522875817,
      "train_speed(iter/s)": 1.45871
    },
    {
      "epoch": 4.013324193479286,
      "grad_norm": 2.4761803150177,
      "learning_rate": 9.304528564023468e-06,
      "loss": 0.17565653324127198,
      "memory(GiB)": 73.83,
      "step": 93675,
      "token_acc": 0.9630996309963099,
      "train_speed(iter/s)": 1.458708
    },
    {
      "epoch": 4.013538408808534,
      "grad_norm": 1.5071589946746826,
      "learning_rate": 9.30061898987043e-06,
      "loss": 0.40970163345336913,
      "memory(GiB)": 73.83,
      "step": 93680,
      "token_acc": 0.9138461538461539,
      "train_speed(iter/s)": 1.458721
    },
    {
      "epoch": 4.013752624137783,
      "grad_norm": 2.7098588943481445,
      "learning_rate": 9.296710153024846e-06,
      "loss": 0.3602594375610352,
      "memory(GiB)": 73.83,
      "step": 93685,
      "token_acc": 0.9230769230769231,
      "train_speed(iter/s)": 1.458732
    },
    {
      "epoch": 4.013966839467033,
      "grad_norm": 2.4198267459869385,
      "learning_rate": 9.292802053557553e-06,
      "loss": 0.3577301502227783,
      "memory(GiB)": 73.83,
      "step": 93690,
      "token_acc": 0.9173228346456693,
      "train_speed(iter/s)": 1.458733
    },
    {
      "epoch": 4.014181054796281,
      "grad_norm": 5.253167629241943,
      "learning_rate": 9.288894691539323e-06,
      "loss": 0.47867870330810547,
      "memory(GiB)": 73.83,
      "step": 93695,
      "token_acc": 0.9012345679012346,
      "train_speed(iter/s)": 1.45874
    },
    {
      "epoch": 4.01439527012553,
      "grad_norm": 2.291123628616333,
      "learning_rate": 9.284988067040973e-06,
      "loss": 0.2149869203567505,
      "memory(GiB)": 73.83,
      "step": 93700,
      "token_acc": 0.9462025316455697,
      "train_speed(iter/s)": 1.458744
    },
    {
      "epoch": 4.01460948545478,
      "grad_norm": 1.982826828956604,
      "learning_rate": 9.281082180133254e-06,
      "loss": 0.17784380912780762,
      "memory(GiB)": 73.83,
      "step": 93705,
      "token_acc": 0.9634146341463414,
      "train_speed(iter/s)": 1.458743
    },
    {
      "epoch": 4.014823700784028,
      "grad_norm": 1.4393064975738525,
      "learning_rate": 9.27717703088693e-06,
      "loss": 0.4407931327819824,
      "memory(GiB)": 73.83,
      "step": 93710,
      "token_acc": 0.9125,
      "train_speed(iter/s)": 1.458745
    },
    {
      "epoch": 4.015037916113277,
      "grad_norm": 5.081395626068115,
      "learning_rate": 9.273272619372748e-06,
      "loss": 0.5993137359619141,
      "memory(GiB)": 73.83,
      "step": 93715,
      "token_acc": 0.8456591639871383,
      "train_speed(iter/s)": 1.458753
    },
    {
      "epoch": 4.0152521314425265,
      "grad_norm": 1.9459296464920044,
      "learning_rate": 9.269368945661422e-06,
      "loss": 0.34437873363494875,
      "memory(GiB)": 73.83,
      "step": 93720,
      "token_acc": 0.9124579124579124,
      "train_speed(iter/s)": 1.458768
    },
    {
      "epoch": 4.015466346771775,
      "grad_norm": 5.398425102233887,
      "learning_rate": 9.265466009823698e-06,
      "loss": 0.647445821762085,
      "memory(GiB)": 73.83,
      "step": 93725,
      "token_acc": 0.8713235294117647,
      "train_speed(iter/s)": 1.458779
    },
    {
      "epoch": 4.015680562101024,
      "grad_norm": 2.0753884315490723,
      "learning_rate": 9.261563811930269e-06,
      "loss": 0.1722138524055481,
      "memory(GiB)": 73.83,
      "step": 93730,
      "token_acc": 0.9641693811074918,
      "train_speed(iter/s)": 1.458781
    },
    {
      "epoch": 4.015894777430273,
      "grad_norm": 10.17336654663086,
      "learning_rate": 9.257662352051827e-06,
      "loss": 0.6999724864959717,
      "memory(GiB)": 73.83,
      "step": 93735,
      "token_acc": 0.8659420289855072,
      "train_speed(iter/s)": 1.458787
    },
    {
      "epoch": 4.016108992759522,
      "grad_norm": 1.6832313537597656,
      "learning_rate": 9.25376163025905e-06,
      "loss": 0.2635433912277222,
      "memory(GiB)": 73.83,
      "step": 93740,
      "token_acc": 0.9398280802292264,
      "train_speed(iter/s)": 1.458792
    },
    {
      "epoch": 4.016323208088771,
      "grad_norm": 2.9630467891693115,
      "learning_rate": 9.24986164662261e-06,
      "loss": 0.18351426124572753,
      "memory(GiB)": 73.83,
      "step": 93745,
      "token_acc": 0.9568965517241379,
      "train_speed(iter/s)": 1.458794
    },
    {
      "epoch": 4.01653742341802,
      "grad_norm": 1.9704985618591309,
      "learning_rate": 9.245962401213132e-06,
      "loss": 0.18205126523971557,
      "memory(GiB)": 73.83,
      "step": 93750,
      "token_acc": 0.9652509652509652,
      "train_speed(iter/s)": 1.458795
    },
    {
      "epoch": 4.016751638747269,
      "grad_norm": 4.193221092224121,
      "learning_rate": 9.242063894101294e-06,
      "loss": 0.5133508682250977,
      "memory(GiB)": 73.83,
      "step": 93755,
      "token_acc": 0.9137380191693291,
      "train_speed(iter/s)": 1.458797
    },
    {
      "epoch": 4.016965854076518,
      "grad_norm": 1.171485424041748,
      "learning_rate": 9.238166125357689e-06,
      "loss": 0.20653038024902343,
      "memory(GiB)": 73.83,
      "step": 93760,
      "token_acc": 0.9579579579579579,
      "train_speed(iter/s)": 1.458799
    },
    {
      "epoch": 4.017180069405767,
      "grad_norm": 4.719894886016846,
      "learning_rate": 9.234269095052956e-06,
      "loss": 0.7073173522949219,
      "memory(GiB)": 73.83,
      "step": 93765,
      "token_acc": 0.8503401360544217,
      "train_speed(iter/s)": 1.458799
    },
    {
      "epoch": 4.0173942847350155,
      "grad_norm": 0.11948703974485397,
      "learning_rate": 9.230372803257675e-06,
      "loss": 0.18896018266677855,
      "memory(GiB)": 73.83,
      "step": 93770,
      "token_acc": 0.9572953736654805,
      "train_speed(iter/s)": 1.458804
    },
    {
      "epoch": 4.017608500064265,
      "grad_norm": 5.759969234466553,
      "learning_rate": 9.226477250042443e-06,
      "loss": 0.5369710922241211,
      "memory(GiB)": 73.83,
      "step": 93775,
      "token_acc": 0.9063545150501672,
      "train_speed(iter/s)": 1.458809
    },
    {
      "epoch": 4.017822715393514,
      "grad_norm": 1.9720990657806396,
      "learning_rate": 9.222582435477805e-06,
      "loss": 0.3201334476470947,
      "memory(GiB)": 73.83,
      "step": 93780,
      "token_acc": 0.9226190476190477,
      "train_speed(iter/s)": 1.458814
    },
    {
      "epoch": 4.018036930722762,
      "grad_norm": 4.847124099731445,
      "learning_rate": 9.218688359634352e-06,
      "loss": 0.6200182914733887,
      "memory(GiB)": 73.83,
      "step": 93785,
      "token_acc": 0.8587786259541985,
      "train_speed(iter/s)": 1.458817
    },
    {
      "epoch": 4.018251146052012,
      "grad_norm": 1.554137945175171,
      "learning_rate": 9.214795022582617e-06,
      "loss": 0.1670989513397217,
      "memory(GiB)": 73.83,
      "step": 93790,
      "token_acc": 0.946843853820598,
      "train_speed(iter/s)": 1.45882
    },
    {
      "epoch": 4.018465361381261,
      "grad_norm": 10.671019554138184,
      "learning_rate": 9.210902424393131e-06,
      "loss": 0.55215425491333,
      "memory(GiB)": 73.83,
      "step": 93795,
      "token_acc": 0.8676470588235294,
      "train_speed(iter/s)": 1.458815
    },
    {
      "epoch": 4.018679576710509,
      "grad_norm": 5.8683390617370605,
      "learning_rate": 9.207010565136409e-06,
      "loss": 0.3129847049713135,
      "memory(GiB)": 73.83,
      "step": 93800,
      "token_acc": 0.9254901960784314,
      "train_speed(iter/s)": 1.458824
    },
    {
      "epoch": 4.0188937920397585,
      "grad_norm": 2.287123441696167,
      "learning_rate": 9.203119444882958e-06,
      "loss": 0.3820496559143066,
      "memory(GiB)": 73.83,
      "step": 93805,
      "token_acc": 0.9221311475409836,
      "train_speed(iter/s)": 1.458829
    },
    {
      "epoch": 4.019108007369008,
      "grad_norm": 3.470235586166382,
      "learning_rate": 9.199229063703257e-06,
      "loss": 0.32242627143859864,
      "memory(GiB)": 73.83,
      "step": 93810,
      "token_acc": 0.9300699300699301,
      "train_speed(iter/s)": 1.45883
    },
    {
      "epoch": 4.019322222698256,
      "grad_norm": 2.97017240524292,
      "learning_rate": 9.195339421667804e-06,
      "loss": 0.3659482479095459,
      "memory(GiB)": 73.83,
      "step": 93815,
      "token_acc": 0.9337349397590361,
      "train_speed(iter/s)": 1.458833
    },
    {
      "epoch": 4.019536438027505,
      "grad_norm": 1.530998945236206,
      "learning_rate": 9.191450518847062e-06,
      "loss": 0.2826169490814209,
      "memory(GiB)": 73.83,
      "step": 93820,
      "token_acc": 0.9512195121951219,
      "train_speed(iter/s)": 1.458833
    },
    {
      "epoch": 4.019750653356755,
      "grad_norm": 3.6302616596221924,
      "learning_rate": 9.187562355311469e-06,
      "loss": 0.3090542793273926,
      "memory(GiB)": 73.83,
      "step": 93825,
      "token_acc": 0.9075342465753424,
      "train_speed(iter/s)": 1.458835
    },
    {
      "epoch": 4.019964868686003,
      "grad_norm": 3.2926125526428223,
      "learning_rate": 9.183674931131464e-06,
      "loss": 0.42302913665771485,
      "memory(GiB)": 73.83,
      "step": 93830,
      "token_acc": 0.9246031746031746,
      "train_speed(iter/s)": 1.458843
    },
    {
      "epoch": 4.020179084015252,
      "grad_norm": 2.2265803813934326,
      "learning_rate": 9.17978824637748e-06,
      "loss": 0.39337456226348877,
      "memory(GiB)": 73.83,
      "step": 93835,
      "token_acc": 0.9188191881918819,
      "train_speed(iter/s)": 1.458849
    },
    {
      "epoch": 4.0203932993445015,
      "grad_norm": 3.2284281253814697,
      "learning_rate": 9.175902301119922e-06,
      "loss": 0.43983283042907717,
      "memory(GiB)": 73.83,
      "step": 93840,
      "token_acc": 0.9012345679012346,
      "train_speed(iter/s)": 1.45886
    },
    {
      "epoch": 4.02060751467375,
      "grad_norm": 0.2257789820432663,
      "learning_rate": 9.172017095429191e-06,
      "loss": 0.2482088565826416,
      "memory(GiB)": 73.83,
      "step": 93845,
      "token_acc": 0.9510204081632653,
      "train_speed(iter/s)": 1.458865
    },
    {
      "epoch": 4.020821730002999,
      "grad_norm": 1.510593295097351,
      "learning_rate": 9.16813262937568e-06,
      "loss": 0.4217970371246338,
      "memory(GiB)": 73.83,
      "step": 93850,
      "token_acc": 0.9186746987951807,
      "train_speed(iter/s)": 1.458869
    },
    {
      "epoch": 4.021035945332248,
      "grad_norm": 0.49009743332862854,
      "learning_rate": 9.164248903029742e-06,
      "loss": 0.38755571842193604,
      "memory(GiB)": 73.83,
      "step": 93855,
      "token_acc": 0.9085365853658537,
      "train_speed(iter/s)": 1.458881
    },
    {
      "epoch": 4.021250160661497,
      "grad_norm": 3.8158884048461914,
      "learning_rate": 9.16036591646175e-06,
      "loss": 0.3686375617980957,
      "memory(GiB)": 73.83,
      "step": 93860,
      "token_acc": 0.9149797570850202,
      "train_speed(iter/s)": 1.458901
    },
    {
      "epoch": 4.021464375990746,
      "grad_norm": 0.7451112270355225,
      "learning_rate": 9.156483669742022e-06,
      "loss": 0.30981709957122805,
      "memory(GiB)": 73.83,
      "step": 93865,
      "token_acc": 0.9391891891891891,
      "train_speed(iter/s)": 1.4589
    },
    {
      "epoch": 4.021678591319995,
      "grad_norm": 2.7416231632232666,
      "learning_rate": 9.152602162940921e-06,
      "loss": 0.21076323986053466,
      "memory(GiB)": 73.83,
      "step": 93870,
      "token_acc": 0.9496402877697842,
      "train_speed(iter/s)": 1.458903
    },
    {
      "epoch": 4.021892806649244,
      "grad_norm": 3.619824171066284,
      "learning_rate": 9.148721396128751e-06,
      "loss": 0.5106104850769043,
      "memory(GiB)": 73.83,
      "step": 93875,
      "token_acc": 0.8897338403041825,
      "train_speed(iter/s)": 1.458909
    },
    {
      "epoch": 4.022107021978493,
      "grad_norm": 1.1775803565979004,
      "learning_rate": 9.144841369375811e-06,
      "loss": 0.12093185186386109,
      "memory(GiB)": 73.83,
      "step": 93880,
      "token_acc": 0.9619883040935673,
      "train_speed(iter/s)": 1.458908
    },
    {
      "epoch": 4.022321237307742,
      "grad_norm": 2.2953622341156006,
      "learning_rate": 9.140962082752397e-06,
      "loss": 0.14148982763290405,
      "memory(GiB)": 73.83,
      "step": 93885,
      "token_acc": 0.969811320754717,
      "train_speed(iter/s)": 1.45891
    },
    {
      "epoch": 4.0225354526369905,
      "grad_norm": 3.8488662242889404,
      "learning_rate": 9.137083536328783e-06,
      "loss": 0.3508529901504517,
      "memory(GiB)": 73.83,
      "step": 93890,
      "token_acc": 0.9310344827586207,
      "train_speed(iter/s)": 1.45891
    },
    {
      "epoch": 4.02274966796624,
      "grad_norm": 2.8734140396118164,
      "learning_rate": 9.133205730175221e-06,
      "loss": 0.18443963527679444,
      "memory(GiB)": 73.83,
      "step": 93895,
      "token_acc": 0.9522058823529411,
      "train_speed(iter/s)": 1.458913
    },
    {
      "epoch": 4.022963883295489,
      "grad_norm": 2.8390345573425293,
      "learning_rate": 9.129328664361985e-06,
      "loss": 0.43355398178100585,
      "memory(GiB)": 73.83,
      "step": 93900,
      "token_acc": 0.916083916083916,
      "train_speed(iter/s)": 1.458915
    },
    {
      "epoch": 4.023178098624737,
      "grad_norm": 3.719041109085083,
      "learning_rate": 9.12545233895929e-06,
      "loss": 0.19454102516174315,
      "memory(GiB)": 73.83,
      "step": 93905,
      "token_acc": 0.9492753623188406,
      "train_speed(iter/s)": 1.458926
    },
    {
      "epoch": 4.023392313953987,
      "grad_norm": 6.7378692626953125,
      "learning_rate": 9.121576754037381e-06,
      "loss": 0.39220528602600097,
      "memory(GiB)": 73.83,
      "step": 93910,
      "token_acc": 0.9372384937238494,
      "train_speed(iter/s)": 1.45893
    },
    {
      "epoch": 4.023606529283236,
      "grad_norm": 5.406418800354004,
      "learning_rate": 9.117701909666453e-06,
      "loss": 0.7567895412445068,
      "memory(GiB)": 73.83,
      "step": 93915,
      "token_acc": 0.8589341692789969,
      "train_speed(iter/s)": 1.458932
    },
    {
      "epoch": 4.023820744612484,
      "grad_norm": 4.908551216125488,
      "learning_rate": 9.113827805916714e-06,
      "loss": 0.3342757225036621,
      "memory(GiB)": 73.83,
      "step": 93920,
      "token_acc": 0.9238410596026491,
      "train_speed(iter/s)": 1.458934
    },
    {
      "epoch": 4.0240349599417335,
      "grad_norm": 2.09194016456604,
      "learning_rate": 9.109954442858315e-06,
      "loss": 0.22366511821746826,
      "memory(GiB)": 73.83,
      "step": 93925,
      "token_acc": 0.952054794520548,
      "train_speed(iter/s)": 1.458937
    },
    {
      "epoch": 4.024249175270983,
      "grad_norm": 0.8858455419540405,
      "learning_rate": 9.106081820561469e-06,
      "loss": 0.23601288795471193,
      "memory(GiB)": 73.83,
      "step": 93930,
      "token_acc": 0.9483870967741935,
      "train_speed(iter/s)": 1.458938
    },
    {
      "epoch": 4.024463390600231,
      "grad_norm": 2.1370344161987305,
      "learning_rate": 9.102209939096311e-06,
      "loss": 0.3294321060180664,
      "memory(GiB)": 73.83,
      "step": 93935,
      "token_acc": 0.913312693498452,
      "train_speed(iter/s)": 1.458942
    },
    {
      "epoch": 4.02467760592948,
      "grad_norm": 4.513490676879883,
      "learning_rate": 9.098338798532985e-06,
      "loss": 0.6548812389373779,
      "memory(GiB)": 73.83,
      "step": 93940,
      "token_acc": 0.857707509881423,
      "train_speed(iter/s)": 1.458956
    },
    {
      "epoch": 4.02489182125873,
      "grad_norm": 2.5564026832580566,
      "learning_rate": 9.094468398941618e-06,
      "loss": 0.27661316394805907,
      "memory(GiB)": 73.83,
      "step": 93945,
      "token_acc": 0.9319526627218935,
      "train_speed(iter/s)": 1.45896
    },
    {
      "epoch": 4.025106036587978,
      "grad_norm": 6.314724445343018,
      "learning_rate": 9.090598740392331e-06,
      "loss": 0.3194943189620972,
      "memory(GiB)": 73.83,
      "step": 93950,
      "token_acc": 0.9250814332247557,
      "train_speed(iter/s)": 1.458963
    },
    {
      "epoch": 4.025320251917227,
      "grad_norm": 1.9995371103286743,
      "learning_rate": 9.086729822955214e-06,
      "loss": 0.3777758598327637,
      "memory(GiB)": 73.83,
      "step": 93955,
      "token_acc": 0.916955017301038,
      "train_speed(iter/s)": 1.458978
    },
    {
      "epoch": 4.025534467246477,
      "grad_norm": 3.9305455684661865,
      "learning_rate": 9.082861646700374e-06,
      "loss": 0.3221175193786621,
      "memory(GiB)": 73.83,
      "step": 93960,
      "token_acc": 0.9253246753246753,
      "train_speed(iter/s)": 1.458975
    },
    {
      "epoch": 4.025748682575725,
      "grad_norm": 0.9986673593521118,
      "learning_rate": 9.078994211697883e-06,
      "loss": 0.2506579399108887,
      "memory(GiB)": 73.83,
      "step": 93965,
      "token_acc": 0.9480122324159022,
      "train_speed(iter/s)": 1.458978
    },
    {
      "epoch": 4.025962897904974,
      "grad_norm": 3.3245816230773926,
      "learning_rate": 9.075127518017796e-06,
      "loss": 0.30237200260162356,
      "memory(GiB)": 73.83,
      "step": 93970,
      "token_acc": 0.9393939393939394,
      "train_speed(iter/s)": 1.45898
    },
    {
      "epoch": 4.0261771132342234,
      "grad_norm": 2.2480571269989014,
      "learning_rate": 9.07126156573016e-06,
      "loss": 0.225325345993042,
      "memory(GiB)": 73.83,
      "step": 93975,
      "token_acc": 0.9633333333333334,
      "train_speed(iter/s)": 1.458994
    },
    {
      "epoch": 4.026391328563472,
      "grad_norm": 3.4584572315216064,
      "learning_rate": 9.06739635490501e-06,
      "loss": 0.2691656589508057,
      "memory(GiB)": 73.83,
      "step": 93980,
      "token_acc": 0.932475884244373,
      "train_speed(iter/s)": 1.458998
    },
    {
      "epoch": 4.026605543892721,
      "grad_norm": 2.620944023132324,
      "learning_rate": 9.06353188561237e-06,
      "loss": 0.3555187702178955,
      "memory(GiB)": 73.83,
      "step": 93985,
      "token_acc": 0.9136212624584718,
      "train_speed(iter/s)": 1.459017
    },
    {
      "epoch": 4.02681975922197,
      "grad_norm": 4.272947788238525,
      "learning_rate": 9.059668157922262e-06,
      "loss": 0.5021571636199951,
      "memory(GiB)": 73.83,
      "step": 93990,
      "token_acc": 0.8883928571428571,
      "train_speed(iter/s)": 1.459019
    },
    {
      "epoch": 4.027033974551219,
      "grad_norm": 2.8513028621673584,
      "learning_rate": 9.055805171904674e-06,
      "loss": 0.17015581130981444,
      "memory(GiB)": 73.83,
      "step": 93995,
      "token_acc": 0.9562289562289562,
      "train_speed(iter/s)": 1.459033
    },
    {
      "epoch": 4.027248189880468,
      "grad_norm": 1.3602616786956787,
      "learning_rate": 9.051942927629586e-06,
      "loss": 0.4189635753631592,
      "memory(GiB)": 73.83,
      "step": 94000,
      "token_acc": 0.9102990033222591,
      "train_speed(iter/s)": 1.459043
    },
    {
      "epoch": 4.027248189880468,
      "eval_loss": 2.4830918312072754,
      "eval_runtime": 11.9482,
      "eval_samples_per_second": 8.369,
      "eval_steps_per_second": 8.369,
      "eval_token_acc": 0.45535714285714285,
      "step": 94000
    },
    {
      "epoch": 4.027462405209717,
      "grad_norm": 2.3647851943969727,
      "learning_rate": 9.04808142516696e-06,
      "loss": 0.2789682149887085,
      "memory(GiB)": 73.83,
      "step": 94005,
      "token_acc": 0.5843429636533085,
      "train_speed(iter/s)": 1.458753
    },
    {
      "epoch": 4.027676620538966,
      "grad_norm": 1.6201688051223755,
      "learning_rate": 9.044220664586745e-06,
      "loss": 0.17028721570968627,
      "memory(GiB)": 73.83,
      "step": 94010,
      "token_acc": 0.9625850340136054,
      "train_speed(iter/s)": 1.458761
    },
    {
      "epoch": 4.027890835868215,
      "grad_norm": 2.2632064819335938,
      "learning_rate": 9.0403606459589e-06,
      "loss": 0.3291167259216309,
      "memory(GiB)": 73.83,
      "step": 94015,
      "token_acc": 0.9399293286219081,
      "train_speed(iter/s)": 1.458764
    },
    {
      "epoch": 4.028105051197464,
      "grad_norm": 5.059566974639893,
      "learning_rate": 9.03650136935335e-06,
      "loss": 0.45277252197265627,
      "memory(GiB)": 73.83,
      "step": 94020,
      "token_acc": 0.9035369774919614,
      "train_speed(iter/s)": 1.458766
    },
    {
      "epoch": 4.0283192665267125,
      "grad_norm": 2.1205737590789795,
      "learning_rate": 9.03264283484e-06,
      "loss": 0.25932950973510743,
      "memory(GiB)": 73.83,
      "step": 94025,
      "token_acc": 0.931740614334471,
      "train_speed(iter/s)": 1.458767
    },
    {
      "epoch": 4.028533481855962,
      "grad_norm": 3.0614559650421143,
      "learning_rate": 9.028785042488758e-06,
      "loss": 0.3686488628387451,
      "memory(GiB)": 73.83,
      "step": 94030,
      "token_acc": 0.91701244813278,
      "train_speed(iter/s)": 1.458766
    },
    {
      "epoch": 4.028747697185211,
      "grad_norm": 3.9212300777435303,
      "learning_rate": 9.024927992369514e-06,
      "loss": 0.2776022911071777,
      "memory(GiB)": 73.83,
      "step": 94035,
      "token_acc": 0.9330708661417323,
      "train_speed(iter/s)": 1.458776
    },
    {
      "epoch": 4.028961912514459,
      "grad_norm": 6.155084133148193,
      "learning_rate": 9.021071684552117e-06,
      "loss": 0.45780210494995116,
      "memory(GiB)": 73.83,
      "step": 94040,
      "token_acc": 0.9071428571428571,
      "train_speed(iter/s)": 1.458778
    },
    {
      "epoch": 4.029176127843709,
      "grad_norm": 3.8857874870300293,
      "learning_rate": 9.017216119106464e-06,
      "loss": 0.3071354866027832,
      "memory(GiB)": 73.83,
      "step": 94045,
      "token_acc": 0.9299363057324841,
      "train_speed(iter/s)": 1.458777
    },
    {
      "epoch": 4.029390343172958,
      "grad_norm": 4.754788398742676,
      "learning_rate": 9.013361296102385e-06,
      "loss": 0.6797051429748535,
      "memory(GiB)": 73.83,
      "step": 94050,
      "token_acc": 0.870253164556962,
      "train_speed(iter/s)": 1.458789
    },
    {
      "epoch": 4.029604558502206,
      "grad_norm": 2.345161199569702,
      "learning_rate": 9.009507215609702e-06,
      "loss": 0.28306915760040285,
      "memory(GiB)": 73.83,
      "step": 94055,
      "token_acc": 0.9356913183279743,
      "train_speed(iter/s)": 1.458789
    },
    {
      "epoch": 4.0298187738314555,
      "grad_norm": 0.2944100797176361,
      "learning_rate": 9.005653877698261e-06,
      "loss": 0.4675439357757568,
      "memory(GiB)": 73.83,
      "step": 94060,
      "token_acc": 0.8989547038327527,
      "train_speed(iter/s)": 1.458796
    },
    {
      "epoch": 4.030032989160705,
      "grad_norm": 1.9697754383087158,
      "learning_rate": 9.001801282437854e-06,
      "loss": 0.328992223739624,
      "memory(GiB)": 73.83,
      "step": 94065,
      "token_acc": 0.9148936170212766,
      "train_speed(iter/s)": 1.45881
    },
    {
      "epoch": 4.030247204489953,
      "grad_norm": 2.6892964839935303,
      "learning_rate": 8.997949429898267e-06,
      "loss": 0.2343555212020874,
      "memory(GiB)": 73.83,
      "step": 94070,
      "token_acc": 0.9330985915492958,
      "train_speed(iter/s)": 1.458817
    },
    {
      "epoch": 4.030461419819202,
      "grad_norm": 2.7413313388824463,
      "learning_rate": 8.994098320149303e-06,
      "loss": 0.2260861873626709,
      "memory(GiB)": 73.83,
      "step": 94075,
      "token_acc": 0.9488054607508533,
      "train_speed(iter/s)": 1.45882
    },
    {
      "epoch": 4.030675635148452,
      "grad_norm": 1.7590839862823486,
      "learning_rate": 8.99024795326071e-06,
      "loss": 0.16048816442489625,
      "memory(GiB)": 73.83,
      "step": 94080,
      "token_acc": 0.952054794520548,
      "train_speed(iter/s)": 1.458818
    },
    {
      "epoch": 4.0308898504777,
      "grad_norm": 6.902778148651123,
      "learning_rate": 8.986398329302248e-06,
      "loss": 0.28037495613098146,
      "memory(GiB)": 73.83,
      "step": 94085,
      "token_acc": 0.9420849420849421,
      "train_speed(iter/s)": 1.458818
    },
    {
      "epoch": 4.031104065806949,
      "grad_norm": 1.5175105333328247,
      "learning_rate": 8.982549448343653e-06,
      "loss": 0.1729580283164978,
      "memory(GiB)": 73.83,
      "step": 94090,
      "token_acc": 0.9568627450980393,
      "train_speed(iter/s)": 1.458821
    },
    {
      "epoch": 4.0313182811361985,
      "grad_norm": 5.042522430419922,
      "learning_rate": 8.978701310454652e-06,
      "loss": 0.6236751556396485,
      "memory(GiB)": 73.83,
      "step": 94095,
      "token_acc": 0.88268156424581,
      "train_speed(iter/s)": 1.458832
    },
    {
      "epoch": 4.031532496465447,
      "grad_norm": 1.0283516645431519,
      "learning_rate": 8.974853915704945e-06,
      "loss": 0.4614863395690918,
      "memory(GiB)": 73.83,
      "step": 94100,
      "token_acc": 0.8861111111111111,
      "train_speed(iter/s)": 1.458839
    },
    {
      "epoch": 4.031746711794696,
      "grad_norm": 1.1713731288909912,
      "learning_rate": 8.97100726416426e-06,
      "loss": 0.3100429058074951,
      "memory(GiB)": 73.83,
      "step": 94105,
      "token_acc": 0.9370629370629371,
      "train_speed(iter/s)": 1.458835
    },
    {
      "epoch": 4.031960927123945,
      "grad_norm": 0.3815225660800934,
      "learning_rate": 8.967161355902265e-06,
      "loss": 0.6341402530670166,
      "memory(GiB)": 73.83,
      "step": 94110,
      "token_acc": 0.8640483383685801,
      "train_speed(iter/s)": 1.458844
    },
    {
      "epoch": 4.032175142453194,
      "grad_norm": 1.5039565563201904,
      "learning_rate": 8.96331619098863e-06,
      "loss": 0.35896193981170654,
      "memory(GiB)": 73.83,
      "step": 94115,
      "token_acc": 0.9383561643835616,
      "train_speed(iter/s)": 1.458847
    },
    {
      "epoch": 4.032389357782443,
      "grad_norm": 4.125894069671631,
      "learning_rate": 8.959471769493022e-06,
      "loss": 0.17508904933929442,
      "memory(GiB)": 73.83,
      "step": 94120,
      "token_acc": 0.9612903225806452,
      "train_speed(iter/s)": 1.458852
    },
    {
      "epoch": 4.032603573111692,
      "grad_norm": 1.9931126832962036,
      "learning_rate": 8.955628091485068e-06,
      "loss": 0.0871682345867157,
      "memory(GiB)": 73.83,
      "step": 94125,
      "token_acc": 0.9863760217983651,
      "train_speed(iter/s)": 1.458851
    },
    {
      "epoch": 4.032817788440941,
      "grad_norm": 4.187533855438232,
      "learning_rate": 8.951785157034415e-06,
      "loss": 0.2639153480529785,
      "memory(GiB)": 73.83,
      "step": 94130,
      "token_acc": 0.9460431654676259,
      "train_speed(iter/s)": 1.45885
    },
    {
      "epoch": 4.03303200377019,
      "grad_norm": 2.202911138534546,
      "learning_rate": 8.947942966210692e-06,
      "loss": 0.3052999496459961,
      "memory(GiB)": 73.83,
      "step": 94135,
      "token_acc": 0.924901185770751,
      "train_speed(iter/s)": 1.458851
    },
    {
      "epoch": 4.033246219099439,
      "grad_norm": 1.3217809200286865,
      "learning_rate": 8.944101519083492e-06,
      "loss": 0.2902100086212158,
      "memory(GiB)": 73.83,
      "step": 94140,
      "token_acc": 0.9471947194719472,
      "train_speed(iter/s)": 1.458852
    },
    {
      "epoch": 4.0334604344286875,
      "grad_norm": 3.5471267700195312,
      "learning_rate": 8.940260815722407e-06,
      "loss": 0.26657638549804685,
      "memory(GiB)": 73.83,
      "step": 94145,
      "token_acc": 0.9671052631578947,
      "train_speed(iter/s)": 1.458867
    },
    {
      "epoch": 4.033674649757937,
      "grad_norm": 0.22471259534358978,
      "learning_rate": 8.936420856197015e-06,
      "loss": 0.33357398509979247,
      "memory(GiB)": 73.83,
      "step": 94150,
      "token_acc": 0.9315068493150684,
      "train_speed(iter/s)": 1.458867
    },
    {
      "epoch": 4.033888865087186,
      "grad_norm": 2.0673882961273193,
      "learning_rate": 8.932581640576865e-06,
      "loss": 0.2528877258300781,
      "memory(GiB)": 73.83,
      "step": 94155,
      "token_acc": 0.963855421686747,
      "train_speed(iter/s)": 1.458868
    },
    {
      "epoch": 4.034103080416434,
      "grad_norm": 2.839963912963867,
      "learning_rate": 8.928743168931535e-06,
      "loss": 0.5337448120117188,
      "memory(GiB)": 73.83,
      "step": 94160,
      "token_acc": 0.9133574007220217,
      "train_speed(iter/s)": 1.458874
    },
    {
      "epoch": 4.034317295745684,
      "grad_norm": 3.514407157897949,
      "learning_rate": 8.924905441330556e-06,
      "loss": 0.41772637367248533,
      "memory(GiB)": 73.83,
      "step": 94165,
      "token_acc": 0.9163636363636364,
      "train_speed(iter/s)": 1.458877
    },
    {
      "epoch": 4.034531511074933,
      "grad_norm": 3.2629518508911133,
      "learning_rate": 8.921068457843445e-06,
      "loss": 0.473248291015625,
      "memory(GiB)": 73.83,
      "step": 94170,
      "token_acc": 0.9003021148036254,
      "train_speed(iter/s)": 1.458889
    },
    {
      "epoch": 4.034745726404181,
      "grad_norm": 0.1452031433582306,
      "learning_rate": 8.917232218539712e-06,
      "loss": 0.39846134185791016,
      "memory(GiB)": 73.83,
      "step": 94175,
      "token_acc": 0.8988095238095238,
      "train_speed(iter/s)": 1.458895
    },
    {
      "epoch": 4.0349599417334305,
      "grad_norm": 4.241239070892334,
      "learning_rate": 8.913396723488854e-06,
      "loss": 0.306516170501709,
      "memory(GiB)": 73.83,
      "step": 94180,
      "token_acc": 0.9281045751633987,
      "train_speed(iter/s)": 1.4589
    },
    {
      "epoch": 4.03517415706268,
      "grad_norm": 1.9860142469406128,
      "learning_rate": 8.909561972760343e-06,
      "loss": 0.2389678955078125,
      "memory(GiB)": 73.83,
      "step": 94185,
      "token_acc": 0.9512195121951219,
      "train_speed(iter/s)": 1.458907
    },
    {
      "epoch": 4.035388372391928,
      "grad_norm": 3.1230130195617676,
      "learning_rate": 8.905727966423682e-06,
      "loss": 0.28873209953308104,
      "memory(GiB)": 73.83,
      "step": 94190,
      "token_acc": 0.9637462235649547,
      "train_speed(iter/s)": 1.458908
    },
    {
      "epoch": 4.035602587721177,
      "grad_norm": 4.9669413566589355,
      "learning_rate": 8.901894704548308e-06,
      "loss": 0.47850475311279295,
      "memory(GiB)": 73.83,
      "step": 94195,
      "token_acc": 0.9107806691449815,
      "train_speed(iter/s)": 1.458911
    },
    {
      "epoch": 4.035816803050427,
      "grad_norm": 1.2116732597351074,
      "learning_rate": 8.89806218720365e-06,
      "loss": 0.18047311305999755,
      "memory(GiB)": 73.83,
      "step": 94200,
      "token_acc": 0.9583333333333334,
      "train_speed(iter/s)": 1.458911
    },
    {
      "epoch": 4.036031018379675,
      "grad_norm": 2.2920126914978027,
      "learning_rate": 8.89423041445916e-06,
      "loss": 0.27266905307769773,
      "memory(GiB)": 73.83,
      "step": 94205,
      "token_acc": 0.940983606557377,
      "train_speed(iter/s)": 1.458913
    },
    {
      "epoch": 4.036245233708924,
      "grad_norm": 5.357195854187012,
      "learning_rate": 8.890399386384251e-06,
      "loss": 0.4772057056427002,
      "memory(GiB)": 73.83,
      "step": 94210,
      "token_acc": 0.8839590443686007,
      "train_speed(iter/s)": 1.458922
    },
    {
      "epoch": 4.0364594490381736,
      "grad_norm": 0.8708167672157288,
      "learning_rate": 8.88656910304831e-06,
      "loss": 0.084649658203125,
      "memory(GiB)": 73.83,
      "step": 94215,
      "token_acc": 0.9701492537313433,
      "train_speed(iter/s)": 1.458927
    },
    {
      "epoch": 4.036673664367422,
      "grad_norm": 2.6980652809143066,
      "learning_rate": 8.882739564520743e-06,
      "loss": 0.4395749568939209,
      "memory(GiB)": 73.83,
      "step": 94220,
      "token_acc": 0.8838951310861424,
      "train_speed(iter/s)": 1.458928
    },
    {
      "epoch": 4.036887879696671,
      "grad_norm": 4.425510883331299,
      "learning_rate": 8.878910770870924e-06,
      "loss": 0.4454970836639404,
      "memory(GiB)": 73.83,
      "step": 94225,
      "token_acc": 0.9161490683229814,
      "train_speed(iter/s)": 1.458929
    },
    {
      "epoch": 4.03710209502592,
      "grad_norm": 0.2307976335287094,
      "learning_rate": 8.875082722168215e-06,
      "loss": 0.6056137084960938,
      "memory(GiB)": 73.83,
      "step": 94230,
      "token_acc": 0.9053497942386831,
      "train_speed(iter/s)": 1.458942
    },
    {
      "epoch": 4.037316310355169,
      "grad_norm": 5.958781719207764,
      "learning_rate": 8.871255418481955e-06,
      "loss": 0.3458531379699707,
      "memory(GiB)": 73.83,
      "step": 94235,
      "token_acc": 0.9246861924686193,
      "train_speed(iter/s)": 1.458949
    },
    {
      "epoch": 4.037530525684418,
      "grad_norm": 3.086613178253174,
      "learning_rate": 8.867428859881487e-06,
      "loss": 0.4370893478393555,
      "memory(GiB)": 73.83,
      "step": 94240,
      "token_acc": 0.9079754601226994,
      "train_speed(iter/s)": 1.458962
    },
    {
      "epoch": 4.037744741013667,
      "grad_norm": 3.3685038089752197,
      "learning_rate": 8.863603046436119e-06,
      "loss": 0.21783242225646973,
      "memory(GiB)": 73.83,
      "step": 94245,
      "token_acc": 0.9583333333333334,
      "train_speed(iter/s)": 1.458969
    },
    {
      "epoch": 4.037958956342916,
      "grad_norm": 4.480193614959717,
      "learning_rate": 8.859777978215184e-06,
      "loss": 0.6241944789886474,
      "memory(GiB)": 73.83,
      "step": 94250,
      "token_acc": 0.8725490196078431,
      "train_speed(iter/s)": 1.458975
    },
    {
      "epoch": 4.038173171672165,
      "grad_norm": 1.9771709442138672,
      "learning_rate": 8.855953655287962e-06,
      "loss": 0.16295881271362306,
      "memory(GiB)": 73.83,
      "step": 94255,
      "token_acc": 0.9573770491803278,
      "train_speed(iter/s)": 1.458985
    },
    {
      "epoch": 4.038387387001414,
      "grad_norm": 1.4734861850738525,
      "learning_rate": 8.852130077723736e-06,
      "loss": 0.22051804065704345,
      "memory(GiB)": 73.83,
      "step": 94260,
      "token_acc": 0.9482071713147411,
      "train_speed(iter/s)": 1.458986
    },
    {
      "epoch": 4.038601602330663,
      "grad_norm": 1.6960914134979248,
      "learning_rate": 8.848307245591774e-06,
      "loss": 0.3043177604675293,
      "memory(GiB)": 73.83,
      "step": 94265,
      "token_acc": 0.9381443298969072,
      "train_speed(iter/s)": 1.458991
    },
    {
      "epoch": 4.038815817659912,
      "grad_norm": 1.756989598274231,
      "learning_rate": 8.844485158961318e-06,
      "loss": 0.2188943147659302,
      "memory(GiB)": 73.83,
      "step": 94270,
      "token_acc": 0.9488636363636364,
      "train_speed(iter/s)": 1.458993
    },
    {
      "epoch": 4.039030032989161,
      "grad_norm": 3.5582668781280518,
      "learning_rate": 8.840663817901618e-06,
      "loss": 0.7024284362792969,
      "memory(GiB)": 73.83,
      "step": 94275,
      "token_acc": 0.8681672025723473,
      "train_speed(iter/s)": 1.458998
    },
    {
      "epoch": 4.0392442483184094,
      "grad_norm": 2.153148889541626,
      "learning_rate": 8.836843222481917e-06,
      "loss": 0.17574696540832518,
      "memory(GiB)": 73.83,
      "step": 94280,
      "token_acc": 0.9537366548042705,
      "train_speed(iter/s)": 1.459004
    },
    {
      "epoch": 4.039458463647659,
      "grad_norm": 7.539645671844482,
      "learning_rate": 8.833023372771415e-06,
      "loss": 0.2797266960144043,
      "memory(GiB)": 73.83,
      "step": 94285,
      "token_acc": 0.9397590361445783,
      "train_speed(iter/s)": 1.459007
    },
    {
      "epoch": 4.039672678976908,
      "grad_norm": 5.173285961151123,
      "learning_rate": 8.829204268839314e-06,
      "loss": 0.438076114654541,
      "memory(GiB)": 73.83,
      "step": 94290,
      "token_acc": 0.8988326848249028,
      "train_speed(iter/s)": 1.459022
    },
    {
      "epoch": 4.039886894306156,
      "grad_norm": 4.110470771789551,
      "learning_rate": 8.825385910754796e-06,
      "loss": 0.41046485900878904,
      "memory(GiB)": 73.83,
      "step": 94295,
      "token_acc": 0.9017543859649123,
      "train_speed(iter/s)": 1.459026
    },
    {
      "epoch": 4.040101109635406,
      "grad_norm": 1.5213004350662231,
      "learning_rate": 8.82156829858703e-06,
      "loss": 0.3968977451324463,
      "memory(GiB)": 73.83,
      "step": 94300,
      "token_acc": 0.9182156133828996,
      "train_speed(iter/s)": 1.45904
    },
    {
      "epoch": 4.040315324964655,
      "grad_norm": 0.5391095876693726,
      "learning_rate": 8.817751432405186e-06,
      "loss": 0.20167410373687744,
      "memory(GiB)": 73.83,
      "step": 94305,
      "token_acc": 0.9482071713147411,
      "train_speed(iter/s)": 1.459051
    },
    {
      "epoch": 4.040529540293903,
      "grad_norm": 4.131378650665283,
      "learning_rate": 8.813935312278414e-06,
      "loss": 0.3813158512115479,
      "memory(GiB)": 73.83,
      "step": 94310,
      "token_acc": 0.9281045751633987,
      "train_speed(iter/s)": 1.459063
    },
    {
      "epoch": 4.0407437556231525,
      "grad_norm": 4.240681171417236,
      "learning_rate": 8.81011993827584e-06,
      "loss": 0.6454259872436523,
      "memory(GiB)": 73.83,
      "step": 94315,
      "token_acc": 0.8536585365853658,
      "train_speed(iter/s)": 1.459083
    },
    {
      "epoch": 4.040957970952402,
      "grad_norm": 4.089972019195557,
      "learning_rate": 8.806305310466579e-06,
      "loss": 0.2707887411117554,
      "memory(GiB)": 73.83,
      "step": 94320,
      "token_acc": 0.9381107491856677,
      "train_speed(iter/s)": 1.459086
    },
    {
      "epoch": 4.04117218628165,
      "grad_norm": 2.7952792644500732,
      "learning_rate": 8.80249142891974e-06,
      "loss": 0.3036825656890869,
      "memory(GiB)": 73.83,
      "step": 94325,
      "token_acc": 0.9452554744525548,
      "train_speed(iter/s)": 1.459089
    },
    {
      "epoch": 4.041386401610899,
      "grad_norm": 3.0905323028564453,
      "learning_rate": 8.798678293704405e-06,
      "loss": 0.5307093620300293,
      "memory(GiB)": 73.83,
      "step": 94330,
      "token_acc": 0.8819188191881919,
      "train_speed(iter/s)": 1.459094
    },
    {
      "epoch": 4.041600616940149,
      "grad_norm": 4.471896171569824,
      "learning_rate": 8.794865904889677e-06,
      "loss": 0.31331419944763184,
      "memory(GiB)": 73.83,
      "step": 94335,
      "token_acc": 0.9151943462897526,
      "train_speed(iter/s)": 1.459099
    },
    {
      "epoch": 4.041814832269397,
      "grad_norm": 2.2757441997528076,
      "learning_rate": 8.791054262544601e-06,
      "loss": 0.16694031953811644,
      "memory(GiB)": 73.83,
      "step": 94340,
      "token_acc": 0.9621212121212122,
      "train_speed(iter/s)": 1.459111
    },
    {
      "epoch": 4.042029047598646,
      "grad_norm": 2.7549235820770264,
      "learning_rate": 8.78724336673824e-06,
      "loss": 0.36051373481750487,
      "memory(GiB)": 73.83,
      "step": 94345,
      "token_acc": 0.9133333333333333,
      "train_speed(iter/s)": 1.459113
    },
    {
      "epoch": 4.0422432629278955,
      "grad_norm": 3.9048426151275635,
      "learning_rate": 8.783433217539611e-06,
      "loss": 0.2359778881072998,
      "memory(GiB)": 73.83,
      "step": 94350,
      "token_acc": 0.9634551495016611,
      "train_speed(iter/s)": 1.459111
    },
    {
      "epoch": 4.042457478257144,
      "grad_norm": 4.395294189453125,
      "learning_rate": 8.779623815017763e-06,
      "loss": 0.5536608219146728,
      "memory(GiB)": 73.83,
      "step": 94355,
      "token_acc": 0.8993288590604027,
      "train_speed(iter/s)": 1.459113
    },
    {
      "epoch": 4.042671693586393,
      "grad_norm": 6.062656879425049,
      "learning_rate": 8.77581515924169e-06,
      "loss": 0.39990160465240476,
      "memory(GiB)": 73.83,
      "step": 94360,
      "token_acc": 0.9208860759493671,
      "train_speed(iter/s)": 1.459121
    },
    {
      "epoch": 4.042885908915642,
      "grad_norm": 3.271389961242676,
      "learning_rate": 8.772007250280407e-06,
      "loss": 0.45854840278625486,
      "memory(GiB)": 73.83,
      "step": 94365,
      "token_acc": 0.9208211143695014,
      "train_speed(iter/s)": 1.459126
    },
    {
      "epoch": 4.043100124244891,
      "grad_norm": 9.682509422302246,
      "learning_rate": 8.768200088202888e-06,
      "loss": 0.47858619689941406,
      "memory(GiB)": 73.83,
      "step": 94370,
      "token_acc": 0.9058823529411765,
      "train_speed(iter/s)": 1.459127
    },
    {
      "epoch": 4.04331433957414,
      "grad_norm": 2.5874593257904053,
      "learning_rate": 8.764393673078102e-06,
      "loss": 0.3736170768737793,
      "memory(GiB)": 73.83,
      "step": 94375,
      "token_acc": 0.8986301369863013,
      "train_speed(iter/s)": 1.459131
    },
    {
      "epoch": 4.043528554903389,
      "grad_norm": 2.0265324115753174,
      "learning_rate": 8.760588004975007e-06,
      "loss": 0.12209019660949708,
      "memory(GiB)": 73.83,
      "step": 94380,
      "token_acc": 0.9626168224299065,
      "train_speed(iter/s)": 1.459136
    },
    {
      "epoch": 4.043742770232638,
      "grad_norm": 1.5778141021728516,
      "learning_rate": 8.756783083962545e-06,
      "loss": 0.22197554111480713,
      "memory(GiB)": 73.83,
      "step": 94385,
      "token_acc": 0.9551282051282052,
      "train_speed(iter/s)": 1.459138
    },
    {
      "epoch": 4.043956985561887,
      "grad_norm": 1.9997766017913818,
      "learning_rate": 8.752978910109638e-06,
      "loss": 0.49269757270812986,
      "memory(GiB)": 73.83,
      "step": 94390,
      "token_acc": 0.9144981412639405,
      "train_speed(iter/s)": 1.459139
    },
    {
      "epoch": 4.044171200891136,
      "grad_norm": 1.6213899850845337,
      "learning_rate": 8.749175483485223e-06,
      "loss": 0.2754401683807373,
      "memory(GiB)": 73.83,
      "step": 94395,
      "token_acc": 0.9401408450704225,
      "train_speed(iter/s)": 1.45914
    },
    {
      "epoch": 4.0443854162203845,
      "grad_norm": 3.9057021141052246,
      "learning_rate": 8.745372804158187e-06,
      "loss": 0.1659135937690735,
      "memory(GiB)": 73.83,
      "step": 94400,
      "token_acc": 0.9455782312925171,
      "train_speed(iter/s)": 1.459141
    },
    {
      "epoch": 4.044599631549634,
      "grad_norm": 3.654238224029541,
      "learning_rate": 8.741570872197424e-06,
      "loss": 0.3710469245910645,
      "memory(GiB)": 73.83,
      "step": 94405,
      "token_acc": 0.9012345679012346,
      "train_speed(iter/s)": 1.45915
    },
    {
      "epoch": 4.044813846878883,
      "grad_norm": 6.465725898742676,
      "learning_rate": 8.73776968767181e-06,
      "loss": 0.3207651376724243,
      "memory(GiB)": 73.83,
      "step": 94410,
      "token_acc": 0.9365671641791045,
      "train_speed(iter/s)": 1.459156
    },
    {
      "epoch": 4.045028062208131,
      "grad_norm": 3.5060555934906006,
      "learning_rate": 8.733969250650187e-06,
      "loss": 0.36670513153076173,
      "memory(GiB)": 73.83,
      "step": 94415,
      "token_acc": 0.9258160237388724,
      "train_speed(iter/s)": 1.459168
    },
    {
      "epoch": 4.045242277537381,
      "grad_norm": 0.978593647480011,
      "learning_rate": 8.73016956120144e-06,
      "loss": 0.3646113395690918,
      "memory(GiB)": 73.83,
      "step": 94420,
      "token_acc": 0.9339622641509434,
      "train_speed(iter/s)": 1.459169
    },
    {
      "epoch": 4.04545649286663,
      "grad_norm": 1.669148564338684,
      "learning_rate": 8.72637061939437e-06,
      "loss": 0.2729646682739258,
      "memory(GiB)": 73.83,
      "step": 94425,
      "token_acc": 0.9329268292682927,
      "train_speed(iter/s)": 1.459167
    },
    {
      "epoch": 4.045670708195878,
      "grad_norm": 1.9471533298492432,
      "learning_rate": 8.722572425297832e-06,
      "loss": 0.2523669719696045,
      "memory(GiB)": 73.83,
      "step": 94430,
      "token_acc": 0.938337801608579,
      "train_speed(iter/s)": 1.459167
    },
    {
      "epoch": 4.0458849235251275,
      "grad_norm": 1.7915067672729492,
      "learning_rate": 8.71877497898061e-06,
      "loss": 0.2749507188796997,
      "memory(GiB)": 73.83,
      "step": 94435,
      "token_acc": 0.9206349206349206,
      "train_speed(iter/s)": 1.45917
    },
    {
      "epoch": 4.046099138854377,
      "grad_norm": 2.835419178009033,
      "learning_rate": 8.714978280511505e-06,
      "loss": 0.3349249601364136,
      "memory(GiB)": 73.83,
      "step": 94440,
      "token_acc": 0.933933933933934,
      "train_speed(iter/s)": 1.459173
    },
    {
      "epoch": 4.046313354183625,
      "grad_norm": 5.324923515319824,
      "learning_rate": 8.711182329959284e-06,
      "loss": 0.40597825050354003,
      "memory(GiB)": 73.83,
      "step": 94445,
      "token_acc": 0.9103448275862069,
      "train_speed(iter/s)": 1.459175
    },
    {
      "epoch": 4.046527569512874,
      "grad_norm": 5.521371841430664,
      "learning_rate": 8.70738712739274e-06,
      "loss": 0.36487417221069335,
      "memory(GiB)": 73.83,
      "step": 94450,
      "token_acc": 0.9204892966360856,
      "train_speed(iter/s)": 1.459175
    },
    {
      "epoch": 4.046741784842124,
      "grad_norm": 4.534594535827637,
      "learning_rate": 8.703592672880617e-06,
      "loss": 0.19505653381347657,
      "memory(GiB)": 73.83,
      "step": 94455,
      "token_acc": 0.9601226993865031,
      "train_speed(iter/s)": 1.459176
    },
    {
      "epoch": 4.046956000171372,
      "grad_norm": 3.100179672241211,
      "learning_rate": 8.699798966491651e-06,
      "loss": 0.30712075233459474,
      "memory(GiB)": 73.83,
      "step": 94460,
      "token_acc": 0.9294871794871795,
      "train_speed(iter/s)": 1.459192
    },
    {
      "epoch": 4.047170215500621,
      "grad_norm": 3.9290273189544678,
      "learning_rate": 8.696006008294566e-06,
      "loss": 0.5102787494659424,
      "memory(GiB)": 73.83,
      "step": 94465,
      "token_acc": 0.9014925373134328,
      "train_speed(iter/s)": 1.459189
    },
    {
      "epoch": 4.0473844308298705,
      "grad_norm": 5.531606197357178,
      "learning_rate": 8.692213798358084e-06,
      "loss": 0.31549155712127686,
      "memory(GiB)": 73.83,
      "step": 94470,
      "token_acc": 0.9252336448598131,
      "train_speed(iter/s)": 1.459193
    },
    {
      "epoch": 4.047598646159119,
      "grad_norm": 1.9264291524887085,
      "learning_rate": 8.688422336750879e-06,
      "loss": 0.3105078935623169,
      "memory(GiB)": 73.83,
      "step": 94475,
      "token_acc": 0.9291784702549575,
      "train_speed(iter/s)": 1.459199
    },
    {
      "epoch": 4.047812861488368,
      "grad_norm": 2.9648609161376953,
      "learning_rate": 8.684631623541672e-06,
      "loss": 0.42391128540039064,
      "memory(GiB)": 73.83,
      "step": 94480,
      "token_acc": 0.9096989966555183,
      "train_speed(iter/s)": 1.459204
    },
    {
      "epoch": 4.048027076817617,
      "grad_norm": 4.217563629150391,
      "learning_rate": 8.680841658799127e-06,
      "loss": 0.2492506504058838,
      "memory(GiB)": 73.83,
      "step": 94485,
      "token_acc": 0.9411764705882353,
      "train_speed(iter/s)": 1.459209
    },
    {
      "epoch": 4.048241292146866,
      "grad_norm": 0.8074445724487305,
      "learning_rate": 8.677052442591888e-06,
      "loss": 0.1806087851524353,
      "memory(GiB)": 73.83,
      "step": 94490,
      "token_acc": 0.9428571428571428,
      "train_speed(iter/s)": 1.459213
    },
    {
      "epoch": 4.048455507476115,
      "grad_norm": 3.6499288082122803,
      "learning_rate": 8.6732639749886e-06,
      "loss": 0.5545611381530762,
      "memory(GiB)": 73.83,
      "step": 94495,
      "token_acc": 0.8821548821548821,
      "train_speed(iter/s)": 1.45921
    },
    {
      "epoch": 4.048669722805364,
      "grad_norm": 0.6969799399375916,
      "learning_rate": 8.669476256057913e-06,
      "loss": 0.2069333791732788,
      "memory(GiB)": 73.83,
      "step": 94500,
      "token_acc": 0.9406528189910979,
      "train_speed(iter/s)": 1.459217
    },
    {
      "epoch": 4.048669722805364,
      "eval_loss": 2.4598844051361084,
      "eval_runtime": 12.0551,
      "eval_samples_per_second": 8.295,
      "eval_steps_per_second": 8.295,
      "eval_token_acc": 0.45113788487282463,
      "step": 94500
    },
    {
      "epoch": 4.048883938134613,
      "grad_norm": 3.1718027591705322,
      "learning_rate": 8.665689285868416e-06,
      "loss": 0.4152851581573486,
      "memory(GiB)": 73.83,
      "step": 94505,
      "token_acc": 0.5727002967359051,
      "train_speed(iter/s)": 1.458931
    },
    {
      "epoch": 4.049098153463862,
      "grad_norm": 9.879657745361328,
      "learning_rate": 8.661903064488753e-06,
      "loss": 0.5091351509094239,
      "memory(GiB)": 73.83,
      "step": 94510,
      "token_acc": 0.8622754491017964,
      "train_speed(iter/s)": 1.458945
    },
    {
      "epoch": 4.049312368793111,
      "grad_norm": 11.86551284790039,
      "learning_rate": 8.65811759198749e-06,
      "loss": 0.342805814743042,
      "memory(GiB)": 73.83,
      "step": 94515,
      "token_acc": 0.9136690647482014,
      "train_speed(iter/s)": 1.458958
    },
    {
      "epoch": 4.0495265841223596,
      "grad_norm": 4.481446266174316,
      "learning_rate": 8.654332868433213e-06,
      "loss": 0.3493818998336792,
      "memory(GiB)": 73.83,
      "step": 94520,
      "token_acc": 0.9290540540540541,
      "train_speed(iter/s)": 1.458967
    },
    {
      "epoch": 4.049740799451609,
      "grad_norm": 3.2994091510772705,
      "learning_rate": 8.650548893894484e-06,
      "loss": 0.21556975841522216,
      "memory(GiB)": 73.83,
      "step": 94525,
      "token_acc": 0.9628252788104089,
      "train_speed(iter/s)": 1.458965
    },
    {
      "epoch": 4.049955014780858,
      "grad_norm": 1.1359230279922485,
      "learning_rate": 8.646765668439844e-06,
      "loss": 0.4142917633056641,
      "memory(GiB)": 73.83,
      "step": 94530,
      "token_acc": 0.9207920792079208,
      "train_speed(iter/s)": 1.458966
    },
    {
      "epoch": 4.050169230110106,
      "grad_norm": 2.8050472736358643,
      "learning_rate": 8.642983192137827e-06,
      "loss": 0.3015427589416504,
      "memory(GiB)": 73.83,
      "step": 94535,
      "token_acc": 0.9290123456790124,
      "train_speed(iter/s)": 1.458971
    },
    {
      "epoch": 4.050383445439356,
      "grad_norm": 2.2959353923797607,
      "learning_rate": 8.639201465056973e-06,
      "loss": 0.17113955020904542,
      "memory(GiB)": 73.83,
      "step": 94540,
      "token_acc": 0.9484536082474226,
      "train_speed(iter/s)": 1.458972
    },
    {
      "epoch": 4.050597660768605,
      "grad_norm": 0.6320818662643433,
      "learning_rate": 8.635420487265788e-06,
      "loss": 0.40349268913269043,
      "memory(GiB)": 73.83,
      "step": 94545,
      "token_acc": 0.916058394160584,
      "train_speed(iter/s)": 1.458975
    },
    {
      "epoch": 4.050811876097853,
      "grad_norm": 4.604569911956787,
      "learning_rate": 8.631640258832769e-06,
      "loss": 0.41286630630493165,
      "memory(GiB)": 73.83,
      "step": 94550,
      "token_acc": 0.9116719242902208,
      "train_speed(iter/s)": 1.45898
    },
    {
      "epoch": 4.051026091427103,
      "grad_norm": 1.4797866344451904,
      "learning_rate": 8.627860779826385e-06,
      "loss": 0.10122368335723878,
      "memory(GiB)": 73.83,
      "step": 94555,
      "token_acc": 0.9798657718120806,
      "train_speed(iter/s)": 1.458986
    },
    {
      "epoch": 4.051240306756352,
      "grad_norm": 1.6808749437332153,
      "learning_rate": 8.624082050315107e-06,
      "loss": 0.2323539972305298,
      "memory(GiB)": 73.83,
      "step": 94560,
      "token_acc": 0.9602649006622517,
      "train_speed(iter/s)": 1.458991
    },
    {
      "epoch": 4.0514545220856,
      "grad_norm": 2.8526813983917236,
      "learning_rate": 8.620304070367401e-06,
      "loss": 0.3330716609954834,
      "memory(GiB)": 73.83,
      "step": 94565,
      "token_acc": 0.9389830508474576,
      "train_speed(iter/s)": 1.458992
    },
    {
      "epoch": 4.0516687374148495,
      "grad_norm": 4.674051284790039,
      "learning_rate": 8.616526840051697e-06,
      "loss": 0.29731833934783936,
      "memory(GiB)": 73.83,
      "step": 94570,
      "token_acc": 0.9494584837545126,
      "train_speed(iter/s)": 1.458999
    },
    {
      "epoch": 4.051882952744099,
      "grad_norm": 7.85341739654541,
      "learning_rate": 8.612750359436444e-06,
      "loss": 0.3932304859161377,
      "memory(GiB)": 73.83,
      "step": 94575,
      "token_acc": 0.9123376623376623,
      "train_speed(iter/s)": 1.459002
    },
    {
      "epoch": 4.052097168073347,
      "grad_norm": 4.492949962615967,
      "learning_rate": 8.608974628590044e-06,
      "loss": 0.27326431274414065,
      "memory(GiB)": 73.83,
      "step": 94580,
      "token_acc": 0.9446640316205533,
      "train_speed(iter/s)": 1.459009
    },
    {
      "epoch": 4.052311383402596,
      "grad_norm": 2.541766881942749,
      "learning_rate": 8.605199647580892e-06,
      "loss": 0.17637259960174562,
      "memory(GiB)": 73.83,
      "step": 94585,
      "token_acc": 0.9611650485436893,
      "train_speed(iter/s)": 1.459015
    },
    {
      "epoch": 4.052525598731846,
      "grad_norm": 0.647005021572113,
      "learning_rate": 8.601425416477366e-06,
      "loss": 0.3748570680618286,
      "memory(GiB)": 73.83,
      "step": 94590,
      "token_acc": 0.9226361031518625,
      "train_speed(iter/s)": 1.459024
    },
    {
      "epoch": 4.052739814061094,
      "grad_norm": 4.002673149108887,
      "learning_rate": 8.597651935347872e-06,
      "loss": 0.2957625865936279,
      "memory(GiB)": 73.83,
      "step": 94595,
      "token_acc": 0.9424460431654677,
      "train_speed(iter/s)": 1.459035
    },
    {
      "epoch": 4.052954029390343,
      "grad_norm": 2.156463146209717,
      "learning_rate": 8.593879204260747e-06,
      "loss": 0.23447415828704835,
      "memory(GiB)": 73.83,
      "step": 94600,
      "token_acc": 0.9579579579579579,
      "train_speed(iter/s)": 1.459033
    },
    {
      "epoch": 4.0531682447195925,
      "grad_norm": 0.8658608794212341,
      "learning_rate": 8.590107223284344e-06,
      "loss": 0.35891697406768797,
      "memory(GiB)": 73.83,
      "step": 94605,
      "token_acc": 0.903010033444816,
      "train_speed(iter/s)": 1.459021
    },
    {
      "epoch": 4.053382460048841,
      "grad_norm": 0.5919279456138611,
      "learning_rate": 8.586335992486994e-06,
      "loss": 0.3789587259292603,
      "memory(GiB)": 73.83,
      "step": 94610,
      "token_acc": 0.9133574007220217,
      "train_speed(iter/s)": 1.459023
    },
    {
      "epoch": 4.05359667537809,
      "grad_norm": 0.3200875520706177,
      "learning_rate": 8.582565511937019e-06,
      "loss": 0.3572386741638184,
      "memory(GiB)": 73.83,
      "step": 94615,
      "token_acc": 0.9403508771929825,
      "train_speed(iter/s)": 1.459037
    },
    {
      "epoch": 4.053810890707339,
      "grad_norm": 2.280395269393921,
      "learning_rate": 8.578795781702703e-06,
      "loss": 0.2881666660308838,
      "memory(GiB)": 73.83,
      "step": 94620,
      "token_acc": 0.931740614334471,
      "train_speed(iter/s)": 1.459039
    },
    {
      "epoch": 4.054025106036588,
      "grad_norm": 1.9400264024734497,
      "learning_rate": 8.575026801852375e-06,
      "loss": 0.39533085823059083,
      "memory(GiB)": 73.83,
      "step": 94625,
      "token_acc": 0.9183098591549296,
      "train_speed(iter/s)": 1.45904
    },
    {
      "epoch": 4.054239321365837,
      "grad_norm": 2.067600727081299,
      "learning_rate": 8.571258572454299e-06,
      "loss": 0.44566993713378905,
      "memory(GiB)": 73.83,
      "step": 94630,
      "token_acc": 0.9076305220883534,
      "train_speed(iter/s)": 1.459062
    },
    {
      "epoch": 4.054453536695086,
      "grad_norm": 2.4379496574401855,
      "learning_rate": 8.567491093576735e-06,
      "loss": 0.3115605592727661,
      "memory(GiB)": 73.83,
      "step": 94635,
      "token_acc": 0.9190283400809717,
      "train_speed(iter/s)": 1.459063
    },
    {
      "epoch": 4.054667752024335,
      "grad_norm": 3.550441265106201,
      "learning_rate": 8.563724365287934e-06,
      "loss": 0.2508277893066406,
      "memory(GiB)": 73.83,
      "step": 94640,
      "token_acc": 0.9453781512605042,
      "train_speed(iter/s)": 1.459063
    },
    {
      "epoch": 4.054881967353584,
      "grad_norm": 3.1987504959106445,
      "learning_rate": 8.559958387656125e-06,
      "loss": 0.4144002914428711,
      "memory(GiB)": 73.83,
      "step": 94645,
      "token_acc": 0.9011976047904192,
      "train_speed(iter/s)": 1.459067
    },
    {
      "epoch": 4.055096182682833,
      "grad_norm": 2.1679561138153076,
      "learning_rate": 8.556193160749549e-06,
      "loss": 0.18547964096069336,
      "memory(GiB)": 73.83,
      "step": 94650,
      "token_acc": 0.9548611111111112,
      "train_speed(iter/s)": 1.459071
    },
    {
      "epoch": 4.0553103980120815,
      "grad_norm": 2.020491600036621,
      "learning_rate": 8.552428684636416e-06,
      "loss": 0.21617679595947265,
      "memory(GiB)": 73.83,
      "step": 94655,
      "token_acc": 0.9527027027027027,
      "train_speed(iter/s)": 1.459074
    },
    {
      "epoch": 4.055524613341331,
      "grad_norm": 3.6884982585906982,
      "learning_rate": 8.548664959384922e-06,
      "loss": 0.3074381351470947,
      "memory(GiB)": 73.83,
      "step": 94660,
      "token_acc": 0.9574468085106383,
      "train_speed(iter/s)": 1.459075
    },
    {
      "epoch": 4.05573882867058,
      "grad_norm": 2.6279430389404297,
      "learning_rate": 8.544901985063247e-06,
      "loss": 0.3600595951080322,
      "memory(GiB)": 73.83,
      "step": 94665,
      "token_acc": 0.9235668789808917,
      "train_speed(iter/s)": 1.45908
    },
    {
      "epoch": 4.055953043999828,
      "grad_norm": 4.559435844421387,
      "learning_rate": 8.541139761739559e-06,
      "loss": 0.3931111812591553,
      "memory(GiB)": 73.83,
      "step": 94670,
      "token_acc": 0.9158878504672897,
      "train_speed(iter/s)": 1.459091
    },
    {
      "epoch": 4.056167259329078,
      "grad_norm": 7.208067417144775,
      "learning_rate": 8.537378289482006e-06,
      "loss": 0.31506805419921874,
      "memory(GiB)": 73.83,
      "step": 94675,
      "token_acc": 0.9267399267399268,
      "train_speed(iter/s)": 1.459096
    },
    {
      "epoch": 4.056381474658327,
      "grad_norm": 2.3270018100738525,
      "learning_rate": 8.533617568358749e-06,
      "loss": 0.14976625442504882,
      "memory(GiB)": 73.83,
      "step": 94680,
      "token_acc": 0.9591078066914498,
      "train_speed(iter/s)": 1.459098
    },
    {
      "epoch": 4.056595689987575,
      "grad_norm": 2.189542055130005,
      "learning_rate": 8.529857598437912e-06,
      "loss": 0.3140183210372925,
      "memory(GiB)": 73.83,
      "step": 94685,
      "token_acc": 0.9423076923076923,
      "train_speed(iter/s)": 1.459099
    },
    {
      "epoch": 4.0568099053168245,
      "grad_norm": 0.6800786256790161,
      "learning_rate": 8.526098379787606e-06,
      "loss": 0.34580144882202146,
      "memory(GiB)": 73.83,
      "step": 94690,
      "token_acc": 0.9483695652173914,
      "train_speed(iter/s)": 1.459105
    },
    {
      "epoch": 4.057024120646074,
      "grad_norm": 2.3894965648651123,
      "learning_rate": 8.522339912475936e-06,
      "loss": 0.2695406436920166,
      "memory(GiB)": 73.83,
      "step": 94695,
      "token_acc": 0.9440559440559441,
      "train_speed(iter/s)": 1.459105
    },
    {
      "epoch": 4.057238335975322,
      "grad_norm": 4.342015266418457,
      "learning_rate": 8.51858219657098e-06,
      "loss": 0.400211763381958,
      "memory(GiB)": 73.83,
      "step": 94700,
      "token_acc": 0.9251700680272109,
      "train_speed(iter/s)": 1.45911
    },
    {
      "epoch": 4.057452551304571,
      "grad_norm": 4.001551628112793,
      "learning_rate": 8.514825232140816e-06,
      "loss": 0.24038348197937012,
      "memory(GiB)": 73.83,
      "step": 94705,
      "token_acc": 0.9424920127795527,
      "train_speed(iter/s)": 1.459114
    },
    {
      "epoch": 4.057666766633821,
      "grad_norm": 4.127545356750488,
      "learning_rate": 8.511069019253515e-06,
      "loss": 0.32306675910949706,
      "memory(GiB)": 73.83,
      "step": 94710,
      "token_acc": 0.9427609427609428,
      "train_speed(iter/s)": 1.459118
    },
    {
      "epoch": 4.057880981963069,
      "grad_norm": 2.9358808994293213,
      "learning_rate": 8.507313557977121e-06,
      "loss": 0.41014962196350097,
      "memory(GiB)": 73.83,
      "step": 94715,
      "token_acc": 0.9006410256410257,
      "train_speed(iter/s)": 1.459117
    },
    {
      "epoch": 4.058095197292318,
      "grad_norm": 2.040619134902954,
      "learning_rate": 8.503558848379656e-06,
      "loss": 0.13885436058044434,
      "memory(GiB)": 73.83,
      "step": 94720,
      "token_acc": 0.9594594594594594,
      "train_speed(iter/s)": 1.459116
    },
    {
      "epoch": 4.0583094126215675,
      "grad_norm": 5.856706619262695,
      "learning_rate": 8.499804890529157e-06,
      "loss": 0.5395654201507568,
      "memory(GiB)": 73.83,
      "step": 94725,
      "token_acc": 0.8934707903780069,
      "train_speed(iter/s)": 1.45912
    },
    {
      "epoch": 4.058523627950816,
      "grad_norm": 1.9229322671890259,
      "learning_rate": 8.496051684493627e-06,
      "loss": 0.41640310287475585,
      "memory(GiB)": 73.83,
      "step": 94730,
      "token_acc": 0.9058441558441559,
      "train_speed(iter/s)": 1.459117
    },
    {
      "epoch": 4.058737843280065,
      "grad_norm": 3.882939577102661,
      "learning_rate": 8.492299230341039e-06,
      "loss": 0.1514428973197937,
      "memory(GiB)": 73.83,
      "step": 94735,
      "token_acc": 0.9693593314763231,
      "train_speed(iter/s)": 1.459118
    },
    {
      "epoch": 4.058952058609314,
      "grad_norm": 2.7537968158721924,
      "learning_rate": 8.488547528139402e-06,
      "loss": 0.45378456115722654,
      "memory(GiB)": 73.83,
      "step": 94740,
      "token_acc": 0.9096573208722741,
      "train_speed(iter/s)": 1.459123
    },
    {
      "epoch": 4.059166273938563,
      "grad_norm": 2.9966139793395996,
      "learning_rate": 8.484796577956666e-06,
      "loss": 0.25401978492736815,
      "memory(GiB)": 73.83,
      "step": 94745,
      "token_acc": 0.9386973180076629,
      "train_speed(iter/s)": 1.459126
    },
    {
      "epoch": 4.059380489267812,
      "grad_norm": 1.66119384765625,
      "learning_rate": 8.481046379860785e-06,
      "loss": 0.2513139247894287,
      "memory(GiB)": 73.83,
      "step": 94750,
      "token_acc": 0.9463722397476341,
      "train_speed(iter/s)": 1.459131
    },
    {
      "epoch": 4.059594704597061,
      "grad_norm": 1.2487210035324097,
      "learning_rate": 8.477296933919693e-06,
      "loss": 0.37492148876190184,
      "memory(GiB)": 73.83,
      "step": 94755,
      "token_acc": 0.9051383399209486,
      "train_speed(iter/s)": 1.459148
    },
    {
      "epoch": 4.05980891992631,
      "grad_norm": 2.165255308151245,
      "learning_rate": 8.473548240201323e-06,
      "loss": 0.28378450870513916,
      "memory(GiB)": 73.83,
      "step": 94760,
      "token_acc": 0.9386973180076629,
      "train_speed(iter/s)": 1.459154
    },
    {
      "epoch": 4.060023135255559,
      "grad_norm": 5.584085941314697,
      "learning_rate": 8.469800298773567e-06,
      "loss": 0.41950459480285646,
      "memory(GiB)": 73.83,
      "step": 94765,
      "token_acc": 0.909433962264151,
      "train_speed(iter/s)": 1.459156
    },
    {
      "epoch": 4.060237350584808,
      "grad_norm": 2.986248016357422,
      "learning_rate": 8.466053109704353e-06,
      "loss": 0.40255074501037597,
      "memory(GiB)": 73.83,
      "step": 94770,
      "token_acc": 0.9155405405405406,
      "train_speed(iter/s)": 1.459159
    },
    {
      "epoch": 4.0604515659140565,
      "grad_norm": 3.4316534996032715,
      "learning_rate": 8.462306673061548e-06,
      "loss": 0.701026725769043,
      "memory(GiB)": 73.83,
      "step": 94775,
      "token_acc": 0.840782122905028,
      "train_speed(iter/s)": 1.459156
    },
    {
      "epoch": 4.060665781243306,
      "grad_norm": 3.6478524208068848,
      "learning_rate": 8.458560988913022e-06,
      "loss": 0.13635393381118774,
      "memory(GiB)": 73.83,
      "step": 94780,
      "token_acc": 0.9547169811320755,
      "train_speed(iter/s)": 1.459161
    },
    {
      "epoch": 4.060879996572555,
      "grad_norm": 3.400446653366089,
      "learning_rate": 8.45481605732663e-06,
      "loss": 0.47162456512451173,
      "memory(GiB)": 73.83,
      "step": 94785,
      "token_acc": 0.9,
      "train_speed(iter/s)": 1.45917
    },
    {
      "epoch": 4.061094211901803,
      "grad_norm": 2.4036788940429688,
      "learning_rate": 8.451071878370209e-06,
      "loss": 0.305405592918396,
      "memory(GiB)": 73.83,
      "step": 94790,
      "token_acc": 0.9294478527607362,
      "train_speed(iter/s)": 1.459173
    },
    {
      "epoch": 4.061308427231053,
      "grad_norm": 3.6939849853515625,
      "learning_rate": 8.447328452111597e-06,
      "loss": 0.4589071273803711,
      "memory(GiB)": 73.83,
      "step": 94795,
      "token_acc": 0.8943894389438944,
      "train_speed(iter/s)": 1.45917
    },
    {
      "epoch": 4.061522642560302,
      "grad_norm": 4.448829650878906,
      "learning_rate": 8.443585778618618e-06,
      "loss": 0.5423956394195557,
      "memory(GiB)": 73.83,
      "step": 94800,
      "token_acc": 0.8685897435897436,
      "train_speed(iter/s)": 1.459171
    },
    {
      "epoch": 4.06173685788955,
      "grad_norm": 3.5462143421173096,
      "learning_rate": 8.439843857959074e-06,
      "loss": 0.29996528625488283,
      "memory(GiB)": 73.83,
      "step": 94805,
      "token_acc": 0.9113924050632911,
      "train_speed(iter/s)": 1.459169
    },
    {
      "epoch": 4.0619510732188,
      "grad_norm": 3.9275360107421875,
      "learning_rate": 8.436102690200737e-06,
      "loss": 0.5358775138854981,
      "memory(GiB)": 73.83,
      "step": 94810,
      "token_acc": 0.8852941176470588,
      "train_speed(iter/s)": 1.459174
    },
    {
      "epoch": 4.062165288548049,
      "grad_norm": 2.4594273567199707,
      "learning_rate": 8.432362275411392e-06,
      "loss": 0.1826917052268982,
      "memory(GiB)": 73.83,
      "step": 94815,
      "token_acc": 0.9655172413793104,
      "train_speed(iter/s)": 1.459177
    },
    {
      "epoch": 4.062379503877297,
      "grad_norm": 4.148278713226318,
      "learning_rate": 8.428622613658788e-06,
      "loss": 0.4634083271026611,
      "memory(GiB)": 73.83,
      "step": 94820,
      "token_acc": 0.9123376623376623,
      "train_speed(iter/s)": 1.459184
    },
    {
      "epoch": 4.062593719206546,
      "grad_norm": 2.448709487915039,
      "learning_rate": 8.424883705010689e-06,
      "loss": 0.3579734802246094,
      "memory(GiB)": 73.83,
      "step": 94825,
      "token_acc": 0.9131736526946108,
      "train_speed(iter/s)": 1.459194
    },
    {
      "epoch": 4.062807934535796,
      "grad_norm": 2.4377553462982178,
      "learning_rate": 8.421145549534826e-06,
      "loss": 0.169279944896698,
      "memory(GiB)": 73.83,
      "step": 94830,
      "token_acc": 0.9565217391304348,
      "train_speed(iter/s)": 1.459199
    },
    {
      "epoch": 4.063022149865044,
      "grad_norm": 2.1212308406829834,
      "learning_rate": 8.417408147298916e-06,
      "loss": 0.3209673881530762,
      "memory(GiB)": 73.83,
      "step": 94835,
      "token_acc": 0.9294478527607362,
      "train_speed(iter/s)": 1.459202
    },
    {
      "epoch": 4.063236365194293,
      "grad_norm": 1.0430527925491333,
      "learning_rate": 8.413671498370667e-06,
      "loss": 0.32699849605560305,
      "memory(GiB)": 73.83,
      "step": 94840,
      "token_acc": 0.9238410596026491,
      "train_speed(iter/s)": 1.459201
    },
    {
      "epoch": 4.063450580523543,
      "grad_norm": 3.1724209785461426,
      "learning_rate": 8.409935602817764e-06,
      "loss": 0.3317121028900146,
      "memory(GiB)": 73.83,
      "step": 94845,
      "token_acc": 0.9264705882352942,
      "train_speed(iter/s)": 1.459214
    },
    {
      "epoch": 4.063664795852791,
      "grad_norm": 3.392547369003296,
      "learning_rate": 8.406200460707885e-06,
      "loss": 0.33837237358093264,
      "memory(GiB)": 73.83,
      "step": 94850,
      "token_acc": 0.9225352112676056,
      "train_speed(iter/s)": 1.459219
    },
    {
      "epoch": 4.06387901118204,
      "grad_norm": 5.128413200378418,
      "learning_rate": 8.402466072108716e-06,
      "loss": 0.48804798126220705,
      "memory(GiB)": 73.83,
      "step": 94855,
      "token_acc": 0.8746438746438746,
      "train_speed(iter/s)": 1.459219
    },
    {
      "epoch": 4.0640932265112895,
      "grad_norm": 4.09347677230835,
      "learning_rate": 8.398732437087892e-06,
      "loss": 0.5727322101593018,
      "memory(GiB)": 73.83,
      "step": 94860,
      "token_acc": 0.8942307692307693,
      "train_speed(iter/s)": 1.459224
    },
    {
      "epoch": 4.064307441840538,
      "grad_norm": 6.22737979888916,
      "learning_rate": 8.394999555713045e-06,
      "loss": 0.6408977508544922,
      "memory(GiB)": 73.83,
      "step": 94865,
      "token_acc": 0.844311377245509,
      "train_speed(iter/s)": 1.459245
    },
    {
      "epoch": 4.064521657169787,
      "grad_norm": 0.5791308879852295,
      "learning_rate": 8.391267428051819e-06,
      "loss": 0.20346412658691407,
      "memory(GiB)": 73.83,
      "step": 94870,
      "token_acc": 0.951048951048951,
      "train_speed(iter/s)": 1.459249
    },
    {
      "epoch": 4.064735872499036,
      "grad_norm": 2.399118423461914,
      "learning_rate": 8.387536054171818e-06,
      "loss": 0.5012077331542969,
      "memory(GiB)": 73.83,
      "step": 94875,
      "token_acc": 0.9108910891089109,
      "train_speed(iter/s)": 1.459261
    },
    {
      "epoch": 4.064950087828285,
      "grad_norm": 0.32009878754615784,
      "learning_rate": 8.383805434140623e-06,
      "loss": 0.40251898765563965,
      "memory(GiB)": 73.83,
      "step": 94880,
      "token_acc": 0.9125874125874126,
      "train_speed(iter/s)": 1.459271
    },
    {
      "epoch": 4.065164303157534,
      "grad_norm": 2.175851583480835,
      "learning_rate": 8.380075568025847e-06,
      "loss": 0.42680039405822756,
      "memory(GiB)": 73.83,
      "step": 94885,
      "token_acc": 0.9009009009009009,
      "train_speed(iter/s)": 1.459277
    },
    {
      "epoch": 4.065378518486783,
      "grad_norm": 1.743965744972229,
      "learning_rate": 8.376346455895046e-06,
      "loss": 0.4447620391845703,
      "memory(GiB)": 73.83,
      "step": 94890,
      "token_acc": 0.9130434782608695,
      "train_speed(iter/s)": 1.459285
    },
    {
      "epoch": 4.065592733816032,
      "grad_norm": 1.2708451747894287,
      "learning_rate": 8.37261809781577e-06,
      "loss": 0.3749372482299805,
      "memory(GiB)": 73.83,
      "step": 94895,
      "token_acc": 0.9242902208201893,
      "train_speed(iter/s)": 1.459288
    },
    {
      "epoch": 4.065806949145281,
      "grad_norm": 2.038888931274414,
      "learning_rate": 8.368890493855568e-06,
      "loss": 0.6000860691070556,
      "memory(GiB)": 73.83,
      "step": 94900,
      "token_acc": 0.8580246913580247,
      "train_speed(iter/s)": 1.459285
    },
    {
      "epoch": 4.06602116447453,
      "grad_norm": 2.374433755874634,
      "learning_rate": 8.365163644081969e-06,
      "loss": 0.235890793800354,
      "memory(GiB)": 73.83,
      "step": 94905,
      "token_acc": 0.9427480916030534,
      "train_speed(iter/s)": 1.459284
    },
    {
      "epoch": 4.0662353798037785,
      "grad_norm": 3.337151527404785,
      "learning_rate": 8.361437548562478e-06,
      "loss": 0.5997297763824463,
      "memory(GiB)": 73.83,
      "step": 94910,
      "token_acc": 0.8596491228070176,
      "train_speed(iter/s)": 1.459294
    },
    {
      "epoch": 4.066449595133028,
      "grad_norm": 4.57769250869751,
      "learning_rate": 8.357712207364615e-06,
      "loss": 0.21681790351867675,
      "memory(GiB)": 73.83,
      "step": 94915,
      "token_acc": 0.9501661129568106,
      "train_speed(iter/s)": 1.459298
    },
    {
      "epoch": 4.066663810462277,
      "grad_norm": 3.5142886638641357,
      "learning_rate": 8.353987620555859e-06,
      "loss": 0.28319242000579836,
      "memory(GiB)": 73.83,
      "step": 94920,
      "token_acc": 0.941747572815534,
      "train_speed(iter/s)": 1.4593
    },
    {
      "epoch": 4.066878025791525,
      "grad_norm": 4.440555572509766,
      "learning_rate": 8.350263788203682e-06,
      "loss": 0.3210457801818848,
      "memory(GiB)": 73.83,
      "step": 94925,
      "token_acc": 0.9197080291970803,
      "train_speed(iter/s)": 1.459293
    },
    {
      "epoch": 4.067092241120775,
      "grad_norm": 1.9844880104064941,
      "learning_rate": 8.34654071037555e-06,
      "loss": 0.18674273490905763,
      "memory(GiB)": 73.83,
      "step": 94930,
      "token_acc": 0.9575289575289575,
      "train_speed(iter/s)": 1.459298
    },
    {
      "epoch": 4.067306456450024,
      "grad_norm": 1.5410308837890625,
      "learning_rate": 8.342818387138895e-06,
      "loss": 0.20923206806182862,
      "memory(GiB)": 73.83,
      "step": 94935,
      "token_acc": 0.9484848484848485,
      "train_speed(iter/s)": 1.459296
    },
    {
      "epoch": 4.067520671779272,
      "grad_norm": 1.9704434871673584,
      "learning_rate": 8.339096818561165e-06,
      "loss": 0.14085712432861328,
      "memory(GiB)": 73.83,
      "step": 94940,
      "token_acc": 0.9638157894736842,
      "train_speed(iter/s)": 1.459296
    },
    {
      "epoch": 4.0677348871085215,
      "grad_norm": 6.038177967071533,
      "learning_rate": 8.335376004709784e-06,
      "loss": 0.6667991161346436,
      "memory(GiB)": 73.83,
      "step": 94945,
      "token_acc": 0.8655737704918033,
      "train_speed(iter/s)": 1.459294
    },
    {
      "epoch": 4.067949102437771,
      "grad_norm": 4.514578819274902,
      "learning_rate": 8.331655945652155e-06,
      "loss": 0.3563373565673828,
      "memory(GiB)": 73.83,
      "step": 94950,
      "token_acc": 0.9291553133514986,
      "train_speed(iter/s)": 1.459293
    },
    {
      "epoch": 4.068163317767019,
      "grad_norm": 1.893851637840271,
      "learning_rate": 8.327936641455663e-06,
      "loss": 0.18136779069900513,
      "memory(GiB)": 73.83,
      "step": 94955,
      "token_acc": 0.9665551839464883,
      "train_speed(iter/s)": 1.459304
    },
    {
      "epoch": 4.068377533096268,
      "grad_norm": 3.708503246307373,
      "learning_rate": 8.324218092187696e-06,
      "loss": 0.3468088865280151,
      "memory(GiB)": 73.83,
      "step": 94960,
      "token_acc": 0.9104477611940298,
      "train_speed(iter/s)": 1.459303
    },
    {
      "epoch": 4.068591748425518,
      "grad_norm": 2.8483102321624756,
      "learning_rate": 8.320500297915595e-06,
      "loss": 0.4846210479736328,
      "memory(GiB)": 73.83,
      "step": 94965,
      "token_acc": 0.8829787234042553,
      "train_speed(iter/s)": 1.459304
    },
    {
      "epoch": 4.068805963754766,
      "grad_norm": 2.1402676105499268,
      "learning_rate": 8.316783258706745e-06,
      "loss": 0.3061125040054321,
      "memory(GiB)": 73.83,
      "step": 94970,
      "token_acc": 0.9236641221374046,
      "train_speed(iter/s)": 1.45931
    },
    {
      "epoch": 4.069020179084015,
      "grad_norm": 1.9672914743423462,
      "learning_rate": 8.31306697462847e-06,
      "loss": 0.3152065992355347,
      "memory(GiB)": 73.83,
      "step": 94975,
      "token_acc": 0.9173789173789174,
      "train_speed(iter/s)": 1.459314
    },
    {
      "epoch": 4.0692343944132645,
      "grad_norm": 4.772182464599609,
      "learning_rate": 8.309351445748086e-06,
      "loss": 0.42961735725402833,
      "memory(GiB)": 73.83,
      "step": 94980,
      "token_acc": 0.9272727272727272,
      "train_speed(iter/s)": 1.459315
    },
    {
      "epoch": 4.069448609742513,
      "grad_norm": 4.24347448348999,
      "learning_rate": 8.305636672132916e-06,
      "loss": 0.3930068492889404,
      "memory(GiB)": 73.83,
      "step": 94985,
      "token_acc": 0.9228070175438596,
      "train_speed(iter/s)": 1.459336
    },
    {
      "epoch": 4.069662825071762,
      "grad_norm": 4.3791279792785645,
      "learning_rate": 8.301922653850247e-06,
      "loss": 0.13179302215576172,
      "memory(GiB)": 73.83,
      "step": 94990,
      "token_acc": 0.9728682170542635,
      "train_speed(iter/s)": 1.459337
    },
    {
      "epoch": 4.069877040401011,
      "grad_norm": 4.188531875610352,
      "learning_rate": 8.298209390967355e-06,
      "loss": 0.5280294418334961,
      "memory(GiB)": 73.83,
      "step": 94995,
      "token_acc": 0.8933717579250721,
      "train_speed(iter/s)": 1.459358
    },
    {
      "epoch": 4.07009125573026,
      "grad_norm": 3.364837646484375,
      "learning_rate": 8.294496883551528e-06,
      "loss": 0.31493828296661375,
      "memory(GiB)": 73.83,
      "step": 95000,
      "token_acc": 0.9397163120567376,
      "train_speed(iter/s)": 1.459357
    },
    {
      "epoch": 4.07009125573026,
      "eval_loss": 2.5441412925720215,
      "eval_runtime": 11.4634,
      "eval_samples_per_second": 8.723,
      "eval_steps_per_second": 8.723,
      "eval_token_acc": 0.45545796737766625,
      "step": 95000
    },
    {
      "epoch": 4.070305471059509,
      "grad_norm": 1.3328547477722168,
      "learning_rate": 8.290785131670014e-06,
      "loss": 0.32445602416992186,
      "memory(GiB)": 73.83,
      "step": 95005,
      "token_acc": 0.5992939099735216,
      "train_speed(iter/s)": 1.459082
    },
    {
      "epoch": 4.070519686388758,
      "grad_norm": 3.5792291164398193,
      "learning_rate": 8.287074135390061e-06,
      "loss": 0.32961244583129884,
      "memory(GiB)": 73.83,
      "step": 95010,
      "token_acc": 0.9192546583850931,
      "train_speed(iter/s)": 1.45908
    },
    {
      "epoch": 4.070733901718007,
      "grad_norm": 3.5275256633758545,
      "learning_rate": 8.283363894778868e-06,
      "loss": 0.39865407943725584,
      "memory(GiB)": 73.83,
      "step": 95015,
      "token_acc": 0.9388489208633094,
      "train_speed(iter/s)": 1.45908
    },
    {
      "epoch": 4.070948117047256,
      "grad_norm": 3.5896222591400146,
      "learning_rate": 8.279654409903687e-06,
      "loss": 0.5170844554901123,
      "memory(GiB)": 73.83,
      "step": 95020,
      "token_acc": 0.8909090909090909,
      "train_speed(iter/s)": 1.459089
    },
    {
      "epoch": 4.071162332376505,
      "grad_norm": 5.376219749450684,
      "learning_rate": 8.275945680831693e-06,
      "loss": 0.4055911064147949,
      "memory(GiB)": 73.83,
      "step": 95025,
      "token_acc": 0.9113475177304965,
      "train_speed(iter/s)": 1.459091
    },
    {
      "epoch": 4.0713765477057535,
      "grad_norm": 0.9616581797599792,
      "learning_rate": 8.272237707630092e-06,
      "loss": 0.20093767642974852,
      "memory(GiB)": 73.83,
      "step": 95030,
      "token_acc": 0.957983193277311,
      "train_speed(iter/s)": 1.459095
    },
    {
      "epoch": 4.071590763035003,
      "grad_norm": 5.09306001663208,
      "learning_rate": 8.26853049036605e-06,
      "loss": 0.3072676181793213,
      "memory(GiB)": 73.83,
      "step": 95035,
      "token_acc": 0.9356060606060606,
      "train_speed(iter/s)": 1.459099
    },
    {
      "epoch": 4.071804978364252,
      "grad_norm": 5.325514316558838,
      "learning_rate": 8.264824029106727e-06,
      "loss": 0.509259033203125,
      "memory(GiB)": 73.83,
      "step": 95040,
      "token_acc": 0.8932584269662921,
      "train_speed(iter/s)": 1.459104
    },
    {
      "epoch": 4.0720191936935,
      "grad_norm": 0.48458221554756165,
      "learning_rate": 8.261118323919265e-06,
      "loss": 0.3933782339096069,
      "memory(GiB)": 73.83,
      "step": 95045,
      "token_acc": 0.9217081850533808,
      "train_speed(iter/s)": 1.459106
    },
    {
      "epoch": 4.07223340902275,
      "grad_norm": 1.9528136253356934,
      "learning_rate": 8.257413374870804e-06,
      "loss": 0.2033074140548706,
      "memory(GiB)": 73.83,
      "step": 95050,
      "token_acc": 0.9594594594594594,
      "train_speed(iter/s)": 1.459111
    },
    {
      "epoch": 4.072447624351999,
      "grad_norm": 3.917776584625244,
      "learning_rate": 8.25370918202844e-06,
      "loss": 0.25169711112976073,
      "memory(GiB)": 73.83,
      "step": 95055,
      "token_acc": 0.939622641509434,
      "train_speed(iter/s)": 1.459114
    },
    {
      "epoch": 4.072661839681247,
      "grad_norm": 2.4241111278533936,
      "learning_rate": 8.25000574545931e-06,
      "loss": 0.25664567947387695,
      "memory(GiB)": 73.83,
      "step": 95060,
      "token_acc": 0.9566787003610109,
      "train_speed(iter/s)": 1.459114
    },
    {
      "epoch": 4.0728760550104965,
      "grad_norm": 0.07838138937950134,
      "learning_rate": 8.246303065230488e-06,
      "loss": 0.14446728229522704,
      "memory(GiB)": 73.83,
      "step": 95065,
      "token_acc": 0.9609120521172638,
      "train_speed(iter/s)": 1.459114
    },
    {
      "epoch": 4.073090270339746,
      "grad_norm": 4.6520562171936035,
      "learning_rate": 8.242601141409056e-06,
      "loss": 0.4601278781890869,
      "memory(GiB)": 73.83,
      "step": 95070,
      "token_acc": 0.9015384615384615,
      "train_speed(iter/s)": 1.45912
    },
    {
      "epoch": 4.073304485668994,
      "grad_norm": 1.564586877822876,
      "learning_rate": 8.238899974062076e-06,
      "loss": 0.30851476192474364,
      "memory(GiB)": 73.83,
      "step": 95075,
      "token_acc": 0.9290540540540541,
      "train_speed(iter/s)": 1.459122
    },
    {
      "epoch": 4.073518700998243,
      "grad_norm": 4.889163494110107,
      "learning_rate": 8.235199563256585e-06,
      "loss": 0.6681359291076661,
      "memory(GiB)": 73.83,
      "step": 95080,
      "token_acc": 0.8715596330275229,
      "train_speed(iter/s)": 1.459122
    },
    {
      "epoch": 4.073732916327493,
      "grad_norm": 2.519007921218872,
      "learning_rate": 8.231499909059642e-06,
      "loss": 0.26997199058532717,
      "memory(GiB)": 73.83,
      "step": 95085,
      "token_acc": 0.9365079365079365,
      "train_speed(iter/s)": 1.459127
    },
    {
      "epoch": 4.073947131656741,
      "grad_norm": 0.774601936340332,
      "learning_rate": 8.227801011538256e-06,
      "loss": 0.522744083404541,
      "memory(GiB)": 74.99,
      "step": 95090,
      "token_acc": 0.8810975609756098,
      "train_speed(iter/s)": 1.459122
    },
    {
      "epoch": 4.07416134698599,
      "grad_norm": 3.640941858291626,
      "learning_rate": 8.224102870759448e-06,
      "loss": 0.32269361019134524,
      "memory(GiB)": 74.99,
      "step": 95095,
      "token_acc": 0.9290322580645162,
      "train_speed(iter/s)": 1.459122
    },
    {
      "epoch": 4.07437556231524,
      "grad_norm": 3.1225202083587646,
      "learning_rate": 8.2204054867902e-06,
      "loss": 0.1981595754623413,
      "memory(GiB)": 74.99,
      "step": 95100,
      "token_acc": 0.9528619528619529,
      "train_speed(iter/s)": 1.459124
    },
    {
      "epoch": 4.074589777644488,
      "grad_norm": 2.0717341899871826,
      "learning_rate": 8.216708859697508e-06,
      "loss": 0.11667983531951905,
      "memory(GiB)": 74.99,
      "step": 95105,
      "token_acc": 0.9644268774703557,
      "train_speed(iter/s)": 1.459125
    },
    {
      "epoch": 4.074803992973737,
      "grad_norm": 2.615107297897339,
      "learning_rate": 8.213012989548313e-06,
      "loss": 0.4383289337158203,
      "memory(GiB)": 74.99,
      "step": 95110,
      "token_acc": 0.9153846153846154,
      "train_speed(iter/s)": 1.45913
    },
    {
      "epoch": 4.0750182083029864,
      "grad_norm": 6.02342414855957,
      "learning_rate": 8.209317876409601e-06,
      "loss": 0.32882449626922605,
      "memory(GiB)": 74.99,
      "step": 95115,
      "token_acc": 0.914179104477612,
      "train_speed(iter/s)": 1.459134
    },
    {
      "epoch": 4.075232423632235,
      "grad_norm": 3.533629894256592,
      "learning_rate": 8.205623520348299e-06,
      "loss": 0.42243137359619143,
      "memory(GiB)": 74.99,
      "step": 95120,
      "token_acc": 0.9140625,
      "train_speed(iter/s)": 1.459137
    },
    {
      "epoch": 4.075446638961484,
      "grad_norm": 2.982111692428589,
      "learning_rate": 8.201929921431334e-06,
      "loss": 0.3868952989578247,
      "memory(GiB)": 74.99,
      "step": 95125,
      "token_acc": 0.8981818181818182,
      "train_speed(iter/s)": 1.459139
    },
    {
      "epoch": 4.075660854290733,
      "grad_norm": 3.8286008834838867,
      "learning_rate": 8.198237079725613e-06,
      "loss": 0.5449553489685058,
      "memory(GiB)": 74.99,
      "step": 95130,
      "token_acc": 0.8960244648318043,
      "train_speed(iter/s)": 1.459149
    },
    {
      "epoch": 4.075875069619982,
      "grad_norm": 0.7302953600883484,
      "learning_rate": 8.194544995298048e-06,
      "loss": 0.21487174034118653,
      "memory(GiB)": 74.99,
      "step": 95135,
      "token_acc": 0.9556451612903226,
      "train_speed(iter/s)": 1.459159
    },
    {
      "epoch": 4.076089284949231,
      "grad_norm": 2.6025354862213135,
      "learning_rate": 8.190853668215498e-06,
      "loss": 0.30245113372802734,
      "memory(GiB)": 74.99,
      "step": 95140,
      "token_acc": 0.9287925696594427,
      "train_speed(iter/s)": 1.459163
    },
    {
      "epoch": 4.07630350027848,
      "grad_norm": 1.5727744102478027,
      "learning_rate": 8.18716309854487e-06,
      "loss": 0.35186138153076174,
      "memory(GiB)": 74.99,
      "step": 95145,
      "token_acc": 0.930379746835443,
      "train_speed(iter/s)": 1.459176
    },
    {
      "epoch": 4.076517715607729,
      "grad_norm": 4.26010799407959,
      "learning_rate": 8.183473286353005e-06,
      "loss": 0.11042428016662598,
      "memory(GiB)": 74.99,
      "step": 95150,
      "token_acc": 0.9708029197080292,
      "train_speed(iter/s)": 1.459181
    },
    {
      "epoch": 4.076731930936978,
      "grad_norm": 0.20303519070148468,
      "learning_rate": 8.179784231706749e-06,
      "loss": 0.4326455593109131,
      "memory(GiB)": 74.99,
      "step": 95155,
      "token_acc": 0.9006622516556292,
      "train_speed(iter/s)": 1.459184
    },
    {
      "epoch": 4.076946146266227,
      "grad_norm": 1.5999103784561157,
      "learning_rate": 8.176095934672933e-06,
      "loss": 0.47518601417541506,
      "memory(GiB)": 74.99,
      "step": 95160,
      "token_acc": 0.9204545454545454,
      "train_speed(iter/s)": 1.459202
    },
    {
      "epoch": 4.0771603615954755,
      "grad_norm": 3.448047637939453,
      "learning_rate": 8.172408395318359e-06,
      "loss": 0.214288330078125,
      "memory(GiB)": 74.99,
      "step": 95165,
      "token_acc": 0.9475806451612904,
      "train_speed(iter/s)": 1.459204
    },
    {
      "epoch": 4.077374576924725,
      "grad_norm": 3.5919671058654785,
      "learning_rate": 8.168721613709846e-06,
      "loss": 0.20907297134399414,
      "memory(GiB)": 74.99,
      "step": 95170,
      "token_acc": 0.9507042253521126,
      "train_speed(iter/s)": 1.45921
    },
    {
      "epoch": 4.077588792253974,
      "grad_norm": 5.9466681480407715,
      "learning_rate": 8.165035589914193e-06,
      "loss": 0.36966121196746826,
      "memory(GiB)": 74.99,
      "step": 95175,
      "token_acc": 0.9202453987730062,
      "train_speed(iter/s)": 1.459215
    },
    {
      "epoch": 4.077803007583222,
      "grad_norm": 0.22602276504039764,
      "learning_rate": 8.161350323998169e-06,
      "loss": 0.15633761882781982,
      "memory(GiB)": 74.99,
      "step": 95180,
      "token_acc": 0.9621848739495799,
      "train_speed(iter/s)": 1.459215
    },
    {
      "epoch": 4.078017222912472,
      "grad_norm": 2.5482382774353027,
      "learning_rate": 8.157665816028525e-06,
      "loss": 0.1974120020866394,
      "memory(GiB)": 74.99,
      "step": 95185,
      "token_acc": 0.9617021276595744,
      "train_speed(iter/s)": 1.459219
    },
    {
      "epoch": 4.078231438241721,
      "grad_norm": 4.609391689300537,
      "learning_rate": 8.153982066072018e-06,
      "loss": 0.38431720733642577,
      "memory(GiB)": 74.99,
      "step": 95190,
      "token_acc": 0.9078498293515358,
      "train_speed(iter/s)": 1.459219
    },
    {
      "epoch": 4.078445653570969,
      "grad_norm": 4.873157024383545,
      "learning_rate": 8.150299074195383e-06,
      "loss": 0.29031686782836913,
      "memory(GiB)": 74.99,
      "step": 95195,
      "token_acc": 0.9236363636363636,
      "train_speed(iter/s)": 1.459221
    },
    {
      "epoch": 4.0786598689002185,
      "grad_norm": 5.394603252410889,
      "learning_rate": 8.146616840465326e-06,
      "loss": 0.3296787738800049,
      "memory(GiB)": 74.99,
      "step": 95200,
      "token_acc": 0.9221311475409836,
      "train_speed(iter/s)": 1.459227
    },
    {
      "epoch": 4.078874084229468,
      "grad_norm": 2.6882221698760986,
      "learning_rate": 8.142935364948579e-06,
      "loss": 0.37382824420928956,
      "memory(GiB)": 74.99,
      "step": 95205,
      "token_acc": 0.9148936170212766,
      "train_speed(iter/s)": 1.459225
    },
    {
      "epoch": 4.079088299558716,
      "grad_norm": 2.917966365814209,
      "learning_rate": 8.13925464771182e-06,
      "loss": 0.2521966934204102,
      "memory(GiB)": 74.99,
      "step": 95210,
      "token_acc": 0.9290780141843972,
      "train_speed(iter/s)": 1.459226
    },
    {
      "epoch": 4.079302514887965,
      "grad_norm": 0.8527376055717468,
      "learning_rate": 8.135574688821734e-06,
      "loss": 0.2530005693435669,
      "memory(GiB)": 74.99,
      "step": 95215,
      "token_acc": 0.9464285714285714,
      "train_speed(iter/s)": 1.459232
    },
    {
      "epoch": 4.079516730217215,
      "grad_norm": 3.2810325622558594,
      "learning_rate": 8.131895488344981e-06,
      "loss": 0.39339699745178225,
      "memory(GiB)": 74.99,
      "step": 95220,
      "token_acc": 0.9236641221374046,
      "train_speed(iter/s)": 1.459245
    },
    {
      "epoch": 4.079730945546463,
      "grad_norm": 2.70963191986084,
      "learning_rate": 8.128217046348207e-06,
      "loss": 0.370645546913147,
      "memory(GiB)": 74.99,
      "step": 95225,
      "token_acc": 0.9155405405405406,
      "train_speed(iter/s)": 1.459244
    },
    {
      "epoch": 4.079945160875712,
      "grad_norm": 3.019094467163086,
      "learning_rate": 8.124539362898076e-06,
      "loss": 0.2622556686401367,
      "memory(GiB)": 74.99,
      "step": 95230,
      "token_acc": 0.9422382671480144,
      "train_speed(iter/s)": 1.459242
    },
    {
      "epoch": 4.0801593762049615,
      "grad_norm": 2.9281294345855713,
      "learning_rate": 8.120862438061183e-06,
      "loss": 0.21417136192321778,
      "memory(GiB)": 74.99,
      "step": 95235,
      "token_acc": 0.9531772575250836,
      "train_speed(iter/s)": 1.459245
    },
    {
      "epoch": 4.08037359153421,
      "grad_norm": 2.418473720550537,
      "learning_rate": 8.117186271904158e-06,
      "loss": 0.25544157028198244,
      "memory(GiB)": 74.99,
      "step": 95240,
      "token_acc": 0.9492537313432836,
      "train_speed(iter/s)": 1.459249
    },
    {
      "epoch": 4.080587806863459,
      "grad_norm": 0.7573021054267883,
      "learning_rate": 8.113510864493602e-06,
      "loss": 0.2054819345474243,
      "memory(GiB)": 74.99,
      "step": 95245,
      "token_acc": 0.9628647214854111,
      "train_speed(iter/s)": 1.459253
    },
    {
      "epoch": 4.080802022192708,
      "grad_norm": 5.688795566558838,
      "learning_rate": 8.109836215896083e-06,
      "loss": 0.2360250473022461,
      "memory(GiB)": 74.99,
      "step": 95250,
      "token_acc": 0.95,
      "train_speed(iter/s)": 1.459266
    },
    {
      "epoch": 4.081016237521957,
      "grad_norm": 4.495298385620117,
      "learning_rate": 8.106162326178168e-06,
      "loss": 0.31391894817352295,
      "memory(GiB)": 74.99,
      "step": 95255,
      "token_acc": 0.948,
      "train_speed(iter/s)": 1.459269
    },
    {
      "epoch": 4.081230452851206,
      "grad_norm": 0.11899235099554062,
      "learning_rate": 8.102489195406432e-06,
      "loss": 0.3744157552719116,
      "memory(GiB)": 74.99,
      "step": 95260,
      "token_acc": 0.951048951048951,
      "train_speed(iter/s)": 1.459266
    },
    {
      "epoch": 4.081444668180455,
      "grad_norm": 2.6136069297790527,
      "learning_rate": 8.09881682364741e-06,
      "loss": 0.38498196601867674,
      "memory(GiB)": 74.99,
      "step": 95265,
      "token_acc": 0.8933823529411765,
      "train_speed(iter/s)": 1.459262
    },
    {
      "epoch": 4.081658883509704,
      "grad_norm": 0.789708137512207,
      "learning_rate": 8.095145210967624e-06,
      "loss": 0.23293497562408447,
      "memory(GiB)": 74.99,
      "step": 95270,
      "token_acc": 0.9450171821305842,
      "train_speed(iter/s)": 1.459267
    },
    {
      "epoch": 4.081873098838953,
      "grad_norm": 3.0887527465820312,
      "learning_rate": 8.091474357433598e-06,
      "loss": 0.4267579555511475,
      "memory(GiB)": 74.99,
      "step": 95275,
      "token_acc": 0.9156626506024096,
      "train_speed(iter/s)": 1.459274
    },
    {
      "epoch": 4.082087314168202,
      "grad_norm": 2.465855836868286,
      "learning_rate": 8.087804263111825e-06,
      "loss": 0.5578618049621582,
      "memory(GiB)": 74.99,
      "step": 95280,
      "token_acc": 0.8885448916408669,
      "train_speed(iter/s)": 1.459286
    },
    {
      "epoch": 4.0823015294974505,
      "grad_norm": 3.8573174476623535,
      "learning_rate": 8.084134928068782e-06,
      "loss": 0.2759145021438599,
      "memory(GiB)": 74.99,
      "step": 95285,
      "token_acc": 0.9292929292929293,
      "train_speed(iter/s)": 1.459286
    },
    {
      "epoch": 4.0825157448267,
      "grad_norm": 2.8330047130584717,
      "learning_rate": 8.080466352370968e-06,
      "loss": 0.26651673316955565,
      "memory(GiB)": 74.99,
      "step": 95290,
      "token_acc": 0.9539748953974896,
      "train_speed(iter/s)": 1.459286
    },
    {
      "epoch": 4.082729960155949,
      "grad_norm": 3.3047332763671875,
      "learning_rate": 8.076798536084828e-06,
      "loss": 0.4084175109863281,
      "memory(GiB)": 74.99,
      "step": 95295,
      "token_acc": 0.904320987654321,
      "train_speed(iter/s)": 1.459282
    },
    {
      "epoch": 4.082944175485197,
      "grad_norm": 5.1594719886779785,
      "learning_rate": 8.073131479276807e-06,
      "loss": 0.26407885551452637,
      "memory(GiB)": 74.99,
      "step": 95300,
      "token_acc": 0.939622641509434,
      "train_speed(iter/s)": 1.459285
    },
    {
      "epoch": 4.083158390814447,
      "grad_norm": 6.488198757171631,
      "learning_rate": 8.069465182013347e-06,
      "loss": 0.33022513389587405,
      "memory(GiB)": 74.99,
      "step": 95305,
      "token_acc": 0.9342105263157895,
      "train_speed(iter/s)": 1.459283
    },
    {
      "epoch": 4.083372606143696,
      "grad_norm": 5.509545803070068,
      "learning_rate": 8.065799644360844e-06,
      "loss": 0.49832968711853026,
      "memory(GiB)": 74.99,
      "step": 95310,
      "token_acc": 0.8810408921933085,
      "train_speed(iter/s)": 1.459282
    },
    {
      "epoch": 4.083586821472944,
      "grad_norm": 5.084054470062256,
      "learning_rate": 8.062134866385717e-06,
      "loss": 0.40526657104492186,
      "memory(GiB)": 74.99,
      "step": 95315,
      "token_acc": 0.9246575342465754,
      "train_speed(iter/s)": 1.459288
    },
    {
      "epoch": 4.0838010368021935,
      "grad_norm": 3.7691683769226074,
      "learning_rate": 8.05847084815437e-06,
      "loss": 0.5015369415283203,
      "memory(GiB)": 74.99,
      "step": 95320,
      "token_acc": 0.8817891373801917,
      "train_speed(iter/s)": 1.459291
    },
    {
      "epoch": 4.084015252131443,
      "grad_norm": 3.890848159790039,
      "learning_rate": 8.054807589733166e-06,
      "loss": 0.4461824417114258,
      "memory(GiB)": 74.99,
      "step": 95325,
      "token_acc": 0.9114754098360656,
      "train_speed(iter/s)": 1.459289
    },
    {
      "epoch": 4.084229467460691,
      "grad_norm": 3.3179831504821777,
      "learning_rate": 8.051145091188472e-06,
      "loss": 0.29629228115081785,
      "memory(GiB)": 74.99,
      "step": 95330,
      "token_acc": 0.9356060606060606,
      "train_speed(iter/s)": 1.459287
    },
    {
      "epoch": 4.08444368278994,
      "grad_norm": 4.372819900512695,
      "learning_rate": 8.047483352586638e-06,
      "loss": 0.7560223579406739,
      "memory(GiB)": 74.99,
      "step": 95335,
      "token_acc": 0.8571428571428571,
      "train_speed(iter/s)": 1.459296
    },
    {
      "epoch": 4.08465789811919,
      "grad_norm": 1.5899078845977783,
      "learning_rate": 8.043822373993997e-06,
      "loss": 0.3388272047042847,
      "memory(GiB)": 74.99,
      "step": 95340,
      "token_acc": 0.9188191881918819,
      "train_speed(iter/s)": 1.4593
    },
    {
      "epoch": 4.084872113448438,
      "grad_norm": 6.556164264678955,
      "learning_rate": 8.04016215547686e-06,
      "loss": 0.7282149314880371,
      "memory(GiB)": 74.99,
      "step": 95345,
      "token_acc": 0.8681672025723473,
      "train_speed(iter/s)": 1.459311
    },
    {
      "epoch": 4.085086328777687,
      "grad_norm": 0.15498441457748413,
      "learning_rate": 8.036502697101555e-06,
      "loss": 0.12994301319122314,
      "memory(GiB)": 74.99,
      "step": 95350,
      "token_acc": 0.9771863117870723,
      "train_speed(iter/s)": 1.459318
    },
    {
      "epoch": 4.0853005441069365,
      "grad_norm": 2.9848859310150146,
      "learning_rate": 8.032843998934369e-06,
      "loss": 0.2078075647354126,
      "memory(GiB)": 74.99,
      "step": 95355,
      "token_acc": 0.9375,
      "train_speed(iter/s)": 1.459321
    },
    {
      "epoch": 4.085514759436185,
      "grad_norm": 3.9357402324676514,
      "learning_rate": 8.029186061041588e-06,
      "loss": 0.6222160339355469,
      "memory(GiB)": 74.99,
      "step": 95360,
      "token_acc": 0.8627450980392157,
      "train_speed(iter/s)": 1.459317
    },
    {
      "epoch": 4.085728974765434,
      "grad_norm": 4.568761348724365,
      "learning_rate": 8.025528883489468e-06,
      "loss": 0.29935636520385744,
      "memory(GiB)": 74.99,
      "step": 95365,
      "token_acc": 0.9472049689440993,
      "train_speed(iter/s)": 1.459314
    },
    {
      "epoch": 4.085943190094683,
      "grad_norm": 4.837918758392334,
      "learning_rate": 8.02187246634426e-06,
      "loss": 0.3748573064804077,
      "memory(GiB)": 74.99,
      "step": 95370,
      "token_acc": 0.9190140845070423,
      "train_speed(iter/s)": 1.459322
    },
    {
      "epoch": 4.086157405423932,
      "grad_norm": 3.2594029903411865,
      "learning_rate": 8.018216809672219e-06,
      "loss": 0.32382545471191404,
      "memory(GiB)": 74.99,
      "step": 95375,
      "token_acc": 0.9228187919463087,
      "train_speed(iter/s)": 1.459324
    },
    {
      "epoch": 4.086371620753181,
      "grad_norm": 3.675894021987915,
      "learning_rate": 8.014561913539565e-06,
      "loss": 0.5687693119049072,
      "memory(GiB)": 74.99,
      "step": 95380,
      "token_acc": 0.8875,
      "train_speed(iter/s)": 1.459344
    },
    {
      "epoch": 4.08658583608243,
      "grad_norm": 4.664277076721191,
      "learning_rate": 8.010907778012494e-06,
      "loss": 0.7576786041259765,
      "memory(GiB)": 74.99,
      "step": 95385,
      "token_acc": 0.8445945945945946,
      "train_speed(iter/s)": 1.459364
    },
    {
      "epoch": 4.086800051411679,
      "grad_norm": 3.180696964263916,
      "learning_rate": 8.007254403157233e-06,
      "loss": 0.17918635606765748,
      "memory(GiB)": 74.99,
      "step": 95390,
      "token_acc": 0.9659863945578231,
      "train_speed(iter/s)": 1.459366
    },
    {
      "epoch": 4.087014266740928,
      "grad_norm": 3.245243787765503,
      "learning_rate": 8.003601789039944e-06,
      "loss": 0.5129621982574463,
      "memory(GiB)": 74.99,
      "step": 95395,
      "token_acc": 0.881578947368421,
      "train_speed(iter/s)": 1.459372
    },
    {
      "epoch": 4.087228482070177,
      "grad_norm": 2.939243793487549,
      "learning_rate": 7.999949935726797e-06,
      "loss": 0.27016420364379884,
      "memory(GiB)": 74.99,
      "step": 95400,
      "token_acc": 0.9535603715170279,
      "train_speed(iter/s)": 1.459376
    },
    {
      "epoch": 4.087442697399426,
      "grad_norm": 3.804514169692993,
      "learning_rate": 7.996298843283967e-06,
      "loss": 0.23581264019012452,
      "memory(GiB)": 74.99,
      "step": 95405,
      "token_acc": 0.9401408450704225,
      "train_speed(iter/s)": 1.459379
    },
    {
      "epoch": 4.087656912728675,
      "grad_norm": 2.266146659851074,
      "learning_rate": 7.99264851177759e-06,
      "loss": 0.30835297107696535,
      "memory(GiB)": 74.99,
      "step": 95410,
      "token_acc": 0.9154929577464789,
      "train_speed(iter/s)": 1.45939
    },
    {
      "epoch": 4.087871128057924,
      "grad_norm": 3.565189838409424,
      "learning_rate": 7.988998941273784e-06,
      "loss": 0.3021169900894165,
      "memory(GiB)": 74.99,
      "step": 95415,
      "token_acc": 0.9486404833836858,
      "train_speed(iter/s)": 1.459391
    },
    {
      "epoch": 4.088085343387172,
      "grad_norm": 3.6662607192993164,
      "learning_rate": 7.985350131838676e-06,
      "loss": 0.3782604694366455,
      "memory(GiB)": 74.99,
      "step": 95420,
      "token_acc": 0.9074074074074074,
      "train_speed(iter/s)": 1.459399
    },
    {
      "epoch": 4.088299558716422,
      "grad_norm": 4.41990852355957,
      "learning_rate": 7.981702083538368e-06,
      "loss": 0.350165867805481,
      "memory(GiB)": 74.99,
      "step": 95425,
      "token_acc": 0.9103448275862069,
      "train_speed(iter/s)": 1.459404
    },
    {
      "epoch": 4.088513774045671,
      "grad_norm": 5.50639533996582,
      "learning_rate": 7.978054796438922e-06,
      "loss": 0.5301513195037841,
      "memory(GiB)": 74.99,
      "step": 95430,
      "token_acc": 0.9035714285714286,
      "train_speed(iter/s)": 1.459421
    },
    {
      "epoch": 4.088727989374919,
      "grad_norm": 2.1291472911834717,
      "learning_rate": 7.974408270606448e-06,
      "loss": 0.27247982025146483,
      "memory(GiB)": 74.99,
      "step": 95435,
      "token_acc": 0.9472049689440993,
      "train_speed(iter/s)": 1.459429
    },
    {
      "epoch": 4.088942204704169,
      "grad_norm": 4.263675689697266,
      "learning_rate": 7.970762506106993e-06,
      "loss": 0.15077046155929566,
      "memory(GiB)": 74.99,
      "step": 95440,
      "token_acc": 0.967032967032967,
      "train_speed(iter/s)": 1.459435
    },
    {
      "epoch": 4.089156420033418,
      "grad_norm": 4.6705193519592285,
      "learning_rate": 7.967117503006604e-06,
      "loss": 0.4063271999359131,
      "memory(GiB)": 74.99,
      "step": 95445,
      "token_acc": 0.9057377049180327,
      "train_speed(iter/s)": 1.459449
    },
    {
      "epoch": 4.089370635362666,
      "grad_norm": 0.10464057326316833,
      "learning_rate": 7.963473261371307e-06,
      "loss": 0.2506770133972168,
      "memory(GiB)": 74.99,
      "step": 95450,
      "token_acc": 0.9333333333333333,
      "train_speed(iter/s)": 1.459449
    },
    {
      "epoch": 4.0895848506919155,
      "grad_norm": 2.941500186920166,
      "learning_rate": 7.959829781267114e-06,
      "loss": 0.40933547019958494,
      "memory(GiB)": 74.99,
      "step": 95455,
      "token_acc": 0.9111111111111111,
      "train_speed(iter/s)": 1.459451
    },
    {
      "epoch": 4.089799066021165,
      "grad_norm": 3.1093223094940186,
      "learning_rate": 7.956187062760045e-06,
      "loss": 0.39646234512329104,
      "memory(GiB)": 74.99,
      "step": 95460,
      "token_acc": 0.9290322580645162,
      "train_speed(iter/s)": 1.459469
    },
    {
      "epoch": 4.090013281350413,
      "grad_norm": 2.7446253299713135,
      "learning_rate": 7.952545105916098e-06,
      "loss": 0.23188281059265137,
      "memory(GiB)": 74.99,
      "step": 95465,
      "token_acc": 0.9536423841059603,
      "train_speed(iter/s)": 1.459473
    },
    {
      "epoch": 4.090227496679662,
      "grad_norm": 1.9752618074417114,
      "learning_rate": 7.948903910801236e-06,
      "loss": 0.29972195625305176,
      "memory(GiB)": 74.99,
      "step": 95470,
      "token_acc": 0.9456521739130435,
      "train_speed(iter/s)": 1.459482
    },
    {
      "epoch": 4.090441712008912,
      "grad_norm": 1.7174022197723389,
      "learning_rate": 7.945263477481434e-06,
      "loss": 0.3273813247680664,
      "memory(GiB)": 74.99,
      "step": 95475,
      "token_acc": 0.9331103678929766,
      "train_speed(iter/s)": 1.459486
    },
    {
      "epoch": 4.09065592733816,
      "grad_norm": 6.629561901092529,
      "learning_rate": 7.94162380602263e-06,
      "loss": 0.37445650100708006,
      "memory(GiB)": 74.99,
      "step": 95480,
      "token_acc": 0.9067164179104478,
      "train_speed(iter/s)": 1.459489
    },
    {
      "epoch": 4.090870142667409,
      "grad_norm": 2.453061819076538,
      "learning_rate": 7.937984896490763e-06,
      "loss": 0.3029945850372314,
      "memory(GiB)": 74.99,
      "step": 95485,
      "token_acc": 0.9411764705882353,
      "train_speed(iter/s)": 1.459491
    },
    {
      "epoch": 4.0910843579966585,
      "grad_norm": 2.7395241260528564,
      "learning_rate": 7.934346748951748e-06,
      "loss": 0.3437433004379272,
      "memory(GiB)": 74.99,
      "step": 95490,
      "token_acc": 0.9343065693430657,
      "train_speed(iter/s)": 1.459493
    },
    {
      "epoch": 4.091298573325907,
      "grad_norm": 2.10855770111084,
      "learning_rate": 7.930709363471517e-06,
      "loss": 0.2916827440261841,
      "memory(GiB)": 74.99,
      "step": 95495,
      "token_acc": 0.9578947368421052,
      "train_speed(iter/s)": 1.459498
    },
    {
      "epoch": 4.091512788655156,
      "grad_norm": 1.8800917863845825,
      "learning_rate": 7.927072740115943e-06,
      "loss": 0.2850929021835327,
      "memory(GiB)": 77.59,
      "step": 95500,
      "token_acc": 0.9240121580547113,
      "train_speed(iter/s)": 1.459499
    },
    {
      "epoch": 4.091512788655156,
      "eval_loss": 2.489314079284668,
      "eval_runtime": 11.3116,
      "eval_samples_per_second": 8.84,
      "eval_steps_per_second": 8.84,
      "eval_token_acc": 0.4596541786743516,
      "step": 95500
    },
    {
      "epoch": 4.091727003984405,
      "grad_norm": 4.127394676208496,
      "learning_rate": 7.923436878950919e-06,
      "loss": 0.46116008758544924,
      "memory(GiB)": 77.59,
      "step": 95505,
      "token_acc": 0.5911379657603223,
      "train_speed(iter/s)": 1.45923
    },
    {
      "epoch": 4.091941219313654,
      "grad_norm": 4.929025650024414,
      "learning_rate": 7.919801780042307e-06,
      "loss": 0.44260377883911134,
      "memory(GiB)": 77.59,
      "step": 95510,
      "token_acc": 0.9134078212290503,
      "train_speed(iter/s)": 1.459231
    },
    {
      "epoch": 4.092155434642903,
      "grad_norm": 3.907477617263794,
      "learning_rate": 7.916167443455946e-06,
      "loss": 0.13401589393615723,
      "memory(GiB)": 77.59,
      "step": 95515,
      "token_acc": 0.9580838323353293,
      "train_speed(iter/s)": 1.459229
    },
    {
      "epoch": 4.092369649972152,
      "grad_norm": 2.9354958534240723,
      "learning_rate": 7.912533869257704e-06,
      "loss": 0.3555779457092285,
      "memory(GiB)": 77.59,
      "step": 95520,
      "token_acc": 0.926923076923077,
      "train_speed(iter/s)": 1.459231
    },
    {
      "epoch": 4.092583865301401,
      "grad_norm": 3.2529678344726562,
      "learning_rate": 7.90890105751339e-06,
      "loss": 0.3384925365447998,
      "memory(GiB)": 77.59,
      "step": 95525,
      "token_acc": 0.9331103678929766,
      "train_speed(iter/s)": 1.45923
    },
    {
      "epoch": 4.09279808063065,
      "grad_norm": 3.580012798309326,
      "learning_rate": 7.905269008288807e-06,
      "loss": 0.2582880735397339,
      "memory(GiB)": 77.59,
      "step": 95530,
      "token_acc": 0.9381443298969072,
      "train_speed(iter/s)": 1.459236
    },
    {
      "epoch": 4.093012295959899,
      "grad_norm": 3.4759857654571533,
      "learning_rate": 7.901637721649774e-06,
      "loss": 0.507399320602417,
      "memory(GiB)": 77.59,
      "step": 95535,
      "token_acc": 0.8902077151335311,
      "train_speed(iter/s)": 1.45925
    },
    {
      "epoch": 4.0932265112891475,
      "grad_norm": 1.3344734907150269,
      "learning_rate": 7.898007197662066e-06,
      "loss": 0.2737112522125244,
      "memory(GiB)": 77.59,
      "step": 95540,
      "token_acc": 0.9384057971014492,
      "train_speed(iter/s)": 1.459249
    },
    {
      "epoch": 4.093440726618397,
      "grad_norm": 3.3454933166503906,
      "learning_rate": 7.894377436391443e-06,
      "loss": 0.20959157943725587,
      "memory(GiB)": 77.59,
      "step": 95545,
      "token_acc": 0.9525423728813559,
      "train_speed(iter/s)": 1.459252
    },
    {
      "epoch": 4.093654941947646,
      "grad_norm": 2.4536585807800293,
      "learning_rate": 7.890748437903677e-06,
      "loss": 0.3971314668655396,
      "memory(GiB)": 77.59,
      "step": 95550,
      "token_acc": 0.9278350515463918,
      "train_speed(iter/s)": 1.459268
    },
    {
      "epoch": 4.093869157276894,
      "grad_norm": 2.1151907444000244,
      "learning_rate": 7.887120202264514e-06,
      "loss": 0.13536022901535033,
      "memory(GiB)": 77.59,
      "step": 95555,
      "token_acc": 0.9633699633699634,
      "train_speed(iter/s)": 1.459268
    },
    {
      "epoch": 4.094083372606144,
      "grad_norm": 7.5615386962890625,
      "learning_rate": 7.883492729539665e-06,
      "loss": 0.7297562599182129,
      "memory(GiB)": 77.59,
      "step": 95560,
      "token_acc": 0.8440860215053764,
      "train_speed(iter/s)": 1.45927
    },
    {
      "epoch": 4.094297587935393,
      "grad_norm": 4.030489921569824,
      "learning_rate": 7.879866019794858e-06,
      "loss": 0.5652758121490479,
      "memory(GiB)": 77.59,
      "step": 95565,
      "token_acc": 0.8882175226586103,
      "train_speed(iter/s)": 1.459275
    },
    {
      "epoch": 4.094511803264641,
      "grad_norm": 5.2988691329956055,
      "learning_rate": 7.876240073095793e-06,
      "loss": 0.46048769950866697,
      "memory(GiB)": 77.59,
      "step": 95570,
      "token_acc": 0.89501312335958,
      "train_speed(iter/s)": 1.45928
    },
    {
      "epoch": 4.0947260185938905,
      "grad_norm": 1.74123215675354,
      "learning_rate": 7.872614889508134e-06,
      "loss": 0.2931062698364258,
      "memory(GiB)": 77.59,
      "step": 95575,
      "token_acc": 0.9518900343642611,
      "train_speed(iter/s)": 1.459279
    },
    {
      "epoch": 4.09494023392314,
      "grad_norm": 3.3610455989837646,
      "learning_rate": 7.868990469097593e-06,
      "loss": 0.17586956024169922,
      "memory(GiB)": 77.59,
      "step": 95580,
      "token_acc": 0.9702602230483272,
      "train_speed(iter/s)": 1.45928
    },
    {
      "epoch": 4.095154449252388,
      "grad_norm": 2.5299994945526123,
      "learning_rate": 7.86536681192981e-06,
      "loss": 0.16356064081192018,
      "memory(GiB)": 77.59,
      "step": 95585,
      "token_acc": 0.9664179104477612,
      "train_speed(iter/s)": 1.459284
    },
    {
      "epoch": 4.095368664581637,
      "grad_norm": 8.426236152648926,
      "learning_rate": 7.861743918070435e-06,
      "loss": 0.28490843772888186,
      "memory(GiB)": 77.59,
      "step": 95590,
      "token_acc": 0.9382716049382716,
      "train_speed(iter/s)": 1.459286
    },
    {
      "epoch": 4.095582879910887,
      "grad_norm": 4.005906105041504,
      "learning_rate": 7.858121787585093e-06,
      "loss": 0.28820004463195803,
      "memory(GiB)": 77.59,
      "step": 95595,
      "token_acc": 0.9391891891891891,
      "train_speed(iter/s)": 1.459303
    },
    {
      "epoch": 4.095797095240135,
      "grad_norm": 2.947199821472168,
      "learning_rate": 7.854500420539401e-06,
      "loss": 0.39296650886535645,
      "memory(GiB)": 77.59,
      "step": 95600,
      "token_acc": 0.926056338028169,
      "train_speed(iter/s)": 1.459308
    },
    {
      "epoch": 4.096011310569384,
      "grad_norm": 5.1750078201293945,
      "learning_rate": 7.850879816998962e-06,
      "loss": 0.48421173095703124,
      "memory(GiB)": 77.59,
      "step": 95605,
      "token_acc": 0.8880597014925373,
      "train_speed(iter/s)": 1.459314
    },
    {
      "epoch": 4.0962255258986335,
      "grad_norm": 3.616422414779663,
      "learning_rate": 7.847259977029392e-06,
      "loss": 0.39400854110717776,
      "memory(GiB)": 77.59,
      "step": 95610,
      "token_acc": 0.9114754098360656,
      "train_speed(iter/s)": 1.459308
    },
    {
      "epoch": 4.096439741227882,
      "grad_norm": 5.302975177764893,
      "learning_rate": 7.843640900696247e-06,
      "loss": 0.6641236782073975,
      "memory(GiB)": 77.59,
      "step": 95615,
      "token_acc": 0.8677966101694915,
      "train_speed(iter/s)": 1.459315
    },
    {
      "epoch": 4.096653956557131,
      "grad_norm": 3.728583812713623,
      "learning_rate": 7.840022588065098e-06,
      "loss": 0.33673644065856934,
      "memory(GiB)": 77.59,
      "step": 95620,
      "token_acc": 0.9108527131782945,
      "train_speed(iter/s)": 1.459318
    },
    {
      "epoch": 4.09686817188638,
      "grad_norm": 1.5449786186218262,
      "learning_rate": 7.836405039201483e-06,
      "loss": 0.6151815891265869,
      "memory(GiB)": 77.59,
      "step": 95625,
      "token_acc": 0.904,
      "train_speed(iter/s)": 1.45932
    },
    {
      "epoch": 4.097082387215629,
      "grad_norm": 3.3594040870666504,
      "learning_rate": 7.832788254170948e-06,
      "loss": 0.2632344961166382,
      "memory(GiB)": 77.59,
      "step": 95630,
      "token_acc": 0.9548192771084337,
      "train_speed(iter/s)": 1.459324
    },
    {
      "epoch": 4.097296602544878,
      "grad_norm": 2.2127857208251953,
      "learning_rate": 7.829172233038996e-06,
      "loss": 0.145699143409729,
      "memory(GiB)": 77.59,
      "step": 95635,
      "token_acc": 0.9660493827160493,
      "train_speed(iter/s)": 1.459328
    },
    {
      "epoch": 4.097510817874127,
      "grad_norm": 4.861756324768066,
      "learning_rate": 7.825556975871156e-06,
      "loss": 0.22035348415374756,
      "memory(GiB)": 77.59,
      "step": 95640,
      "token_acc": 0.9487179487179487,
      "train_speed(iter/s)": 1.45933
    },
    {
      "epoch": 4.097725033203376,
      "grad_norm": 2.414721727371216,
      "learning_rate": 7.821942482732918e-06,
      "loss": 0.33896560668945314,
      "memory(GiB)": 77.59,
      "step": 95645,
      "token_acc": 0.9391025641025641,
      "train_speed(iter/s)": 1.459333
    },
    {
      "epoch": 4.097939248532625,
      "grad_norm": 1.8543485403060913,
      "learning_rate": 7.818328753689763e-06,
      "loss": 0.2844693183898926,
      "memory(GiB)": 77.59,
      "step": 95650,
      "token_acc": 0.9370629370629371,
      "train_speed(iter/s)": 1.459332
    },
    {
      "epoch": 4.098153463861874,
      "grad_norm": 2.3303892612457275,
      "learning_rate": 7.814715788807148e-06,
      "loss": 0.34804956912994384,
      "memory(GiB)": 77.59,
      "step": 95655,
      "token_acc": 0.9377289377289377,
      "train_speed(iter/s)": 1.459333
    },
    {
      "epoch": 4.0983676791911225,
      "grad_norm": 1.2789169549942017,
      "learning_rate": 7.811103588150514e-06,
      "loss": 0.3702098846435547,
      "memory(GiB)": 77.59,
      "step": 95660,
      "token_acc": 0.9070631970260223,
      "train_speed(iter/s)": 1.459333
    },
    {
      "epoch": 4.098581894520372,
      "grad_norm": 5.300588130950928,
      "learning_rate": 7.807492151785334e-06,
      "loss": 0.39889798164367674,
      "memory(GiB)": 77.59,
      "step": 95665,
      "token_acc": 0.9201277955271565,
      "train_speed(iter/s)": 1.459334
    },
    {
      "epoch": 4.098796109849621,
      "grad_norm": 3.5880093574523926,
      "learning_rate": 7.803881479777008e-06,
      "loss": 0.310950493812561,
      "memory(GiB)": 77.59,
      "step": 95670,
      "token_acc": 0.9207920792079208,
      "train_speed(iter/s)": 1.459336
    },
    {
      "epoch": 4.099010325178869,
      "grad_norm": 3.2640459537506104,
      "learning_rate": 7.800271572190954e-06,
      "loss": 0.4254180908203125,
      "memory(GiB)": 77.59,
      "step": 95675,
      "token_acc": 0.9078014184397163,
      "train_speed(iter/s)": 1.459339
    },
    {
      "epoch": 4.099224540508119,
      "grad_norm": 3.5911436080932617,
      "learning_rate": 7.796662429092555e-06,
      "loss": 0.30486040115356444,
      "memory(GiB)": 77.59,
      "step": 95680,
      "token_acc": 0.926984126984127,
      "train_speed(iter/s)": 1.459346
    },
    {
      "epoch": 4.099438755837368,
      "grad_norm": 4.467776298522949,
      "learning_rate": 7.793054050547215e-06,
      "loss": 0.2671544551849365,
      "memory(GiB)": 77.59,
      "step": 95685,
      "token_acc": 0.9434628975265018,
      "train_speed(iter/s)": 1.459357
    },
    {
      "epoch": 4.099652971166616,
      "grad_norm": 3.164794683456421,
      "learning_rate": 7.78944643662029e-06,
      "loss": 0.14559892416000367,
      "memory(GiB)": 77.59,
      "step": 95690,
      "token_acc": 0.9716312056737588,
      "train_speed(iter/s)": 1.459365
    },
    {
      "epoch": 4.099867186495866,
      "grad_norm": 6.384521961212158,
      "learning_rate": 7.785839587377141e-06,
      "loss": 0.5343860149383545,
      "memory(GiB)": 77.59,
      "step": 95695,
      "token_acc": 0.8904899135446686,
      "train_speed(iter/s)": 1.459368
    },
    {
      "epoch": 4.100081401825115,
      "grad_norm": 1.9732855558395386,
      "learning_rate": 7.782233502883119e-06,
      "loss": 0.39347655773162843,
      "memory(GiB)": 77.59,
      "step": 95700,
      "token_acc": 0.9352750809061489,
      "train_speed(iter/s)": 1.459382
    },
    {
      "epoch": 4.100295617154363,
      "grad_norm": 4.600942134857178,
      "learning_rate": 7.778628183203535e-06,
      "loss": 0.49395103454589845,
      "memory(GiB)": 77.59,
      "step": 95705,
      "token_acc": 0.8961038961038961,
      "train_speed(iter/s)": 1.459386
    },
    {
      "epoch": 4.1005098324836124,
      "grad_norm": 0.9322373867034912,
      "learning_rate": 7.775023628403705e-06,
      "loss": 0.09937276244163513,
      "memory(GiB)": 77.59,
      "step": 95710,
      "token_acc": 0.9776119402985075,
      "train_speed(iter/s)": 1.459385
    },
    {
      "epoch": 4.100724047812862,
      "grad_norm": 2.3317487239837646,
      "learning_rate": 7.771419838548938e-06,
      "loss": 0.3388197422027588,
      "memory(GiB)": 77.59,
      "step": 95715,
      "token_acc": 0.9156626506024096,
      "train_speed(iter/s)": 1.459397
    },
    {
      "epoch": 4.10093826314211,
      "grad_norm": 2.767971992492676,
      "learning_rate": 7.767816813704499e-06,
      "loss": 0.40311470031738283,
      "memory(GiB)": 77.59,
      "step": 95720,
      "token_acc": 0.9163636363636364,
      "train_speed(iter/s)": 1.459405
    },
    {
      "epoch": 4.101152478471359,
      "grad_norm": 3.533876419067383,
      "learning_rate": 7.76421455393569e-06,
      "loss": 0.2966663122177124,
      "memory(GiB)": 77.59,
      "step": 95725,
      "token_acc": 0.9491525423728814,
      "train_speed(iter/s)": 1.459409
    },
    {
      "epoch": 4.101366693800609,
      "grad_norm": 0.337054580450058,
      "learning_rate": 7.760613059307748e-06,
      "loss": 0.2164156198501587,
      "memory(GiB)": 77.59,
      "step": 95730,
      "token_acc": 0.9410029498525073,
      "train_speed(iter/s)": 1.459412
    },
    {
      "epoch": 4.101580909129857,
      "grad_norm": 2.6222338676452637,
      "learning_rate": 7.757012329885933e-06,
      "loss": 0.2603895902633667,
      "memory(GiB)": 77.59,
      "step": 95735,
      "token_acc": 0.9311475409836065,
      "train_speed(iter/s)": 1.459433
    },
    {
      "epoch": 4.101795124459106,
      "grad_norm": 2.985623598098755,
      "learning_rate": 7.753412365735463e-06,
      "loss": 0.3509040117263794,
      "memory(GiB)": 77.59,
      "step": 95740,
      "token_acc": 0.9223880597014925,
      "train_speed(iter/s)": 1.459438
    },
    {
      "epoch": 4.1020093397883555,
      "grad_norm": 3.3432202339172363,
      "learning_rate": 7.749813166921543e-06,
      "loss": 0.24336590766906738,
      "memory(GiB)": 77.59,
      "step": 95745,
      "token_acc": 0.9348659003831418,
      "train_speed(iter/s)": 1.459443
    },
    {
      "epoch": 4.102223555117604,
      "grad_norm": 3.8133928775787354,
      "learning_rate": 7.746214733509411e-06,
      "loss": 0.5139685153961182,
      "memory(GiB)": 77.59,
      "step": 95750,
      "token_acc": 0.9060402684563759,
      "train_speed(iter/s)": 1.459441
    },
    {
      "epoch": 4.102437770446853,
      "grad_norm": 1.3730350732803345,
      "learning_rate": 7.742617065564217e-06,
      "loss": 0.2520288944244385,
      "memory(GiB)": 77.59,
      "step": 95755,
      "token_acc": 0.946843853820598,
      "train_speed(iter/s)": 1.459445
    },
    {
      "epoch": 4.102651985776102,
      "grad_norm": 4.466381072998047,
      "learning_rate": 7.739020163151173e-06,
      "loss": 0.3802527904510498,
      "memory(GiB)": 77.59,
      "step": 95760,
      "token_acc": 0.9053030303030303,
      "train_speed(iter/s)": 1.459445
    },
    {
      "epoch": 4.102866201105351,
      "grad_norm": 2.1476211547851562,
      "learning_rate": 7.73542402633542e-06,
      "loss": 0.5196426391601563,
      "memory(GiB)": 77.59,
      "step": 95765,
      "token_acc": 0.904,
      "train_speed(iter/s)": 1.459448
    },
    {
      "epoch": 4.1030804164346,
      "grad_norm": 5.6233296394348145,
      "learning_rate": 7.731828655182105e-06,
      "loss": 0.12532123327255248,
      "memory(GiB)": 77.59,
      "step": 95770,
      "token_acc": 0.9701492537313433,
      "train_speed(iter/s)": 1.459453
    },
    {
      "epoch": 4.103294631763849,
      "grad_norm": 8.761807441711426,
      "learning_rate": 7.728234049756372e-06,
      "loss": 0.31251742839813235,
      "memory(GiB)": 77.59,
      "step": 95775,
      "token_acc": 0.9375,
      "train_speed(iter/s)": 1.459457
    },
    {
      "epoch": 4.103508847093098,
      "grad_norm": 0.41424494981765747,
      "learning_rate": 7.724640210123312e-06,
      "loss": 0.5262028217315674,
      "memory(GiB)": 77.59,
      "step": 95780,
      "token_acc": 0.8759398496240601,
      "train_speed(iter/s)": 1.459466
    },
    {
      "epoch": 4.103723062422347,
      "grad_norm": 2.9872801303863525,
      "learning_rate": 7.721047136348076e-06,
      "loss": 0.6202744007110595,
      "memory(GiB)": 77.59,
      "step": 95785,
      "token_acc": 0.8741007194244604,
      "train_speed(iter/s)": 1.459479
    },
    {
      "epoch": 4.103937277751596,
      "grad_norm": 4.00942850112915,
      "learning_rate": 7.717454828495724e-06,
      "loss": 0.5279306888580322,
      "memory(GiB)": 77.59,
      "step": 95790,
      "token_acc": 0.8828828828828829,
      "train_speed(iter/s)": 1.459481
    },
    {
      "epoch": 4.1041514930808445,
      "grad_norm": 2.673140525817871,
      "learning_rate": 7.71386328663134e-06,
      "loss": 0.4416008472442627,
      "memory(GiB)": 77.59,
      "step": 95795,
      "token_acc": 0.9230769230769231,
      "train_speed(iter/s)": 1.459495
    },
    {
      "epoch": 4.104365708410094,
      "grad_norm": 3.1606342792510986,
      "learning_rate": 7.710272510819993e-06,
      "loss": 0.3506616592407227,
      "memory(GiB)": 77.59,
      "step": 95800,
      "token_acc": 0.9285714285714286,
      "train_speed(iter/s)": 1.459496
    },
    {
      "epoch": 4.104579923739343,
      "grad_norm": 2.7584280967712402,
      "learning_rate": 7.706682501126722e-06,
      "loss": 0.3518896341323853,
      "memory(GiB)": 77.59,
      "step": 95805,
      "token_acc": 0.9163987138263665,
      "train_speed(iter/s)": 1.459509
    },
    {
      "epoch": 4.104794139068591,
      "grad_norm": 5.9847636222839355,
      "learning_rate": 7.703093257616579e-06,
      "loss": 0.35430316925048827,
      "memory(GiB)": 77.59,
      "step": 95810,
      "token_acc": 0.9153094462540716,
      "train_speed(iter/s)": 1.459512
    },
    {
      "epoch": 4.105008354397841,
      "grad_norm": 3.0027198791503906,
      "learning_rate": 7.699504780354582e-06,
      "loss": 0.4687209129333496,
      "memory(GiB)": 77.59,
      "step": 95815,
      "token_acc": 0.9253246753246753,
      "train_speed(iter/s)": 1.459526
    },
    {
      "epoch": 4.10522256972709,
      "grad_norm": 2.109652042388916,
      "learning_rate": 7.69591706940574e-06,
      "loss": 0.38176865577697755,
      "memory(GiB)": 77.59,
      "step": 95820,
      "token_acc": 0.9363295880149812,
      "train_speed(iter/s)": 1.459538
    },
    {
      "epoch": 4.105436785056338,
      "grad_norm": 1.309617519378662,
      "learning_rate": 7.69233012483504e-06,
      "loss": 0.2930804967880249,
      "memory(GiB)": 77.59,
      "step": 95825,
      "token_acc": 0.9107142857142857,
      "train_speed(iter/s)": 1.459541
    },
    {
      "epoch": 4.1056510003855875,
      "grad_norm": 6.602456569671631,
      "learning_rate": 7.688743946707455e-06,
      "loss": 0.34668750762939454,
      "memory(GiB)": 77.59,
      "step": 95830,
      "token_acc": 0.919093851132686,
      "train_speed(iter/s)": 1.459542
    },
    {
      "epoch": 4.105865215714837,
      "grad_norm": 0.563772439956665,
      "learning_rate": 7.685158535087966e-06,
      "loss": 0.3276612997055054,
      "memory(GiB)": 77.59,
      "step": 95835,
      "token_acc": 0.9466192170818505,
      "train_speed(iter/s)": 1.459547
    },
    {
      "epoch": 4.106079431044085,
      "grad_norm": 5.045650959014893,
      "learning_rate": 7.681573890041539e-06,
      "loss": 0.49578680992126467,
      "memory(GiB)": 77.59,
      "step": 95840,
      "token_acc": 0.9,
      "train_speed(iter/s)": 1.459546
    },
    {
      "epoch": 4.106293646373334,
      "grad_norm": 2.157841205596924,
      "learning_rate": 7.677990011633096e-06,
      "loss": 0.19752026796340943,
      "memory(GiB)": 77.59,
      "step": 95845,
      "token_acc": 0.9554794520547946,
      "train_speed(iter/s)": 1.459547
    },
    {
      "epoch": 4.106507861702584,
      "grad_norm": 3.79158878326416,
      "learning_rate": 7.674406899927567e-06,
      "loss": 0.5302028179168701,
      "memory(GiB)": 77.59,
      "step": 95850,
      "token_acc": 0.8838028169014085,
      "train_speed(iter/s)": 1.459552
    },
    {
      "epoch": 4.106722077031832,
      "grad_norm": 5.438638687133789,
      "learning_rate": 7.670824554989858e-06,
      "loss": 0.35875544548034666,
      "memory(GiB)": 77.59,
      "step": 95855,
      "token_acc": 0.9217081850533808,
      "train_speed(iter/s)": 1.459565
    },
    {
      "epoch": 4.106936292361081,
      "grad_norm": 3.6664726734161377,
      "learning_rate": 7.667242976884875e-06,
      "loss": 0.3466258764266968,
      "memory(GiB)": 77.59,
      "step": 95860,
      "token_acc": 0.9272151898734177,
      "train_speed(iter/s)": 1.459568
    },
    {
      "epoch": 4.1071505076903305,
      "grad_norm": 0.3406655788421631,
      "learning_rate": 7.663662165677481e-06,
      "loss": 0.08716933727264405,
      "memory(GiB)": 77.59,
      "step": 95865,
      "token_acc": 0.9651567944250871,
      "train_speed(iter/s)": 1.45958
    },
    {
      "epoch": 4.107364723019579,
      "grad_norm": 1.6851065158843994,
      "learning_rate": 7.660082121432577e-06,
      "loss": 0.163592529296875,
      "memory(GiB)": 77.59,
      "step": 95870,
      "token_acc": 0.97265625,
      "train_speed(iter/s)": 1.459582
    },
    {
      "epoch": 4.107578938348828,
      "grad_norm": 2.255568504333496,
      "learning_rate": 7.656502844214996e-06,
      "loss": 0.2603933572769165,
      "memory(GiB)": 77.59,
      "step": 95875,
      "token_acc": 0.9256505576208178,
      "train_speed(iter/s)": 1.459595
    },
    {
      "epoch": 4.107793153678077,
      "grad_norm": 5.404271602630615,
      "learning_rate": 7.652924334089594e-06,
      "loss": 0.28052358627319335,
      "memory(GiB)": 77.59,
      "step": 95880,
      "token_acc": 0.9372822299651568,
      "train_speed(iter/s)": 1.459605
    },
    {
      "epoch": 4.108007369007326,
      "grad_norm": 2.949974775314331,
      "learning_rate": 7.649346591121193e-06,
      "loss": 0.4396796703338623,
      "memory(GiB)": 77.59,
      "step": 95885,
      "token_acc": 0.9051094890510949,
      "train_speed(iter/s)": 1.459608
    },
    {
      "epoch": 4.108221584336575,
      "grad_norm": 1.76039457321167,
      "learning_rate": 7.645769615374592e-06,
      "loss": 0.28672792911529543,
      "memory(GiB)": 77.59,
      "step": 95890,
      "token_acc": 0.9446494464944649,
      "train_speed(iter/s)": 1.45961
    },
    {
      "epoch": 4.108435799665824,
      "grad_norm": 4.2074103355407715,
      "learning_rate": 7.642193406914621e-06,
      "loss": 0.22196571826934813,
      "memory(GiB)": 77.59,
      "step": 95895,
      "token_acc": 0.953307392996109,
      "train_speed(iter/s)": 1.459611
    },
    {
      "epoch": 4.108650014995073,
      "grad_norm": 1.6357988119125366,
      "learning_rate": 7.638617965806038e-06,
      "loss": 0.22944726943969726,
      "memory(GiB)": 77.59,
      "step": 95900,
      "token_acc": 0.9522058823529411,
      "train_speed(iter/s)": 1.459615
    },
    {
      "epoch": 4.108864230324322,
      "grad_norm": 5.14609956741333,
      "learning_rate": 7.635043292113637e-06,
      "loss": 0.4139768123626709,
      "memory(GiB)": 77.59,
      "step": 95905,
      "token_acc": 0.9120879120879121,
      "train_speed(iter/s)": 1.45962
    },
    {
      "epoch": 4.109078445653571,
      "grad_norm": 2.485102415084839,
      "learning_rate": 7.631469385902173e-06,
      "loss": 0.42506103515625,
      "memory(GiB)": 77.59,
      "step": 95910,
      "token_acc": 0.9143730886850153,
      "train_speed(iter/s)": 1.459625
    },
    {
      "epoch": 4.1092926609828195,
      "grad_norm": 2.463040828704834,
      "learning_rate": 7.627896247236382e-06,
      "loss": 0.0961795449256897,
      "memory(GiB)": 77.59,
      "step": 95915,
      "token_acc": 0.9829059829059829,
      "train_speed(iter/s)": 1.459626
    },
    {
      "epoch": 4.109506876312069,
      "grad_norm": 3.8547871112823486,
      "learning_rate": 7.624323876180989e-06,
      "loss": 0.22413954734802247,
      "memory(GiB)": 77.59,
      "step": 95920,
      "token_acc": 0.9450867052023122,
      "train_speed(iter/s)": 1.459631
    },
    {
      "epoch": 4.109721091641318,
      "grad_norm": 3.2810988426208496,
      "learning_rate": 7.6207522728007354e-06,
      "loss": 0.359229588508606,
      "memory(GiB)": 77.59,
      "step": 95925,
      "token_acc": 0.8963210702341137,
      "train_speed(iter/s)": 1.459631
    },
    {
      "epoch": 4.109935306970566,
      "grad_norm": 3.3233697414398193,
      "learning_rate": 7.6171814371603035e-06,
      "loss": 0.3049289703369141,
      "memory(GiB)": 77.59,
      "step": 95930,
      "token_acc": 0.9182389937106918,
      "train_speed(iter/s)": 1.459633
    },
    {
      "epoch": 4.110149522299816,
      "grad_norm": 6.171472072601318,
      "learning_rate": 7.613611369324392e-06,
      "loss": 0.5367675304412842,
      "memory(GiB)": 77.59,
      "step": 95935,
      "token_acc": 0.876,
      "train_speed(iter/s)": 1.459638
    },
    {
      "epoch": 4.110363737629065,
      "grad_norm": 4.257186412811279,
      "learning_rate": 7.61004206935767e-06,
      "loss": 0.4161534786224365,
      "memory(GiB)": 77.59,
      "step": 95940,
      "token_acc": 0.9073482428115016,
      "train_speed(iter/s)": 1.45964
    },
    {
      "epoch": 4.110577952958313,
      "grad_norm": 2.749199151992798,
      "learning_rate": 7.606473537324804e-06,
      "loss": 0.2886219024658203,
      "memory(GiB)": 77.59,
      "step": 95945,
      "token_acc": 0.9335664335664335,
      "train_speed(iter/s)": 1.459645
    },
    {
      "epoch": 4.1107921682875626,
      "grad_norm": 5.870785713195801,
      "learning_rate": 7.602905773290425e-06,
      "loss": 0.31442010402679443,
      "memory(GiB)": 77.59,
      "step": 95950,
      "token_acc": 0.9206349206349206,
      "train_speed(iter/s)": 1.459644
    },
    {
      "epoch": 4.111006383616812,
      "grad_norm": 3.1145882606506348,
      "learning_rate": 7.599338777319192e-06,
      "loss": 0.28844165802001953,
      "memory(GiB)": 77.59,
      "step": 95955,
      "token_acc": 0.9304635761589404,
      "train_speed(iter/s)": 1.459649
    },
    {
      "epoch": 4.11122059894606,
      "grad_norm": 1.9343202114105225,
      "learning_rate": 7.59577254947571e-06,
      "loss": 0.19529086351394653,
      "memory(GiB)": 77.59,
      "step": 95960,
      "token_acc": 0.9440298507462687,
      "train_speed(iter/s)": 1.459648
    },
    {
      "epoch": 4.111434814275309,
      "grad_norm": 1.8779592514038086,
      "learning_rate": 7.592207089824588e-06,
      "loss": 0.521448802947998,
      "memory(GiB)": 77.59,
      "step": 95965,
      "token_acc": 0.8901515151515151,
      "train_speed(iter/s)": 1.459656
    },
    {
      "epoch": 4.111649029604559,
      "grad_norm": 3.779987335205078,
      "learning_rate": 7.5886423984304125e-06,
      "loss": 0.4492375373840332,
      "memory(GiB)": 77.59,
      "step": 95970,
      "token_acc": 0.9132947976878613,
      "train_speed(iter/s)": 1.459664
    },
    {
      "epoch": 4.111863244933807,
      "grad_norm": 3.402118682861328,
      "learning_rate": 7.58507847535776e-06,
      "loss": 0.3751258850097656,
      "memory(GiB)": 77.59,
      "step": 95975,
      "token_acc": 0.9347181008902077,
      "train_speed(iter/s)": 1.45967
    },
    {
      "epoch": 4.112077460263056,
      "grad_norm": 2.6913416385650635,
      "learning_rate": 7.5815153206711955e-06,
      "loss": 0.33190891742706297,
      "memory(GiB)": 77.59,
      "step": 95980,
      "token_acc": 0.9179331306990881,
      "train_speed(iter/s)": 1.45967
    },
    {
      "epoch": 4.112291675592306,
      "grad_norm": 6.933797359466553,
      "learning_rate": 7.577952934435284e-06,
      "loss": 0.3557994842529297,
      "memory(GiB)": 77.59,
      "step": 95985,
      "token_acc": 0.9225352112676056,
      "train_speed(iter/s)": 1.459675
    },
    {
      "epoch": 4.112505890921554,
      "grad_norm": 3.8386645317077637,
      "learning_rate": 7.574391316714552e-06,
      "loss": 0.27078871726989745,
      "memory(GiB)": 77.59,
      "step": 95990,
      "token_acc": 0.9310344827586207,
      "train_speed(iter/s)": 1.459681
    },
    {
      "epoch": 4.112720106250803,
      "grad_norm": 1.6881234645843506,
      "learning_rate": 7.57083046757352e-06,
      "loss": 0.3227804660797119,
      "memory(GiB)": 77.59,
      "step": 95995,
      "token_acc": 0.9462025316455697,
      "train_speed(iter/s)": 1.459682
    },
    {
      "epoch": 4.1129343215800525,
      "grad_norm": 0.6807956099510193,
      "learning_rate": 7.567270387076692e-06,
      "loss": 0.28503572940826416,
      "memory(GiB)": 77.59,
      "step": 96000,
      "token_acc": 0.9518072289156626,
      "train_speed(iter/s)": 1.459692
    },
    {
      "epoch": 4.1129343215800525,
      "eval_loss": 2.2138919830322266,
      "eval_runtime": 11.6636,
      "eval_samples_per_second": 8.574,
      "eval_steps_per_second": 8.574,
      "eval_token_acc": 0.4821648216482165,
      "step": 96000
    },
    {
      "epoch": 4.113148536909301,
      "grad_norm": 2.0897743701934814,
      "learning_rate": 7.563711075288571e-06,
      "loss": 0.21464641094207765,
      "memory(GiB)": 77.59,
      "step": 96005,
      "token_acc": 0.6128456735057984,
      "train_speed(iter/s)": 1.459414
    },
    {
      "epoch": 4.11336275223855,
      "grad_norm": 1.4704391956329346,
      "learning_rate": 7.560152532273618e-06,
      "loss": 0.397432279586792,
      "memory(GiB)": 77.59,
      "step": 96010,
      "token_acc": 0.9012345679012346,
      "train_speed(iter/s)": 1.459428
    },
    {
      "epoch": 4.113576967567799,
      "grad_norm": 4.191709518432617,
      "learning_rate": 7.556594758096325e-06,
      "loss": 0.7234666824340821,
      "memory(GiB)": 77.59,
      "step": 96015,
      "token_acc": 0.8424908424908425,
      "train_speed(iter/s)": 1.459437
    },
    {
      "epoch": 4.113791182897048,
      "grad_norm": 7.047314167022705,
      "learning_rate": 7.553037752821135e-06,
      "loss": 0.5141180992126465,
      "memory(GiB)": 77.59,
      "step": 96020,
      "token_acc": 0.9235880398671097,
      "train_speed(iter/s)": 1.459441
    },
    {
      "epoch": 4.114005398226297,
      "grad_norm": 2.298607587814331,
      "learning_rate": 7.549481516512485e-06,
      "loss": 0.22899222373962402,
      "memory(GiB)": 77.59,
      "step": 96025,
      "token_acc": 0.9230769230769231,
      "train_speed(iter/s)": 1.459456
    },
    {
      "epoch": 4.114219613555546,
      "grad_norm": 0.33425456285476685,
      "learning_rate": 7.5459260492347975e-06,
      "loss": 0.24473872184753417,
      "memory(GiB)": 77.59,
      "step": 96030,
      "token_acc": 0.9512195121951219,
      "train_speed(iter/s)": 1.45946
    },
    {
      "epoch": 4.114433828884795,
      "grad_norm": 3.45466685295105,
      "learning_rate": 7.5423713510524745e-06,
      "loss": 0.5416419029235839,
      "memory(GiB)": 77.59,
      "step": 96035,
      "token_acc": 0.8853503184713376,
      "train_speed(iter/s)": 1.45946
    },
    {
      "epoch": 4.114648044214044,
      "grad_norm": 2.943100690841675,
      "learning_rate": 7.538817422029931e-06,
      "loss": 0.3913369655609131,
      "memory(GiB)": 77.59,
      "step": 96040,
      "token_acc": 0.903114186851211,
      "train_speed(iter/s)": 1.459462
    },
    {
      "epoch": 4.114862259543293,
      "grad_norm": 3.685288667678833,
      "learning_rate": 7.535264262231545e-06,
      "loss": 0.37957148551940917,
      "memory(GiB)": 77.59,
      "step": 96045,
      "token_acc": 0.8981818181818182,
      "train_speed(iter/s)": 1.459474
    },
    {
      "epoch": 4.1150764748725415,
      "grad_norm": 2.9879441261291504,
      "learning_rate": 7.531711871721669e-06,
      "loss": 0.26218347549438475,
      "memory(GiB)": 77.59,
      "step": 96050,
      "token_acc": 0.9377162629757786,
      "train_speed(iter/s)": 1.459474
    },
    {
      "epoch": 4.115290690201791,
      "grad_norm": 4.533926963806152,
      "learning_rate": 7.528160250564681e-06,
      "loss": 0.18371137380599975,
      "memory(GiB)": 77.59,
      "step": 96055,
      "token_acc": 0.9490445859872612,
      "train_speed(iter/s)": 1.459474
    },
    {
      "epoch": 4.11550490553104,
      "grad_norm": 4.094937324523926,
      "learning_rate": 7.524609398824916e-06,
      "loss": 0.5571147918701171,
      "memory(GiB)": 77.59,
      "step": 96060,
      "token_acc": 0.8945686900958466,
      "train_speed(iter/s)": 1.459483
    },
    {
      "epoch": 4.115719120860288,
      "grad_norm": 2.1566760540008545,
      "learning_rate": 7.521059316566681e-06,
      "loss": 0.15958573818206787,
      "memory(GiB)": 77.59,
      "step": 96065,
      "token_acc": 0.9581881533101045,
      "train_speed(iter/s)": 1.45948
    },
    {
      "epoch": 4.115933336189538,
      "grad_norm": 6.740076541900635,
      "learning_rate": 7.517510003854322e-06,
      "loss": 0.5067630767822265,
      "memory(GiB)": 77.59,
      "step": 96070,
      "token_acc": 0.8974358974358975,
      "train_speed(iter/s)": 1.459493
    },
    {
      "epoch": 4.116147551518787,
      "grad_norm": 1.824054479598999,
      "learning_rate": 7.513961460752117e-06,
      "loss": 0.24074060916900636,
      "memory(GiB)": 77.59,
      "step": 96075,
      "token_acc": 0.9288537549407114,
      "train_speed(iter/s)": 1.459496
    },
    {
      "epoch": 4.116361766848035,
      "grad_norm": 4.2435383796691895,
      "learning_rate": 7.510413687324358e-06,
      "loss": 0.36558306217193604,
      "memory(GiB)": 77.59,
      "step": 96080,
      "token_acc": 0.9301470588235294,
      "train_speed(iter/s)": 1.459493
    },
    {
      "epoch": 4.1165759821772845,
      "grad_norm": 4.906698703765869,
      "learning_rate": 7.506866683635311e-06,
      "loss": 0.4813060760498047,
      "memory(GiB)": 77.59,
      "step": 96085,
      "token_acc": 0.8664259927797834,
      "train_speed(iter/s)": 1.459493
    },
    {
      "epoch": 4.116790197506534,
      "grad_norm": 2.718520164489746,
      "learning_rate": 7.503320449749235e-06,
      "loss": 0.294072699546814,
      "memory(GiB)": 77.59,
      "step": 96090,
      "token_acc": 0.9292604501607717,
      "train_speed(iter/s)": 1.459497
    },
    {
      "epoch": 4.117004412835782,
      "grad_norm": 4.372956275939941,
      "learning_rate": 7.499774985730363e-06,
      "loss": 0.29252893924713136,
      "memory(GiB)": 77.59,
      "step": 96095,
      "token_acc": 0.9318181818181818,
      "train_speed(iter/s)": 1.4595
    },
    {
      "epoch": 4.117218628165031,
      "grad_norm": 2.889756679534912,
      "learning_rate": 7.496230291642947e-06,
      "loss": 0.5981541156768799,
      "memory(GiB)": 77.59,
      "step": 96100,
      "token_acc": 0.8776758409785933,
      "train_speed(iter/s)": 1.459498
    },
    {
      "epoch": 4.117432843494281,
      "grad_norm": 2.3575849533081055,
      "learning_rate": 7.492686367551194e-06,
      "loss": 0.2508898973464966,
      "memory(GiB)": 77.59,
      "step": 96105,
      "token_acc": 0.9455128205128205,
      "train_speed(iter/s)": 1.459504
    },
    {
      "epoch": 4.117647058823529,
      "grad_norm": 0.2702142596244812,
      "learning_rate": 7.489143213519301e-06,
      "loss": 0.40923585891723635,
      "memory(GiB)": 77.59,
      "step": 96110,
      "token_acc": 0.9263565891472868,
      "train_speed(iter/s)": 1.459508
    },
    {
      "epoch": 4.117861274152778,
      "grad_norm": 1.8716295957565308,
      "learning_rate": 7.485600829611456e-06,
      "loss": 0.36980471611022947,
      "memory(GiB)": 77.59,
      "step": 96115,
      "token_acc": 0.9134948096885813,
      "train_speed(iter/s)": 1.459511
    },
    {
      "epoch": 4.1180754894820275,
      "grad_norm": 2.869042158126831,
      "learning_rate": 7.482059215891823e-06,
      "loss": 0.3460922002792358,
      "memory(GiB)": 77.59,
      "step": 96120,
      "token_acc": 0.9288389513108615,
      "train_speed(iter/s)": 1.459513
    },
    {
      "epoch": 4.118289704811276,
      "grad_norm": 0.6275534629821777,
      "learning_rate": 7.478518372424576e-06,
      "loss": 0.3245592832565308,
      "memory(GiB)": 77.59,
      "step": 96125,
      "token_acc": 0.917910447761194,
      "train_speed(iter/s)": 1.459514
    },
    {
      "epoch": 4.118503920140525,
      "grad_norm": 2.1310527324676514,
      "learning_rate": 7.474978299273861e-06,
      "loss": 0.35756916999816896,
      "memory(GiB)": 77.59,
      "step": 96130,
      "token_acc": 0.9015384615384615,
      "train_speed(iter/s)": 1.459521
    },
    {
      "epoch": 4.118718135469774,
      "grad_norm": 2.219191789627075,
      "learning_rate": 7.47143899650381e-06,
      "loss": 0.25843513011932373,
      "memory(GiB)": 77.59,
      "step": 96135,
      "token_acc": 0.9513888888888888,
      "train_speed(iter/s)": 1.459519
    },
    {
      "epoch": 4.118932350799023,
      "grad_norm": 2.3265321254730225,
      "learning_rate": 7.467900464178534e-06,
      "loss": 0.32662386894226075,
      "memory(GiB)": 77.59,
      "step": 96140,
      "token_acc": 0.937984496124031,
      "train_speed(iter/s)": 1.459519
    },
    {
      "epoch": 4.119146566128272,
      "grad_norm": 3.47356915473938,
      "learning_rate": 7.4643627023621435e-06,
      "loss": 0.2193305730819702,
      "memory(GiB)": 77.59,
      "step": 96145,
      "token_acc": 0.9448818897637795,
      "train_speed(iter/s)": 1.45952
    },
    {
      "epoch": 4.119360781457521,
      "grad_norm": 2.042346954345703,
      "learning_rate": 7.460825711118724e-06,
      "loss": 0.2316370964050293,
      "memory(GiB)": 77.59,
      "step": 96150,
      "token_acc": 0.9371069182389937,
      "train_speed(iter/s)": 1.459519
    },
    {
      "epoch": 4.11957499678677,
      "grad_norm": 3.816188097000122,
      "learning_rate": 7.457289490512337e-06,
      "loss": 0.46909432411193847,
      "memory(GiB)": 77.59,
      "step": 96155,
      "token_acc": 0.9178470254957507,
      "train_speed(iter/s)": 1.459518
    },
    {
      "epoch": 4.119789212116019,
      "grad_norm": 3.507511854171753,
      "learning_rate": 7.453754040607075e-06,
      "loss": 0.41955065727233887,
      "memory(GiB)": 77.59,
      "step": 96160,
      "token_acc": 0.9196787148594378,
      "train_speed(iter/s)": 1.459519
    },
    {
      "epoch": 4.120003427445268,
      "grad_norm": 5.561809062957764,
      "learning_rate": 7.450219361466965e-06,
      "loss": 0.3066245555877686,
      "memory(GiB)": 77.59,
      "step": 96165,
      "token_acc": 0.9281045751633987,
      "train_speed(iter/s)": 1.459523
    },
    {
      "epoch": 4.1202176427745165,
      "grad_norm": 1.873422384262085,
      "learning_rate": 7.44668545315605e-06,
      "loss": 0.3027423143386841,
      "memory(GiB)": 77.59,
      "step": 96170,
      "token_acc": 0.9419795221843004,
      "train_speed(iter/s)": 1.459524
    },
    {
      "epoch": 4.120431858103766,
      "grad_norm": 2.903149127960205,
      "learning_rate": 7.443152315738344e-06,
      "loss": 0.5142850875854492,
      "memory(GiB)": 77.59,
      "step": 96175,
      "token_acc": 0.9075342465753424,
      "train_speed(iter/s)": 1.459525
    },
    {
      "epoch": 4.120646073433015,
      "grad_norm": 2.202873706817627,
      "learning_rate": 7.439619949277848e-06,
      "loss": 0.21478683948516847,
      "memory(GiB)": 77.59,
      "step": 96180,
      "token_acc": 0.9554655870445344,
      "train_speed(iter/s)": 1.459527
    },
    {
      "epoch": 4.120860288762263,
      "grad_norm": 3.0754528045654297,
      "learning_rate": 7.436088353838566e-06,
      "loss": 0.5497416973114013,
      "memory(GiB)": 77.59,
      "step": 96185,
      "token_acc": 0.8888888888888888,
      "train_speed(iter/s)": 1.459527
    },
    {
      "epoch": 4.121074504091513,
      "grad_norm": 3.742068290710449,
      "learning_rate": 7.432557529484479e-06,
      "loss": 0.4993183135986328,
      "memory(GiB)": 77.59,
      "step": 96190,
      "token_acc": 0.9058171745152355,
      "train_speed(iter/s)": 1.459536
    },
    {
      "epoch": 4.121288719420762,
      "grad_norm": 3.714625597000122,
      "learning_rate": 7.4290274762795265e-06,
      "loss": 0.31265738010406496,
      "memory(GiB)": 77.59,
      "step": 96195,
      "token_acc": 0.9049586776859504,
      "train_speed(iter/s)": 1.459538
    },
    {
      "epoch": 4.12150293475001,
      "grad_norm": 0.719196081161499,
      "learning_rate": 7.425498194287689e-06,
      "loss": 0.4114699363708496,
      "memory(GiB)": 77.59,
      "step": 96200,
      "token_acc": 0.9066666666666666,
      "train_speed(iter/s)": 1.459561
    },
    {
      "epoch": 4.1217171500792595,
      "grad_norm": 5.391012191772461,
      "learning_rate": 7.421969683572894e-06,
      "loss": 0.3543818235397339,
      "memory(GiB)": 77.59,
      "step": 96205,
      "token_acc": 0.912,
      "train_speed(iter/s)": 1.459565
    },
    {
      "epoch": 4.121931365408509,
      "grad_norm": 2.8996658325195312,
      "learning_rate": 7.418441944199045e-06,
      "loss": 0.33328382968902587,
      "memory(GiB)": 77.59,
      "step": 96210,
      "token_acc": 0.9225589225589226,
      "train_speed(iter/s)": 1.459568
    },
    {
      "epoch": 4.122145580737757,
      "grad_norm": 5.442002296447754,
      "learning_rate": 7.414914976230075e-06,
      "loss": 0.29532060623168943,
      "memory(GiB)": 77.59,
      "step": 96215,
      "token_acc": 0.9367088607594937,
      "train_speed(iter/s)": 1.459574
    },
    {
      "epoch": 4.122359796067006,
      "grad_norm": 2.009814500808716,
      "learning_rate": 7.411388779729872e-06,
      "loss": 0.4960793018341064,
      "memory(GiB)": 77.59,
      "step": 96220,
      "token_acc": 0.8828337874659401,
      "train_speed(iter/s)": 1.459573
    },
    {
      "epoch": 4.122574011396256,
      "grad_norm": 5.829534530639648,
      "learning_rate": 7.4078633547623065e-06,
      "loss": 0.4248184680938721,
      "memory(GiB)": 77.59,
      "step": 96225,
      "token_acc": 0.9148936170212766,
      "train_speed(iter/s)": 1.459583
    },
    {
      "epoch": 4.122788226725504,
      "grad_norm": 4.031980037689209,
      "learning_rate": 7.404338701391256e-06,
      "loss": 0.21199193000793456,
      "memory(GiB)": 77.59,
      "step": 96230,
      "token_acc": 0.9553264604810997,
      "train_speed(iter/s)": 1.459591
    },
    {
      "epoch": 4.123002442054753,
      "grad_norm": 2.35026478767395,
      "learning_rate": 7.400814819680568e-06,
      "loss": 0.14841647148132325,
      "memory(GiB)": 77.59,
      "step": 96235,
      "token_acc": 0.9514925373134329,
      "train_speed(iter/s)": 1.459603
    },
    {
      "epoch": 4.123216657384003,
      "grad_norm": 2.0219197273254395,
      "learning_rate": 7.397291709694065e-06,
      "loss": 0.38639862537384034,
      "memory(GiB)": 77.59,
      "step": 96240,
      "token_acc": 0.9259259259259259,
      "train_speed(iter/s)": 1.459609
    },
    {
      "epoch": 4.123430872713251,
      "grad_norm": 4.215966701507568,
      "learning_rate": 7.393769371495602e-06,
      "loss": 0.5459198951721191,
      "memory(GiB)": 77.59,
      "step": 96245,
      "token_acc": 0.8885245901639345,
      "train_speed(iter/s)": 1.459608
    },
    {
      "epoch": 4.1236450880425,
      "grad_norm": 3.4303529262542725,
      "learning_rate": 7.390247805148976e-06,
      "loss": 0.4477085113525391,
      "memory(GiB)": 77.59,
      "step": 96250,
      "token_acc": 0.9084249084249084,
      "train_speed(iter/s)": 1.459616
    },
    {
      "epoch": 4.123859303371749,
      "grad_norm": 5.288018226623535,
      "learning_rate": 7.386727010717981e-06,
      "loss": 0.37794744968414307,
      "memory(GiB)": 77.59,
      "step": 96255,
      "token_acc": 0.9245283018867925,
      "train_speed(iter/s)": 1.459632
    },
    {
      "epoch": 4.124073518700998,
      "grad_norm": 3.763664722442627,
      "learning_rate": 7.3832069882664e-06,
      "loss": 0.32861392498016356,
      "memory(GiB)": 77.59,
      "step": 96260,
      "token_acc": 0.9260700389105059,
      "train_speed(iter/s)": 1.459636
    },
    {
      "epoch": 4.124287734030247,
      "grad_norm": 2.0185210704803467,
      "learning_rate": 7.379687737857987e-06,
      "loss": 0.29864494800567626,
      "memory(GiB)": 77.59,
      "step": 96265,
      "token_acc": 0.9468085106382979,
      "train_speed(iter/s)": 1.45965
    },
    {
      "epoch": 4.124501949359496,
      "grad_norm": 2.273698568344116,
      "learning_rate": 7.37616925955652e-06,
      "loss": 0.4743161201477051,
      "memory(GiB)": 77.59,
      "step": 96270,
      "token_acc": 0.8958990536277602,
      "train_speed(iter/s)": 1.459649
    },
    {
      "epoch": 4.124716164688745,
      "grad_norm": 1.4936145544052124,
      "learning_rate": 7.372651553425735e-06,
      "loss": 0.3514869689941406,
      "memory(GiB)": 77.59,
      "step": 96275,
      "token_acc": 0.9339622641509434,
      "train_speed(iter/s)": 1.459658
    },
    {
      "epoch": 4.124930380017994,
      "grad_norm": 4.2255859375,
      "learning_rate": 7.369134619529361e-06,
      "loss": 0.3003955841064453,
      "memory(GiB)": 77.59,
      "step": 96280,
      "token_acc": 0.9257950530035336,
      "train_speed(iter/s)": 1.459669
    },
    {
      "epoch": 4.125144595347243,
      "grad_norm": 1.693981409072876,
      "learning_rate": 7.365618457931101e-06,
      "loss": 0.2673905372619629,
      "memory(GiB)": 77.59,
      "step": 96285,
      "token_acc": 0.935672514619883,
      "train_speed(iter/s)": 1.459668
    },
    {
      "epoch": 4.125358810676492,
      "grad_norm": 2.308337926864624,
      "learning_rate": 7.362103068694653e-06,
      "loss": 0.26192440986633303,
      "memory(GiB)": 77.59,
      "step": 96290,
      "token_acc": 0.9335664335664335,
      "train_speed(iter/s)": 1.459667
    },
    {
      "epoch": 4.125573026005741,
      "grad_norm": 5.600395679473877,
      "learning_rate": 7.358588451883714e-06,
      "loss": 0.48440232276916506,
      "memory(GiB)": 77.59,
      "step": 96295,
      "token_acc": 0.875,
      "train_speed(iter/s)": 1.459666
    },
    {
      "epoch": 4.12578724133499,
      "grad_norm": 2.1284070014953613,
      "learning_rate": 7.355074607561929e-06,
      "loss": 0.36704487800598146,
      "memory(GiB)": 77.59,
      "step": 96300,
      "token_acc": 0.9346590909090909,
      "train_speed(iter/s)": 1.45967
    },
    {
      "epoch": 4.126001456664239,
      "grad_norm": 2.362717390060425,
      "learning_rate": 7.351561535792984e-06,
      "loss": 0.12691934108734132,
      "memory(GiB)": 77.59,
      "step": 96305,
      "token_acc": 0.9635036496350365,
      "train_speed(iter/s)": 1.459674
    },
    {
      "epoch": 4.126215671993488,
      "grad_norm": 0.23203186690807343,
      "learning_rate": 7.348049236640509e-06,
      "loss": 0.20752642154693604,
      "memory(GiB)": 77.59,
      "step": 96310,
      "token_acc": 0.9567901234567902,
      "train_speed(iter/s)": 1.459685
    },
    {
      "epoch": 4.126429887322737,
      "grad_norm": 3.606544256210327,
      "learning_rate": 7.344537710168136e-06,
      "loss": 0.3387579441070557,
      "memory(GiB)": 77.59,
      "step": 96315,
      "token_acc": 0.94921875,
      "train_speed(iter/s)": 1.459695
    },
    {
      "epoch": 4.126644102651985,
      "grad_norm": 3.076935291290283,
      "learning_rate": 7.3410269564394725e-06,
      "loss": 0.43465166091918944,
      "memory(GiB)": 77.59,
      "step": 96320,
      "token_acc": 0.9093959731543624,
      "train_speed(iter/s)": 1.459697
    },
    {
      "epoch": 4.126858317981235,
      "grad_norm": 3.831350803375244,
      "learning_rate": 7.337516975518116e-06,
      "loss": 0.32822585105895996,
      "memory(GiB)": 77.59,
      "step": 96325,
      "token_acc": 0.92,
      "train_speed(iter/s)": 1.459711
    },
    {
      "epoch": 4.127072533310484,
      "grad_norm": 2.396674871444702,
      "learning_rate": 7.334007767467666e-06,
      "loss": 0.511937141418457,
      "memory(GiB)": 77.59,
      "step": 96330,
      "token_acc": 0.881578947368421,
      "train_speed(iter/s)": 1.459715
    },
    {
      "epoch": 4.127286748639733,
      "grad_norm": 2.3970015048980713,
      "learning_rate": 7.330499332351692e-06,
      "loss": 0.49962940216064455,
      "memory(GiB)": 77.59,
      "step": 96335,
      "token_acc": 0.889967637540453,
      "train_speed(iter/s)": 1.459726
    },
    {
      "epoch": 4.1275009639689815,
      "grad_norm": 4.5045623779296875,
      "learning_rate": 7.326991670233751e-06,
      "loss": 0.6093682765960693,
      "memory(GiB)": 77.59,
      "step": 96340,
      "token_acc": 0.8775510204081632,
      "train_speed(iter/s)": 1.459731
    },
    {
      "epoch": 4.127715179298231,
      "grad_norm": 5.565774917602539,
      "learning_rate": 7.3234847811773755e-06,
      "loss": 0.30778956413269043,
      "memory(GiB)": 77.59,
      "step": 96345,
      "token_acc": 0.9535714285714286,
      "train_speed(iter/s)": 1.459742
    },
    {
      "epoch": 4.127929394627479,
      "grad_norm": 3.1203606128692627,
      "learning_rate": 7.319978665246113e-06,
      "loss": 0.37822566032409666,
      "memory(GiB)": 77.59,
      "step": 96350,
      "token_acc": 0.9051094890510949,
      "train_speed(iter/s)": 1.459745
    },
    {
      "epoch": 4.128143609956728,
      "grad_norm": 0.1746746152639389,
      "learning_rate": 7.31647332250347e-06,
      "loss": 0.16248605251312256,
      "memory(GiB)": 77.59,
      "step": 96355,
      "token_acc": 0.968503937007874,
      "train_speed(iter/s)": 1.459749
    },
    {
      "epoch": 4.128357825285978,
      "grad_norm": 3.348982572555542,
      "learning_rate": 7.312968753012961e-06,
      "loss": 0.2970393180847168,
      "memory(GiB)": 77.59,
      "step": 96360,
      "token_acc": 0.9387096774193548,
      "train_speed(iter/s)": 1.459754
    },
    {
      "epoch": 4.128572040615227,
      "grad_norm": 3.4793410301208496,
      "learning_rate": 7.309464956838063e-06,
      "loss": 0.25054900646209716,
      "memory(GiB)": 77.59,
      "step": 96365,
      "token_acc": 0.9316546762589928,
      "train_speed(iter/s)": 1.459753
    },
    {
      "epoch": 4.128786255944475,
      "grad_norm": 7.026834964752197,
      "learning_rate": 7.30596193404226e-06,
      "loss": 0.5968217849731445,
      "memory(GiB)": 77.59,
      "step": 96370,
      "token_acc": 0.879245283018868,
      "train_speed(iter/s)": 1.459761
    },
    {
      "epoch": 4.1290004712737245,
      "grad_norm": 3.632438898086548,
      "learning_rate": 7.302459684689006e-06,
      "loss": 0.3491785526275635,
      "memory(GiB)": 77.59,
      "step": 96375,
      "token_acc": 0.9333333333333333,
      "train_speed(iter/s)": 1.459769
    },
    {
      "epoch": 4.129214686602973,
      "grad_norm": 6.652271270751953,
      "learning_rate": 7.298958208841744e-06,
      "loss": 0.46164937019348146,
      "memory(GiB)": 77.59,
      "step": 96380,
      "token_acc": 0.9086021505376344,
      "train_speed(iter/s)": 1.45978
    },
    {
      "epoch": 4.129428901932222,
      "grad_norm": 1.8816431760787964,
      "learning_rate": 7.295457506563902e-06,
      "loss": 0.4554474353790283,
      "memory(GiB)": 77.59,
      "step": 96385,
      "token_acc": 0.8941605839416058,
      "train_speed(iter/s)": 1.459793
    },
    {
      "epoch": 4.129643117261471,
      "grad_norm": 2.940006971359253,
      "learning_rate": 7.291957577918923e-06,
      "loss": 0.4032088279724121,
      "memory(GiB)": 77.59,
      "step": 96390,
      "token_acc": 0.9329268292682927,
      "train_speed(iter/s)": 1.459798
    },
    {
      "epoch": 4.129857332590721,
      "grad_norm": 2.275182008743286,
      "learning_rate": 7.288458422970191e-06,
      "loss": 0.2792295694351196,
      "memory(GiB)": 77.59,
      "step": 96395,
      "token_acc": 0.9260700389105059,
      "train_speed(iter/s)": 1.459809
    },
    {
      "epoch": 4.130071547919969,
      "grad_norm": 3.639805316925049,
      "learning_rate": 7.284960041781102e-06,
      "loss": 0.4269711971282959,
      "memory(GiB)": 77.59,
      "step": 96400,
      "token_acc": 0.9072164948453608,
      "train_speed(iter/s)": 1.459813
    },
    {
      "epoch": 4.130285763249218,
      "grad_norm": 1.9992176294326782,
      "learning_rate": 7.281462434415032e-06,
      "loss": 0.25500895977020266,
      "memory(GiB)": 77.59,
      "step": 96405,
      "token_acc": 0.9446366782006921,
      "train_speed(iter/s)": 1.459817
    },
    {
      "epoch": 4.130499978578467,
      "grad_norm": 0.45860573649406433,
      "learning_rate": 7.277965600935333e-06,
      "loss": 0.5269485950469971,
      "memory(GiB)": 77.59,
      "step": 96410,
      "token_acc": 0.8726114649681529,
      "train_speed(iter/s)": 1.459825
    },
    {
      "epoch": 4.130714193907716,
      "grad_norm": 4.093488693237305,
      "learning_rate": 7.274469541405376e-06,
      "loss": 0.20254085063934327,
      "memory(GiB)": 77.59,
      "step": 96415,
      "token_acc": 0.9519650655021834,
      "train_speed(iter/s)": 1.459829
    },
    {
      "epoch": 4.130928409236965,
      "grad_norm": 4.170108318328857,
      "learning_rate": 7.270974255888469e-06,
      "loss": 0.21731324195861818,
      "memory(GiB)": 77.59,
      "step": 96420,
      "token_acc": 0.9372693726937269,
      "train_speed(iter/s)": 1.459833
    },
    {
      "epoch": 4.131142624566214,
      "grad_norm": 1.9929355382919312,
      "learning_rate": 7.267479744447958e-06,
      "loss": 0.30321598052978516,
      "memory(GiB)": 77.59,
      "step": 96425,
      "token_acc": 0.9554655870445344,
      "train_speed(iter/s)": 1.459845
    },
    {
      "epoch": 4.131356839895463,
      "grad_norm": 0.773847758769989,
      "learning_rate": 7.263986007147139e-06,
      "loss": 0.2157459020614624,
      "memory(GiB)": 77.59,
      "step": 96430,
      "token_acc": 0.9368029739776952,
      "train_speed(iter/s)": 1.459847
    },
    {
      "epoch": 4.131571055224712,
      "grad_norm": 3.9934890270233154,
      "learning_rate": 7.260493044049299e-06,
      "loss": 0.6771902084350586,
      "memory(GiB)": 77.59,
      "step": 96435,
      "token_acc": 0.8706293706293706,
      "train_speed(iter/s)": 1.459845
    },
    {
      "epoch": 4.13178527055396,
      "grad_norm": 3.710667848587036,
      "learning_rate": 7.257000855217727e-06,
      "loss": 0.3264575958251953,
      "memory(GiB)": 77.59,
      "step": 96440,
      "token_acc": 0.9204152249134948,
      "train_speed(iter/s)": 1.459845
    },
    {
      "epoch": 4.13199948588321,
      "grad_norm": 2.8145952224731445,
      "learning_rate": 7.253509440715667e-06,
      "loss": 0.3412631511688232,
      "memory(GiB)": 77.59,
      "step": 96445,
      "token_acc": 0.89568345323741,
      "train_speed(iter/s)": 1.459843
    },
    {
      "epoch": 4.132213701212459,
      "grad_norm": 2.4131031036376953,
      "learning_rate": 7.25001880060639e-06,
      "loss": 0.26494498252868653,
      "memory(GiB)": 77.59,
      "step": 96450,
      "token_acc": 0.9472049689440993,
      "train_speed(iter/s)": 1.459846
    },
    {
      "epoch": 4.132427916541708,
      "grad_norm": 0.2843936085700989,
      "learning_rate": 7.246528934953128e-06,
      "loss": 0.23514223098754883,
      "memory(GiB)": 77.59,
      "step": 96455,
      "token_acc": 0.9504950495049505,
      "train_speed(iter/s)": 1.459851
    },
    {
      "epoch": 4.1326421318709565,
      "grad_norm": 1.965881109237671,
      "learning_rate": 7.243039843819105e-06,
      "loss": 0.4938494682312012,
      "memory(GiB)": 77.59,
      "step": 96460,
      "token_acc": 0.8939393939393939,
      "train_speed(iter/s)": 1.459845
    },
    {
      "epoch": 4.132856347200206,
      "grad_norm": 7.20706844329834,
      "learning_rate": 7.2395515272675186e-06,
      "loss": 0.14912973642349242,
      "memory(GiB)": 77.59,
      "step": 96465,
      "token_acc": 0.9595141700404858,
      "train_speed(iter/s)": 1.459851
    },
    {
      "epoch": 4.133070562529454,
      "grad_norm": 3.2789433002471924,
      "learning_rate": 7.236063985361563e-06,
      "loss": 0.5888936519622803,
      "memory(GiB)": 77.59,
      "step": 96470,
      "token_acc": 0.8698224852071006,
      "train_speed(iter/s)": 1.459857
    },
    {
      "epoch": 4.133284777858703,
      "grad_norm": 2.896785020828247,
      "learning_rate": 7.232577218164427e-06,
      "loss": 0.3819873809814453,
      "memory(GiB)": 77.59,
      "step": 96475,
      "token_acc": 0.9064748201438849,
      "train_speed(iter/s)": 1.459859
    },
    {
      "epoch": 4.133498993187953,
      "grad_norm": 2.7690935134887695,
      "learning_rate": 7.229091225739282e-06,
      "loss": 0.30672905445098875,
      "memory(GiB)": 77.59,
      "step": 96480,
      "token_acc": 0.9158576051779935,
      "train_speed(iter/s)": 1.459864
    },
    {
      "epoch": 4.133713208517202,
      "grad_norm": 7.1715803146362305,
      "learning_rate": 7.225606008149266e-06,
      "loss": 0.43659701347351076,
      "memory(GiB)": 77.59,
      "step": 96485,
      "token_acc": 0.918429003021148,
      "train_speed(iter/s)": 1.459867
    },
    {
      "epoch": 4.13392742384645,
      "grad_norm": 4.819521903991699,
      "learning_rate": 7.222121565457529e-06,
      "loss": 0.583427619934082,
      "memory(GiB)": 77.59,
      "step": 96490,
      "token_acc": 0.8700361010830325,
      "train_speed(iter/s)": 1.459879
    },
    {
      "epoch": 4.1341416391756995,
      "grad_norm": 3.294630765914917,
      "learning_rate": 7.2186378977271705e-06,
      "loss": 0.19144665002822875,
      "memory(GiB)": 77.59,
      "step": 96495,
      "token_acc": 0.9482758620689655,
      "train_speed(iter/s)": 1.459882
    },
    {
      "epoch": 4.134355854504949,
      "grad_norm": 3.091024875640869,
      "learning_rate": 7.215155005021323e-06,
      "loss": 0.14338622093200684,
      "memory(GiB)": 77.59,
      "step": 96500,
      "token_acc": 0.9747292418772563,
      "train_speed(iter/s)": 1.459883
    },
    {
      "epoch": 4.134355854504949,
      "eval_loss": 2.6473097801208496,
      "eval_runtime": 11.9987,
      "eval_samples_per_second": 8.334,
      "eval_steps_per_second": 8.334,
      "eval_token_acc": 0.4336283185840708,
      "step": 96500
    },
    {
      "epoch": 4.134570069834197,
      "grad_norm": 6.101513862609863,
      "learning_rate": 7.211672887403087e-06,
      "loss": 0.4457258224487305,
      "memory(GiB)": 77.59,
      "step": 96505,
      "token_acc": 0.5542056074766355,
      "train_speed(iter/s)": 1.459601
    },
    {
      "epoch": 4.134784285163446,
      "grad_norm": 4.609130382537842,
      "learning_rate": 7.208191544935538e-06,
      "loss": 0.2711066246032715,
      "memory(GiB)": 77.59,
      "step": 96510,
      "token_acc": 0.9180327868852459,
      "train_speed(iter/s)": 1.459599
    },
    {
      "epoch": 4.134998500492696,
      "grad_norm": 0.7249208688735962,
      "learning_rate": 7.204710977681739e-06,
      "loss": 0.31815998554229735,
      "memory(GiB)": 77.59,
      "step": 96515,
      "token_acc": 0.9373134328358209,
      "train_speed(iter/s)": 1.459596
    },
    {
      "epoch": 4.135212715821944,
      "grad_norm": 6.076536178588867,
      "learning_rate": 7.201231185704749e-06,
      "loss": 0.4149313449859619,
      "memory(GiB)": 77.59,
      "step": 96520,
      "token_acc": 0.8943396226415095,
      "train_speed(iter/s)": 1.459605
    },
    {
      "epoch": 4.135426931151193,
      "grad_norm": 3.8825459480285645,
      "learning_rate": 7.197752169067601e-06,
      "loss": 0.3322422504425049,
      "memory(GiB)": 77.59,
      "step": 96525,
      "token_acc": 0.9330855018587361,
      "train_speed(iter/s)": 1.459609
    },
    {
      "epoch": 4.135641146480443,
      "grad_norm": 1.02797532081604,
      "learning_rate": 7.194273927833312e-06,
      "loss": 0.5541154861450195,
      "memory(GiB)": 77.59,
      "step": 96530,
      "token_acc": 0.8447368421052631,
      "train_speed(iter/s)": 1.459619
    },
    {
      "epoch": 4.135855361809691,
      "grad_norm": 3.902383327484131,
      "learning_rate": 7.190796462064919e-06,
      "loss": 0.4552985668182373,
      "memory(GiB)": 77.59,
      "step": 96535,
      "token_acc": 0.9310344827586207,
      "train_speed(iter/s)": 1.459621
    },
    {
      "epoch": 4.13606957713894,
      "grad_norm": 3.3150691986083984,
      "learning_rate": 7.187319771825407e-06,
      "loss": 0.3798069953918457,
      "memory(GiB)": 77.59,
      "step": 96540,
      "token_acc": 0.9288256227758007,
      "train_speed(iter/s)": 1.459623
    },
    {
      "epoch": 4.1362837924681894,
      "grad_norm": 2.2497286796569824,
      "learning_rate": 7.183843857177757e-06,
      "loss": 0.44881601333618165,
      "memory(GiB)": 77.59,
      "step": 96545,
      "token_acc": 0.9163498098859315,
      "train_speed(iter/s)": 1.459627
    },
    {
      "epoch": 4.136498007797438,
      "grad_norm": 2.3926868438720703,
      "learning_rate": 7.180368718184943e-06,
      "loss": 0.27299702167510986,
      "memory(GiB)": 77.59,
      "step": 96550,
      "token_acc": 0.9451476793248945,
      "train_speed(iter/s)": 1.459633
    },
    {
      "epoch": 4.136712223126687,
      "grad_norm": 2.3682851791381836,
      "learning_rate": 7.176894354909908e-06,
      "loss": 0.24278151988983154,
      "memory(GiB)": 77.59,
      "step": 96555,
      "token_acc": 0.968944099378882,
      "train_speed(iter/s)": 1.459635
    },
    {
      "epoch": 4.136926438455936,
      "grad_norm": 1.1285955905914307,
      "learning_rate": 7.173420767415611e-06,
      "loss": 0.2919813394546509,
      "memory(GiB)": 77.59,
      "step": 96560,
      "token_acc": 0.939297124600639,
      "train_speed(iter/s)": 1.459632
    },
    {
      "epoch": 4.137140653785185,
      "grad_norm": 3.3118269443511963,
      "learning_rate": 7.169947955764961e-06,
      "loss": 0.2774558782577515,
      "memory(GiB)": 77.59,
      "step": 96565,
      "token_acc": 0.9309090909090909,
      "train_speed(iter/s)": 1.459636
    },
    {
      "epoch": 4.137354869114434,
      "grad_norm": 6.967087268829346,
      "learning_rate": 7.166475920020888e-06,
      "loss": 0.5034801483154296,
      "memory(GiB)": 77.59,
      "step": 96570,
      "token_acc": 0.9061488673139159,
      "train_speed(iter/s)": 1.459637
    },
    {
      "epoch": 4.137569084443683,
      "grad_norm": 5.60983943939209,
      "learning_rate": 7.163004660246292e-06,
      "loss": 0.3364851951599121,
      "memory(GiB)": 77.59,
      "step": 96575,
      "token_acc": 0.9328859060402684,
      "train_speed(iter/s)": 1.459643
    },
    {
      "epoch": 4.137783299772932,
      "grad_norm": 4.234689712524414,
      "learning_rate": 7.159534176504046e-06,
      "loss": 0.2353134870529175,
      "memory(GiB)": 77.59,
      "step": 96580,
      "token_acc": 0.9407407407407408,
      "train_speed(iter/s)": 1.459647
    },
    {
      "epoch": 4.137997515102181,
      "grad_norm": 3.690058946609497,
      "learning_rate": 7.1560644688570324e-06,
      "loss": 0.39130964279174807,
      "memory(GiB)": 77.59,
      "step": 96585,
      "token_acc": 0.9088050314465409,
      "train_speed(iter/s)": 1.45965
    },
    {
      "epoch": 4.13821173043143,
      "grad_norm": 5.2561140060424805,
      "learning_rate": 7.152595537368084e-06,
      "loss": 0.4312914848327637,
      "memory(GiB)": 77.59,
      "step": 96590,
      "token_acc": 0.9270833333333334,
      "train_speed(iter/s)": 1.45966
    },
    {
      "epoch": 4.1384259457606785,
      "grad_norm": 1.8836129903793335,
      "learning_rate": 7.149127382100074e-06,
      "loss": 0.20585041046142577,
      "memory(GiB)": 77.59,
      "step": 96595,
      "token_acc": 0.959349593495935,
      "train_speed(iter/s)": 1.459658
    },
    {
      "epoch": 4.138640161089928,
      "grad_norm": 4.1508684158325195,
      "learning_rate": 7.145660003115822e-06,
      "loss": 0.34194629192352294,
      "memory(GiB)": 77.59,
      "step": 96600,
      "token_acc": 0.9318181818181818,
      "train_speed(iter/s)": 1.459667
    },
    {
      "epoch": 4.138854376419177,
      "grad_norm": 5.91136360168457,
      "learning_rate": 7.142193400478136e-06,
      "loss": 0.5142143249511719,
      "memory(GiB)": 77.59,
      "step": 96605,
      "token_acc": 0.8993055555555556,
      "train_speed(iter/s)": 1.459678
    },
    {
      "epoch": 4.139068591748425,
      "grad_norm": 3.523458242416382,
      "learning_rate": 7.138727574249821e-06,
      "loss": 0.2664497852325439,
      "memory(GiB)": 77.59,
      "step": 96610,
      "token_acc": 0.9394904458598726,
      "train_speed(iter/s)": 1.459678
    },
    {
      "epoch": 4.139282807077675,
      "grad_norm": 4.4443864822387695,
      "learning_rate": 7.135262524493652e-06,
      "loss": 0.3432452201843262,
      "memory(GiB)": 77.59,
      "step": 96615,
      "token_acc": 0.9213836477987422,
      "train_speed(iter/s)": 1.459678
    },
    {
      "epoch": 4.139497022406924,
      "grad_norm": 3.9003894329071045,
      "learning_rate": 7.131798251272426e-06,
      "loss": 0.40209450721740725,
      "memory(GiB)": 77.59,
      "step": 96620,
      "token_acc": 0.9212328767123288,
      "train_speed(iter/s)": 1.45968
    },
    {
      "epoch": 4.139711237736172,
      "grad_norm": 0.5714368224143982,
      "learning_rate": 7.128334754648891e-06,
      "loss": 0.1781236171722412,
      "memory(GiB)": 77.59,
      "step": 96625,
      "token_acc": 0.9475524475524476,
      "train_speed(iter/s)": 1.459681
    },
    {
      "epoch": 4.1399254530654215,
      "grad_norm": 2.257314443588257,
      "learning_rate": 7.124872034685781e-06,
      "loss": 0.14120662212371826,
      "memory(GiB)": 77.59,
      "step": 96630,
      "token_acc": 0.9781931464174455,
      "train_speed(iter/s)": 1.459682
    },
    {
      "epoch": 4.140139668394671,
      "grad_norm": 0.12901563942432404,
      "learning_rate": 7.1214100914458404e-06,
      "loss": 0.19160878658294678,
      "memory(GiB)": 77.59,
      "step": 96635,
      "token_acc": 0.9425675675675675,
      "train_speed(iter/s)": 1.459689
    },
    {
      "epoch": 4.140353883723919,
      "grad_norm": 0.7760873436927795,
      "learning_rate": 7.117948924991769e-06,
      "loss": 0.3810176134109497,
      "memory(GiB)": 77.59,
      "step": 96640,
      "token_acc": 0.9300411522633745,
      "train_speed(iter/s)": 1.459694
    },
    {
      "epoch": 4.140568099053168,
      "grad_norm": 2.3177602291107178,
      "learning_rate": 7.1144885353862714e-06,
      "loss": 0.3932011365890503,
      "memory(GiB)": 77.59,
      "step": 96645,
      "token_acc": 0.9020771513353115,
      "train_speed(iter/s)": 1.459697
    },
    {
      "epoch": 4.140782314382418,
      "grad_norm": 2.0314249992370605,
      "learning_rate": 7.111028922692065e-06,
      "loss": 0.45679507255554197,
      "memory(GiB)": 77.59,
      "step": 96650,
      "token_acc": 0.903125,
      "train_speed(iter/s)": 1.4597
    },
    {
      "epoch": 4.140996529711666,
      "grad_norm": 3.9489657878875732,
      "learning_rate": 7.107570086971793e-06,
      "loss": 0.3982600212097168,
      "memory(GiB)": 77.59,
      "step": 96655,
      "token_acc": 0.9204545454545454,
      "train_speed(iter/s)": 1.459706
    },
    {
      "epoch": 4.141210745040915,
      "grad_norm": 4.7429704666137695,
      "learning_rate": 7.104112028288135e-06,
      "loss": 0.3518668174743652,
      "memory(GiB)": 77.59,
      "step": 96660,
      "token_acc": 0.9325842696629213,
      "train_speed(iter/s)": 1.459716
    },
    {
      "epoch": 4.1414249603701645,
      "grad_norm": 2.896178722381592,
      "learning_rate": 7.100654746703722e-06,
      "loss": 0.26163079738616946,
      "memory(GiB)": 77.59,
      "step": 96665,
      "token_acc": 0.9508670520231214,
      "train_speed(iter/s)": 1.459724
    },
    {
      "epoch": 4.141639175699413,
      "grad_norm": 6.041184425354004,
      "learning_rate": 7.097198242281189e-06,
      "loss": 0.41567130088806153,
      "memory(GiB)": 77.59,
      "step": 96670,
      "token_acc": 0.9090909090909091,
      "train_speed(iter/s)": 1.459726
    },
    {
      "epoch": 4.141853391028662,
      "grad_norm": 5.084014892578125,
      "learning_rate": 7.093742515083146e-06,
      "loss": 0.33705227375030516,
      "memory(GiB)": 77.59,
      "step": 96675,
      "token_acc": 0.9215686274509803,
      "train_speed(iter/s)": 1.459728
    },
    {
      "epoch": 4.142067606357911,
      "grad_norm": 4.293116092681885,
      "learning_rate": 7.0902875651722215e-06,
      "loss": 0.38639767169952394,
      "memory(GiB)": 77.59,
      "step": 96680,
      "token_acc": 0.9248554913294798,
      "train_speed(iter/s)": 1.45973
    },
    {
      "epoch": 4.14228182168716,
      "grad_norm": 0.5389736294746399,
      "learning_rate": 7.0868333926109865e-06,
      "loss": 0.23350563049316406,
      "memory(GiB)": 77.59,
      "step": 96685,
      "token_acc": 0.9487179487179487,
      "train_speed(iter/s)": 1.459739
    },
    {
      "epoch": 4.142496037016409,
      "grad_norm": 5.201595783233643,
      "learning_rate": 7.08337999746202e-06,
      "loss": 0.2991873025894165,
      "memory(GiB)": 77.59,
      "step": 96690,
      "token_acc": 0.9391025641025641,
      "train_speed(iter/s)": 1.459746
    },
    {
      "epoch": 4.142710252345658,
      "grad_norm": 4.483455181121826,
      "learning_rate": 7.079927379787887e-06,
      "loss": 0.3675997734069824,
      "memory(GiB)": 77.59,
      "step": 96695,
      "token_acc": 0.9046153846153846,
      "train_speed(iter/s)": 1.459744
    },
    {
      "epoch": 4.142924467674907,
      "grad_norm": 2.738240957260132,
      "learning_rate": 7.076475539651117e-06,
      "loss": 0.45646028518676757,
      "memory(GiB)": 77.59,
      "step": 96700,
      "token_acc": 0.8908450704225352,
      "train_speed(iter/s)": 1.459747
    },
    {
      "epoch": 4.143138683004156,
      "grad_norm": 2.458845615386963,
      "learning_rate": 7.073024477114276e-06,
      "loss": 0.29805445671081543,
      "memory(GiB)": 77.59,
      "step": 96705,
      "token_acc": 0.9459459459459459,
      "train_speed(iter/s)": 1.459754
    },
    {
      "epoch": 4.143352898333405,
      "grad_norm": 4.766048431396484,
      "learning_rate": 7.069574192239858e-06,
      "loss": 0.5774873733520508,
      "memory(GiB)": 77.59,
      "step": 96710,
      "token_acc": 0.9032258064516129,
      "train_speed(iter/s)": 1.459759
    },
    {
      "epoch": 4.1435671136626535,
      "grad_norm": 0.34822842478752136,
      "learning_rate": 7.06612468509037e-06,
      "loss": 0.2793873310089111,
      "memory(GiB)": 77.59,
      "step": 96715,
      "token_acc": 0.9310344827586207,
      "train_speed(iter/s)": 1.459759
    },
    {
      "epoch": 4.143781328991903,
      "grad_norm": 4.96731424331665,
      "learning_rate": 7.062675955728315e-06,
      "loss": 0.39994828701019286,
      "memory(GiB)": 77.59,
      "step": 96720,
      "token_acc": 0.9161290322580645,
      "train_speed(iter/s)": 1.459762
    },
    {
      "epoch": 4.143995544321152,
      "grad_norm": 0.6317316889762878,
      "learning_rate": 7.0592280042161675e-06,
      "loss": 0.12954236268997193,
      "memory(GiB)": 77.59,
      "step": 96725,
      "token_acc": 0.9602888086642599,
      "train_speed(iter/s)": 1.459767
    },
    {
      "epoch": 4.1442097596504,
      "grad_norm": 2.4795026779174805,
      "learning_rate": 7.055780830616382e-06,
      "loss": 0.32052125930786135,
      "memory(GiB)": 77.59,
      "step": 96730,
      "token_acc": 0.9251700680272109,
      "train_speed(iter/s)": 1.459777
    },
    {
      "epoch": 4.14442397497965,
      "grad_norm": 3.7027323246002197,
      "learning_rate": 7.052334434991403e-06,
      "loss": 0.2221242904663086,
      "memory(GiB)": 77.59,
      "step": 96735,
      "token_acc": 0.9501661129568106,
      "train_speed(iter/s)": 1.45978
    },
    {
      "epoch": 4.144638190308899,
      "grad_norm": 3.2260425090789795,
      "learning_rate": 7.048888817403687e-06,
      "loss": 0.3074974060058594,
      "memory(GiB)": 77.59,
      "step": 96740,
      "token_acc": 0.9381107491856677,
      "train_speed(iter/s)": 1.459783
    },
    {
      "epoch": 4.144852405638147,
      "grad_norm": 3.834015130996704,
      "learning_rate": 7.045443977915639e-06,
      "loss": 0.2174443006515503,
      "memory(GiB)": 77.59,
      "step": 96745,
      "token_acc": 0.9381443298969072,
      "train_speed(iter/s)": 1.459782
    },
    {
      "epoch": 4.1450666209673965,
      "grad_norm": 5.710634708404541,
      "learning_rate": 7.04199991658967e-06,
      "loss": 0.22425053119659424,
      "memory(GiB)": 77.59,
      "step": 96750,
      "token_acc": 0.9508196721311475,
      "train_speed(iter/s)": 1.459797
    },
    {
      "epoch": 4.145280836296646,
      "grad_norm": 0.4395253658294678,
      "learning_rate": 7.038556633488169e-06,
      "loss": 0.20714905261993408,
      "memory(GiB)": 77.59,
      "step": 96755,
      "token_acc": 0.9597069597069597,
      "train_speed(iter/s)": 1.459799
    },
    {
      "epoch": 4.145495051625894,
      "grad_norm": 4.711230278015137,
      "learning_rate": 7.035114128673503e-06,
      "loss": 0.23834648132324218,
      "memory(GiB)": 77.59,
      "step": 96760,
      "token_acc": 0.9448275862068966,
      "train_speed(iter/s)": 1.459804
    },
    {
      "epoch": 4.145709266955143,
      "grad_norm": 2.8886475563049316,
      "learning_rate": 7.031672402208061e-06,
      "loss": 0.44417858123779297,
      "memory(GiB)": 77.59,
      "step": 96765,
      "token_acc": 0.9115646258503401,
      "train_speed(iter/s)": 1.459805
    },
    {
      "epoch": 4.145923482284393,
      "grad_norm": 2.3028340339660645,
      "learning_rate": 7.028231454154183e-06,
      "loss": 0.15273754596710204,
      "memory(GiB)": 77.59,
      "step": 96770,
      "token_acc": 0.9590443686006825,
      "train_speed(iter/s)": 1.459813
    },
    {
      "epoch": 4.146137697613641,
      "grad_norm": 5.159353733062744,
      "learning_rate": 7.0247912845742005e-06,
      "loss": 0.38460679054260255,
      "memory(GiB)": 77.59,
      "step": 96775,
      "token_acc": 0.9181494661921709,
      "train_speed(iter/s)": 1.459818
    },
    {
      "epoch": 4.14635191294289,
      "grad_norm": 3.101559638977051,
      "learning_rate": 7.021351893530437e-06,
      "loss": 0.38289604187011717,
      "memory(GiB)": 77.59,
      "step": 96780,
      "token_acc": 0.9076433121019108,
      "train_speed(iter/s)": 1.459819
    },
    {
      "epoch": 4.1465661282721396,
      "grad_norm": 0.5486238598823547,
      "learning_rate": 7.0179132810851924e-06,
      "loss": 0.2079148769378662,
      "memory(GiB)": 77.59,
      "step": 96785,
      "token_acc": 0.956989247311828,
      "train_speed(iter/s)": 1.459827
    },
    {
      "epoch": 4.146780343601388,
      "grad_norm": 6.8495378494262695,
      "learning_rate": 7.014475447300767e-06,
      "loss": 0.6590514183044434,
      "memory(GiB)": 77.59,
      "step": 96790,
      "token_acc": 0.8686567164179104,
      "train_speed(iter/s)": 1.459829
    },
    {
      "epoch": 4.146994558930637,
      "grad_norm": 2.6532301902770996,
      "learning_rate": 7.011038392239455e-06,
      "loss": 0.6696853637695312,
      "memory(GiB)": 77.59,
      "step": 96795,
      "token_acc": 0.8067885117493473,
      "train_speed(iter/s)": 1.459831
    },
    {
      "epoch": 4.147208774259886,
      "grad_norm": 0.16093991696834564,
      "learning_rate": 7.007602115963513e-06,
      "loss": 0.4989445686340332,
      "memory(GiB)": 77.59,
      "step": 96800,
      "token_acc": 0.9221311475409836,
      "train_speed(iter/s)": 1.459837
    },
    {
      "epoch": 4.147422989589135,
      "grad_norm": 0.2759771943092346,
      "learning_rate": 7.004166618535185e-06,
      "loss": 0.33355154991149905,
      "memory(GiB)": 77.59,
      "step": 96805,
      "token_acc": 0.9246861924686193,
      "train_speed(iter/s)": 1.45985
    },
    {
      "epoch": 4.147637204918384,
      "grad_norm": 2.901329278945923,
      "learning_rate": 7.00073190001671e-06,
      "loss": 0.5570498943328858,
      "memory(GiB)": 77.59,
      "step": 96810,
      "token_acc": 0.8869257950530035,
      "train_speed(iter/s)": 1.459857
    },
    {
      "epoch": 4.147851420247633,
      "grad_norm": 2.408752918243408,
      "learning_rate": 6.997297960470317e-06,
      "loss": 0.31950814723968507,
      "memory(GiB)": 77.59,
      "step": 96815,
      "token_acc": 0.952,
      "train_speed(iter/s)": 1.459862
    },
    {
      "epoch": 4.148065635576882,
      "grad_norm": 3.4434633255004883,
      "learning_rate": 6.9938647999582e-06,
      "loss": 0.42647337913513184,
      "memory(GiB)": 77.59,
      "step": 96820,
      "token_acc": 0.8847583643122676,
      "train_speed(iter/s)": 1.459864
    },
    {
      "epoch": 4.148279850906131,
      "grad_norm": 5.046436309814453,
      "learning_rate": 6.990432418542575e-06,
      "loss": 0.42771759033203127,
      "memory(GiB)": 77.59,
      "step": 96825,
      "token_acc": 0.9239543726235742,
      "train_speed(iter/s)": 1.459863
    },
    {
      "epoch": 4.14849406623538,
      "grad_norm": 2.300387382507324,
      "learning_rate": 6.987000816285611e-06,
      "loss": 0.46449804306030273,
      "memory(GiB)": 77.59,
      "step": 96830,
      "token_acc": 0.909433962264151,
      "train_speed(iter/s)": 1.459866
    },
    {
      "epoch": 4.148708281564629,
      "grad_norm": 5.9207587242126465,
      "learning_rate": 6.983569993249478e-06,
      "loss": 0.3196870803833008,
      "memory(GiB)": 77.59,
      "step": 96835,
      "token_acc": 0.9171597633136095,
      "train_speed(iter/s)": 1.45988
    },
    {
      "epoch": 4.148922496893878,
      "grad_norm": 2.7450249195098877,
      "learning_rate": 6.9801399494963285e-06,
      "loss": 0.5243780612945557,
      "memory(GiB)": 77.59,
      "step": 96840,
      "token_acc": 0.9037800687285223,
      "train_speed(iter/s)": 1.459884
    },
    {
      "epoch": 4.149136712223127,
      "grad_norm": 5.710129737854004,
      "learning_rate": 6.976710685088289e-06,
      "loss": 0.356002140045166,
      "memory(GiB)": 77.59,
      "step": 96845,
      "token_acc": 0.9262295081967213,
      "train_speed(iter/s)": 1.459889
    },
    {
      "epoch": 4.1493509275523754,
      "grad_norm": 1.8480194807052612,
      "learning_rate": 6.973282200087506e-06,
      "loss": 0.23385119438171387,
      "memory(GiB)": 77.59,
      "step": 96850,
      "token_acc": 0.9575971731448764,
      "train_speed(iter/s)": 1.459892
    },
    {
      "epoch": 4.149565142881625,
      "grad_norm": 2.774425506591797,
      "learning_rate": 6.969854494556077e-06,
      "loss": 0.21279301643371581,
      "memory(GiB)": 77.59,
      "step": 96855,
      "token_acc": 0.9562289562289562,
      "train_speed(iter/s)": 1.459899
    },
    {
      "epoch": 4.149779358210874,
      "grad_norm": 3.7982091903686523,
      "learning_rate": 6.966427568556089e-06,
      "loss": 0.471677303314209,
      "memory(GiB)": 77.59,
      "step": 96860,
      "token_acc": 0.9067796610169492,
      "train_speed(iter/s)": 1.45991
    },
    {
      "epoch": 4.149993573540122,
      "grad_norm": 3.3276379108428955,
      "learning_rate": 6.963001422149646e-06,
      "loss": 0.434310245513916,
      "memory(GiB)": 77.59,
      "step": 96865,
      "token_acc": 0.8957654723127035,
      "train_speed(iter/s)": 1.459911
    },
    {
      "epoch": 4.150207788869372,
      "grad_norm": 4.3723039627075195,
      "learning_rate": 6.959576055398798e-06,
      "loss": 0.4975308895111084,
      "memory(GiB)": 77.59,
      "step": 96870,
      "token_acc": 0.8915254237288136,
      "train_speed(iter/s)": 1.459912
    },
    {
      "epoch": 4.150422004198621,
      "grad_norm": 2.4318695068359375,
      "learning_rate": 6.956151468365613e-06,
      "loss": 0.3813388109207153,
      "memory(GiB)": 77.59,
      "step": 96875,
      "token_acc": 0.930921052631579,
      "train_speed(iter/s)": 1.459917
    },
    {
      "epoch": 4.150636219527869,
      "grad_norm": 0.33844709396362305,
      "learning_rate": 6.952727661112107e-06,
      "loss": 0.12493792772293091,
      "memory(GiB)": 77.59,
      "step": 96880,
      "token_acc": 0.9704918032786886,
      "train_speed(iter/s)": 1.459919
    },
    {
      "epoch": 4.1508504348571185,
      "grad_norm": 3.564300775527954,
      "learning_rate": 6.949304633700332e-06,
      "loss": 0.2563016891479492,
      "memory(GiB)": 77.59,
      "step": 96885,
      "token_acc": 0.946969696969697,
      "train_speed(iter/s)": 1.459918
    },
    {
      "epoch": 4.151064650186368,
      "grad_norm": 1.5722054243087769,
      "learning_rate": 6.945882386192293e-06,
      "loss": 0.29379293918609617,
      "memory(GiB)": 77.59,
      "step": 96890,
      "token_acc": 0.950354609929078,
      "train_speed(iter/s)": 1.459921
    },
    {
      "epoch": 4.151278865515616,
      "grad_norm": 6.043455600738525,
      "learning_rate": 6.942460918649979e-06,
      "loss": 0.2375568151473999,
      "memory(GiB)": 77.59,
      "step": 96895,
      "token_acc": 0.9634146341463414,
      "train_speed(iter/s)": 1.459926
    },
    {
      "epoch": 4.151493080844865,
      "grad_norm": 1.963138461112976,
      "learning_rate": 6.939040231135374e-06,
      "loss": 0.3089661836624146,
      "memory(GiB)": 77.59,
      "step": 96900,
      "token_acc": 0.9186440677966101,
      "train_speed(iter/s)": 1.459921
    },
    {
      "epoch": 4.151707296174115,
      "grad_norm": 2.659320116043091,
      "learning_rate": 6.935620323710446e-06,
      "loss": 0.32090167999267577,
      "memory(GiB)": 77.59,
      "step": 96905,
      "token_acc": 0.9033457249070632,
      "train_speed(iter/s)": 1.459927
    },
    {
      "epoch": 4.151921511503363,
      "grad_norm": 4.566887855529785,
      "learning_rate": 6.9322011964371605e-06,
      "loss": 0.42245917320251464,
      "memory(GiB)": 77.59,
      "step": 96910,
      "token_acc": 0.8980263157894737,
      "train_speed(iter/s)": 1.459937
    },
    {
      "epoch": 4.152135726832612,
      "grad_norm": 5.504729270935059,
      "learning_rate": 6.928782849377447e-06,
      "loss": 0.3895397186279297,
      "memory(GiB)": 77.59,
      "step": 96915,
      "token_acc": 0.9148936170212766,
      "train_speed(iter/s)": 1.459939
    },
    {
      "epoch": 4.1523499421618615,
      "grad_norm": 5.5536088943481445,
      "learning_rate": 6.925365282593244e-06,
      "loss": 0.3940650463104248,
      "memory(GiB)": 77.59,
      "step": 96920,
      "token_acc": 0.8921568627450981,
      "train_speed(iter/s)": 1.459938
    },
    {
      "epoch": 4.15256415749111,
      "grad_norm": 2.017331123352051,
      "learning_rate": 6.921948496146452e-06,
      "loss": 0.46739020347595217,
      "memory(GiB)": 77.59,
      "step": 96925,
      "token_acc": 0.9240924092409241,
      "train_speed(iter/s)": 1.459948
    },
    {
      "epoch": 4.152778372820359,
      "grad_norm": 1.9591145515441895,
      "learning_rate": 6.918532490098961e-06,
      "loss": 0.2857907772064209,
      "memory(GiB)": 77.59,
      "step": 96930,
      "token_acc": 0.9522388059701492,
      "train_speed(iter/s)": 1.459953
    },
    {
      "epoch": 4.152992588149608,
      "grad_norm": 4.652282238006592,
      "learning_rate": 6.915117264512672e-06,
      "loss": 0.5403074264526367,
      "memory(GiB)": 77.59,
      "step": 96935,
      "token_acc": 0.9249146757679181,
      "train_speed(iter/s)": 1.459957
    },
    {
      "epoch": 4.153206803478857,
      "grad_norm": 4.020087718963623,
      "learning_rate": 6.911702819449456e-06,
      "loss": 0.42928352355957033,
      "memory(GiB)": 77.59,
      "step": 96940,
      "token_acc": 0.889795918367347,
      "train_speed(iter/s)": 1.459962
    },
    {
      "epoch": 4.153421018808106,
      "grad_norm": 1.2521945238113403,
      "learning_rate": 6.9082891549711705e-06,
      "loss": 0.3644322156906128,
      "memory(GiB)": 77.59,
      "step": 96945,
      "token_acc": 0.9233576642335767,
      "train_speed(iter/s)": 1.45997
    },
    {
      "epoch": 4.153635234137355,
      "grad_norm": 2.030139446258545,
      "learning_rate": 6.904876271139643e-06,
      "loss": 0.2359405755996704,
      "memory(GiB)": 77.59,
      "step": 96950,
      "token_acc": 0.950354609929078,
      "train_speed(iter/s)": 1.459972
    },
    {
      "epoch": 4.153849449466604,
      "grad_norm": 4.133825778961182,
      "learning_rate": 6.901464168016713e-06,
      "loss": 0.39000983238220216,
      "memory(GiB)": 77.59,
      "step": 96955,
      "token_acc": 0.8996655518394648,
      "train_speed(iter/s)": 1.459975
    },
    {
      "epoch": 4.154063664795853,
      "grad_norm": 1.35000741481781,
      "learning_rate": 6.898052845664188e-06,
      "loss": 0.09985465407371522,
      "memory(GiB)": 77.59,
      "step": 96960,
      "token_acc": 0.9887640449438202,
      "train_speed(iter/s)": 1.45998
    },
    {
      "epoch": 4.154277880125102,
      "grad_norm": 6.073630332946777,
      "learning_rate": 6.894642304143856e-06,
      "loss": 0.35747315883636477,
      "memory(GiB)": 77.59,
      "step": 96965,
      "token_acc": 0.9107806691449815,
      "train_speed(iter/s)": 1.459981
    },
    {
      "epoch": 4.1544920954543505,
      "grad_norm": 2.3014447689056396,
      "learning_rate": 6.891232543517529e-06,
      "loss": 0.3382347822189331,
      "memory(GiB)": 77.59,
      "step": 96970,
      "token_acc": 0.9180327868852459,
      "train_speed(iter/s)": 1.459993
    },
    {
      "epoch": 4.1547063107836,
      "grad_norm": 3.5237269401550293,
      "learning_rate": 6.887823563846962e-06,
      "loss": 0.5407455921173095,
      "memory(GiB)": 77.59,
      "step": 96975,
      "token_acc": 0.8746438746438746,
      "train_speed(iter/s)": 1.46
    },
    {
      "epoch": 4.154920526112849,
      "grad_norm": 2.9422240257263184,
      "learning_rate": 6.884415365193913e-06,
      "loss": 0.6022521018981933,
      "memory(GiB)": 77.59,
      "step": 96980,
      "token_acc": 0.870253164556962,
      "train_speed(iter/s)": 1.46001
    },
    {
      "epoch": 4.155134741442097,
      "grad_norm": 0.9564924836158752,
      "learning_rate": 6.881007947620127e-06,
      "loss": 0.1840253710746765,
      "memory(GiB)": 77.59,
      "step": 96985,
      "token_acc": 0.9590643274853801,
      "train_speed(iter/s)": 1.460011
    },
    {
      "epoch": 4.155348956771347,
      "grad_norm": 2.748431921005249,
      "learning_rate": 6.877601311187321e-06,
      "loss": 0.36679089069366455,
      "memory(GiB)": 77.59,
      "step": 96990,
      "token_acc": 0.9265734265734266,
      "train_speed(iter/s)": 1.460009
    },
    {
      "epoch": 4.155563172100596,
      "grad_norm": 5.371917247772217,
      "learning_rate": 6.874195455957227e-06,
      "loss": 0.37884974479675293,
      "memory(GiB)": 77.59,
      "step": 96995,
      "token_acc": 0.9261744966442953,
      "train_speed(iter/s)": 1.460007
    },
    {
      "epoch": 4.155777387429844,
      "grad_norm": 3.076990842819214,
      "learning_rate": 6.870790381991538e-06,
      "loss": 0.41310672760009765,
      "memory(GiB)": 77.59,
      "step": 97000,
      "token_acc": 0.9236363636363636,
      "train_speed(iter/s)": 1.460011
    },
    {
      "epoch": 4.155777387429844,
      "eval_loss": 2.3518643379211426,
      "eval_runtime": 11.6586,
      "eval_samples_per_second": 8.577,
      "eval_steps_per_second": 8.577,
      "eval_token_acc": 0.46142433234421365,
      "step": 97000
    },
    {
      "epoch": 4.1559916027590935,
      "grad_norm": 4.257608890533447,
      "learning_rate": 6.86738608935194e-06,
      "loss": 0.7286584854125977,
      "memory(GiB)": 77.59,
      "step": 97005,
      "token_acc": 0.5823170731707317,
      "train_speed(iter/s)": 1.459729
    },
    {
      "epoch": 4.156205818088343,
      "grad_norm": 1.7465745210647583,
      "learning_rate": 6.863982578100098e-06,
      "loss": 0.2922464370727539,
      "memory(GiB)": 77.59,
      "step": 97010,
      "token_acc": 0.9262820512820513,
      "train_speed(iter/s)": 1.459742
    },
    {
      "epoch": 4.156420033417591,
      "grad_norm": 5.572153568267822,
      "learning_rate": 6.860579848297683e-06,
      "loss": 0.3873037576675415,
      "memory(GiB)": 77.59,
      "step": 97015,
      "token_acc": 0.9055374592833876,
      "train_speed(iter/s)": 1.459743
    },
    {
      "epoch": 4.15663424874684,
      "grad_norm": 5.500073432922363,
      "learning_rate": 6.857177900006317e-06,
      "loss": 0.3708317518234253,
      "memory(GiB)": 77.59,
      "step": 97020,
      "token_acc": 0.9263157894736842,
      "train_speed(iter/s)": 1.459757
    },
    {
      "epoch": 4.15684846407609,
      "grad_norm": 3.523866653442383,
      "learning_rate": 6.853776733287665e-06,
      "loss": 0.4259768486022949,
      "memory(GiB)": 77.59,
      "step": 97025,
      "token_acc": 0.888135593220339,
      "train_speed(iter/s)": 1.459756
    },
    {
      "epoch": 4.157062679405338,
      "grad_norm": 3.1055803298950195,
      "learning_rate": 6.850376348203313e-06,
      "loss": 0.35391721725463865,
      "memory(GiB)": 77.59,
      "step": 97030,
      "token_acc": 0.9087591240875912,
      "train_speed(iter/s)": 1.459776
    },
    {
      "epoch": 4.157276894734587,
      "grad_norm": 4.450345516204834,
      "learning_rate": 6.8469767448148755e-06,
      "loss": 0.4507895946502686,
      "memory(GiB)": 77.59,
      "step": 97035,
      "token_acc": 0.8842975206611571,
      "train_speed(iter/s)": 1.459779
    },
    {
      "epoch": 4.1574911100638365,
      "grad_norm": 4.5472636222839355,
      "learning_rate": 6.843577923183936e-06,
      "loss": 0.3659677505493164,
      "memory(GiB)": 77.59,
      "step": 97040,
      "token_acc": 0.9225589225589226,
      "train_speed(iter/s)": 1.459781
    },
    {
      "epoch": 4.157705325393085,
      "grad_norm": 2.155871629714966,
      "learning_rate": 6.840179883372066e-06,
      "loss": 0.37338135242462156,
      "memory(GiB)": 77.59,
      "step": 97045,
      "token_acc": 0.9180327868852459,
      "train_speed(iter/s)": 1.459781
    },
    {
      "epoch": 4.157919540722334,
      "grad_norm": 2.628673553466797,
      "learning_rate": 6.836782625440813e-06,
      "loss": 0.14011192321777344,
      "memory(GiB)": 77.59,
      "step": 97050,
      "token_acc": 0.9626556016597511,
      "train_speed(iter/s)": 1.459794
    },
    {
      "epoch": 4.158133756051583,
      "grad_norm": 5.427844524383545,
      "learning_rate": 6.833386149451748e-06,
      "loss": 0.20210881233215333,
      "memory(GiB)": 77.59,
      "step": 97055,
      "token_acc": 0.9516129032258065,
      "train_speed(iter/s)": 1.459798
    },
    {
      "epoch": 4.158347971380832,
      "grad_norm": 4.248945236206055,
      "learning_rate": 6.8299904554663785e-06,
      "loss": 0.549284839630127,
      "memory(GiB)": 77.59,
      "step": 97060,
      "token_acc": 0.8791208791208791,
      "train_speed(iter/s)": 1.459804
    },
    {
      "epoch": 4.158562186710081,
      "grad_norm": 3.9288039207458496,
      "learning_rate": 6.8265955435462325e-06,
      "loss": 0.627753734588623,
      "memory(GiB)": 77.59,
      "step": 97065,
      "token_acc": 0.8434163701067615,
      "train_speed(iter/s)": 1.459812
    },
    {
      "epoch": 4.15877640203933,
      "grad_norm": 0.10822742432355881,
      "learning_rate": 6.823201413752811e-06,
      "loss": 0.3769437551498413,
      "memory(GiB)": 77.59,
      "step": 97070,
      "token_acc": 0.9117647058823529,
      "train_speed(iter/s)": 1.459824
    },
    {
      "epoch": 4.158990617368579,
      "grad_norm": 0.055102039128541946,
      "learning_rate": 6.819808066147587e-06,
      "loss": 0.2964228868484497,
      "memory(GiB)": 77.59,
      "step": 97075,
      "token_acc": 0.9248366013071896,
      "train_speed(iter/s)": 1.459824
    },
    {
      "epoch": 4.159204832697828,
      "grad_norm": 3.5827651023864746,
      "learning_rate": 6.816415500792056e-06,
      "loss": 0.3246347665786743,
      "memory(GiB)": 77.59,
      "step": 97080,
      "token_acc": 0.9205298013245033,
      "train_speed(iter/s)": 1.459826
    },
    {
      "epoch": 4.159419048027077,
      "grad_norm": 2.370065927505493,
      "learning_rate": 6.813023717747652e-06,
      "loss": 0.3765261173248291,
      "memory(GiB)": 77.59,
      "step": 97085,
      "token_acc": 0.9228070175438596,
      "train_speed(iter/s)": 1.459829
    },
    {
      "epoch": 4.1596332633563255,
      "grad_norm": 1.3338936567306519,
      "learning_rate": 6.8096327170758535e-06,
      "loss": 0.15258713960647582,
      "memory(GiB)": 77.59,
      "step": 97090,
      "token_acc": 0.965034965034965,
      "train_speed(iter/s)": 1.45983
    },
    {
      "epoch": 4.159847478685575,
      "grad_norm": 5.640203952789307,
      "learning_rate": 6.806242498838072e-06,
      "loss": 0.9925989151000977,
      "memory(GiB)": 77.59,
      "step": 97095,
      "token_acc": 0.8327526132404182,
      "train_speed(iter/s)": 1.459841
    },
    {
      "epoch": 4.160061694014824,
      "grad_norm": 6.236618995666504,
      "learning_rate": 6.802853063095727e-06,
      "loss": 0.251239013671875,
      "memory(GiB)": 77.59,
      "step": 97100,
      "token_acc": 0.9375,
      "train_speed(iter/s)": 1.459846
    },
    {
      "epoch": 4.160275909344072,
      "grad_norm": 1.651166319847107,
      "learning_rate": 6.799464409910222e-06,
      "loss": 0.25877859592437746,
      "memory(GiB)": 77.59,
      "step": 97105,
      "token_acc": 0.9421221864951769,
      "train_speed(iter/s)": 1.459851
    },
    {
      "epoch": 4.160490124673322,
      "grad_norm": 1.9501855373382568,
      "learning_rate": 6.796076539342933e-06,
      "loss": 0.41582489013671875,
      "memory(GiB)": 77.59,
      "step": 97110,
      "token_acc": 0.9080882352941176,
      "train_speed(iter/s)": 1.459869
    },
    {
      "epoch": 4.160704340002571,
      "grad_norm": 0.7531179189682007,
      "learning_rate": 6.792689451455253e-06,
      "loss": 0.17758466005325318,
      "memory(GiB)": 77.59,
      "step": 97115,
      "token_acc": 0.9531772575250836,
      "train_speed(iter/s)": 1.45987
    },
    {
      "epoch": 4.160918555331819,
      "grad_norm": 2.9715750217437744,
      "learning_rate": 6.78930314630854e-06,
      "loss": 0.4001638412475586,
      "memory(GiB)": 77.59,
      "step": 97120,
      "token_acc": 0.9261992619926199,
      "train_speed(iter/s)": 1.459875
    },
    {
      "epoch": 4.161132770661069,
      "grad_norm": 4.357032299041748,
      "learning_rate": 6.785917623964133e-06,
      "loss": 0.24576287269592284,
      "memory(GiB)": 77.59,
      "step": 97125,
      "token_acc": 0.9375,
      "train_speed(iter/s)": 1.459878
    },
    {
      "epoch": 4.161346985990318,
      "grad_norm": 2.3069190979003906,
      "learning_rate": 6.782532884483367e-06,
      "loss": 0.7355796337127686,
      "memory(GiB)": 77.59,
      "step": 97130,
      "token_acc": 0.839344262295082,
      "train_speed(iter/s)": 1.459888
    },
    {
      "epoch": 4.161561201319566,
      "grad_norm": 1.8695300817489624,
      "learning_rate": 6.779148927927548e-06,
      "loss": 0.45167860984802244,
      "memory(GiB)": 77.59,
      "step": 97135,
      "token_acc": 0.899641577060932,
      "train_speed(iter/s)": 1.459894
    },
    {
      "epoch": 4.1617754166488155,
      "grad_norm": 3.4552624225616455,
      "learning_rate": 6.775765754358004e-06,
      "loss": 0.3216372489929199,
      "memory(GiB)": 77.59,
      "step": 97140,
      "token_acc": 0.9366666666666666,
      "train_speed(iter/s)": 1.459897
    },
    {
      "epoch": 4.161989631978065,
      "grad_norm": 3.9364166259765625,
      "learning_rate": 6.77238336383601e-06,
      "loss": 0.3852393627166748,
      "memory(GiB)": 77.59,
      "step": 97145,
      "token_acc": 0.9137931034482759,
      "train_speed(iter/s)": 1.459908
    },
    {
      "epoch": 4.162203847307313,
      "grad_norm": 2.1573445796966553,
      "learning_rate": 6.769001756422838e-06,
      "loss": 0.34531173706054685,
      "memory(GiB)": 77.59,
      "step": 97150,
      "token_acc": 0.9432835820895522,
      "train_speed(iter/s)": 1.459911
    },
    {
      "epoch": 4.162418062636562,
      "grad_norm": 2.638077735900879,
      "learning_rate": 6.765620932179756e-06,
      "loss": 0.18468594551086426,
      "memory(GiB)": 77.59,
      "step": 97155,
      "token_acc": 0.9487179487179487,
      "train_speed(iter/s)": 1.459913
    },
    {
      "epoch": 4.162632277965812,
      "grad_norm": 5.189519882202148,
      "learning_rate": 6.7622408911679976e-06,
      "loss": 0.16034319400787353,
      "memory(GiB)": 77.59,
      "step": 97160,
      "token_acc": 0.962457337883959,
      "train_speed(iter/s)": 1.459912
    },
    {
      "epoch": 4.16284649329506,
      "grad_norm": 4.947395324707031,
      "learning_rate": 6.7588616334488045e-06,
      "loss": 0.23345434665679932,
      "memory(GiB)": 77.59,
      "step": 97165,
      "token_acc": 0.9395017793594306,
      "train_speed(iter/s)": 1.459919
    },
    {
      "epoch": 4.163060708624309,
      "grad_norm": 2.0649266242980957,
      "learning_rate": 6.7554831590834086e-06,
      "loss": 0.33362009525299074,
      "memory(GiB)": 77.59,
      "step": 97170,
      "token_acc": 0.9090909090909091,
      "train_speed(iter/s)": 1.459922
    },
    {
      "epoch": 4.1632749239535585,
      "grad_norm": 3.7910022735595703,
      "learning_rate": 6.752105468133002e-06,
      "loss": 0.349067234992981,
      "memory(GiB)": 77.59,
      "step": 97175,
      "token_acc": 0.9223300970873787,
      "train_speed(iter/s)": 1.459925
    },
    {
      "epoch": 4.163489139282807,
      "grad_norm": 2.9535024166107178,
      "learning_rate": 6.748728560658774e-06,
      "loss": 0.29617819786071775,
      "memory(GiB)": 77.59,
      "step": 97180,
      "token_acc": 0.9292604501607717,
      "train_speed(iter/s)": 1.45993
    },
    {
      "epoch": 4.163703354612056,
      "grad_norm": 0.11881634593009949,
      "learning_rate": 6.745352436721902e-06,
      "loss": 0.17481690645217896,
      "memory(GiB)": 77.59,
      "step": 97185,
      "token_acc": 0.9616519174041298,
      "train_speed(iter/s)": 1.459936
    },
    {
      "epoch": 4.163917569941305,
      "grad_norm": 3.278655767440796,
      "learning_rate": 6.741977096383545e-06,
      "loss": 0.6864329814910889,
      "memory(GiB)": 77.59,
      "step": 97190,
      "token_acc": 0.8357348703170029,
      "train_speed(iter/s)": 1.459948
    },
    {
      "epoch": 4.164131785270554,
      "grad_norm": 1.47878897190094,
      "learning_rate": 6.738602539704842e-06,
      "loss": 0.3028780221939087,
      "memory(GiB)": 77.59,
      "step": 97195,
      "token_acc": 0.9244604316546763,
      "train_speed(iter/s)": 1.459951
    },
    {
      "epoch": 4.164346000599803,
      "grad_norm": 0.19924937188625336,
      "learning_rate": 6.735228766746948e-06,
      "loss": 0.2019261598587036,
      "memory(GiB)": 77.59,
      "step": 97200,
      "token_acc": 0.9578947368421052,
      "train_speed(iter/s)": 1.459962
    },
    {
      "epoch": 4.164560215929052,
      "grad_norm": 2.9159016609191895,
      "learning_rate": 6.731855777570972e-06,
      "loss": 0.2678964614868164,
      "memory(GiB)": 77.59,
      "step": 97205,
      "token_acc": 0.9372693726937269,
      "train_speed(iter/s)": 1.459966
    },
    {
      "epoch": 4.164774431258301,
      "grad_norm": 1.161870002746582,
      "learning_rate": 6.728483572238015e-06,
      "loss": 0.3604951620101929,
      "memory(GiB)": 77.59,
      "step": 97210,
      "token_acc": 0.9245283018867925,
      "train_speed(iter/s)": 1.45997
    },
    {
      "epoch": 4.16498864658755,
      "grad_norm": 5.406956672668457,
      "learning_rate": 6.725112150809171e-06,
      "loss": 0.6941930294036865,
      "memory(GiB)": 77.59,
      "step": 97215,
      "token_acc": 0.8666666666666667,
      "train_speed(iter/s)": 1.459971
    },
    {
      "epoch": 4.165202861916799,
      "grad_norm": 3.223749876022339,
      "learning_rate": 6.721741513345503e-06,
      "loss": 0.47463397979736327,
      "memory(GiB)": 77.59,
      "step": 97220,
      "token_acc": 0.8940397350993378,
      "train_speed(iter/s)": 1.459975
    },
    {
      "epoch": 4.1654170772460475,
      "grad_norm": 3.3509268760681152,
      "learning_rate": 6.718371659908101e-06,
      "loss": 0.39056308269500734,
      "memory(GiB)": 77.59,
      "step": 97225,
      "token_acc": 0.9387755102040817,
      "train_speed(iter/s)": 1.459975
    },
    {
      "epoch": 4.165631292575297,
      "grad_norm": 2.321324348449707,
      "learning_rate": 6.715002590557984e-06,
      "loss": 0.3346219539642334,
      "memory(GiB)": 77.59,
      "step": 97230,
      "token_acc": 0.9230769230769231,
      "train_speed(iter/s)": 1.459977
    },
    {
      "epoch": 4.165845507904546,
      "grad_norm": 6.853032112121582,
      "learning_rate": 6.711634305356207e-06,
      "loss": 0.3427662134170532,
      "memory(GiB)": 77.59,
      "step": 97235,
      "token_acc": 0.9203187250996016,
      "train_speed(iter/s)": 1.459972
    },
    {
      "epoch": 4.166059723233794,
      "grad_norm": 5.876855373382568,
      "learning_rate": 6.708266804363789e-06,
      "loss": 0.5529674053192138,
      "memory(GiB)": 77.59,
      "step": 97240,
      "token_acc": 0.8913043478260869,
      "train_speed(iter/s)": 1.459989
    },
    {
      "epoch": 4.166273938563044,
      "grad_norm": 7.173551559448242,
      "learning_rate": 6.704900087641725e-06,
      "loss": 0.44930109977722166,
      "memory(GiB)": 77.59,
      "step": 97245,
      "token_acc": 0.8947368421052632,
      "train_speed(iter/s)": 1.45999
    },
    {
      "epoch": 4.166488153892293,
      "grad_norm": 4.944094181060791,
      "learning_rate": 6.70153415525101e-06,
      "loss": 0.4515075206756592,
      "memory(GiB)": 77.59,
      "step": 97250,
      "token_acc": 0.9148264984227129,
      "train_speed(iter/s)": 1.45999
    },
    {
      "epoch": 4.166702369221541,
      "grad_norm": 5.0121588706970215,
      "learning_rate": 6.6981690072526085e-06,
      "loss": 0.3951236724853516,
      "memory(GiB)": 77.59,
      "step": 97255,
      "token_acc": 0.9132231404958677,
      "train_speed(iter/s)": 1.459992
    },
    {
      "epoch": 4.1669165845507905,
      "grad_norm": 1.8242756128311157,
      "learning_rate": 6.694804643707509e-06,
      "loss": 0.25155665874481203,
      "memory(GiB)": 77.59,
      "step": 97260,
      "token_acc": 0.943217665615142,
      "train_speed(iter/s)": 1.460001
    },
    {
      "epoch": 4.16713079988004,
      "grad_norm": 0.5136867761611938,
      "learning_rate": 6.691441064676651e-06,
      "loss": 0.2824327707290649,
      "memory(GiB)": 77.59,
      "step": 97265,
      "token_acc": 0.9305993690851735,
      "train_speed(iter/s)": 1.460002
    },
    {
      "epoch": 4.167345015209288,
      "grad_norm": 2.1567745208740234,
      "learning_rate": 6.68807827022096e-06,
      "loss": 0.2568269014358521,
      "memory(GiB)": 77.59,
      "step": 97270,
      "token_acc": 0.943089430894309,
      "train_speed(iter/s)": 1.460006
    },
    {
      "epoch": 4.167559230538537,
      "grad_norm": 6.3242082595825195,
      "learning_rate": 6.684716260401358e-06,
      "loss": 0.2938757658004761,
      "memory(GiB)": 77.59,
      "step": 97275,
      "token_acc": 0.9259259259259259,
      "train_speed(iter/s)": 1.46001
    },
    {
      "epoch": 4.167773445867787,
      "grad_norm": 1.593278408050537,
      "learning_rate": 6.681355035278747e-06,
      "loss": 0.11464307308197022,
      "memory(GiB)": 77.59,
      "step": 97280,
      "token_acc": 0.9685314685314685,
      "train_speed(iter/s)": 1.460009
    },
    {
      "epoch": 4.167987661197035,
      "grad_norm": 3.4629294872283936,
      "learning_rate": 6.677994594914039e-06,
      "loss": 0.4117640495300293,
      "memory(GiB)": 77.59,
      "step": 97285,
      "token_acc": 0.9253731343283582,
      "train_speed(iter/s)": 1.460014
    },
    {
      "epoch": 4.168201876526284,
      "grad_norm": 3.178605556488037,
      "learning_rate": 6.674634939368096e-06,
      "loss": 0.34734961986541746,
      "memory(GiB)": 77.59,
      "step": 97290,
      "token_acc": 0.9087301587301587,
      "train_speed(iter/s)": 1.460033
    },
    {
      "epoch": 4.1684160918555335,
      "grad_norm": 1.6664519309997559,
      "learning_rate": 6.671276068701782e-06,
      "loss": 0.3989849328994751,
      "memory(GiB)": 77.59,
      "step": 97295,
      "token_acc": 0.9141914191419142,
      "train_speed(iter/s)": 1.460043
    },
    {
      "epoch": 4.168630307184782,
      "grad_norm": 4.829763412475586,
      "learning_rate": 6.667917982975947e-06,
      "loss": 0.5140761375427246,
      "memory(GiB)": 77.59,
      "step": 97300,
      "token_acc": 0.8950819672131147,
      "train_speed(iter/s)": 1.460054
    },
    {
      "epoch": 4.168844522514031,
      "grad_norm": 0.06836356222629547,
      "learning_rate": 6.66456068225142e-06,
      "loss": 0.2605807542800903,
      "memory(GiB)": 77.59,
      "step": 97305,
      "token_acc": 0.9372937293729373,
      "train_speed(iter/s)": 1.460058
    },
    {
      "epoch": 4.16905873784328,
      "grad_norm": 3.500898838043213,
      "learning_rate": 6.661204166589025e-06,
      "loss": 0.28860950469970703,
      "memory(GiB)": 77.59,
      "step": 97310,
      "token_acc": 0.9354838709677419,
      "train_speed(iter/s)": 1.460068
    },
    {
      "epoch": 4.169272953172529,
      "grad_norm": 2.185178756713867,
      "learning_rate": 6.657848436049585e-06,
      "loss": 0.36973569393157957,
      "memory(GiB)": 77.59,
      "step": 97315,
      "token_acc": 0.9137254901960784,
      "train_speed(iter/s)": 1.460071
    },
    {
      "epoch": 4.169487168501778,
      "grad_norm": 3.1548943519592285,
      "learning_rate": 6.654493490693875e-06,
      "loss": 0.330818772315979,
      "memory(GiB)": 77.59,
      "step": 97320,
      "token_acc": 0.9375,
      "train_speed(iter/s)": 1.460075
    },
    {
      "epoch": 4.169701383831027,
      "grad_norm": 3.9836368560791016,
      "learning_rate": 6.651139330582679e-06,
      "loss": 0.4275322437286377,
      "memory(GiB)": 77.59,
      "step": 97325,
      "token_acc": 0.9133333333333333,
      "train_speed(iter/s)": 1.460074
    },
    {
      "epoch": 4.169915599160276,
      "grad_norm": 0.9981362223625183,
      "learning_rate": 6.647785955776759e-06,
      "loss": 0.36172165870666506,
      "memory(GiB)": 77.59,
      "step": 97330,
      "token_acc": 0.9227941176470589,
      "train_speed(iter/s)": 1.460083
    },
    {
      "epoch": 4.170129814489525,
      "grad_norm": 1.3591649532318115,
      "learning_rate": 6.644433366336861e-06,
      "loss": 0.5058945178985595,
      "memory(GiB)": 77.59,
      "step": 97335,
      "token_acc": 0.8771929824561403,
      "train_speed(iter/s)": 1.460096
    },
    {
      "epoch": 4.170344029818774,
      "grad_norm": 5.092177867889404,
      "learning_rate": 6.6410815623237145e-06,
      "loss": 0.3518717050552368,
      "memory(GiB)": 77.59,
      "step": 97340,
      "token_acc": 0.9233449477351916,
      "train_speed(iter/s)": 1.460095
    },
    {
      "epoch": 4.1705582451480225,
      "grad_norm": 2.606449604034424,
      "learning_rate": 6.6377305437980596e-06,
      "loss": 0.22081334590911866,
      "memory(GiB)": 77.59,
      "step": 97345,
      "token_acc": 0.9475524475524476,
      "train_speed(iter/s)": 1.460099
    },
    {
      "epoch": 4.170772460477272,
      "grad_norm": 11.376921653747559,
      "learning_rate": 6.634380310820598e-06,
      "loss": 0.44518508911132815,
      "memory(GiB)": 77.59,
      "step": 97350,
      "token_acc": 0.8881789137380192,
      "train_speed(iter/s)": 1.460117
    },
    {
      "epoch": 4.170986675806521,
      "grad_norm": 6.1446733474731445,
      "learning_rate": 6.6310308634520144e-06,
      "loss": 0.4732032775878906,
      "memory(GiB)": 77.59,
      "step": 97355,
      "token_acc": 0.9080882352941176,
      "train_speed(iter/s)": 1.460119
    },
    {
      "epoch": 4.171200891135769,
      "grad_norm": 2.9128036499023438,
      "learning_rate": 6.627682201752988e-06,
      "loss": 0.21711349487304688,
      "memory(GiB)": 77.59,
      "step": 97360,
      "token_acc": 0.95,
      "train_speed(iter/s)": 1.460131
    },
    {
      "epoch": 4.171415106465019,
      "grad_norm": 4.217676639556885,
      "learning_rate": 6.6243343257841765e-06,
      "loss": 0.30523488521575926,
      "memory(GiB)": 77.59,
      "step": 97365,
      "token_acc": 0.9423076923076923,
      "train_speed(iter/s)": 1.46013
    },
    {
      "epoch": 4.171629321794268,
      "grad_norm": 1.6031062602996826,
      "learning_rate": 6.620987235606246e-06,
      "loss": 0.27183189392089846,
      "memory(GiB)": 77.59,
      "step": 97370,
      "token_acc": 0.9416342412451362,
      "train_speed(iter/s)": 1.460132
    },
    {
      "epoch": 4.171843537123516,
      "grad_norm": 3.2560617923736572,
      "learning_rate": 6.617640931279828e-06,
      "loss": 0.3387740612030029,
      "memory(GiB)": 77.59,
      "step": 97375,
      "token_acc": 0.9181818181818182,
      "train_speed(iter/s)": 1.460135
    },
    {
      "epoch": 4.1720577524527656,
      "grad_norm": 1.8174837827682495,
      "learning_rate": 6.614295412865523e-06,
      "loss": 0.25264854431152345,
      "memory(GiB)": 77.59,
      "step": 97380,
      "token_acc": 0.9409937888198758,
      "train_speed(iter/s)": 1.460137
    },
    {
      "epoch": 4.172271967782015,
      "grad_norm": 4.771573066711426,
      "learning_rate": 6.610950680423972e-06,
      "loss": 0.5029104709625244,
      "memory(GiB)": 77.59,
      "step": 97385,
      "token_acc": 0.9009009009009009,
      "train_speed(iter/s)": 1.460154
    },
    {
      "epoch": 4.172486183111263,
      "grad_norm": 4.443476676940918,
      "learning_rate": 6.607606734015753e-06,
      "loss": 0.252191948890686,
      "memory(GiB)": 77.59,
      "step": 97390,
      "token_acc": 0.953125,
      "train_speed(iter/s)": 1.460155
    },
    {
      "epoch": 4.172700398440512,
      "grad_norm": 3.202730894088745,
      "learning_rate": 6.604263573701441e-06,
      "loss": 0.4086909770965576,
      "memory(GiB)": 77.59,
      "step": 97395,
      "token_acc": 0.8952380952380953,
      "train_speed(iter/s)": 1.460172
    },
    {
      "epoch": 4.172914613769762,
      "grad_norm": 3.5525829792022705,
      "learning_rate": 6.600921199541593e-06,
      "loss": 0.36516823768615725,
      "memory(GiB)": 77.59,
      "step": 97400,
      "token_acc": 0.9171779141104295,
      "train_speed(iter/s)": 1.460188
    },
    {
      "epoch": 4.17312882909901,
      "grad_norm": 0.09657716006040573,
      "learning_rate": 6.597579611596782e-06,
      "loss": 0.21336562633514405,
      "memory(GiB)": 77.59,
      "step": 97405,
      "token_acc": 0.9625,
      "train_speed(iter/s)": 1.460192
    },
    {
      "epoch": 4.173343044428259,
      "grad_norm": 1.358163833618164,
      "learning_rate": 6.594238809927527e-06,
      "loss": 0.3435099124908447,
      "memory(GiB)": 77.59,
      "step": 97410,
      "token_acc": 0.9305993690851735,
      "train_speed(iter/s)": 1.460193
    },
    {
      "epoch": 4.173557259757509,
      "grad_norm": 0.5975470542907715,
      "learning_rate": 6.590898794594358e-06,
      "loss": 0.21276743412017823,
      "memory(GiB)": 77.59,
      "step": 97415,
      "token_acc": 0.9583333333333334,
      "train_speed(iter/s)": 1.460195
    },
    {
      "epoch": 4.173771475086757,
      "grad_norm": 2.3451809883117676,
      "learning_rate": 6.587559565657775e-06,
      "loss": 0.36565585136413575,
      "memory(GiB)": 77.59,
      "step": 97420,
      "token_acc": 0.9080459770114943,
      "train_speed(iter/s)": 1.460207
    },
    {
      "epoch": 4.173985690416006,
      "grad_norm": 0.16196109354496002,
      "learning_rate": 6.584221123178263e-06,
      "loss": 0.17001349925994874,
      "memory(GiB)": 77.59,
      "step": 97425,
      "token_acc": 0.9535603715170279,
      "train_speed(iter/s)": 1.460208
    },
    {
      "epoch": 4.1741999057452555,
      "grad_norm": 3.2360713481903076,
      "learning_rate": 6.580883467216326e-06,
      "loss": 0.35758304595947266,
      "memory(GiB)": 77.59,
      "step": 97430,
      "token_acc": 0.920863309352518,
      "train_speed(iter/s)": 1.460209
    },
    {
      "epoch": 4.174414121074504,
      "grad_norm": 5.221468925476074,
      "learning_rate": 6.577546597832413e-06,
      "loss": 0.5322786331176758,
      "memory(GiB)": 77.59,
      "step": 97435,
      "token_acc": 0.8719512195121951,
      "train_speed(iter/s)": 1.460204
    },
    {
      "epoch": 4.174628336403753,
      "grad_norm": 1.437172532081604,
      "learning_rate": 6.574210515086982e-06,
      "loss": 0.16237348318099976,
      "memory(GiB)": 77.59,
      "step": 97440,
      "token_acc": 0.9669669669669669,
      "train_speed(iter/s)": 1.460205
    },
    {
      "epoch": 4.174842551733002,
      "grad_norm": 4.122325897216797,
      "learning_rate": 6.570875219040457e-06,
      "loss": 0.5404956817626954,
      "memory(GiB)": 77.59,
      "step": 97445,
      "token_acc": 0.8949044585987261,
      "train_speed(iter/s)": 1.460211
    },
    {
      "epoch": 4.175056767062251,
      "grad_norm": 1.7078391313552856,
      "learning_rate": 6.567540709753262e-06,
      "loss": 0.283498477935791,
      "memory(GiB)": 77.59,
      "step": 97450,
      "token_acc": 0.9226190476190477,
      "train_speed(iter/s)": 1.460205
    },
    {
      "epoch": 4.1752709823915,
      "grad_norm": 0.9430018067359924,
      "learning_rate": 6.564206987285809e-06,
      "loss": 0.2563011884689331,
      "memory(GiB)": 77.59,
      "step": 97455,
      "token_acc": 0.9473684210526315,
      "train_speed(iter/s)": 1.460215
    },
    {
      "epoch": 4.175485197720749,
      "grad_norm": 4.2265801429748535,
      "learning_rate": 6.560874051698502e-06,
      "loss": 0.5684188842773438,
      "memory(GiB)": 77.59,
      "step": 97460,
      "token_acc": 0.884272997032641,
      "train_speed(iter/s)": 1.460225
    },
    {
      "epoch": 4.175699413049998,
      "grad_norm": 2.1178979873657227,
      "learning_rate": 6.557541903051712e-06,
      "loss": 0.4700815200805664,
      "memory(GiB)": 77.59,
      "step": 97465,
      "token_acc": 0.8856088560885609,
      "train_speed(iter/s)": 1.460226
    },
    {
      "epoch": 4.175913628379247,
      "grad_norm": 0.6396270394325256,
      "learning_rate": 6.554210541405803e-06,
      "loss": 0.3201985597610474,
      "memory(GiB)": 77.59,
      "step": 97470,
      "token_acc": 0.9215686274509803,
      "train_speed(iter/s)": 1.460228
    },
    {
      "epoch": 4.176127843708496,
      "grad_norm": 3.5686988830566406,
      "learning_rate": 6.550879966821122e-06,
      "loss": 0.5309565544128418,
      "memory(GiB)": 77.59,
      "step": 97475,
      "token_acc": 0.9063545150501672,
      "train_speed(iter/s)": 1.46023
    },
    {
      "epoch": 4.1763420590377445,
      "grad_norm": 2.7273800373077393,
      "learning_rate": 6.547550179358014e-06,
      "loss": 0.3641794681549072,
      "memory(GiB)": 77.59,
      "step": 97480,
      "token_acc": 0.8997289972899729,
      "train_speed(iter/s)": 1.460238
    },
    {
      "epoch": 4.176556274366994,
      "grad_norm": 1.6447190046310425,
      "learning_rate": 6.544221179076782e-06,
      "loss": 0.3765552282333374,
      "memory(GiB)": 77.59,
      "step": 97485,
      "token_acc": 0.9088235294117647,
      "train_speed(iter/s)": 1.460242
    },
    {
      "epoch": 4.176770489696243,
      "grad_norm": 3.699047088623047,
      "learning_rate": 6.5408929660377595e-06,
      "loss": 0.2707526206970215,
      "memory(GiB)": 77.59,
      "step": 97490,
      "token_acc": 0.9545454545454546,
      "train_speed(iter/s)": 1.460251
    },
    {
      "epoch": 4.176984705025491,
      "grad_norm": 2.7553257942199707,
      "learning_rate": 6.537565540301227e-06,
      "loss": 0.3330109119415283,
      "memory(GiB)": 77.59,
      "step": 97495,
      "token_acc": 0.9398496240601504,
      "train_speed(iter/s)": 1.460256
    },
    {
      "epoch": 4.177198920354741,
      "grad_norm": 3.6314079761505127,
      "learning_rate": 6.534238901927469e-06,
      "loss": 0.5373851299285889,
      "memory(GiB)": 77.59,
      "step": 97500,
      "token_acc": 0.8908045977011494,
      "train_speed(iter/s)": 1.460258
    },
    {
      "epoch": 4.177198920354741,
      "eval_loss": 2.583786964416504,
      "eval_runtime": 11.2419,
      "eval_samples_per_second": 8.895,
      "eval_steps_per_second": 8.895,
      "eval_token_acc": 0.4436416184971098,
      "step": 97500
    },
    {
      "epoch": 4.17741313568399,
      "grad_norm": 4.204164981842041,
      "learning_rate": 6.530913050976744e-06,
      "loss": 0.658365535736084,
      "memory(GiB)": 77.59,
      "step": 97505,
      "token_acc": 0.5731462925851704,
      "train_speed(iter/s)": 1.46
    },
    {
      "epoch": 4.177627351013238,
      "grad_norm": 4.643906593322754,
      "learning_rate": 6.527587987509299e-06,
      "loss": 0.45300636291503904,
      "memory(GiB)": 77.59,
      "step": 97510,
      "token_acc": 0.8913043478260869,
      "train_speed(iter/s)": 1.46
    },
    {
      "epoch": 4.1778415663424875,
      "grad_norm": 2.5250635147094727,
      "learning_rate": 6.5242637115853876e-06,
      "loss": 0.18197418451309205,
      "memory(GiB)": 77.59,
      "step": 97515,
      "token_acc": 0.9629629629629629,
      "train_speed(iter/s)": 1.460003
    },
    {
      "epoch": 4.178055781671737,
      "grad_norm": 2.913274049758911,
      "learning_rate": 6.520940223265226e-06,
      "loss": 0.28318376541137696,
      "memory(GiB)": 77.59,
      "step": 97520,
      "token_acc": 0.9425287356321839,
      "train_speed(iter/s)": 1.460002
    },
    {
      "epoch": 4.178269997000985,
      "grad_norm": 2.3135437965393066,
      "learning_rate": 6.517617522609015e-06,
      "loss": 0.47270889282226564,
      "memory(GiB)": 77.59,
      "step": 97525,
      "token_acc": 0.9,
      "train_speed(iter/s)": 1.460003
    },
    {
      "epoch": 4.178484212330234,
      "grad_norm": 5.325996398925781,
      "learning_rate": 6.51429560967694e-06,
      "loss": 0.47706069946289065,
      "memory(GiB)": 77.59,
      "step": 97530,
      "token_acc": 0.89198606271777,
      "train_speed(iter/s)": 1.460008
    },
    {
      "epoch": 4.178698427659484,
      "grad_norm": 7.4018425941467285,
      "learning_rate": 6.510974484529209e-06,
      "loss": 0.32614195346832275,
      "memory(GiB)": 77.59,
      "step": 97535,
      "token_acc": 0.9351535836177475,
      "train_speed(iter/s)": 1.460013
    },
    {
      "epoch": 4.178912642988732,
      "grad_norm": 4.2571187019348145,
      "learning_rate": 6.5076541472259666e-06,
      "loss": 0.3398735046386719,
      "memory(GiB)": 77.59,
      "step": 97540,
      "token_acc": 0.9276315789473685,
      "train_speed(iter/s)": 1.460024
    },
    {
      "epoch": 4.179126858317981,
      "grad_norm": 1.1020060777664185,
      "learning_rate": 6.50433459782736e-06,
      "loss": 0.5331015586853027,
      "memory(GiB)": 77.59,
      "step": 97545,
      "token_acc": 0.8940397350993378,
      "train_speed(iter/s)": 1.460029
    },
    {
      "epoch": 4.1793410736472305,
      "grad_norm": 0.1424068659543991,
      "learning_rate": 6.501015836393543e-06,
      "loss": 0.3665480136871338,
      "memory(GiB)": 77.59,
      "step": 97550,
      "token_acc": 0.9067164179104478,
      "train_speed(iter/s)": 1.460031
    },
    {
      "epoch": 4.179555288976479,
      "grad_norm": 5.178808212280273,
      "learning_rate": 6.497697862984631e-06,
      "loss": 0.41159806251525877,
      "memory(GiB)": 77.59,
      "step": 97555,
      "token_acc": 0.9004329004329005,
      "train_speed(iter/s)": 1.460038
    },
    {
      "epoch": 4.179769504305728,
      "grad_norm": 2.1409592628479004,
      "learning_rate": 6.494380677660733e-06,
      "loss": 0.40760278701782227,
      "memory(GiB)": 77.59,
      "step": 97560,
      "token_acc": 0.9050632911392406,
      "train_speed(iter/s)": 1.460048
    },
    {
      "epoch": 4.179983719634977,
      "grad_norm": 3.835376501083374,
      "learning_rate": 6.491064280481934e-06,
      "loss": 0.4240875720977783,
      "memory(GiB)": 77.59,
      "step": 97565,
      "token_acc": 0.908284023668639,
      "train_speed(iter/s)": 1.460046
    },
    {
      "epoch": 4.180197934964226,
      "grad_norm": 2.033799648284912,
      "learning_rate": 6.4877486715083144e-06,
      "loss": 0.12782635688781738,
      "memory(GiB)": 77.59,
      "step": 97570,
      "token_acc": 0.967741935483871,
      "train_speed(iter/s)": 1.460045
    },
    {
      "epoch": 4.180412150293475,
      "grad_norm": 2.1786141395568848,
      "learning_rate": 6.484433850799959e-06,
      "loss": 0.3486099481582642,
      "memory(GiB)": 77.59,
      "step": 97575,
      "token_acc": 0.9081272084805654,
      "train_speed(iter/s)": 1.460053
    },
    {
      "epoch": 4.180626365622724,
      "grad_norm": 3.089102029800415,
      "learning_rate": 6.481119818416898e-06,
      "loss": 0.08281692266464233,
      "memory(GiB)": 77.59,
      "step": 97580,
      "token_acc": 0.9795918367346939,
      "train_speed(iter/s)": 1.46006
    },
    {
      "epoch": 4.180840580951973,
      "grad_norm": 5.708587646484375,
      "learning_rate": 6.477806574419182e-06,
      "loss": 0.48087358474731445,
      "memory(GiB)": 77.59,
      "step": 97585,
      "token_acc": 0.919093851132686,
      "train_speed(iter/s)": 1.460063
    },
    {
      "epoch": 4.181054796281222,
      "grad_norm": 2.8505542278289795,
      "learning_rate": 6.474494118866825e-06,
      "loss": 0.2611204147338867,
      "memory(GiB)": 77.59,
      "step": 97590,
      "token_acc": 0.9426229508196722,
      "train_speed(iter/s)": 1.460058
    },
    {
      "epoch": 4.181269011610471,
      "grad_norm": 0.487552672624588,
      "learning_rate": 6.471182451819824e-06,
      "loss": 0.11936368942260742,
      "memory(GiB)": 77.59,
      "step": 97595,
      "token_acc": 0.9618320610687023,
      "train_speed(iter/s)": 1.460061
    },
    {
      "epoch": 4.1814832269397195,
      "grad_norm": 3.7532525062561035,
      "learning_rate": 6.467871573338186e-06,
      "loss": 0.1650167226791382,
      "memory(GiB)": 77.59,
      "step": 97600,
      "token_acc": 0.953405017921147,
      "train_speed(iter/s)": 1.460064
    },
    {
      "epoch": 4.181697442268969,
      "grad_norm": 3.358043670654297,
      "learning_rate": 6.464561483481907e-06,
      "loss": 0.5403341293334961,
      "memory(GiB)": 77.59,
      "step": 97605,
      "token_acc": 0.8910081743869209,
      "train_speed(iter/s)": 1.460078
    },
    {
      "epoch": 4.181911657598218,
      "grad_norm": 3.1714885234832764,
      "learning_rate": 6.461252182310929e-06,
      "loss": 0.3714768886566162,
      "memory(GiB)": 77.59,
      "step": 97610,
      "token_acc": 0.9320388349514563,
      "train_speed(iter/s)": 1.460083
    },
    {
      "epoch": 4.182125872927466,
      "grad_norm": 2.693624258041382,
      "learning_rate": 6.457943669885219e-06,
      "loss": 0.4526193141937256,
      "memory(GiB)": 77.59,
      "step": 97615,
      "token_acc": 0.8832116788321168,
      "train_speed(iter/s)": 1.460082
    },
    {
      "epoch": 4.182340088256716,
      "grad_norm": 4.4694671630859375,
      "learning_rate": 6.4546359462646975e-06,
      "loss": 0.34573955535888673,
      "memory(GiB)": 77.59,
      "step": 97620,
      "token_acc": 0.9230769230769231,
      "train_speed(iter/s)": 1.460088
    },
    {
      "epoch": 4.182554303585965,
      "grad_norm": 3.577923536300659,
      "learning_rate": 6.4513290115093e-06,
      "loss": 0.2870840311050415,
      "memory(GiB)": 77.59,
      "step": 97625,
      "token_acc": 0.9251968503937008,
      "train_speed(iter/s)": 1.46009
    },
    {
      "epoch": 4.182768518915213,
      "grad_norm": 8.053380012512207,
      "learning_rate": 6.448022865678916e-06,
      "loss": 0.37318460941314696,
      "memory(GiB)": 77.59,
      "step": 97630,
      "token_acc": 0.929368029739777,
      "train_speed(iter/s)": 1.460098
    },
    {
      "epoch": 4.1829827342444625,
      "grad_norm": 4.7150373458862305,
      "learning_rate": 6.444717508833464e-06,
      "loss": 0.4212969779968262,
      "memory(GiB)": 77.59,
      "step": 97635,
      "token_acc": 0.9007633587786259,
      "train_speed(iter/s)": 1.460096
    },
    {
      "epoch": 4.183196949573712,
      "grad_norm": 4.007823467254639,
      "learning_rate": 6.441412941032809e-06,
      "loss": 0.4210054874420166,
      "memory(GiB)": 77.59,
      "step": 97640,
      "token_acc": 0.9155405405405406,
      "train_speed(iter/s)": 1.460096
    },
    {
      "epoch": 4.18341116490296,
      "grad_norm": 4.1203107833862305,
      "learning_rate": 6.4381091623368254e-06,
      "loss": 0.3103918552398682,
      "memory(GiB)": 77.59,
      "step": 97645,
      "token_acc": 0.930921052631579,
      "train_speed(iter/s)": 1.460098
    },
    {
      "epoch": 4.183625380232209,
      "grad_norm": 1.2829504013061523,
      "learning_rate": 6.434806172805358e-06,
      "loss": 0.2604515075683594,
      "memory(GiB)": 77.59,
      "step": 97650,
      "token_acc": 0.9468085106382979,
      "train_speed(iter/s)": 1.460102
    },
    {
      "epoch": 4.183839595561459,
      "grad_norm": 3.282407522201538,
      "learning_rate": 6.431503972498232e-06,
      "loss": 0.4477139949798584,
      "memory(GiB)": 77.59,
      "step": 97655,
      "token_acc": 0.8996539792387543,
      "train_speed(iter/s)": 1.460115
    },
    {
      "epoch": 4.184053810890707,
      "grad_norm": 4.048049449920654,
      "learning_rate": 6.428202561475288e-06,
      "loss": 0.5166503429412842,
      "memory(GiB)": 77.59,
      "step": 97660,
      "token_acc": 0.9212598425196851,
      "train_speed(iter/s)": 1.46012
    },
    {
      "epoch": 4.184268026219956,
      "grad_norm": 4.927420139312744,
      "learning_rate": 6.424901939796335e-06,
      "loss": 0.42885580062866213,
      "memory(GiB)": 77.59,
      "step": 97665,
      "token_acc": 0.9005847953216374,
      "train_speed(iter/s)": 1.460122
    },
    {
      "epoch": 4.184482241549206,
      "grad_norm": 0.4785492718219757,
      "learning_rate": 6.421602107521157e-06,
      "loss": 0.23147976398468018,
      "memory(GiB)": 77.59,
      "step": 97670,
      "token_acc": 0.9538461538461539,
      "train_speed(iter/s)": 1.460128
    },
    {
      "epoch": 4.184696456878454,
      "grad_norm": 2.466228723526001,
      "learning_rate": 6.41830306470953e-06,
      "loss": 0.171213698387146,
      "memory(GiB)": 77.59,
      "step": 97675,
      "token_acc": 0.950530035335689,
      "train_speed(iter/s)": 1.460146
    },
    {
      "epoch": 4.184910672207703,
      "grad_norm": 2.548906087875366,
      "learning_rate": 6.415004811421232e-06,
      "loss": 0.19051543474197388,
      "memory(GiB)": 77.59,
      "step": 97680,
      "token_acc": 0.9642857142857143,
      "train_speed(iter/s)": 1.46015
    },
    {
      "epoch": 4.185124887536952,
      "grad_norm": 3.1325454711914062,
      "learning_rate": 6.411707347716012e-06,
      "loss": 0.22157719135284423,
      "memory(GiB)": 77.59,
      "step": 97685,
      "token_acc": 0.9328621908127208,
      "train_speed(iter/s)": 1.460154
    },
    {
      "epoch": 4.185339102866201,
      "grad_norm": 4.170884609222412,
      "learning_rate": 6.408410673653586e-06,
      "loss": 0.4933638572692871,
      "memory(GiB)": 77.59,
      "step": 97690,
      "token_acc": 0.9090909090909091,
      "train_speed(iter/s)": 1.46015
    },
    {
      "epoch": 4.18555331819545,
      "grad_norm": 3.838067054748535,
      "learning_rate": 6.405114789293709e-06,
      "loss": 0.37092061042785646,
      "memory(GiB)": 77.59,
      "step": 97695,
      "token_acc": 0.9340659340659341,
      "train_speed(iter/s)": 1.460153
    },
    {
      "epoch": 4.185767533524699,
      "grad_norm": 1.9812541007995605,
      "learning_rate": 6.40181969469607e-06,
      "loss": 0.3119025707244873,
      "memory(GiB)": 77.59,
      "step": 97700,
      "token_acc": 0.9225589225589226,
      "train_speed(iter/s)": 1.460152
    },
    {
      "epoch": 4.185981748853948,
      "grad_norm": 4.311748504638672,
      "learning_rate": 6.398525389920368e-06,
      "loss": 0.2817831516265869,
      "memory(GiB)": 77.59,
      "step": 97705,
      "token_acc": 0.9475524475524476,
      "train_speed(iter/s)": 1.460161
    },
    {
      "epoch": 4.186195964183197,
      "grad_norm": 4.39789342880249,
      "learning_rate": 6.395231875026275e-06,
      "loss": 0.362914514541626,
      "memory(GiB)": 77.59,
      "step": 97710,
      "token_acc": 0.9288135593220339,
      "train_speed(iter/s)": 1.460168
    },
    {
      "epoch": 4.186410179512446,
      "grad_norm": 5.5988569259643555,
      "learning_rate": 6.391939150073456e-06,
      "loss": 0.220673131942749,
      "memory(GiB)": 77.59,
      "step": 97715,
      "token_acc": 0.9495798319327731,
      "train_speed(iter/s)": 1.460165
    },
    {
      "epoch": 4.186624394841695,
      "grad_norm": 6.242227554321289,
      "learning_rate": 6.388647215121579e-06,
      "loss": 0.2356261968612671,
      "memory(GiB)": 77.59,
      "step": 97720,
      "token_acc": 0.9421487603305785,
      "train_speed(iter/s)": 1.460166
    },
    {
      "epoch": 4.186838610170944,
      "grad_norm": 2.904934883117676,
      "learning_rate": 6.385356070230264e-06,
      "loss": 0.21695225238800048,
      "memory(GiB)": 77.59,
      "step": 97725,
      "token_acc": 0.9442379182156134,
      "train_speed(iter/s)": 1.460166
    },
    {
      "epoch": 4.187052825500193,
      "grad_norm": 3.7167327404022217,
      "learning_rate": 6.38206571545914e-06,
      "loss": 0.3375232696533203,
      "memory(GiB)": 77.59,
      "step": 97730,
      "token_acc": 0.9310344827586207,
      "train_speed(iter/s)": 1.460173
    },
    {
      "epoch": 4.1872670408294415,
      "grad_norm": 1.3004860877990723,
      "learning_rate": 6.37877615086781e-06,
      "loss": 0.09643903374671936,
      "memory(GiB)": 77.59,
      "step": 97735,
      "token_acc": 0.9698996655518395,
      "train_speed(iter/s)": 1.460175
    },
    {
      "epoch": 4.187481256158691,
      "grad_norm": 5.951595306396484,
      "learning_rate": 6.375487376515859e-06,
      "loss": 0.36009559631347654,
      "memory(GiB)": 77.59,
      "step": 97740,
      "token_acc": 0.933852140077821,
      "train_speed(iter/s)": 1.460179
    },
    {
      "epoch": 4.18769547148794,
      "grad_norm": 1.9411615133285522,
      "learning_rate": 6.372199392462891e-06,
      "loss": 0.37661037445068357,
      "memory(GiB)": 77.59,
      "step": 97745,
      "token_acc": 0.9330855018587361,
      "train_speed(iter/s)": 1.460187
    },
    {
      "epoch": 4.187909686817188,
      "grad_norm": 2.522258758544922,
      "learning_rate": 6.368912198768445e-06,
      "loss": 0.19776941537857057,
      "memory(GiB)": 77.59,
      "step": 97750,
      "token_acc": 0.9440993788819876,
      "train_speed(iter/s)": 1.46019
    },
    {
      "epoch": 4.188123902146438,
      "grad_norm": 2.1099977493286133,
      "learning_rate": 6.365625795492092e-06,
      "loss": 0.48793964385986327,
      "memory(GiB)": 77.59,
      "step": 97755,
      "token_acc": 0.8844444444444445,
      "train_speed(iter/s)": 1.460203
    },
    {
      "epoch": 4.188338117475687,
      "grad_norm": 3.2931838035583496,
      "learning_rate": 6.362340182693366e-06,
      "loss": 0.5163224220275879,
      "memory(GiB)": 77.59,
      "step": 97760,
      "token_acc": 0.8919753086419753,
      "train_speed(iter/s)": 1.460204
    },
    {
      "epoch": 4.188552332804935,
      "grad_norm": 2.1474239826202393,
      "learning_rate": 6.3590553604317756e-06,
      "loss": 0.3873679876327515,
      "memory(GiB)": 77.59,
      "step": 97765,
      "token_acc": 0.9131832797427653,
      "train_speed(iter/s)": 1.460202
    },
    {
      "epoch": 4.1887665481341845,
      "grad_norm": 5.39483642578125,
      "learning_rate": 6.3557713287668405e-06,
      "loss": 0.3716289520263672,
      "memory(GiB)": 77.59,
      "step": 97770,
      "token_acc": 0.9305555555555556,
      "train_speed(iter/s)": 1.460207
    },
    {
      "epoch": 4.188980763463434,
      "grad_norm": 2.084623336791992,
      "learning_rate": 6.3524880877580405e-06,
      "loss": 0.23407597541809083,
      "memory(GiB)": 77.59,
      "step": 97775,
      "token_acc": 0.9620689655172414,
      "train_speed(iter/s)": 1.460207
    },
    {
      "epoch": 4.189194978792682,
      "grad_norm": 0.9902254939079285,
      "learning_rate": 6.349205637464872e-06,
      "loss": 0.24070391654968262,
      "memory(GiB)": 77.59,
      "step": 97780,
      "token_acc": 0.9307958477508651,
      "train_speed(iter/s)": 1.460214
    },
    {
      "epoch": 4.189409194121931,
      "grad_norm": 3.182434320449829,
      "learning_rate": 6.345923977946789e-06,
      "loss": 0.26826000213623047,
      "memory(GiB)": 77.59,
      "step": 97785,
      "token_acc": 0.9529411764705882,
      "train_speed(iter/s)": 1.460214
    },
    {
      "epoch": 4.189623409451181,
      "grad_norm": 3.3424391746520996,
      "learning_rate": 6.3426431092632465e-06,
      "loss": 0.23312735557556152,
      "memory(GiB)": 77.59,
      "step": 97790,
      "token_acc": 0.9340277777777778,
      "train_speed(iter/s)": 1.460213
    },
    {
      "epoch": 4.189837624780429,
      "grad_norm": 3.9559199810028076,
      "learning_rate": 6.339363031473677e-06,
      "loss": 0.1419013261795044,
      "memory(GiB)": 77.59,
      "step": 97795,
      "token_acc": 0.967391304347826,
      "train_speed(iter/s)": 1.46021
    },
    {
      "epoch": 4.190051840109678,
      "grad_norm": 3.2174971103668213,
      "learning_rate": 6.3360837446374945e-06,
      "loss": 0.35105156898498535,
      "memory(GiB)": 77.59,
      "step": 97800,
      "token_acc": 0.9312977099236641,
      "train_speed(iter/s)": 1.460211
    },
    {
      "epoch": 4.1902660554389275,
      "grad_norm": 4.2937092781066895,
      "learning_rate": 6.3328052488141225e-06,
      "loss": 0.6402896881103516,
      "memory(GiB)": 77.59,
      "step": 97805,
      "token_acc": 0.8796296296296297,
      "train_speed(iter/s)": 1.46022
    },
    {
      "epoch": 4.190480270768176,
      "grad_norm": 4.231352806091309,
      "learning_rate": 6.329527544062952e-06,
      "loss": 0.6518398284912109,
      "memory(GiB)": 77.59,
      "step": 97810,
      "token_acc": 0.8704318936877077,
      "train_speed(iter/s)": 1.460228
    },
    {
      "epoch": 4.190694486097425,
      "grad_norm": 2.599597930908203,
      "learning_rate": 6.326250630443348e-06,
      "loss": 0.3621212005615234,
      "memory(GiB)": 77.59,
      "step": 97815,
      "token_acc": 0.9242424242424242,
      "train_speed(iter/s)": 1.46023
    },
    {
      "epoch": 4.190908701426674,
      "grad_norm": 3.691052198410034,
      "learning_rate": 6.32297450801469e-06,
      "loss": 0.40732507705688475,
      "memory(GiB)": 77.59,
      "step": 97820,
      "token_acc": 0.9032258064516129,
      "train_speed(iter/s)": 1.460234
    },
    {
      "epoch": 4.191122916755923,
      "grad_norm": 3.036773920059204,
      "learning_rate": 6.319699176836308e-06,
      "loss": 0.18678412437438965,
      "memory(GiB)": 77.59,
      "step": 97825,
      "token_acc": 0.9531772575250836,
      "train_speed(iter/s)": 1.460247
    },
    {
      "epoch": 4.191337132085172,
      "grad_norm": 0.6137109398841858,
      "learning_rate": 6.316424636967561e-06,
      "loss": 0.23461430072784423,
      "memory(GiB)": 77.59,
      "step": 97830,
      "token_acc": 0.9377162629757786,
      "train_speed(iter/s)": 1.460247
    },
    {
      "epoch": 4.191551347414421,
      "grad_norm": 2.381547212600708,
      "learning_rate": 6.313150888467751e-06,
      "loss": 0.2145379066467285,
      "memory(GiB)": 77.59,
      "step": 97835,
      "token_acc": 0.9502369668246445,
      "train_speed(iter/s)": 1.460247
    },
    {
      "epoch": 4.19176556274367,
      "grad_norm": 3.448763132095337,
      "learning_rate": 6.309877931396202e-06,
      "loss": 0.2681333065032959,
      "memory(GiB)": 77.59,
      "step": 97840,
      "token_acc": 0.9469964664310954,
      "train_speed(iter/s)": 1.460242
    },
    {
      "epoch": 4.191979778072919,
      "grad_norm": 2.8452088832855225,
      "learning_rate": 6.306605765812202e-06,
      "loss": 0.33008403778076173,
      "memory(GiB)": 77.59,
      "step": 97845,
      "token_acc": 0.9076923076923077,
      "train_speed(iter/s)": 1.460245
    },
    {
      "epoch": 4.192193993402168,
      "grad_norm": 3.194904088973999,
      "learning_rate": 6.3033343917750235e-06,
      "loss": 0.2719533443450928,
      "memory(GiB)": 77.59,
      "step": 97850,
      "token_acc": 0.935251798561151,
      "train_speed(iter/s)": 1.460248
    },
    {
      "epoch": 4.1924082087314165,
      "grad_norm": 3.2260468006134033,
      "learning_rate": 6.300063809343936e-06,
      "loss": 0.3483938455581665,
      "memory(GiB)": 77.59,
      "step": 97855,
      "token_acc": 0.9461538461538461,
      "train_speed(iter/s)": 1.460245
    },
    {
      "epoch": 4.192622424060666,
      "grad_norm": 2.8232271671295166,
      "learning_rate": 6.2967940185781785e-06,
      "loss": 0.3098812818527222,
      "memory(GiB)": 77.59,
      "step": 97860,
      "token_acc": 0.9225352112676056,
      "train_speed(iter/s)": 1.460259
    },
    {
      "epoch": 4.192836639389915,
      "grad_norm": 6.607365131378174,
      "learning_rate": 6.293525019537e-06,
      "loss": 0.4239799976348877,
      "memory(GiB)": 77.59,
      "step": 97865,
      "token_acc": 0.9209621993127147,
      "train_speed(iter/s)": 1.460259
    },
    {
      "epoch": 4.193050854719163,
      "grad_norm": 1.1906187534332275,
      "learning_rate": 6.290256812279616e-06,
      "loss": 0.4301448822021484,
      "memory(GiB)": 77.59,
      "step": 97870,
      "token_acc": 0.9003690036900369,
      "train_speed(iter/s)": 1.460262
    },
    {
      "epoch": 4.193265070048413,
      "grad_norm": 2.8714754581451416,
      "learning_rate": 6.286989396865234e-06,
      "loss": 0.472912073135376,
      "memory(GiB)": 77.59,
      "step": 97875,
      "token_acc": 0.8791946308724832,
      "train_speed(iter/s)": 1.460272
    },
    {
      "epoch": 4.193479285377662,
      "grad_norm": 1.2754883766174316,
      "learning_rate": 6.283722773353046e-06,
      "loss": 0.10838866233825684,
      "memory(GiB)": 77.59,
      "step": 97880,
      "token_acc": 0.9668874172185431,
      "train_speed(iter/s)": 1.460277
    },
    {
      "epoch": 4.19369350070691,
      "grad_norm": 5.246139049530029,
      "learning_rate": 6.280456941802215e-06,
      "loss": 0.5106232166290283,
      "memory(GiB)": 77.59,
      "step": 97885,
      "token_acc": 0.9171428571428571,
      "train_speed(iter/s)": 1.460289
    },
    {
      "epoch": 4.1939077160361595,
      "grad_norm": 4.70322322845459,
      "learning_rate": 6.277191902271934e-06,
      "loss": 0.40793418884277344,
      "memory(GiB)": 77.59,
      "step": 97890,
      "token_acc": 0.922509225092251,
      "train_speed(iter/s)": 1.460295
    },
    {
      "epoch": 4.194121931365409,
      "grad_norm": 3.8737030029296875,
      "learning_rate": 6.273927654821321e-06,
      "loss": 0.21413168907165528,
      "memory(GiB)": 77.59,
      "step": 97895,
      "token_acc": 0.9497907949790795,
      "train_speed(iter/s)": 1.460304
    },
    {
      "epoch": 4.194336146694657,
      "grad_norm": 4.02509880065918,
      "learning_rate": 6.2706641995095405e-06,
      "loss": 0.1903510570526123,
      "memory(GiB)": 77.59,
      "step": 97900,
      "token_acc": 0.9612068965517241,
      "train_speed(iter/s)": 1.460311
    },
    {
      "epoch": 4.194550362023906,
      "grad_norm": 4.010931968688965,
      "learning_rate": 6.267401536395701e-06,
      "loss": 0.3762238025665283,
      "memory(GiB)": 77.59,
      "step": 97905,
      "token_acc": 0.9245283018867925,
      "train_speed(iter/s)": 1.460314
    },
    {
      "epoch": 4.194764577353156,
      "grad_norm": 4.0380377769470215,
      "learning_rate": 6.2641396655389095e-06,
      "loss": 0.3393506288528442,
      "memory(GiB)": 77.59,
      "step": 97910,
      "token_acc": 0.9235127478753541,
      "train_speed(iter/s)": 1.460324
    },
    {
      "epoch": 4.194978792682404,
      "grad_norm": 2.6324524879455566,
      "learning_rate": 6.2608785869982475e-06,
      "loss": 0.3885503768920898,
      "memory(GiB)": 77.59,
      "step": 97915,
      "token_acc": 0.9003831417624522,
      "train_speed(iter/s)": 1.460328
    },
    {
      "epoch": 4.195193008011653,
      "grad_norm": 0.46595272421836853,
      "learning_rate": 6.257618300832796e-06,
      "loss": 0.09880998134613037,
      "memory(GiB)": 77.59,
      "step": 97920,
      "token_acc": 0.9691780821917808,
      "train_speed(iter/s)": 1.460332
    },
    {
      "epoch": 4.1954072233409025,
      "grad_norm": 2.5683486461639404,
      "learning_rate": 6.254358807101635e-06,
      "loss": 0.15531188249588013,
      "memory(GiB)": 77.59,
      "step": 97925,
      "token_acc": 0.9704797047970479,
      "train_speed(iter/s)": 1.460333
    },
    {
      "epoch": 4.195621438670151,
      "grad_norm": 2.6194188594818115,
      "learning_rate": 6.251100105863794e-06,
      "loss": 0.3720966100692749,
      "memory(GiB)": 77.59,
      "step": 97930,
      "token_acc": 0.9154518950437318,
      "train_speed(iter/s)": 1.460336
    },
    {
      "epoch": 4.1958356539994,
      "grad_norm": 3.7578253746032715,
      "learning_rate": 6.247842197178317e-06,
      "loss": 0.2867238759994507,
      "memory(GiB)": 77.59,
      "step": 97935,
      "token_acc": 0.9283276450511946,
      "train_speed(iter/s)": 1.460336
    },
    {
      "epoch": 4.196049869328649,
      "grad_norm": 3.7614517211914062,
      "learning_rate": 6.2445850811042264e-06,
      "loss": 0.5793591976165772,
      "memory(GiB)": 77.59,
      "step": 97940,
      "token_acc": 0.8754716981132076,
      "train_speed(iter/s)": 1.460341
    },
    {
      "epoch": 4.196264084657898,
      "grad_norm": 2.745328903198242,
      "learning_rate": 6.241328757700505e-06,
      "loss": 0.22961721420288086,
      "memory(GiB)": 77.59,
      "step": 97945,
      "token_acc": 0.9451612903225807,
      "train_speed(iter/s)": 1.460345
    },
    {
      "epoch": 4.196478299987147,
      "grad_norm": 2.240875244140625,
      "learning_rate": 6.238073227026176e-06,
      "loss": 0.16062201261520387,
      "memory(GiB)": 77.59,
      "step": 97950,
      "token_acc": 0.951048951048951,
      "train_speed(iter/s)": 1.460342
    },
    {
      "epoch": 4.196692515316396,
      "grad_norm": 2.522005796432495,
      "learning_rate": 6.234818489140204e-06,
      "loss": 0.22144055366516113,
      "memory(GiB)": 77.59,
      "step": 97955,
      "token_acc": 0.947565543071161,
      "train_speed(iter/s)": 1.460348
    },
    {
      "epoch": 4.196906730645645,
      "grad_norm": 5.536969184875488,
      "learning_rate": 6.231564544101548e-06,
      "loss": 0.2158492088317871,
      "memory(GiB)": 77.59,
      "step": 97960,
      "token_acc": 0.954954954954955,
      "train_speed(iter/s)": 1.460349
    },
    {
      "epoch": 4.197120945974894,
      "grad_norm": 1.3729010820388794,
      "learning_rate": 6.22831139196916e-06,
      "loss": 0.3408372163772583,
      "memory(GiB)": 77.59,
      "step": 97965,
      "token_acc": 0.9196428571428571,
      "train_speed(iter/s)": 1.460353
    },
    {
      "epoch": 4.197335161304143,
      "grad_norm": 3.5917844772338867,
      "learning_rate": 6.225059032801961e-06,
      "loss": 0.2202216386795044,
      "memory(GiB)": 77.59,
      "step": 97970,
      "token_acc": 0.9444444444444444,
      "train_speed(iter/s)": 1.460357
    },
    {
      "epoch": 4.197549376633392,
      "grad_norm": 5.986090660095215,
      "learning_rate": 6.221807466658891e-06,
      "loss": 0.37030792236328125,
      "memory(GiB)": 77.59,
      "step": 97975,
      "token_acc": 0.9254901960784314,
      "train_speed(iter/s)": 1.460366
    },
    {
      "epoch": 4.197763591962641,
      "grad_norm": 3.23225736618042,
      "learning_rate": 6.2185566935988375e-06,
      "loss": 0.6040616035461426,
      "memory(GiB)": 77.59,
      "step": 97980,
      "token_acc": 0.8784722222222222,
      "train_speed(iter/s)": 1.460379
    },
    {
      "epoch": 4.19797780729189,
      "grad_norm": 1.4490723609924316,
      "learning_rate": 6.2153067136807076e-06,
      "loss": 0.28947622776031495,
      "memory(GiB)": 77.59,
      "step": 97985,
      "token_acc": 0.926923076923077,
      "train_speed(iter/s)": 1.460393
    },
    {
      "epoch": 4.198192022621138,
      "grad_norm": 4.648755073547363,
      "learning_rate": 6.212057526963372e-06,
      "loss": 0.338886022567749,
      "memory(GiB)": 77.59,
      "step": 97990,
      "token_acc": 0.9320987654320988,
      "train_speed(iter/s)": 1.460393
    },
    {
      "epoch": 4.198406237950388,
      "grad_norm": 3.765591859817505,
      "learning_rate": 6.2088091335056945e-06,
      "loss": 0.4257965087890625,
      "memory(GiB)": 77.59,
      "step": 97995,
      "token_acc": 0.9022346368715084,
      "train_speed(iter/s)": 1.460394
    },
    {
      "epoch": 4.198620453279637,
      "grad_norm": 3.0799202919006348,
      "learning_rate": 6.205561533366511e-06,
      "loss": 0.2652931213378906,
      "memory(GiB)": 77.59,
      "step": 98000,
      "token_acc": 0.9418960244648318,
      "train_speed(iter/s)": 1.460399
    },
    {
      "epoch": 4.198620453279637,
      "eval_loss": 2.3386666774749756,
      "eval_runtime": 11.0206,
      "eval_samples_per_second": 9.074,
      "eval_steps_per_second": 9.074,
      "eval_token_acc": 0.48200312989045385,
      "step": 98000
    },
    {
      "epoch": 4.198834668608885,
      "grad_norm": 1.8059052228927612,
      "learning_rate": 6.202314726604658e-06,
      "loss": 0.32872135639190675,
      "memory(GiB)": 77.59,
      "step": 98005,
      "token_acc": 0.6314699792960663,
      "train_speed(iter/s)": 1.46014
    },
    {
      "epoch": 4.199048883938135,
      "grad_norm": 3.9678468704223633,
      "learning_rate": 6.199068713278966e-06,
      "loss": 0.3490708112716675,
      "memory(GiB)": 77.59,
      "step": 98010,
      "token_acc": 0.9330855018587361,
      "train_speed(iter/s)": 1.460149
    },
    {
      "epoch": 4.199263099267384,
      "grad_norm": 2.0733749866485596,
      "learning_rate": 6.1958234934482384e-06,
      "loss": 0.3047593832015991,
      "memory(GiB)": 77.59,
      "step": 98015,
      "token_acc": 0.9375,
      "train_speed(iter/s)": 1.460147
    },
    {
      "epoch": 4.199477314596632,
      "grad_norm": 2.571464776992798,
      "learning_rate": 6.192579067171256e-06,
      "loss": 0.28133187294006345,
      "memory(GiB)": 77.59,
      "step": 98020,
      "token_acc": 0.9389067524115756,
      "train_speed(iter/s)": 1.460147
    },
    {
      "epoch": 4.1996915299258815,
      "grad_norm": 0.6197360754013062,
      "learning_rate": 6.189335434506799e-06,
      "loss": 0.3245791673660278,
      "memory(GiB)": 77.59,
      "step": 98025,
      "token_acc": 0.9263157894736842,
      "train_speed(iter/s)": 1.460149
    },
    {
      "epoch": 4.199905745255131,
      "grad_norm": 0.8720895051956177,
      "learning_rate": 6.186092595513615e-06,
      "loss": 0.3316923141479492,
      "memory(GiB)": 77.59,
      "step": 98030,
      "token_acc": 0.9394904458598726,
      "train_speed(iter/s)": 1.460162
    },
    {
      "epoch": 4.200119960584379,
      "grad_norm": 2.657533884048462,
      "learning_rate": 6.18285055025048e-06,
      "loss": 0.3757708787918091,
      "memory(GiB)": 77.59,
      "step": 98035,
      "token_acc": 0.9205882352941176,
      "train_speed(iter/s)": 1.460164
    },
    {
      "epoch": 4.200334175913628,
      "grad_norm": 3.12629771232605,
      "learning_rate": 6.179609298776106e-06,
      "loss": 0.29407515525817873,
      "memory(GiB)": 77.59,
      "step": 98040,
      "token_acc": 0.9492063492063492,
      "train_speed(iter/s)": 1.460164
    },
    {
      "epoch": 4.200548391242878,
      "grad_norm": 13.645951271057129,
      "learning_rate": 6.176368841149211e-06,
      "loss": 0.41391916275024415,
      "memory(GiB)": 77.59,
      "step": 98045,
      "token_acc": 0.875,
      "train_speed(iter/s)": 1.460164
    },
    {
      "epoch": 4.200762606572126,
      "grad_norm": 1.9651498794555664,
      "learning_rate": 6.17312917742851e-06,
      "loss": 0.14906247854232788,
      "memory(GiB)": 77.59,
      "step": 98050,
      "token_acc": 0.9691119691119691,
      "train_speed(iter/s)": 1.460162
    },
    {
      "epoch": 4.200976821901375,
      "grad_norm": 2.1097352504730225,
      "learning_rate": 6.169890307672693e-06,
      "loss": 0.31005961894989015,
      "memory(GiB)": 77.59,
      "step": 98055,
      "token_acc": 0.9114754098360656,
      "train_speed(iter/s)": 1.460165
    },
    {
      "epoch": 4.2011910372306245,
      "grad_norm": 0.13332220911979675,
      "learning_rate": 6.166652231940423e-06,
      "loss": 0.19098480939865112,
      "memory(GiB)": 77.59,
      "step": 98060,
      "token_acc": 0.9532374100719424,
      "train_speed(iter/s)": 1.460169
    },
    {
      "epoch": 4.201405252559873,
      "grad_norm": 0.9627434611320496,
      "learning_rate": 6.163414950290358e-06,
      "loss": 0.1452128529548645,
      "memory(GiB)": 77.59,
      "step": 98065,
      "token_acc": 0.9566929133858267,
      "train_speed(iter/s)": 1.460174
    },
    {
      "epoch": 4.201619467889122,
      "grad_norm": 3.24282169342041,
      "learning_rate": 6.1601784627811684e-06,
      "loss": 0.3717356204986572,
      "memory(GiB)": 77.59,
      "step": 98070,
      "token_acc": 0.9121621621621622,
      "train_speed(iter/s)": 1.460174
    },
    {
      "epoch": 4.201833683218371,
      "grad_norm": 1.8840986490249634,
      "learning_rate": 6.1569427694714635e-06,
      "loss": 0.47037954330444337,
      "memory(GiB)": 77.59,
      "step": 98075,
      "token_acc": 0.9197080291970803,
      "train_speed(iter/s)": 1.460175
    },
    {
      "epoch": 4.20204789854762,
      "grad_norm": 3.0803091526031494,
      "learning_rate": 6.1537078704198726e-06,
      "loss": 0.5272412776947022,
      "memory(GiB)": 77.59,
      "step": 98080,
      "token_acc": 0.8984375,
      "train_speed(iter/s)": 1.460183
    },
    {
      "epoch": 4.202262113876869,
      "grad_norm": 6.262923240661621,
      "learning_rate": 6.150473765684994e-06,
      "loss": 0.2853280782699585,
      "memory(GiB)": 77.59,
      "step": 98085,
      "token_acc": 0.9315960912052117,
      "train_speed(iter/s)": 1.460186
    },
    {
      "epoch": 4.202476329206118,
      "grad_norm": 1.5645930767059326,
      "learning_rate": 6.147240455325409e-06,
      "loss": 0.13065292835235595,
      "memory(GiB)": 77.59,
      "step": 98090,
      "token_acc": 0.9551724137931035,
      "train_speed(iter/s)": 1.460199
    },
    {
      "epoch": 4.202690544535367,
      "grad_norm": 5.716933250427246,
      "learning_rate": 6.14400793939971e-06,
      "loss": 0.3632649898529053,
      "memory(GiB)": 77.59,
      "step": 98095,
      "token_acc": 0.9275862068965517,
      "train_speed(iter/s)": 1.460211
    },
    {
      "epoch": 4.202904759864616,
      "grad_norm": 0.6317568421363831,
      "learning_rate": 6.140776217966443e-06,
      "loss": 0.03927308917045593,
      "memory(GiB)": 77.59,
      "step": 98100,
      "token_acc": 0.9843260188087775,
      "train_speed(iter/s)": 1.460215
    },
    {
      "epoch": 4.203118975193865,
      "grad_norm": 2.001603126525879,
      "learning_rate": 6.137545291084162e-06,
      "loss": 0.4550739288330078,
      "memory(GiB)": 77.59,
      "step": 98105,
      "token_acc": 0.8986013986013986,
      "train_speed(iter/s)": 1.460225
    },
    {
      "epoch": 4.2033331905231135,
      "grad_norm": 4.520556449890137,
      "learning_rate": 6.134315158811393e-06,
      "loss": 0.6394781589508056,
      "memory(GiB)": 77.59,
      "step": 98110,
      "token_acc": 0.8769716088328076,
      "train_speed(iter/s)": 1.460237
    },
    {
      "epoch": 4.203547405852363,
      "grad_norm": 5.785590648651123,
      "learning_rate": 6.1310858212066445e-06,
      "loss": 0.4844368934631348,
      "memory(GiB)": 77.59,
      "step": 98115,
      "token_acc": 0.8933823529411765,
      "train_speed(iter/s)": 1.460246
    },
    {
      "epoch": 4.203761621181612,
      "grad_norm": 1.6158615350723267,
      "learning_rate": 6.127857278328442e-06,
      "loss": 0.23742752075195311,
      "memory(GiB)": 77.59,
      "step": 98120,
      "token_acc": 0.9322033898305084,
      "train_speed(iter/s)": 1.460254
    },
    {
      "epoch": 4.20397583651086,
      "grad_norm": 2.10612154006958,
      "learning_rate": 6.124629530235249e-06,
      "loss": 0.3526984930038452,
      "memory(GiB)": 77.59,
      "step": 98125,
      "token_acc": 0.9106529209621993,
      "train_speed(iter/s)": 1.460258
    },
    {
      "epoch": 4.20419005184011,
      "grad_norm": 4.3854193687438965,
      "learning_rate": 6.121402576985558e-06,
      "loss": 0.40417070388793946,
      "memory(GiB)": 77.59,
      "step": 98130,
      "token_acc": 0.906896551724138,
      "train_speed(iter/s)": 1.460267
    },
    {
      "epoch": 4.204404267169359,
      "grad_norm": 6.884286403656006,
      "learning_rate": 6.118176418637822e-06,
      "loss": 0.559720516204834,
      "memory(GiB)": 77.59,
      "step": 98135,
      "token_acc": 0.8805970149253731,
      "train_speed(iter/s)": 1.460279
    },
    {
      "epoch": 4.204618482498607,
      "grad_norm": 3.6299490928649902,
      "learning_rate": 6.114951055250484e-06,
      "loss": 0.2233105182647705,
      "memory(GiB)": 77.59,
      "step": 98140,
      "token_acc": 0.9485530546623794,
      "train_speed(iter/s)": 1.460284
    },
    {
      "epoch": 4.2048326978278565,
      "grad_norm": 3.066171407699585,
      "learning_rate": 6.111726486881975e-06,
      "loss": 0.3955944776535034,
      "memory(GiB)": 77.59,
      "step": 98145,
      "token_acc": 0.9219219219219219,
      "train_speed(iter/s)": 1.460291
    },
    {
      "epoch": 4.205046913157106,
      "grad_norm": 1.6231837272644043,
      "learning_rate": 6.108502713590702e-06,
      "loss": 0.1952950119972229,
      "memory(GiB)": 77.59,
      "step": 98150,
      "token_acc": 0.9545454545454546,
      "train_speed(iter/s)": 1.460294
    },
    {
      "epoch": 4.205261128486354,
      "grad_norm": 4.427287578582764,
      "learning_rate": 6.105279735435082e-06,
      "loss": 0.5234605312347412,
      "memory(GiB)": 77.59,
      "step": 98155,
      "token_acc": 0.9017543859649123,
      "train_speed(iter/s)": 1.460296
    },
    {
      "epoch": 4.205475343815603,
      "grad_norm": 4.5213847160339355,
      "learning_rate": 6.1020575524735005e-06,
      "loss": 0.18679825067520142,
      "memory(GiB)": 77.59,
      "step": 98160,
      "token_acc": 0.9517241379310345,
      "train_speed(iter/s)": 1.460297
    },
    {
      "epoch": 4.205689559144853,
      "grad_norm": 2.896451473236084,
      "learning_rate": 6.098836164764326e-06,
      "loss": 0.13123548030853271,
      "memory(GiB)": 77.59,
      "step": 98165,
      "token_acc": 0.9699248120300752,
      "train_speed(iter/s)": 1.460302
    },
    {
      "epoch": 4.205903774474101,
      "grad_norm": 3.6990931034088135,
      "learning_rate": 6.095615572365921e-06,
      "loss": 0.14367743730545043,
      "memory(GiB)": 77.59,
      "step": 98170,
      "token_acc": 0.9695817490494296,
      "train_speed(iter/s)": 1.460302
    },
    {
      "epoch": 4.20611798980335,
      "grad_norm": 4.157937526702881,
      "learning_rate": 6.092395775336607e-06,
      "loss": 0.23412373065948486,
      "memory(GiB)": 77.59,
      "step": 98175,
      "token_acc": 0.9494163424124513,
      "train_speed(iter/s)": 1.460309
    },
    {
      "epoch": 4.2063322051325995,
      "grad_norm": 4.09370231628418,
      "learning_rate": 6.089176773734745e-06,
      "loss": 0.45462779998779296,
      "memory(GiB)": 77.59,
      "step": 98180,
      "token_acc": 0.9018987341772152,
      "train_speed(iter/s)": 1.460311
    },
    {
      "epoch": 4.206546420461848,
      "grad_norm": 9.246460914611816,
      "learning_rate": 6.085958567618638e-06,
      "loss": 0.45557370185852053,
      "memory(GiB)": 77.59,
      "step": 98185,
      "token_acc": 0.9094076655052264,
      "train_speed(iter/s)": 1.460319
    },
    {
      "epoch": 4.206760635791097,
      "grad_norm": 2.724729299545288,
      "learning_rate": 6.08274115704659e-06,
      "loss": 0.430684232711792,
      "memory(GiB)": 77.59,
      "step": 98190,
      "token_acc": 0.9163879598662207,
      "train_speed(iter/s)": 1.460323
    },
    {
      "epoch": 4.206974851120346,
      "grad_norm": 1.4742372035980225,
      "learning_rate": 6.07952454207687e-06,
      "loss": 0.18971855640411378,
      "memory(GiB)": 77.59,
      "step": 98195,
      "token_acc": 0.941320293398533,
      "train_speed(iter/s)": 1.460331
    },
    {
      "epoch": 4.207189066449595,
      "grad_norm": 3.6978464126586914,
      "learning_rate": 6.076308722767776e-06,
      "loss": 0.28788158893585203,
      "memory(GiB)": 77.59,
      "step": 98200,
      "token_acc": 0.9403973509933775,
      "train_speed(iter/s)": 1.460347
    },
    {
      "epoch": 4.207403281778844,
      "grad_norm": 1.8474230766296387,
      "learning_rate": 6.073093699177551e-06,
      "loss": 0.542391300201416,
      "memory(GiB)": 77.59,
      "step": 98205,
      "token_acc": 0.8980891719745223,
      "train_speed(iter/s)": 1.460352
    },
    {
      "epoch": 4.207617497108093,
      "grad_norm": 2.9289681911468506,
      "learning_rate": 6.069879471364426e-06,
      "loss": 0.16756672859191896,
      "memory(GiB)": 77.59,
      "step": 98210,
      "token_acc": 0.9529411764705882,
      "train_speed(iter/s)": 1.46035
    },
    {
      "epoch": 4.207831712437342,
      "grad_norm": 3.33054518699646,
      "learning_rate": 6.0666660393866596e-06,
      "loss": 0.1819087505340576,
      "memory(GiB)": 77.59,
      "step": 98215,
      "token_acc": 0.962457337883959,
      "train_speed(iter/s)": 1.460352
    },
    {
      "epoch": 4.208045927766591,
      "grad_norm": 0.3311339020729065,
      "learning_rate": 6.063453403302449e-06,
      "loss": 0.2694936990737915,
      "memory(GiB)": 77.59,
      "step": 98220,
      "token_acc": 0.9428571428571428,
      "train_speed(iter/s)": 1.460355
    },
    {
      "epoch": 4.20826014309584,
      "grad_norm": 3.6944830417633057,
      "learning_rate": 6.06024156317e-06,
      "loss": 0.5174617767333984,
      "memory(GiB)": 77.59,
      "step": 98225,
      "token_acc": 0.8896797153024911,
      "train_speed(iter/s)": 1.460359
    },
    {
      "epoch": 4.2084743584250885,
      "grad_norm": 4.786106109619141,
      "learning_rate": 6.057030519047491e-06,
      "loss": 0.33652405738830565,
      "memory(GiB)": 77.59,
      "step": 98230,
      "token_acc": 0.9230769230769231,
      "train_speed(iter/s)": 1.460368
    },
    {
      "epoch": 4.208688573754338,
      "grad_norm": 2.831531524658203,
      "learning_rate": 6.053820270993082e-06,
      "loss": 0.5005819797515869,
      "memory(GiB)": 77.59,
      "step": 98235,
      "token_acc": 0.886986301369863,
      "train_speed(iter/s)": 1.460373
    },
    {
      "epoch": 4.208902789083587,
      "grad_norm": 1.9027533531188965,
      "learning_rate": 6.050610819064961e-06,
      "loss": 0.25626211166381835,
      "memory(GiB)": 77.59,
      "step": 98240,
      "token_acc": 0.9522292993630573,
      "train_speed(iter/s)": 1.460375
    },
    {
      "epoch": 4.209117004412835,
      "grad_norm": 0.6037582755088806,
      "learning_rate": 6.047402163321248e-06,
      "loss": 0.3858400583267212,
      "memory(GiB)": 77.59,
      "step": 98245,
      "token_acc": 0.9033333333333333,
      "train_speed(iter/s)": 1.460378
    },
    {
      "epoch": 4.209331219742085,
      "grad_norm": 6.199275970458984,
      "learning_rate": 6.044194303820078e-06,
      "loss": 0.3889246225357056,
      "memory(GiB)": 77.59,
      "step": 98250,
      "token_acc": 0.915057915057915,
      "train_speed(iter/s)": 1.460392
    },
    {
      "epoch": 4.209545435071334,
      "grad_norm": 2.5593135356903076,
      "learning_rate": 6.040987240619561e-06,
      "loss": 0.29590065479278566,
      "memory(GiB)": 77.59,
      "step": 98255,
      "token_acc": 0.9363057324840764,
      "train_speed(iter/s)": 1.460397
    },
    {
      "epoch": 4.209759650400582,
      "grad_norm": 3.1672117710113525,
      "learning_rate": 6.037780973777785e-06,
      "loss": 0.27024378776550295,
      "memory(GiB)": 77.59,
      "step": 98260,
      "token_acc": 0.9432835820895522,
      "train_speed(iter/s)": 1.460396
    },
    {
      "epoch": 4.209973865729832,
      "grad_norm": 2.8979005813598633,
      "learning_rate": 6.0345755033528514e-06,
      "loss": 0.24535608291625977,
      "memory(GiB)": 77.59,
      "step": 98265,
      "token_acc": 0.9459459459459459,
      "train_speed(iter/s)": 1.460393
    },
    {
      "epoch": 4.210188081059081,
      "grad_norm": 1.855757236480713,
      "learning_rate": 6.031370829402832e-06,
      "loss": 0.42762365341186526,
      "memory(GiB)": 77.59,
      "step": 98270,
      "token_acc": 0.8958333333333334,
      "train_speed(iter/s)": 1.460391
    },
    {
      "epoch": 4.210402296388329,
      "grad_norm": 6.797255039215088,
      "learning_rate": 6.0281669519857755e-06,
      "loss": 0.29749908447265627,
      "memory(GiB)": 77.59,
      "step": 98275,
      "token_acc": 0.9309090909090909,
      "train_speed(iter/s)": 1.460393
    },
    {
      "epoch": 4.2106165117175784,
      "grad_norm": 2.5197594165802,
      "learning_rate": 6.024963871159722e-06,
      "loss": 0.3211709499359131,
      "memory(GiB)": 77.59,
      "step": 98280,
      "token_acc": 0.9242902208201893,
      "train_speed(iter/s)": 1.460393
    },
    {
      "epoch": 4.210830727046828,
      "grad_norm": 2.6888070106506348,
      "learning_rate": 6.021761586982705e-06,
      "loss": 0.4436773777008057,
      "memory(GiB)": 77.59,
      "step": 98285,
      "token_acc": 0.891566265060241,
      "train_speed(iter/s)": 1.460397
    },
    {
      "epoch": 4.211044942376076,
      "grad_norm": 4.275557518005371,
      "learning_rate": 6.018560099512732e-06,
      "loss": 0.298696231842041,
      "memory(GiB)": 77.59,
      "step": 98290,
      "token_acc": 0.9354838709677419,
      "train_speed(iter/s)": 1.460404
    },
    {
      "epoch": 4.211259157705325,
      "grad_norm": 0.7055520415306091,
      "learning_rate": 6.015359408807786e-06,
      "loss": 0.08551610708236694,
      "memory(GiB)": 77.59,
      "step": 98295,
      "token_acc": 0.9738805970149254,
      "train_speed(iter/s)": 1.460409
    },
    {
      "epoch": 4.211473373034575,
      "grad_norm": 5.079324245452881,
      "learning_rate": 6.012159514925875e-06,
      "loss": 0.3427137851715088,
      "memory(GiB)": 77.59,
      "step": 98300,
      "token_acc": 0.9239543726235742,
      "train_speed(iter/s)": 1.460416
    },
    {
      "epoch": 4.211687588363823,
      "grad_norm": 3.1973769664764404,
      "learning_rate": 6.008960417924964e-06,
      "loss": 0.3401891469955444,
      "memory(GiB)": 77.59,
      "step": 98305,
      "token_acc": 0.9317269076305221,
      "train_speed(iter/s)": 1.460415
    },
    {
      "epoch": 4.211901803693072,
      "grad_norm": 3.694179058074951,
      "learning_rate": 6.005762117862995e-06,
      "loss": 0.488649320602417,
      "memory(GiB)": 77.59,
      "step": 98310,
      "token_acc": 0.9041095890410958,
      "train_speed(iter/s)": 1.460413
    },
    {
      "epoch": 4.2121160190223215,
      "grad_norm": 2.642925500869751,
      "learning_rate": 6.002564614797923e-06,
      "loss": 0.326021671295166,
      "memory(GiB)": 77.59,
      "step": 98315,
      "token_acc": 0.9337979094076655,
      "train_speed(iter/s)": 1.460415
    },
    {
      "epoch": 4.21233023435157,
      "grad_norm": 4.401251792907715,
      "learning_rate": 5.999367908787651e-06,
      "loss": 0.49544081687927244,
      "memory(GiB)": 77.59,
      "step": 98320,
      "token_acc": 0.8764044943820225,
      "train_speed(iter/s)": 1.460427
    },
    {
      "epoch": 4.212544449680819,
      "grad_norm": 2.8843636512756348,
      "learning_rate": 5.996171999890116e-06,
      "loss": 0.20623476505279542,
      "memory(GiB)": 77.59,
      "step": 98325,
      "token_acc": 0.9481481481481482,
      "train_speed(iter/s)": 1.460425
    },
    {
      "epoch": 4.212758665010068,
      "grad_norm": 3.801729440689087,
      "learning_rate": 5.992976888163204e-06,
      "loss": 0.4091972827911377,
      "memory(GiB)": 77.59,
      "step": 98330,
      "token_acc": 0.8954703832752613,
      "train_speed(iter/s)": 1.460441
    },
    {
      "epoch": 4.212972880339317,
      "grad_norm": 2.0670435428619385,
      "learning_rate": 5.989782573664798e-06,
      "loss": 0.1710578203201294,
      "memory(GiB)": 77.59,
      "step": 98335,
      "token_acc": 0.960960960960961,
      "train_speed(iter/s)": 1.460437
    },
    {
      "epoch": 4.213187095668566,
      "grad_norm": 5.776317119598389,
      "learning_rate": 5.9865890564527515e-06,
      "loss": 0.45784711837768555,
      "memory(GiB)": 77.59,
      "step": 98340,
      "token_acc": 0.8857142857142857,
      "train_speed(iter/s)": 1.460434
    },
    {
      "epoch": 4.213401310997815,
      "grad_norm": 6.743402004241943,
      "learning_rate": 5.983396336584945e-06,
      "loss": 0.5236430168151855,
      "memory(GiB)": 77.59,
      "step": 98345,
      "token_acc": 0.8870292887029289,
      "train_speed(iter/s)": 1.460436
    },
    {
      "epoch": 4.213615526327064,
      "grad_norm": 4.665584087371826,
      "learning_rate": 5.9802044141192056e-06,
      "loss": 0.4332111358642578,
      "memory(GiB)": 77.59,
      "step": 98350,
      "token_acc": 0.9120521172638436,
      "train_speed(iter/s)": 1.460435
    },
    {
      "epoch": 4.213829741656313,
      "grad_norm": 1.7149096727371216,
      "learning_rate": 5.977013289113348e-06,
      "loss": 0.1784236788749695,
      "memory(GiB)": 77.59,
      "step": 98355,
      "token_acc": 0.9571984435797666,
      "train_speed(iter/s)": 1.460437
    },
    {
      "epoch": 4.214043956985562,
      "grad_norm": 0.2040080577135086,
      "learning_rate": 5.973822961625203e-06,
      "loss": 0.565197229385376,
      "memory(GiB)": 77.59,
      "step": 98360,
      "token_acc": 0.9003215434083601,
      "train_speed(iter/s)": 1.460449
    },
    {
      "epoch": 4.2142581723148105,
      "grad_norm": 1.6076951026916504,
      "learning_rate": 5.970633431712552e-06,
      "loss": 0.25562376976013185,
      "memory(GiB)": 77.59,
      "step": 98365,
      "token_acc": 0.9323308270676691,
      "train_speed(iter/s)": 1.46045
    },
    {
      "epoch": 4.21447238764406,
      "grad_norm": 4.2371416091918945,
      "learning_rate": 5.967444699433183e-06,
      "loss": 0.5039235591888428,
      "memory(GiB)": 77.59,
      "step": 98370,
      "token_acc": 0.8920863309352518,
      "train_speed(iter/s)": 1.460459
    },
    {
      "epoch": 4.214686602973309,
      "grad_norm": 1.7140982151031494,
      "learning_rate": 5.964256764844855e-06,
      "loss": 0.44909348487854006,
      "memory(GiB)": 77.59,
      "step": 98375,
      "token_acc": 0.8814102564102564,
      "train_speed(iter/s)": 1.460457
    },
    {
      "epoch": 4.214900818302557,
      "grad_norm": 1.8835740089416504,
      "learning_rate": 5.961069628005317e-06,
      "loss": 0.14329066276550292,
      "memory(GiB)": 77.59,
      "step": 98380,
      "token_acc": 0.973568281938326,
      "train_speed(iter/s)": 1.460456
    },
    {
      "epoch": 4.215115033631807,
      "grad_norm": 3.9875826835632324,
      "learning_rate": 5.9578832889723215e-06,
      "loss": 0.4226044178009033,
      "memory(GiB)": 77.59,
      "step": 98385,
      "token_acc": 0.9204152249134948,
      "train_speed(iter/s)": 1.460461
    },
    {
      "epoch": 4.215329248961056,
      "grad_norm": 3.207207202911377,
      "learning_rate": 5.954697747803584e-06,
      "loss": 0.4239375591278076,
      "memory(GiB)": 77.59,
      "step": 98390,
      "token_acc": 0.9182156133828996,
      "train_speed(iter/s)": 1.460464
    },
    {
      "epoch": 4.215543464290304,
      "grad_norm": 1.35182523727417,
      "learning_rate": 5.951513004556819e-06,
      "loss": 0.40343570709228516,
      "memory(GiB)": 77.59,
      "step": 98395,
      "token_acc": 0.9313725490196079,
      "train_speed(iter/s)": 1.460466
    },
    {
      "epoch": 4.2157576796195535,
      "grad_norm": 2.565239429473877,
      "learning_rate": 5.948329059289715e-06,
      "loss": 0.4879294395446777,
      "memory(GiB)": 77.59,
      "step": 98400,
      "token_acc": 0.9022801302931596,
      "train_speed(iter/s)": 1.460474
    },
    {
      "epoch": 4.215971894948803,
      "grad_norm": 2.6764397621154785,
      "learning_rate": 5.945145912059946e-06,
      "loss": 0.22307093143463136,
      "memory(GiB)": 77.59,
      "step": 98405,
      "token_acc": 0.9501557632398754,
      "train_speed(iter/s)": 1.460485
    },
    {
      "epoch": 4.216186110278051,
      "grad_norm": 5.858125686645508,
      "learning_rate": 5.94196356292519e-06,
      "loss": 0.35108494758605957,
      "memory(GiB)": 77.59,
      "step": 98410,
      "token_acc": 0.9365079365079365,
      "train_speed(iter/s)": 1.460487
    },
    {
      "epoch": 4.2164003256073,
      "grad_norm": 1.6357051134109497,
      "learning_rate": 5.938782011943089e-06,
      "loss": 0.22363026142120362,
      "memory(GiB)": 77.59,
      "step": 98415,
      "token_acc": 0.9485294117647058,
      "train_speed(iter/s)": 1.46049
    },
    {
      "epoch": 4.21661454093655,
      "grad_norm": 6.186338901519775,
      "learning_rate": 5.935601259171292e-06,
      "loss": 0.311961030960083,
      "memory(GiB)": 77.59,
      "step": 98420,
      "token_acc": 0.9411764705882353,
      "train_speed(iter/s)": 1.460493
    },
    {
      "epoch": 4.216828756265798,
      "grad_norm": 1.9252214431762695,
      "learning_rate": 5.932421304667418e-06,
      "loss": 0.3580860376358032,
      "memory(GiB)": 77.59,
      "step": 98425,
      "token_acc": 0.9097472924187726,
      "train_speed(iter/s)": 1.460498
    },
    {
      "epoch": 4.217042971595047,
      "grad_norm": 0.7059862613677979,
      "learning_rate": 5.9292421484890674e-06,
      "loss": 0.4231275081634521,
      "memory(GiB)": 77.59,
      "step": 98430,
      "token_acc": 0.8757763975155279,
      "train_speed(iter/s)": 1.460494
    },
    {
      "epoch": 4.2172571869242965,
      "grad_norm": 4.139179706573486,
      "learning_rate": 5.926063790693837e-06,
      "loss": 0.1346617102622986,
      "memory(GiB)": 77.59,
      "step": 98435,
      "token_acc": 0.9759450171821306,
      "train_speed(iter/s)": 1.460508
    },
    {
      "epoch": 4.217471402253545,
      "grad_norm": 2.6003310680389404,
      "learning_rate": 5.922886231339297e-06,
      "loss": 0.19401853084564208,
      "memory(GiB)": 77.59,
      "step": 98440,
      "token_acc": 0.956386292834891,
      "train_speed(iter/s)": 1.460511
    },
    {
      "epoch": 4.217685617582794,
      "grad_norm": 0.36567676067352295,
      "learning_rate": 5.919709470483032e-06,
      "loss": 0.17147066593170165,
      "memory(GiB)": 77.59,
      "step": 98445,
      "token_acc": 0.9627118644067797,
      "train_speed(iter/s)": 1.460513
    },
    {
      "epoch": 4.217899832912043,
      "grad_norm": 4.606250286102295,
      "learning_rate": 5.9165335081825754e-06,
      "loss": 0.5336176872253418,
      "memory(GiB)": 77.59,
      "step": 98450,
      "token_acc": 0.8819188191881919,
      "train_speed(iter/s)": 1.460512
    },
    {
      "epoch": 4.218114048241292,
      "grad_norm": 0.5379306674003601,
      "learning_rate": 5.913358344495473e-06,
      "loss": 0.23886210918426515,
      "memory(GiB)": 77.59,
      "step": 98455,
      "token_acc": 0.9579579579579579,
      "train_speed(iter/s)": 1.460516
    },
    {
      "epoch": 4.218328263570541,
      "grad_norm": 5.035633087158203,
      "learning_rate": 5.910183979479239e-06,
      "loss": 0.5329433441162109,
      "memory(GiB)": 77.59,
      "step": 98460,
      "token_acc": 0.8706293706293706,
      "train_speed(iter/s)": 1.460525
    },
    {
      "epoch": 4.21854247889979,
      "grad_norm": 1.801478624343872,
      "learning_rate": 5.907010413191372e-06,
      "loss": 0.25093884468078614,
      "memory(GiB)": 77.59,
      "step": 98465,
      "token_acc": 0.9509803921568627,
      "train_speed(iter/s)": 1.460527
    },
    {
      "epoch": 4.218756694229039,
      "grad_norm": 4.97199010848999,
      "learning_rate": 5.903837645689381e-06,
      "loss": 0.4529107570648193,
      "memory(GiB)": 77.59,
      "step": 98470,
      "token_acc": 0.8839590443686007,
      "train_speed(iter/s)": 1.460527
    },
    {
      "epoch": 4.218970909558288,
      "grad_norm": 1.7617846727371216,
      "learning_rate": 5.900665677030742e-06,
      "loss": 0.2982935428619385,
      "memory(GiB)": 77.59,
      "step": 98475,
      "token_acc": 0.9315960912052117,
      "train_speed(iter/s)": 1.46053
    },
    {
      "epoch": 4.219185124887537,
      "grad_norm": 2.372936248779297,
      "learning_rate": 5.89749450727291e-06,
      "loss": 0.2840536117553711,
      "memory(GiB)": 77.59,
      "step": 98480,
      "token_acc": 0.9382239382239382,
      "train_speed(iter/s)": 1.460531
    },
    {
      "epoch": 4.2193993402167855,
      "grad_norm": 5.008861064910889,
      "learning_rate": 5.894324136473334e-06,
      "loss": 0.336911940574646,
      "memory(GiB)": 77.59,
      "step": 98485,
      "token_acc": 0.9239130434782609,
      "train_speed(iter/s)": 1.460544
    },
    {
      "epoch": 4.219613555546035,
      "grad_norm": 5.133538722991943,
      "learning_rate": 5.891154564689444e-06,
      "loss": 0.7812463760375976,
      "memory(GiB)": 77.59,
      "step": 98490,
      "token_acc": 0.8455882352941176,
      "train_speed(iter/s)": 1.460552
    },
    {
      "epoch": 4.219827770875284,
      "grad_norm": 2.4442646503448486,
      "learning_rate": 5.887985791978673e-06,
      "loss": 0.28197875022888186,
      "memory(GiB)": 77.59,
      "step": 98495,
      "token_acc": 0.9424920127795527,
      "train_speed(iter/s)": 1.460565
    },
    {
      "epoch": 4.220041986204532,
      "grad_norm": 6.069707870483398,
      "learning_rate": 5.884817818398414e-06,
      "loss": 0.33835902214050295,
      "memory(GiB)": 77.59,
      "step": 98500,
      "token_acc": 0.9356060606060606,
      "train_speed(iter/s)": 1.460568
    },
    {
      "epoch": 4.220041986204532,
      "eval_loss": 2.3698079586029053,
      "eval_runtime": 11.1797,
      "eval_samples_per_second": 8.945,
      "eval_steps_per_second": 8.945,
      "eval_token_acc": 0.4591584158415842,
      "step": 98500
    },
    {
      "epoch": 4.220256201533782,
      "grad_norm": 4.452273368835449,
      "learning_rate": 5.881650644006071e-06,
      "loss": 0.6154337406158448,
      "memory(GiB)": 77.59,
      "step": 98505,
      "token_acc": 0.572573463935886,
      "train_speed(iter/s)": 1.460302
    },
    {
      "epoch": 4.220470416863031,
      "grad_norm": 3.8812408447265625,
      "learning_rate": 5.878484268859013e-06,
      "loss": 0.2837276220321655,
      "memory(GiB)": 77.59,
      "step": 98510,
      "token_acc": 0.9330543933054394,
      "train_speed(iter/s)": 1.460307
    },
    {
      "epoch": 4.220684632192279,
      "grad_norm": 3.6574974060058594,
      "learning_rate": 5.875318693014603e-06,
      "loss": 0.26116945743560793,
      "memory(GiB)": 77.59,
      "step": 98515,
      "token_acc": 0.948,
      "train_speed(iter/s)": 1.460317
    },
    {
      "epoch": 4.2208988475215286,
      "grad_norm": 2.228839874267578,
      "learning_rate": 5.872153916530187e-06,
      "loss": 0.24362611770629883,
      "memory(GiB)": 77.59,
      "step": 98520,
      "token_acc": 0.9421221864951769,
      "train_speed(iter/s)": 1.46032
    },
    {
      "epoch": 4.221113062850778,
      "grad_norm": 1.5867958068847656,
      "learning_rate": 5.868989939463087e-06,
      "loss": 0.0874245822429657,
      "memory(GiB)": 77.59,
      "step": 98525,
      "token_acc": 0.982078853046595,
      "train_speed(iter/s)": 1.460321
    },
    {
      "epoch": 4.221327278180026,
      "grad_norm": 1.9845398664474487,
      "learning_rate": 5.865826761870646e-06,
      "loss": 0.3263733148574829,
      "memory(GiB)": 77.59,
      "step": 98530,
      "token_acc": 0.9084745762711864,
      "train_speed(iter/s)": 1.460326
    },
    {
      "epoch": 4.221541493509275,
      "grad_norm": 2.972912073135376,
      "learning_rate": 5.862664383810151e-06,
      "loss": 0.518475866317749,
      "memory(GiB)": 77.59,
      "step": 98535,
      "token_acc": 0.911660777385159,
      "train_speed(iter/s)": 1.460335
    },
    {
      "epoch": 4.221755708838525,
      "grad_norm": 2.6933553218841553,
      "learning_rate": 5.859502805338896e-06,
      "loss": 0.23730204105377198,
      "memory(GiB)": 77.59,
      "step": 98540,
      "token_acc": 0.9442231075697212,
      "train_speed(iter/s)": 1.460336
    },
    {
      "epoch": 4.221969924167773,
      "grad_norm": 5.218696594238281,
      "learning_rate": 5.856342026514156e-06,
      "loss": 0.324979567527771,
      "memory(GiB)": 77.59,
      "step": 98545,
      "token_acc": 0.9379310344827586,
      "train_speed(iter/s)": 1.460339
    },
    {
      "epoch": 4.222184139497022,
      "grad_norm": 3.0255656242370605,
      "learning_rate": 5.85318204739318e-06,
      "loss": 0.27507891654968264,
      "memory(GiB)": 77.59,
      "step": 98550,
      "token_acc": 0.9375,
      "train_speed(iter/s)": 1.460343
    },
    {
      "epoch": 4.222398354826272,
      "grad_norm": 1.9940305948257446,
      "learning_rate": 5.850022868033234e-06,
      "loss": 0.24088263511657715,
      "memory(GiB)": 77.59,
      "step": 98555,
      "token_acc": 0.9555555555555556,
      "train_speed(iter/s)": 1.460348
    },
    {
      "epoch": 4.22261257015552,
      "grad_norm": 2.7179617881774902,
      "learning_rate": 5.846864488491527e-06,
      "loss": 0.21496038436889647,
      "memory(GiB)": 77.59,
      "step": 98560,
      "token_acc": 0.9486404833836858,
      "train_speed(iter/s)": 1.460347
    },
    {
      "epoch": 4.222826785484769,
      "grad_norm": 1.8753952980041504,
      "learning_rate": 5.843706908825303e-06,
      "loss": 0.3633769750595093,
      "memory(GiB)": 77.59,
      "step": 98565,
      "token_acc": 0.9194139194139194,
      "train_speed(iter/s)": 1.460345
    },
    {
      "epoch": 4.2230410008140185,
      "grad_norm": 6.614856243133545,
      "learning_rate": 5.840550129091743e-06,
      "loss": 0.3339223861694336,
      "memory(GiB)": 77.59,
      "step": 98570,
      "token_acc": 0.9320388349514563,
      "train_speed(iter/s)": 1.460346
    },
    {
      "epoch": 4.223255216143267,
      "grad_norm": 2.6373326778411865,
      "learning_rate": 5.837394149348052e-06,
      "loss": 0.15577929019927977,
      "memory(GiB)": 77.59,
      "step": 98575,
      "token_acc": 0.9632107023411371,
      "train_speed(iter/s)": 1.460359
    },
    {
      "epoch": 4.223469431472516,
      "grad_norm": 3.111429214477539,
      "learning_rate": 5.83423896965139e-06,
      "loss": 0.14420044422149658,
      "memory(GiB)": 77.59,
      "step": 98580,
      "token_acc": 0.9752066115702479,
      "train_speed(iter/s)": 1.460363
    },
    {
      "epoch": 4.223683646801765,
      "grad_norm": 5.654809474945068,
      "learning_rate": 5.831084590058905e-06,
      "loss": 0.31103034019470216,
      "memory(GiB)": 77.59,
      "step": 98585,
      "token_acc": 0.9230769230769231,
      "train_speed(iter/s)": 1.46037
    },
    {
      "epoch": 4.223897862131014,
      "grad_norm": 3.144057512283325,
      "learning_rate": 5.827931010627774e-06,
      "loss": 0.5136019706726074,
      "memory(GiB)": 77.59,
      "step": 98590,
      "token_acc": 0.8966789667896679,
      "train_speed(iter/s)": 1.460376
    },
    {
      "epoch": 4.224112077460263,
      "grad_norm": 2.850536823272705,
      "learning_rate": 5.824778231415106e-06,
      "loss": 0.19430198669433593,
      "memory(GiB)": 77.59,
      "step": 98595,
      "token_acc": 0.9588014981273408,
      "train_speed(iter/s)": 1.460376
    },
    {
      "epoch": 4.224326292789512,
      "grad_norm": 5.872076034545898,
      "learning_rate": 5.821626252478018e-06,
      "loss": 0.6430590629577637,
      "memory(GiB)": 77.59,
      "step": 98600,
      "token_acc": 0.868,
      "train_speed(iter/s)": 1.460394
    },
    {
      "epoch": 4.224540508118761,
      "grad_norm": 6.225719928741455,
      "learning_rate": 5.818475073873614e-06,
      "loss": 0.30883588790893557,
      "memory(GiB)": 77.59,
      "step": 98605,
      "token_acc": 0.9269102990033222,
      "train_speed(iter/s)": 1.460397
    },
    {
      "epoch": 4.22475472344801,
      "grad_norm": 2.7378525733947754,
      "learning_rate": 5.815324695658975e-06,
      "loss": 0.28690917491912843,
      "memory(GiB)": 77.59,
      "step": 98610,
      "token_acc": 0.930921052631579,
      "train_speed(iter/s)": 1.460395
    },
    {
      "epoch": 4.224968938777259,
      "grad_norm": 3.567760467529297,
      "learning_rate": 5.812175117891183e-06,
      "loss": 0.31884002685546875,
      "memory(GiB)": 77.59,
      "step": 98615,
      "token_acc": 0.9133333333333333,
      "train_speed(iter/s)": 1.460404
    },
    {
      "epoch": 4.2251831541065075,
      "grad_norm": 0.3013283908367157,
      "learning_rate": 5.809026340627288e-06,
      "loss": 0.368349289894104,
      "memory(GiB)": 77.59,
      "step": 98620,
      "token_acc": 0.933579335793358,
      "train_speed(iter/s)": 1.460406
    },
    {
      "epoch": 4.225397369435757,
      "grad_norm": 3.1369173526763916,
      "learning_rate": 5.805878363924338e-06,
      "loss": 0.4208204746246338,
      "memory(GiB)": 77.59,
      "step": 98625,
      "token_acc": 0.8934169278996865,
      "train_speed(iter/s)": 1.460418
    },
    {
      "epoch": 4.225611584765006,
      "grad_norm": 4.346953868865967,
      "learning_rate": 5.802731187839361e-06,
      "loss": 0.22518038749694824,
      "memory(GiB)": 77.59,
      "step": 98630,
      "token_acc": 0.9475524475524476,
      "train_speed(iter/s)": 1.46043
    },
    {
      "epoch": 4.225825800094254,
      "grad_norm": 0.8391711115837097,
      "learning_rate": 5.799584812429354e-06,
      "loss": 0.43103785514831544,
      "memory(GiB)": 77.59,
      "step": 98635,
      "token_acc": 0.9180887372013652,
      "train_speed(iter/s)": 1.460427
    },
    {
      "epoch": 4.226040015423504,
      "grad_norm": 1.181831955909729,
      "learning_rate": 5.7964392377513445e-06,
      "loss": 0.49734997749328613,
      "memory(GiB)": 77.59,
      "step": 98640,
      "token_acc": 0.8884892086330936,
      "train_speed(iter/s)": 1.460444
    },
    {
      "epoch": 4.226254230752753,
      "grad_norm": 3.833901882171631,
      "learning_rate": 5.793294463862297e-06,
      "loss": 0.3075899600982666,
      "memory(GiB)": 77.59,
      "step": 98645,
      "token_acc": 0.9391025641025641,
      "train_speed(iter/s)": 1.460444
    },
    {
      "epoch": 4.226468446082001,
      "grad_norm": 4.565054416656494,
      "learning_rate": 5.790150490819196e-06,
      "loss": 0.23805198669433594,
      "memory(GiB)": 77.59,
      "step": 98650,
      "token_acc": 0.9683794466403162,
      "train_speed(iter/s)": 1.460449
    },
    {
      "epoch": 4.2266826614112505,
      "grad_norm": 4.06193208694458,
      "learning_rate": 5.787007318678994e-06,
      "loss": 0.5105116367340088,
      "memory(GiB)": 77.59,
      "step": 98655,
      "token_acc": 0.9061371841155235,
      "train_speed(iter/s)": 1.460452
    },
    {
      "epoch": 4.2268968767405,
      "grad_norm": 2.922534942626953,
      "learning_rate": 5.7838649474986235e-06,
      "loss": 0.2080148220062256,
      "memory(GiB)": 77.59,
      "step": 98660,
      "token_acc": 0.9637462235649547,
      "train_speed(iter/s)": 1.460453
    },
    {
      "epoch": 4.227111092069748,
      "grad_norm": 6.410250663757324,
      "learning_rate": 5.7807233773350235e-06,
      "loss": 0.3165459394454956,
      "memory(GiB)": 77.59,
      "step": 98665,
      "token_acc": 0.910828025477707,
      "train_speed(iter/s)": 1.460452
    },
    {
      "epoch": 4.227325307398997,
      "grad_norm": 4.156235218048096,
      "learning_rate": 5.7775826082450915e-06,
      "loss": 0.6105090618133545,
      "memory(GiB)": 77.59,
      "step": 98670,
      "token_acc": 0.8632218844984803,
      "train_speed(iter/s)": 1.460452
    },
    {
      "epoch": 4.227539522728247,
      "grad_norm": 4.551898002624512,
      "learning_rate": 5.774442640285738e-06,
      "loss": 0.6724032402038574,
      "memory(GiB)": 77.59,
      "step": 98675,
      "token_acc": 0.8550185873605948,
      "train_speed(iter/s)": 1.460462
    },
    {
      "epoch": 4.227753738057495,
      "grad_norm": 1.329150915145874,
      "learning_rate": 5.77130347351385e-06,
      "loss": 0.25801548957824705,
      "memory(GiB)": 77.59,
      "step": 98680,
      "token_acc": 0.943502824858757,
      "train_speed(iter/s)": 1.460472
    },
    {
      "epoch": 4.227967953386744,
      "grad_norm": 2.826343297958374,
      "learning_rate": 5.768165107986284e-06,
      "loss": 0.43781046867370604,
      "memory(GiB)": 77.59,
      "step": 98685,
      "token_acc": 0.9097472924187726,
      "train_speed(iter/s)": 1.460478
    },
    {
      "epoch": 4.2281821687159935,
      "grad_norm": 3.2613465785980225,
      "learning_rate": 5.765027543759904e-06,
      "loss": 0.17825158834457397,
      "memory(GiB)": 77.59,
      "step": 98690,
      "token_acc": 0.9587628865979382,
      "train_speed(iter/s)": 1.460482
    },
    {
      "epoch": 4.228396384045242,
      "grad_norm": 4.264679431915283,
      "learning_rate": 5.7618907808915325e-06,
      "loss": 0.4143477439880371,
      "memory(GiB)": 77.59,
      "step": 98695,
      "token_acc": 0.9030470914127424,
      "train_speed(iter/s)": 1.460491
    },
    {
      "epoch": 4.228610599374491,
      "grad_norm": 0.23428717255592346,
      "learning_rate": 5.758754819438017e-06,
      "loss": 0.2311037302017212,
      "memory(GiB)": 77.59,
      "step": 98700,
      "token_acc": 0.9576547231270358,
      "train_speed(iter/s)": 1.460495
    },
    {
      "epoch": 4.22882481470374,
      "grad_norm": 4.7222089767456055,
      "learning_rate": 5.755619659456163e-06,
      "loss": 0.34157700538635255,
      "memory(GiB)": 77.59,
      "step": 98705,
      "token_acc": 0.9195804195804196,
      "train_speed(iter/s)": 1.460505
    },
    {
      "epoch": 4.229039030032989,
      "grad_norm": 4.090785503387451,
      "learning_rate": 5.752485301002752e-06,
      "loss": 0.33631985187530516,
      "memory(GiB)": 77.59,
      "step": 98710,
      "token_acc": 0.9270516717325228,
      "train_speed(iter/s)": 1.460506
    },
    {
      "epoch": 4.229253245362238,
      "grad_norm": 3.65490460395813,
      "learning_rate": 5.74935174413459e-06,
      "loss": 0.3639557361602783,
      "memory(GiB)": 77.59,
      "step": 98715,
      "token_acc": 0.9259259259259259,
      "train_speed(iter/s)": 1.460505
    },
    {
      "epoch": 4.229467460691487,
      "grad_norm": 1.7750933170318604,
      "learning_rate": 5.746218988908431e-06,
      "loss": 0.2870866537094116,
      "memory(GiB)": 77.59,
      "step": 98720,
      "token_acc": 0.9563636363636364,
      "train_speed(iter/s)": 1.460507
    },
    {
      "epoch": 4.229681676020736,
      "grad_norm": 3.298051118850708,
      "learning_rate": 5.743087035381028e-06,
      "loss": 0.348272967338562,
      "memory(GiB)": 77.59,
      "step": 98725,
      "token_acc": 0.9316546762589928,
      "train_speed(iter/s)": 1.460521
    },
    {
      "epoch": 4.229895891349985,
      "grad_norm": 2.44561767578125,
      "learning_rate": 5.739955883609105e-06,
      "loss": 0.38597879409790037,
      "memory(GiB)": 77.59,
      "step": 98730,
      "token_acc": 0.9105691056910569,
      "train_speed(iter/s)": 1.460529
    },
    {
      "epoch": 4.230110106679234,
      "grad_norm": 0.6552690863609314,
      "learning_rate": 5.736825533649415e-06,
      "loss": 0.10939161777496338,
      "memory(GiB)": 77.59,
      "step": 98735,
      "token_acc": 0.9797979797979798,
      "train_speed(iter/s)": 1.460532
    },
    {
      "epoch": 4.2303243220084825,
      "grad_norm": 6.23784875869751,
      "learning_rate": 5.733695985558651e-06,
      "loss": 0.48670239448547364,
      "memory(GiB)": 77.59,
      "step": 98740,
      "token_acc": 0.9166666666666666,
      "train_speed(iter/s)": 1.460539
    },
    {
      "epoch": 4.230538537337732,
      "grad_norm": 3.5105419158935547,
      "learning_rate": 5.730567239393514e-06,
      "loss": 0.5075639247894287,
      "memory(GiB)": 77.59,
      "step": 98745,
      "token_acc": 0.875,
      "train_speed(iter/s)": 1.460542
    },
    {
      "epoch": 4.230752752666981,
      "grad_norm": 4.238986968994141,
      "learning_rate": 5.7274392952106735e-06,
      "loss": 0.3776716232299805,
      "memory(GiB)": 77.59,
      "step": 98750,
      "token_acc": 0.9283154121863799,
      "train_speed(iter/s)": 1.460555
    },
    {
      "epoch": 4.230966967996229,
      "grad_norm": 2.1574151515960693,
      "learning_rate": 5.724312153066791e-06,
      "loss": 0.45610823631286623,
      "memory(GiB)": 77.59,
      "step": 98755,
      "token_acc": 0.8936170212765957,
      "train_speed(iter/s)": 1.460572
    },
    {
      "epoch": 4.231181183325479,
      "grad_norm": 3.5169928073883057,
      "learning_rate": 5.721185813018543e-06,
      "loss": 0.42739391326904297,
      "memory(GiB)": 77.59,
      "step": 98760,
      "token_acc": 0.9020408163265307,
      "train_speed(iter/s)": 1.460573
    },
    {
      "epoch": 4.231395398654728,
      "grad_norm": 2.5923125743865967,
      "learning_rate": 5.71806027512255e-06,
      "loss": 0.15773770809173585,
      "memory(GiB)": 77.59,
      "step": 98765,
      "token_acc": 0.9653846153846154,
      "train_speed(iter/s)": 1.460577
    },
    {
      "epoch": 4.231609613983976,
      "grad_norm": 2.6478028297424316,
      "learning_rate": 5.714935539435429e-06,
      "loss": 0.16280879974365234,
      "memory(GiB)": 77.59,
      "step": 98770,
      "token_acc": 0.9616858237547893,
      "train_speed(iter/s)": 1.460582
    },
    {
      "epoch": 4.2318238293132255,
      "grad_norm": 3.6796998977661133,
      "learning_rate": 5.711811606013801e-06,
      "loss": 0.32240610122680663,
      "memory(GiB)": 77.59,
      "step": 98775,
      "token_acc": 0.9254237288135593,
      "train_speed(iter/s)": 1.460584
    },
    {
      "epoch": 4.232038044642475,
      "grad_norm": 2.0940918922424316,
      "learning_rate": 5.708688474914237e-06,
      "loss": 0.38462400436401367,
      "memory(GiB)": 77.59,
      "step": 98780,
      "token_acc": 0.9296875,
      "train_speed(iter/s)": 1.46059
    },
    {
      "epoch": 4.232252259971723,
      "grad_norm": 4.353359699249268,
      "learning_rate": 5.705566146193342e-06,
      "loss": 0.23185746669769286,
      "memory(GiB)": 77.59,
      "step": 98785,
      "token_acc": 0.9494949494949495,
      "train_speed(iter/s)": 1.46059
    },
    {
      "epoch": 4.232466475300972,
      "grad_norm": 0.4727589190006256,
      "learning_rate": 5.702444619907654e-06,
      "loss": 0.28174803256988523,
      "memory(GiB)": 77.59,
      "step": 98790,
      "token_acc": 0.9425287356321839,
      "train_speed(iter/s)": 1.460597
    },
    {
      "epoch": 4.232680690630222,
      "grad_norm": 2.2007791996002197,
      "learning_rate": 5.699323896113751e-06,
      "loss": 0.2730401039123535,
      "memory(GiB)": 77.59,
      "step": 98795,
      "token_acc": 0.9416058394160584,
      "train_speed(iter/s)": 1.460602
    },
    {
      "epoch": 4.23289490595947,
      "grad_norm": 4.227914333343506,
      "learning_rate": 5.696203974868147e-06,
      "loss": 0.4853482723236084,
      "memory(GiB)": 77.59,
      "step": 98800,
      "token_acc": 0.9178082191780822,
      "train_speed(iter/s)": 1.460609
    },
    {
      "epoch": 4.233109121288719,
      "grad_norm": 2.662520408630371,
      "learning_rate": 5.6930848562273766e-06,
      "loss": 0.40438046455383303,
      "memory(GiB)": 77.59,
      "step": 98805,
      "token_acc": 0.9142011834319527,
      "train_speed(iter/s)": 1.46061
    },
    {
      "epoch": 4.233323336617969,
      "grad_norm": 2.2792513370513916,
      "learning_rate": 5.6899665402479315e-06,
      "loss": 0.3501986265182495,
      "memory(GiB)": 77.59,
      "step": 98810,
      "token_acc": 0.9256505576208178,
      "train_speed(iter/s)": 1.460608
    },
    {
      "epoch": 4.233537551947217,
      "grad_norm": 0.04690990597009659,
      "learning_rate": 5.686849026986296e-06,
      "loss": 0.39158694744110106,
      "memory(GiB)": 77.59,
      "step": 98815,
      "token_acc": 0.9058823529411765,
      "train_speed(iter/s)": 1.460615
    },
    {
      "epoch": 4.233751767276466,
      "grad_norm": 3.6037979125976562,
      "learning_rate": 5.683732316498974e-06,
      "loss": 0.18790595531463622,
      "memory(GiB)": 77.59,
      "step": 98820,
      "token_acc": 0.9662162162162162,
      "train_speed(iter/s)": 1.460617
    },
    {
      "epoch": 4.233965982605715,
      "grad_norm": 5.276424407958984,
      "learning_rate": 5.6806164088424154e-06,
      "loss": 0.4726551055908203,
      "memory(GiB)": 77.59,
      "step": 98825,
      "token_acc": 0.9016393442622951,
      "train_speed(iter/s)": 1.460615
    },
    {
      "epoch": 4.234180197934964,
      "grad_norm": 0.641029953956604,
      "learning_rate": 5.677501304073063e-06,
      "loss": 0.4694469928741455,
      "memory(GiB)": 77.59,
      "step": 98830,
      "token_acc": 0.8805460750853242,
      "train_speed(iter/s)": 1.460618
    },
    {
      "epoch": 4.234394413264213,
      "grad_norm": 3.8378779888153076,
      "learning_rate": 5.67438700224735e-06,
      "loss": 0.5453046321868896,
      "memory(GiB)": 77.59,
      "step": 98835,
      "token_acc": 0.8863636363636364,
      "train_speed(iter/s)": 1.460629
    },
    {
      "epoch": 4.234608628593462,
      "grad_norm": 4.921539783477783,
      "learning_rate": 5.671273503421692e-06,
      "loss": 0.28703956604003905,
      "memory(GiB)": 77.59,
      "step": 98840,
      "token_acc": 0.948905109489051,
      "train_speed(iter/s)": 1.460634
    },
    {
      "epoch": 4.234822843922711,
      "grad_norm": 0.09099418669939041,
      "learning_rate": 5.668160807652506e-06,
      "loss": 0.361665940284729,
      "memory(GiB)": 77.59,
      "step": 98845,
      "token_acc": 0.9093567251461988,
      "train_speed(iter/s)": 1.460636
    },
    {
      "epoch": 4.23503705925196,
      "grad_norm": 1.8570798635482788,
      "learning_rate": 5.6650489149961685e-06,
      "loss": 0.3637643575668335,
      "memory(GiB)": 77.59,
      "step": 98850,
      "token_acc": 0.9391025641025641,
      "train_speed(iter/s)": 1.460648
    },
    {
      "epoch": 4.235251274581209,
      "grad_norm": 3.433112144470215,
      "learning_rate": 5.661937825509067e-06,
      "loss": 0.2741391181945801,
      "memory(GiB)": 77.59,
      "step": 98855,
      "token_acc": 0.9128919860627178,
      "train_speed(iter/s)": 1.460649
    },
    {
      "epoch": 4.235465489910458,
      "grad_norm": 2.5715365409851074,
      "learning_rate": 5.658827539247541e-06,
      "loss": 0.2528564214706421,
      "memory(GiB)": 77.59,
      "step": 98860,
      "token_acc": 0.9381443298969072,
      "train_speed(iter/s)": 1.460654
    },
    {
      "epoch": 4.235679705239707,
      "grad_norm": 2.370586395263672,
      "learning_rate": 5.655718056267962e-06,
      "loss": 0.22785680294036864,
      "memory(GiB)": 77.59,
      "step": 98865,
      "token_acc": 0.9505703422053232,
      "train_speed(iter/s)": 1.460655
    },
    {
      "epoch": 4.235893920568956,
      "grad_norm": 2.640453815460205,
      "learning_rate": 5.652609376626644e-06,
      "loss": 0.4014315605163574,
      "memory(GiB)": 77.59,
      "step": 98870,
      "token_acc": 0.9338842975206612,
      "train_speed(iter/s)": 1.460659
    },
    {
      "epoch": 4.2361081358982045,
      "grad_norm": 2.551140785217285,
      "learning_rate": 5.6495015003799e-06,
      "loss": 0.3089723825454712,
      "memory(GiB)": 77.59,
      "step": 98875,
      "token_acc": 0.946236559139785,
      "train_speed(iter/s)": 1.460664
    },
    {
      "epoch": 4.236322351227454,
      "grad_norm": 2.0026068687438965,
      "learning_rate": 5.6463944275840505e-06,
      "loss": 0.3701270580291748,
      "memory(GiB)": 77.59,
      "step": 98880,
      "token_acc": 0.9362416107382551,
      "train_speed(iter/s)": 1.460666
    },
    {
      "epoch": 4.236536566556703,
      "grad_norm": 3.2718496322631836,
      "learning_rate": 5.643288158295373e-06,
      "loss": 0.3907939434051514,
      "memory(GiB)": 77.59,
      "step": 98885,
      "token_acc": 0.9301470588235294,
      "train_speed(iter/s)": 1.460666
    },
    {
      "epoch": 4.236750781885951,
      "grad_norm": 2.3231453895568848,
      "learning_rate": 5.640182692570145e-06,
      "loss": 0.45495147705078126,
      "memory(GiB)": 77.59,
      "step": 98890,
      "token_acc": 0.9144736842105263,
      "train_speed(iter/s)": 1.460669
    },
    {
      "epoch": 4.236964997215201,
      "grad_norm": 1.3106743097305298,
      "learning_rate": 5.637078030464615e-06,
      "loss": 0.4961081027984619,
      "memory(GiB)": 77.59,
      "step": 98895,
      "token_acc": 0.8888888888888888,
      "train_speed(iter/s)": 1.460669
    },
    {
      "epoch": 4.23717921254445,
      "grad_norm": 3.912414789199829,
      "learning_rate": 5.633974172035023e-06,
      "loss": 0.381719970703125,
      "memory(GiB)": 77.59,
      "step": 98900,
      "token_acc": 0.8698630136986302,
      "train_speed(iter/s)": 1.460668
    },
    {
      "epoch": 4.237393427873698,
      "grad_norm": 1.9742006063461304,
      "learning_rate": 5.630871117337621e-06,
      "loss": 0.26785926818847655,
      "memory(GiB)": 77.59,
      "step": 98905,
      "token_acc": 0.9407008086253369,
      "train_speed(iter/s)": 1.460671
    },
    {
      "epoch": 4.2376076432029475,
      "grad_norm": 2.2781193256378174,
      "learning_rate": 5.627768866428606e-06,
      "loss": 0.2972802400588989,
      "memory(GiB)": 77.59,
      "step": 98910,
      "token_acc": 0.9342560553633218,
      "train_speed(iter/s)": 1.460674
    },
    {
      "epoch": 4.237821858532197,
      "grad_norm": 1.8144066333770752,
      "learning_rate": 5.624667419364182e-06,
      "loss": 0.34033238887786865,
      "memory(GiB)": 77.59,
      "step": 98915,
      "token_acc": 0.9190031152647975,
      "train_speed(iter/s)": 1.460675
    },
    {
      "epoch": 4.238036073861445,
      "grad_norm": 5.045583248138428,
      "learning_rate": 5.621566776200538e-06,
      "loss": 0.2978729486465454,
      "memory(GiB)": 77.59,
      "step": 98920,
      "token_acc": 0.9431438127090301,
      "train_speed(iter/s)": 1.460681
    },
    {
      "epoch": 4.238250289190694,
      "grad_norm": 0.5852870345115662,
      "learning_rate": 5.618466936993832e-06,
      "loss": 0.3177135467529297,
      "memory(GiB)": 77.59,
      "step": 98925,
      "token_acc": 0.9298780487804879,
      "train_speed(iter/s)": 1.460686
    },
    {
      "epoch": 4.238464504519944,
      "grad_norm": 3.5753440856933594,
      "learning_rate": 5.6153679018002394e-06,
      "loss": 0.2511808156967163,
      "memory(GiB)": 77.59,
      "step": 98930,
      "token_acc": 0.9461077844311377,
      "train_speed(iter/s)": 1.460687
    },
    {
      "epoch": 4.238678719849192,
      "grad_norm": 1.6270471811294556,
      "learning_rate": 5.612269670675885e-06,
      "loss": 0.12153782844543456,
      "memory(GiB)": 77.59,
      "step": 98935,
      "token_acc": 0.976271186440678,
      "train_speed(iter/s)": 1.46069
    },
    {
      "epoch": 4.238892935178441,
      "grad_norm": 4.096114635467529,
      "learning_rate": 5.609172243676914e-06,
      "loss": 0.579539442062378,
      "memory(GiB)": 77.59,
      "step": 98940,
      "token_acc": 0.8858024691358025,
      "train_speed(iter/s)": 1.460703
    },
    {
      "epoch": 4.2391071505076905,
      "grad_norm": 2.787522077560425,
      "learning_rate": 5.60607562085943e-06,
      "loss": 0.1848574161529541,
      "memory(GiB)": 77.59,
      "step": 98945,
      "token_acc": 0.9519230769230769,
      "train_speed(iter/s)": 1.460705
    },
    {
      "epoch": 4.23932136583694,
      "grad_norm": 2.466801404953003,
      "learning_rate": 5.602979802279534e-06,
      "loss": 0.25361409187316897,
      "memory(GiB)": 77.59,
      "step": 98950,
      "token_acc": 0.9508196721311475,
      "train_speed(iter/s)": 1.460708
    },
    {
      "epoch": 4.239535581166188,
      "grad_norm": 3.2727839946746826,
      "learning_rate": 5.599884787993304e-06,
      "loss": 0.3867812156677246,
      "memory(GiB)": 77.59,
      "step": 98955,
      "token_acc": 0.889763779527559,
      "train_speed(iter/s)": 1.460711
    },
    {
      "epoch": 4.239749796495437,
      "grad_norm": 1.552621841430664,
      "learning_rate": 5.5967905780567985e-06,
      "loss": 0.21828792095184327,
      "memory(GiB)": 77.59,
      "step": 98960,
      "token_acc": 0.9486404833836858,
      "train_speed(iter/s)": 1.460715
    },
    {
      "epoch": 4.239964011824686,
      "grad_norm": 1.6285334825515747,
      "learning_rate": 5.593697172526097e-06,
      "loss": 0.10240182876586915,
      "memory(GiB)": 77.59,
      "step": 98965,
      "token_acc": 0.9725609756097561,
      "train_speed(iter/s)": 1.460721
    },
    {
      "epoch": 4.240178227153935,
      "grad_norm": 7.094956874847412,
      "learning_rate": 5.590604571457231e-06,
      "loss": 0.48931303024291994,
      "memory(GiB)": 77.59,
      "step": 98970,
      "token_acc": 0.9036544850498339,
      "train_speed(iter/s)": 1.460724
    },
    {
      "epoch": 4.240392442483184,
      "grad_norm": 3.6230616569519043,
      "learning_rate": 5.587512774906217e-06,
      "loss": 0.45249485969543457,
      "memory(GiB)": 77.59,
      "step": 98975,
      "token_acc": 0.9055374592833876,
      "train_speed(iter/s)": 1.460724
    },
    {
      "epoch": 4.2406066578124335,
      "grad_norm": 3.3586666584014893,
      "learning_rate": 5.584421782929078e-06,
      "loss": 0.3305421590805054,
      "memory(GiB)": 77.59,
      "step": 98980,
      "token_acc": 0.9295302013422819,
      "train_speed(iter/s)": 1.460724
    },
    {
      "epoch": 4.240820873141682,
      "grad_norm": 2.7416887283325195,
      "learning_rate": 5.58133159558179e-06,
      "loss": 0.34415650367736816,
      "memory(GiB)": 77.59,
      "step": 98985,
      "token_acc": 0.9278350515463918,
      "train_speed(iter/s)": 1.460733
    },
    {
      "epoch": 4.241035088470931,
      "grad_norm": 1.3233532905578613,
      "learning_rate": 5.5782422129203534e-06,
      "loss": 0.22794792652130128,
      "memory(GiB)": 77.59,
      "step": 98990,
      "token_acc": 0.9357142857142857,
      "train_speed(iter/s)": 1.460746
    },
    {
      "epoch": 4.2412493038001795,
      "grad_norm": 2.948298454284668,
      "learning_rate": 5.575153635000735e-06,
      "loss": 0.29994001388549807,
      "memory(GiB)": 77.59,
      "step": 98995,
      "token_acc": 0.9492753623188406,
      "train_speed(iter/s)": 1.46075
    },
    {
      "epoch": 4.241463519129429,
      "grad_norm": 0.917403519153595,
      "learning_rate": 5.572065861878883e-06,
      "loss": 0.11734390258789062,
      "memory(GiB)": 77.59,
      "step": 99000,
      "token_acc": 0.9571984435797666,
      "train_speed(iter/s)": 1.460751
    },
    {
      "epoch": 4.241463519129429,
      "eval_loss": 2.3904130458831787,
      "eval_runtime": 11.3952,
      "eval_samples_per_second": 8.776,
      "eval_steps_per_second": 8.776,
      "eval_token_acc": 0.4231242312423124,
      "step": 99000
    },
    {
      "epoch": 4.241677734458678,
      "grad_norm": 3.453608512878418,
      "learning_rate": 5.568978893610727e-06,
      "loss": 0.30573675632476804,
      "memory(GiB)": 77.59,
      "step": 99005,
      "token_acc": 0.576068376068376,
      "train_speed(iter/s)": 1.46049
    },
    {
      "epoch": 4.241891949787927,
      "grad_norm": 3.5876240730285645,
      "learning_rate": 5.565892730252203e-06,
      "loss": 0.28070242404937745,
      "memory(GiB)": 77.59,
      "step": 99010,
      "token_acc": 0.9288135593220339,
      "train_speed(iter/s)": 1.460501
    },
    {
      "epoch": 4.242106165117176,
      "grad_norm": 3.59676456451416,
      "learning_rate": 5.5628073718592184e-06,
      "loss": 0.4837662696838379,
      "memory(GiB)": 77.59,
      "step": 99015,
      "token_acc": 0.8963210702341137,
      "train_speed(iter/s)": 1.460503
    },
    {
      "epoch": 4.242320380446425,
      "grad_norm": 2.2460668087005615,
      "learning_rate": 5.55972281848765e-06,
      "loss": 0.16983033418655397,
      "memory(GiB)": 77.59,
      "step": 99020,
      "token_acc": 0.9644012944983819,
      "train_speed(iter/s)": 1.460506
    },
    {
      "epoch": 4.242534595775673,
      "grad_norm": 3.473839521408081,
      "learning_rate": 5.556639070193404e-06,
      "loss": 0.3442616701126099,
      "memory(GiB)": 77.59,
      "step": 99025,
      "token_acc": 0.936026936026936,
      "train_speed(iter/s)": 1.460509
    },
    {
      "epoch": 4.2427488111049225,
      "grad_norm": 3.477576494216919,
      "learning_rate": 5.553556127032333e-06,
      "loss": 0.3409093379974365,
      "memory(GiB)": 77.59,
      "step": 99030,
      "token_acc": 0.9320388349514563,
      "train_speed(iter/s)": 1.460507
    },
    {
      "epoch": 4.242963026434172,
      "grad_norm": 1.6943607330322266,
      "learning_rate": 5.550473989060284e-06,
      "loss": 0.4166813850402832,
      "memory(GiB)": 77.59,
      "step": 99035,
      "token_acc": 0.9148264984227129,
      "train_speed(iter/s)": 1.460509
    },
    {
      "epoch": 4.243177241763421,
      "grad_norm": 4.6123175621032715,
      "learning_rate": 5.5473926563331e-06,
      "loss": 0.39700140953063967,
      "memory(GiB)": 77.59,
      "step": 99040,
      "token_acc": 0.9041916167664671,
      "train_speed(iter/s)": 1.460522
    },
    {
      "epoch": 4.243391457092669,
      "grad_norm": 1.4908344745635986,
      "learning_rate": 5.5443121289065814e-06,
      "loss": 0.09816011190414428,
      "memory(GiB)": 77.59,
      "step": 99045,
      "token_acc": 0.970873786407767,
      "train_speed(iter/s)": 1.460523
    },
    {
      "epoch": 4.243605672421919,
      "grad_norm": 3.282500982284546,
      "learning_rate": 5.541232406836567e-06,
      "loss": 0.4291842460632324,
      "memory(GiB)": 77.59,
      "step": 99050,
      "token_acc": 0.8877551020408163,
      "train_speed(iter/s)": 1.460533
    },
    {
      "epoch": 4.243819887751167,
      "grad_norm": 3.307806968688965,
      "learning_rate": 5.538153490178833e-06,
      "loss": 0.24405758380889891,
      "memory(GiB)": 77.59,
      "step": 99055,
      "token_acc": 0.9513513513513514,
      "train_speed(iter/s)": 1.460541
    },
    {
      "epoch": 4.244034103080416,
      "grad_norm": 4.021800994873047,
      "learning_rate": 5.5350753789891515e-06,
      "loss": 0.32877278327941895,
      "memory(GiB)": 77.59,
      "step": 99060,
      "token_acc": 0.9240506329113924,
      "train_speed(iter/s)": 1.460542
    },
    {
      "epoch": 4.2442483184096655,
      "grad_norm": 5.438872337341309,
      "learning_rate": 5.531998073323297e-06,
      "loss": 0.3604578018188477,
      "memory(GiB)": 77.59,
      "step": 99065,
      "token_acc": 0.9301470588235294,
      "train_speed(iter/s)": 1.460544
    },
    {
      "epoch": 4.244462533738915,
      "grad_norm": 5.412907600402832,
      "learning_rate": 5.528921573237001e-06,
      "loss": 0.2004307270050049,
      "memory(GiB)": 77.59,
      "step": 99070,
      "token_acc": 0.9427609427609428,
      "train_speed(iter/s)": 1.460543
    },
    {
      "epoch": 4.244676749068163,
      "grad_norm": 6.761722087860107,
      "learning_rate": 5.525845878786018e-06,
      "loss": 0.3526031494140625,
      "memory(GiB)": 77.59,
      "step": 99075,
      "token_acc": 0.9172932330827067,
      "train_speed(iter/s)": 1.460551
    },
    {
      "epoch": 4.244890964397412,
      "grad_norm": 4.720512390136719,
      "learning_rate": 5.522770990026044e-06,
      "loss": 0.362024712562561,
      "memory(GiB)": 77.59,
      "step": 99080,
      "token_acc": 0.9290780141843972,
      "train_speed(iter/s)": 1.460551
    },
    {
      "epoch": 4.245105179726661,
      "grad_norm": 1.1930980682373047,
      "learning_rate": 5.519696907012811e-06,
      "loss": 0.3945646047592163,
      "memory(GiB)": 77.59,
      "step": 99085,
      "token_acc": 0.9072847682119205,
      "train_speed(iter/s)": 1.460553
    },
    {
      "epoch": 4.24531939505591,
      "grad_norm": 3.085958242416382,
      "learning_rate": 5.516623629801987e-06,
      "loss": 0.5524797439575195,
      "memory(GiB)": 77.59,
      "step": 99090,
      "token_acc": 0.8821656050955414,
      "train_speed(iter/s)": 1.460555
    },
    {
      "epoch": 4.245533610385159,
      "grad_norm": 4.2652177810668945,
      "learning_rate": 5.51355115844926e-06,
      "loss": 0.4594606399536133,
      "memory(GiB)": 77.59,
      "step": 99095,
      "token_acc": 0.9105431309904153,
      "train_speed(iter/s)": 1.460558
    },
    {
      "epoch": 4.245747825714409,
      "grad_norm": 4.223758697509766,
      "learning_rate": 5.510479493010285e-06,
      "loss": 0.4724720478057861,
      "memory(GiB)": 77.59,
      "step": 99100,
      "token_acc": 0.9171428571428571,
      "train_speed(iter/s)": 1.460554
    },
    {
      "epoch": 4.245962041043657,
      "grad_norm": 2.9903666973114014,
      "learning_rate": 5.5074086335407e-06,
      "loss": 0.28963356018066405,
      "memory(GiB)": 77.59,
      "step": 99105,
      "token_acc": 0.9320754716981132,
      "train_speed(iter/s)": 1.460557
    },
    {
      "epoch": 4.246176256372906,
      "grad_norm": 6.638394355773926,
      "learning_rate": 5.504338580096152e-06,
      "loss": 0.4154500484466553,
      "memory(GiB)": 77.59,
      "step": 99110,
      "token_acc": 0.914396887159533,
      "train_speed(iter/s)": 1.460559
    },
    {
      "epoch": 4.246390471702155,
      "grad_norm": 3.5337259769439697,
      "learning_rate": 5.501269332732256e-06,
      "loss": 0.2660919904708862,
      "memory(GiB)": 77.59,
      "step": 99115,
      "token_acc": 0.9529780564263323,
      "train_speed(iter/s)": 1.460563
    },
    {
      "epoch": 4.246604687031404,
      "grad_norm": 2.6475746631622314,
      "learning_rate": 5.498200891504606e-06,
      "loss": 0.1978609561920166,
      "memory(GiB)": 77.59,
      "step": 99120,
      "token_acc": 0.936026936026936,
      "train_speed(iter/s)": 1.460565
    },
    {
      "epoch": 4.246818902360653,
      "grad_norm": 2.398845911026001,
      "learning_rate": 5.4951332564687926e-06,
      "loss": 0.27705998420715333,
      "memory(GiB)": 77.59,
      "step": 99125,
      "token_acc": 0.9377162629757786,
      "train_speed(iter/s)": 1.460571
    },
    {
      "epoch": 4.247033117689902,
      "grad_norm": 3.060739517211914,
      "learning_rate": 5.492066427680376e-06,
      "loss": 0.6145734310150146,
      "memory(GiB)": 77.59,
      "step": 99130,
      "token_acc": 0.8977272727272727,
      "train_speed(iter/s)": 1.460571
    },
    {
      "epoch": 4.247247333019151,
      "grad_norm": 3.657759189605713,
      "learning_rate": 5.489000405194944e-06,
      "loss": 0.3525040626525879,
      "memory(GiB)": 77.59,
      "step": 99135,
      "token_acc": 0.9198717948717948,
      "train_speed(iter/s)": 1.46057
    },
    {
      "epoch": 4.2474615483484,
      "grad_norm": 0.43371090292930603,
      "learning_rate": 5.48593518906802e-06,
      "loss": 0.2933589696884155,
      "memory(GiB)": 77.59,
      "step": 99140,
      "token_acc": 0.9285714285714286,
      "train_speed(iter/s)": 1.460568
    },
    {
      "epoch": 4.247675763677648,
      "grad_norm": 3.5647120475769043,
      "learning_rate": 5.482870779355137e-06,
      "loss": 0.48013691902160643,
      "memory(GiB)": 77.59,
      "step": 99145,
      "token_acc": 0.8841698841698842,
      "train_speed(iter/s)": 1.46057
    },
    {
      "epoch": 4.247889979006898,
      "grad_norm": 1.285935640335083,
      "learning_rate": 5.479807176111812e-06,
      "loss": 0.5947145938873291,
      "memory(GiB)": 77.59,
      "step": 99150,
      "token_acc": 0.8856088560885609,
      "train_speed(iter/s)": 1.460579
    },
    {
      "epoch": 4.248104194336147,
      "grad_norm": 3.5292446613311768,
      "learning_rate": 5.476744379393534e-06,
      "loss": 0.3278569221496582,
      "memory(GiB)": 77.59,
      "step": 99155,
      "token_acc": 0.9283154121863799,
      "train_speed(iter/s)": 1.46058
    },
    {
      "epoch": 4.248318409665396,
      "grad_norm": 3.879993200302124,
      "learning_rate": 5.4736823892558075e-06,
      "loss": 0.4710966110229492,
      "memory(GiB)": 77.59,
      "step": 99160,
      "token_acc": 0.8885630498533724,
      "train_speed(iter/s)": 1.46059
    },
    {
      "epoch": 4.2485326249946445,
      "grad_norm": 2.1294052600860596,
      "learning_rate": 5.470621205754084e-06,
      "loss": 0.534494686126709,
      "memory(GiB)": 77.59,
      "step": 99165,
      "token_acc": 0.8950819672131147,
      "train_speed(iter/s)": 1.460594
    },
    {
      "epoch": 4.248746840323894,
      "grad_norm": 0.19044864177703857,
      "learning_rate": 5.467560828943841e-06,
      "loss": 0.22045614719390869,
      "memory(GiB)": 77.59,
      "step": 99170,
      "token_acc": 0.9532710280373832,
      "train_speed(iter/s)": 1.460596
    },
    {
      "epoch": 4.248961055653142,
      "grad_norm": 5.63406229019165,
      "learning_rate": 5.464501258880505e-06,
      "loss": 0.4030198574066162,
      "memory(GiB)": 77.59,
      "step": 99175,
      "token_acc": 0.9043824701195219,
      "train_speed(iter/s)": 1.460593
    },
    {
      "epoch": 4.249175270982391,
      "grad_norm": 2.6736199855804443,
      "learning_rate": 5.461442495619507e-06,
      "loss": 0.13513541221618652,
      "memory(GiB)": 77.59,
      "step": 99180,
      "token_acc": 0.9660377358490566,
      "train_speed(iter/s)": 1.460596
    },
    {
      "epoch": 4.249389486311641,
      "grad_norm": 3.2597806453704834,
      "learning_rate": 5.45838453921626e-06,
      "loss": 0.17900835275650023,
      "memory(GiB)": 77.59,
      "step": 99185,
      "token_acc": 0.9660377358490566,
      "train_speed(iter/s)": 1.460599
    },
    {
      "epoch": 4.24960370164089,
      "grad_norm": 2.158194065093994,
      "learning_rate": 5.455327389726151e-06,
      "loss": 0.38070676326751707,
      "memory(GiB)": 77.59,
      "step": 99190,
      "token_acc": 0.9039039039039038,
      "train_speed(iter/s)": 1.460603
    },
    {
      "epoch": 4.249817916970138,
      "grad_norm": 4.684634208679199,
      "learning_rate": 5.452271047204582e-06,
      "loss": 0.2593016862869263,
      "memory(GiB)": 77.59,
      "step": 99195,
      "token_acc": 0.9341085271317829,
      "train_speed(iter/s)": 1.460605
    },
    {
      "epoch": 4.2500321322993875,
      "grad_norm": 2.2012524604797363,
      "learning_rate": 5.449215511706907e-06,
      "loss": 0.34082052707672117,
      "memory(GiB)": 77.59,
      "step": 99200,
      "token_acc": 0.9307958477508651,
      "train_speed(iter/s)": 1.460617
    },
    {
      "epoch": 4.250246347628636,
      "grad_norm": 3.8410797119140625,
      "learning_rate": 5.4461607832884895e-06,
      "loss": 0.2409813165664673,
      "memory(GiB)": 77.59,
      "step": 99205,
      "token_acc": 0.9508196721311475,
      "train_speed(iter/s)": 1.460619
    },
    {
      "epoch": 4.250460562957885,
      "grad_norm": 1.6481209993362427,
      "learning_rate": 5.443106862004666e-06,
      "loss": 0.1776225447654724,
      "memory(GiB)": 77.59,
      "step": 99210,
      "token_acc": 0.9525547445255474,
      "train_speed(iter/s)": 1.460633
    },
    {
      "epoch": 4.250674778287134,
      "grad_norm": 0.5203295350074768,
      "learning_rate": 5.440053747910751e-06,
      "loss": 0.30366969108581543,
      "memory(GiB)": 77.59,
      "step": 99215,
      "token_acc": 0.9237536656891495,
      "train_speed(iter/s)": 1.460636
    },
    {
      "epoch": 4.250888993616384,
      "grad_norm": 3.0099070072174072,
      "learning_rate": 5.4370014410620674e-06,
      "loss": 0.44410881996154783,
      "memory(GiB)": 77.59,
      "step": 99220,
      "token_acc": 0.924187725631769,
      "train_speed(iter/s)": 1.460635
    },
    {
      "epoch": 4.251103208945632,
      "grad_norm": 0.3619317412376404,
      "learning_rate": 5.4339499415139105e-06,
      "loss": 0.41265320777893066,
      "memory(GiB)": 77.59,
      "step": 99225,
      "token_acc": 0.9126637554585153,
      "train_speed(iter/s)": 1.460643
    },
    {
      "epoch": 4.251317424274881,
      "grad_norm": 1.4911712408065796,
      "learning_rate": 5.4308992493215414e-06,
      "loss": 0.42545018196105955,
      "memory(GiB)": 77.59,
      "step": 99230,
      "token_acc": 0.9133574007220217,
      "train_speed(iter/s)": 1.460644
    },
    {
      "epoch": 4.25153163960413,
      "grad_norm": 2.730238914489746,
      "learning_rate": 5.427849364540255e-06,
      "loss": 0.28123955726623534,
      "memory(GiB)": 77.59,
      "step": 99235,
      "token_acc": 0.9358108108108109,
      "train_speed(iter/s)": 1.460649
    },
    {
      "epoch": 4.251745854933379,
      "grad_norm": 6.953327655792236,
      "learning_rate": 5.4248002872252904e-06,
      "loss": 0.2349015474319458,
      "memory(GiB)": 77.59,
      "step": 99240,
      "token_acc": 0.952755905511811,
      "train_speed(iter/s)": 1.460649
    },
    {
      "epoch": 4.251960070262628,
      "grad_norm": 3.782987356185913,
      "learning_rate": 5.42175201743188e-06,
      "loss": 0.28633577823638917,
      "memory(GiB)": 77.59,
      "step": 99245,
      "token_acc": 0.9311594202898551,
      "train_speed(iter/s)": 1.460649
    },
    {
      "epoch": 4.252174285591877,
      "grad_norm": 3.6657488346099854,
      "learning_rate": 5.418704555215243e-06,
      "loss": 0.5435770511627197,
      "memory(GiB)": 77.59,
      "step": 99250,
      "token_acc": 0.8710691823899371,
      "train_speed(iter/s)": 1.460653
    },
    {
      "epoch": 4.252388500921126,
      "grad_norm": 3.0204927921295166,
      "learning_rate": 5.415657900630605e-06,
      "loss": 0.1926941990852356,
      "memory(GiB)": 77.59,
      "step": 99255,
      "token_acc": 0.9593220338983051,
      "train_speed(iter/s)": 1.460656
    },
    {
      "epoch": 4.252602716250375,
      "grad_norm": 3.905763626098633,
      "learning_rate": 5.412612053733146e-06,
      "loss": 0.49177122116088867,
      "memory(GiB)": 77.59,
      "step": 99260,
      "token_acc": 0.9055944055944056,
      "train_speed(iter/s)": 1.460664
    },
    {
      "epoch": 4.252816931579623,
      "grad_norm": 1.9018237590789795,
      "learning_rate": 5.409567014578043e-06,
      "loss": 0.5189894676208496,
      "memory(GiB)": 77.59,
      "step": 99265,
      "token_acc": 0.9125475285171103,
      "train_speed(iter/s)": 1.46066
    },
    {
      "epoch": 4.253031146908873,
      "grad_norm": 3.225910186767578,
      "learning_rate": 5.406522783220463e-06,
      "loss": 0.2440197706222534,
      "memory(GiB)": 77.59,
      "step": 99270,
      "token_acc": 0.9403508771929825,
      "train_speed(iter/s)": 1.460671
    },
    {
      "epoch": 4.253245362238122,
      "grad_norm": 1.0787941217422485,
      "learning_rate": 5.403479359715552e-06,
      "loss": 0.23378307819366456,
      "memory(GiB)": 77.59,
      "step": 99275,
      "token_acc": 0.9380804953560371,
      "train_speed(iter/s)": 1.460673
    },
    {
      "epoch": 4.253459577567371,
      "grad_norm": 4.54672384262085,
      "learning_rate": 5.400436744118448e-06,
      "loss": 0.325193452835083,
      "memory(GiB)": 77.59,
      "step": 99280,
      "token_acc": 0.9276315789473685,
      "train_speed(iter/s)": 1.460682
    },
    {
      "epoch": 4.2536737928966195,
      "grad_norm": 5.089395046234131,
      "learning_rate": 5.397394936484274e-06,
      "loss": 0.3960570335388184,
      "memory(GiB)": 77.59,
      "step": 99285,
      "token_acc": 0.9147540983606557,
      "train_speed(iter/s)": 1.460682
    },
    {
      "epoch": 4.253888008225869,
      "grad_norm": 1.3037617206573486,
      "learning_rate": 5.394353936868135e-06,
      "loss": 0.08618568181991577,
      "memory(GiB)": 77.59,
      "step": 99290,
      "token_acc": 0.9795221843003413,
      "train_speed(iter/s)": 1.460683
    },
    {
      "epoch": 4.254102223555117,
      "grad_norm": 4.489980697631836,
      "learning_rate": 5.391313745325116e-06,
      "loss": 0.3892933130264282,
      "memory(GiB)": 77.59,
      "step": 99295,
      "token_acc": 0.9327485380116959,
      "train_speed(iter/s)": 1.460683
    },
    {
      "epoch": 4.254316438884366,
      "grad_norm": 2.9777703285217285,
      "learning_rate": 5.3882743619102786e-06,
      "loss": 0.33685009479522704,
      "memory(GiB)": 77.59,
      "step": 99300,
      "token_acc": 0.9264705882352942,
      "train_speed(iter/s)": 1.460685
    },
    {
      "epoch": 4.254530654213616,
      "grad_norm": 2.7541799545288086,
      "learning_rate": 5.385235786678716e-06,
      "loss": 0.25134906768798826,
      "memory(GiB)": 77.59,
      "step": 99305,
      "token_acc": 0.9361702127659575,
      "train_speed(iter/s)": 1.460691
    },
    {
      "epoch": 4.254744869542865,
      "grad_norm": 4.993149757385254,
      "learning_rate": 5.3821980196854475e-06,
      "loss": 0.3358609199523926,
      "memory(GiB)": 77.59,
      "step": 99310,
      "token_acc": 0.9245901639344263,
      "train_speed(iter/s)": 1.46069
    },
    {
      "epoch": 4.254959084872113,
      "grad_norm": 10.258065223693848,
      "learning_rate": 5.379161060985533e-06,
      "loss": 0.4189657211303711,
      "memory(GiB)": 77.59,
      "step": 99315,
      "token_acc": 0.937037037037037,
      "train_speed(iter/s)": 1.4607
    },
    {
      "epoch": 4.2551733002013625,
      "grad_norm": 1.8804173469543457,
      "learning_rate": 5.376124910633967e-06,
      "loss": 0.377756667137146,
      "memory(GiB)": 77.59,
      "step": 99320,
      "token_acc": 0.9262536873156342,
      "train_speed(iter/s)": 1.460701
    },
    {
      "epoch": 4.255387515530612,
      "grad_norm": 2.129577875137329,
      "learning_rate": 5.373089568685758e-06,
      "loss": 0.480744743347168,
      "memory(GiB)": 77.59,
      "step": 99325,
      "token_acc": 0.8978102189781022,
      "train_speed(iter/s)": 1.460703
    },
    {
      "epoch": 4.25560173085986,
      "grad_norm": 2.247936248779297,
      "learning_rate": 5.370055035195898e-06,
      "loss": 0.48265872001647947,
      "memory(GiB)": 77.59,
      "step": 99330,
      "token_acc": 0.898360655737705,
      "train_speed(iter/s)": 1.460714
    },
    {
      "epoch": 4.255815946189109,
      "grad_norm": 4.618083477020264,
      "learning_rate": 5.367021310219344e-06,
      "loss": 0.4677571296691895,
      "memory(GiB)": 77.59,
      "step": 99335,
      "token_acc": 0.9133333333333333,
      "train_speed(iter/s)": 1.460718
    },
    {
      "epoch": 4.256030161518359,
      "grad_norm": 5.072110652923584,
      "learning_rate": 5.363988393811081e-06,
      "loss": 0.18441224098205566,
      "memory(GiB)": 77.59,
      "step": 99340,
      "token_acc": 0.957983193277311,
      "train_speed(iter/s)": 1.460715
    },
    {
      "epoch": 4.256244376847607,
      "grad_norm": 5.641822814941406,
      "learning_rate": 5.360956286026042e-06,
      "loss": 0.3643972396850586,
      "memory(GiB)": 77.59,
      "step": 99345,
      "token_acc": 0.9496402877697842,
      "train_speed(iter/s)": 1.460721
    },
    {
      "epoch": 4.256458592176856,
      "grad_norm": 2.575453519821167,
      "learning_rate": 5.357924986919149e-06,
      "loss": 0.482479190826416,
      "memory(GiB)": 77.59,
      "step": 99350,
      "token_acc": 0.9306569343065694,
      "train_speed(iter/s)": 1.460719
    },
    {
      "epoch": 4.2566728075061055,
      "grad_norm": 2.8800721168518066,
      "learning_rate": 5.354894496545326e-06,
      "loss": 0.2679301738739014,
      "memory(GiB)": 77.59,
      "step": 99355,
      "token_acc": 0.9464882943143813,
      "train_speed(iter/s)": 1.460719
    },
    {
      "epoch": 4.256887022835354,
      "grad_norm": 3.5387628078460693,
      "learning_rate": 5.351864814959462e-06,
      "loss": 0.5908097267150879,
      "memory(GiB)": 77.59,
      "step": 99360,
      "token_acc": 0.8619631901840491,
      "train_speed(iter/s)": 1.460718
    },
    {
      "epoch": 4.257101238164603,
      "grad_norm": 1.376343011856079,
      "learning_rate": 5.348835942216457e-06,
      "loss": 0.4091130256652832,
      "memory(GiB)": 77.59,
      "step": 99365,
      "token_acc": 0.8972332015810277,
      "train_speed(iter/s)": 1.460721
    },
    {
      "epoch": 4.257315453493852,
      "grad_norm": 1.300049901008606,
      "learning_rate": 5.345807878371173e-06,
      "loss": 0.22927002906799315,
      "memory(GiB)": 77.59,
      "step": 99370,
      "token_acc": 0.959349593495935,
      "train_speed(iter/s)": 1.460722
    },
    {
      "epoch": 4.257529668823101,
      "grad_norm": 3.1282405853271484,
      "learning_rate": 5.3427806234784606e-06,
      "loss": 0.4178495407104492,
      "memory(GiB)": 77.59,
      "step": 99375,
      "token_acc": 0.9131736526946108,
      "train_speed(iter/s)": 1.460732
    },
    {
      "epoch": 4.25774388415235,
      "grad_norm": 3.9382073879241943,
      "learning_rate": 5.339754177593182e-06,
      "loss": 0.4154224872589111,
      "memory(GiB)": 77.59,
      "step": 99380,
      "token_acc": 0.9047619047619048,
      "train_speed(iter/s)": 1.460752
    },
    {
      "epoch": 4.257958099481599,
      "grad_norm": 4.387333393096924,
      "learning_rate": 5.336728540770148e-06,
      "loss": 0.4085714340209961,
      "memory(GiB)": 77.59,
      "step": 99385,
      "token_acc": 0.8985507246376812,
      "train_speed(iter/s)": 1.460749
    },
    {
      "epoch": 4.258172314810848,
      "grad_norm": 4.6281890869140625,
      "learning_rate": 5.333703713064175e-06,
      "loss": 0.645814323425293,
      "memory(GiB)": 77.59,
      "step": 99390,
      "token_acc": 0.8456973293768546,
      "train_speed(iter/s)": 1.46075
    },
    {
      "epoch": 4.258386530140097,
      "grad_norm": 2.8303420543670654,
      "learning_rate": 5.330679694530049e-06,
      "loss": 0.22087137699127196,
      "memory(GiB)": 77.59,
      "step": 99395,
      "token_acc": 0.9492753623188406,
      "train_speed(iter/s)": 1.460757
    },
    {
      "epoch": 4.258600745469346,
      "grad_norm": 3.8760879039764404,
      "learning_rate": 5.327656485222576e-06,
      "loss": 0.3366761922836304,
      "memory(GiB)": 77.59,
      "step": 99400,
      "token_acc": 0.9278996865203761,
      "train_speed(iter/s)": 1.46076
    },
    {
      "epoch": 4.258814960798595,
      "grad_norm": 1.2860451936721802,
      "learning_rate": 5.324634085196506e-06,
      "loss": 0.18870819807052613,
      "memory(GiB)": 77.59,
      "step": 99405,
      "token_acc": 0.9522184300341296,
      "train_speed(iter/s)": 1.460764
    },
    {
      "epoch": 4.259029176127844,
      "grad_norm": 2.7602431774139404,
      "learning_rate": 5.321612494506606e-06,
      "loss": 0.37745866775512693,
      "memory(GiB)": 77.59,
      "step": 99410,
      "token_acc": 0.903114186851211,
      "train_speed(iter/s)": 1.460772
    },
    {
      "epoch": 4.259243391457093,
      "grad_norm": 0.7228614091873169,
      "learning_rate": 5.318591713207599e-06,
      "loss": 0.26611392498016356,
      "memory(GiB)": 77.59,
      "step": 99415,
      "token_acc": 0.9442379182156134,
      "train_speed(iter/s)": 1.460774
    },
    {
      "epoch": 4.259457606786341,
      "grad_norm": 5.340729713439941,
      "learning_rate": 5.315571741354214e-06,
      "loss": 0.4543898582458496,
      "memory(GiB)": 77.59,
      "step": 99420,
      "token_acc": 0.8852459016393442,
      "train_speed(iter/s)": 1.460782
    },
    {
      "epoch": 4.259671822115591,
      "grad_norm": 2.186314105987549,
      "learning_rate": 5.312552579001173e-06,
      "loss": 0.29874367713928224,
      "memory(GiB)": 77.59,
      "step": 99425,
      "token_acc": 0.932258064516129,
      "train_speed(iter/s)": 1.460801
    },
    {
      "epoch": 4.25988603744484,
      "grad_norm": 3.7764477729797363,
      "learning_rate": 5.309534226203161e-06,
      "loss": 0.4322027683258057,
      "memory(GiB)": 77.59,
      "step": 99430,
      "token_acc": 0.9103448275862069,
      "train_speed(iter/s)": 1.460799
    },
    {
      "epoch": 4.260100252774088,
      "grad_norm": 0.5493272542953491,
      "learning_rate": 5.306516683014862e-06,
      "loss": 0.3048254013061523,
      "memory(GiB)": 77.59,
      "step": 99435,
      "token_acc": 0.9269005847953217,
      "train_speed(iter/s)": 1.460799
    },
    {
      "epoch": 4.260314468103338,
      "grad_norm": 4.7451910972595215,
      "learning_rate": 5.303499949490937e-06,
      "loss": 0.39146223068237307,
      "memory(GiB)": 77.59,
      "step": 99440,
      "token_acc": 0.9079365079365079,
      "train_speed(iter/s)": 1.460799
    },
    {
      "epoch": 4.260528683432587,
      "grad_norm": 5.15762996673584,
      "learning_rate": 5.300484025686037e-06,
      "loss": 0.4404001235961914,
      "memory(GiB)": 77.59,
      "step": 99445,
      "token_acc": 0.9174311926605505,
      "train_speed(iter/s)": 1.460797
    },
    {
      "epoch": 4.260742898761835,
      "grad_norm": 5.699605464935303,
      "learning_rate": 5.297468911654796e-06,
      "loss": 0.26614739894866946,
      "memory(GiB)": 77.59,
      "step": 99450,
      "token_acc": 0.9351145038167938,
      "train_speed(iter/s)": 1.460798
    },
    {
      "epoch": 4.2609571140910845,
      "grad_norm": 2.0094449520111084,
      "learning_rate": 5.294454607451838e-06,
      "loss": 0.3527825117111206,
      "memory(GiB)": 77.59,
      "step": 99455,
      "token_acc": 0.9213836477987422,
      "train_speed(iter/s)": 1.460796
    },
    {
      "epoch": 4.261171329420334,
      "grad_norm": 1.756239891052246,
      "learning_rate": 5.291441113131779e-06,
      "loss": 0.12031493186950684,
      "memory(GiB)": 77.59,
      "step": 99460,
      "token_acc": 0.9631336405529954,
      "train_speed(iter/s)": 1.460808
    },
    {
      "epoch": 4.261385544749582,
      "grad_norm": 2.8136937618255615,
      "learning_rate": 5.2884284287492034e-06,
      "loss": 0.30382671356201174,
      "memory(GiB)": 77.59,
      "step": 99465,
      "token_acc": 0.9285714285714286,
      "train_speed(iter/s)": 1.460819
    },
    {
      "epoch": 4.261599760078831,
      "grad_norm": 3.2136754989624023,
      "learning_rate": 5.285416554358696e-06,
      "loss": 0.717038631439209,
      "memory(GiB)": 77.59,
      "step": 99470,
      "token_acc": 0.8589211618257261,
      "train_speed(iter/s)": 1.460819
    },
    {
      "epoch": 4.261813975408081,
      "grad_norm": 2.6056532859802246,
      "learning_rate": 5.282405490014808e-06,
      "loss": 0.3850548267364502,
      "memory(GiB)": 77.59,
      "step": 99475,
      "token_acc": 0.9015151515151515,
      "train_speed(iter/s)": 1.460818
    },
    {
      "epoch": 4.262028190737329,
      "grad_norm": 2.5138978958129883,
      "learning_rate": 5.279395235772084e-06,
      "loss": 0.4926425933837891,
      "memory(GiB)": 77.59,
      "step": 99480,
      "token_acc": 0.8980263157894737,
      "train_speed(iter/s)": 1.460818
    },
    {
      "epoch": 4.262242406066578,
      "grad_norm": 2.4019885063171387,
      "learning_rate": 5.276385791685079e-06,
      "loss": 0.3422654151916504,
      "memory(GiB)": 77.59,
      "step": 99485,
      "token_acc": 0.9290322580645162,
      "train_speed(iter/s)": 1.460819
    },
    {
      "epoch": 4.2624566213958275,
      "grad_norm": 2.5374789237976074,
      "learning_rate": 5.273377157808296e-06,
      "loss": 0.11084836721420288,
      "memory(GiB)": 77.59,
      "step": 99490,
      "token_acc": 0.9806201550387597,
      "train_speed(iter/s)": 1.460821
    },
    {
      "epoch": 4.262670836725076,
      "grad_norm": 2.123809337615967,
      "learning_rate": 5.270369334196246e-06,
      "loss": 0.09977803230285645,
      "memory(GiB)": 77.59,
      "step": 99495,
      "token_acc": 0.9772727272727273,
      "train_speed(iter/s)": 1.460833
    },
    {
      "epoch": 4.262885052054325,
      "grad_norm": 1.5619951486587524,
      "learning_rate": 5.267362320903413e-06,
      "loss": 0.21138787269592285,
      "memory(GiB)": 77.59,
      "step": 99500,
      "token_acc": 0.9396825396825397,
      "train_speed(iter/s)": 1.460844
    },
    {
      "epoch": 4.262885052054325,
      "eval_loss": 2.3955862522125244,
      "eval_runtime": 11.7655,
      "eval_samples_per_second": 8.499,
      "eval_steps_per_second": 8.499,
      "eval_token_acc": 0.46153846153846156,
      "step": 99500
    },
    {
      "epoch": 4.263099267383574,
      "grad_norm": 2.5412425994873047,
      "learning_rate": 5.264356117984265e-06,
      "loss": 0.5106884002685547,
      "memory(GiB)": 77.59,
      "step": 99505,
      "token_acc": 0.5801749271137027,
      "train_speed(iter/s)": 1.460577
    },
    {
      "epoch": 4.263313482712823,
      "grad_norm": 3.7940099239349365,
      "learning_rate": 5.261350725493286e-06,
      "loss": 0.4201078414916992,
      "memory(GiB)": 77.59,
      "step": 99510,
      "token_acc": 0.935933147632312,
      "train_speed(iter/s)": 1.460578
    },
    {
      "epoch": 4.263527698042072,
      "grad_norm": 2.2930619716644287,
      "learning_rate": 5.258346143484899e-06,
      "loss": 0.22705252170562745,
      "memory(GiB)": 77.59,
      "step": 99515,
      "token_acc": 0.9490196078431372,
      "train_speed(iter/s)": 1.460587
    },
    {
      "epoch": 4.263741913371321,
      "grad_norm": 4.403921127319336,
      "learning_rate": 5.2553423720135494e-06,
      "loss": 0.3951128959655762,
      "memory(GiB)": 77.59,
      "step": 99520,
      "token_acc": 0.9172932330827067,
      "train_speed(iter/s)": 1.460588
    },
    {
      "epoch": 4.26395612870057,
      "grad_norm": 4.792290210723877,
      "learning_rate": 5.2523394111336334e-06,
      "loss": 0.2982816696166992,
      "memory(GiB)": 77.59,
      "step": 99525,
      "token_acc": 0.9290780141843972,
      "train_speed(iter/s)": 1.460591
    },
    {
      "epoch": 4.264170344029819,
      "grad_norm": 2.436452627182007,
      "learning_rate": 5.249337260899573e-06,
      "loss": 0.284543514251709,
      "memory(GiB)": 77.59,
      "step": 99530,
      "token_acc": 0.9444444444444444,
      "train_speed(iter/s)": 1.4606
    },
    {
      "epoch": 4.264384559359068,
      "grad_norm": 1.5684884786605835,
      "learning_rate": 5.2463359213657525e-06,
      "loss": 0.38846089839935305,
      "memory(GiB)": 77.59,
      "step": 99535,
      "token_acc": 0.912621359223301,
      "train_speed(iter/s)": 1.460603
    },
    {
      "epoch": 4.2645987746883165,
      "grad_norm": 2.21769380569458,
      "learning_rate": 5.243335392586524e-06,
      "loss": 0.3381308078765869,
      "memory(GiB)": 77.59,
      "step": 99540,
      "token_acc": 0.9323308270676691,
      "train_speed(iter/s)": 1.46061
    },
    {
      "epoch": 4.264812990017566,
      "grad_norm": 3.364208936691284,
      "learning_rate": 5.240335674616276e-06,
      "loss": 0.32372078895568845,
      "memory(GiB)": 77.59,
      "step": 99545,
      "token_acc": 0.9367588932806324,
      "train_speed(iter/s)": 1.460625
    },
    {
      "epoch": 4.265027205346815,
      "grad_norm": 1.1386833190917969,
      "learning_rate": 5.237336767509332e-06,
      "loss": 0.3740227460861206,
      "memory(GiB)": 77.59,
      "step": 99550,
      "token_acc": 0.9256756756756757,
      "train_speed(iter/s)": 1.460623
    },
    {
      "epoch": 4.265241420676063,
      "grad_norm": 2.715829372406006,
      "learning_rate": 5.234338671320021e-06,
      "loss": 0.20838632583618164,
      "memory(GiB)": 77.59,
      "step": 99555,
      "token_acc": 0.9592476489028213,
      "train_speed(iter/s)": 1.46063
    },
    {
      "epoch": 4.265455636005313,
      "grad_norm": 1.433476448059082,
      "learning_rate": 5.2313413861026614e-06,
      "loss": 0.33864898681640626,
      "memory(GiB)": 77.59,
      "step": 99560,
      "token_acc": 0.9242902208201893,
      "train_speed(iter/s)": 1.460641
    },
    {
      "epoch": 4.265669851334562,
      "grad_norm": 0.5896339416503906,
      "learning_rate": 5.2283449119115366e-06,
      "loss": 0.36991283893585203,
      "memory(GiB)": 77.59,
      "step": 99565,
      "token_acc": 0.9146757679180887,
      "train_speed(iter/s)": 1.460645
    },
    {
      "epoch": 4.26588406666381,
      "grad_norm": 3.51943039894104,
      "learning_rate": 5.225349248800954e-06,
      "loss": 0.1935302734375,
      "memory(GiB)": 77.59,
      "step": 99570,
      "token_acc": 0.9411764705882353,
      "train_speed(iter/s)": 1.460648
    },
    {
      "epoch": 4.2660982819930595,
      "grad_norm": 2.8167197704315186,
      "learning_rate": 5.222354396825174e-06,
      "loss": 0.4228076934814453,
      "memory(GiB)": 77.59,
      "step": 99575,
      "token_acc": 0.9122257053291536,
      "train_speed(iter/s)": 1.46065
    },
    {
      "epoch": 4.266312497322309,
      "grad_norm": 2.4165494441986084,
      "learning_rate": 5.2193603560384495e-06,
      "loss": 0.33481554985046386,
      "memory(GiB)": 77.59,
      "step": 99580,
      "token_acc": 0.9221311475409836,
      "train_speed(iter/s)": 1.460659
    },
    {
      "epoch": 4.266526712651557,
      "grad_norm": 1.3183972835540771,
      "learning_rate": 5.216367126495015e-06,
      "loss": 0.37667431831359866,
      "memory(GiB)": 77.59,
      "step": 99585,
      "token_acc": 0.951048951048951,
      "train_speed(iter/s)": 1.460663
    },
    {
      "epoch": 4.266740927980806,
      "grad_norm": 4.2846360206604,
      "learning_rate": 5.213374708249097e-06,
      "loss": 0.3232332944869995,
      "memory(GiB)": 77.59,
      "step": 99590,
      "token_acc": 0.9230769230769231,
      "train_speed(iter/s)": 1.460673
    },
    {
      "epoch": 4.266955143310056,
      "grad_norm": 5.92938232421875,
      "learning_rate": 5.210383101354915e-06,
      "loss": 0.5132254123687744,
      "memory(GiB)": 77.59,
      "step": 99595,
      "token_acc": 0.8855218855218855,
      "train_speed(iter/s)": 1.460666
    },
    {
      "epoch": 4.267169358639304,
      "grad_norm": 3.3376073837280273,
      "learning_rate": 5.207392305866648e-06,
      "loss": 0.3741640567779541,
      "memory(GiB)": 77.59,
      "step": 99600,
      "token_acc": 0.9132075471698113,
      "train_speed(iter/s)": 1.460673
    },
    {
      "epoch": 4.267383573968553,
      "grad_norm": 3.525714874267578,
      "learning_rate": 5.204402321838503e-06,
      "loss": 0.3421555757522583,
      "memory(GiB)": 77.59,
      "step": 99605,
      "token_acc": 0.9305019305019305,
      "train_speed(iter/s)": 1.460678
    },
    {
      "epoch": 4.2675977892978025,
      "grad_norm": 3.1425952911376953,
      "learning_rate": 5.2014131493246246e-06,
      "loss": 0.19460070133209229,
      "memory(GiB)": 77.59,
      "step": 99610,
      "token_acc": 0.963076923076923,
      "train_speed(iter/s)": 1.460677
    },
    {
      "epoch": 4.267812004627051,
      "grad_norm": 4.047091484069824,
      "learning_rate": 5.198424788379175e-06,
      "loss": 0.28466804027557374,
      "memory(GiB)": 77.59,
      "step": 99615,
      "token_acc": 0.939799331103679,
      "train_speed(iter/s)": 1.460681
    },
    {
      "epoch": 4.2680262199563,
      "grad_norm": 1.5819629430770874,
      "learning_rate": 5.195437239056289e-06,
      "loss": 0.41487464904785154,
      "memory(GiB)": 77.59,
      "step": 99620,
      "token_acc": 0.921832884097035,
      "train_speed(iter/s)": 1.460685
    },
    {
      "epoch": 4.268240435285549,
      "grad_norm": 1.3933672904968262,
      "learning_rate": 5.192450501410079e-06,
      "loss": 0.16637845039367677,
      "memory(GiB)": 77.59,
      "step": 99625,
      "token_acc": 0.9624060150375939,
      "train_speed(iter/s)": 1.460688
    },
    {
      "epoch": 4.268454650614798,
      "grad_norm": 3.696650743484497,
      "learning_rate": 5.189464575494668e-06,
      "loss": 0.34290771484375,
      "memory(GiB)": 77.59,
      "step": 99630,
      "token_acc": 0.9247311827956989,
      "train_speed(iter/s)": 1.460692
    },
    {
      "epoch": 4.268668865944047,
      "grad_norm": 3.2812552452087402,
      "learning_rate": 5.186479461364141e-06,
      "loss": 0.2942279100418091,
      "memory(GiB)": 77.59,
      "step": 99635,
      "token_acc": 0.9282700421940928,
      "train_speed(iter/s)": 1.460699
    },
    {
      "epoch": 4.268883081273296,
      "grad_norm": 1.077406883239746,
      "learning_rate": 5.183495159072583e-06,
      "loss": 0.29581973552703855,
      "memory(GiB)": 77.59,
      "step": 99640,
      "token_acc": 0.9333333333333333,
      "train_speed(iter/s)": 1.460699
    },
    {
      "epoch": 4.269097296602545,
      "grad_norm": 6.157959461212158,
      "learning_rate": 5.180511668674043e-06,
      "loss": 0.3744260311126709,
      "memory(GiB)": 77.59,
      "step": 99645,
      "token_acc": 0.916058394160584,
      "train_speed(iter/s)": 1.460699
    },
    {
      "epoch": 4.269311511931794,
      "grad_norm": 7.448582649230957,
      "learning_rate": 5.177528990222574e-06,
      "loss": 0.5244349479675293,
      "memory(GiB)": 77.59,
      "step": 99650,
      "token_acc": 0.8916967509025271,
      "train_speed(iter/s)": 1.460719
    },
    {
      "epoch": 4.269525727261043,
      "grad_norm": 0.21380171179771423,
      "learning_rate": 5.174547123772222e-06,
      "loss": 0.27196803092956545,
      "memory(GiB)": 77.59,
      "step": 99655,
      "token_acc": 0.945054945054945,
      "train_speed(iter/s)": 1.460723
    },
    {
      "epoch": 4.2697399425902915,
      "grad_norm": 2.301433801651001,
      "learning_rate": 5.1715660693769985e-06,
      "loss": 0.31064932346343993,
      "memory(GiB)": 77.59,
      "step": 99660,
      "token_acc": 0.9311594202898551,
      "train_speed(iter/s)": 1.460732
    },
    {
      "epoch": 4.269954157919541,
      "grad_norm": 0.6087860465049744,
      "learning_rate": 5.168585827090911e-06,
      "loss": 0.2782894134521484,
      "memory(GiB)": 77.59,
      "step": 99665,
      "token_acc": 0.9256756756756757,
      "train_speed(iter/s)": 1.460733
    },
    {
      "epoch": 4.27016837324879,
      "grad_norm": 4.691458225250244,
      "learning_rate": 5.165606396967932e-06,
      "loss": 0.42331418991088865,
      "memory(GiB)": 77.59,
      "step": 99670,
      "token_acc": 0.89272030651341,
      "train_speed(iter/s)": 1.460745
    },
    {
      "epoch": 4.270382588578038,
      "grad_norm": 0.46740925312042236,
      "learning_rate": 5.1626277790620625e-06,
      "loss": 0.2097219705581665,
      "memory(GiB)": 77.59,
      "step": 99675,
      "token_acc": 0.9496402877697842,
      "train_speed(iter/s)": 1.46075
    },
    {
      "epoch": 4.270596803907288,
      "grad_norm": 13.193229675292969,
      "learning_rate": 5.159649973427255e-06,
      "loss": 0.3154323577880859,
      "memory(GiB)": 77.59,
      "step": 99680,
      "token_acc": 0.9051724137931034,
      "train_speed(iter/s)": 1.460751
    },
    {
      "epoch": 4.270811019236537,
      "grad_norm": 2.4334824085235596,
      "learning_rate": 5.1566729801174385e-06,
      "loss": 0.3867526054382324,
      "memory(GiB)": 77.59,
      "step": 99685,
      "token_acc": 0.9424460431654677,
      "train_speed(iter/s)": 1.46075
    },
    {
      "epoch": 4.271025234565785,
      "grad_norm": 1.381535291671753,
      "learning_rate": 5.153696799186569e-06,
      "loss": 0.3242532253265381,
      "memory(GiB)": 77.59,
      "step": 99690,
      "token_acc": 0.9047619047619048,
      "train_speed(iter/s)": 1.46075
    },
    {
      "epoch": 4.271239449895035,
      "grad_norm": 0.815574586391449,
      "learning_rate": 5.1507214306885485e-06,
      "loss": 0.1908065438270569,
      "memory(GiB)": 77.59,
      "step": 99695,
      "token_acc": 0.9563492063492064,
      "train_speed(iter/s)": 1.460752
    },
    {
      "epoch": 4.271453665224284,
      "grad_norm": 6.343724727630615,
      "learning_rate": 5.147746874677284e-06,
      "loss": 0.392113471031189,
      "memory(GiB)": 77.59,
      "step": 99700,
      "token_acc": 0.9,
      "train_speed(iter/s)": 1.460753
    },
    {
      "epoch": 4.271667880553532,
      "grad_norm": 5.2909369468688965,
      "learning_rate": 5.144773131206659e-06,
      "loss": 0.6642618656158448,
      "memory(GiB)": 77.59,
      "step": 99705,
      "token_acc": 0.860248447204969,
      "train_speed(iter/s)": 1.460766
    },
    {
      "epoch": 4.2718820958827814,
      "grad_norm": 2.2698426246643066,
      "learning_rate": 5.141800200330538e-06,
      "loss": 0.4885410308837891,
      "memory(GiB)": 77.59,
      "step": 99710,
      "token_acc": 0.9011406844106464,
      "train_speed(iter/s)": 1.460767
    },
    {
      "epoch": 4.272096311212031,
      "grad_norm": 2.14892578125,
      "learning_rate": 5.138828082102792e-06,
      "loss": 0.3900023937225342,
      "memory(GiB)": 77.59,
      "step": 99715,
      "token_acc": 0.9306930693069307,
      "train_speed(iter/s)": 1.460772
    },
    {
      "epoch": 4.272310526541279,
      "grad_norm": 4.045999526977539,
      "learning_rate": 5.135856776577263e-06,
      "loss": 0.23598723411560057,
      "memory(GiB)": 77.59,
      "step": 99720,
      "token_acc": 0.9484536082474226,
      "train_speed(iter/s)": 1.460778
    },
    {
      "epoch": 4.272524741870528,
      "grad_norm": 2.873863935470581,
      "learning_rate": 5.1328862838077754e-06,
      "loss": 0.32664592266082765,
      "memory(GiB)": 77.59,
      "step": 99725,
      "token_acc": 0.9285714285714286,
      "train_speed(iter/s)": 1.460785
    },
    {
      "epoch": 4.272738957199778,
      "grad_norm": 3.139317512512207,
      "learning_rate": 5.129916603848139e-06,
      "loss": 0.22108983993530273,
      "memory(GiB)": 77.59,
      "step": 99730,
      "token_acc": 0.9484536082474226,
      "train_speed(iter/s)": 1.460785
    },
    {
      "epoch": 4.272953172529026,
      "grad_norm": 3.6568915843963623,
      "learning_rate": 5.126947736752141e-06,
      "loss": 0.6049819469451905,
      "memory(GiB)": 77.59,
      "step": 99735,
      "token_acc": 0.868421052631579,
      "train_speed(iter/s)": 1.460797
    },
    {
      "epoch": 4.273167387858275,
      "grad_norm": 1.946705937385559,
      "learning_rate": 5.123979682573599e-06,
      "loss": 0.28012733459472655,
      "memory(GiB)": 77.59,
      "step": 99740,
      "token_acc": 0.9285714285714286,
      "train_speed(iter/s)": 1.46081
    },
    {
      "epoch": 4.2733816031875245,
      "grad_norm": 2.9501142501831055,
      "learning_rate": 5.12101244136624e-06,
      "loss": 0.505632734298706,
      "memory(GiB)": 77.59,
      "step": 99745,
      "token_acc": 0.9151515151515152,
      "train_speed(iter/s)": 1.460814
    },
    {
      "epoch": 4.273595818516773,
      "grad_norm": 6.32075834274292,
      "learning_rate": 5.118046013183858e-06,
      "loss": 0.5727143287658691,
      "memory(GiB)": 77.59,
      "step": 99750,
      "token_acc": 0.9049079754601227,
      "train_speed(iter/s)": 1.460817
    },
    {
      "epoch": 4.273810033846022,
      "grad_norm": 6.38724422454834,
      "learning_rate": 5.115080398080174e-06,
      "loss": 0.6648005962371826,
      "memory(GiB)": 77.59,
      "step": 99755,
      "token_acc": 0.8811475409836066,
      "train_speed(iter/s)": 1.460817
    },
    {
      "epoch": 4.274024249175271,
      "grad_norm": 3.7132508754730225,
      "learning_rate": 5.112115596108918e-06,
      "loss": 0.3091521501541138,
      "memory(GiB)": 77.59,
      "step": 99760,
      "token_acc": 0.9259259259259259,
      "train_speed(iter/s)": 1.460828
    },
    {
      "epoch": 4.27423846450452,
      "grad_norm": 3.154407024383545,
      "learning_rate": 5.109151607323792e-06,
      "loss": 0.1858285427093506,
      "memory(GiB)": 77.59,
      "step": 99765,
      "token_acc": 0.9605734767025089,
      "train_speed(iter/s)": 1.460832
    },
    {
      "epoch": 4.274452679833769,
      "grad_norm": 3.545576572418213,
      "learning_rate": 5.1061884317784855e-06,
      "loss": 0.2557882785797119,
      "memory(GiB)": 77.59,
      "step": 99770,
      "token_acc": 0.9337748344370861,
      "train_speed(iter/s)": 1.460835
    },
    {
      "epoch": 4.274666895163018,
      "grad_norm": 1.8169572353363037,
      "learning_rate": 5.103226069526701e-06,
      "loss": 0.18036774396896363,
      "memory(GiB)": 77.59,
      "step": 99775,
      "token_acc": 0.9608540925266904,
      "train_speed(iter/s)": 1.460833
    },
    {
      "epoch": 4.274881110492267,
      "grad_norm": 1.6837166547775269,
      "learning_rate": 5.100264520622089e-06,
      "loss": 0.24274101257324218,
      "memory(GiB)": 77.59,
      "step": 99780,
      "token_acc": 0.954225352112676,
      "train_speed(iter/s)": 1.460836
    },
    {
      "epoch": 4.275095325821516,
      "grad_norm": 4.330089569091797,
      "learning_rate": 5.097303785118307e-06,
      "loss": 0.31524410247802737,
      "memory(GiB)": 77.59,
      "step": 99785,
      "token_acc": 0.9482758620689655,
      "train_speed(iter/s)": 1.460836
    },
    {
      "epoch": 4.275309541150765,
      "grad_norm": 2.307032346725464,
      "learning_rate": 5.09434386306899e-06,
      "loss": 0.29250144958496094,
      "memory(GiB)": 77.59,
      "step": 99790,
      "token_acc": 0.9433962264150944,
      "train_speed(iter/s)": 1.460847
    },
    {
      "epoch": 4.2755237564800135,
      "grad_norm": 2.594367504119873,
      "learning_rate": 5.09138475452775e-06,
      "loss": 0.45240058898925783,
      "memory(GiB)": 77.59,
      "step": 99795,
      "token_acc": 0.8962025316455696,
      "train_speed(iter/s)": 1.460846
    },
    {
      "epoch": 4.275737971809263,
      "grad_norm": 5.303891181945801,
      "learning_rate": 5.088426459548207e-06,
      "loss": 0.46891107559204104,
      "memory(GiB)": 77.59,
      "step": 99800,
      "token_acc": 0.8936170212765957,
      "train_speed(iter/s)": 1.460848
    },
    {
      "epoch": 4.275952187138512,
      "grad_norm": 3.1789190769195557,
      "learning_rate": 5.085468978183955e-06,
      "loss": 0.274338436126709,
      "memory(GiB)": 77.59,
      "step": 99805,
      "token_acc": 0.9377049180327869,
      "train_speed(iter/s)": 1.460851
    },
    {
      "epoch": 4.27616640246776,
      "grad_norm": 3.1071839332580566,
      "learning_rate": 5.082512310488563e-06,
      "loss": 0.40357627868652346,
      "memory(GiB)": 77.59,
      "step": 99810,
      "token_acc": 0.9183673469387755,
      "train_speed(iter/s)": 1.460858
    },
    {
      "epoch": 4.27638061779701,
      "grad_norm": 3.7382380962371826,
      "learning_rate": 5.079556456515599e-06,
      "loss": 0.36572871208190916,
      "memory(GiB)": 77.59,
      "step": 99815,
      "token_acc": 0.9166666666666666,
      "train_speed(iter/s)": 1.460863
    },
    {
      "epoch": 4.276594833126259,
      "grad_norm": 3.470856189727783,
      "learning_rate": 5.0766014163185935e-06,
      "loss": 0.17744266986846924,
      "memory(GiB)": 77.59,
      "step": 99820,
      "token_acc": 0.9534883720930233,
      "train_speed(iter/s)": 1.460864
    },
    {
      "epoch": 4.276809048455507,
      "grad_norm": 2.1829745769500732,
      "learning_rate": 5.073647189951109e-06,
      "loss": 0.32458736896514895,
      "memory(GiB)": 77.59,
      "step": 99825,
      "token_acc": 0.9066147859922179,
      "train_speed(iter/s)": 1.460861
    },
    {
      "epoch": 4.2770232637847565,
      "grad_norm": 5.481524467468262,
      "learning_rate": 5.07069377746664e-06,
      "loss": 0.46438307762145997,
      "memory(GiB)": 77.59,
      "step": 99830,
      "token_acc": 0.9236947791164659,
      "train_speed(iter/s)": 1.460876
    },
    {
      "epoch": 4.277237479114006,
      "grad_norm": 4.677042007446289,
      "learning_rate": 5.067741178918711e-06,
      "loss": 0.4265859603881836,
      "memory(GiB)": 77.59,
      "step": 99835,
      "token_acc": 0.9018181818181819,
      "train_speed(iter/s)": 1.460894
    },
    {
      "epoch": 4.277451694443254,
      "grad_norm": 2.6622257232666016,
      "learning_rate": 5.0647893943607975e-06,
      "loss": 0.20108513832092284,
      "memory(GiB)": 77.59,
      "step": 99840,
      "token_acc": 0.9584569732937686,
      "train_speed(iter/s)": 1.460898
    },
    {
      "epoch": 4.277665909772503,
      "grad_norm": 4.458497047424316,
      "learning_rate": 5.061838423846377e-06,
      "loss": 0.5939162731170654,
      "memory(GiB)": 77.59,
      "step": 99845,
      "token_acc": 0.87,
      "train_speed(iter/s)": 1.460902
    },
    {
      "epoch": 4.277880125101753,
      "grad_norm": 2.879066228866577,
      "learning_rate": 5.058888267428913e-06,
      "loss": 0.31253871917724607,
      "memory(GiB)": 77.59,
      "step": 99850,
      "token_acc": 0.9297658862876255,
      "train_speed(iter/s)": 1.460914
    },
    {
      "epoch": 4.278094340431001,
      "grad_norm": 3.488481044769287,
      "learning_rate": 5.055938925161835e-06,
      "loss": 0.212174391746521,
      "memory(GiB)": 77.59,
      "step": 99855,
      "token_acc": 0.9548611111111112,
      "train_speed(iter/s)": 1.460917
    },
    {
      "epoch": 4.27830855576025,
      "grad_norm": 2.671111583709717,
      "learning_rate": 5.052990397098589e-06,
      "loss": 0.45183229446411133,
      "memory(GiB)": 77.59,
      "step": 99860,
      "token_acc": 0.9100346020761245,
      "train_speed(iter/s)": 1.460918
    },
    {
      "epoch": 4.2785227710894995,
      "grad_norm": 1.7578084468841553,
      "learning_rate": 5.050042683292589e-06,
      "loss": 0.3612847805023193,
      "memory(GiB)": 77.59,
      "step": 99865,
      "token_acc": 0.9178571428571428,
      "train_speed(iter/s)": 1.46093
    },
    {
      "epoch": 4.278736986418748,
      "grad_norm": 2.57316517829895,
      "learning_rate": 5.047095783797234e-06,
      "loss": 0.2856208562850952,
      "memory(GiB)": 77.59,
      "step": 99870,
      "token_acc": 0.9555555555555556,
      "train_speed(iter/s)": 1.460937
    },
    {
      "epoch": 4.278951201747997,
      "grad_norm": 3.7962288856506348,
      "learning_rate": 5.044149698665906e-06,
      "loss": 0.2394437313079834,
      "memory(GiB)": 77.59,
      "step": 99875,
      "token_acc": 0.9347826086956522,
      "train_speed(iter/s)": 1.460949
    },
    {
      "epoch": 4.279165417077246,
      "grad_norm": 6.048018932342529,
      "learning_rate": 5.041204427951968e-06,
      "loss": 0.33783626556396484,
      "memory(GiB)": 77.59,
      "step": 99880,
      "token_acc": 0.9256198347107438,
      "train_speed(iter/s)": 1.460949
    },
    {
      "epoch": 4.279379632406495,
      "grad_norm": 3.038200616836548,
      "learning_rate": 5.0382599717087974e-06,
      "loss": 0.27928388118743896,
      "memory(GiB)": 77.59,
      "step": 99885,
      "token_acc": 0.9219219219219219,
      "train_speed(iter/s)": 1.460951
    },
    {
      "epoch": 4.279593847735744,
      "grad_norm": 5.3399200439453125,
      "learning_rate": 5.035316329989725e-06,
      "loss": 0.5327032566070556,
      "memory(GiB)": 77.59,
      "step": 99890,
      "token_acc": 0.8909657320872274,
      "train_speed(iter/s)": 1.460955
    },
    {
      "epoch": 4.279808063064993,
      "grad_norm": 9.551346778869629,
      "learning_rate": 5.03237350284807e-06,
      "loss": 0.49667882919311523,
      "memory(GiB)": 77.59,
      "step": 99895,
      "token_acc": 0.9221789883268483,
      "train_speed(iter/s)": 1.460958
    },
    {
      "epoch": 4.280022278394242,
      "grad_norm": 3.8982772827148438,
      "learning_rate": 5.029431490337156e-06,
      "loss": 0.43938241004943845,
      "memory(GiB)": 77.59,
      "step": 99900,
      "token_acc": 0.8993506493506493,
      "train_speed(iter/s)": 1.460958
    },
    {
      "epoch": 4.280236493723491,
      "grad_norm": 3.4469947814941406,
      "learning_rate": 5.026490292510283e-06,
      "loss": 0.42351016998291013,
      "memory(GiB)": 77.59,
      "step": 99905,
      "token_acc": 0.9169329073482428,
      "train_speed(iter/s)": 1.460957
    },
    {
      "epoch": 4.28045070905274,
      "grad_norm": 2.415527582168579,
      "learning_rate": 5.023549909420722e-06,
      "loss": 0.6654161930084228,
      "memory(GiB)": 77.59,
      "step": 99910,
      "token_acc": 0.8938547486033519,
      "train_speed(iter/s)": 1.460961
    },
    {
      "epoch": 4.2806649243819885,
      "grad_norm": 3.2908596992492676,
      "learning_rate": 5.02061034112174e-06,
      "loss": 0.24340598583221434,
      "memory(GiB)": 77.59,
      "step": 99915,
      "token_acc": 0.934375,
      "train_speed(iter/s)": 1.460965
    },
    {
      "epoch": 4.280879139711238,
      "grad_norm": 3.1084794998168945,
      "learning_rate": 5.0176715876666e-06,
      "loss": 0.4259368896484375,
      "memory(GiB)": 77.59,
      "step": 99920,
      "token_acc": 0.9133333333333333,
      "train_speed(iter/s)": 1.460979
    },
    {
      "epoch": 4.281093355040487,
      "grad_norm": 1.4243357181549072,
      "learning_rate": 5.014733649108538e-06,
      "loss": 0.23667747974395753,
      "memory(GiB)": 77.59,
      "step": 99925,
      "token_acc": 0.9298892988929889,
      "train_speed(iter/s)": 1.460978
    },
    {
      "epoch": 4.281307570369735,
      "grad_norm": 3.3944180011749268,
      "learning_rate": 5.011796525500778e-06,
      "loss": 0.27852582931518555,
      "memory(GiB)": 77.59,
      "step": 99930,
      "token_acc": 0.9407894736842105,
      "train_speed(iter/s)": 1.460982
    },
    {
      "epoch": 4.281521785698985,
      "grad_norm": 2.1252758502960205,
      "learning_rate": 5.008860216896527e-06,
      "loss": 0.15380915403366088,
      "memory(GiB)": 77.59,
      "step": 99935,
      "token_acc": 0.9477124183006536,
      "train_speed(iter/s)": 1.460988
    },
    {
      "epoch": 4.281736001028234,
      "grad_norm": 5.243740558624268,
      "learning_rate": 5.005924723348965e-06,
      "loss": 0.5058942317962647,
      "memory(GiB)": 77.59,
      "step": 99940,
      "token_acc": 0.9163987138263665,
      "train_speed(iter/s)": 1.460989
    },
    {
      "epoch": 4.281950216357482,
      "grad_norm": 0.6776344776153564,
      "learning_rate": 5.002990044911299e-06,
      "loss": 0.20588600635528564,
      "memory(GiB)": 77.59,
      "step": 99945,
      "token_acc": 0.9466192170818505,
      "train_speed(iter/s)": 1.46099
    },
    {
      "epoch": 4.2821644316867316,
      "grad_norm": 2.7738289833068848,
      "learning_rate": 5.000056181636676e-06,
      "loss": 0.39241561889648435,
      "memory(GiB)": 77.59,
      "step": 99950,
      "token_acc": 0.9198473282442748,
      "train_speed(iter/s)": 1.460993
    },
    {
      "epoch": 4.282378647015981,
      "grad_norm": 4.51870584487915,
      "learning_rate": 4.9971231335782465e-06,
      "loss": 0.3619981050491333,
      "memory(GiB)": 77.59,
      "step": 99955,
      "token_acc": 0.9306569343065694,
      "train_speed(iter/s)": 1.460999
    },
    {
      "epoch": 4.282592862345229,
      "grad_norm": 4.907376766204834,
      "learning_rate": 4.9941909007891476e-06,
      "loss": 0.4899251461029053,
      "memory(GiB)": 77.59,
      "step": 99960,
      "token_acc": 0.9,
      "train_speed(iter/s)": 1.46101
    },
    {
      "epoch": 4.282807077674478,
      "grad_norm": 4.62591028213501,
      "learning_rate": 4.991259483322491e-06,
      "loss": 0.27319319248199464,
      "memory(GiB)": 77.59,
      "step": 99965,
      "token_acc": 0.9486301369863014,
      "train_speed(iter/s)": 1.461014
    },
    {
      "epoch": 4.283021293003728,
      "grad_norm": 2.3805274963378906,
      "learning_rate": 4.988328881231402e-06,
      "loss": 0.2790034055709839,
      "memory(GiB)": 77.59,
      "step": 99970,
      "token_acc": 0.9422492401215805,
      "train_speed(iter/s)": 1.461017
    },
    {
      "epoch": 4.283235508332976,
      "grad_norm": 5.296984672546387,
      "learning_rate": 4.985399094568949e-06,
      "loss": 0.2118358612060547,
      "memory(GiB)": 77.59,
      "step": 99975,
      "token_acc": 0.9444444444444444,
      "train_speed(iter/s)": 1.461019
    },
    {
      "epoch": 4.283449723662225,
      "grad_norm": 1.5260471105575562,
      "learning_rate": 4.982470123388228e-06,
      "loss": 0.34045627117156985,
      "memory(GiB)": 77.59,
      "step": 99980,
      "token_acc": 0.9244186046511628,
      "train_speed(iter/s)": 1.461019
    },
    {
      "epoch": 4.283663938991475,
      "grad_norm": 4.645987033843994,
      "learning_rate": 4.97954196774229e-06,
      "loss": 0.5635487556457519,
      "memory(GiB)": 77.59,
      "step": 99985,
      "token_acc": 0.8833333333333333,
      "train_speed(iter/s)": 1.461029
    },
    {
      "epoch": 4.283878154320723,
      "grad_norm": 2.4386935234069824,
      "learning_rate": 4.976614627684184e-06,
      "loss": 0.31154396533966067,
      "memory(GiB)": 77.59,
      "step": 99990,
      "token_acc": 0.9322709163346613,
      "train_speed(iter/s)": 1.461035
    },
    {
      "epoch": 4.284092369649972,
      "grad_norm": 0.6911927461624146,
      "learning_rate": 4.973688103266938e-06,
      "loss": 0.3273287773132324,
      "memory(GiB)": 77.59,
      "step": 99995,
      "token_acc": 0.9358974358974359,
      "train_speed(iter/s)": 1.461035
    },
    {
      "epoch": 4.2843065849792215,
      "grad_norm": 4.5256028175354,
      "learning_rate": 4.97076239454356e-06,
      "loss": 0.25275349617004395,
      "memory(GiB)": 77.59,
      "step": 100000,
      "token_acc": 0.9347079037800687,
      "train_speed(iter/s)": 1.461036
    },
    {
      "epoch": 4.2843065849792215,
      "eval_loss": 2.469208002090454,
      "eval_runtime": 11.2184,
      "eval_samples_per_second": 8.914,
      "eval_steps_per_second": 8.914,
      "eval_token_acc": 0.4560723514211886,
      "step": 100000
    },
    {
      "epoch": 4.28452080030847,
      "grad_norm": 0.5246925354003906,
      "learning_rate": 4.967837501567069e-06,
      "loss": 0.4758607387542725,
      "memory(GiB)": 77.59,
      "step": 100005,
      "token_acc": 0.5973094170403588,
      "train_speed(iter/s)": 1.46079
    },
    {
      "epoch": 4.284735015637719,
      "grad_norm": 0.5713053941726685,
      "learning_rate": 4.964913424390449e-06,
      "loss": 0.20188345909118652,
      "memory(GiB)": 77.59,
      "step": 100010,
      "token_acc": 0.9498207885304659,
      "train_speed(iter/s)": 1.460793
    },
    {
      "epoch": 4.284949230966968,
      "grad_norm": 3.245299816131592,
      "learning_rate": 4.961990163066671e-06,
      "loss": 0.2901291847229004,
      "memory(GiB)": 77.59,
      "step": 100015,
      "token_acc": 0.9352750809061489,
      "train_speed(iter/s)": 1.460803
    },
    {
      "epoch": 4.285163446296217,
      "grad_norm": 2.6304373741149902,
      "learning_rate": 4.959067717648685e-06,
      "loss": 0.0745045006275177,
      "memory(GiB)": 77.59,
      "step": 100020,
      "token_acc": 0.9704797047970479,
      "train_speed(iter/s)": 1.460802
    },
    {
      "epoch": 4.285377661625466,
      "grad_norm": 0.09042610973119736,
      "learning_rate": 4.956146088189434e-06,
      "loss": 0.24014768600463868,
      "memory(GiB)": 77.59,
      "step": 100025,
      "token_acc": 0.9166666666666666,
      "train_speed(iter/s)": 1.460815
    },
    {
      "epoch": 4.285591876954715,
      "grad_norm": 3.540282726287842,
      "learning_rate": 4.953225274741857e-06,
      "loss": 0.2688897609710693,
      "memory(GiB)": 77.59,
      "step": 100030,
      "token_acc": 0.9270833333333334,
      "train_speed(iter/s)": 1.460814
    },
    {
      "epoch": 4.285806092283964,
      "grad_norm": 1.7145427465438843,
      "learning_rate": 4.9503052773588635e-06,
      "loss": 0.3604144811630249,
      "memory(GiB)": 77.59,
      "step": 100035,
      "token_acc": 0.927797833935018,
      "train_speed(iter/s)": 1.460824
    },
    {
      "epoch": 4.286020307613213,
      "grad_norm": 6.202212333679199,
      "learning_rate": 4.947386096093337e-06,
      "loss": 0.5249392032623291,
      "memory(GiB)": 77.59,
      "step": 100040,
      "token_acc": 0.8779220779220779,
      "train_speed(iter/s)": 1.460829
    },
    {
      "epoch": 4.286234522942462,
      "grad_norm": 2.6635053157806396,
      "learning_rate": 4.944467730998187e-06,
      "loss": 0.3964036226272583,
      "memory(GiB)": 77.59,
      "step": 100045,
      "token_acc": 0.9280575539568345,
      "train_speed(iter/s)": 1.460834
    },
    {
      "epoch": 4.2864487382717105,
      "grad_norm": 0.22549916803836823,
      "learning_rate": 4.94155018212627e-06,
      "loss": 0.41340999603271483,
      "memory(GiB)": 77.59,
      "step": 100050,
      "token_acc": 0.886039886039886,
      "train_speed(iter/s)": 1.460838
    },
    {
      "epoch": 4.28666295360096,
      "grad_norm": 2.216219186782837,
      "learning_rate": 4.9386334495304384e-06,
      "loss": 0.26362712383270265,
      "memory(GiB)": 77.59,
      "step": 100055,
      "token_acc": 0.922077922077922,
      "train_speed(iter/s)": 1.46084
    },
    {
      "epoch": 4.286877168930209,
      "grad_norm": 1.9179097414016724,
      "learning_rate": 4.935717533263523e-06,
      "loss": 0.5461084842681885,
      "memory(GiB)": 77.59,
      "step": 100060,
      "token_acc": 0.893491124260355,
      "train_speed(iter/s)": 1.46084
    },
    {
      "epoch": 4.287091384259457,
      "grad_norm": 4.199880123138428,
      "learning_rate": 4.93280243337837e-06,
      "loss": 0.4137904167175293,
      "memory(GiB)": 77.59,
      "step": 100065,
      "token_acc": 0.8952879581151832,
      "train_speed(iter/s)": 1.46084
    },
    {
      "epoch": 4.287305599588707,
      "grad_norm": 0.14376488327980042,
      "learning_rate": 4.929888149927775e-06,
      "loss": 0.38546042442321776,
      "memory(GiB)": 77.59,
      "step": 100070,
      "token_acc": 0.9163987138263665,
      "train_speed(iter/s)": 1.460849
    },
    {
      "epoch": 4.287519814917956,
      "grad_norm": 4.247796535491943,
      "learning_rate": 4.926974682964536e-06,
      "loss": 0.6695891380310058,
      "memory(GiB)": 77.59,
      "step": 100075,
      "token_acc": 0.8742138364779874,
      "train_speed(iter/s)": 1.460862
    },
    {
      "epoch": 4.287734030247204,
      "grad_norm": 1.944679617881775,
      "learning_rate": 4.924062032541432e-06,
      "loss": 0.45705881118774416,
      "memory(GiB)": 77.59,
      "step": 100080,
      "token_acc": 0.909967845659164,
      "train_speed(iter/s)": 1.460875
    },
    {
      "epoch": 4.2879482455764535,
      "grad_norm": 2.034600019454956,
      "learning_rate": 4.921150198711217e-06,
      "loss": 0.41254096031188964,
      "memory(GiB)": 77.59,
      "step": 100085,
      "token_acc": 0.8959731543624161,
      "train_speed(iter/s)": 1.460878
    },
    {
      "epoch": 4.288162460905703,
      "grad_norm": 0.2476711869239807,
      "learning_rate": 4.9182391815266685e-06,
      "loss": 0.16849662065505983,
      "memory(GiB)": 77.59,
      "step": 100090,
      "token_acc": 0.9529411764705882,
      "train_speed(iter/s)": 1.460881
    },
    {
      "epoch": 4.288376676234951,
      "grad_norm": 5.541838645935059,
      "learning_rate": 4.915328981040501e-06,
      "loss": 0.3789521217346191,
      "memory(GiB)": 77.59,
      "step": 100095,
      "token_acc": 0.9010989010989011,
      "train_speed(iter/s)": 1.460884
    },
    {
      "epoch": 4.2885908915642,
      "grad_norm": 2.4886715412139893,
      "learning_rate": 4.912419597305446e-06,
      "loss": 0.2655519485473633,
      "memory(GiB)": 77.59,
      "step": 100100,
      "token_acc": 0.9382239382239382,
      "train_speed(iter/s)": 1.460887
    },
    {
      "epoch": 4.28880510689345,
      "grad_norm": 3.3030171394348145,
      "learning_rate": 4.909511030374209e-06,
      "loss": 0.3263232231140137,
      "memory(GiB)": 77.59,
      "step": 100105,
      "token_acc": 0.927710843373494,
      "train_speed(iter/s)": 1.460893
    },
    {
      "epoch": 4.289019322222698,
      "grad_norm": 2.6854236125946045,
      "learning_rate": 4.906603280299471e-06,
      "loss": 0.31942975521087646,
      "memory(GiB)": 77.59,
      "step": 100110,
      "token_acc": 0.9416058394160584,
      "train_speed(iter/s)": 1.460893
    },
    {
      "epoch": 4.289233537551947,
      "grad_norm": 2.6993539333343506,
      "learning_rate": 4.903696347133912e-06,
      "loss": 0.48531789779663087,
      "memory(GiB)": 77.59,
      "step": 100115,
      "token_acc": 0.8847583643122676,
      "train_speed(iter/s)": 1.460897
    },
    {
      "epoch": 4.2894477528811965,
      "grad_norm": 1.5316118001937866,
      "learning_rate": 4.900790230930191e-06,
      "loss": 0.3654092073440552,
      "memory(GiB)": 77.59,
      "step": 100120,
      "token_acc": 0.9140893470790378,
      "train_speed(iter/s)": 1.460899
    },
    {
      "epoch": 4.289661968210445,
      "grad_norm": 3.4267735481262207,
      "learning_rate": 4.897884931740976e-06,
      "loss": 0.21299281120300292,
      "memory(GiB)": 77.59,
      "step": 100125,
      "token_acc": 0.953405017921147,
      "train_speed(iter/s)": 1.460911
    },
    {
      "epoch": 4.289876183539694,
      "grad_norm": 4.386176109313965,
      "learning_rate": 4.894980449618886e-06,
      "loss": 0.39452438354492186,
      "memory(GiB)": 77.59,
      "step": 100130,
      "token_acc": 0.9083333333333333,
      "train_speed(iter/s)": 1.46091
    },
    {
      "epoch": 4.290090398868943,
      "grad_norm": 3.480156421661377,
      "learning_rate": 4.892076784616534e-06,
      "loss": 0.48459672927856445,
      "memory(GiB)": 77.59,
      "step": 100135,
      "token_acc": 0.9023668639053254,
      "train_speed(iter/s)": 1.460907
    },
    {
      "epoch": 4.290304614198192,
      "grad_norm": 4.2883992195129395,
      "learning_rate": 4.889173936786523e-06,
      "loss": 0.6254446983337403,
      "memory(GiB)": 77.59,
      "step": 100140,
      "token_acc": 0.8545454545454545,
      "train_speed(iter/s)": 1.460904
    },
    {
      "epoch": 4.290518829527441,
      "grad_norm": 4.111508369445801,
      "learning_rate": 4.886271906181439e-06,
      "loss": 0.4770817756652832,
      "memory(GiB)": 77.59,
      "step": 100145,
      "token_acc": 0.9134615384615384,
      "train_speed(iter/s)": 1.460904
    },
    {
      "epoch": 4.29073304485669,
      "grad_norm": 2.442129373550415,
      "learning_rate": 4.883370692853867e-06,
      "loss": 0.22514491081237792,
      "memory(GiB)": 77.59,
      "step": 100150,
      "token_acc": 0.9530201342281879,
      "train_speed(iter/s)": 1.46091
    },
    {
      "epoch": 4.290947260185939,
      "grad_norm": 2.753054141998291,
      "learning_rate": 4.8804702968563596e-06,
      "loss": 0.40351228713989257,
      "memory(GiB)": 77.59,
      "step": 100155,
      "token_acc": 0.9096774193548387,
      "train_speed(iter/s)": 1.460913
    },
    {
      "epoch": 4.291161475515188,
      "grad_norm": 4.4658403396606445,
      "learning_rate": 4.877570718241453e-06,
      "loss": 0.6003690719604492,
      "memory(GiB)": 77.59,
      "step": 100160,
      "token_acc": 0.8709677419354839,
      "train_speed(iter/s)": 1.460909
    },
    {
      "epoch": 4.291375690844437,
      "grad_norm": 2.6378333568573,
      "learning_rate": 4.8746719570616885e-06,
      "loss": 0.45105586051940916,
      "memory(GiB)": 77.59,
      "step": 100165,
      "token_acc": 0.9180327868852459,
      "train_speed(iter/s)": 1.460921
    },
    {
      "epoch": 4.2915899061736855,
      "grad_norm": 4.915841579437256,
      "learning_rate": 4.871774013369556e-06,
      "loss": 0.5028673648834229,
      "memory(GiB)": 77.59,
      "step": 100170,
      "token_acc": 0.8820960698689956,
      "train_speed(iter/s)": 1.460923
    },
    {
      "epoch": 4.291804121502935,
      "grad_norm": 2.936469793319702,
      "learning_rate": 4.868876887217583e-06,
      "loss": 0.27214741706848145,
      "memory(GiB)": 77.59,
      "step": 100175,
      "token_acc": 0.9314641744548287,
      "train_speed(iter/s)": 1.460929
    },
    {
      "epoch": 4.292018336832184,
      "grad_norm": 6.31168794631958,
      "learning_rate": 4.865980578658241e-06,
      "loss": 0.6998337745666504,
      "memory(GiB)": 77.59,
      "step": 100180,
      "token_acc": 0.84,
      "train_speed(iter/s)": 1.460955
    },
    {
      "epoch": 4.292232552161432,
      "grad_norm": 3.2774226665496826,
      "learning_rate": 4.8630850877440014e-06,
      "loss": 0.3347806930541992,
      "memory(GiB)": 77.59,
      "step": 100185,
      "token_acc": 0.9278688524590164,
      "train_speed(iter/s)": 1.460962
    },
    {
      "epoch": 4.292446767490682,
      "grad_norm": 3.6247949600219727,
      "learning_rate": 4.86019041452731e-06,
      "loss": 0.27015373706817625,
      "memory(GiB)": 77.59,
      "step": 100190,
      "token_acc": 0.9540636042402827,
      "train_speed(iter/s)": 1.460965
    },
    {
      "epoch": 4.292660982819931,
      "grad_norm": 0.5919560790061951,
      "learning_rate": 4.8572965590606204e-06,
      "loss": 0.03601826429367065,
      "memory(GiB)": 77.59,
      "step": 100195,
      "token_acc": 0.9960159362549801,
      "train_speed(iter/s)": 1.460975
    },
    {
      "epoch": 4.292875198149179,
      "grad_norm": 3.5056095123291016,
      "learning_rate": 4.8544035213963505e-06,
      "loss": 0.1994800329208374,
      "memory(GiB)": 77.59,
      "step": 100200,
      "token_acc": 0.9590443686006825,
      "train_speed(iter/s)": 1.460976
    },
    {
      "epoch": 4.2930894134784285,
      "grad_norm": 4.301004886627197,
      "learning_rate": 4.851511301586903e-06,
      "loss": 0.29860472679138184,
      "memory(GiB)": 77.59,
      "step": 100205,
      "token_acc": 0.9191489361702128,
      "train_speed(iter/s)": 1.460979
    },
    {
      "epoch": 4.293303628807678,
      "grad_norm": 3.1022350788116455,
      "learning_rate": 4.848619899684686e-06,
      "loss": 0.3912771224975586,
      "memory(GiB)": 77.59,
      "step": 100210,
      "token_acc": 0.91,
      "train_speed(iter/s)": 1.460983
    },
    {
      "epoch": 4.293517844136926,
      "grad_norm": 6.505673408508301,
      "learning_rate": 4.845729315742081e-06,
      "loss": 0.6483358383178711,
      "memory(GiB)": 77.59,
      "step": 100215,
      "token_acc": 0.8586206896551725,
      "train_speed(iter/s)": 1.460986
    },
    {
      "epoch": 4.293732059466175,
      "grad_norm": 0.7988331317901611,
      "learning_rate": 4.8428395498114455e-06,
      "loss": 0.2527296781539917,
      "memory(GiB)": 77.59,
      "step": 100220,
      "token_acc": 0.9207547169811321,
      "train_speed(iter/s)": 1.460986
    },
    {
      "epoch": 4.293946274795425,
      "grad_norm": 4.438408851623535,
      "learning_rate": 4.839950601945131e-06,
      "loss": 0.290722918510437,
      "memory(GiB)": 77.59,
      "step": 100225,
      "token_acc": 0.9338235294117647,
      "train_speed(iter/s)": 1.460986
    },
    {
      "epoch": 4.294160490124673,
      "grad_norm": 4.109919548034668,
      "learning_rate": 4.837062472195469e-06,
      "loss": 0.6590603351593017,
      "memory(GiB)": 77.59,
      "step": 100230,
      "token_acc": 0.8735294117647059,
      "train_speed(iter/s)": 1.460995
    },
    {
      "epoch": 4.294374705453922,
      "grad_norm": 0.018743207678198814,
      "learning_rate": 4.83417516061479e-06,
      "loss": 0.11493091583251953,
      "memory(GiB)": 77.59,
      "step": 100235,
      "token_acc": 0.9797297297297297,
      "train_speed(iter/s)": 1.460996
    },
    {
      "epoch": 4.294588920783172,
      "grad_norm": 3.5401644706726074,
      "learning_rate": 4.831288667255401e-06,
      "loss": 0.5309223175048828,
      "memory(GiB)": 77.59,
      "step": 100240,
      "token_acc": 0.9003831417624522,
      "train_speed(iter/s)": 1.461005
    },
    {
      "epoch": 4.29480313611242,
      "grad_norm": 1.3376479148864746,
      "learning_rate": 4.82840299216959e-06,
      "loss": 0.26873929500579835,
      "memory(GiB)": 77.59,
      "step": 100245,
      "token_acc": 0.9259259259259259,
      "train_speed(iter/s)": 1.461016
    },
    {
      "epoch": 4.295017351441669,
      "grad_norm": 2.6709330081939697,
      "learning_rate": 4.8255181354096345e-06,
      "loss": 0.18372204303741455,
      "memory(GiB)": 77.59,
      "step": 100250,
      "token_acc": 0.9458483754512635,
      "train_speed(iter/s)": 1.46102
    },
    {
      "epoch": 4.295231566770918,
      "grad_norm": 4.941420555114746,
      "learning_rate": 4.822634097027789e-06,
      "loss": 0.6161649703979493,
      "memory(GiB)": 77.59,
      "step": 100255,
      "token_acc": 0.8692579505300353,
      "train_speed(iter/s)": 1.461027
    },
    {
      "epoch": 4.295445782100167,
      "grad_norm": 1.404225468635559,
      "learning_rate": 4.819750877076301e-06,
      "loss": 0.22935953140258789,
      "memory(GiB)": 77.59,
      "step": 100260,
      "token_acc": 0.9344827586206896,
      "train_speed(iter/s)": 1.461034
    },
    {
      "epoch": 4.295659997429416,
      "grad_norm": 2.388123035430908,
      "learning_rate": 4.816868475607411e-06,
      "loss": 0.2507441997528076,
      "memory(GiB)": 77.59,
      "step": 100265,
      "token_acc": 0.9506172839506173,
      "train_speed(iter/s)": 1.461047
    },
    {
      "epoch": 4.295874212758665,
      "grad_norm": 0.06864850223064423,
      "learning_rate": 4.813986892673339e-06,
      "loss": 0.4565541744232178,
      "memory(GiB)": 77.59,
      "step": 100270,
      "token_acc": 0.9154929577464789,
      "train_speed(iter/s)": 1.46105
    },
    {
      "epoch": 4.296088428087914,
      "grad_norm": 1.9201817512512207,
      "learning_rate": 4.811106128326281e-06,
      "loss": 0.3399663925170898,
      "memory(GiB)": 77.59,
      "step": 100275,
      "token_acc": 0.9135338345864662,
      "train_speed(iter/s)": 1.461058
    },
    {
      "epoch": 4.296302643417163,
      "grad_norm": 2.032546043395996,
      "learning_rate": 4.808226182618431e-06,
      "loss": 0.22009963989257814,
      "memory(GiB)": 77.59,
      "step": 100280,
      "token_acc": 0.9246575342465754,
      "train_speed(iter/s)": 1.46107
    },
    {
      "epoch": 4.296516858746412,
      "grad_norm": 0.2158326804637909,
      "learning_rate": 4.8053470556019555e-06,
      "loss": 0.2941922664642334,
      "memory(GiB)": 77.59,
      "step": 100285,
      "token_acc": 0.9418604651162791,
      "train_speed(iter/s)": 1.461069
    },
    {
      "epoch": 4.296731074075661,
      "grad_norm": 4.1693034172058105,
      "learning_rate": 4.802468747329003e-06,
      "loss": 0.3276723861694336,
      "memory(GiB)": 77.59,
      "step": 100290,
      "token_acc": 0.9206349206349206,
      "train_speed(iter/s)": 1.461089
    },
    {
      "epoch": 4.29694528940491,
      "grad_norm": 4.073807239532471,
      "learning_rate": 4.799591257851738e-06,
      "loss": 0.41713504791259765,
      "memory(GiB)": 77.59,
      "step": 100295,
      "token_acc": 0.9204545454545454,
      "train_speed(iter/s)": 1.46109
    },
    {
      "epoch": 4.297159504734159,
      "grad_norm": 2.8388915061950684,
      "learning_rate": 4.796714587222278e-06,
      "loss": 0.4311513900756836,
      "memory(GiB)": 77.59,
      "step": 100300,
      "token_acc": 0.9209726443768997,
      "train_speed(iter/s)": 1.461092
    },
    {
      "epoch": 4.2973737200634075,
      "grad_norm": 2.019962787628174,
      "learning_rate": 4.7938387354927396e-06,
      "loss": 0.33185243606567383,
      "memory(GiB)": 77.59,
      "step": 100305,
      "token_acc": 0.8989169675090253,
      "train_speed(iter/s)": 1.461102
    },
    {
      "epoch": 4.297587935392657,
      "grad_norm": 6.960842609405518,
      "learning_rate": 4.790963702715218e-06,
      "loss": 0.47779226303100586,
      "memory(GiB)": 77.59,
      "step": 100310,
      "token_acc": 0.906896551724138,
      "train_speed(iter/s)": 1.461104
    },
    {
      "epoch": 4.297802150721906,
      "grad_norm": 3.614431142807007,
      "learning_rate": 4.788089488941788e-06,
      "loss": 0.4054481029510498,
      "memory(GiB)": 77.59,
      "step": 100315,
      "token_acc": 0.9166666666666666,
      "train_speed(iter/s)": 1.461115
    },
    {
      "epoch": 4.298016366051154,
      "grad_norm": 3.4085071086883545,
      "learning_rate": 4.785216094224543e-06,
      "loss": 0.3685122489929199,
      "memory(GiB)": 77.59,
      "step": 100320,
      "token_acc": 0.9238754325259516,
      "train_speed(iter/s)": 1.461116
    },
    {
      "epoch": 4.298230581380404,
      "grad_norm": 4.252023220062256,
      "learning_rate": 4.782343518615517e-06,
      "loss": 0.2873069763183594,
      "memory(GiB)": 77.59,
      "step": 100325,
      "token_acc": 0.943609022556391,
      "train_speed(iter/s)": 1.46112
    },
    {
      "epoch": 4.298444796709653,
      "grad_norm": 0.23780351877212524,
      "learning_rate": 4.779471762166759e-06,
      "loss": 0.31420202255249025,
      "memory(GiB)": 77.59,
      "step": 100330,
      "token_acc": 0.9233226837060703,
      "train_speed(iter/s)": 1.46112
    },
    {
      "epoch": 4.298659012038901,
      "grad_norm": 1.2410835027694702,
      "learning_rate": 4.776600824930283e-06,
      "loss": 0.3056577444076538,
      "memory(GiB)": 77.59,
      "step": 100335,
      "token_acc": 0.91,
      "train_speed(iter/s)": 1.461129
    },
    {
      "epoch": 4.2988732273681505,
      "grad_norm": 0.6102287769317627,
      "learning_rate": 4.773730706958113e-06,
      "loss": 0.2771978616714478,
      "memory(GiB)": 77.59,
      "step": 100340,
      "token_acc": 0.9402985074626866,
      "train_speed(iter/s)": 1.46113
    },
    {
      "epoch": 4.2990874426974,
      "grad_norm": 9.000707626342773,
      "learning_rate": 4.770861408302235e-06,
      "loss": 0.4045722007751465,
      "memory(GiB)": 77.59,
      "step": 100345,
      "token_acc": 0.8958333333333334,
      "train_speed(iter/s)": 1.46114
    },
    {
      "epoch": 4.299301658026648,
      "grad_norm": 2.857699155807495,
      "learning_rate": 4.767992929014625e-06,
      "loss": 0.24372999668121337,
      "memory(GiB)": 77.59,
      "step": 100350,
      "token_acc": 0.9415584415584416,
      "train_speed(iter/s)": 1.46114
    },
    {
      "epoch": 4.299515873355897,
      "grad_norm": 1.8933675289154053,
      "learning_rate": 4.765125269147264e-06,
      "loss": 0.39977226257324217,
      "memory(GiB)": 77.59,
      "step": 100355,
      "token_acc": 0.8977635782747604,
      "train_speed(iter/s)": 1.461151
    },
    {
      "epoch": 4.299730088685147,
      "grad_norm": 5.041592597961426,
      "learning_rate": 4.762258428752092e-06,
      "loss": 0.23574502468109132,
      "memory(GiB)": 77.59,
      "step": 100360,
      "token_acc": 0.9440298507462687,
      "train_speed(iter/s)": 1.461155
    },
    {
      "epoch": 4.299944304014395,
      "grad_norm": 0.2198748141527176,
      "learning_rate": 4.759392407881041e-06,
      "loss": 0.21856930255889892,
      "memory(GiB)": 77.59,
      "step": 100365,
      "token_acc": 0.9503311258278145,
      "train_speed(iter/s)": 1.461155
    },
    {
      "epoch": 4.300158519343644,
      "grad_norm": 4.356518745422363,
      "learning_rate": 4.756527206586037e-06,
      "loss": 0.2642316102981567,
      "memory(GiB)": 77.59,
      "step": 100370,
      "token_acc": 0.9379310344827586,
      "train_speed(iter/s)": 1.461171
    },
    {
      "epoch": 4.3003727346728935,
      "grad_norm": 3.028245210647583,
      "learning_rate": 4.7536628249189805e-06,
      "loss": 0.2689563751220703,
      "memory(GiB)": 77.59,
      "step": 100375,
      "token_acc": 0.9442379182156134,
      "train_speed(iter/s)": 1.461173
    },
    {
      "epoch": 4.300586950002142,
      "grad_norm": 2.2201085090637207,
      "learning_rate": 4.750799262931771e-06,
      "loss": 0.09055392742156983,
      "memory(GiB)": 77.59,
      "step": 100380,
      "token_acc": 0.9705882352941176,
      "train_speed(iter/s)": 1.461175
    },
    {
      "epoch": 4.300801165331391,
      "grad_norm": 1.9024966955184937,
      "learning_rate": 4.747936520676277e-06,
      "loss": 0.22392992973327636,
      "memory(GiB)": 77.59,
      "step": 100385,
      "token_acc": 0.9363636363636364,
      "train_speed(iter/s)": 1.461182
    },
    {
      "epoch": 4.30101538066064,
      "grad_norm": 3.1653530597686768,
      "learning_rate": 4.745074598204369e-06,
      "loss": 0.4649835109710693,
      "memory(GiB)": 77.59,
      "step": 100390,
      "token_acc": 0.8981132075471698,
      "train_speed(iter/s)": 1.461184
    },
    {
      "epoch": 4.301229595989889,
      "grad_norm": 1.671795129776001,
      "learning_rate": 4.742213495567882e-06,
      "loss": 0.18340083360671997,
      "memory(GiB)": 77.59,
      "step": 100395,
      "token_acc": 0.9597069597069597,
      "train_speed(iter/s)": 1.461187
    },
    {
      "epoch": 4.301443811319138,
      "grad_norm": 3.554013252258301,
      "learning_rate": 4.739353212818659e-06,
      "loss": 0.3920236587524414,
      "memory(GiB)": 77.59,
      "step": 100400,
      "token_acc": 0.9020979020979021,
      "train_speed(iter/s)": 1.46119
    },
    {
      "epoch": 4.301658026648387,
      "grad_norm": 4.788381576538086,
      "learning_rate": 4.736493750008497e-06,
      "loss": 0.4030032157897949,
      "memory(GiB)": 77.59,
      "step": 100405,
      "token_acc": 0.9116465863453815,
      "train_speed(iter/s)": 1.461193
    },
    {
      "epoch": 4.301872241977636,
      "grad_norm": 0.7231872081756592,
      "learning_rate": 4.7336351071892105e-06,
      "loss": 0.20106472969055175,
      "memory(GiB)": 77.59,
      "step": 100410,
      "token_acc": 0.966542750929368,
      "train_speed(iter/s)": 1.461205
    },
    {
      "epoch": 4.302086457306885,
      "grad_norm": 1.888725757598877,
      "learning_rate": 4.730777284412596e-06,
      "loss": 0.4521568775177002,
      "memory(GiB)": 77.59,
      "step": 100415,
      "token_acc": 0.9108635097493036,
      "train_speed(iter/s)": 1.461212
    },
    {
      "epoch": 4.302300672636134,
      "grad_norm": 2.604102611541748,
      "learning_rate": 4.727920281730425e-06,
      "loss": 0.3216772794723511,
      "memory(GiB)": 77.59,
      "step": 100420,
      "token_acc": 0.9420289855072463,
      "train_speed(iter/s)": 1.461217
    },
    {
      "epoch": 4.3025148879653825,
      "grad_norm": 1.7964081764221191,
      "learning_rate": 4.7250640991944375e-06,
      "loss": 0.2470013380050659,
      "memory(GiB)": 77.59,
      "step": 100425,
      "token_acc": 0.9425675675675675,
      "train_speed(iter/s)": 1.461216
    },
    {
      "epoch": 4.302729103294632,
      "grad_norm": 5.310136318206787,
      "learning_rate": 4.722208736856387e-06,
      "loss": 0.523933219909668,
      "memory(GiB)": 77.59,
      "step": 100430,
      "token_acc": 0.915057915057915,
      "train_speed(iter/s)": 1.461218
    },
    {
      "epoch": 4.302943318623881,
      "grad_norm": 0.33963480591773987,
      "learning_rate": 4.719354194767994e-06,
      "loss": 0.24396934509277343,
      "memory(GiB)": 77.59,
      "step": 100435,
      "token_acc": 0.9090909090909091,
      "train_speed(iter/s)": 1.461226
    },
    {
      "epoch": 4.303157533953129,
      "grad_norm": 3.827596426010132,
      "learning_rate": 4.716500472980983e-06,
      "loss": 0.2562158823013306,
      "memory(GiB)": 77.59,
      "step": 100440,
      "token_acc": 0.945054945054945,
      "train_speed(iter/s)": 1.461232
    },
    {
      "epoch": 4.303371749282379,
      "grad_norm": 5.252817630767822,
      "learning_rate": 4.713647571547048e-06,
      "loss": 0.4651162147521973,
      "memory(GiB)": 77.59,
      "step": 100445,
      "token_acc": 0.8903654485049833,
      "train_speed(iter/s)": 1.461236
    },
    {
      "epoch": 4.303585964611628,
      "grad_norm": 3.289031982421875,
      "learning_rate": 4.710795490517861e-06,
      "loss": 0.6308228492736816,
      "memory(GiB)": 77.59,
      "step": 100450,
      "token_acc": 0.8468468468468469,
      "train_speed(iter/s)": 1.461245
    },
    {
      "epoch": 4.303800179940876,
      "grad_norm": 4.205815315246582,
      "learning_rate": 4.707944229945105e-06,
      "loss": 0.4784702777862549,
      "memory(GiB)": 77.59,
      "step": 100455,
      "token_acc": 0.924187725631769,
      "train_speed(iter/s)": 1.461249
    },
    {
      "epoch": 4.3040143952701255,
      "grad_norm": 2.253157615661621,
      "learning_rate": 4.705093789880416e-06,
      "loss": 0.3500782012939453,
      "memory(GiB)": 77.59,
      "step": 100460,
      "token_acc": 0.9245283018867925,
      "train_speed(iter/s)": 1.461251
    },
    {
      "epoch": 4.304228610599375,
      "grad_norm": 3.9922096729278564,
      "learning_rate": 4.702244170375453e-06,
      "loss": 0.4313839912414551,
      "memory(GiB)": 77.59,
      "step": 100465,
      "token_acc": 0.9155405405405406,
      "train_speed(iter/s)": 1.461262
    },
    {
      "epoch": 4.304442825928623,
      "grad_norm": 2.539498805999756,
      "learning_rate": 4.699395371481829e-06,
      "loss": 0.26502768993377684,
      "memory(GiB)": 77.59,
      "step": 100470,
      "token_acc": 0.9387755102040817,
      "train_speed(iter/s)": 1.461265
    },
    {
      "epoch": 4.304657041257872,
      "grad_norm": 3.60587215423584,
      "learning_rate": 4.696547393251155e-06,
      "loss": 0.33789238929748533,
      "memory(GiB)": 77.59,
      "step": 100475,
      "token_acc": 0.9233128834355828,
      "train_speed(iter/s)": 1.461268
    },
    {
      "epoch": 4.304871256587122,
      "grad_norm": 1.1419280767440796,
      "learning_rate": 4.693700235735021e-06,
      "loss": 0.5283544540405274,
      "memory(GiB)": 77.59,
      "step": 100480,
      "token_acc": 0.8817891373801917,
      "train_speed(iter/s)": 1.461267
    },
    {
      "epoch": 4.30508547191637,
      "grad_norm": 4.242347240447998,
      "learning_rate": 4.690853898985004e-06,
      "loss": 0.40081019401550294,
      "memory(GiB)": 77.59,
      "step": 100485,
      "token_acc": 0.916955017301038,
      "train_speed(iter/s)": 1.461278
    },
    {
      "epoch": 4.305299687245619,
      "grad_norm": 1.0340981483459473,
      "learning_rate": 4.688008383052672e-06,
      "loss": 0.14282019138336183,
      "memory(GiB)": 77.59,
      "step": 100490,
      "token_acc": 0.9704797047970479,
      "train_speed(iter/s)": 1.461279
    },
    {
      "epoch": 4.3055139025748685,
      "grad_norm": 2.7789015769958496,
      "learning_rate": 4.685163687989569e-06,
      "loss": 0.45093650817871095,
      "memory(GiB)": 77.59,
      "step": 100495,
      "token_acc": 0.8996655518394648,
      "train_speed(iter/s)": 1.461289
    },
    {
      "epoch": 4.305728117904117,
      "grad_norm": 3.376027822494507,
      "learning_rate": 4.682319813847247e-06,
      "loss": 0.408339786529541,
      "memory(GiB)": 77.59,
      "step": 100500,
      "token_acc": 0.8996655518394648,
      "train_speed(iter/s)": 1.461289
    },
    {
      "epoch": 4.305728117904117,
      "eval_loss": 2.4880826473236084,
      "eval_runtime": 11.5705,
      "eval_samples_per_second": 8.643,
      "eval_steps_per_second": 8.643,
      "eval_token_acc": 0.45092460881934565,
      "step": 100500
    },
    {
      "epoch": 4.305942333233366,
      "grad_norm": 2.458803653717041,
      "learning_rate": 4.679476760677209e-06,
      "loss": 0.5391776084899902,
      "memory(GiB)": 77.59,
      "step": 100505,
      "token_acc": 0.5770392749244713,
      "train_speed(iter/s)": 1.461034
    },
    {
      "epoch": 4.306156548562615,
      "grad_norm": 3.0457122325897217,
      "learning_rate": 4.676634528530965e-06,
      "loss": 0.29138336181640623,
      "memory(GiB)": 77.59,
      "step": 100510,
      "token_acc": 0.9423076923076923,
      "train_speed(iter/s)": 1.461035
    },
    {
      "epoch": 4.306370763891864,
      "grad_norm": 4.480109214782715,
      "learning_rate": 4.673793117460007e-06,
      "loss": 0.38513622283935545,
      "memory(GiB)": 77.59,
      "step": 100515,
      "token_acc": 0.9193548387096774,
      "train_speed(iter/s)": 1.46104
    },
    {
      "epoch": 4.306584979221113,
      "grad_norm": 2.2003836631774902,
      "learning_rate": 4.670952527515793e-06,
      "loss": 0.14810459613800048,
      "memory(GiB)": 77.59,
      "step": 100520,
      "token_acc": 0.9689265536723164,
      "train_speed(iter/s)": 1.461045
    },
    {
      "epoch": 4.306799194550362,
      "grad_norm": 2.0506532192230225,
      "learning_rate": 4.668112758749804e-06,
      "loss": 0.2755594730377197,
      "memory(GiB)": 77.59,
      "step": 100525,
      "token_acc": 0.9562043795620438,
      "train_speed(iter/s)": 1.46105
    },
    {
      "epoch": 4.307013409879611,
      "grad_norm": 2.137821912765503,
      "learning_rate": 4.665273811213478e-06,
      "loss": 0.2759788990020752,
      "memory(GiB)": 77.59,
      "step": 100530,
      "token_acc": 0.945054945054945,
      "train_speed(iter/s)": 1.461056
    },
    {
      "epoch": 4.30722762520886,
      "grad_norm": 6.978790760040283,
      "learning_rate": 4.662435684958244e-06,
      "loss": 0.6287755489349365,
      "memory(GiB)": 77.59,
      "step": 100535,
      "token_acc": 0.8864468864468864,
      "train_speed(iter/s)": 1.461056
    },
    {
      "epoch": 4.307441840538109,
      "grad_norm": 2.7239739894866943,
      "learning_rate": 4.659598380035518e-06,
      "loss": 0.2537358522415161,
      "memory(GiB)": 77.59,
      "step": 100540,
      "token_acc": 0.9216417910447762,
      "train_speed(iter/s)": 1.461058
    },
    {
      "epoch": 4.307656055867358,
      "grad_norm": 6.027720928192139,
      "learning_rate": 4.656761896496703e-06,
      "loss": 0.6760228157043457,
      "memory(GiB)": 77.59,
      "step": 100545,
      "token_acc": 0.8645833333333334,
      "train_speed(iter/s)": 1.461056
    },
    {
      "epoch": 4.307870271196607,
      "grad_norm": 2.018143653869629,
      "learning_rate": 4.653926234393169e-06,
      "loss": 0.1510690450668335,
      "memory(GiB)": 77.59,
      "step": 100550,
      "token_acc": 0.9682539682539683,
      "train_speed(iter/s)": 1.461059
    },
    {
      "epoch": 4.308084486525856,
      "grad_norm": 4.950108051300049,
      "learning_rate": 4.651091393776308e-06,
      "loss": 0.3131261348724365,
      "memory(GiB)": 77.59,
      "step": 100555,
      "token_acc": 0.9315589353612167,
      "train_speed(iter/s)": 1.461065
    },
    {
      "epoch": 4.308298701855104,
      "grad_norm": 0.2865028977394104,
      "learning_rate": 4.648257374697462e-06,
      "loss": 0.2355654239654541,
      "memory(GiB)": 77.59,
      "step": 100560,
      "token_acc": 0.9366666666666666,
      "train_speed(iter/s)": 1.461071
    },
    {
      "epoch": 4.308512917184354,
      "grad_norm": 1.1695367097854614,
      "learning_rate": 4.645424177207985e-06,
      "loss": 0.34927024841308596,
      "memory(GiB)": 77.59,
      "step": 100565,
      "token_acc": 0.919093851132686,
      "train_speed(iter/s)": 1.461075
    },
    {
      "epoch": 4.308727132513603,
      "grad_norm": 4.2099714279174805,
      "learning_rate": 4.6425918013591916e-06,
      "loss": 0.3285334825515747,
      "memory(GiB)": 77.59,
      "step": 100570,
      "token_acc": 0.9395017793594306,
      "train_speed(iter/s)": 1.461078
    },
    {
      "epoch": 4.308941347842851,
      "grad_norm": 4.817563056945801,
      "learning_rate": 4.639760247202396e-06,
      "loss": 0.3963630676269531,
      "memory(GiB)": 77.59,
      "step": 100575,
      "token_acc": 0.8932384341637011,
      "train_speed(iter/s)": 1.461092
    },
    {
      "epoch": 4.309155563172101,
      "grad_norm": 2.385380983352661,
      "learning_rate": 4.636929514788891e-06,
      "loss": 0.3321181058883667,
      "memory(GiB)": 77.59,
      "step": 100580,
      "token_acc": 0.9340659340659341,
      "train_speed(iter/s)": 1.461094
    },
    {
      "epoch": 4.30936977850135,
      "grad_norm": 2.03545880317688,
      "learning_rate": 4.6340996041699665e-06,
      "loss": 0.33314459323883056,
      "memory(GiB)": 77.59,
      "step": 100585,
      "token_acc": 0.9363057324840764,
      "train_speed(iter/s)": 1.461106
    },
    {
      "epoch": 4.309583993830598,
      "grad_norm": 4.064988136291504,
      "learning_rate": 4.631270515396891e-06,
      "loss": 0.3984776258468628,
      "memory(GiB)": 77.59,
      "step": 100590,
      "token_acc": 0.925,
      "train_speed(iter/s)": 1.461104
    },
    {
      "epoch": 4.3097982091598475,
      "grad_norm": 2.524524688720703,
      "learning_rate": 4.628442248520904e-06,
      "loss": 0.2597846508026123,
      "memory(GiB)": 77.59,
      "step": 100595,
      "token_acc": 0.9328859060402684,
      "train_speed(iter/s)": 1.461105
    },
    {
      "epoch": 4.310012424489097,
      "grad_norm": 4.012593746185303,
      "learning_rate": 4.625614803593248e-06,
      "loss": 0.45181427001953123,
      "memory(GiB)": 77.59,
      "step": 100600,
      "token_acc": 0.8938356164383562,
      "train_speed(iter/s)": 1.461105
    },
    {
      "epoch": 4.310226639818345,
      "grad_norm": 3.522904872894287,
      "learning_rate": 4.622788180665133e-06,
      "loss": 0.4781993865966797,
      "memory(GiB)": 77.59,
      "step": 100605,
      "token_acc": 0.9351535836177475,
      "train_speed(iter/s)": 1.461113
    },
    {
      "epoch": 4.310440855147594,
      "grad_norm": 5.8968377113342285,
      "learning_rate": 4.61996237978779e-06,
      "loss": 0.14647285938262938,
      "memory(GiB)": 77.59,
      "step": 100610,
      "token_acc": 0.9656488549618321,
      "train_speed(iter/s)": 1.46111
    },
    {
      "epoch": 4.310655070476844,
      "grad_norm": 2.569706439971924,
      "learning_rate": 4.6171374010123945e-06,
      "loss": 0.49536700248718263,
      "memory(GiB)": 77.59,
      "step": 100615,
      "token_acc": 0.896969696969697,
      "train_speed(iter/s)": 1.461113
    },
    {
      "epoch": 4.310869285806092,
      "grad_norm": 2.083752393722534,
      "learning_rate": 4.614313244390133e-06,
      "loss": 0.24295647144317628,
      "memory(GiB)": 77.59,
      "step": 100620,
      "token_acc": 0.9418181818181818,
      "train_speed(iter/s)": 1.461117
    },
    {
      "epoch": 4.311083501135341,
      "grad_norm": 3.7356550693511963,
      "learning_rate": 4.611489909972161e-06,
      "loss": 0.25446391105651855,
      "memory(GiB)": 77.59,
      "step": 100625,
      "token_acc": 0.9446494464944649,
      "train_speed(iter/s)": 1.46112
    },
    {
      "epoch": 4.3112977164645905,
      "grad_norm": 1.9047225713729858,
      "learning_rate": 4.6086673978096125e-06,
      "loss": 0.35773801803588867,
      "memory(GiB)": 77.59,
      "step": 100630,
      "token_acc": 0.9368421052631579,
      "train_speed(iter/s)": 1.461122
    },
    {
      "epoch": 4.311511931793839,
      "grad_norm": 1.7162189483642578,
      "learning_rate": 4.605845707953649e-06,
      "loss": 0.5305943012237548,
      "memory(GiB)": 77.59,
      "step": 100635,
      "token_acc": 0.9135338345864662,
      "train_speed(iter/s)": 1.461135
    },
    {
      "epoch": 4.311726147123088,
      "grad_norm": 3.109921455383301,
      "learning_rate": 4.603024840455367e-06,
      "loss": 0.6071090698242188,
      "memory(GiB)": 77.59,
      "step": 100640,
      "token_acc": 0.8725490196078431,
      "train_speed(iter/s)": 1.461142
    },
    {
      "epoch": 4.311940362452337,
      "grad_norm": 1.615151047706604,
      "learning_rate": 4.600204795365881e-06,
      "loss": 0.3243889331817627,
      "memory(GiB)": 77.59,
      "step": 100645,
      "token_acc": 0.9311377245508982,
      "train_speed(iter/s)": 1.461146
    },
    {
      "epoch": 4.312154577781586,
      "grad_norm": 1.6289187669754028,
      "learning_rate": 4.597385572736273e-06,
      "loss": 0.23530447483062744,
      "memory(GiB)": 77.59,
      "step": 100650,
      "token_acc": 0.9321428571428572,
      "train_speed(iter/s)": 1.461146
    },
    {
      "epoch": 4.312368793110835,
      "grad_norm": 3.0427262783050537,
      "learning_rate": 4.59456717261762e-06,
      "loss": 0.2984498977661133,
      "memory(GiB)": 77.59,
      "step": 100655,
      "token_acc": 0.9370860927152318,
      "train_speed(iter/s)": 1.461152
    },
    {
      "epoch": 4.312583008440084,
      "grad_norm": 1.813575267791748,
      "learning_rate": 4.591749595060974e-06,
      "loss": 0.22679240703582765,
      "memory(GiB)": 77.59,
      "step": 100660,
      "token_acc": 0.9715189873417721,
      "train_speed(iter/s)": 1.461156
    },
    {
      "epoch": 4.312797223769333,
      "grad_norm": 2.778456926345825,
      "learning_rate": 4.588932840117366e-06,
      "loss": 0.19686053991317748,
      "memory(GiB)": 77.59,
      "step": 100665,
      "token_acc": 0.9451612903225807,
      "train_speed(iter/s)": 1.46116
    },
    {
      "epoch": 4.313011439098582,
      "grad_norm": 3.577562093734741,
      "learning_rate": 4.586116907837857e-06,
      "loss": 0.3107320785522461,
      "memory(GiB)": 77.59,
      "step": 100670,
      "token_acc": 0.9384057971014492,
      "train_speed(iter/s)": 1.46116
    },
    {
      "epoch": 4.313225654427831,
      "grad_norm": 1.653132438659668,
      "learning_rate": 4.583301798273437e-06,
      "loss": 0.1895901918411255,
      "memory(GiB)": 77.59,
      "step": 100675,
      "token_acc": 0.9554794520547946,
      "train_speed(iter/s)": 1.461163
    },
    {
      "epoch": 4.3134398697570795,
      "grad_norm": 2.4563610553741455,
      "learning_rate": 4.580487511475112e-06,
      "loss": 0.14462391138076783,
      "memory(GiB)": 77.59,
      "step": 100680,
      "token_acc": 0.9570552147239264,
      "train_speed(iter/s)": 1.461166
    },
    {
      "epoch": 4.313654085086329,
      "grad_norm": 3.678021192550659,
      "learning_rate": 4.577674047493857e-06,
      "loss": 0.4390141010284424,
      "memory(GiB)": 77.59,
      "step": 100685,
      "token_acc": 0.9153225806451613,
      "train_speed(iter/s)": 1.461167
    },
    {
      "epoch": 4.313868300415578,
      "grad_norm": 3.23001766204834,
      "learning_rate": 4.574861406380654e-06,
      "loss": 0.35112462043762205,
      "memory(GiB)": 77.59,
      "step": 100690,
      "token_acc": 0.9355932203389831,
      "train_speed(iter/s)": 1.461172
    },
    {
      "epoch": 4.314082515744826,
      "grad_norm": 3.361239433288574,
      "learning_rate": 4.572049588186433e-06,
      "loss": 0.35380139350891116,
      "memory(GiB)": 77.59,
      "step": 100695,
      "token_acc": 0.921875,
      "train_speed(iter/s)": 1.461184
    },
    {
      "epoch": 4.314296731074076,
      "grad_norm": 3.0594863891601562,
      "learning_rate": 4.5692385929621604e-06,
      "loss": 0.28484060764312746,
      "memory(GiB)": 77.59,
      "step": 100700,
      "token_acc": 0.9418960244648318,
      "train_speed(iter/s)": 1.461189
    },
    {
      "epoch": 4.314510946403325,
      "grad_norm": 1.7511886358261108,
      "learning_rate": 4.566428420758739e-06,
      "loss": 0.24542388916015626,
      "memory(GiB)": 77.59,
      "step": 100705,
      "token_acc": 0.9442815249266863,
      "train_speed(iter/s)": 1.46119
    },
    {
      "epoch": 4.314725161732573,
      "grad_norm": 3.386218547821045,
      "learning_rate": 4.563619071627096e-06,
      "loss": 0.4286513328552246,
      "memory(GiB)": 77.59,
      "step": 100710,
      "token_acc": 0.9213836477987422,
      "train_speed(iter/s)": 1.461191
    },
    {
      "epoch": 4.3149393770618225,
      "grad_norm": 1.4254324436187744,
      "learning_rate": 4.560810545618116e-06,
      "loss": 0.4372988224029541,
      "memory(GiB)": 77.59,
      "step": 100715,
      "token_acc": 0.9368029739776952,
      "train_speed(iter/s)": 1.461196
    },
    {
      "epoch": 4.315153592391072,
      "grad_norm": 0.027389120310544968,
      "learning_rate": 4.558002842782677e-06,
      "loss": 0.24805657863616942,
      "memory(GiB)": 77.59,
      "step": 100720,
      "token_acc": 0.9479553903345725,
      "train_speed(iter/s)": 1.461198
    },
    {
      "epoch": 4.31536780772032,
      "grad_norm": 1.221103549003601,
      "learning_rate": 4.5551959631716376e-06,
      "loss": 0.3351656436920166,
      "memory(GiB)": 77.59,
      "step": 100725,
      "token_acc": 0.9456521739130435,
      "train_speed(iter/s)": 1.461203
    },
    {
      "epoch": 4.315582023049569,
      "grad_norm": 3.8684873580932617,
      "learning_rate": 4.552389906835863e-06,
      "loss": 0.6937335014343262,
      "memory(GiB)": 77.59,
      "step": 100730,
      "token_acc": 0.8657718120805369,
      "train_speed(iter/s)": 1.461206
    },
    {
      "epoch": 4.315796238378819,
      "grad_norm": 2.663374185562134,
      "learning_rate": 4.549584673826179e-06,
      "loss": 0.38849873542785646,
      "memory(GiB)": 77.59,
      "step": 100735,
      "token_acc": 0.9153094462540716,
      "train_speed(iter/s)": 1.461213
    },
    {
      "epoch": 4.316010453708067,
      "grad_norm": 1.5251408815383911,
      "learning_rate": 4.546780264193406e-06,
      "loss": 0.14507675170898438,
      "memory(GiB)": 77.59,
      "step": 100740,
      "token_acc": 0.972809667673716,
      "train_speed(iter/s)": 1.461212
    },
    {
      "epoch": 4.316224669037316,
      "grad_norm": 2.2470109462738037,
      "learning_rate": 4.543976677988343e-06,
      "loss": 0.2901093244552612,
      "memory(GiB)": 77.59,
      "step": 100745,
      "token_acc": 0.9333333333333333,
      "train_speed(iter/s)": 1.461212
    },
    {
      "epoch": 4.3164388843665655,
      "grad_norm": 2.9538323879241943,
      "learning_rate": 4.541173915261776e-06,
      "loss": 0.4041624069213867,
      "memory(GiB)": 77.59,
      "step": 100750,
      "token_acc": 0.90625,
      "train_speed(iter/s)": 1.461215
    },
    {
      "epoch": 4.316653099695814,
      "grad_norm": 5.533748626708984,
      "learning_rate": 4.538371976064499e-06,
      "loss": 0.6741133689880371,
      "memory(GiB)": 77.59,
      "step": 100755,
      "token_acc": 0.8802816901408451,
      "train_speed(iter/s)": 1.461215
    },
    {
      "epoch": 4.316867315025063,
      "grad_norm": 3.660484552383423,
      "learning_rate": 4.535570860447258e-06,
      "loss": 0.29795782566070556,
      "memory(GiB)": 77.59,
      "step": 100760,
      "token_acc": 0.941747572815534,
      "train_speed(iter/s)": 1.46122
    },
    {
      "epoch": 4.317081530354312,
      "grad_norm": 5.526294708251953,
      "learning_rate": 4.532770568460798e-06,
      "loss": 0.496384859085083,
      "memory(GiB)": 77.59,
      "step": 100765,
      "token_acc": 0.9140893470790378,
      "train_speed(iter/s)": 1.461219
    },
    {
      "epoch": 4.317295745683561,
      "grad_norm": 2.201631784439087,
      "learning_rate": 4.529971100155855e-06,
      "loss": 0.5056455612182618,
      "memory(GiB)": 77.59,
      "step": 100770,
      "token_acc": 0.8878787878787879,
      "train_speed(iter/s)": 1.461239
    },
    {
      "epoch": 4.31750996101281,
      "grad_norm": 6.0772199630737305,
      "learning_rate": 4.52717245558314e-06,
      "loss": 0.3601662635803223,
      "memory(GiB)": 77.59,
      "step": 100775,
      "token_acc": 0.9222222222222223,
      "train_speed(iter/s)": 1.461242
    },
    {
      "epoch": 4.317724176342059,
      "grad_norm": 3.213275671005249,
      "learning_rate": 4.524374634793338e-06,
      "loss": 0.23218610286712646,
      "memory(GiB)": 77.59,
      "step": 100780,
      "token_acc": 0.9604863221884499,
      "train_speed(iter/s)": 1.461246
    },
    {
      "epoch": 4.317938391671308,
      "grad_norm": 11.824914932250977,
      "learning_rate": 4.521577637837154e-06,
      "loss": 0.2628467559814453,
      "memory(GiB)": 77.59,
      "step": 100785,
      "token_acc": 0.9452054794520548,
      "train_speed(iter/s)": 1.461268
    },
    {
      "epoch": 4.318152607000557,
      "grad_norm": 3.34602689743042,
      "learning_rate": 4.518781464765259e-06,
      "loss": 0.4136794567108154,
      "memory(GiB)": 77.59,
      "step": 100790,
      "token_acc": 0.9242902208201893,
      "train_speed(iter/s)": 1.461268
    },
    {
      "epoch": 4.318366822329806,
      "grad_norm": 2.5231573581695557,
      "learning_rate": 4.515986115628306e-06,
      "loss": 0.1548193097114563,
      "memory(GiB)": 77.59,
      "step": 100795,
      "token_acc": 0.9678571428571429,
      "train_speed(iter/s)": 1.46127
    },
    {
      "epoch": 4.3185810376590545,
      "grad_norm": 2.319842576980591,
      "learning_rate": 4.513191590476934e-06,
      "loss": 0.10340893268585205,
      "memory(GiB)": 77.59,
      "step": 100800,
      "token_acc": 0.9795221843003413,
      "train_speed(iter/s)": 1.461273
    },
    {
      "epoch": 4.318795252988304,
      "grad_norm": 4.0338134765625,
      "learning_rate": 4.510397889361761e-06,
      "loss": 0.32441067695617676,
      "memory(GiB)": 77.59,
      "step": 100805,
      "token_acc": 0.9325842696629213,
      "train_speed(iter/s)": 1.461276
    },
    {
      "epoch": 4.319009468317553,
      "grad_norm": 0.12153308838605881,
      "learning_rate": 4.507605012333394e-06,
      "loss": 0.18989487886428832,
      "memory(GiB)": 77.59,
      "step": 100810,
      "token_acc": 0.969811320754717,
      "train_speed(iter/s)": 1.461281
    },
    {
      "epoch": 4.319223683646801,
      "grad_norm": 3.710505723953247,
      "learning_rate": 4.504812959442451e-06,
      "loss": 0.3857694387435913,
      "memory(GiB)": 77.59,
      "step": 100815,
      "token_acc": 0.9090909090909091,
      "train_speed(iter/s)": 1.461291
    },
    {
      "epoch": 4.319437898976051,
      "grad_norm": 2.560133218765259,
      "learning_rate": 4.502021730739497e-06,
      "loss": 0.2843024492263794,
      "memory(GiB)": 77.59,
      "step": 100820,
      "token_acc": 0.9479553903345725,
      "train_speed(iter/s)": 1.461291
    },
    {
      "epoch": 4.3196521143053,
      "grad_norm": 2.2524871826171875,
      "learning_rate": 4.4992313262751e-06,
      "loss": 0.22841808795928956,
      "memory(GiB)": 77.59,
      "step": 100825,
      "token_acc": 0.9496402877697842,
      "train_speed(iter/s)": 1.461295
    },
    {
      "epoch": 4.319866329634548,
      "grad_norm": 3.7139511108398438,
      "learning_rate": 4.496441746099811e-06,
      "loss": 0.32918384075164797,
      "memory(GiB)": 77.59,
      "step": 100830,
      "token_acc": 0.9243421052631579,
      "train_speed(iter/s)": 1.461298
    },
    {
      "epoch": 4.320080544963798,
      "grad_norm": 1.4885276556015015,
      "learning_rate": 4.493652990264152e-06,
      "loss": 0.31391952037811277,
      "memory(GiB)": 77.59,
      "step": 100835,
      "token_acc": 0.9389067524115756,
      "train_speed(iter/s)": 1.461312
    },
    {
      "epoch": 4.320294760293047,
      "grad_norm": 1.9590120315551758,
      "learning_rate": 4.4908650588186715e-06,
      "loss": 0.5382940292358398,
      "memory(GiB)": 77.59,
      "step": 100840,
      "token_acc": 0.8912280701754386,
      "train_speed(iter/s)": 1.461321
    },
    {
      "epoch": 4.320508975622295,
      "grad_norm": 0.03482648730278015,
      "learning_rate": 4.488077951813863e-06,
      "loss": 0.5717967033386231,
      "memory(GiB)": 77.59,
      "step": 100845,
      "token_acc": 0.9,
      "train_speed(iter/s)": 1.461325
    },
    {
      "epoch": 4.3207231909515444,
      "grad_norm": 0.31409573554992676,
      "learning_rate": 4.4852916693002124e-06,
      "loss": 0.4753856658935547,
      "memory(GiB)": 77.59,
      "step": 100850,
      "token_acc": 0.8929765886287625,
      "train_speed(iter/s)": 1.461324
    },
    {
      "epoch": 4.320937406280794,
      "grad_norm": 1.6985585689544678,
      "learning_rate": 4.482506211328191e-06,
      "loss": 0.34358768463134765,
      "memory(GiB)": 77.59,
      "step": 100855,
      "token_acc": 0.9308943089430894,
      "train_speed(iter/s)": 1.461326
    },
    {
      "epoch": 4.321151621610042,
      "grad_norm": 3.444448232650757,
      "learning_rate": 4.479721577948276e-06,
      "loss": 0.32488360404968264,
      "memory(GiB)": 77.59,
      "step": 100860,
      "token_acc": 0.9433333333333334,
      "train_speed(iter/s)": 1.461331
    },
    {
      "epoch": 4.321365836939291,
      "grad_norm": 1.892751693725586,
      "learning_rate": 4.476937769210909e-06,
      "loss": 0.14936407804489135,
      "memory(GiB)": 77.59,
      "step": 100865,
      "token_acc": 0.9605263157894737,
      "train_speed(iter/s)": 1.46135
    },
    {
      "epoch": 4.321580052268541,
      "grad_norm": 3.02032732963562,
      "learning_rate": 4.474154785166506e-06,
      "loss": 0.24979963302612304,
      "memory(GiB)": 77.59,
      "step": 100870,
      "token_acc": 0.9320987654320988,
      "train_speed(iter/s)": 1.461354
    },
    {
      "epoch": 4.321794267597789,
      "grad_norm": 0.3116592764854431,
      "learning_rate": 4.471372625865511e-06,
      "loss": 0.5007205963134765,
      "memory(GiB)": 77.59,
      "step": 100875,
      "token_acc": 0.8959731543624161,
      "train_speed(iter/s)": 1.461361
    },
    {
      "epoch": 4.322008482927038,
      "grad_norm": 4.091840744018555,
      "learning_rate": 4.468591291358304e-06,
      "loss": 0.19928252696990967,
      "memory(GiB)": 77.59,
      "step": 100880,
      "token_acc": 0.9466666666666667,
      "train_speed(iter/s)": 1.461367
    },
    {
      "epoch": 4.3222226982562875,
      "grad_norm": 2.176557779312134,
      "learning_rate": 4.465810781695279e-06,
      "loss": 0.5900081157684326,
      "memory(GiB)": 77.59,
      "step": 100885,
      "token_acc": 0.8726114649681529,
      "train_speed(iter/s)": 1.461369
    },
    {
      "epoch": 4.322436913585536,
      "grad_norm": 1.7537301778793335,
      "learning_rate": 4.463031096926806e-06,
      "loss": 0.22035224437713624,
      "memory(GiB)": 77.59,
      "step": 100890,
      "token_acc": 0.948220064724919,
      "train_speed(iter/s)": 1.461371
    },
    {
      "epoch": 4.322651128914785,
      "grad_norm": 3.1231815814971924,
      "learning_rate": 4.460252237103235e-06,
      "loss": 0.22144043445587158,
      "memory(GiB)": 77.59,
      "step": 100895,
      "token_acc": 0.9320388349514563,
      "train_speed(iter/s)": 1.461372
    },
    {
      "epoch": 4.322865344244034,
      "grad_norm": 3.207777261734009,
      "learning_rate": 4.457474202274925e-06,
      "loss": 0.16970479488372803,
      "memory(GiB)": 77.59,
      "step": 100900,
      "token_acc": 0.9664179104477612,
      "train_speed(iter/s)": 1.461378
    },
    {
      "epoch": 4.323079559573283,
      "grad_norm": 3.84899640083313,
      "learning_rate": 4.454696992492185e-06,
      "loss": 0.5173405647277832,
      "memory(GiB)": 77.59,
      "step": 100905,
      "token_acc": 0.8754716981132076,
      "train_speed(iter/s)": 1.461385
    },
    {
      "epoch": 4.323293774902532,
      "grad_norm": 3.0358824729919434,
      "learning_rate": 4.451920607805343e-06,
      "loss": 0.19220938682556152,
      "memory(GiB)": 77.59,
      "step": 100910,
      "token_acc": 0.95,
      "train_speed(iter/s)": 1.461387
    },
    {
      "epoch": 4.323507990231781,
      "grad_norm": 3.6651713848114014,
      "learning_rate": 4.44914504826468e-06,
      "loss": 0.39980196952819824,
      "memory(GiB)": 77.59,
      "step": 100915,
      "token_acc": 0.890728476821192,
      "train_speed(iter/s)": 1.46139
    },
    {
      "epoch": 4.32372220556103,
      "grad_norm": 0.5956964492797852,
      "learning_rate": 4.446370313920489e-06,
      "loss": 0.07514835000038148,
      "memory(GiB)": 77.59,
      "step": 100920,
      "token_acc": 0.982078853046595,
      "train_speed(iter/s)": 1.461405
    },
    {
      "epoch": 4.323936420890279,
      "grad_norm": 0.4710063636302948,
      "learning_rate": 4.44359640482302e-06,
      "loss": 0.43165016174316406,
      "memory(GiB)": 77.59,
      "step": 100925,
      "token_acc": 0.91015625,
      "train_speed(iter/s)": 1.461409
    },
    {
      "epoch": 4.324150636219528,
      "grad_norm": 1.9668569564819336,
      "learning_rate": 4.440823321022541e-06,
      "loss": 0.4305275917053223,
      "memory(GiB)": 77.59,
      "step": 100930,
      "token_acc": 0.8962962962962963,
      "train_speed(iter/s)": 1.461408
    },
    {
      "epoch": 4.3243648515487765,
      "grad_norm": 0.2992168962955475,
      "learning_rate": 4.438051062569293e-06,
      "loss": 0.17496339082717896,
      "memory(GiB)": 77.59,
      "step": 100935,
      "token_acc": 0.9565217391304348,
      "train_speed(iter/s)": 1.461412
    },
    {
      "epoch": 4.324579066878026,
      "grad_norm": 2.2400612831115723,
      "learning_rate": 4.435279629513489e-06,
      "loss": 0.37470521926879885,
      "memory(GiB)": 77.59,
      "step": 100940,
      "token_acc": 0.9256965944272446,
      "train_speed(iter/s)": 1.461416
    },
    {
      "epoch": 4.324793282207275,
      "grad_norm": 6.193637371063232,
      "learning_rate": 4.432509021905334e-06,
      "loss": 0.5905871868133545,
      "memory(GiB)": 77.59,
      "step": 100945,
      "token_acc": 0.86,
      "train_speed(iter/s)": 1.461415
    },
    {
      "epoch": 4.325007497536523,
      "grad_norm": 1.2662891149520874,
      "learning_rate": 4.4297392397950334e-06,
      "loss": 0.3136629819869995,
      "memory(GiB)": 77.59,
      "step": 100950,
      "token_acc": 0.9220338983050848,
      "train_speed(iter/s)": 1.461418
    },
    {
      "epoch": 4.325221712865773,
      "grad_norm": 4.041921138763428,
      "learning_rate": 4.42697028323274e-06,
      "loss": 0.35533857345581055,
      "memory(GiB)": 77.59,
      "step": 100955,
      "token_acc": 0.9370860927152318,
      "train_speed(iter/s)": 1.46142
    },
    {
      "epoch": 4.325435928195022,
      "grad_norm": 3.7638750076293945,
      "learning_rate": 4.424202152268642e-06,
      "loss": 0.5863192081451416,
      "memory(GiB)": 77.59,
      "step": 100960,
      "token_acc": 0.89198606271777,
      "train_speed(iter/s)": 1.461428
    },
    {
      "epoch": 4.32565014352427,
      "grad_norm": 3.248467445373535,
      "learning_rate": 4.421434846952871e-06,
      "loss": 0.27729287147521975,
      "memory(GiB)": 77.59,
      "step": 100965,
      "token_acc": 0.9232954545454546,
      "train_speed(iter/s)": 1.461435
    },
    {
      "epoch": 4.3258643588535195,
      "grad_norm": 2.6861860752105713,
      "learning_rate": 4.4186683673355714e-06,
      "loss": 0.31302316188812257,
      "memory(GiB)": 77.59,
      "step": 100970,
      "token_acc": 0.926056338028169,
      "train_speed(iter/s)": 1.46144
    },
    {
      "epoch": 4.326078574182769,
      "grad_norm": 3.7817599773406982,
      "learning_rate": 4.415902713466846e-06,
      "loss": 0.19282009601593017,
      "memory(GiB)": 77.59,
      "step": 100975,
      "token_acc": 0.9405594405594405,
      "train_speed(iter/s)": 1.46144
    },
    {
      "epoch": 4.326292789512017,
      "grad_norm": 3.8134286403656006,
      "learning_rate": 4.413137885396795e-06,
      "loss": 0.3722784996032715,
      "memory(GiB)": 77.59,
      "step": 100980,
      "token_acc": 0.9150326797385621,
      "train_speed(iter/s)": 1.46144
    },
    {
      "epoch": 4.326507004841266,
      "grad_norm": 3.002703905105591,
      "learning_rate": 4.4103738831755285e-06,
      "loss": 0.166592800617218,
      "memory(GiB)": 77.59,
      "step": 100985,
      "token_acc": 0.9562043795620438,
      "train_speed(iter/s)": 1.461442
    },
    {
      "epoch": 4.326721220170516,
      "grad_norm": 1.4480364322662354,
      "learning_rate": 4.407610706853105e-06,
      "loss": 0.24429764747619628,
      "memory(GiB)": 77.59,
      "step": 100990,
      "token_acc": 0.9487870619946092,
      "train_speed(iter/s)": 1.461451
    },
    {
      "epoch": 4.326935435499764,
      "grad_norm": 4.180449485778809,
      "learning_rate": 4.404848356479585e-06,
      "loss": 0.4284348011016846,
      "memory(GiB)": 77.59,
      "step": 100995,
      "token_acc": 0.9121621621621622,
      "train_speed(iter/s)": 1.461452
    },
    {
      "epoch": 4.327149650829013,
      "grad_norm": 2.9180660247802734,
      "learning_rate": 4.402086832104996e-06,
      "loss": 0.18197245597839357,
      "memory(GiB)": 77.59,
      "step": 101000,
      "token_acc": 0.9703389830508474,
      "train_speed(iter/s)": 1.461452
    },
    {
      "epoch": 4.327149650829013,
      "eval_loss": 2.3369650840759277,
      "eval_runtime": 11.5046,
      "eval_samples_per_second": 8.692,
      "eval_steps_per_second": 8.692,
      "eval_token_acc": 0.48021108179419525,
      "step": 101000
    },
    {
      "epoch": 4.3273638661582625,
      "grad_norm": 4.092196464538574,
      "learning_rate": 4.399326133779386e-06,
      "loss": 0.3418461322784424,
      "memory(GiB)": 77.59,
      "step": 101005,
      "token_acc": 0.6125703564727955,
      "train_speed(iter/s)": 1.461188
    },
    {
      "epoch": 4.327578081487511,
      "grad_norm": 3.2175323963165283,
      "learning_rate": 4.396566261552765e-06,
      "loss": 0.28709983825683594,
      "memory(GiB)": 77.59,
      "step": 101010,
      "token_acc": 0.9238410596026491,
      "train_speed(iter/s)": 1.461196
    },
    {
      "epoch": 4.32779229681676,
      "grad_norm": 2.850590705871582,
      "learning_rate": 4.393807215475115e-06,
      "loss": 0.29312796592712403,
      "memory(GiB)": 77.59,
      "step": 101015,
      "token_acc": 0.9222972972972973,
      "train_speed(iter/s)": 1.4612
    },
    {
      "epoch": 4.328006512146009,
      "grad_norm": 4.095639705657959,
      "learning_rate": 4.3910489955964365e-06,
      "loss": 0.31951701641082764,
      "memory(GiB)": 77.59,
      "step": 101020,
      "token_acc": 0.9298780487804879,
      "train_speed(iter/s)": 1.461219
    },
    {
      "epoch": 4.328220727475258,
      "grad_norm": 4.6544013023376465,
      "learning_rate": 4.388291601966688e-06,
      "loss": 0.36851327419281005,
      "memory(GiB)": 77.59,
      "step": 101025,
      "token_acc": 0.9052631578947369,
      "train_speed(iter/s)": 1.461227
    },
    {
      "epoch": 4.328434942804507,
      "grad_norm": 4.440948486328125,
      "learning_rate": 4.385535034635829e-06,
      "loss": 0.6329166889190674,
      "memory(GiB)": 77.59,
      "step": 101030,
      "token_acc": 0.8690095846645367,
      "train_speed(iter/s)": 1.461227
    },
    {
      "epoch": 4.328649158133756,
      "grad_norm": 0.9040910005569458,
      "learning_rate": 4.382779293653788e-06,
      "loss": 0.26689374446868896,
      "memory(GiB)": 77.59,
      "step": 101035,
      "token_acc": 0.9428571428571428,
      "train_speed(iter/s)": 1.461238
    },
    {
      "epoch": 4.328863373463005,
      "grad_norm": 2.4270377159118652,
      "learning_rate": 4.380024379070491e-06,
      "loss": 0.6035255432128906,
      "memory(GiB)": 77.59,
      "step": 101040,
      "token_acc": 0.875,
      "train_speed(iter/s)": 1.461248
    },
    {
      "epoch": 4.329077588792254,
      "grad_norm": 2.821573495864868,
      "learning_rate": 4.377270290935848e-06,
      "loss": 0.47306199073791505,
      "memory(GiB)": 77.59,
      "step": 101045,
      "token_acc": 0.8936170212765957,
      "train_speed(iter/s)": 1.461251
    },
    {
      "epoch": 4.329291804121503,
      "grad_norm": 2.6380982398986816,
      "learning_rate": 4.374517029299757e-06,
      "loss": 0.16778790950775146,
      "memory(GiB)": 77.59,
      "step": 101050,
      "token_acc": 0.9575163398692811,
      "train_speed(iter/s)": 1.461256
    },
    {
      "epoch": 4.3295060194507515,
      "grad_norm": 2.576781988143921,
      "learning_rate": 4.3717645942120855e-06,
      "loss": 0.18458378314971924,
      "memory(GiB)": 77.59,
      "step": 101055,
      "token_acc": 0.9543973941368078,
      "train_speed(iter/s)": 1.46126
    },
    {
      "epoch": 4.329720234780001,
      "grad_norm": 2.379176616668701,
      "learning_rate": 4.369012985722704e-06,
      "loss": 0.2534276247024536,
      "memory(GiB)": 77.59,
      "step": 101060,
      "token_acc": 0.926056338028169,
      "train_speed(iter/s)": 1.461267
    },
    {
      "epoch": 4.32993445010925,
      "grad_norm": 3.1395390033721924,
      "learning_rate": 4.366262203881461e-06,
      "loss": 0.3719038963317871,
      "memory(GiB)": 77.59,
      "step": 101065,
      "token_acc": 0.9103448275862069,
      "train_speed(iter/s)": 1.461284
    },
    {
      "epoch": 4.330148665438498,
      "grad_norm": 3.9730372428894043,
      "learning_rate": 4.363512248738172e-06,
      "loss": 0.3254352807998657,
      "memory(GiB)": 77.59,
      "step": 101070,
      "token_acc": 0.9295302013422819,
      "train_speed(iter/s)": 1.461282
    },
    {
      "epoch": 4.330362880767748,
      "grad_norm": 2.7663583755493164,
      "learning_rate": 4.3607631203426704e-06,
      "loss": 0.47878093719482423,
      "memory(GiB)": 77.59,
      "step": 101075,
      "token_acc": 0.9049079754601227,
      "train_speed(iter/s)": 1.461288
    },
    {
      "epoch": 4.330577096096997,
      "grad_norm": 3.6435797214508057,
      "learning_rate": 4.358014818744765e-06,
      "loss": 0.46086812019348145,
      "memory(GiB)": 77.59,
      "step": 101080,
      "token_acc": 0.8954703832752613,
      "train_speed(iter/s)": 1.461296
    },
    {
      "epoch": 4.330791311426245,
      "grad_norm": 2.1908936500549316,
      "learning_rate": 4.355267343994241e-06,
      "loss": 0.14663679599761964,
      "memory(GiB)": 77.59,
      "step": 101085,
      "token_acc": 0.96875,
      "train_speed(iter/s)": 1.4613
    },
    {
      "epoch": 4.3310055267554946,
      "grad_norm": 5.713663578033447,
      "learning_rate": 4.352520696140866e-06,
      "loss": 0.5883623123168945,
      "memory(GiB)": 77.59,
      "step": 101090,
      "token_acc": 0.8714285714285714,
      "train_speed(iter/s)": 1.461301
    },
    {
      "epoch": 4.331219742084744,
      "grad_norm": 5.22633695602417,
      "learning_rate": 4.349774875234397e-06,
      "loss": 0.32868423461914065,
      "memory(GiB)": 77.59,
      "step": 101095,
      "token_acc": 0.9421768707482994,
      "train_speed(iter/s)": 1.461305
    },
    {
      "epoch": 4.331433957413992,
      "grad_norm": 1.7268236875534058,
      "learning_rate": 4.3470298813245715e-06,
      "loss": 0.232708740234375,
      "memory(GiB)": 77.59,
      "step": 101100,
      "token_acc": 0.9428571428571428,
      "train_speed(iter/s)": 1.461305
    },
    {
      "epoch": 4.331648172743241,
      "grad_norm": 3.7881410121917725,
      "learning_rate": 4.344285714461138e-06,
      "loss": 0.4365672588348389,
      "memory(GiB)": 77.59,
      "step": 101105,
      "token_acc": 0.9074074074074074,
      "train_speed(iter/s)": 1.461306
    },
    {
      "epoch": 4.331862388072491,
      "grad_norm": 1.6282343864440918,
      "learning_rate": 4.341542374693791e-06,
      "loss": 0.23604695796966552,
      "memory(GiB)": 77.59,
      "step": 101110,
      "token_acc": 0.948948948948949,
      "train_speed(iter/s)": 1.461304
    },
    {
      "epoch": 4.332076603401739,
      "grad_norm": 3.4517922401428223,
      "learning_rate": 4.3387998620722405e-06,
      "loss": 0.3164109945297241,
      "memory(GiB)": 77.59,
      "step": 101115,
      "token_acc": 0.9322709163346613,
      "train_speed(iter/s)": 1.461304
    },
    {
      "epoch": 4.332290818730988,
      "grad_norm": 6.690794944763184,
      "learning_rate": 4.336058176646163e-06,
      "loss": 0.39873790740966797,
      "memory(GiB)": 77.59,
      "step": 101120,
      "token_acc": 0.9133858267716536,
      "train_speed(iter/s)": 1.461305
    },
    {
      "epoch": 4.332505034060238,
      "grad_norm": 3.809532642364502,
      "learning_rate": 4.3333173184652185e-06,
      "loss": 0.6285267829895019,
      "memory(GiB)": 77.59,
      "step": 101125,
      "token_acc": 0.8532818532818532,
      "train_speed(iter/s)": 1.461306
    },
    {
      "epoch": 4.332719249389486,
      "grad_norm": 1.9303268194198608,
      "learning_rate": 4.330577287579079e-06,
      "loss": 0.2089614152908325,
      "memory(GiB)": 77.59,
      "step": 101130,
      "token_acc": 0.9261992619926199,
      "train_speed(iter/s)": 1.461307
    },
    {
      "epoch": 4.332933464718735,
      "grad_norm": 3.67143177986145,
      "learning_rate": 4.327838084037372e-06,
      "loss": 0.34692814350128176,
      "memory(GiB)": 77.59,
      "step": 101135,
      "token_acc": 0.9307359307359307,
      "train_speed(iter/s)": 1.461318
    },
    {
      "epoch": 4.3331476800479845,
      "grad_norm": 7.086150646209717,
      "learning_rate": 4.325099707889724e-06,
      "loss": 0.4419133186340332,
      "memory(GiB)": 77.59,
      "step": 101140,
      "token_acc": 0.9209621993127147,
      "train_speed(iter/s)": 1.461323
    },
    {
      "epoch": 4.333361895377233,
      "grad_norm": 4.5439453125,
      "learning_rate": 4.322362159185739e-06,
      "loss": 0.3322859764099121,
      "memory(GiB)": 77.59,
      "step": 101145,
      "token_acc": 0.9292929292929293,
      "train_speed(iter/s)": 1.461326
    },
    {
      "epoch": 4.333576110706482,
      "grad_norm": 3.9867403507232666,
      "learning_rate": 4.319625437975006e-06,
      "loss": 0.3996554136276245,
      "memory(GiB)": 77.59,
      "step": 101150,
      "token_acc": 0.9210526315789473,
      "train_speed(iter/s)": 1.461329
    },
    {
      "epoch": 4.333790326035731,
      "grad_norm": 2.2138020992279053,
      "learning_rate": 4.3168895443071124e-06,
      "loss": 0.26236352920532224,
      "memory(GiB)": 77.59,
      "step": 101155,
      "token_acc": 0.9327485380116959,
      "train_speed(iter/s)": 1.461334
    },
    {
      "epoch": 4.33400454136498,
      "grad_norm": 2.011296510696411,
      "learning_rate": 4.314154478231619e-06,
      "loss": 0.29014291763305666,
      "memory(GiB)": 77.59,
      "step": 101160,
      "token_acc": 0.9238410596026491,
      "train_speed(iter/s)": 1.461336
    },
    {
      "epoch": 4.334218756694229,
      "grad_norm": 3.845211982727051,
      "learning_rate": 4.3114202397980755e-06,
      "loss": 0.42386903762817385,
      "memory(GiB)": 77.59,
      "step": 101165,
      "token_acc": 0.9026548672566371,
      "train_speed(iter/s)": 1.461334
    },
    {
      "epoch": 4.334432972023478,
      "grad_norm": 4.447188377380371,
      "learning_rate": 4.308686829056019e-06,
      "loss": 0.6177269458770752,
      "memory(GiB)": 77.59,
      "step": 101170,
      "token_acc": 0.8529411764705882,
      "train_speed(iter/s)": 1.461341
    },
    {
      "epoch": 4.334647187352727,
      "grad_norm": 4.200685501098633,
      "learning_rate": 4.305954246054961e-06,
      "loss": 0.6228216171264649,
      "memory(GiB)": 77.59,
      "step": 101175,
      "token_acc": 0.8704225352112676,
      "train_speed(iter/s)": 1.461342
    },
    {
      "epoch": 4.334861402681976,
      "grad_norm": 3.989079713821411,
      "learning_rate": 4.303222490844405e-06,
      "loss": 0.13359297513961793,
      "memory(GiB)": 77.59,
      "step": 101180,
      "token_acc": 0.9662162162162162,
      "train_speed(iter/s)": 1.461348
    },
    {
      "epoch": 4.335075618011225,
      "grad_norm": 2.9821667671203613,
      "learning_rate": 4.30049156347383e-06,
      "loss": 0.4132709503173828,
      "memory(GiB)": 77.59,
      "step": 101185,
      "token_acc": 0.909967845659164,
      "train_speed(iter/s)": 1.461351
    },
    {
      "epoch": 4.3352898333404735,
      "grad_norm": 2.7293243408203125,
      "learning_rate": 4.297761463992733e-06,
      "loss": 0.1794515371322632,
      "memory(GiB)": 77.59,
      "step": 101190,
      "token_acc": 0.9610027855153204,
      "train_speed(iter/s)": 1.461355
    },
    {
      "epoch": 4.335504048669723,
      "grad_norm": 4.043247222900391,
      "learning_rate": 4.29503219245056e-06,
      "loss": 0.30770220756530764,
      "memory(GiB)": 77.59,
      "step": 101195,
      "token_acc": 0.9323076923076923,
      "train_speed(iter/s)": 1.461353
    },
    {
      "epoch": 4.335718263998972,
      "grad_norm": 0.9807121753692627,
      "learning_rate": 4.292303748896748e-06,
      "loss": 0.17382413148880005,
      "memory(GiB)": 77.59,
      "step": 101200,
      "token_acc": 0.9546925566343042,
      "train_speed(iter/s)": 1.461356
    },
    {
      "epoch": 4.33593247932822,
      "grad_norm": 8.940947532653809,
      "learning_rate": 4.289576133380735e-06,
      "loss": 0.20041978359222412,
      "memory(GiB)": 77.59,
      "step": 101205,
      "token_acc": 0.9629629629629629,
      "train_speed(iter/s)": 1.461351
    },
    {
      "epoch": 4.33614669465747,
      "grad_norm": 3.3888962268829346,
      "learning_rate": 4.286849345951932e-06,
      "loss": 0.43379878997802734,
      "memory(GiB)": 77.59,
      "step": 101210,
      "token_acc": 0.9214876033057852,
      "train_speed(iter/s)": 1.461351
    },
    {
      "epoch": 4.336360909986719,
      "grad_norm": 1.418843150138855,
      "learning_rate": 4.284123386659722e-06,
      "loss": 0.5246121406555175,
      "memory(GiB)": 77.59,
      "step": 101215,
      "token_acc": 0.865979381443299,
      "train_speed(iter/s)": 1.461352
    },
    {
      "epoch": 4.336575125315967,
      "grad_norm": 1.1188188791275024,
      "learning_rate": 4.281398255553515e-06,
      "loss": 0.25378539562225344,
      "memory(GiB)": 77.59,
      "step": 101220,
      "token_acc": 0.936,
      "train_speed(iter/s)": 1.46135
    },
    {
      "epoch": 4.3367893406452165,
      "grad_norm": 3.548412799835205,
      "learning_rate": 4.278673952682655e-06,
      "loss": 0.3517481327056885,
      "memory(GiB)": 77.59,
      "step": 101225,
      "token_acc": 0.9235880398671097,
      "train_speed(iter/s)": 1.461353
    },
    {
      "epoch": 4.337003555974466,
      "grad_norm": 3.4636685848236084,
      "learning_rate": 4.275950478096513e-06,
      "loss": 0.2799858570098877,
      "memory(GiB)": 77.59,
      "step": 101230,
      "token_acc": 0.9384057971014492,
      "train_speed(iter/s)": 1.461354
    },
    {
      "epoch": 4.337217771303714,
      "grad_norm": 4.226729393005371,
      "learning_rate": 4.273227831844423e-06,
      "loss": 0.2188413619995117,
      "memory(GiB)": 77.59,
      "step": 101235,
      "token_acc": 0.9490616621983914,
      "train_speed(iter/s)": 1.461354
    },
    {
      "epoch": 4.337431986632963,
      "grad_norm": 2.3312482833862305,
      "learning_rate": 4.2705060139757054e-06,
      "loss": 0.3043022632598877,
      "memory(GiB)": 77.59,
      "step": 101240,
      "token_acc": 0.9319526627218935,
      "train_speed(iter/s)": 1.461352
    },
    {
      "epoch": 4.337646201962213,
      "grad_norm": 3.1193666458129883,
      "learning_rate": 4.267785024539661e-06,
      "loss": 0.26630239486694335,
      "memory(GiB)": 77.59,
      "step": 101245,
      "token_acc": 0.9488188976377953,
      "train_speed(iter/s)": 1.461361
    },
    {
      "epoch": 4.337860417291461,
      "grad_norm": 2.0089504718780518,
      "learning_rate": 4.2650648635856e-06,
      "loss": 0.38605732917785646,
      "memory(GiB)": 77.59,
      "step": 101250,
      "token_acc": 0.9135446685878963,
      "train_speed(iter/s)": 1.461364
    },
    {
      "epoch": 4.33807463262071,
      "grad_norm": 0.5213606953620911,
      "learning_rate": 4.262345531162792e-06,
      "loss": 0.3323110818862915,
      "memory(GiB)": 77.59,
      "step": 101255,
      "token_acc": 0.9293286219081273,
      "train_speed(iter/s)": 1.461367
    },
    {
      "epoch": 4.3382888479499595,
      "grad_norm": 2.395845413208008,
      "learning_rate": 4.259627027320501e-06,
      "loss": 0.4846632957458496,
      "memory(GiB)": 77.59,
      "step": 101260,
      "token_acc": 0.8972431077694235,
      "train_speed(iter/s)": 1.461366
    },
    {
      "epoch": 4.338503063279208,
      "grad_norm": 5.6761064529418945,
      "learning_rate": 4.256909352107969e-06,
      "loss": 0.2949413299560547,
      "memory(GiB)": 77.59,
      "step": 101265,
      "token_acc": 0.9424460431654677,
      "train_speed(iter/s)": 1.461365
    },
    {
      "epoch": 4.338717278608457,
      "grad_norm": 6.103508949279785,
      "learning_rate": 4.254192505574433e-06,
      "loss": 0.5198281764984131,
      "memory(GiB)": 77.59,
      "step": 101270,
      "token_acc": 0.8916967509025271,
      "train_speed(iter/s)": 1.461364
    },
    {
      "epoch": 4.338931493937706,
      "grad_norm": 2.2528350353240967,
      "learning_rate": 4.2514764877691184e-06,
      "loss": 0.3870755910873413,
      "memory(GiB)": 77.59,
      "step": 101275,
      "token_acc": 0.8974358974358975,
      "train_speed(iter/s)": 1.461364
    },
    {
      "epoch": 4.339145709266955,
      "grad_norm": 3.3554835319519043,
      "learning_rate": 4.2487612987412215e-06,
      "loss": 0.19294670820236207,
      "memory(GiB)": 77.59,
      "step": 101280,
      "token_acc": 0.9527027027027027,
      "train_speed(iter/s)": 1.461367
    },
    {
      "epoch": 4.339359924596204,
      "grad_norm": 1.0437710285186768,
      "learning_rate": 4.246046938539933e-06,
      "loss": 0.2146972417831421,
      "memory(GiB)": 77.59,
      "step": 101285,
      "token_acc": 0.9418181818181818,
      "train_speed(iter/s)": 1.461373
    },
    {
      "epoch": 4.339574139925453,
      "grad_norm": 0.9715976119041443,
      "learning_rate": 4.243333407214422e-06,
      "loss": 0.43425164222717283,
      "memory(GiB)": 77.59,
      "step": 101290,
      "token_acc": 0.9090909090909091,
      "train_speed(iter/s)": 1.461384
    },
    {
      "epoch": 4.339788355254702,
      "grad_norm": 3.6721549034118652,
      "learning_rate": 4.240620704813847e-06,
      "loss": 0.39865272045135497,
      "memory(GiB)": 77.59,
      "step": 101295,
      "token_acc": 0.9183006535947712,
      "train_speed(iter/s)": 1.461392
    },
    {
      "epoch": 4.340002570583951,
      "grad_norm": 3.5606722831726074,
      "learning_rate": 4.23790883138736e-06,
      "loss": 0.6541102886199951,
      "memory(GiB)": 77.59,
      "step": 101300,
      "token_acc": 0.8739255014326648,
      "train_speed(iter/s)": 1.461395
    },
    {
      "epoch": 4.3402167859132,
      "grad_norm": 2.5170204639434814,
      "learning_rate": 4.235197786984074e-06,
      "loss": 0.26635901927947997,
      "memory(GiB)": 77.59,
      "step": 101305,
      "token_acc": 0.9427710843373494,
      "train_speed(iter/s)": 1.461393
    },
    {
      "epoch": 4.3404310012424485,
      "grad_norm": 4.7524919509887695,
      "learning_rate": 4.232487571653115e-06,
      "loss": 0.3303654670715332,
      "memory(GiB)": 77.59,
      "step": 101310,
      "token_acc": 0.9405204460966543,
      "train_speed(iter/s)": 1.461394
    },
    {
      "epoch": 4.340645216571698,
      "grad_norm": 1.6354237794876099,
      "learning_rate": 4.229778185443583e-06,
      "loss": 0.23347349166870118,
      "memory(GiB)": 77.59,
      "step": 101315,
      "token_acc": 0.9444444444444444,
      "train_speed(iter/s)": 1.461397
    },
    {
      "epoch": 4.340859431900947,
      "grad_norm": 3.2632179260253906,
      "learning_rate": 4.227069628404551e-06,
      "loss": 0.20184047222137452,
      "memory(GiB)": 77.59,
      "step": 101320,
      "token_acc": 0.933852140077821,
      "train_speed(iter/s)": 1.461408
    },
    {
      "epoch": 4.341073647230195,
      "grad_norm": 2.6580874919891357,
      "learning_rate": 4.224361900585094e-06,
      "loss": 0.2702394962310791,
      "memory(GiB)": 77.59,
      "step": 101325,
      "token_acc": 0.9464882943143813,
      "train_speed(iter/s)": 1.461419
    },
    {
      "epoch": 4.341287862559445,
      "grad_norm": 2.306924343109131,
      "learning_rate": 4.221655002034253e-06,
      "loss": 0.1778348207473755,
      "memory(GiB)": 77.59,
      "step": 101330,
      "token_acc": 0.9632107023411371,
      "train_speed(iter/s)": 1.461425
    },
    {
      "epoch": 4.341502077888694,
      "grad_norm": 3.6551356315612793,
      "learning_rate": 4.218948932801087e-06,
      "loss": 0.44995684623718263,
      "memory(GiB)": 77.59,
      "step": 101335,
      "token_acc": 0.915057915057915,
      "train_speed(iter/s)": 1.46143
    },
    {
      "epoch": 4.341716293217942,
      "grad_norm": 2.0845158100128174,
      "learning_rate": 4.216243692934602e-06,
      "loss": 0.3438123226165771,
      "memory(GiB)": 77.59,
      "step": 101340,
      "token_acc": 0.9335664335664335,
      "train_speed(iter/s)": 1.461437
    },
    {
      "epoch": 4.3419305085471915,
      "grad_norm": 2.3494389057159424,
      "learning_rate": 4.213539282483814e-06,
      "loss": 0.348982048034668,
      "memory(GiB)": 77.59,
      "step": 101345,
      "token_acc": 0.9337979094076655,
      "train_speed(iter/s)": 1.461441
    },
    {
      "epoch": 4.342144723876441,
      "grad_norm": 2.746291160583496,
      "learning_rate": 4.210835701497712e-06,
      "loss": 0.47578206062316897,
      "memory(GiB)": 77.59,
      "step": 101350,
      "token_acc": 0.8773584905660378,
      "train_speed(iter/s)": 1.461443
    },
    {
      "epoch": 4.342358939205689,
      "grad_norm": 4.35871696472168,
      "learning_rate": 4.208132950025273e-06,
      "loss": 0.32745516300201416,
      "memory(GiB)": 77.59,
      "step": 101355,
      "token_acc": 0.93125,
      "train_speed(iter/s)": 1.461444
    },
    {
      "epoch": 4.342573154534938,
      "grad_norm": 5.073497295379639,
      "learning_rate": 4.205431028115458e-06,
      "loss": 0.4944461345672607,
      "memory(GiB)": 77.59,
      "step": 101360,
      "token_acc": 0.8870967741935484,
      "train_speed(iter/s)": 1.461451
    },
    {
      "epoch": 4.342787369864188,
      "grad_norm": 4.333206653594971,
      "learning_rate": 4.202729935817224e-06,
      "loss": 0.35316293239593505,
      "memory(GiB)": 77.59,
      "step": 101365,
      "token_acc": 0.9118773946360154,
      "train_speed(iter/s)": 1.461453
    },
    {
      "epoch": 4.343001585193436,
      "grad_norm": 4.060690879821777,
      "learning_rate": 4.20002967317949e-06,
      "loss": 0.19557468891143798,
      "memory(GiB)": 77.59,
      "step": 101370,
      "token_acc": 0.9545454545454546,
      "train_speed(iter/s)": 1.461454
    },
    {
      "epoch": 4.343215800522685,
      "grad_norm": 3.908449649810791,
      "learning_rate": 4.19733024025119e-06,
      "loss": 0.5469189643859863,
      "memory(GiB)": 77.59,
      "step": 101375,
      "token_acc": 0.8975265017667845,
      "train_speed(iter/s)": 1.461458
    },
    {
      "epoch": 4.3434300158519346,
      "grad_norm": 2.7415523529052734,
      "learning_rate": 4.19463163708122e-06,
      "loss": 0.290436315536499,
      "memory(GiB)": 77.59,
      "step": 101380,
      "token_acc": 0.9212827988338192,
      "train_speed(iter/s)": 1.461462
    },
    {
      "epoch": 4.343644231181183,
      "grad_norm": 3.295381546020508,
      "learning_rate": 4.191933863718467e-06,
      "loss": 0.4873295783996582,
      "memory(GiB)": 77.59,
      "step": 101385,
      "token_acc": 0.8949152542372881,
      "train_speed(iter/s)": 1.461468
    },
    {
      "epoch": 4.343858446510432,
      "grad_norm": 5.028715133666992,
      "learning_rate": 4.189236920211798e-06,
      "loss": 0.4217081069946289,
      "memory(GiB)": 77.59,
      "step": 101390,
      "token_acc": 0.8984962406015038,
      "train_speed(iter/s)": 1.461461
    },
    {
      "epoch": 4.344072661839681,
      "grad_norm": 1.433548092842102,
      "learning_rate": 4.1865408066100785e-06,
      "loss": 0.2519207239151001,
      "memory(GiB)": 77.59,
      "step": 101395,
      "token_acc": 0.9259259259259259,
      "train_speed(iter/s)": 1.461477
    },
    {
      "epoch": 4.34428687716893,
      "grad_norm": 2.958332061767578,
      "learning_rate": 4.183845522962154e-06,
      "loss": 0.4255256175994873,
      "memory(GiB)": 77.59,
      "step": 101400,
      "token_acc": 0.8968253968253969,
      "train_speed(iter/s)": 1.461482
    },
    {
      "epoch": 4.344501092498179,
      "grad_norm": 3.6648411750793457,
      "learning_rate": 4.181151069316846e-06,
      "loss": 0.301509428024292,
      "memory(GiB)": 77.59,
      "step": 101405,
      "token_acc": 0.9391634980988594,
      "train_speed(iter/s)": 1.461488
    },
    {
      "epoch": 4.344715307827428,
      "grad_norm": 5.1755852699279785,
      "learning_rate": 4.178457445722967e-06,
      "loss": 0.5078950881958008,
      "memory(GiB)": 77.59,
      "step": 101410,
      "token_acc": 0.89419795221843,
      "train_speed(iter/s)": 1.461488
    },
    {
      "epoch": 4.344929523156677,
      "grad_norm": 2.537118673324585,
      "learning_rate": 4.175764652229308e-06,
      "loss": 0.2582973003387451,
      "memory(GiB)": 77.59,
      "step": 101415,
      "token_acc": 0.9290780141843972,
      "train_speed(iter/s)": 1.461493
    },
    {
      "epoch": 4.345143738485926,
      "grad_norm": 0.3854601979255676,
      "learning_rate": 4.173072688884666e-06,
      "loss": 0.1556634783744812,
      "memory(GiB)": 77.59,
      "step": 101420,
      "token_acc": 0.9733333333333334,
      "train_speed(iter/s)": 1.461494
    },
    {
      "epoch": 4.345357953815175,
      "grad_norm": 4.314749240875244,
      "learning_rate": 4.170381555737801e-06,
      "loss": 0.5195286750793457,
      "memory(GiB)": 77.59,
      "step": 101425,
      "token_acc": 0.8916967509025271,
      "train_speed(iter/s)": 1.461505
    },
    {
      "epoch": 4.345572169144424,
      "grad_norm": 1.997642159461975,
      "learning_rate": 4.167691252837463e-06,
      "loss": 0.5672763824462891,
      "memory(GiB)": 77.59,
      "step": 101430,
      "token_acc": 0.8990825688073395,
      "train_speed(iter/s)": 1.461521
    },
    {
      "epoch": 4.345786384473673,
      "grad_norm": 2.2253904342651367,
      "learning_rate": 4.165001780232397e-06,
      "loss": 0.5855161190032959,
      "memory(GiB)": 77.59,
      "step": 101435,
      "token_acc": 0.8475836431226765,
      "train_speed(iter/s)": 1.461531
    },
    {
      "epoch": 4.346000599802922,
      "grad_norm": 3.5504400730133057,
      "learning_rate": 4.1623131379713186e-06,
      "loss": 0.2901404142379761,
      "memory(GiB)": 77.59,
      "step": 101440,
      "token_acc": 0.9418181818181818,
      "train_speed(iter/s)": 1.461535
    },
    {
      "epoch": 4.3462148151321705,
      "grad_norm": 4.408580780029297,
      "learning_rate": 4.159625326102934e-06,
      "loss": 0.35861949920654296,
      "memory(GiB)": 77.59,
      "step": 101445,
      "token_acc": 0.9302325581395349,
      "train_speed(iter/s)": 1.461537
    },
    {
      "epoch": 4.34642903046142,
      "grad_norm": 5.500342845916748,
      "learning_rate": 4.156938344675932e-06,
      "loss": 0.2484222650527954,
      "memory(GiB)": 77.59,
      "step": 101450,
      "token_acc": 0.95703125,
      "train_speed(iter/s)": 1.461538
    },
    {
      "epoch": 4.346643245790669,
      "grad_norm": 3.1795592308044434,
      "learning_rate": 4.154252193739006e-06,
      "loss": 0.20497457981109618,
      "memory(GiB)": 77.59,
      "step": 101455,
      "token_acc": 0.9511400651465798,
      "train_speed(iter/s)": 1.461539
    },
    {
      "epoch": 4.346857461119917,
      "grad_norm": 4.240200519561768,
      "learning_rate": 4.151566873340806e-06,
      "loss": 0.25002501010894773,
      "memory(GiB)": 77.59,
      "step": 101460,
      "token_acc": 0.9335664335664335,
      "train_speed(iter/s)": 1.46154
    },
    {
      "epoch": 4.347071676449167,
      "grad_norm": 2.6414706707000732,
      "learning_rate": 4.148882383529984e-06,
      "loss": 0.21623754501342773,
      "memory(GiB)": 77.59,
      "step": 101465,
      "token_acc": 0.9421768707482994,
      "train_speed(iter/s)": 1.461539
    },
    {
      "epoch": 4.347285891778416,
      "grad_norm": 0.17687052488327026,
      "learning_rate": 4.146198724355171e-06,
      "loss": 0.10814529657363892,
      "memory(GiB)": 77.59,
      "step": 101470,
      "token_acc": 0.9811320754716981,
      "train_speed(iter/s)": 1.461542
    },
    {
      "epoch": 4.347500107107664,
      "grad_norm": 7.23358154296875,
      "learning_rate": 4.143515895864969e-06,
      "loss": 0.47806873321533205,
      "memory(GiB)": 77.59,
      "step": 101475,
      "token_acc": 0.922077922077922,
      "train_speed(iter/s)": 1.461545
    },
    {
      "epoch": 4.3477143224369135,
      "grad_norm": 8.373373031616211,
      "learning_rate": 4.1408338981080096e-06,
      "loss": 0.5743863105773925,
      "memory(GiB)": 77.59,
      "step": 101480,
      "token_acc": 0.8884615384615384,
      "train_speed(iter/s)": 1.461548
    },
    {
      "epoch": 4.347928537766163,
      "grad_norm": 3.1259751319885254,
      "learning_rate": 4.138152731132855e-06,
      "loss": 0.5261325359344482,
      "memory(GiB)": 77.59,
      "step": 101485,
      "token_acc": 0.9007633587786259,
      "train_speed(iter/s)": 1.461547
    },
    {
      "epoch": 4.348142753095411,
      "grad_norm": 2.3701705932617188,
      "learning_rate": 4.135472394988094e-06,
      "loss": 0.23999366760253907,
      "memory(GiB)": 77.59,
      "step": 101490,
      "token_acc": 0.9534883720930233,
      "train_speed(iter/s)": 1.46155
    },
    {
      "epoch": 4.34835696842466,
      "grad_norm": 0.13746701180934906,
      "learning_rate": 4.1327928897222705e-06,
      "loss": 0.43122406005859376,
      "memory(GiB)": 77.59,
      "step": 101495,
      "token_acc": 0.9014598540145985,
      "train_speed(iter/s)": 1.461548
    },
    {
      "epoch": 4.34857118375391,
      "grad_norm": 2.305772066116333,
      "learning_rate": 4.130114215383929e-06,
      "loss": 0.6200616359710693,
      "memory(GiB)": 77.59,
      "step": 101500,
      "token_acc": 0.863481228668942,
      "train_speed(iter/s)": 1.46156
    },
    {
      "epoch": 4.34857118375391,
      "eval_loss": 2.506633996963501,
      "eval_runtime": 11.258,
      "eval_samples_per_second": 8.883,
      "eval_steps_per_second": 8.883,
      "eval_token_acc": 0.4837758112094395,
      "step": 101500
    },
    {
      "epoch": 4.348785399083158,
      "grad_norm": 5.085952281951904,
      "learning_rate": 4.1274363720215924e-06,
      "loss": 0.45489091873168946,
      "memory(GiB)": 77.59,
      "step": 101505,
      "token_acc": 0.6146694214876033,
      "train_speed(iter/s)": 1.461314
    },
    {
      "epoch": 4.348999614412407,
      "grad_norm": 5.083634376525879,
      "learning_rate": 4.124759359683783e-06,
      "loss": 0.17827329635620118,
      "memory(GiB)": 77.59,
      "step": 101510,
      "token_acc": 0.946969696969697,
      "train_speed(iter/s)": 1.46132
    },
    {
      "epoch": 4.3492138297416565,
      "grad_norm": 3.8113133907318115,
      "learning_rate": 4.122083178418995e-06,
      "loss": 0.4809504508972168,
      "memory(GiB)": 77.59,
      "step": 101515,
      "token_acc": 0.8795620437956204,
      "train_speed(iter/s)": 1.461326
    },
    {
      "epoch": 4.349428045070905,
      "grad_norm": 3.360507011413574,
      "learning_rate": 4.119407828275696e-06,
      "loss": 0.3850550174713135,
      "memory(GiB)": 77.59,
      "step": 101520,
      "token_acc": 0.8963210702341137,
      "train_speed(iter/s)": 1.461338
    },
    {
      "epoch": 4.349642260400154,
      "grad_norm": 5.453113555908203,
      "learning_rate": 4.116733309302373e-06,
      "loss": 0.37569262981414797,
      "memory(GiB)": 77.59,
      "step": 101525,
      "token_acc": 0.9153846153846154,
      "train_speed(iter/s)": 1.461338
    },
    {
      "epoch": 4.349856475729403,
      "grad_norm": 3.754560708999634,
      "learning_rate": 4.114059621547472e-06,
      "loss": 0.36787662506103513,
      "memory(GiB)": 77.59,
      "step": 101530,
      "token_acc": 0.8976377952755905,
      "train_speed(iter/s)": 1.461342
    },
    {
      "epoch": 4.350070691058653,
      "grad_norm": 2.7229349613189697,
      "learning_rate": 4.111386765059416e-06,
      "loss": 0.43071622848510743,
      "memory(GiB)": 77.59,
      "step": 101535,
      "token_acc": 0.9074074074074074,
      "train_speed(iter/s)": 1.461343
    },
    {
      "epoch": 4.350284906387901,
      "grad_norm": 4.448983192443848,
      "learning_rate": 4.108714739886638e-06,
      "loss": 0.44573450088500977,
      "memory(GiB)": 77.59,
      "step": 101540,
      "token_acc": 0.9016393442622951,
      "train_speed(iter/s)": 1.461346
    },
    {
      "epoch": 4.35049912171715,
      "grad_norm": 0.8008148670196533,
      "learning_rate": 4.106043546077548e-06,
      "loss": 0.443975830078125,
      "memory(GiB)": 77.59,
      "step": 101545,
      "token_acc": 0.9114754098360656,
      "train_speed(iter/s)": 1.461347
    },
    {
      "epoch": 4.350713337046399,
      "grad_norm": 0.96487957239151,
      "learning_rate": 4.103373183680531e-06,
      "loss": 0.3173358917236328,
      "memory(GiB)": 77.59,
      "step": 101550,
      "token_acc": 0.9214285714285714,
      "train_speed(iter/s)": 1.461353
    },
    {
      "epoch": 4.350927552375648,
      "grad_norm": 3.4435150623321533,
      "learning_rate": 4.100703652743959e-06,
      "loss": 0.24202301502227783,
      "memory(GiB)": 77.59,
      "step": 101555,
      "token_acc": 0.9458483754512635,
      "train_speed(iter/s)": 1.461345
    },
    {
      "epoch": 4.351141767704897,
      "grad_norm": 2.16888165473938,
      "learning_rate": 4.098034953316194e-06,
      "loss": 0.3640062570571899,
      "memory(GiB)": 77.59,
      "step": 101560,
      "token_acc": 0.9256756756756757,
      "train_speed(iter/s)": 1.461347
    },
    {
      "epoch": 4.351355983034146,
      "grad_norm": 1.9777668714523315,
      "learning_rate": 4.09536708544559e-06,
      "loss": 0.3093660593032837,
      "memory(GiB)": 77.59,
      "step": 101565,
      "token_acc": 0.9356913183279743,
      "train_speed(iter/s)": 1.461347
    },
    {
      "epoch": 4.351570198363395,
      "grad_norm": 7.504862308502197,
      "learning_rate": 4.092700049180476e-06,
      "loss": 0.3904132843017578,
      "memory(GiB)": 77.59,
      "step": 101570,
      "token_acc": 0.9118541033434651,
      "train_speed(iter/s)": 1.461358
    },
    {
      "epoch": 4.351784413692644,
      "grad_norm": 1.3879785537719727,
      "learning_rate": 4.090033844569163e-06,
      "loss": 0.36031601428985593,
      "memory(GiB)": 77.59,
      "step": 101575,
      "token_acc": 0.9083969465648855,
      "train_speed(iter/s)": 1.46136
    },
    {
      "epoch": 4.351998629021892,
      "grad_norm": 4.1796650886535645,
      "learning_rate": 4.087368471659958e-06,
      "loss": 0.11495392322540283,
      "memory(GiB)": 77.59,
      "step": 101580,
      "token_acc": 0.9696048632218845,
      "train_speed(iter/s)": 1.46136
    },
    {
      "epoch": 4.352212844351142,
      "grad_norm": 1.552212119102478,
      "learning_rate": 4.084703930501138e-06,
      "loss": 0.436847448348999,
      "memory(GiB)": 77.59,
      "step": 101585,
      "token_acc": 0.9033232628398792,
      "train_speed(iter/s)": 1.461367
    },
    {
      "epoch": 4.352427059680391,
      "grad_norm": 3.2079758644104004,
      "learning_rate": 4.08204022114097e-06,
      "loss": 0.20231549739837645,
      "memory(GiB)": 77.59,
      "step": 101590,
      "token_acc": 0.9529780564263323,
      "train_speed(iter/s)": 1.461366
    },
    {
      "epoch": 4.35264127500964,
      "grad_norm": 4.1708831787109375,
      "learning_rate": 4.079377343627722e-06,
      "loss": 0.4809995174407959,
      "memory(GiB)": 77.59,
      "step": 101595,
      "token_acc": 0.8779527559055118,
      "train_speed(iter/s)": 1.461378
    },
    {
      "epoch": 4.3528554903388885,
      "grad_norm": 2.4106249809265137,
      "learning_rate": 4.076715298009637e-06,
      "loss": 0.3124258995056152,
      "memory(GiB)": 77.59,
      "step": 101600,
      "token_acc": 0.9192982456140351,
      "train_speed(iter/s)": 1.461378
    },
    {
      "epoch": 4.353069705668138,
      "grad_norm": 4.7676682472229,
      "learning_rate": 4.0740540843349325e-06,
      "loss": 0.4539023399353027,
      "memory(GiB)": 77.59,
      "step": 101605,
      "token_acc": 0.8916083916083916,
      "train_speed(iter/s)": 1.46138
    },
    {
      "epoch": 4.353283920997386,
      "grad_norm": 2.1221179962158203,
      "learning_rate": 4.071393702651821e-06,
      "loss": 0.3694819450378418,
      "memory(GiB)": 77.59,
      "step": 101610,
      "token_acc": 0.9174603174603174,
      "train_speed(iter/s)": 1.461377
    },
    {
      "epoch": 4.353498136326635,
      "grad_norm": 2.5100057125091553,
      "learning_rate": 4.068734153008497e-06,
      "loss": 0.3317371368408203,
      "memory(GiB)": 77.59,
      "step": 101615,
      "token_acc": 0.937037037037037,
      "train_speed(iter/s)": 1.461378
    },
    {
      "epoch": 4.353712351655885,
      "grad_norm": 3.826294183731079,
      "learning_rate": 4.066075435453132e-06,
      "loss": 0.4388144016265869,
      "memory(GiB)": 77.59,
      "step": 101620,
      "token_acc": 0.9113924050632911,
      "train_speed(iter/s)": 1.461379
    },
    {
      "epoch": 4.353926566985134,
      "grad_norm": 4.711773872375488,
      "learning_rate": 4.06341755003391e-06,
      "loss": 0.34729585647583006,
      "memory(GiB)": 77.59,
      "step": 101625,
      "token_acc": 0.9256505576208178,
      "train_speed(iter/s)": 1.461381
    },
    {
      "epoch": 4.354140782314382,
      "grad_norm": 3.6096105575561523,
      "learning_rate": 4.060760496798971e-06,
      "loss": 0.3896145820617676,
      "memory(GiB)": 77.59,
      "step": 101630,
      "token_acc": 0.9321533923303835,
      "train_speed(iter/s)": 1.461381
    },
    {
      "epoch": 4.3543549976436315,
      "grad_norm": 3.1951346397399902,
      "learning_rate": 4.058104275796449e-06,
      "loss": 0.5807657718658448,
      "memory(GiB)": 77.59,
      "step": 101635,
      "token_acc": 0.8885245901639345,
      "train_speed(iter/s)": 1.461385
    },
    {
      "epoch": 4.35456921297288,
      "grad_norm": 3.1045563220977783,
      "learning_rate": 4.0554488870744645e-06,
      "loss": 0.29293136596679686,
      "memory(GiB)": 77.59,
      "step": 101640,
      "token_acc": 0.9328358208955224,
      "train_speed(iter/s)": 1.461393
    },
    {
      "epoch": 4.354783428302129,
      "grad_norm": 4.620826721191406,
      "learning_rate": 4.052794330681125e-06,
      "loss": 0.39889357089996336,
      "memory(GiB)": 77.59,
      "step": 101645,
      "token_acc": 0.9136690647482014,
      "train_speed(iter/s)": 1.461393
    },
    {
      "epoch": 4.354997643631378,
      "grad_norm": 1.5822038650512695,
      "learning_rate": 4.050140606664505e-06,
      "loss": 0.22763361930847167,
      "memory(GiB)": 77.59,
      "step": 101650,
      "token_acc": 0.9512987012987013,
      "train_speed(iter/s)": 1.461395
    },
    {
      "epoch": 4.355211858960628,
      "grad_norm": 1.0518516302108765,
      "learning_rate": 4.047487715072706e-06,
      "loss": 0.14997791051864623,
      "memory(GiB)": 77.59,
      "step": 101655,
      "token_acc": 0.9475806451612904,
      "train_speed(iter/s)": 1.461404
    },
    {
      "epoch": 4.355426074289876,
      "grad_norm": 4.930720329284668,
      "learning_rate": 4.044835655953772e-06,
      "loss": 0.6427118301391601,
      "memory(GiB)": 77.59,
      "step": 101660,
      "token_acc": 0.8766666666666667,
      "train_speed(iter/s)": 1.461414
    },
    {
      "epoch": 4.355640289619125,
      "grad_norm": 3.692026138305664,
      "learning_rate": 4.042184429355739e-06,
      "loss": 0.39156394004821776,
      "memory(GiB)": 77.59,
      "step": 101665,
      "token_acc": 0.9066265060240963,
      "train_speed(iter/s)": 1.461416
    },
    {
      "epoch": 4.355854504948374,
      "grad_norm": 4.707671642303467,
      "learning_rate": 4.039534035326659e-06,
      "loss": 0.26752915382385256,
      "memory(GiB)": 77.59,
      "step": 101670,
      "token_acc": 0.9341692789968652,
      "train_speed(iter/s)": 1.461416
    },
    {
      "epoch": 4.356068720277623,
      "grad_norm": 12.353384971618652,
      "learning_rate": 4.0368844739145315e-06,
      "loss": 0.4316694736480713,
      "memory(GiB)": 77.59,
      "step": 101675,
      "token_acc": 0.9131652661064426,
      "train_speed(iter/s)": 1.461421
    },
    {
      "epoch": 4.356282935606872,
      "grad_norm": 2.585183620452881,
      "learning_rate": 4.034235745167353e-06,
      "loss": 0.29858429431915284,
      "memory(GiB)": 77.59,
      "step": 101680,
      "token_acc": 0.9390681003584229,
      "train_speed(iter/s)": 1.461423
    },
    {
      "epoch": 4.356497150936121,
      "grad_norm": 2.819673776626587,
      "learning_rate": 4.031587849133123e-06,
      "loss": 0.31615643501281737,
      "memory(GiB)": 77.59,
      "step": 101685,
      "token_acc": 0.9191616766467066,
      "train_speed(iter/s)": 1.461435
    },
    {
      "epoch": 4.35671136626537,
      "grad_norm": 4.353437900543213,
      "learning_rate": 4.0289407858597974e-06,
      "loss": 0.38602185249328613,
      "memory(GiB)": 77.59,
      "step": 101690,
      "token_acc": 0.9288888888888889,
      "train_speed(iter/s)": 1.461447
    },
    {
      "epoch": 4.356925581594619,
      "grad_norm": 2.121406316757202,
      "learning_rate": 4.026294555395332e-06,
      "loss": 0.3733814239501953,
      "memory(GiB)": 77.59,
      "step": 101695,
      "token_acc": 0.9185185185185185,
      "train_speed(iter/s)": 1.46145
    },
    {
      "epoch": 4.357139796923867,
      "grad_norm": 3.1849825382232666,
      "learning_rate": 4.023649157787673e-06,
      "loss": 0.3230432510375977,
      "memory(GiB)": 77.59,
      "step": 101700,
      "token_acc": 0.9379310344827586,
      "train_speed(iter/s)": 1.461454
    },
    {
      "epoch": 4.357354012253117,
      "grad_norm": 3.0462048053741455,
      "learning_rate": 4.021004593084726e-06,
      "loss": 0.5849740028381347,
      "memory(GiB)": 77.59,
      "step": 101705,
      "token_acc": 0.8784722222222222,
      "train_speed(iter/s)": 1.461457
    },
    {
      "epoch": 4.357568227582366,
      "grad_norm": 0.6724727153778076,
      "learning_rate": 4.0183608613344244e-06,
      "loss": 0.16537686586380004,
      "memory(GiB)": 77.59,
      "step": 101710,
      "token_acc": 0.9644970414201184,
      "train_speed(iter/s)": 1.461458
    },
    {
      "epoch": 4.357782442911615,
      "grad_norm": 0.6352661848068237,
      "learning_rate": 4.015717962584648e-06,
      "loss": 0.4375617504119873,
      "memory(GiB)": 77.59,
      "step": 101715,
      "token_acc": 0.9,
      "train_speed(iter/s)": 1.461455
    },
    {
      "epoch": 4.357996658240864,
      "grad_norm": 5.958620548248291,
      "learning_rate": 4.013075896883278e-06,
      "loss": 0.4161695003509521,
      "memory(GiB)": 77.59,
      "step": 101720,
      "token_acc": 0.9193548387096774,
      "train_speed(iter/s)": 1.461467
    },
    {
      "epoch": 4.358210873570113,
      "grad_norm": 4.76558780670166,
      "learning_rate": 4.0104346642781785e-06,
      "loss": 0.4688542366027832,
      "memory(GiB)": 77.59,
      "step": 101725,
      "token_acc": 0.901840490797546,
      "train_speed(iter/s)": 1.461465
    },
    {
      "epoch": 4.358425088899361,
      "grad_norm": 2.2870266437530518,
      "learning_rate": 4.007794264817194e-06,
      "loss": 0.2702461004257202,
      "memory(GiB)": 77.59,
      "step": 101730,
      "token_acc": 0.9290322580645162,
      "train_speed(iter/s)": 1.46147
    },
    {
      "epoch": 4.3586393042286105,
      "grad_norm": 1.5194388628005981,
      "learning_rate": 4.005154698548152e-06,
      "loss": 0.2819650888442993,
      "memory(GiB)": 77.59,
      "step": 101735,
      "token_acc": 0.9420731707317073,
      "train_speed(iter/s)": 1.461471
    },
    {
      "epoch": 4.35885351955786,
      "grad_norm": 4.873916149139404,
      "learning_rate": 4.002515965518883e-06,
      "loss": 0.6392566204071045,
      "memory(GiB)": 77.59,
      "step": 101740,
      "token_acc": 0.863481228668942,
      "train_speed(iter/s)": 1.461479
    },
    {
      "epoch": 4.359067734887109,
      "grad_norm": 5.42298698425293,
      "learning_rate": 3.999878065777191e-06,
      "loss": 0.2769233226776123,
      "memory(GiB)": 77.59,
      "step": 101745,
      "token_acc": 0.932475884244373,
      "train_speed(iter/s)": 1.461479
    },
    {
      "epoch": 4.359281950216357,
      "grad_norm": 4.195010662078857,
      "learning_rate": 3.9972409993708605e-06,
      "loss": 0.25090622901916504,
      "memory(GiB)": 77.59,
      "step": 101750,
      "token_acc": 0.9415807560137457,
      "train_speed(iter/s)": 1.461485
    },
    {
      "epoch": 4.359496165545607,
      "grad_norm": 1.2870301008224487,
      "learning_rate": 3.994604766347665e-06,
      "loss": 0.3398630380630493,
      "memory(GiB)": 77.59,
      "step": 101755,
      "token_acc": 0.9166666666666666,
      "train_speed(iter/s)": 1.461488
    },
    {
      "epoch": 4.359710380874855,
      "grad_norm": 1.982466220855713,
      "learning_rate": 3.99196936675536e-06,
      "loss": 0.2951848268508911,
      "memory(GiB)": 77.59,
      "step": 101760,
      "token_acc": 0.9593220338983051,
      "train_speed(iter/s)": 1.461491
    },
    {
      "epoch": 4.359924596204104,
      "grad_norm": 2.5590946674346924,
      "learning_rate": 3.989334800641681e-06,
      "loss": 0.33265113830566406,
      "memory(GiB)": 77.59,
      "step": 101765,
      "token_acc": 0.9103448275862069,
      "train_speed(iter/s)": 1.461491
    },
    {
      "epoch": 4.3601388115333535,
      "grad_norm": 3.271059989929199,
      "learning_rate": 3.986701068054371e-06,
      "loss": 0.40577449798583987,
      "memory(GiB)": 77.59,
      "step": 101770,
      "token_acc": 0.9047619047619048,
      "train_speed(iter/s)": 1.461492
    },
    {
      "epoch": 4.360353026862603,
      "grad_norm": 5.383742809295654,
      "learning_rate": 3.9840681690411384e-06,
      "loss": 0.4425179958343506,
      "memory(GiB)": 77.59,
      "step": 101775,
      "token_acc": 0.9016393442622951,
      "train_speed(iter/s)": 1.461493
    },
    {
      "epoch": 4.360567242191851,
      "grad_norm": 2.7403297424316406,
      "learning_rate": 3.981436103649672e-06,
      "loss": 0.513450288772583,
      "memory(GiB)": 77.59,
      "step": 101780,
      "token_acc": 0.9087591240875912,
      "train_speed(iter/s)": 1.461507
    },
    {
      "epoch": 4.3607814575211,
      "grad_norm": 2.7280635833740234,
      "learning_rate": 3.978804871927661e-06,
      "loss": 0.30595424175262453,
      "memory(GiB)": 77.59,
      "step": 101785,
      "token_acc": 0.9111111111111111,
      "train_speed(iter/s)": 1.46151
    },
    {
      "epoch": 4.360995672850349,
      "grad_norm": 1.5567563772201538,
      "learning_rate": 3.976174473922772e-06,
      "loss": 0.12131597995758056,
      "memory(GiB)": 77.59,
      "step": 101790,
      "token_acc": 0.9707112970711297,
      "train_speed(iter/s)": 1.461515
    },
    {
      "epoch": 4.361209888179598,
      "grad_norm": 1.8040705919265747,
      "learning_rate": 3.973544909682647e-06,
      "loss": 0.20887744426727295,
      "memory(GiB)": 77.59,
      "step": 101795,
      "token_acc": 0.9622641509433962,
      "train_speed(iter/s)": 1.461519
    },
    {
      "epoch": 4.361424103508847,
      "grad_norm": 4.644045829772949,
      "learning_rate": 3.970916179254941e-06,
      "loss": 0.3904045820236206,
      "memory(GiB)": 77.59,
      "step": 101800,
      "token_acc": 0.9183673469387755,
      "train_speed(iter/s)": 1.46152
    },
    {
      "epoch": 4.3616383188380965,
      "grad_norm": 4.144597053527832,
      "learning_rate": 3.968288282687272e-06,
      "loss": 0.40198655128479005,
      "memory(GiB)": 77.59,
      "step": 101805,
      "token_acc": 0.9125475285171103,
      "train_speed(iter/s)": 1.461523
    },
    {
      "epoch": 4.361852534167345,
      "grad_norm": 1.540069580078125,
      "learning_rate": 3.965661220027233e-06,
      "loss": 0.43882951736450193,
      "memory(GiB)": 77.59,
      "step": 101810,
      "token_acc": 0.8908045977011494,
      "train_speed(iter/s)": 1.46153
    },
    {
      "epoch": 4.362066749496594,
      "grad_norm": 3.891554117202759,
      "learning_rate": 3.963034991322423e-06,
      "loss": 0.3708931922912598,
      "memory(GiB)": 77.59,
      "step": 101815,
      "token_acc": 0.8868778280542986,
      "train_speed(iter/s)": 1.461543
    },
    {
      "epoch": 4.3622809648258425,
      "grad_norm": 2.04250168800354,
      "learning_rate": 3.9604095966204295e-06,
      "loss": 0.2787394285202026,
      "memory(GiB)": 77.59,
      "step": 101820,
      "token_acc": 0.930921052631579,
      "train_speed(iter/s)": 1.461545
    },
    {
      "epoch": 4.362495180155092,
      "grad_norm": 6.846263885498047,
      "learning_rate": 3.957785035968792e-06,
      "loss": 0.4568460464477539,
      "memory(GiB)": 77.59,
      "step": 101825,
      "token_acc": 0.9037800687285223,
      "train_speed(iter/s)": 1.461545
    },
    {
      "epoch": 4.362709395484341,
      "grad_norm": 1.3973699808120728,
      "learning_rate": 3.955161309415078e-06,
      "loss": 0.3947919845581055,
      "memory(GiB)": 77.59,
      "step": 101830,
      "token_acc": 0.9163498098859315,
      "train_speed(iter/s)": 1.461544
    },
    {
      "epoch": 4.36292361081359,
      "grad_norm": 1.2139196395874023,
      "learning_rate": 3.9525384170068125e-06,
      "loss": 0.35262291431427,
      "memory(GiB)": 77.59,
      "step": 101835,
      "token_acc": 0.9166666666666666,
      "train_speed(iter/s)": 1.461549
    },
    {
      "epoch": 4.363137826142839,
      "grad_norm": 2.5453853607177734,
      "learning_rate": 3.949916358791511e-06,
      "loss": 0.15375845432281493,
      "memory(GiB)": 77.59,
      "step": 101840,
      "token_acc": 0.9693486590038314,
      "train_speed(iter/s)": 1.461561
    },
    {
      "epoch": 4.363352041472088,
      "grad_norm": 2.2748613357543945,
      "learning_rate": 3.94729513481667e-06,
      "loss": 0.2566936731338501,
      "memory(GiB)": 77.59,
      "step": 101845,
      "token_acc": 0.9508196721311475,
      "train_speed(iter/s)": 1.461562
    },
    {
      "epoch": 4.363566256801336,
      "grad_norm": 5.071557521820068,
      "learning_rate": 3.944674745129773e-06,
      "loss": 0.39788341522216797,
      "memory(GiB)": 77.59,
      "step": 101850,
      "token_acc": 0.9166666666666666,
      "train_speed(iter/s)": 1.461568
    },
    {
      "epoch": 4.3637804721305855,
      "grad_norm": 2.5756349563598633,
      "learning_rate": 3.942055189778305e-06,
      "loss": 0.4479671001434326,
      "memory(GiB)": 77.59,
      "step": 101855,
      "token_acc": 0.903125,
      "train_speed(iter/s)": 1.461569
    },
    {
      "epoch": 4.363994687459835,
      "grad_norm": 1.647615671157837,
      "learning_rate": 3.93943646880971e-06,
      "loss": 0.2498990774154663,
      "memory(GiB)": 77.59,
      "step": 101860,
      "token_acc": 0.9532163742690059,
      "train_speed(iter/s)": 1.461574
    },
    {
      "epoch": 4.364208902789084,
      "grad_norm": 0.8044785261154175,
      "learning_rate": 3.936818582271428e-06,
      "loss": 0.33151845932006835,
      "memory(GiB)": 77.59,
      "step": 101865,
      "token_acc": 0.9272727272727272,
      "train_speed(iter/s)": 1.461575
    },
    {
      "epoch": 4.364423118118332,
      "grad_norm": 7.6158552169799805,
      "learning_rate": 3.934201530210896e-06,
      "loss": 0.2685936450958252,
      "memory(GiB)": 77.59,
      "step": 101870,
      "token_acc": 0.9427609427609428,
      "train_speed(iter/s)": 1.461578
    },
    {
      "epoch": 4.364637333447582,
      "grad_norm": 5.383625030517578,
      "learning_rate": 3.931585312675512e-06,
      "loss": 0.3904134750366211,
      "memory(GiB)": 77.59,
      "step": 101875,
      "token_acc": 0.9099378881987578,
      "train_speed(iter/s)": 1.461589
    },
    {
      "epoch": 4.36485154877683,
      "grad_norm": 1.8554459810256958,
      "learning_rate": 3.928969929712673e-06,
      "loss": 0.2305997848510742,
      "memory(GiB)": 77.59,
      "step": 101880,
      "token_acc": 0.9457364341085271,
      "train_speed(iter/s)": 1.461587
    },
    {
      "epoch": 4.365065764106079,
      "grad_norm": 4.815619945526123,
      "learning_rate": 3.926355381369762e-06,
      "loss": 0.38931310176849365,
      "memory(GiB)": 77.59,
      "step": 101885,
      "token_acc": 0.9245283018867925,
      "train_speed(iter/s)": 1.461593
    },
    {
      "epoch": 4.3652799794353285,
      "grad_norm": 3.7353384494781494,
      "learning_rate": 3.923741667694142e-06,
      "loss": 0.4138832092285156,
      "memory(GiB)": 77.59,
      "step": 101890,
      "token_acc": 0.9059561128526645,
      "train_speed(iter/s)": 1.461602
    },
    {
      "epoch": 4.365494194764578,
      "grad_norm": 0.3971637487411499,
      "learning_rate": 3.921128788733169e-06,
      "loss": 0.1401178479194641,
      "memory(GiB)": 77.59,
      "step": 101895,
      "token_acc": 0.9742647058823529,
      "train_speed(iter/s)": 1.461616
    },
    {
      "epoch": 4.365708410093826,
      "grad_norm": 4.533706188201904,
      "learning_rate": 3.918516744534178e-06,
      "loss": 0.3286141395568848,
      "memory(GiB)": 77.59,
      "step": 101900,
      "token_acc": 0.924812030075188,
      "train_speed(iter/s)": 1.461625
    },
    {
      "epoch": 4.365922625423075,
      "grad_norm": 1.7424513101577759,
      "learning_rate": 3.915905535144482e-06,
      "loss": 0.35734717845916747,
      "memory(GiB)": 77.59,
      "step": 101905,
      "token_acc": 0.9368770764119602,
      "train_speed(iter/s)": 1.46163
    },
    {
      "epoch": 4.366136840752324,
      "grad_norm": 1.8957140445709229,
      "learning_rate": 3.9132951606113745e-06,
      "loss": 0.1937070369720459,
      "memory(GiB)": 77.59,
      "step": 101910,
      "token_acc": 0.9484848484848485,
      "train_speed(iter/s)": 1.461642
    },
    {
      "epoch": 4.366351056081573,
      "grad_norm": 0.40331918001174927,
      "learning_rate": 3.910685620982174e-06,
      "loss": 0.1674961566925049,
      "memory(GiB)": 77.59,
      "step": 101915,
      "token_acc": 0.9525547445255474,
      "train_speed(iter/s)": 1.461648
    },
    {
      "epoch": 4.366565271410822,
      "grad_norm": 0.3208419382572174,
      "learning_rate": 3.908076916304132e-06,
      "loss": 0.27214226722717283,
      "memory(GiB)": 77.59,
      "step": 101920,
      "token_acc": 0.9460916442048517,
      "train_speed(iter/s)": 1.461659
    },
    {
      "epoch": 4.3667794867400715,
      "grad_norm": 4.089642524719238,
      "learning_rate": 3.9054690466245215e-06,
      "loss": 0.22491135597229003,
      "memory(GiB)": 77.59,
      "step": 101925,
      "token_acc": 0.9340277777777778,
      "train_speed(iter/s)": 1.461658
    },
    {
      "epoch": 4.36699370206932,
      "grad_norm": 5.370346546173096,
      "learning_rate": 3.902862011990571e-06,
      "loss": 0.7127554893493653,
      "memory(GiB)": 77.59,
      "step": 101930,
      "token_acc": 0.8476190476190476,
      "train_speed(iter/s)": 1.461659
    },
    {
      "epoch": 4.367207917398569,
      "grad_norm": 14.827346801757812,
      "learning_rate": 3.900255812449527e-06,
      "loss": 0.4085966110229492,
      "memory(GiB)": 77.59,
      "step": 101935,
      "token_acc": 0.9019607843137255,
      "train_speed(iter/s)": 1.461663
    },
    {
      "epoch": 4.3674221327278175,
      "grad_norm": 2.4403719902038574,
      "learning_rate": 3.897650448048579e-06,
      "loss": 0.2543109655380249,
      "memory(GiB)": 77.59,
      "step": 101940,
      "token_acc": 0.9471830985915493,
      "train_speed(iter/s)": 1.461665
    },
    {
      "epoch": 4.367636348057067,
      "grad_norm": 5.025214195251465,
      "learning_rate": 3.89504591883495e-06,
      "loss": 0.39317007064819337,
      "memory(GiB)": 77.59,
      "step": 101945,
      "token_acc": 0.9123376623376623,
      "train_speed(iter/s)": 1.46167
    },
    {
      "epoch": 4.367850563386316,
      "grad_norm": 2.606553316116333,
      "learning_rate": 3.892442224855813e-06,
      "loss": 0.5154307365417481,
      "memory(GiB)": 77.59,
      "step": 101950,
      "token_acc": 0.8947368421052632,
      "train_speed(iter/s)": 1.46167
    },
    {
      "epoch": 4.368064778715565,
      "grad_norm": 3.939901828765869,
      "learning_rate": 3.889839366158343e-06,
      "loss": 0.3221132755279541,
      "memory(GiB)": 77.59,
      "step": 101955,
      "token_acc": 0.9210526315789473,
      "train_speed(iter/s)": 1.461672
    },
    {
      "epoch": 4.368278994044814,
      "grad_norm": 3.749378204345703,
      "learning_rate": 3.8872373427896735e-06,
      "loss": 0.22126731872558594,
      "memory(GiB)": 77.59,
      "step": 101960,
      "token_acc": 0.9446366782006921,
      "train_speed(iter/s)": 1.461674
    },
    {
      "epoch": 4.368493209374063,
      "grad_norm": 2.326178789138794,
      "learning_rate": 3.884636154796967e-06,
      "loss": 0.20393543243408202,
      "memory(GiB)": 77.59,
      "step": 101965,
      "token_acc": 0.9591836734693877,
      "train_speed(iter/s)": 1.461673
    },
    {
      "epoch": 4.368707424703311,
      "grad_norm": 3.9329895973205566,
      "learning_rate": 3.88203580222733e-06,
      "loss": 0.44348831176757814,
      "memory(GiB)": 77.59,
      "step": 101970,
      "token_acc": 0.931740614334471,
      "train_speed(iter/s)": 1.461674
    },
    {
      "epoch": 4.368921640032561,
      "grad_norm": 1.024096131324768,
      "learning_rate": 3.879436285127886e-06,
      "loss": 0.19640852212905885,
      "memory(GiB)": 77.59,
      "step": 101975,
      "token_acc": 0.9614147909967846,
      "train_speed(iter/s)": 1.461677
    },
    {
      "epoch": 4.36913585536181,
      "grad_norm": 5.384939670562744,
      "learning_rate": 3.876837603545713e-06,
      "loss": 0.24894320964813232,
      "memory(GiB)": 77.59,
      "step": 101980,
      "token_acc": 0.9470198675496688,
      "train_speed(iter/s)": 1.461683
    },
    {
      "epoch": 4.369350070691059,
      "grad_norm": 6.022385597229004,
      "learning_rate": 3.874239757527897e-06,
      "loss": 0.3017905235290527,
      "memory(GiB)": 77.59,
      "step": 101985,
      "token_acc": 0.9180887372013652,
      "train_speed(iter/s)": 1.461682
    },
    {
      "epoch": 4.369564286020307,
      "grad_norm": 2.108247756958008,
      "learning_rate": 3.8716427471214955e-06,
      "loss": 0.49773530960083007,
      "memory(GiB)": 77.59,
      "step": 101990,
      "token_acc": 0.8931750741839762,
      "train_speed(iter/s)": 1.461685
    },
    {
      "epoch": 4.369778501349557,
      "grad_norm": 3.4949393272399902,
      "learning_rate": 3.869046572373552e-06,
      "loss": 0.27514450550079345,
      "memory(GiB)": 77.59,
      "step": 101995,
      "token_acc": 0.9554655870445344,
      "train_speed(iter/s)": 1.461687
    },
    {
      "epoch": 4.369992716678805,
      "grad_norm": 3.176802635192871,
      "learning_rate": 3.866451233331108e-06,
      "loss": 0.31603026390075684,
      "memory(GiB)": 77.59,
      "step": 102000,
      "token_acc": 0.940983606557377,
      "train_speed(iter/s)": 1.461697
    },
    {
      "epoch": 4.369992716678805,
      "eval_loss": 2.4641153812408447,
      "eval_runtime": 11.5087,
      "eval_samples_per_second": 8.689,
      "eval_steps_per_second": 8.689,
      "eval_token_acc": 0.4796044499381953,
      "step": 102000
    },
    {
      "epoch": 4.370206932008054,
      "grad_norm": 4.355025291442871,
      "learning_rate": 3.863856730041182e-06,
      "loss": 0.3146980285644531,
      "memory(GiB)": 77.59,
      "step": 102005,
      "token_acc": 0.5923862581244197,
      "train_speed(iter/s)": 1.461438
    },
    {
      "epoch": 4.370421147337304,
      "grad_norm": 2.5635275840759277,
      "learning_rate": 3.861263062550769e-06,
      "loss": 0.2021177053451538,
      "memory(GiB)": 77.59,
      "step": 102010,
      "token_acc": 0.9551820728291317,
      "train_speed(iter/s)": 1.461441
    },
    {
      "epoch": 4.370635362666553,
      "grad_norm": 2.5807762145996094,
      "learning_rate": 3.858670230906852e-06,
      "loss": 0.27856030464172366,
      "memory(GiB)": 77.59,
      "step": 102015,
      "token_acc": 0.9335548172757475,
      "train_speed(iter/s)": 1.461444
    },
    {
      "epoch": 4.370849577995801,
      "grad_norm": 4.27592134475708,
      "learning_rate": 3.856078235156413e-06,
      "loss": 0.2849113464355469,
      "memory(GiB)": 77.59,
      "step": 102020,
      "token_acc": 0.948339483394834,
      "train_speed(iter/s)": 1.461444
    },
    {
      "epoch": 4.3710637933250505,
      "grad_norm": 3.182215690612793,
      "learning_rate": 3.853487075346396e-06,
      "loss": 0.33952698707580564,
      "memory(GiB)": 77.59,
      "step": 102025,
      "token_acc": 0.9180327868852459,
      "train_speed(iter/s)": 1.461456
    },
    {
      "epoch": 4.371278008654299,
      "grad_norm": 2.8106400966644287,
      "learning_rate": 3.850896751523758e-06,
      "loss": 0.2638895511627197,
      "memory(GiB)": 77.59,
      "step": 102030,
      "token_acc": 0.948051948051948,
      "train_speed(iter/s)": 1.461458
    },
    {
      "epoch": 4.371492223983548,
      "grad_norm": 1.0813570022583008,
      "learning_rate": 3.8483072637354065e-06,
      "loss": 0.2164360761642456,
      "memory(GiB)": 77.59,
      "step": 102035,
      "token_acc": 0.9449275362318841,
      "train_speed(iter/s)": 1.461459
    },
    {
      "epoch": 4.371706439312797,
      "grad_norm": 0.6909071207046509,
      "learning_rate": 3.845718612028271e-06,
      "loss": 0.3621103286743164,
      "memory(GiB)": 77.59,
      "step": 102040,
      "token_acc": 0.940983606557377,
      "train_speed(iter/s)": 1.461461
    },
    {
      "epoch": 4.371920654642047,
      "grad_norm": 0.13093999028205872,
      "learning_rate": 3.843130796449235e-06,
      "loss": 0.23465840816497802,
      "memory(GiB)": 77.59,
      "step": 102045,
      "token_acc": 0.9353846153846154,
      "train_speed(iter/s)": 1.461466
    },
    {
      "epoch": 4.372134869971295,
      "grad_norm": 3.0784857273101807,
      "learning_rate": 3.840543817045189e-06,
      "loss": 0.32766172885894773,
      "memory(GiB)": 77.59,
      "step": 102050,
      "token_acc": 0.9486166007905138,
      "train_speed(iter/s)": 1.46147
    },
    {
      "epoch": 4.372349085300544,
      "grad_norm": 2.2034151554107666,
      "learning_rate": 3.8379576738629856e-06,
      "loss": 0.4245858669281006,
      "memory(GiB)": 77.59,
      "step": 102055,
      "token_acc": 0.9154411764705882,
      "train_speed(iter/s)": 1.46147
    },
    {
      "epoch": 4.3725633006297935,
      "grad_norm": 2.6525607109069824,
      "learning_rate": 3.8353723669494855e-06,
      "loss": 0.2801202774047852,
      "memory(GiB)": 77.59,
      "step": 102060,
      "token_acc": 0.9317507418397626,
      "train_speed(iter/s)": 1.461481
    },
    {
      "epoch": 4.372777515959042,
      "grad_norm": 5.438822269439697,
      "learning_rate": 3.8327878963515256e-06,
      "loss": 0.2730985641479492,
      "memory(GiB)": 77.59,
      "step": 102065,
      "token_acc": 0.9392712550607287,
      "train_speed(iter/s)": 1.461483
    },
    {
      "epoch": 4.372991731288291,
      "grad_norm": 2.350632429122925,
      "learning_rate": 3.830204262115916e-06,
      "loss": 0.5251811981201172,
      "memory(GiB)": 77.59,
      "step": 102070,
      "token_acc": 0.8758169934640523,
      "train_speed(iter/s)": 1.461488
    },
    {
      "epoch": 4.37320594661754,
      "grad_norm": 3.361271858215332,
      "learning_rate": 3.827621464289471e-06,
      "loss": 0.4681502342224121,
      "memory(GiB)": 77.59,
      "step": 102075,
      "token_acc": 0.8914728682170543,
      "train_speed(iter/s)": 1.461489
    },
    {
      "epoch": 4.373420161946789,
      "grad_norm": 5.3332695960998535,
      "learning_rate": 3.825039502918965e-06,
      "loss": 0.30282676219940186,
      "memory(GiB)": 77.59,
      "step": 102080,
      "token_acc": 0.926056338028169,
      "train_speed(iter/s)": 1.46149
    },
    {
      "epoch": 4.373634377276038,
      "grad_norm": 1.5249265432357788,
      "learning_rate": 3.822458378051197e-06,
      "loss": 0.31638669967651367,
      "memory(GiB)": 77.59,
      "step": 102085,
      "token_acc": 0.9285714285714286,
      "train_speed(iter/s)": 1.461493
    },
    {
      "epoch": 4.373848592605287,
      "grad_norm": 2.708928108215332,
      "learning_rate": 3.819878089732909e-06,
      "loss": 0.21602962017059327,
      "memory(GiB)": 77.59,
      "step": 102090,
      "token_acc": 0.9352750809061489,
      "train_speed(iter/s)": 1.461492
    },
    {
      "epoch": 4.374062807934536,
      "grad_norm": 3.3237192630767822,
      "learning_rate": 3.817298638010852e-06,
      "loss": 0.2138505458831787,
      "memory(GiB)": 77.59,
      "step": 102095,
      "token_acc": 0.9508771929824561,
      "train_speed(iter/s)": 1.461493
    },
    {
      "epoch": 4.374277023263785,
      "grad_norm": 1.8579589128494263,
      "learning_rate": 3.814720022931756e-06,
      "loss": 0.27676384449005126,
      "memory(GiB)": 77.59,
      "step": 102100,
      "token_acc": 0.9541666666666667,
      "train_speed(iter/s)": 1.461493
    },
    {
      "epoch": 4.374491238593034,
      "grad_norm": 3.4839696884155273,
      "learning_rate": 3.812142244542327e-06,
      "loss": 0.4044055938720703,
      "memory(GiB)": 77.59,
      "step": 102105,
      "token_acc": 0.905511811023622,
      "train_speed(iter/s)": 1.461494
    },
    {
      "epoch": 4.3747054539222825,
      "grad_norm": 0.04992932081222534,
      "learning_rate": 3.809565302889262e-06,
      "loss": 0.5011977672576904,
      "memory(GiB)": 77.59,
      "step": 102110,
      "token_acc": 0.9124579124579124,
      "train_speed(iter/s)": 1.461503
    },
    {
      "epoch": 4.374919669251532,
      "grad_norm": 1.586935043334961,
      "learning_rate": 3.8069891980192507e-06,
      "loss": 0.1625565767288208,
      "memory(GiB)": 77.59,
      "step": 102115,
      "token_acc": 0.954954954954955,
      "train_speed(iter/s)": 1.461514
    },
    {
      "epoch": 4.375133884580781,
      "grad_norm": 3.315066337585449,
      "learning_rate": 3.8044139299789727e-06,
      "loss": 0.4399867057800293,
      "memory(GiB)": 77.59,
      "step": 102120,
      "token_acc": 0.9064516129032258,
      "train_speed(iter/s)": 1.461523
    },
    {
      "epoch": 4.375348099910029,
      "grad_norm": 1.9830241203308105,
      "learning_rate": 3.801839498815074e-06,
      "loss": 0.36542794704437254,
      "memory(GiB)": 77.59,
      "step": 102125,
      "token_acc": 0.9261992619926199,
      "train_speed(iter/s)": 1.461532
    },
    {
      "epoch": 4.375562315239279,
      "grad_norm": 3.123833179473877,
      "learning_rate": 3.799265904574184e-06,
      "loss": 0.2062601089477539,
      "memory(GiB)": 77.59,
      "step": 102130,
      "token_acc": 0.9529411764705882,
      "train_speed(iter/s)": 1.461547
    },
    {
      "epoch": 4.375776530568528,
      "grad_norm": 2.792893886566162,
      "learning_rate": 3.7966931473029378e-06,
      "loss": 0.32528746128082275,
      "memory(GiB)": 77.59,
      "step": 102135,
      "token_acc": 0.9173913043478261,
      "train_speed(iter/s)": 1.461549
    },
    {
      "epoch": 4.375990745897776,
      "grad_norm": 3.5598254203796387,
      "learning_rate": 3.7941212270479254e-06,
      "loss": 0.4253571033477783,
      "memory(GiB)": 77.59,
      "step": 102140,
      "token_acc": 0.90625,
      "train_speed(iter/s)": 1.461552
    },
    {
      "epoch": 4.3762049612270255,
      "grad_norm": 1.6678985357284546,
      "learning_rate": 3.79155014385576e-06,
      "loss": 0.4398487567901611,
      "memory(GiB)": 77.59,
      "step": 102145,
      "token_acc": 0.9029850746268657,
      "train_speed(iter/s)": 1.461557
    },
    {
      "epoch": 4.376419176556275,
      "grad_norm": 3.3122050762176514,
      "learning_rate": 3.7889798977730153e-06,
      "loss": 0.3324385643005371,
      "memory(GiB)": 77.59,
      "step": 102150,
      "token_acc": 0.9306569343065694,
      "train_speed(iter/s)": 1.461566
    },
    {
      "epoch": 4.376633391885523,
      "grad_norm": 0.09385988861322403,
      "learning_rate": 3.7864104888462425e-06,
      "loss": 0.33106389045715334,
      "memory(GiB)": 77.59,
      "step": 102155,
      "token_acc": 0.9469964664310954,
      "train_speed(iter/s)": 1.461571
    },
    {
      "epoch": 4.376847607214772,
      "grad_norm": 2.6181530952453613,
      "learning_rate": 3.783841917122e-06,
      "loss": 0.46223154067993166,
      "memory(GiB)": 77.59,
      "step": 102160,
      "token_acc": 0.9153605015673981,
      "train_speed(iter/s)": 1.46158
    },
    {
      "epoch": 4.377061822544022,
      "grad_norm": 2.7445573806762695,
      "learning_rate": 3.781274182646816e-06,
      "loss": 0.5343538284301758,
      "memory(GiB)": 77.59,
      "step": 102165,
      "token_acc": 0.8923076923076924,
      "train_speed(iter/s)": 1.46158
    },
    {
      "epoch": 4.37727603787327,
      "grad_norm": 2.206979513168335,
      "learning_rate": 3.778707285467198e-06,
      "loss": 0.38041462898254397,
      "memory(GiB)": 77.59,
      "step": 102170,
      "token_acc": 0.9037037037037037,
      "train_speed(iter/s)": 1.461592
    },
    {
      "epoch": 4.377490253202519,
      "grad_norm": 3.403134822845459,
      "learning_rate": 3.776141225629659e-06,
      "loss": 0.44957818984985354,
      "memory(GiB)": 77.59,
      "step": 102175,
      "token_acc": 0.9042145593869731,
      "train_speed(iter/s)": 1.461595
    },
    {
      "epoch": 4.3777044685317685,
      "grad_norm": 2.288938283920288,
      "learning_rate": 3.77357600318069e-06,
      "loss": 0.3415544509887695,
      "memory(GiB)": 77.59,
      "step": 102180,
      "token_acc": 0.9361702127659575,
      "train_speed(iter/s)": 1.461597
    },
    {
      "epoch": 4.377918683861017,
      "grad_norm": 1.7407089471817017,
      "learning_rate": 3.7710116181667422e-06,
      "loss": 0.23670122623443604,
      "memory(GiB)": 77.59,
      "step": 102185,
      "token_acc": 0.96,
      "train_speed(iter/s)": 1.461604
    },
    {
      "epoch": 4.378132899190266,
      "grad_norm": 5.118200778961182,
      "learning_rate": 3.7684480706343005e-06,
      "loss": 0.2710652589797974,
      "memory(GiB)": 77.59,
      "step": 102190,
      "token_acc": 0.9302325581395349,
      "train_speed(iter/s)": 1.461604
    },
    {
      "epoch": 4.378347114519515,
      "grad_norm": 2.9111225605010986,
      "learning_rate": 3.765885360629784e-06,
      "loss": 0.39656968116760255,
      "memory(GiB)": 77.59,
      "step": 102195,
      "token_acc": 0.8962536023054755,
      "train_speed(iter/s)": 1.461613
    },
    {
      "epoch": 4.378561329848764,
      "grad_norm": 3.7352962493896484,
      "learning_rate": 3.7633234881996216e-06,
      "loss": 0.4090108871459961,
      "memory(GiB)": 77.59,
      "step": 102200,
      "token_acc": 0.9064748201438849,
      "train_speed(iter/s)": 1.461615
    },
    {
      "epoch": 4.378775545178013,
      "grad_norm": 5.277361869812012,
      "learning_rate": 3.760762453390232e-06,
      "loss": 0.5274491786956788,
      "memory(GiB)": 77.59,
      "step": 102205,
      "token_acc": 0.8618181818181818,
      "train_speed(iter/s)": 1.461624
    },
    {
      "epoch": 4.378989760507262,
      "grad_norm": 3.0570034980773926,
      "learning_rate": 3.7582022562480112e-06,
      "loss": 0.22461531162261963,
      "memory(GiB)": 77.59,
      "step": 102210,
      "token_acc": 0.9391634980988594,
      "train_speed(iter/s)": 1.461626
    },
    {
      "epoch": 4.379203975836511,
      "grad_norm": 3.483116865158081,
      "learning_rate": 3.7556428968193335e-06,
      "loss": 0.31414659023284913,
      "memory(GiB)": 77.59,
      "step": 102215,
      "token_acc": 0.9124087591240876,
      "train_speed(iter/s)": 1.461636
    },
    {
      "epoch": 4.37941819116576,
      "grad_norm": 1.7668254375457764,
      "learning_rate": 3.7530843751505617e-06,
      "loss": 0.3265772581100464,
      "memory(GiB)": 77.59,
      "step": 102220,
      "token_acc": 0.939799331103679,
      "train_speed(iter/s)": 1.461638
    },
    {
      "epoch": 4.379632406495009,
      "grad_norm": 7.588313579559326,
      "learning_rate": 3.7505266912880423e-06,
      "loss": 0.4738770484924316,
      "memory(GiB)": 77.59,
      "step": 102225,
      "token_acc": 0.9125475285171103,
      "train_speed(iter/s)": 1.461639
    },
    {
      "epoch": 4.3798466218242575,
      "grad_norm": 3.910344362258911,
      "learning_rate": 3.7479698452781264e-06,
      "loss": 0.3542048692703247,
      "memory(GiB)": 77.59,
      "step": 102230,
      "token_acc": 0.9190283400809717,
      "train_speed(iter/s)": 1.461639
    },
    {
      "epoch": 4.380060837153507,
      "grad_norm": 4.197340488433838,
      "learning_rate": 3.7454138371671275e-06,
      "loss": 0.3768757343292236,
      "memory(GiB)": 77.59,
      "step": 102235,
      "token_acc": 0.9121813031161473,
      "train_speed(iter/s)": 1.461647
    },
    {
      "epoch": 4.380275052482756,
      "grad_norm": 2.8908355236053467,
      "learning_rate": 3.742858667001342e-06,
      "loss": 0.33346781730651853,
      "memory(GiB)": 77.59,
      "step": 102240,
      "token_acc": 0.9399141630901288,
      "train_speed(iter/s)": 1.461649
    },
    {
      "epoch": 4.380489267812004,
      "grad_norm": 2.5546483993530273,
      "learning_rate": 3.7403043348270716e-06,
      "loss": 0.38528740406036377,
      "memory(GiB)": 77.59,
      "step": 102245,
      "token_acc": 0.9142011834319527,
      "train_speed(iter/s)": 1.461652
    },
    {
      "epoch": 4.380703483141254,
      "grad_norm": 0.21504853665828705,
      "learning_rate": 3.737750840690579e-06,
      "loss": 0.2248504638671875,
      "memory(GiB)": 77.59,
      "step": 102250,
      "token_acc": 0.9469387755102041,
      "train_speed(iter/s)": 1.461657
    },
    {
      "epoch": 4.380917698470503,
      "grad_norm": 3.3261919021606445,
      "learning_rate": 3.735198184638117e-06,
      "loss": 0.29215245246887206,
      "memory(GiB)": 77.59,
      "step": 102255,
      "token_acc": 0.9368421052631579,
      "train_speed(iter/s)": 1.461662
    },
    {
      "epoch": 4.381131913799751,
      "grad_norm": 2.1280808448791504,
      "learning_rate": 3.732646366715942e-06,
      "loss": 0.19314701557159425,
      "memory(GiB)": 77.59,
      "step": 102260,
      "token_acc": 0.9508196721311475,
      "train_speed(iter/s)": 1.46166
    },
    {
      "epoch": 4.381346129129001,
      "grad_norm": 4.255247116088867,
      "learning_rate": 3.7300953869702894e-06,
      "loss": 0.2570141315460205,
      "memory(GiB)": 77.59,
      "step": 102265,
      "token_acc": 0.9490196078431372,
      "train_speed(iter/s)": 1.461661
    },
    {
      "epoch": 4.38156034445825,
      "grad_norm": 5.97975492477417,
      "learning_rate": 3.7275452454473613e-06,
      "loss": 0.6265383243560791,
      "memory(GiB)": 77.59,
      "step": 102270,
      "token_acc": 0.8812260536398467,
      "train_speed(iter/s)": 1.461662
    },
    {
      "epoch": 4.381774559787498,
      "grad_norm": 4.606752872467041,
      "learning_rate": 3.72499594219336e-06,
      "loss": 0.32615563869476316,
      "memory(GiB)": 77.59,
      "step": 102275,
      "token_acc": 0.9247311827956989,
      "train_speed(iter/s)": 1.461667
    },
    {
      "epoch": 4.3819887751167474,
      "grad_norm": 8.472163200378418,
      "learning_rate": 3.7224474772544706e-06,
      "loss": 0.25363898277282715,
      "memory(GiB)": 77.59,
      "step": 102280,
      "token_acc": 0.9336099585062241,
      "train_speed(iter/s)": 1.461667
    },
    {
      "epoch": 4.382202990445997,
      "grad_norm": 5.281009674072266,
      "learning_rate": 3.7198998506768444e-06,
      "loss": 0.32066295146942136,
      "memory(GiB)": 77.59,
      "step": 102285,
      "token_acc": 0.9321533923303835,
      "train_speed(iter/s)": 1.461668
    },
    {
      "epoch": 4.382417205775245,
      "grad_norm": 4.07383394241333,
      "learning_rate": 3.717353062506651e-06,
      "loss": 0.3818878412246704,
      "memory(GiB)": 77.59,
      "step": 102290,
      "token_acc": 0.9049079754601227,
      "train_speed(iter/s)": 1.46167
    },
    {
      "epoch": 4.382631421104494,
      "grad_norm": 4.343846797943115,
      "learning_rate": 3.714807112790031e-06,
      "loss": 0.5380324363708496,
      "memory(GiB)": 77.59,
      "step": 102295,
      "token_acc": 0.8942598187311178,
      "train_speed(iter/s)": 1.461673
    },
    {
      "epoch": 4.382845636433744,
      "grad_norm": 1.8611286878585815,
      "learning_rate": 3.7122620015730967e-06,
      "loss": 0.1895733118057251,
      "memory(GiB)": 77.59,
      "step": 102300,
      "token_acc": 0.9563636363636364,
      "train_speed(iter/s)": 1.461677
    },
    {
      "epoch": 4.383059851762992,
      "grad_norm": 0.7110298275947571,
      "learning_rate": 3.709717728901957e-06,
      "loss": 0.28327958583831786,
      "memory(GiB)": 77.59,
      "step": 102305,
      "token_acc": 0.9477611940298507,
      "train_speed(iter/s)": 1.461682
    },
    {
      "epoch": 4.383274067092241,
      "grad_norm": 5.127408981323242,
      "learning_rate": 3.707174294822702e-06,
      "loss": 0.35574390888214114,
      "memory(GiB)": 77.59,
      "step": 102310,
      "token_acc": 0.9277566539923955,
      "train_speed(iter/s)": 1.461685
    },
    {
      "epoch": 4.3834882824214905,
      "grad_norm": 2.908517360687256,
      "learning_rate": 3.7046316993814058e-06,
      "loss": 0.30460076332092284,
      "memory(GiB)": 77.59,
      "step": 102315,
      "token_acc": 0.9301470588235294,
      "train_speed(iter/s)": 1.461684
    },
    {
      "epoch": 4.383702497750739,
      "grad_norm": 2.281994342803955,
      "learning_rate": 3.702089942624143e-06,
      "loss": 0.2784027338027954,
      "memory(GiB)": 77.59,
      "step": 102320,
      "token_acc": 0.9311377245508982,
      "train_speed(iter/s)": 1.461695
    },
    {
      "epoch": 4.383916713079988,
      "grad_norm": 2.508723020553589,
      "learning_rate": 3.699549024596949e-06,
      "loss": 0.34990129470825193,
      "memory(GiB)": 77.59,
      "step": 102325,
      "token_acc": 0.9302325581395349,
      "train_speed(iter/s)": 1.461693
    },
    {
      "epoch": 4.384130928409237,
      "grad_norm": 3.4977517127990723,
      "learning_rate": 3.6970089453458534e-06,
      "loss": 0.25562572479248047,
      "memory(GiB)": 77.59,
      "step": 102330,
      "token_acc": 0.9494949494949495,
      "train_speed(iter/s)": 1.461703
    },
    {
      "epoch": 4.384345143738486,
      "grad_norm": 2.948971748352051,
      "learning_rate": 3.6944697049168807e-06,
      "loss": 0.5267543315887451,
      "memory(GiB)": 77.59,
      "step": 102335,
      "token_acc": 0.8648648648648649,
      "train_speed(iter/s)": 1.461704
    },
    {
      "epoch": 4.384559359067735,
      "grad_norm": 0.2734977900981903,
      "learning_rate": 3.6919313033560278e-06,
      "loss": 0.1963382840156555,
      "memory(GiB)": 77.59,
      "step": 102340,
      "token_acc": 0.9551282051282052,
      "train_speed(iter/s)": 1.461706
    },
    {
      "epoch": 4.384773574396984,
      "grad_norm": 3.365936756134033,
      "learning_rate": 3.689393740709274e-06,
      "loss": 0.4224372863769531,
      "memory(GiB)": 77.59,
      "step": 102345,
      "token_acc": 0.9130434782608695,
      "train_speed(iter/s)": 1.461707
    },
    {
      "epoch": 4.384987789726233,
      "grad_norm": 2.464747428894043,
      "learning_rate": 3.686857017022605e-06,
      "loss": 0.3576180458068848,
      "memory(GiB)": 77.59,
      "step": 102350,
      "token_acc": 0.9096209912536443,
      "train_speed(iter/s)": 1.461705
    },
    {
      "epoch": 4.385202005055482,
      "grad_norm": 5.809988021850586,
      "learning_rate": 3.684321132341961e-06,
      "loss": 0.4668510913848877,
      "memory(GiB)": 77.59,
      "step": 102355,
      "token_acc": 0.896797153024911,
      "train_speed(iter/s)": 1.461702
    },
    {
      "epoch": 4.385416220384731,
      "grad_norm": 5.292524814605713,
      "learning_rate": 3.681786086713296e-06,
      "loss": 0.3473869800567627,
      "memory(GiB)": 77.59,
      "step": 102360,
      "token_acc": 0.9262295081967213,
      "train_speed(iter/s)": 1.461705
    },
    {
      "epoch": 4.3856304357139795,
      "grad_norm": 3.1446986198425293,
      "learning_rate": 3.679251880182516e-06,
      "loss": 0.1258687973022461,
      "memory(GiB)": 77.59,
      "step": 102365,
      "token_acc": 0.9693877551020408,
      "train_speed(iter/s)": 1.461712
    },
    {
      "epoch": 4.385844651043229,
      "grad_norm": 4.462905406951904,
      "learning_rate": 3.6767185127955407e-06,
      "loss": 0.2912299633026123,
      "memory(GiB)": 77.59,
      "step": 102370,
      "token_acc": 0.932258064516129,
      "train_speed(iter/s)": 1.461718
    },
    {
      "epoch": 4.386058866372478,
      "grad_norm": 4.395513534545898,
      "learning_rate": 3.674185984598266e-06,
      "loss": 0.3679506301879883,
      "memory(GiB)": 77.59,
      "step": 102375,
      "token_acc": 0.9251968503937008,
      "train_speed(iter/s)": 1.461719
    },
    {
      "epoch": 4.386273081701726,
      "grad_norm": 3.4851160049438477,
      "learning_rate": 3.671654295636573e-06,
      "loss": 0.5018876552581787,
      "memory(GiB)": 77.59,
      "step": 102380,
      "token_acc": 0.8850574712643678,
      "train_speed(iter/s)": 1.461719
    },
    {
      "epoch": 4.386487297030976,
      "grad_norm": 3.5747616291046143,
      "learning_rate": 3.669123445956324e-06,
      "loss": 0.46192479133605957,
      "memory(GiB)": 77.59,
      "step": 102385,
      "token_acc": 0.9181494661921709,
      "train_speed(iter/s)": 1.461721
    },
    {
      "epoch": 4.386701512360225,
      "grad_norm": 4.371147632598877,
      "learning_rate": 3.6665934356033604e-06,
      "loss": 0.39331004619598386,
      "memory(GiB)": 77.59,
      "step": 102390,
      "token_acc": 0.926984126984127,
      "train_speed(iter/s)": 1.461727
    },
    {
      "epoch": 4.386915727689473,
      "grad_norm": 3.4904890060424805,
      "learning_rate": 3.6640642646235236e-06,
      "loss": 0.2118804931640625,
      "memory(GiB)": 77.59,
      "step": 102395,
      "token_acc": 0.9558823529411765,
      "train_speed(iter/s)": 1.461738
    },
    {
      "epoch": 4.3871299430187225,
      "grad_norm": 4.386895656585693,
      "learning_rate": 3.661535933062621e-06,
      "loss": 0.17630693912506104,
      "memory(GiB)": 77.59,
      "step": 102400,
      "token_acc": 0.9547169811320755,
      "train_speed(iter/s)": 1.461749
    },
    {
      "epoch": 4.387344158347972,
      "grad_norm": 3.317685842514038,
      "learning_rate": 3.6590084409664605e-06,
      "loss": 0.4723381996154785,
      "memory(GiB)": 77.59,
      "step": 102405,
      "token_acc": 0.8910505836575876,
      "train_speed(iter/s)": 1.461761
    },
    {
      "epoch": 4.38755837367722,
      "grad_norm": 3.6400418281555176,
      "learning_rate": 3.65648178838085e-06,
      "loss": 0.255877161026001,
      "memory(GiB)": 77.59,
      "step": 102410,
      "token_acc": 0.9476744186046512,
      "train_speed(iter/s)": 1.461759
    },
    {
      "epoch": 4.387772589006469,
      "grad_norm": 3.5361557006835938,
      "learning_rate": 3.653955975351536e-06,
      "loss": 0.43622617721557616,
      "memory(GiB)": 77.59,
      "step": 102415,
      "token_acc": 0.9172413793103448,
      "train_speed(iter/s)": 1.461756
    },
    {
      "epoch": 4.387986804335719,
      "grad_norm": 4.188658714294434,
      "learning_rate": 3.651431001924294e-06,
      "loss": 0.46804094314575195,
      "memory(GiB)": 77.59,
      "step": 102420,
      "token_acc": 0.891566265060241,
      "train_speed(iter/s)": 1.461759
    },
    {
      "epoch": 4.388201019664967,
      "grad_norm": 3.9986352920532227,
      "learning_rate": 3.6489068681448522e-06,
      "loss": 0.30974640846252444,
      "memory(GiB)": 77.59,
      "step": 102425,
      "token_acc": 0.9318181818181818,
      "train_speed(iter/s)": 1.461764
    },
    {
      "epoch": 4.388415234994216,
      "grad_norm": 3.182584047317505,
      "learning_rate": 3.646383574058937e-06,
      "loss": 0.36996827125549314,
      "memory(GiB)": 77.59,
      "step": 102430,
      "token_acc": 0.926530612244898,
      "train_speed(iter/s)": 1.461771
    },
    {
      "epoch": 4.3886294503234655,
      "grad_norm": 2.0164737701416016,
      "learning_rate": 3.6438611197122773e-06,
      "loss": 0.1990032434463501,
      "memory(GiB)": 77.59,
      "step": 102435,
      "token_acc": 0.9568106312292359,
      "train_speed(iter/s)": 1.461778
    },
    {
      "epoch": 4.388843665652714,
      "grad_norm": 0.38420239090919495,
      "learning_rate": 3.641339505150554e-06,
      "loss": 0.2876487970352173,
      "memory(GiB)": 77.59,
      "step": 102440,
      "token_acc": 0.9326923076923077,
      "train_speed(iter/s)": 1.461788
    },
    {
      "epoch": 4.389057880981963,
      "grad_norm": 2.108255386352539,
      "learning_rate": 3.6388187304194577e-06,
      "loss": 0.3158128023147583,
      "memory(GiB)": 77.59,
      "step": 102445,
      "token_acc": 0.9151515151515152,
      "train_speed(iter/s)": 1.461796
    },
    {
      "epoch": 4.389272096311212,
      "grad_norm": 2.201242446899414,
      "learning_rate": 3.6362987955646468e-06,
      "loss": 0.2009979248046875,
      "memory(GiB)": 77.59,
      "step": 102450,
      "token_acc": 0.9550561797752809,
      "train_speed(iter/s)": 1.4618
    },
    {
      "epoch": 4.389486311640461,
      "grad_norm": 2.6465301513671875,
      "learning_rate": 3.6337797006317785e-06,
      "loss": 0.2753817081451416,
      "memory(GiB)": 77.59,
      "step": 102455,
      "token_acc": 0.9303030303030303,
      "train_speed(iter/s)": 1.461804
    },
    {
      "epoch": 4.38970052696971,
      "grad_norm": 0.2991377115249634,
      "learning_rate": 3.6312614456664782e-06,
      "loss": 0.24895410537719725,
      "memory(GiB)": 77.59,
      "step": 102460,
      "token_acc": 0.9413919413919414,
      "train_speed(iter/s)": 1.461804
    },
    {
      "epoch": 4.389914742298959,
      "grad_norm": 6.315512180328369,
      "learning_rate": 3.6287440307143816e-06,
      "loss": 0.6218793869018555,
      "memory(GiB)": 77.59,
      "step": 102465,
      "token_acc": 0.856,
      "train_speed(iter/s)": 1.461812
    },
    {
      "epoch": 4.390128957628208,
      "grad_norm": 4.499445915222168,
      "learning_rate": 3.6262274558210852e-06,
      "loss": 0.28575022220611573,
      "memory(GiB)": 77.59,
      "step": 102470,
      "token_acc": 0.9420289855072463,
      "train_speed(iter/s)": 1.461815
    },
    {
      "epoch": 4.390343172957457,
      "grad_norm": 3.677151918411255,
      "learning_rate": 3.6237117210321802e-06,
      "loss": 0.4551736831665039,
      "memory(GiB)": 77.59,
      "step": 102475,
      "token_acc": 0.9006410256410257,
      "train_speed(iter/s)": 1.461824
    },
    {
      "epoch": 4.390557388286706,
      "grad_norm": 3.969635486602783,
      "learning_rate": 3.621196826393236e-06,
      "loss": 0.4643622875213623,
      "memory(GiB)": 77.59,
      "step": 102480,
      "token_acc": 0.8952702702702703,
      "train_speed(iter/s)": 1.461829
    },
    {
      "epoch": 4.3907716036159545,
      "grad_norm": 1.7899168729782104,
      "learning_rate": 3.6186827719498272e-06,
      "loss": 0.2406458616256714,
      "memory(GiB)": 77.59,
      "step": 102485,
      "token_acc": 0.9367469879518072,
      "train_speed(iter/s)": 1.461832
    },
    {
      "epoch": 4.390985818945204,
      "grad_norm": 4.503034591674805,
      "learning_rate": 3.6161695577474784e-06,
      "loss": 0.23692913055419923,
      "memory(GiB)": 77.59,
      "step": 102490,
      "token_acc": 0.9444444444444444,
      "train_speed(iter/s)": 1.461835
    },
    {
      "epoch": 4.391200034274453,
      "grad_norm": 2.3433620929718018,
      "learning_rate": 3.613657183831737e-06,
      "loss": 0.2792028903961182,
      "memory(GiB)": 77.59,
      "step": 102495,
      "token_acc": 0.9422492401215805,
      "train_speed(iter/s)": 1.461837
    },
    {
      "epoch": 4.391414249603701,
      "grad_norm": 0.7329298257827759,
      "learning_rate": 3.61114565024811e-06,
      "loss": 0.24666173458099366,
      "memory(GiB)": 77.59,
      "step": 102500,
      "token_acc": 0.9285714285714286,
      "train_speed(iter/s)": 1.461839
    },
    {
      "epoch": 4.391414249603701,
      "eval_loss": 2.391770839691162,
      "eval_runtime": 11.8328,
      "eval_samples_per_second": 8.451,
      "eval_steps_per_second": 8.451,
      "eval_token_acc": 0.48493543758967,
      "step": 102500
    },
    {
      "epoch": 4.391628464932951,
      "grad_norm": 2.048659563064575,
      "learning_rate": 3.608634957042095e-06,
      "loss": 0.16136748790740968,
      "memory(GiB)": 77.59,
      "step": 102505,
      "token_acc": 0.6058002148227712,
      "train_speed(iter/s)": 1.461572
    },
    {
      "epoch": 4.3918426802622,
      "grad_norm": 2.333728551864624,
      "learning_rate": 3.6061251042591837e-06,
      "loss": 0.33780612945556643,
      "memory(GiB)": 77.59,
      "step": 102510,
      "token_acc": 0.9146757679180887,
      "train_speed(iter/s)": 1.461584
    },
    {
      "epoch": 4.392056895591448,
      "grad_norm": 1.9740017652511597,
      "learning_rate": 3.6036160919448226e-06,
      "loss": 0.32034764289855955,
      "memory(GiB)": 77.59,
      "step": 102515,
      "token_acc": 0.8913043478260869,
      "train_speed(iter/s)": 1.461582
    },
    {
      "epoch": 4.3922711109206976,
      "grad_norm": 7.204108715057373,
      "learning_rate": 3.6011079201444865e-06,
      "loss": 0.32154016494750975,
      "memory(GiB)": 77.59,
      "step": 102520,
      "token_acc": 0.9359430604982206,
      "train_speed(iter/s)": 1.461584
    },
    {
      "epoch": 4.392485326249947,
      "grad_norm": 6.103866100311279,
      "learning_rate": 3.598600588903611e-06,
      "loss": 0.3159912109375,
      "memory(GiB)": 77.59,
      "step": 102525,
      "token_acc": 0.9103448275862069,
      "train_speed(iter/s)": 1.461595
    },
    {
      "epoch": 4.392699541579195,
      "grad_norm": 1.4474844932556152,
      "learning_rate": 3.5960940982676105e-06,
      "loss": 0.2742654800415039,
      "memory(GiB)": 77.59,
      "step": 102530,
      "token_acc": 0.9214876033057852,
      "train_speed(iter/s)": 1.461604
    },
    {
      "epoch": 4.392913756908444,
      "grad_norm": 2.4413344860076904,
      "learning_rate": 3.593588448281893e-06,
      "loss": 0.26729907989501955,
      "memory(GiB)": 77.59,
      "step": 102535,
      "token_acc": 0.9409937888198758,
      "train_speed(iter/s)": 1.461605
    },
    {
      "epoch": 4.393127972237694,
      "grad_norm": 0.45717892050743103,
      "learning_rate": 3.59108363899186e-06,
      "loss": 0.23000712394714357,
      "memory(GiB)": 77.59,
      "step": 102540,
      "token_acc": 0.9546925566343042,
      "train_speed(iter/s)": 1.461607
    },
    {
      "epoch": 4.393342187566942,
      "grad_norm": 3.25498104095459,
      "learning_rate": 3.5885796704428707e-06,
      "loss": 0.4622795581817627,
      "memory(GiB)": 77.59,
      "step": 102545,
      "token_acc": 0.8637602179836512,
      "train_speed(iter/s)": 1.461608
    },
    {
      "epoch": 4.393556402896191,
      "grad_norm": 5.0804877281188965,
      "learning_rate": 3.5860765426803056e-06,
      "loss": 0.4416989326477051,
      "memory(GiB)": 77.59,
      "step": 102550,
      "token_acc": 0.919732441471572,
      "train_speed(iter/s)": 1.461613
    },
    {
      "epoch": 4.393770618225441,
      "grad_norm": 1.5724871158599854,
      "learning_rate": 3.5835742557494943e-06,
      "loss": 0.19895944595336915,
      "memory(GiB)": 77.59,
      "step": 102555,
      "token_acc": 0.9498525073746312,
      "train_speed(iter/s)": 1.461616
    },
    {
      "epoch": 4.393984833554689,
      "grad_norm": 2.2991015911102295,
      "learning_rate": 3.58107280969579e-06,
      "loss": 0.23524737358093262,
      "memory(GiB)": 77.59,
      "step": 102560,
      "token_acc": 0.9237668161434978,
      "train_speed(iter/s)": 1.461626
    },
    {
      "epoch": 4.394199048883938,
      "grad_norm": 3.0760507583618164,
      "learning_rate": 3.5785722045644898e-06,
      "loss": 0.3175687313079834,
      "memory(GiB)": 77.59,
      "step": 102565,
      "token_acc": 0.9174603174603174,
      "train_speed(iter/s)": 1.461622
    },
    {
      "epoch": 4.3944132642131875,
      "grad_norm": 1.947813868522644,
      "learning_rate": 3.576072440400907e-06,
      "loss": 0.30246145725250245,
      "memory(GiB)": 77.59,
      "step": 102570,
      "token_acc": 0.9383561643835616,
      "train_speed(iter/s)": 1.461622
    },
    {
      "epoch": 4.394627479542436,
      "grad_norm": 2.195233106613159,
      "learning_rate": 3.5735735172503117e-06,
      "loss": 0.3405130624771118,
      "memory(GiB)": 77.59,
      "step": 102575,
      "token_acc": 0.9246031746031746,
      "train_speed(iter/s)": 1.46163
    },
    {
      "epoch": 4.394841694871685,
      "grad_norm": 5.573729515075684,
      "learning_rate": 3.571075435157989e-06,
      "loss": 0.52567138671875,
      "memory(GiB)": 77.59,
      "step": 102580,
      "token_acc": 0.8847583643122676,
      "train_speed(iter/s)": 1.46164
    },
    {
      "epoch": 4.395055910200934,
      "grad_norm": 5.073814868927002,
      "learning_rate": 3.568578194169192e-06,
      "loss": 0.48814144134521487,
      "memory(GiB)": 77.59,
      "step": 102585,
      "token_acc": 0.8959731543624161,
      "train_speed(iter/s)": 1.461641
    },
    {
      "epoch": 4.395270125530183,
      "grad_norm": 1.3312805891036987,
      "learning_rate": 3.566081794329157e-06,
      "loss": 0.1289984703063965,
      "memory(GiB)": 77.59,
      "step": 102590,
      "token_acc": 0.9673202614379085,
      "train_speed(iter/s)": 1.461638
    },
    {
      "epoch": 4.395484340859432,
      "grad_norm": 1.4388551712036133,
      "learning_rate": 3.563586235683103e-06,
      "loss": 0.3014682769775391,
      "memory(GiB)": 77.59,
      "step": 102595,
      "token_acc": 0.9471830985915493,
      "train_speed(iter/s)": 1.461644
    },
    {
      "epoch": 4.395698556188681,
      "grad_norm": 0.7966964840888977,
      "learning_rate": 3.5610915182762492e-06,
      "loss": 0.23057498931884765,
      "memory(GiB)": 77.59,
      "step": 102600,
      "token_acc": 0.9456521739130435,
      "train_speed(iter/s)": 1.461644
    },
    {
      "epoch": 4.39591277151793,
      "grad_norm": 2.314239501953125,
      "learning_rate": 3.5585976421537825e-06,
      "loss": 0.21758484840393066,
      "memory(GiB)": 77.59,
      "step": 102605,
      "token_acc": 0.9509433962264151,
      "train_speed(iter/s)": 1.461647
    },
    {
      "epoch": 4.396126986847179,
      "grad_norm": 0.8191334009170532,
      "learning_rate": 3.556104607360888e-06,
      "loss": 0.3145124912261963,
      "memory(GiB)": 77.59,
      "step": 102610,
      "token_acc": 0.9333333333333333,
      "train_speed(iter/s)": 1.461648
    },
    {
      "epoch": 4.396341202176428,
      "grad_norm": 3.5111074447631836,
      "learning_rate": 3.553612413942725e-06,
      "loss": 0.38841824531555175,
      "memory(GiB)": 77.59,
      "step": 102615,
      "token_acc": 0.9047619047619048,
      "train_speed(iter/s)": 1.461648
    },
    {
      "epoch": 4.3965554175056765,
      "grad_norm": 2.1641955375671387,
      "learning_rate": 3.551121061944446e-06,
      "loss": 0.2914820671081543,
      "memory(GiB)": 77.59,
      "step": 102620,
      "token_acc": 0.935361216730038,
      "train_speed(iter/s)": 1.46165
    },
    {
      "epoch": 4.396769632834926,
      "grad_norm": 1.7196301221847534,
      "learning_rate": 3.5486305514111805e-06,
      "loss": 0.521583890914917,
      "memory(GiB)": 77.59,
      "step": 102625,
      "token_acc": 0.8884758364312267,
      "train_speed(iter/s)": 1.461658
    },
    {
      "epoch": 4.396983848164175,
      "grad_norm": 2.36441969871521,
      "learning_rate": 3.5461408823880437e-06,
      "loss": 0.32347052097320556,
      "memory(GiB)": 77.59,
      "step": 102630,
      "token_acc": 0.9288025889967637,
      "train_speed(iter/s)": 1.461665
    },
    {
      "epoch": 4.397198063493423,
      "grad_norm": 0.19503332674503326,
      "learning_rate": 3.543652054920138e-06,
      "loss": 0.18135302066802977,
      "memory(GiB)": 77.59,
      "step": 102635,
      "token_acc": 0.9592592592592593,
      "train_speed(iter/s)": 1.46167
    },
    {
      "epoch": 4.397412278822673,
      "grad_norm": 5.698501110076904,
      "learning_rate": 3.5411640690525606e-06,
      "loss": 0.41170196533203124,
      "memory(GiB)": 77.59,
      "step": 102640,
      "token_acc": 0.9227941176470589,
      "train_speed(iter/s)": 1.461688
    },
    {
      "epoch": 4.397626494151922,
      "grad_norm": 0.5087948441505432,
      "learning_rate": 3.538676924830381e-06,
      "loss": 0.39943063259124756,
      "memory(GiB)": 77.59,
      "step": 102645,
      "token_acc": 0.9297752808988764,
      "train_speed(iter/s)": 1.461695
    },
    {
      "epoch": 4.39784070948117,
      "grad_norm": 4.089905261993408,
      "learning_rate": 3.5361906222986517e-06,
      "loss": 0.4969949722290039,
      "memory(GiB)": 77.59,
      "step": 102650,
      "token_acc": 0.8931034482758621,
      "train_speed(iter/s)": 1.461697
    },
    {
      "epoch": 4.3980549248104195,
      "grad_norm": 3.7008562088012695,
      "learning_rate": 3.5337051615024207e-06,
      "loss": 0.44532098770141604,
      "memory(GiB)": 77.59,
      "step": 102655,
      "token_acc": 0.9114754098360656,
      "train_speed(iter/s)": 1.461717
    },
    {
      "epoch": 4.398269140139669,
      "grad_norm": 4.344244003295898,
      "learning_rate": 3.531220542486696e-06,
      "loss": 0.27587854862213135,
      "memory(GiB)": 77.59,
      "step": 102660,
      "token_acc": 0.9285714285714286,
      "train_speed(iter/s)": 1.46172
    },
    {
      "epoch": 4.398483355468917,
      "grad_norm": 4.399242877960205,
      "learning_rate": 3.528736765296514e-06,
      "loss": 0.37762112617492677,
      "memory(GiB)": 77.59,
      "step": 102665,
      "token_acc": 0.9150326797385621,
      "train_speed(iter/s)": 1.46172
    },
    {
      "epoch": 4.398697570798166,
      "grad_norm": 5.2246551513671875,
      "learning_rate": 3.5262538299768553e-06,
      "loss": 0.46307907104492185,
      "memory(GiB)": 77.59,
      "step": 102670,
      "token_acc": 0.8933333333333333,
      "train_speed(iter/s)": 1.461717
    },
    {
      "epoch": 4.398911786127416,
      "grad_norm": 2.062452554702759,
      "learning_rate": 3.5237717365727065e-06,
      "loss": 0.35749657154083253,
      "memory(GiB)": 77.59,
      "step": 102675,
      "token_acc": 0.9230769230769231,
      "train_speed(iter/s)": 1.461726
    },
    {
      "epoch": 4.399126001456664,
      "grad_norm": 2.472275972366333,
      "learning_rate": 3.521290485129031e-06,
      "loss": 0.3750325918197632,
      "memory(GiB)": 77.59,
      "step": 102680,
      "token_acc": 0.9076923076923077,
      "train_speed(iter/s)": 1.461725
    },
    {
      "epoch": 4.399340216785913,
      "grad_norm": 1.8292391300201416,
      "learning_rate": 3.5188100756907815e-06,
      "loss": 0.20286123752593993,
      "memory(GiB)": 77.59,
      "step": 102685,
      "token_acc": 0.9392265193370166,
      "train_speed(iter/s)": 1.461727
    },
    {
      "epoch": 4.3995544321151625,
      "grad_norm": 3.6729907989501953,
      "learning_rate": 3.5163305083028785e-06,
      "loss": 0.2172644853591919,
      "memory(GiB)": 77.59,
      "step": 102690,
      "token_acc": 0.950381679389313,
      "train_speed(iter/s)": 1.461737
    },
    {
      "epoch": 4.399768647444411,
      "grad_norm": 3.2817442417144775,
      "learning_rate": 3.5138517830102635e-06,
      "loss": 0.2413226842880249,
      "memory(GiB)": 77.59,
      "step": 102695,
      "token_acc": 0.9525316455696202,
      "train_speed(iter/s)": 1.46174
    },
    {
      "epoch": 4.39998286277366,
      "grad_norm": 8.16904354095459,
      "learning_rate": 3.5113738998578227e-06,
      "loss": 0.3455121278762817,
      "memory(GiB)": 77.59,
      "step": 102700,
      "token_acc": 0.9210526315789473,
      "train_speed(iter/s)": 1.461736
    },
    {
      "epoch": 4.400197078102909,
      "grad_norm": 0.735561728477478,
      "learning_rate": 3.5088968588904593e-06,
      "loss": 0.16072510480880736,
      "memory(GiB)": 77.59,
      "step": 102705,
      "token_acc": 0.95625,
      "train_speed(iter/s)": 1.46174
    },
    {
      "epoch": 4.400411293432158,
      "grad_norm": 3.969001054763794,
      "learning_rate": 3.5064206601530423e-06,
      "loss": 0.44601898193359374,
      "memory(GiB)": 77.59,
      "step": 102710,
      "token_acc": 0.9,
      "train_speed(iter/s)": 1.461742
    },
    {
      "epoch": 4.400625508761407,
      "grad_norm": 10.589555740356445,
      "learning_rate": 3.503945303690431e-06,
      "loss": 0.38328895568847654,
      "memory(GiB)": 77.59,
      "step": 102715,
      "token_acc": 0.9107806691449815,
      "train_speed(iter/s)": 1.461741
    },
    {
      "epoch": 4.400839724090656,
      "grad_norm": 1.2499158382415771,
      "learning_rate": 3.501470789547462e-06,
      "loss": 0.2574322700500488,
      "memory(GiB)": 77.59,
      "step": 102720,
      "token_acc": 0.9442622950819672,
      "train_speed(iter/s)": 1.461745
    },
    {
      "epoch": 4.401053939419905,
      "grad_norm": 2.580305337905884,
      "learning_rate": 3.4989971177689707e-06,
      "loss": 0.2892350196838379,
      "memory(GiB)": 77.59,
      "step": 102725,
      "token_acc": 0.9480968858131488,
      "train_speed(iter/s)": 1.461743
    },
    {
      "epoch": 4.401268154749154,
      "grad_norm": 3.7144367694854736,
      "learning_rate": 3.496524288399772e-06,
      "loss": 0.29452626705169677,
      "memory(GiB)": 77.59,
      "step": 102730,
      "token_acc": 0.9243986254295533,
      "train_speed(iter/s)": 1.461745
    },
    {
      "epoch": 4.401482370078403,
      "grad_norm": 1.9714329242706299,
      "learning_rate": 3.4940523014846572e-06,
      "loss": 0.2516180515289307,
      "memory(GiB)": 77.59,
      "step": 102735,
      "token_acc": 0.9333333333333333,
      "train_speed(iter/s)": 1.461744
    },
    {
      "epoch": 4.4016965854076515,
      "grad_norm": 2.675178050994873,
      "learning_rate": 3.491581157068413e-06,
      "loss": 0.2721111536026001,
      "memory(GiB)": 77.59,
      "step": 102740,
      "token_acc": 0.9301470588235294,
      "train_speed(iter/s)": 1.461741
    },
    {
      "epoch": 4.401910800736901,
      "grad_norm": 2.230192184448242,
      "learning_rate": 3.4891108551958042e-06,
      "loss": 0.3359892129898071,
      "memory(GiB)": 77.59,
      "step": 102745,
      "token_acc": 0.9236363636363636,
      "train_speed(iter/s)": 1.461741
    },
    {
      "epoch": 4.40212501606615,
      "grad_norm": 7.714084148406982,
      "learning_rate": 3.4866413959115774e-06,
      "loss": 0.4552027702331543,
      "memory(GiB)": 77.59,
      "step": 102750,
      "token_acc": 0.9291338582677166,
      "train_speed(iter/s)": 1.461742
    },
    {
      "epoch": 4.402339231395398,
      "grad_norm": 5.7099432945251465,
      "learning_rate": 3.4841727792604805e-06,
      "loss": 0.5711403846740722,
      "memory(GiB)": 77.59,
      "step": 102755,
      "token_acc": 0.8896321070234113,
      "train_speed(iter/s)": 1.461748
    },
    {
      "epoch": 4.402553446724648,
      "grad_norm": 4.2626471519470215,
      "learning_rate": 3.481705005287228e-06,
      "loss": 0.42557363510131835,
      "memory(GiB)": 77.59,
      "step": 102760,
      "token_acc": 0.9020979020979021,
      "train_speed(iter/s)": 1.46175
    },
    {
      "epoch": 4.402767662053897,
      "grad_norm": 2.5050432682037354,
      "learning_rate": 3.479238074036528e-06,
      "loss": 0.4330791473388672,
      "memory(GiB)": 77.59,
      "step": 102765,
      "token_acc": 0.9182156133828996,
      "train_speed(iter/s)": 1.461753
    },
    {
      "epoch": 4.402981877383145,
      "grad_norm": 2.3109946250915527,
      "learning_rate": 3.476771985553068e-06,
      "loss": 0.21892199516296387,
      "memory(GiB)": 77.59,
      "step": 102770,
      "token_acc": 0.9387096774193548,
      "train_speed(iter/s)": 1.461759
    },
    {
      "epoch": 4.4031960927123945,
      "grad_norm": 3.184223175048828,
      "learning_rate": 3.474306739881522e-06,
      "loss": 0.265102219581604,
      "memory(GiB)": 77.59,
      "step": 102775,
      "token_acc": 0.9360902255639098,
      "train_speed(iter/s)": 1.461757
    },
    {
      "epoch": 4.403410308041644,
      "grad_norm": 6.278067588806152,
      "learning_rate": 3.47184233706655e-06,
      "loss": 0.46890668869018554,
      "memory(GiB)": 77.59,
      "step": 102780,
      "token_acc": 0.9104938271604939,
      "train_speed(iter/s)": 1.461764
    },
    {
      "epoch": 4.403624523370892,
      "grad_norm": 1.0404518842697144,
      "learning_rate": 3.469378777152815e-06,
      "loss": 0.5796900749206543,
      "memory(GiB)": 77.59,
      "step": 102785,
      "token_acc": 0.896551724137931,
      "train_speed(iter/s)": 1.461764
    },
    {
      "epoch": 4.403838738700141,
      "grad_norm": 3.568281650543213,
      "learning_rate": 3.4669160601849272e-06,
      "loss": 0.3837564945220947,
      "memory(GiB)": 77.59,
      "step": 102790,
      "token_acc": 0.9130434782608695,
      "train_speed(iter/s)": 1.461777
    },
    {
      "epoch": 4.404052954029391,
      "grad_norm": 3.9995932579040527,
      "learning_rate": 3.4644541862075054e-06,
      "loss": 0.26158952713012695,
      "memory(GiB)": 77.59,
      "step": 102795,
      "token_acc": 0.9538461538461539,
      "train_speed(iter/s)": 1.461775
    },
    {
      "epoch": 4.404267169358639,
      "grad_norm": 2.556391477584839,
      "learning_rate": 3.461993155265153e-06,
      "loss": 0.4434248447418213,
      "memory(GiB)": 77.59,
      "step": 102800,
      "token_acc": 0.8849840255591054,
      "train_speed(iter/s)": 1.461778
    },
    {
      "epoch": 4.404481384687888,
      "grad_norm": 5.3142266273498535,
      "learning_rate": 3.4595329674024456e-06,
      "loss": 0.5525129795074463,
      "memory(GiB)": 77.59,
      "step": 102805,
      "token_acc": 0.8643533123028391,
      "train_speed(iter/s)": 1.461776
    },
    {
      "epoch": 4.404695600017138,
      "grad_norm": 3.071697473526001,
      "learning_rate": 3.4570736226639588e-06,
      "loss": 0.527379035949707,
      "memory(GiB)": 77.59,
      "step": 102810,
      "token_acc": 0.8947368421052632,
      "train_speed(iter/s)": 1.461782
    },
    {
      "epoch": 4.404909815346386,
      "grad_norm": 4.741899490356445,
      "learning_rate": 3.454615121094251e-06,
      "loss": 0.37799170017242434,
      "memory(GiB)": 77.59,
      "step": 102815,
      "token_acc": 0.9235880398671097,
      "train_speed(iter/s)": 1.461785
    },
    {
      "epoch": 4.405124030675635,
      "grad_norm": 5.575362205505371,
      "learning_rate": 3.4521574627378485e-06,
      "loss": 0.366666841506958,
      "memory(GiB)": 77.59,
      "step": 102820,
      "token_acc": 0.9426229508196722,
      "train_speed(iter/s)": 1.461796
    },
    {
      "epoch": 4.405338246004884,
      "grad_norm": 3.4542908668518066,
      "learning_rate": 3.4497006476392813e-06,
      "loss": 0.12348350286483764,
      "memory(GiB)": 77.59,
      "step": 102825,
      "token_acc": 0.967032967032967,
      "train_speed(iter/s)": 1.461794
    },
    {
      "epoch": 4.405552461334133,
      "grad_norm": 0.19625428318977356,
      "learning_rate": 3.4472446758430533e-06,
      "loss": 0.13078209161758422,
      "memory(GiB)": 77.59,
      "step": 102830,
      "token_acc": 0.9535714285714286,
      "train_speed(iter/s)": 1.461797
    },
    {
      "epoch": 4.405766676663382,
      "grad_norm": 2.357938289642334,
      "learning_rate": 3.4447895473936453e-06,
      "loss": 0.221488356590271,
      "memory(GiB)": 77.59,
      "step": 102835,
      "token_acc": 0.9513677811550152,
      "train_speed(iter/s)": 1.461801
    },
    {
      "epoch": 4.405980891992631,
      "grad_norm": 1.2171576023101807,
      "learning_rate": 3.442335262335561e-06,
      "loss": 0.21684799194335938,
      "memory(GiB)": 77.59,
      "step": 102840,
      "token_acc": 0.9526813880126183,
      "train_speed(iter/s)": 1.461799
    },
    {
      "epoch": 4.40619510732188,
      "grad_norm": 3.8824527263641357,
      "learning_rate": 3.439881820713248e-06,
      "loss": 0.5155314922332763,
      "memory(GiB)": 77.59,
      "step": 102845,
      "token_acc": 0.9025270758122743,
      "train_speed(iter/s)": 1.461796
    },
    {
      "epoch": 4.406409322651129,
      "grad_norm": 7.070133209228516,
      "learning_rate": 3.4374292225711423e-06,
      "loss": 0.48640899658203124,
      "memory(GiB)": 77.59,
      "step": 102850,
      "token_acc": 0.9175257731958762,
      "train_speed(iter/s)": 1.46179
    },
    {
      "epoch": 4.406623537980378,
      "grad_norm": 3.22446870803833,
      "learning_rate": 3.434977467953693e-06,
      "loss": 0.3248149394989014,
      "memory(GiB)": 77.59,
      "step": 102855,
      "token_acc": 0.935374149659864,
      "train_speed(iter/s)": 1.461792
    },
    {
      "epoch": 4.406837753309627,
      "grad_norm": 2.880044460296631,
      "learning_rate": 3.4325265569053134e-06,
      "loss": 0.2435028076171875,
      "memory(GiB)": 77.59,
      "step": 102860,
      "token_acc": 0.9566929133858267,
      "train_speed(iter/s)": 1.461796
    },
    {
      "epoch": 4.407051968638876,
      "grad_norm": 4.4944658279418945,
      "learning_rate": 3.430076489470385e-06,
      "loss": 0.1662289619445801,
      "memory(GiB)": 77.59,
      "step": 102865,
      "token_acc": 0.9552845528455285,
      "train_speed(iter/s)": 1.4618
    },
    {
      "epoch": 4.407266183968125,
      "grad_norm": 4.581160545349121,
      "learning_rate": 3.4276272656933174e-06,
      "loss": 0.4981378078460693,
      "memory(GiB)": 77.59,
      "step": 102870,
      "token_acc": 0.8928571428571429,
      "train_speed(iter/s)": 1.461803
    },
    {
      "epoch": 4.4074803992973735,
      "grad_norm": 6.126906871795654,
      "learning_rate": 3.425178885618474e-06,
      "loss": 0.31872031688690183,
      "memory(GiB)": 77.59,
      "step": 102875,
      "token_acc": 0.9328621908127208,
      "train_speed(iter/s)": 1.461811
    },
    {
      "epoch": 4.407694614626623,
      "grad_norm": 4.083532333374023,
      "learning_rate": 3.422731349290198e-06,
      "loss": 0.4504429340362549,
      "memory(GiB)": 77.59,
      "step": 102880,
      "token_acc": 0.8993288590604027,
      "train_speed(iter/s)": 1.461816
    },
    {
      "epoch": 4.407908829955872,
      "grad_norm": 5.509454250335693,
      "learning_rate": 3.4202846567528424e-06,
      "loss": 0.3151030302047729,
      "memory(GiB)": 77.59,
      "step": 102885,
      "token_acc": 0.935361216730038,
      "train_speed(iter/s)": 1.461823
    },
    {
      "epoch": 4.40812304528512,
      "grad_norm": 0.6741588115692139,
      "learning_rate": 3.4178388080507274e-06,
      "loss": 0.408967924118042,
      "memory(GiB)": 77.59,
      "step": 102890,
      "token_acc": 0.9448275862068966,
      "train_speed(iter/s)": 1.46183
    },
    {
      "epoch": 4.40833726061437,
      "grad_norm": 4.3186492919921875,
      "learning_rate": 3.4153938032281454e-06,
      "loss": 0.34622702598571775,
      "memory(GiB)": 77.59,
      "step": 102895,
      "token_acc": 0.915129151291513,
      "train_speed(iter/s)": 1.461848
    },
    {
      "epoch": 4.408551475943619,
      "grad_norm": 3.7934188842773438,
      "learning_rate": 3.412949642329416e-06,
      "loss": 0.3713581085205078,
      "memory(GiB)": 77.59,
      "step": 102900,
      "token_acc": 0.9228187919463087,
      "train_speed(iter/s)": 1.461851
    },
    {
      "epoch": 4.408765691272867,
      "grad_norm": 2.926438570022583,
      "learning_rate": 3.4105063253988045e-06,
      "loss": 0.5453434944152832,
      "memory(GiB)": 77.59,
      "step": 102905,
      "token_acc": 0.8857142857142857,
      "train_speed(iter/s)": 1.461852
    },
    {
      "epoch": 4.4089799066021165,
      "grad_norm": 1.5377345085144043,
      "learning_rate": 3.408063852480581e-06,
      "loss": 0.29931910037994386,
      "memory(GiB)": 77.59,
      "step": 102910,
      "token_acc": 0.950354609929078,
      "train_speed(iter/s)": 1.461861
    },
    {
      "epoch": 4.409194121931366,
      "grad_norm": 1.7039809226989746,
      "learning_rate": 3.4056222236189815e-06,
      "loss": 0.2642936706542969,
      "memory(GiB)": 77.59,
      "step": 102915,
      "token_acc": 0.9285714285714286,
      "train_speed(iter/s)": 1.461863
    },
    {
      "epoch": 4.409408337260614,
      "grad_norm": 3.1970646381378174,
      "learning_rate": 3.4031814388582384e-06,
      "loss": 0.3521300792694092,
      "memory(GiB)": 77.59,
      "step": 102920,
      "token_acc": 0.93,
      "train_speed(iter/s)": 1.461874
    },
    {
      "epoch": 4.409622552589863,
      "grad_norm": 0.3906015455722809,
      "learning_rate": 3.4007414982425766e-06,
      "loss": 0.2929401397705078,
      "memory(GiB)": 77.59,
      "step": 102925,
      "token_acc": 0.9304029304029304,
      "train_speed(iter/s)": 1.461881
    },
    {
      "epoch": 4.409836767919113,
      "grad_norm": 3.964409828186035,
      "learning_rate": 3.3983024018162004e-06,
      "loss": 0.2177652359008789,
      "memory(GiB)": 77.59,
      "step": 102930,
      "token_acc": 0.9392857142857143,
      "train_speed(iter/s)": 1.461883
    },
    {
      "epoch": 4.410050983248361,
      "grad_norm": 1.3202191591262817,
      "learning_rate": 3.395864149623296e-06,
      "loss": 0.1795314908027649,
      "memory(GiB)": 77.59,
      "step": 102935,
      "token_acc": 0.9663299663299664,
      "train_speed(iter/s)": 1.461888
    },
    {
      "epoch": 4.41026519857761,
      "grad_norm": 4.120957374572754,
      "learning_rate": 3.393426741708028e-06,
      "loss": 0.3244185447692871,
      "memory(GiB)": 77.59,
      "step": 102940,
      "token_acc": 0.915057915057915,
      "train_speed(iter/s)": 1.461895
    },
    {
      "epoch": 4.4104794139068595,
      "grad_norm": 4.7011027336120605,
      "learning_rate": 3.390990178114556e-06,
      "loss": 0.23629226684570312,
      "memory(GiB)": 77.59,
      "step": 102945,
      "token_acc": 0.9501915708812261,
      "train_speed(iter/s)": 1.461896
    },
    {
      "epoch": 4.410693629236108,
      "grad_norm": 1.2399704456329346,
      "learning_rate": 3.388554458887011e-06,
      "loss": 0.24199190139770507,
      "memory(GiB)": 77.59,
      "step": 102950,
      "token_acc": 0.9515418502202643,
      "train_speed(iter/s)": 1.461894
    },
    {
      "epoch": 4.410907844565357,
      "grad_norm": 3.435046672821045,
      "learning_rate": 3.386119584069536e-06,
      "loss": 0.39194607734680176,
      "memory(GiB)": 77.59,
      "step": 102955,
      "token_acc": 0.9292929292929293,
      "train_speed(iter/s)": 1.461895
    },
    {
      "epoch": 4.411122059894606,
      "grad_norm": 2.5668387413024902,
      "learning_rate": 3.383685553706234e-06,
      "loss": 0.41835894584655764,
      "memory(GiB)": 77.59,
      "step": 102960,
      "token_acc": 0.9185667752442996,
      "train_speed(iter/s)": 1.461895
    },
    {
      "epoch": 4.411336275223855,
      "grad_norm": 1.9600189924240112,
      "learning_rate": 3.381252367841192e-06,
      "loss": 0.2585024356842041,
      "memory(GiB)": 77.59,
      "step": 102965,
      "token_acc": 0.9370860927152318,
      "train_speed(iter/s)": 1.461898
    },
    {
      "epoch": 4.411550490553104,
      "grad_norm": 0.07739300280809402,
      "learning_rate": 3.3788200265185033e-06,
      "loss": 0.18992601633071898,
      "memory(GiB)": 77.59,
      "step": 102970,
      "token_acc": 0.9501557632398754,
      "train_speed(iter/s)": 1.461898
    },
    {
      "epoch": 4.411764705882353,
      "grad_norm": 1.6399861574172974,
      "learning_rate": 3.376388529782215e-06,
      "loss": 0.3478264570236206,
      "memory(GiB)": 77.59,
      "step": 102975,
      "token_acc": 0.9236363636363636,
      "train_speed(iter/s)": 1.461904
    },
    {
      "epoch": 4.411978921211602,
      "grad_norm": 1.9929097890853882,
      "learning_rate": 3.3739578776763814e-06,
      "loss": 0.48834476470947263,
      "memory(GiB)": 77.59,
      "step": 102980,
      "token_acc": 0.9052631578947369,
      "train_speed(iter/s)": 1.461908
    },
    {
      "epoch": 4.412193136540851,
      "grad_norm": 2.4972476959228516,
      "learning_rate": 3.3715280702450502e-06,
      "loss": 0.27957706451416015,
      "memory(GiB)": 77.59,
      "step": 102985,
      "token_acc": 0.95,
      "train_speed(iter/s)": 1.461905
    },
    {
      "epoch": 4.4124073518701,
      "grad_norm": 3.6444742679595947,
      "learning_rate": 3.3690991075322254e-06,
      "loss": 0.3111088752746582,
      "memory(GiB)": 77.59,
      "step": 102990,
      "token_acc": 0.9289940828402367,
      "train_speed(iter/s)": 1.461914
    },
    {
      "epoch": 4.4126215671993485,
      "grad_norm": 2.000309705734253,
      "learning_rate": 3.3666709895819104e-06,
      "loss": 0.3030554294586182,
      "memory(GiB)": 77.59,
      "step": 102995,
      "token_acc": 0.9239130434782609,
      "train_speed(iter/s)": 1.461915
    },
    {
      "epoch": 4.412835782528598,
      "grad_norm": 3.3823699951171875,
      "learning_rate": 3.364243716438098e-06,
      "loss": 0.3360884189605713,
      "memory(GiB)": 77.59,
      "step": 103000,
      "token_acc": 0.9384615384615385,
      "train_speed(iter/s)": 1.461916
    },
    {
      "epoch": 4.412835782528598,
      "eval_loss": 2.456714391708374,
      "eval_runtime": 11.4923,
      "eval_samples_per_second": 8.701,
      "eval_steps_per_second": 8.701,
      "eval_token_acc": 0.4541607898448519,
      "step": 103000
    },
    {
      "epoch": 4.413049997857847,
      "grad_norm": 2.750042200088501,
      "learning_rate": 3.361817288144764e-06,
      "loss": 0.48351149559020995,
      "memory(GiB)": 77.59,
      "step": 103005,
      "token_acc": 0.5966958211856171,
      "train_speed(iter/s)": 1.461659
    },
    {
      "epoch": 4.413264213187095,
      "grad_norm": 1.9552905559539795,
      "learning_rate": 3.3593917047458455e-06,
      "loss": 0.2918405532836914,
      "memory(GiB)": 77.59,
      "step": 103010,
      "token_acc": 0.9222972972972973,
      "train_speed(iter/s)": 1.46166
    },
    {
      "epoch": 4.413478428516345,
      "grad_norm": 1.5616830587387085,
      "learning_rate": 3.3569669662853133e-06,
      "loss": 0.5538567066192627,
      "memory(GiB)": 77.59,
      "step": 103015,
      "token_acc": 0.8825622775800712,
      "train_speed(iter/s)": 1.461664
    },
    {
      "epoch": 4.413692643845594,
      "grad_norm": 2.331825017929077,
      "learning_rate": 3.354543072807076e-06,
      "loss": 0.28505094051361085,
      "memory(GiB)": 77.59,
      "step": 103020,
      "token_acc": 0.9254901960784314,
      "train_speed(iter/s)": 1.461664
    },
    {
      "epoch": 4.413906859174842,
      "grad_norm": 0.25465670228004456,
      "learning_rate": 3.352120024355049e-06,
      "loss": 0.1870538830757141,
      "memory(GiB)": 77.59,
      "step": 103025,
      "token_acc": 0.9682539682539683,
      "train_speed(iter/s)": 1.461665
    },
    {
      "epoch": 4.4141210745040915,
      "grad_norm": 7.156242370605469,
      "learning_rate": 3.3496978209731244e-06,
      "loss": 0.4227184295654297,
      "memory(GiB)": 77.59,
      "step": 103030,
      "token_acc": 0.9163179916317992,
      "train_speed(iter/s)": 1.461667
    },
    {
      "epoch": 4.414335289833341,
      "grad_norm": 3.8174479007720947,
      "learning_rate": 3.3472764627051847e-06,
      "loss": 0.17930145263671876,
      "memory(GiB)": 77.59,
      "step": 103035,
      "token_acc": 0.9401709401709402,
      "train_speed(iter/s)": 1.461665
    },
    {
      "epoch": 4.414549505162589,
      "grad_norm": 4.825937271118164,
      "learning_rate": 3.3448559495950937e-06,
      "loss": 0.46810102462768555,
      "memory(GiB)": 77.59,
      "step": 103040,
      "token_acc": 0.8929889298892989,
      "train_speed(iter/s)": 1.461681
    },
    {
      "epoch": 4.414763720491838,
      "grad_norm": 2.7684621810913086,
      "learning_rate": 3.342436281686706e-06,
      "loss": 0.3575248718261719,
      "memory(GiB)": 77.59,
      "step": 103045,
      "token_acc": 0.908675799086758,
      "train_speed(iter/s)": 1.461685
    },
    {
      "epoch": 4.414977935821088,
      "grad_norm": 3.8071165084838867,
      "learning_rate": 3.340017459023853e-06,
      "loss": 0.4811088085174561,
      "memory(GiB)": 77.59,
      "step": 103050,
      "token_acc": 0.8895522388059701,
      "train_speed(iter/s)": 1.461696
    },
    {
      "epoch": 4.415192151150336,
      "grad_norm": 0.20457826554775238,
      "learning_rate": 3.3375994816503554e-06,
      "loss": 0.2759571552276611,
      "memory(GiB)": 77.59,
      "step": 103055,
      "token_acc": 0.9479553903345725,
      "train_speed(iter/s)": 1.461702
    },
    {
      "epoch": 4.415406366479585,
      "grad_norm": 3.9022748470306396,
      "learning_rate": 3.3351823496100167e-06,
      "loss": 0.34725394248962405,
      "memory(GiB)": 77.59,
      "step": 103060,
      "token_acc": 0.9342105263157895,
      "train_speed(iter/s)": 1.461703
    },
    {
      "epoch": 4.4156205818088345,
      "grad_norm": 1.9842668771743774,
      "learning_rate": 3.3327660629466186e-06,
      "loss": 0.3267650127410889,
      "memory(GiB)": 77.59,
      "step": 103065,
      "token_acc": 0.9108910891089109,
      "train_speed(iter/s)": 1.461703
    },
    {
      "epoch": 4.415834797138083,
      "grad_norm": 3.5295913219451904,
      "learning_rate": 3.330350621703937e-06,
      "loss": 0.5012635707855224,
      "memory(GiB)": 77.59,
      "step": 103070,
      "token_acc": 0.8927444794952681,
      "train_speed(iter/s)": 1.461705
    },
    {
      "epoch": 4.416049012467332,
      "grad_norm": 5.332789421081543,
      "learning_rate": 3.3279360259257486e-06,
      "loss": 0.4054579257965088,
      "memory(GiB)": 77.59,
      "step": 103075,
      "token_acc": 0.9166666666666666,
      "train_speed(iter/s)": 1.461709
    },
    {
      "epoch": 4.416263227796581,
      "grad_norm": 0.11123693734407425,
      "learning_rate": 3.3255222756557735e-06,
      "loss": 0.0900408685207367,
      "memory(GiB)": 77.59,
      "step": 103080,
      "token_acc": 0.9747634069400631,
      "train_speed(iter/s)": 1.461712
    },
    {
      "epoch": 4.41647744312583,
      "grad_norm": 4.847392559051514,
      "learning_rate": 3.3231093709377492e-06,
      "loss": 0.36736140251159666,
      "memory(GiB)": 77.59,
      "step": 103085,
      "token_acc": 0.916083916083916,
      "train_speed(iter/s)": 1.461717
    },
    {
      "epoch": 4.416691658455079,
      "grad_norm": 4.227273464202881,
      "learning_rate": 3.320697311815385e-06,
      "loss": 0.7284860610961914,
      "memory(GiB)": 77.59,
      "step": 103090,
      "token_acc": 0.8487972508591065,
      "train_speed(iter/s)": 1.461722
    },
    {
      "epoch": 4.416905873784328,
      "grad_norm": 5.11418342590332,
      "learning_rate": 3.3182860983323683e-06,
      "loss": 0.4237488269805908,
      "memory(GiB)": 77.59,
      "step": 103095,
      "token_acc": 0.8903654485049833,
      "train_speed(iter/s)": 1.461724
    },
    {
      "epoch": 4.417120089113577,
      "grad_norm": 1.8223402500152588,
      "learning_rate": 3.3158757305324027e-06,
      "loss": 0.2600691556930542,
      "memory(GiB)": 77.59,
      "step": 103100,
      "token_acc": 0.9169435215946844,
      "train_speed(iter/s)": 1.461728
    },
    {
      "epoch": 4.417334304442826,
      "grad_norm": 2.9524195194244385,
      "learning_rate": 3.313466208459137e-06,
      "loss": 0.6160240173339844,
      "memory(GiB)": 77.59,
      "step": 103105,
      "token_acc": 0.8440860215053764,
      "train_speed(iter/s)": 1.46174
    },
    {
      "epoch": 4.417548519772075,
      "grad_norm": 6.942122459411621,
      "learning_rate": 3.3110575321562255e-06,
      "loss": 0.34253511428833006,
      "memory(GiB)": 77.59,
      "step": 103110,
      "token_acc": 0.9150326797385621,
      "train_speed(iter/s)": 1.461753
    },
    {
      "epoch": 4.417762735101324,
      "grad_norm": 3.44897198677063,
      "learning_rate": 3.30864970166731e-06,
      "loss": 0.35530576705932615,
      "memory(GiB)": 77.59,
      "step": 103115,
      "token_acc": 0.9359756097560976,
      "train_speed(iter/s)": 1.461761
    },
    {
      "epoch": 4.417976950430573,
      "grad_norm": 2.5697202682495117,
      "learning_rate": 3.306242717036001e-06,
      "loss": 0.15310176610946655,
      "memory(GiB)": 77.59,
      "step": 103120,
      "token_acc": 0.9604743083003953,
      "train_speed(iter/s)": 1.461767
    },
    {
      "epoch": 4.418191165759822,
      "grad_norm": 3.460143566131592,
      "learning_rate": 3.303836578305902e-06,
      "loss": 0.3412087202072144,
      "memory(GiB)": 77.59,
      "step": 103125,
      "token_acc": 0.9329446064139941,
      "train_speed(iter/s)": 1.461767
    },
    {
      "epoch": 4.41840538108907,
      "grad_norm": 4.589786529541016,
      "learning_rate": 3.301431285520612e-06,
      "loss": 0.3131126880645752,
      "memory(GiB)": 77.59,
      "step": 103130,
      "token_acc": 0.9247311827956989,
      "train_speed(iter/s)": 1.461778
    },
    {
      "epoch": 4.41861959641832,
      "grad_norm": 3.967670202255249,
      "learning_rate": 3.2990268387237065e-06,
      "loss": 0.3825406074523926,
      "memory(GiB)": 77.59,
      "step": 103135,
      "token_acc": 0.9337539432176656,
      "train_speed(iter/s)": 1.461779
    },
    {
      "epoch": 4.418833811747569,
      "grad_norm": 2.20798659324646,
      "learning_rate": 3.296623237958735e-06,
      "loss": 0.3335462808609009,
      "memory(GiB)": 77.59,
      "step": 103140,
      "token_acc": 0.9111111111111111,
      "train_speed(iter/s)": 1.461778
    },
    {
      "epoch": 4.419048027076817,
      "grad_norm": 2.5412328243255615,
      "learning_rate": 3.2942204832692337e-06,
      "loss": 0.47416396141052247,
      "memory(GiB)": 77.59,
      "step": 103145,
      "token_acc": 0.9153846153846154,
      "train_speed(iter/s)": 1.461791
    },
    {
      "epoch": 4.419262242406067,
      "grad_norm": 1.7965368032455444,
      "learning_rate": 3.2918185746987575e-06,
      "loss": 0.12065953016281128,
      "memory(GiB)": 77.59,
      "step": 103150,
      "token_acc": 0.9713261648745519,
      "train_speed(iter/s)": 1.461796
    },
    {
      "epoch": 4.419476457735316,
      "grad_norm": 3.9120986461639404,
      "learning_rate": 3.2894175122907934e-06,
      "loss": 0.2731020927429199,
      "memory(GiB)": 77.59,
      "step": 103155,
      "token_acc": 0.9409937888198758,
      "train_speed(iter/s)": 1.461809
    },
    {
      "epoch": 4.419690673064564,
      "grad_norm": 3.1678531169891357,
      "learning_rate": 3.2870172960888513e-06,
      "loss": 0.3742526054382324,
      "memory(GiB)": 77.59,
      "step": 103160,
      "token_acc": 0.9075907590759076,
      "train_speed(iter/s)": 1.461812
    },
    {
      "epoch": 4.4199048883938135,
      "grad_norm": 3.4194207191467285,
      "learning_rate": 3.2846179261364183e-06,
      "loss": 0.43302407264709475,
      "memory(GiB)": 77.59,
      "step": 103165,
      "token_acc": 0.8939393939393939,
      "train_speed(iter/s)": 1.461813
    },
    {
      "epoch": 4.420119103723063,
      "grad_norm": 4.8843278884887695,
      "learning_rate": 3.2822194024769494e-06,
      "loss": 0.33716323375701907,
      "memory(GiB)": 77.59,
      "step": 103170,
      "token_acc": 0.9401197604790419,
      "train_speed(iter/s)": 1.461814
    },
    {
      "epoch": 4.420333319052311,
      "grad_norm": 3.5005407333374023,
      "learning_rate": 3.279821725153903e-06,
      "loss": 0.4775230884552002,
      "memory(GiB)": 77.59,
      "step": 103175,
      "token_acc": 0.8711864406779661,
      "train_speed(iter/s)": 1.461824
    },
    {
      "epoch": 4.42054753438156,
      "grad_norm": 4.522106647491455,
      "learning_rate": 3.277424894210712e-06,
      "loss": 0.4631487846374512,
      "memory(GiB)": 77.59,
      "step": 103180,
      "token_acc": 0.9135338345864662,
      "train_speed(iter/s)": 1.46183
    },
    {
      "epoch": 4.42076174971081,
      "grad_norm": 2.5332560539245605,
      "learning_rate": 3.2750289096907915e-06,
      "loss": 0.4596975803375244,
      "memory(GiB)": 77.59,
      "step": 103185,
      "token_acc": 0.9188191881918819,
      "train_speed(iter/s)": 1.46183
    },
    {
      "epoch": 4.420975965040058,
      "grad_norm": 2.7328364849090576,
      "learning_rate": 3.272633771637562e-06,
      "loss": 0.4595158576965332,
      "memory(GiB)": 77.59,
      "step": 103190,
      "token_acc": 0.8797653958944281,
      "train_speed(iter/s)": 1.461826
    },
    {
      "epoch": 4.421190180369307,
      "grad_norm": 4.422942638397217,
      "learning_rate": 3.2702394800944057e-06,
      "loss": 0.2671933174133301,
      "memory(GiB)": 77.59,
      "step": 103195,
      "token_acc": 0.9358490566037736,
      "train_speed(iter/s)": 1.461828
    },
    {
      "epoch": 4.4214043956985565,
      "grad_norm": 2.3593122959136963,
      "learning_rate": 3.2678460351046993e-06,
      "loss": 0.3127322196960449,
      "memory(GiB)": 77.59,
      "step": 103200,
      "token_acc": 0.953125,
      "train_speed(iter/s)": 1.461829
    },
    {
      "epoch": 4.421618611027805,
      "grad_norm": 0.560939610004425,
      "learning_rate": 3.265453436711796e-06,
      "loss": 0.10716387033462524,
      "memory(GiB)": 77.59,
      "step": 103205,
      "token_acc": 0.972972972972973,
      "train_speed(iter/s)": 1.461834
    },
    {
      "epoch": 4.421832826357054,
      "grad_norm": 1.4624922275543213,
      "learning_rate": 3.26306168495904e-06,
      "loss": 0.170185124874115,
      "memory(GiB)": 77.59,
      "step": 103210,
      "token_acc": 0.9444444444444444,
      "train_speed(iter/s)": 1.461841
    },
    {
      "epoch": 4.422047041686303,
      "grad_norm": 3.310572862625122,
      "learning_rate": 3.2606707798897683e-06,
      "loss": 0.40680460929870604,
      "memory(GiB)": 77.59,
      "step": 103215,
      "token_acc": 0.9041095890410958,
      "train_speed(iter/s)": 1.461849
    },
    {
      "epoch": 4.422261257015552,
      "grad_norm": 2.100799083709717,
      "learning_rate": 3.2582807215472854e-06,
      "loss": 0.5426620006561279,
      "memory(GiB)": 77.59,
      "step": 103220,
      "token_acc": 0.9084507042253521,
      "train_speed(iter/s)": 1.461859
    },
    {
      "epoch": 4.422475472344801,
      "grad_norm": 4.230330944061279,
      "learning_rate": 3.255891509974901e-06,
      "loss": 0.3129417896270752,
      "memory(GiB)": 77.59,
      "step": 103225,
      "token_acc": 0.9274924471299094,
      "train_speed(iter/s)": 1.461855
    },
    {
      "epoch": 4.42268968767405,
      "grad_norm": 2.23575758934021,
      "learning_rate": 3.2535031452158915e-06,
      "loss": 0.3187024354934692,
      "memory(GiB)": 77.59,
      "step": 103230,
      "token_acc": 0.9285714285714286,
      "train_speed(iter/s)": 1.46186
    },
    {
      "epoch": 4.422903903003299,
      "grad_norm": 0.39342567324638367,
      "learning_rate": 3.251115627313528e-06,
      "loss": 0.39848291873931885,
      "memory(GiB)": 77.59,
      "step": 103235,
      "token_acc": 0.9065420560747663,
      "train_speed(iter/s)": 1.461862
    },
    {
      "epoch": 4.423118118332548,
      "grad_norm": 8.054346084594727,
      "learning_rate": 3.2487289563110478e-06,
      "loss": 0.24693546295166016,
      "memory(GiB)": 77.59,
      "step": 103240,
      "token_acc": 0.9493243243243243,
      "train_speed(iter/s)": 1.461866
    },
    {
      "epoch": 4.423332333661797,
      "grad_norm": 0.9236149787902832,
      "learning_rate": 3.246343132251706e-06,
      "loss": 0.37824788093566897,
      "memory(GiB)": 77.59,
      "step": 103245,
      "token_acc": 0.8960573476702509,
      "train_speed(iter/s)": 1.46187
    },
    {
      "epoch": 4.4235465489910455,
      "grad_norm": 1.846612572669983,
      "learning_rate": 3.243958155178717e-06,
      "loss": 0.3475534439086914,
      "memory(GiB)": 77.59,
      "step": 103250,
      "token_acc": 0.9261538461538461,
      "train_speed(iter/s)": 1.461869
    },
    {
      "epoch": 4.423760764320295,
      "grad_norm": 3.1997241973876953,
      "learning_rate": 3.241574025135291e-06,
      "loss": 0.4025541305541992,
      "memory(GiB)": 77.59,
      "step": 103255,
      "token_acc": 0.9033333333333333,
      "train_speed(iter/s)": 1.46188
    },
    {
      "epoch": 4.423974979649544,
      "grad_norm": 2.1515402793884277,
      "learning_rate": 3.2391907421646106e-06,
      "loss": 0.20888133049011232,
      "memory(GiB)": 77.59,
      "step": 103260,
      "token_acc": 0.9487179487179487,
      "train_speed(iter/s)": 1.461886
    },
    {
      "epoch": 4.424189194978792,
      "grad_norm": 2.6274847984313965,
      "learning_rate": 3.2368083063098518e-06,
      "loss": 0.28545031547546384,
      "memory(GiB)": 77.59,
      "step": 103265,
      "token_acc": 0.9389067524115756,
      "train_speed(iter/s)": 1.461889
    },
    {
      "epoch": 4.424403410308042,
      "grad_norm": 1.5669865608215332,
      "learning_rate": 3.2344267176141753e-06,
      "loss": 0.2645861148834229,
      "memory(GiB)": 77.59,
      "step": 103270,
      "token_acc": 0.9563636363636364,
      "train_speed(iter/s)": 1.4619
    },
    {
      "epoch": 4.424617625637291,
      "grad_norm": 1.931093692779541,
      "learning_rate": 3.2320459761207344e-06,
      "loss": 0.2734061717987061,
      "memory(GiB)": 77.59,
      "step": 103275,
      "token_acc": 0.9448275862068966,
      "train_speed(iter/s)": 1.461901
    },
    {
      "epoch": 4.424831840966539,
      "grad_norm": 0.41422218084335327,
      "learning_rate": 3.229666081872651e-06,
      "loss": 0.09996446967124939,
      "memory(GiB)": 77.59,
      "step": 103280,
      "token_acc": 0.9714285714285714,
      "train_speed(iter/s)": 1.461904
    },
    {
      "epoch": 4.4250460562957885,
      "grad_norm": 5.92359733581543,
      "learning_rate": 3.227287034913046e-06,
      "loss": 0.34167981147766113,
      "memory(GiB)": 77.59,
      "step": 103285,
      "token_acc": 0.928082191780822,
      "train_speed(iter/s)": 1.461904
    },
    {
      "epoch": 4.425260271625038,
      "grad_norm": 3.989736795425415,
      "learning_rate": 3.2249088352850065e-06,
      "loss": 0.514876127243042,
      "memory(GiB)": 77.59,
      "step": 103290,
      "token_acc": 0.8907849829351536,
      "train_speed(iter/s)": 1.461905
    },
    {
      "epoch": 4.425474486954286,
      "grad_norm": 4.301228046417236,
      "learning_rate": 3.2225314830316155e-06,
      "loss": 0.3475778579711914,
      "memory(GiB)": 77.59,
      "step": 103295,
      "token_acc": 0.927170868347339,
      "train_speed(iter/s)": 1.461908
    },
    {
      "epoch": 4.425688702283535,
      "grad_norm": 1.6362693309783936,
      "learning_rate": 3.2201549781959493e-06,
      "loss": 0.1930663466453552,
      "memory(GiB)": 77.59,
      "step": 103300,
      "token_acc": 0.9475524475524476,
      "train_speed(iter/s)": 1.461917
    },
    {
      "epoch": 4.425902917612785,
      "grad_norm": 1.7874459028244019,
      "learning_rate": 3.2177793208210683e-06,
      "loss": 0.30401756763458254,
      "memory(GiB)": 77.59,
      "step": 103305,
      "token_acc": 0.9276729559748428,
      "train_speed(iter/s)": 1.461921
    },
    {
      "epoch": 4.426117132942033,
      "grad_norm": 1.0285001993179321,
      "learning_rate": 3.2154045109499985e-06,
      "loss": 0.43850555419921877,
      "memory(GiB)": 77.59,
      "step": 103310,
      "token_acc": 0.9039735099337748,
      "train_speed(iter/s)": 1.461932
    },
    {
      "epoch": 4.426331348271282,
      "grad_norm": 3.086801052093506,
      "learning_rate": 3.2130305486257615e-06,
      "loss": 0.3705465316772461,
      "memory(GiB)": 77.59,
      "step": 103315,
      "token_acc": 0.898876404494382,
      "train_speed(iter/s)": 1.461935
    },
    {
      "epoch": 4.4265455636005315,
      "grad_norm": 4.629354476928711,
      "learning_rate": 3.2106574338913676e-06,
      "loss": 0.19763879776000975,
      "memory(GiB)": 77.59,
      "step": 103320,
      "token_acc": 0.9508196721311475,
      "train_speed(iter/s)": 1.461942
    },
    {
      "epoch": 4.42675977892978,
      "grad_norm": 5.570720195770264,
      "learning_rate": 3.2082851667897985e-06,
      "loss": 0.4327519416809082,
      "memory(GiB)": 77.59,
      "step": 103325,
      "token_acc": 0.8735632183908046,
      "train_speed(iter/s)": 1.461937
    },
    {
      "epoch": 4.426973994259029,
      "grad_norm": 2.396592617034912,
      "learning_rate": 3.2059137473640476e-06,
      "loss": 0.3152249097824097,
      "memory(GiB)": 77.59,
      "step": 103330,
      "token_acc": 0.9130434782608695,
      "train_speed(iter/s)": 1.461936
    },
    {
      "epoch": 4.427188209588278,
      "grad_norm": 3.1082398891448975,
      "learning_rate": 3.203543175657059e-06,
      "loss": 0.2515141010284424,
      "memory(GiB)": 77.59,
      "step": 103335,
      "token_acc": 0.9550173010380623,
      "train_speed(iter/s)": 1.461936
    },
    {
      "epoch": 4.427402424917527,
      "grad_norm": 3.4484128952026367,
      "learning_rate": 3.2011734517117917e-06,
      "loss": 0.3230747699737549,
      "memory(GiB)": 77.59,
      "step": 103340,
      "token_acc": 0.929368029739777,
      "train_speed(iter/s)": 1.461939
    },
    {
      "epoch": 4.427616640246776,
      "grad_norm": 2.2643048763275146,
      "learning_rate": 3.1988045755711627e-06,
      "loss": 0.2492429256439209,
      "memory(GiB)": 77.59,
      "step": 103345,
      "token_acc": 0.9477611940298507,
      "train_speed(iter/s)": 1.461939
    },
    {
      "epoch": 4.427830855576025,
      "grad_norm": 2.867974042892456,
      "learning_rate": 3.1964365472780976e-06,
      "loss": 0.3325268983840942,
      "memory(GiB)": 77.59,
      "step": 103350,
      "token_acc": 0.912621359223301,
      "train_speed(iter/s)": 1.461943
    },
    {
      "epoch": 4.428045070905274,
      "grad_norm": 1.6494451761245728,
      "learning_rate": 3.194069366875474e-06,
      "loss": 0.2580333471298218,
      "memory(GiB)": 77.59,
      "step": 103355,
      "token_acc": 0.9526813880126183,
      "train_speed(iter/s)": 1.461944
    },
    {
      "epoch": 4.428259286234523,
      "grad_norm": 4.45923376083374,
      "learning_rate": 3.191703034406207e-06,
      "loss": 0.26104063987731935,
      "memory(GiB)": 77.59,
      "step": 103360,
      "token_acc": 0.9314079422382672,
      "train_speed(iter/s)": 1.461947
    },
    {
      "epoch": 4.428473501563772,
      "grad_norm": 3.1531105041503906,
      "learning_rate": 3.1893375499131352e-06,
      "loss": 0.29505965709686277,
      "memory(GiB)": 77.59,
      "step": 103365,
      "token_acc": 0.930379746835443,
      "train_speed(iter/s)": 1.461951
    },
    {
      "epoch": 4.4286877168930205,
      "grad_norm": 3.3110220432281494,
      "learning_rate": 3.18697291343914e-06,
      "loss": 0.331296968460083,
      "memory(GiB)": 77.59,
      "step": 103370,
      "token_acc": 0.9166666666666666,
      "train_speed(iter/s)": 1.461957
    },
    {
      "epoch": 4.42890193222227,
      "grad_norm": 3.9018750190734863,
      "learning_rate": 3.184609125027038e-06,
      "loss": 0.3432819366455078,
      "memory(GiB)": 77.59,
      "step": 103375,
      "token_acc": 0.9458483754512635,
      "train_speed(iter/s)": 1.461959
    },
    {
      "epoch": 4.429116147551519,
      "grad_norm": 2.5722451210021973,
      "learning_rate": 3.1822461847196617e-06,
      "loss": 0.2446269989013672,
      "memory(GiB)": 77.59,
      "step": 103380,
      "token_acc": 0.9492753623188406,
      "train_speed(iter/s)": 1.461958
    },
    {
      "epoch": 4.429330362880767,
      "grad_norm": 2.687818765640259,
      "learning_rate": 3.1798840925598093e-06,
      "loss": 0.2037205457687378,
      "memory(GiB)": 77.59,
      "step": 103385,
      "token_acc": 0.9484536082474226,
      "train_speed(iter/s)": 1.461964
    },
    {
      "epoch": 4.429544578210017,
      "grad_norm": 1.8327643871307373,
      "learning_rate": 3.1775228485902807e-06,
      "loss": 0.30791563987731935,
      "memory(GiB)": 77.59,
      "step": 103390,
      "token_acc": 0.9365671641791045,
      "train_speed(iter/s)": 1.461974
    },
    {
      "epoch": 4.429758793539266,
      "grad_norm": 3.4761388301849365,
      "learning_rate": 3.175162452853847e-06,
      "loss": 0.4797371864318848,
      "memory(GiB)": 77.59,
      "step": 103395,
      "token_acc": 0.9011406844106464,
      "train_speed(iter/s)": 1.461976
    },
    {
      "epoch": 4.429973008868514,
      "grad_norm": 2.5207390785217285,
      "learning_rate": 3.1728029053932738e-06,
      "loss": 0.400342321395874,
      "memory(GiB)": 77.59,
      "step": 103400,
      "token_acc": 0.9235880398671097,
      "train_speed(iter/s)": 1.46198
    },
    {
      "epoch": 4.430187224197764,
      "grad_norm": 3.627235174179077,
      "learning_rate": 3.170444206251305e-06,
      "loss": 0.24672114849090576,
      "memory(GiB)": 77.59,
      "step": 103405,
      "token_acc": 0.9465648854961832,
      "train_speed(iter/s)": 1.461984
    },
    {
      "epoch": 4.430401439527013,
      "grad_norm": 2.871299982070923,
      "learning_rate": 3.1680863554706674e-06,
      "loss": 0.6503304958343505,
      "memory(GiB)": 77.59,
      "step": 103410,
      "token_acc": 0.8786127167630058,
      "train_speed(iter/s)": 1.461993
    },
    {
      "epoch": 4.430615654856261,
      "grad_norm": 3.312309741973877,
      "learning_rate": 3.165729353094071e-06,
      "loss": 0.2302065372467041,
      "memory(GiB)": 77.59,
      "step": 103415,
      "token_acc": 0.9535603715170279,
      "train_speed(iter/s)": 1.461996
    },
    {
      "epoch": 4.43082987018551,
      "grad_norm": 4.472128391265869,
      "learning_rate": 3.163373199164227e-06,
      "loss": 0.32524111270904543,
      "memory(GiB)": 77.59,
      "step": 103420,
      "token_acc": 0.9368770764119602,
      "train_speed(iter/s)": 1.461999
    },
    {
      "epoch": 4.43104408551476,
      "grad_norm": 3.4238386154174805,
      "learning_rate": 3.1610178937238167e-06,
      "loss": 0.38225612640380857,
      "memory(GiB)": 77.59,
      "step": 103425,
      "token_acc": 0.8929765886287625,
      "train_speed(iter/s)": 1.462001
    },
    {
      "epoch": 4.431258300844008,
      "grad_norm": 3.4204864501953125,
      "learning_rate": 3.158663436815501e-06,
      "loss": 0.4560101509094238,
      "memory(GiB)": 77.59,
      "step": 103430,
      "token_acc": 0.8869047619047619,
      "train_speed(iter/s)": 1.462011
    },
    {
      "epoch": 4.431472516173257,
      "grad_norm": 2.5659210681915283,
      "learning_rate": 3.1563098284819404e-06,
      "loss": 0.3113293409347534,
      "memory(GiB)": 77.59,
      "step": 103435,
      "token_acc": 0.9350180505415162,
      "train_speed(iter/s)": 1.462013
    },
    {
      "epoch": 4.431686731502507,
      "grad_norm": 1.5642167329788208,
      "learning_rate": 3.1539570687657617e-06,
      "loss": 0.32257034778594973,
      "memory(GiB)": 77.59,
      "step": 103440,
      "token_acc": 0.9416666666666667,
      "train_speed(iter/s)": 1.462015
    },
    {
      "epoch": 4.431900946831755,
      "grad_norm": 4.900313854217529,
      "learning_rate": 3.151605157709597e-06,
      "loss": 0.594711446762085,
      "memory(GiB)": 77.59,
      "step": 103445,
      "token_acc": 0.8711656441717791,
      "train_speed(iter/s)": 1.462026
    },
    {
      "epoch": 4.432115162161004,
      "grad_norm": 0.4648725688457489,
      "learning_rate": 3.1492540953560635e-06,
      "loss": 0.21371254920959473,
      "memory(GiB)": 77.59,
      "step": 103450,
      "token_acc": 0.9467084639498433,
      "train_speed(iter/s)": 1.462033
    },
    {
      "epoch": 4.4323293774902535,
      "grad_norm": 6.807082176208496,
      "learning_rate": 3.146903881747737e-06,
      "loss": 0.3337381839752197,
      "memory(GiB)": 77.59,
      "step": 103455,
      "token_acc": 0.9302325581395349,
      "train_speed(iter/s)": 1.462037
    },
    {
      "epoch": 4.432543592819502,
      "grad_norm": 7.3048415184021,
      "learning_rate": 3.1445545169272005e-06,
      "loss": 0.22827112674713135,
      "memory(GiB)": 77.59,
      "step": 103460,
      "token_acc": 0.9457364341085271,
      "train_speed(iter/s)": 1.462038
    },
    {
      "epoch": 4.432757808148751,
      "grad_norm": 3.433241367340088,
      "learning_rate": 3.142206000937009e-06,
      "loss": 0.15065722465515136,
      "memory(GiB)": 77.59,
      "step": 103465,
      "token_acc": 0.9627118644067797,
      "train_speed(iter/s)": 1.46204
    },
    {
      "epoch": 4.432972023478,
      "grad_norm": 3.0735764503479004,
      "learning_rate": 3.139858333819706e-06,
      "loss": 0.4933948516845703,
      "memory(GiB)": 77.59,
      "step": 103470,
      "token_acc": 0.8819875776397516,
      "train_speed(iter/s)": 1.462045
    },
    {
      "epoch": 4.433186238807249,
      "grad_norm": 2.8886311054229736,
      "learning_rate": 3.137511515617836e-06,
      "loss": 0.3463951349258423,
      "memory(GiB)": 77.59,
      "step": 103475,
      "token_acc": 0.9375,
      "train_speed(iter/s)": 1.462045
    },
    {
      "epoch": 4.433400454136498,
      "grad_norm": 1.883233666419983,
      "learning_rate": 3.135165546373908e-06,
      "loss": 0.3482660293579102,
      "memory(GiB)": 77.59,
      "step": 103480,
      "token_acc": 0.9373040752351097,
      "train_speed(iter/s)": 1.462056
    },
    {
      "epoch": 4.433614669465747,
      "grad_norm": 3.411223888397217,
      "learning_rate": 3.1328204261304173e-06,
      "loss": 0.40571889877319334,
      "memory(GiB)": 77.59,
      "step": 103485,
      "token_acc": 0.9066666666666666,
      "train_speed(iter/s)": 1.462058
    },
    {
      "epoch": 4.433828884794996,
      "grad_norm": 2.8614702224731445,
      "learning_rate": 3.1304761549298457e-06,
      "loss": 0.33812694549560546,
      "memory(GiB)": 77.59,
      "step": 103490,
      "token_acc": 0.9246031746031746,
      "train_speed(iter/s)": 1.462056
    },
    {
      "epoch": 4.434043100124245,
      "grad_norm": 4.40010404586792,
      "learning_rate": 3.1281327328146703e-06,
      "loss": 0.6715186595916748,
      "memory(GiB)": 77.59,
      "step": 103495,
      "token_acc": 0.8440677966101695,
      "train_speed(iter/s)": 1.462055
    },
    {
      "epoch": 4.434257315453494,
      "grad_norm": 3.3244526386260986,
      "learning_rate": 3.12579015982733e-06,
      "loss": 0.48398194313049314,
      "memory(GiB)": 77.59,
      "step": 103500,
      "token_acc": 0.8885350318471338,
      "train_speed(iter/s)": 1.462071
    },
    {
      "epoch": 4.434257315453494,
      "eval_loss": 2.3080263137817383,
      "eval_runtime": 11.8878,
      "eval_samples_per_second": 8.412,
      "eval_steps_per_second": 8.412,
      "eval_token_acc": 0.44878706199460916,
      "step": 103500
    },
    {
      "epoch": 4.4344715307827425,
      "grad_norm": 3.521118402481079,
      "learning_rate": 3.1234484360102846e-06,
      "loss": 0.42543864250183105,
      "memory(GiB)": 77.59,
      "step": 103505,
      "token_acc": 0.578383641674781,
      "train_speed(iter/s)": 1.461815
    },
    {
      "epoch": 4.434685746111992,
      "grad_norm": 6.264172554016113,
      "learning_rate": 3.121107561405939e-06,
      "loss": 0.48735966682434084,
      "memory(GiB)": 77.59,
      "step": 103510,
      "token_acc": 0.9004329004329005,
      "train_speed(iter/s)": 1.461818
    },
    {
      "epoch": 4.434899961441241,
      "grad_norm": 0.6039650440216064,
      "learning_rate": 3.118767536056699e-06,
      "loss": 0.30980448722839354,
      "memory(GiB)": 77.59,
      "step": 103515,
      "token_acc": 0.9290540540540541,
      "train_speed(iter/s)": 1.461821
    },
    {
      "epoch": 4.435114176770489,
      "grad_norm": 3.632610321044922,
      "learning_rate": 3.116428360004975e-06,
      "loss": 0.4036895751953125,
      "memory(GiB)": 77.59,
      "step": 103520,
      "token_acc": 0.9172413793103448,
      "train_speed(iter/s)": 1.461824
    },
    {
      "epoch": 4.435328392099739,
      "grad_norm": 4.846930980682373,
      "learning_rate": 3.1140900332931265e-06,
      "loss": 0.4085724353790283,
      "memory(GiB)": 77.59,
      "step": 103525,
      "token_acc": 0.9208211143695014,
      "train_speed(iter/s)": 1.461828
    },
    {
      "epoch": 4.435542607428988,
      "grad_norm": 2.9868342876434326,
      "learning_rate": 3.111752555963515e-06,
      "loss": 0.46550421714782714,
      "memory(GiB)": 77.59,
      "step": 103530,
      "token_acc": 0.8976109215017065,
      "train_speed(iter/s)": 1.461826
    },
    {
      "epoch": 4.435756822758236,
      "grad_norm": 3.587447166442871,
      "learning_rate": 3.1094159280584957e-06,
      "loss": 0.4632739067077637,
      "memory(GiB)": 77.59,
      "step": 103535,
      "token_acc": 0.8922155688622755,
      "train_speed(iter/s)": 1.461825
    },
    {
      "epoch": 4.4359710380874855,
      "grad_norm": 6.615805149078369,
      "learning_rate": 3.107080149620395e-06,
      "loss": 0.43155202865600584,
      "memory(GiB)": 77.59,
      "step": 103540,
      "token_acc": 0.8790035587188612,
      "train_speed(iter/s)": 1.461823
    },
    {
      "epoch": 4.436185253416735,
      "grad_norm": 3.605518341064453,
      "learning_rate": 3.1047452206915294e-06,
      "loss": 0.3560297727584839,
      "memory(GiB)": 77.59,
      "step": 103545,
      "token_acc": 0.939799331103679,
      "train_speed(iter/s)": 1.461823
    },
    {
      "epoch": 4.436399468745983,
      "grad_norm": 1.7487066984176636,
      "learning_rate": 3.102411141314193e-06,
      "loss": 0.2856872081756592,
      "memory(GiB)": 77.59,
      "step": 103550,
      "token_acc": 0.933933933933934,
      "train_speed(iter/s)": 1.46183
    },
    {
      "epoch": 4.436613684075232,
      "grad_norm": 1.0966392755508423,
      "learning_rate": 3.100077911530669e-06,
      "loss": 0.29052441120147704,
      "memory(GiB)": 77.59,
      "step": 103555,
      "token_acc": 0.9119496855345912,
      "train_speed(iter/s)": 1.461831
    },
    {
      "epoch": 4.436827899404482,
      "grad_norm": 3.9684741497039795,
      "learning_rate": 3.0977455313832283e-06,
      "loss": 0.11269888877868653,
      "memory(GiB)": 77.59,
      "step": 103560,
      "token_acc": 0.9689655172413794,
      "train_speed(iter/s)": 1.46183
    },
    {
      "epoch": 4.43704211473373,
      "grad_norm": 1.2867422103881836,
      "learning_rate": 3.0954140009141264e-06,
      "loss": 0.34957849979400635,
      "memory(GiB)": 77.59,
      "step": 103565,
      "token_acc": 0.9262820512820513,
      "train_speed(iter/s)": 1.461827
    },
    {
      "epoch": 4.437256330062979,
      "grad_norm": 2.5052058696746826,
      "learning_rate": 3.093083320165602e-06,
      "loss": 0.321109676361084,
      "memory(GiB)": 77.59,
      "step": 103570,
      "token_acc": 0.9315589353612167,
      "train_speed(iter/s)": 1.461835
    },
    {
      "epoch": 4.4374705453922285,
      "grad_norm": 3.2795236110687256,
      "learning_rate": 3.090753489179876e-06,
      "loss": 0.46605892181396485,
      "memory(GiB)": 77.59,
      "step": 103575,
      "token_acc": 0.8909657320872274,
      "train_speed(iter/s)": 1.461835
    },
    {
      "epoch": 4.437684760721477,
      "grad_norm": 1.5864722728729248,
      "learning_rate": 3.08842450799916e-06,
      "loss": 0.14984904527664183,
      "memory(GiB)": 77.59,
      "step": 103580,
      "token_acc": 0.9705014749262537,
      "train_speed(iter/s)": 1.461838
    },
    {
      "epoch": 4.437898976050726,
      "grad_norm": 3.9298689365386963,
      "learning_rate": 3.086096376665626e-06,
      "loss": 0.41051645278930665,
      "memory(GiB)": 77.59,
      "step": 103585,
      "token_acc": 0.9113149847094801,
      "train_speed(iter/s)": 1.461839
    },
    {
      "epoch": 4.438113191379975,
      "grad_norm": 3.438173294067383,
      "learning_rate": 3.083769095221467e-06,
      "loss": 0.36142854690551757,
      "memory(GiB)": 77.59,
      "step": 103590,
      "token_acc": 0.9294871794871795,
      "train_speed(iter/s)": 1.461839
    },
    {
      "epoch": 4.438327406709224,
      "grad_norm": 2.9612483978271484,
      "learning_rate": 3.0814426637088502e-06,
      "loss": 0.4547117710113525,
      "memory(GiB)": 77.59,
      "step": 103595,
      "token_acc": 0.9024390243902439,
      "train_speed(iter/s)": 1.461836
    },
    {
      "epoch": 4.438541622038473,
      "grad_norm": 4.868314266204834,
      "learning_rate": 3.0791170821699133e-06,
      "loss": 0.4561042308807373,
      "memory(GiB)": 77.59,
      "step": 103600,
      "token_acc": 0.9047619047619048,
      "train_speed(iter/s)": 1.461839
    },
    {
      "epoch": 4.438755837367722,
      "grad_norm": 1.7544817924499512,
      "learning_rate": 3.0767923506467845e-06,
      "loss": 0.24493327140808105,
      "memory(GiB)": 77.59,
      "step": 103605,
      "token_acc": 0.9527027027027027,
      "train_speed(iter/s)": 1.461837
    },
    {
      "epoch": 4.438970052696971,
      "grad_norm": 3.7345998287200928,
      "learning_rate": 3.0744684691815795e-06,
      "loss": 0.2505201816558838,
      "memory(GiB)": 77.59,
      "step": 103610,
      "token_acc": 0.9421221864951769,
      "train_speed(iter/s)": 1.461841
    },
    {
      "epoch": 4.43918426802622,
      "grad_norm": 0.9798698425292969,
      "learning_rate": 3.0721454378163925e-06,
      "loss": 0.2516953945159912,
      "memory(GiB)": 77.59,
      "step": 103615,
      "token_acc": 0.9274809160305344,
      "train_speed(iter/s)": 1.461846
    },
    {
      "epoch": 4.439398483355469,
      "grad_norm": 2.796919822692871,
      "learning_rate": 3.069823256593318e-06,
      "loss": 0.42614455223083497,
      "memory(GiB)": 77.59,
      "step": 103620,
      "token_acc": 0.898989898989899,
      "train_speed(iter/s)": 1.461851
    },
    {
      "epoch": 4.4396126986847175,
      "grad_norm": 2.565415859222412,
      "learning_rate": 3.0675019255544224e-06,
      "loss": 0.3041412353515625,
      "memory(GiB)": 77.59,
      "step": 103625,
      "token_acc": 0.9454545454545454,
      "train_speed(iter/s)": 1.46185
    },
    {
      "epoch": 4.439826914013967,
      "grad_norm": 2.9791953563690186,
      "learning_rate": 3.0651814447417492e-06,
      "loss": 0.46234827041625975,
      "memory(GiB)": 77.59,
      "step": 103630,
      "token_acc": 0.9257142857142857,
      "train_speed(iter/s)": 1.461858
    },
    {
      "epoch": 4.440041129343216,
      "grad_norm": 0.986024796962738,
      "learning_rate": 3.0628618141973486e-06,
      "loss": 0.3662412643432617,
      "memory(GiB)": 77.59,
      "step": 103635,
      "token_acc": 0.9333333333333333,
      "train_speed(iter/s)": 1.461858
    },
    {
      "epoch": 4.440255344672464,
      "grad_norm": 3.3220276832580566,
      "learning_rate": 3.060543033963237e-06,
      "loss": 0.4137455940246582,
      "memory(GiB)": 77.59,
      "step": 103640,
      "token_acc": 0.9288256227758007,
      "train_speed(iter/s)": 1.461861
    },
    {
      "epoch": 4.440469560001714,
      "grad_norm": 3.5659449100494385,
      "learning_rate": 3.058225104081408e-06,
      "loss": 0.2972689390182495,
      "memory(GiB)": 77.59,
      "step": 103645,
      "token_acc": 0.9344827586206896,
      "train_speed(iter/s)": 1.461863
    },
    {
      "epoch": 4.440683775330963,
      "grad_norm": 0.8507516384124756,
      "learning_rate": 3.0559080245938787e-06,
      "loss": 0.26842517852783204,
      "memory(GiB)": 77.59,
      "step": 103650,
      "token_acc": 0.9297124600638977,
      "train_speed(iter/s)": 1.461862
    },
    {
      "epoch": 4.440897990660211,
      "grad_norm": 2.877809524536133,
      "learning_rate": 3.0535917955426096e-06,
      "loss": 0.1375652551651001,
      "memory(GiB)": 77.59,
      "step": 103655,
      "token_acc": 0.967479674796748,
      "train_speed(iter/s)": 1.461863
    },
    {
      "epoch": 4.4411122059894605,
      "grad_norm": 3.245547294616699,
      "learning_rate": 3.0512764169695617e-06,
      "loss": 0.20500223636627196,
      "memory(GiB)": 77.59,
      "step": 103660,
      "token_acc": 0.9440993788819876,
      "train_speed(iter/s)": 1.461862
    },
    {
      "epoch": 4.44132642131871,
      "grad_norm": 0.47662588953971863,
      "learning_rate": 3.048961888916685e-06,
      "loss": 0.34370925426483157,
      "memory(GiB)": 77.59,
      "step": 103665,
      "token_acc": 0.9352226720647774,
      "train_speed(iter/s)": 1.461863
    },
    {
      "epoch": 4.441540636647958,
      "grad_norm": 5.722512722015381,
      "learning_rate": 3.046648211425912e-06,
      "loss": 0.46373300552368163,
      "memory(GiB)": 77.59,
      "step": 103670,
      "token_acc": 0.88,
      "train_speed(iter/s)": 1.461864
    },
    {
      "epoch": 4.441754851977207,
      "grad_norm": 2.766950845718384,
      "learning_rate": 3.044335384539143e-06,
      "loss": 0.47388515472412107,
      "memory(GiB)": 77.59,
      "step": 103675,
      "token_acc": 0.9180887372013652,
      "train_speed(iter/s)": 1.461869
    },
    {
      "epoch": 4.441969067306457,
      "grad_norm": 6.95186185836792,
      "learning_rate": 3.042023408298289e-06,
      "loss": 0.19003700017929076,
      "memory(GiB)": 77.59,
      "step": 103680,
      "token_acc": 0.9493243243243243,
      "train_speed(iter/s)": 1.461873
    },
    {
      "epoch": 4.442183282635705,
      "grad_norm": 5.667239665985107,
      "learning_rate": 3.0397122827452384e-06,
      "loss": 0.3535437107086182,
      "memory(GiB)": 77.59,
      "step": 103685,
      "token_acc": 0.9306930693069307,
      "train_speed(iter/s)": 1.461875
    },
    {
      "epoch": 4.442397497964954,
      "grad_norm": 3.147437810897827,
      "learning_rate": 3.037402007921847e-06,
      "loss": 0.5448683738708496,
      "memory(GiB)": 77.59,
      "step": 103690,
      "token_acc": 0.8985074626865671,
      "train_speed(iter/s)": 1.461896
    },
    {
      "epoch": 4.442611713294204,
      "grad_norm": 3.7887625694274902,
      "learning_rate": 3.035092583869975e-06,
      "loss": 0.415986156463623,
      "memory(GiB)": 77.59,
      "step": 103695,
      "token_acc": 0.9163498098859315,
      "train_speed(iter/s)": 1.461911
    },
    {
      "epoch": 4.442825928623452,
      "grad_norm": 3.685539484024048,
      "learning_rate": 3.032784010631462e-06,
      "loss": 0.6331137657165528,
      "memory(GiB)": 77.59,
      "step": 103700,
      "token_acc": 0.878125,
      "train_speed(iter/s)": 1.461914
    },
    {
      "epoch": 4.443040143952701,
      "grad_norm": 3.69897723197937,
      "learning_rate": 3.030476288248113e-06,
      "loss": 0.2859755516052246,
      "memory(GiB)": 77.59,
      "step": 103705,
      "token_acc": 0.9240506329113924,
      "train_speed(iter/s)": 1.461916
    },
    {
      "epoch": 4.4432543592819504,
      "grad_norm": 3.979091167449951,
      "learning_rate": 3.028169416761756e-06,
      "loss": 0.3622141361236572,
      "memory(GiB)": 77.59,
      "step": 103710,
      "token_acc": 0.9027777777777778,
      "train_speed(iter/s)": 1.461916
    },
    {
      "epoch": 4.443468574611199,
      "grad_norm": 1.8736516237258911,
      "learning_rate": 3.025863396214168e-06,
      "loss": 0.24821386337280274,
      "memory(GiB)": 77.59,
      "step": 103715,
      "token_acc": 0.9562289562289562,
      "train_speed(iter/s)": 1.461923
    },
    {
      "epoch": 4.443682789940448,
      "grad_norm": 0.8934811353683472,
      "learning_rate": 3.0235582266471328e-06,
      "loss": 0.13963167667388915,
      "memory(GiB)": 77.59,
      "step": 103720,
      "token_acc": 0.9659090909090909,
      "train_speed(iter/s)": 1.461929
    },
    {
      "epoch": 4.443897005269697,
      "grad_norm": 1.8157098293304443,
      "learning_rate": 3.0212539081024117e-06,
      "loss": 0.2852010250091553,
      "memory(GiB)": 77.59,
      "step": 103725,
      "token_acc": 0.9380530973451328,
      "train_speed(iter/s)": 1.461928
    },
    {
      "epoch": 4.444111220598946,
      "grad_norm": 4.783232688903809,
      "learning_rate": 3.0189504406217375e-06,
      "loss": 0.4079730033874512,
      "memory(GiB)": 77.59,
      "step": 103730,
      "token_acc": 0.9175627240143369,
      "train_speed(iter/s)": 1.461935
    },
    {
      "epoch": 4.444325435928195,
      "grad_norm": 3.219186782836914,
      "learning_rate": 3.016647824246843e-06,
      "loss": 0.5422533512115478,
      "memory(GiB)": 77.59,
      "step": 103735,
      "token_acc": 0.8691588785046729,
      "train_speed(iter/s)": 1.461931
    },
    {
      "epoch": 4.444539651257444,
      "grad_norm": 3.1164963245391846,
      "learning_rate": 3.014346059019457e-06,
      "loss": 0.44658384323120115,
      "memory(GiB)": 77.59,
      "step": 103740,
      "token_acc": 0.9037800687285223,
      "train_speed(iter/s)": 1.461932
    },
    {
      "epoch": 4.444753866586693,
      "grad_norm": 0.46805432438850403,
      "learning_rate": 3.012045144981268e-06,
      "loss": 0.12640044689178467,
      "memory(GiB)": 77.59,
      "step": 103745,
      "token_acc": 0.9711191335740073,
      "train_speed(iter/s)": 1.461937
    },
    {
      "epoch": 4.444968081915942,
      "grad_norm": 0.31671109795570374,
      "learning_rate": 3.009745082173965e-06,
      "loss": 0.38141779899597167,
      "memory(GiB)": 77.59,
      "step": 103750,
      "token_acc": 0.9386503067484663,
      "train_speed(iter/s)": 1.461932
    },
    {
      "epoch": 4.445182297245191,
      "grad_norm": 5.956330299377441,
      "learning_rate": 3.0074458706392028e-06,
      "loss": 0.2580071687698364,
      "memory(GiB)": 77.59,
      "step": 103755,
      "token_acc": 0.9311475409836065,
      "train_speed(iter/s)": 1.461938
    },
    {
      "epoch": 4.4453965125744395,
      "grad_norm": 3.287702798843384,
      "learning_rate": 3.0051475104186376e-06,
      "loss": 0.3291463375091553,
      "memory(GiB)": 77.59,
      "step": 103760,
      "token_acc": 0.9392523364485982,
      "train_speed(iter/s)": 1.461951
    },
    {
      "epoch": 4.445610727903689,
      "grad_norm": 2.6603033542633057,
      "learning_rate": 3.002850001553914e-06,
      "loss": 0.5501738548278808,
      "memory(GiB)": 77.59,
      "step": 103765,
      "token_acc": 0.8966565349544073,
      "train_speed(iter/s)": 1.461959
    },
    {
      "epoch": 4.445824943232938,
      "grad_norm": 1.9153841733932495,
      "learning_rate": 3.000553344086654e-06,
      "loss": 0.37224178314208983,
      "memory(GiB)": 77.59,
      "step": 103770,
      "token_acc": 0.9151943462897526,
      "train_speed(iter/s)": 1.461962
    },
    {
      "epoch": 4.446039158562186,
      "grad_norm": 3.670908212661743,
      "learning_rate": 2.9982575380584576e-06,
      "loss": 0.2423185348510742,
      "memory(GiB)": 77.59,
      "step": 103775,
      "token_acc": 0.9434628975265018,
      "train_speed(iter/s)": 1.461963
    },
    {
      "epoch": 4.446253373891436,
      "grad_norm": 0.6295031309127808,
      "learning_rate": 2.995962583510914e-06,
      "loss": 0.17504230737686158,
      "memory(GiB)": 77.59,
      "step": 103780,
      "token_acc": 0.9565217391304348,
      "train_speed(iter/s)": 1.46197
    },
    {
      "epoch": 4.446467589220685,
      "grad_norm": 1.8963632583618164,
      "learning_rate": 2.9936684804856064e-06,
      "loss": 0.2372905731201172,
      "memory(GiB)": 77.59,
      "step": 103785,
      "token_acc": 0.9437086092715232,
      "train_speed(iter/s)": 1.461978
    },
    {
      "epoch": 4.446681804549933,
      "grad_norm": 2.994945526123047,
      "learning_rate": 2.991375229024079e-06,
      "loss": 0.3874929428100586,
      "memory(GiB)": 77.59,
      "step": 103790,
      "token_acc": 0.9244186046511628,
      "train_speed(iter/s)": 1.461979
    },
    {
      "epoch": 4.4468960198791825,
      "grad_norm": 5.186663627624512,
      "learning_rate": 2.989082829167894e-06,
      "loss": 0.3472152233123779,
      "memory(GiB)": 77.59,
      "step": 103795,
      "token_acc": 0.9354838709677419,
      "train_speed(iter/s)": 1.461982
    },
    {
      "epoch": 4.447110235208432,
      "grad_norm": 2.8713810443878174,
      "learning_rate": 2.9867912809585784e-06,
      "loss": 0.2722845792770386,
      "memory(GiB)": 77.59,
      "step": 103800,
      "token_acc": 0.9520295202952029,
      "train_speed(iter/s)": 1.461986
    },
    {
      "epoch": 4.44732445053768,
      "grad_norm": 4.916960716247559,
      "learning_rate": 2.9845005844376327e-06,
      "loss": 0.4909525871276855,
      "memory(GiB)": 77.59,
      "step": 103805,
      "token_acc": 0.9093851132686084,
      "train_speed(iter/s)": 1.461988
    },
    {
      "epoch": 4.447538665866929,
      "grad_norm": 2.84844708442688,
      "learning_rate": 2.982210739646563e-06,
      "loss": 0.2424246311187744,
      "memory(GiB)": 77.59,
      "step": 103810,
      "token_acc": 0.9471830985915493,
      "train_speed(iter/s)": 1.46199
    },
    {
      "epoch": 4.447752881196179,
      "grad_norm": 6.381822109222412,
      "learning_rate": 2.979921746626857e-06,
      "loss": 0.6195128917694092,
      "memory(GiB)": 77.59,
      "step": 103815,
      "token_acc": 0.8738170347003155,
      "train_speed(iter/s)": 1.461999
    },
    {
      "epoch": 4.447967096525427,
      "grad_norm": 0.7420321106910706,
      "learning_rate": 2.977633605419966e-06,
      "loss": 0.2596641778945923,
      "memory(GiB)": 77.59,
      "step": 103820,
      "token_acc": 0.9074626865671642,
      "train_speed(iter/s)": 1.461998
    },
    {
      "epoch": 4.448181311854676,
      "grad_norm": 8.23372745513916,
      "learning_rate": 2.9753463160673624e-06,
      "loss": 0.3930727481842041,
      "memory(GiB)": 77.59,
      "step": 103825,
      "token_acc": 0.9131832797427653,
      "train_speed(iter/s)": 1.462012
    },
    {
      "epoch": 4.4483955271839255,
      "grad_norm": 4.086063861846924,
      "learning_rate": 2.9730598786104735e-06,
      "loss": 0.404171085357666,
      "memory(GiB)": 77.59,
      "step": 103830,
      "token_acc": 0.9261744966442953,
      "train_speed(iter/s)": 1.462012
    },
    {
      "epoch": 4.448609742513174,
      "grad_norm": 1.3492401838302612,
      "learning_rate": 2.970774293090722e-06,
      "loss": 0.42120137214660647,
      "memory(GiB)": 77.59,
      "step": 103835,
      "token_acc": 0.9059233449477352,
      "train_speed(iter/s)": 1.462018
    },
    {
      "epoch": 4.448823957842423,
      "grad_norm": 2.7264513969421387,
      "learning_rate": 2.9684895595495088e-06,
      "loss": 0.41034865379333496,
      "memory(GiB)": 77.59,
      "step": 103840,
      "token_acc": 0.8900343642611683,
      "train_speed(iter/s)": 1.462019
    },
    {
      "epoch": 4.449038173171672,
      "grad_norm": 2.630734920501709,
      "learning_rate": 2.9662056780282275e-06,
      "loss": 0.24592857360839843,
      "memory(GiB)": 77.59,
      "step": 103845,
      "token_acc": 0.9333333333333333,
      "train_speed(iter/s)": 1.462018
    },
    {
      "epoch": 4.449252388500921,
      "grad_norm": 1.8049893379211426,
      "learning_rate": 2.9639226485682457e-06,
      "loss": 0.3202247381210327,
      "memory(GiB)": 77.59,
      "step": 103850,
      "token_acc": 0.9358108108108109,
      "train_speed(iter/s)": 1.462019
    },
    {
      "epoch": 4.44946660383017,
      "grad_norm": 2.4887492656707764,
      "learning_rate": 2.9616404712109304e-06,
      "loss": 0.2486950159072876,
      "memory(GiB)": 77.59,
      "step": 103855,
      "token_acc": 0.9364548494983278,
      "train_speed(iter/s)": 1.462029
    },
    {
      "epoch": 4.449680819159419,
      "grad_norm": 2.516275405883789,
      "learning_rate": 2.9593591459976256e-06,
      "loss": 0.3666654586791992,
      "memory(GiB)": 77.59,
      "step": 103860,
      "token_acc": 0.9221556886227545,
      "train_speed(iter/s)": 1.462033
    },
    {
      "epoch": 4.449895034488668,
      "grad_norm": 4.523772239685059,
      "learning_rate": 2.9570786729696598e-06,
      "loss": 0.29479331970214845,
      "memory(GiB)": 77.59,
      "step": 103865,
      "token_acc": 0.9444444444444444,
      "train_speed(iter/s)": 1.462037
    },
    {
      "epoch": 4.450109249817917,
      "grad_norm": 3.851304531097412,
      "learning_rate": 2.9547990521683444e-06,
      "loss": 0.4711584568023682,
      "memory(GiB)": 77.59,
      "step": 103870,
      "token_acc": 0.9077490774907749,
      "train_speed(iter/s)": 1.46204
    },
    {
      "epoch": 4.450323465147166,
      "grad_norm": 7.960512638092041,
      "learning_rate": 2.9525202836349686e-06,
      "loss": 0.29643001556396487,
      "memory(GiB)": 77.59,
      "step": 103875,
      "token_acc": 0.9394904458598726,
      "train_speed(iter/s)": 1.462039
    },
    {
      "epoch": 4.4505376804764145,
      "grad_norm": 2.696281909942627,
      "learning_rate": 2.950242367410827e-06,
      "loss": 0.3579278469085693,
      "memory(GiB)": 77.59,
      "step": 103880,
      "token_acc": 0.9135338345864662,
      "train_speed(iter/s)": 1.462038
    },
    {
      "epoch": 4.450751895805664,
      "grad_norm": 3.691392421722412,
      "learning_rate": 2.94796530353717e-06,
      "loss": 0.2633510589599609,
      "memory(GiB)": 77.59,
      "step": 103885,
      "token_acc": 0.9512195121951219,
      "train_speed(iter/s)": 1.462038
    },
    {
      "epoch": 4.450966111134913,
      "grad_norm": 2.3631882667541504,
      "learning_rate": 2.945689092055276e-06,
      "loss": 0.19654561281204225,
      "memory(GiB)": 77.59,
      "step": 103890,
      "token_acc": 0.9602888086642599,
      "train_speed(iter/s)": 1.462042
    },
    {
      "epoch": 4.451180326464161,
      "grad_norm": 6.8982110023498535,
      "learning_rate": 2.9434137330063614e-06,
      "loss": 0.3567115545272827,
      "memory(GiB)": 77.59,
      "step": 103895,
      "token_acc": 0.9254237288135593,
      "train_speed(iter/s)": 1.462047
    },
    {
      "epoch": 4.451394541793411,
      "grad_norm": 5.190340995788574,
      "learning_rate": 2.941139226431644e-06,
      "loss": 0.4026597499847412,
      "memory(GiB)": 77.59,
      "step": 103900,
      "token_acc": 0.8923076923076924,
      "train_speed(iter/s)": 1.462047
    },
    {
      "epoch": 4.45160875712266,
      "grad_norm": 3.6093668937683105,
      "learning_rate": 2.9388655723723345e-06,
      "loss": 0.20901720523834227,
      "memory(GiB)": 77.59,
      "step": 103905,
      "token_acc": 0.9450867052023122,
      "train_speed(iter/s)": 1.462049
    },
    {
      "epoch": 4.451822972451908,
      "grad_norm": 4.3944902420043945,
      "learning_rate": 2.936592770869628e-06,
      "loss": 0.47823801040649416,
      "memory(GiB)": 77.59,
      "step": 103910,
      "token_acc": 0.8986013986013986,
      "train_speed(iter/s)": 1.462053
    },
    {
      "epoch": 4.4520371877811575,
      "grad_norm": 2.2793631553649902,
      "learning_rate": 2.9343208219646867e-06,
      "loss": 0.3184140920639038,
      "memory(GiB)": 77.59,
      "step": 103915,
      "token_acc": 0.932258064516129,
      "train_speed(iter/s)": 1.462054
    },
    {
      "epoch": 4.452251403110407,
      "grad_norm": 3.4915707111358643,
      "learning_rate": 2.9320497256986822e-06,
      "loss": 0.43050398826599123,
      "memory(GiB)": 77.59,
      "step": 103920,
      "token_acc": 0.8954703832752613,
      "train_speed(iter/s)": 1.462055
    },
    {
      "epoch": 4.452465618439655,
      "grad_norm": 3.6220383644104004,
      "learning_rate": 2.9297794821127488e-06,
      "loss": 0.44118757247924806,
      "memory(GiB)": 77.59,
      "step": 103925,
      "token_acc": 0.9116465863453815,
      "train_speed(iter/s)": 1.462052
    },
    {
      "epoch": 4.452679833768904,
      "grad_norm": 1.7128651142120361,
      "learning_rate": 2.927510091248009e-06,
      "loss": 0.2299304723739624,
      "memory(GiB)": 77.59,
      "step": 103930,
      "token_acc": 0.9326599326599326,
      "train_speed(iter/s)": 1.462064
    },
    {
      "epoch": 4.452894049098154,
      "grad_norm": 4.882075309753418,
      "learning_rate": 2.9252415531455802e-06,
      "loss": 0.4392275333404541,
      "memory(GiB)": 77.59,
      "step": 103935,
      "token_acc": 0.9172185430463576,
      "train_speed(iter/s)": 1.462064
    },
    {
      "epoch": 4.453108264427402,
      "grad_norm": 1.7327702045440674,
      "learning_rate": 2.922973867846568e-06,
      "loss": 0.1479145646095276,
      "memory(GiB)": 77.59,
      "step": 103940,
      "token_acc": 0.9628378378378378,
      "train_speed(iter/s)": 1.462067
    },
    {
      "epoch": 4.453322479756651,
      "grad_norm": 1.2407264709472656,
      "learning_rate": 2.920707035392045e-06,
      "loss": 0.12585527896881105,
      "memory(GiB)": 77.59,
      "step": 103945,
      "token_acc": 0.9655172413793104,
      "train_speed(iter/s)": 1.46207
    },
    {
      "epoch": 4.4535366950859006,
      "grad_norm": 4.454718589782715,
      "learning_rate": 2.918441055823079e-06,
      "loss": 0.2791996955871582,
      "memory(GiB)": 77.59,
      "step": 103950,
      "token_acc": 0.9246575342465754,
      "train_speed(iter/s)": 1.462072
    },
    {
      "epoch": 4.453750910415149,
      "grad_norm": 0.307831346988678,
      "learning_rate": 2.9161759291807144e-06,
      "loss": 0.20160927772521972,
      "memory(GiB)": 77.59,
      "step": 103955,
      "token_acc": 0.9572953736654805,
      "train_speed(iter/s)": 1.46208
    },
    {
      "epoch": 4.453965125744398,
      "grad_norm": 4.740945339202881,
      "learning_rate": 2.913911655505991e-06,
      "loss": 0.5867267608642578,
      "memory(GiB)": 77.59,
      "step": 103960,
      "token_acc": 0.8801261829652997,
      "train_speed(iter/s)": 1.462082
    },
    {
      "epoch": 4.454179341073647,
      "grad_norm": 5.031988143920898,
      "learning_rate": 2.91164823483992e-06,
      "loss": 0.19093526601791383,
      "memory(GiB)": 77.59,
      "step": 103965,
      "token_acc": 0.9663865546218487,
      "train_speed(iter/s)": 1.462083
    },
    {
      "epoch": 4.454393556402896,
      "grad_norm": 1.8320974111557007,
      "learning_rate": 2.9093856672235297e-06,
      "loss": 0.43674869537353517,
      "memory(GiB)": 77.59,
      "step": 103970,
      "token_acc": 0.8955696202531646,
      "train_speed(iter/s)": 1.462082
    },
    {
      "epoch": 4.454607771732145,
      "grad_norm": 2.5716617107391357,
      "learning_rate": 2.907123952697788e-06,
      "loss": 0.4851999759674072,
      "memory(GiB)": 77.59,
      "step": 103975,
      "token_acc": 0.9099099099099099,
      "train_speed(iter/s)": 1.462082
    },
    {
      "epoch": 4.454821987061394,
      "grad_norm": 2.240943670272827,
      "learning_rate": 2.9048630913036723e-06,
      "loss": 0.3591834306716919,
      "memory(GiB)": 77.59,
      "step": 103980,
      "token_acc": 0.9111111111111111,
      "train_speed(iter/s)": 1.462078
    },
    {
      "epoch": 4.455036202390643,
      "grad_norm": 2.60434627532959,
      "learning_rate": 2.9026030830821396e-06,
      "loss": 0.2318873643875122,
      "memory(GiB)": 77.59,
      "step": 103985,
      "token_acc": 0.9423728813559322,
      "train_speed(iter/s)": 1.462079
    },
    {
      "epoch": 4.455250417719892,
      "grad_norm": 3.8199777603149414,
      "learning_rate": 2.900343928074134e-06,
      "loss": 0.24772143363952637,
      "memory(GiB)": 77.59,
      "step": 103990,
      "token_acc": 0.956,
      "train_speed(iter/s)": 1.462083
    },
    {
      "epoch": 4.455464633049141,
      "grad_norm": 1.678515911102295,
      "learning_rate": 2.8980856263205736e-06,
      "loss": 0.3344932794570923,
      "memory(GiB)": 77.59,
      "step": 103995,
      "token_acc": 0.9384057971014492,
      "train_speed(iter/s)": 1.462083
    },
    {
      "epoch": 4.45567884837839,
      "grad_norm": 3.2960526943206787,
      "learning_rate": 2.895828177862386e-06,
      "loss": 0.18020739555358886,
      "memory(GiB)": 77.59,
      "step": 104000,
      "token_acc": 0.9619771863117871,
      "train_speed(iter/s)": 1.462081
    },
    {
      "epoch": 4.45567884837839,
      "eval_loss": 2.3643109798431396,
      "eval_runtime": 11.7086,
      "eval_samples_per_second": 8.541,
      "eval_steps_per_second": 8.541,
      "eval_token_acc": 0.43757292882147025,
      "step": 104000
    },
    {
      "epoch": 4.455893063707639,
      "grad_norm": 4.603425979614258,
      "learning_rate": 2.893571582740462e-06,
      "loss": 0.46727876663208007,
      "memory(GiB)": 77.59,
      "step": 104005,
      "token_acc": 0.5390909090909091,
      "train_speed(iter/s)": 1.461818
    },
    {
      "epoch": 4.456107279036888,
      "grad_norm": 2.8062376976013184,
      "learning_rate": 2.8913158409956733e-06,
      "loss": 0.3506906032562256,
      "memory(GiB)": 77.59,
      "step": 104010,
      "token_acc": 0.931740614334471,
      "train_speed(iter/s)": 1.461822
    },
    {
      "epoch": 4.4563214943661364,
      "grad_norm": 1.980615496635437,
      "learning_rate": 2.8890609526688873e-06,
      "loss": 0.31967933177948,
      "memory(GiB)": 77.59,
      "step": 104015,
      "token_acc": 0.9221311475409836,
      "train_speed(iter/s)": 1.461838
    },
    {
      "epoch": 4.456535709695386,
      "grad_norm": 4.316009044647217,
      "learning_rate": 2.886806917800955e-06,
      "loss": 0.5385609149932862,
      "memory(GiB)": 77.59,
      "step": 104020,
      "token_acc": 0.8892857142857142,
      "train_speed(iter/s)": 1.46184
    },
    {
      "epoch": 4.456749925024635,
      "grad_norm": 4.923282146453857,
      "learning_rate": 2.8845537364327104e-06,
      "loss": 0.3915215015411377,
      "memory(GiB)": 77.59,
      "step": 104025,
      "token_acc": 0.9236111111111112,
      "train_speed(iter/s)": 1.46184
    },
    {
      "epoch": 4.456964140353883,
      "grad_norm": 2.4715723991394043,
      "learning_rate": 2.8823014086049704e-06,
      "loss": 0.4422764778137207,
      "memory(GiB)": 77.59,
      "step": 104030,
      "token_acc": 0.9139784946236559,
      "train_speed(iter/s)": 1.461845
    },
    {
      "epoch": 4.457178355683133,
      "grad_norm": 1.9842675924301147,
      "learning_rate": 2.8800499343585474e-06,
      "loss": 0.4127791881561279,
      "memory(GiB)": 77.59,
      "step": 104035,
      "token_acc": 0.8921933085501859,
      "train_speed(iter/s)": 1.461853
    },
    {
      "epoch": 4.457392571012382,
      "grad_norm": 3.441930055618286,
      "learning_rate": 2.8777993137342197e-06,
      "loss": 0.3377416133880615,
      "memory(GiB)": 77.59,
      "step": 104040,
      "token_acc": 0.9111842105263158,
      "train_speed(iter/s)": 1.461857
    },
    {
      "epoch": 4.45760678634163,
      "grad_norm": 2.3403170108795166,
      "learning_rate": 2.8755495467727657e-06,
      "loss": 0.5872798919677734,
      "memory(GiB)": 77.59,
      "step": 104045,
      "token_acc": 0.8842443729903537,
      "train_speed(iter/s)": 1.461858
    },
    {
      "epoch": 4.4578210016708795,
      "grad_norm": 2.1897499561309814,
      "learning_rate": 2.8733006335149305e-06,
      "loss": 0.48862438201904296,
      "memory(GiB)": 77.59,
      "step": 104050,
      "token_acc": 0.8952380952380953,
      "train_speed(iter/s)": 1.461871
    },
    {
      "epoch": 4.458035217000129,
      "grad_norm": 1.2177646160125732,
      "learning_rate": 2.871052574001465e-06,
      "loss": 0.2994356870651245,
      "memory(GiB)": 77.59,
      "step": 104055,
      "token_acc": 0.9496644295302014,
      "train_speed(iter/s)": 1.461869
    },
    {
      "epoch": 4.458249432329377,
      "grad_norm": 1.7037659883499146,
      "learning_rate": 2.8688053682730973e-06,
      "loss": 0.4464524269104004,
      "memory(GiB)": 77.59,
      "step": 104060,
      "token_acc": 0.8670886075949367,
      "train_speed(iter/s)": 1.461879
    },
    {
      "epoch": 4.458463647658626,
      "grad_norm": 3.2803070545196533,
      "learning_rate": 2.8665590163705293e-06,
      "loss": 0.20868985652923583,
      "memory(GiB)": 77.59,
      "step": 104065,
      "token_acc": 0.9477351916376306,
      "train_speed(iter/s)": 1.461882
    },
    {
      "epoch": 4.458677862987876,
      "grad_norm": 2.2172904014587402,
      "learning_rate": 2.864313518334466e-06,
      "loss": 0.3425022602081299,
      "memory(GiB)": 77.59,
      "step": 104070,
      "token_acc": 0.9196141479099679,
      "train_speed(iter/s)": 1.461887
    },
    {
      "epoch": 4.458892078317124,
      "grad_norm": 1.2031384706497192,
      "learning_rate": 2.862068874205576e-06,
      "loss": 0.18543314933776855,
      "memory(GiB)": 77.59,
      "step": 104075,
      "token_acc": 0.9572953736654805,
      "train_speed(iter/s)": 1.461887
    },
    {
      "epoch": 4.459106293646373,
      "grad_norm": 6.712139129638672,
      "learning_rate": 2.85982508402452e-06,
      "loss": 0.5009604454040527,
      "memory(GiB)": 77.59,
      "step": 104080,
      "token_acc": 0.8688524590163934,
      "train_speed(iter/s)": 1.461888
    },
    {
      "epoch": 4.4593205089756225,
      "grad_norm": 2.502268075942993,
      "learning_rate": 2.8575821478319554e-06,
      "loss": 0.22759225368499755,
      "memory(GiB)": 77.59,
      "step": 104085,
      "token_acc": 0.9468085106382979,
      "train_speed(iter/s)": 1.461889
    },
    {
      "epoch": 4.459534724304871,
      "grad_norm": 1.603842854499817,
      "learning_rate": 2.8553400656685216e-06,
      "loss": 0.39304242134094236,
      "memory(GiB)": 77.59,
      "step": 104090,
      "token_acc": 0.9125,
      "train_speed(iter/s)": 1.46189
    },
    {
      "epoch": 4.45974893963412,
      "grad_norm": 2.121516227722168,
      "learning_rate": 2.8530988375748247e-06,
      "loss": 0.2605544328689575,
      "memory(GiB)": 77.59,
      "step": 104095,
      "token_acc": 0.9436619718309859,
      "train_speed(iter/s)": 1.461895
    },
    {
      "epoch": 4.459963154963369,
      "grad_norm": 3.39841890335083,
      "learning_rate": 2.8508584635914715e-06,
      "loss": 0.35621330738067625,
      "memory(GiB)": 77.59,
      "step": 104100,
      "token_acc": 0.9324324324324325,
      "train_speed(iter/s)": 1.461898
    },
    {
      "epoch": 4.460177370292618,
      "grad_norm": 1.714925765991211,
      "learning_rate": 2.848618943759035e-06,
      "loss": 0.2812263250350952,
      "memory(GiB)": 77.59,
      "step": 104105,
      "token_acc": 0.952112676056338,
      "train_speed(iter/s)": 1.461901
    },
    {
      "epoch": 4.460391585621867,
      "grad_norm": 0.24342931807041168,
      "learning_rate": 2.846380278118099e-06,
      "loss": 0.3150906801223755,
      "memory(GiB)": 77.59,
      "step": 104110,
      "token_acc": 0.9247648902821317,
      "train_speed(iter/s)": 1.461904
    },
    {
      "epoch": 4.460605800951116,
      "grad_norm": 3.1562435626983643,
      "learning_rate": 2.844142466709232e-06,
      "loss": 0.2434466600418091,
      "memory(GiB)": 77.59,
      "step": 104115,
      "token_acc": 0.9326241134751773,
      "train_speed(iter/s)": 1.461909
    },
    {
      "epoch": 4.460820016280365,
      "grad_norm": 3.653442144393921,
      "learning_rate": 2.8419055095729507e-06,
      "loss": 0.5157814979553222,
      "memory(GiB)": 77.59,
      "step": 104120,
      "token_acc": 0.8764705882352941,
      "train_speed(iter/s)": 1.46191
    },
    {
      "epoch": 4.461034231609614,
      "grad_norm": 1.4022047519683838,
      "learning_rate": 2.839669406749795e-06,
      "loss": 0.2872201681137085,
      "memory(GiB)": 77.59,
      "step": 104125,
      "token_acc": 0.9322033898305084,
      "train_speed(iter/s)": 1.461914
    },
    {
      "epoch": 4.461248446938863,
      "grad_norm": 4.542088031768799,
      "learning_rate": 2.8374341582802664e-06,
      "loss": 0.160847270488739,
      "memory(GiB)": 77.59,
      "step": 104130,
      "token_acc": 0.9562043795620438,
      "train_speed(iter/s)": 1.461916
    },
    {
      "epoch": 4.4614626622681115,
      "grad_norm": 3.3934848308563232,
      "learning_rate": 2.83519976420486e-06,
      "loss": 0.24818286895751954,
      "memory(GiB)": 77.59,
      "step": 104135,
      "token_acc": 0.9477611940298507,
      "train_speed(iter/s)": 1.461922
    },
    {
      "epoch": 4.461676877597361,
      "grad_norm": 6.510392665863037,
      "learning_rate": 2.8329662245640487e-06,
      "loss": 0.5267648696899414,
      "memory(GiB)": 77.59,
      "step": 104140,
      "token_acc": 0.8871595330739299,
      "train_speed(iter/s)": 1.461923
    },
    {
      "epoch": 4.46189109292661,
      "grad_norm": 7.723862648010254,
      "learning_rate": 2.830733539398306e-06,
      "loss": 0.4167473316192627,
      "memory(GiB)": 77.59,
      "step": 104145,
      "token_acc": 0.9,
      "train_speed(iter/s)": 1.461922
    },
    {
      "epoch": 4.462105308255858,
      "grad_norm": 5.567760467529297,
      "learning_rate": 2.8285017087480715e-06,
      "loss": 0.3350059032440186,
      "memory(GiB)": 77.59,
      "step": 104150,
      "token_acc": 0.9166666666666666,
      "train_speed(iter/s)": 1.461921
    },
    {
      "epoch": 4.462319523585108,
      "grad_norm": 3.1194891929626465,
      "learning_rate": 2.8262707326537795e-06,
      "loss": 0.6842159271240235,
      "memory(GiB)": 77.59,
      "step": 104155,
      "token_acc": 0.8798701298701299,
      "train_speed(iter/s)": 1.461918
    },
    {
      "epoch": 4.462533738914357,
      "grad_norm": 4.6910481452941895,
      "learning_rate": 2.824040611155848e-06,
      "loss": 0.24832522869110107,
      "memory(GiB)": 77.59,
      "step": 104160,
      "token_acc": 0.9498069498069498,
      "train_speed(iter/s)": 1.461928
    },
    {
      "epoch": 4.462747954243605,
      "grad_norm": 1.0220218896865845,
      "learning_rate": 2.821811344294667e-06,
      "loss": 0.30269436836242675,
      "memory(GiB)": 77.59,
      "step": 104165,
      "token_acc": 0.9422382671480144,
      "train_speed(iter/s)": 1.461929
    },
    {
      "epoch": 4.4629621695728545,
      "grad_norm": 2.968899965286255,
      "learning_rate": 2.819582932110637e-06,
      "loss": 0.35331144332885744,
      "memory(GiB)": 77.59,
      "step": 104170,
      "token_acc": 0.9276315789473685,
      "train_speed(iter/s)": 1.461932
    },
    {
      "epoch": 4.463176384902104,
      "grad_norm": 3.7761919498443604,
      "learning_rate": 2.8173553746441207e-06,
      "loss": 0.4803877830505371,
      "memory(GiB)": 77.59,
      "step": 104175,
      "token_acc": 0.8948948948948949,
      "train_speed(iter/s)": 1.461935
    },
    {
      "epoch": 4.463390600231352,
      "grad_norm": 3.0407752990722656,
      "learning_rate": 2.8151286719354686e-06,
      "loss": 0.2137500286102295,
      "memory(GiB)": 77.59,
      "step": 104180,
      "token_acc": 0.9508771929824561,
      "train_speed(iter/s)": 1.461939
    },
    {
      "epoch": 4.463604815560601,
      "grad_norm": 3.515486001968384,
      "learning_rate": 2.8129028240250267e-06,
      "loss": 0.37090210914611815,
      "memory(GiB)": 77.59,
      "step": 104185,
      "token_acc": 0.9245901639344263,
      "train_speed(iter/s)": 1.46194
    },
    {
      "epoch": 4.463819030889851,
      "grad_norm": 4.4620161056518555,
      "learning_rate": 2.8106778309531178e-06,
      "loss": 0.24850037097930908,
      "memory(GiB)": 77.59,
      "step": 104190,
      "token_acc": 0.9322033898305084,
      "train_speed(iter/s)": 1.46195
    },
    {
      "epoch": 4.464033246219099,
      "grad_norm": 5.180398464202881,
      "learning_rate": 2.808453692760038e-06,
      "loss": 0.34868898391723635,
      "memory(GiB)": 77.59,
      "step": 104195,
      "token_acc": 0.9082278481012658,
      "train_speed(iter/s)": 1.461947
    },
    {
      "epoch": 4.464247461548348,
      "grad_norm": 0.1826580911874771,
      "learning_rate": 2.806230409486099e-06,
      "loss": 0.22156155109405518,
      "memory(GiB)": 77.59,
      "step": 104200,
      "token_acc": 0.96,
      "train_speed(iter/s)": 1.461948
    },
    {
      "epoch": 4.4644616768775975,
      "grad_norm": 6.396040439605713,
      "learning_rate": 2.8040079811715638e-06,
      "loss": 0.3268155336380005,
      "memory(GiB)": 77.59,
      "step": 104205,
      "token_acc": 0.928082191780822,
      "train_speed(iter/s)": 1.46196
    },
    {
      "epoch": 4.464675892206846,
      "grad_norm": 3.8500068187713623,
      "learning_rate": 2.8017864078566992e-06,
      "loss": 0.5183325290679932,
      "memory(GiB)": 77.59,
      "step": 104210,
      "token_acc": 0.8854166666666666,
      "train_speed(iter/s)": 1.461971
    },
    {
      "epoch": 4.464890107536095,
      "grad_norm": 1.8573366403579712,
      "learning_rate": 2.7995656895817513e-06,
      "loss": 0.19465553760528564,
      "memory(GiB)": 77.59,
      "step": 104215,
      "token_acc": 0.9560117302052786,
      "train_speed(iter/s)": 1.461971
    },
    {
      "epoch": 4.465104322865344,
      "grad_norm": 4.343760013580322,
      "learning_rate": 2.797345826386949e-06,
      "loss": 0.3389659643173218,
      "memory(GiB)": 77.59,
      "step": 104220,
      "token_acc": 0.9325842696629213,
      "train_speed(iter/s)": 1.461974
    },
    {
      "epoch": 4.465318538194593,
      "grad_norm": 2.1519696712493896,
      "learning_rate": 2.7951268183124935e-06,
      "loss": 0.23233304023742676,
      "memory(GiB)": 77.59,
      "step": 104225,
      "token_acc": 0.9420849420849421,
      "train_speed(iter/s)": 1.461977
    },
    {
      "epoch": 4.465532753523842,
      "grad_norm": 0.8873899579048157,
      "learning_rate": 2.792908665398608e-06,
      "loss": 0.15356011390686036,
      "memory(GiB)": 77.59,
      "step": 104230,
      "token_acc": 0.9681978798586572,
      "train_speed(iter/s)": 1.461988
    },
    {
      "epoch": 4.465746968853091,
      "grad_norm": 5.068668842315674,
      "learning_rate": 2.7906913676854664e-06,
      "loss": 0.5286267757415771,
      "memory(GiB)": 77.59,
      "step": 104235,
      "token_acc": 0.9018987341772152,
      "train_speed(iter/s)": 1.461991
    },
    {
      "epoch": 4.465961184182341,
      "grad_norm": 3.5429487228393555,
      "learning_rate": 2.788474925213236e-06,
      "loss": 0.5030910968780518,
      "memory(GiB)": 77.59,
      "step": 104240,
      "token_acc": 0.9111842105263158,
      "train_speed(iter/s)": 1.461995
    },
    {
      "epoch": 4.466175399511589,
      "grad_norm": 1.962922215461731,
      "learning_rate": 2.7862593380220737e-06,
      "loss": 0.3764235734939575,
      "memory(GiB)": 77.59,
      "step": 104245,
      "token_acc": 0.8986486486486487,
      "train_speed(iter/s)": 1.461999
    },
    {
      "epoch": 4.466389614840838,
      "grad_norm": 2.6914689540863037,
      "learning_rate": 2.784044606152103e-06,
      "loss": 0.24869742393493652,
      "memory(GiB)": 77.59,
      "step": 104250,
      "token_acc": 0.9290780141843972,
      "train_speed(iter/s)": 1.462005
    },
    {
      "epoch": 4.4666038301700866,
      "grad_norm": 2.855651617050171,
      "learning_rate": 2.7818307296434585e-06,
      "loss": 0.30635900497436525,
      "memory(GiB)": 77.59,
      "step": 104255,
      "token_acc": 0.9525423728813559,
      "train_speed(iter/s)": 1.462006
    },
    {
      "epoch": 4.466818045499336,
      "grad_norm": 0.2388760894536972,
      "learning_rate": 2.7796177085362476e-06,
      "loss": 0.28422491550445556,
      "memory(GiB)": 77.59,
      "step": 104260,
      "token_acc": 0.9338235294117647,
      "train_speed(iter/s)": 1.462012
    },
    {
      "epoch": 4.467032260828585,
      "grad_norm": 2.5575077533721924,
      "learning_rate": 2.777405542870559e-06,
      "loss": 0.6528433322906494,
      "memory(GiB)": 77.59,
      "step": 104265,
      "token_acc": 0.8695652173913043,
      "train_speed(iter/s)": 1.462021
    },
    {
      "epoch": 4.467246476157834,
      "grad_norm": 4.237175464630127,
      "learning_rate": 2.775194232686473e-06,
      "loss": 0.22542085647583007,
      "memory(GiB)": 77.59,
      "step": 104270,
      "token_acc": 0.9578947368421052,
      "train_speed(iter/s)": 1.462022
    },
    {
      "epoch": 4.467460691487083,
      "grad_norm": 3.9007139205932617,
      "learning_rate": 2.772983778024035e-06,
      "loss": 0.38319859504699705,
      "memory(GiB)": 77.59,
      "step": 104275,
      "token_acc": 0.9250936329588015,
      "train_speed(iter/s)": 1.462023
    },
    {
      "epoch": 4.467674906816332,
      "grad_norm": 2.2109458446502686,
      "learning_rate": 2.7707741789233078e-06,
      "loss": 0.13011841773986815,
      "memory(GiB)": 77.59,
      "step": 104280,
      "token_acc": 0.9709090909090909,
      "train_speed(iter/s)": 1.462027
    },
    {
      "epoch": 4.46788912214558,
      "grad_norm": 2.5778379440307617,
      "learning_rate": 2.768565435424297e-06,
      "loss": 0.32842378616333007,
      "memory(GiB)": 77.59,
      "step": 104285,
      "token_acc": 0.9136690647482014,
      "train_speed(iter/s)": 1.462037
    },
    {
      "epoch": 4.46810333747483,
      "grad_norm": 2.647041082382202,
      "learning_rate": 2.7663575475670387e-06,
      "loss": 0.5767872333526611,
      "memory(GiB)": 77.59,
      "step": 104290,
      "token_acc": 0.8870967741935484,
      "train_speed(iter/s)": 1.462048
    },
    {
      "epoch": 4.468317552804079,
      "grad_norm": 4.047182559967041,
      "learning_rate": 2.7641505153915227e-06,
      "loss": 0.20273053646087646,
      "memory(GiB)": 77.59,
      "step": 104295,
      "token_acc": 0.9536679536679536,
      "train_speed(iter/s)": 1.462049
    },
    {
      "epoch": 4.468531768133328,
      "grad_norm": 3.1739583015441895,
      "learning_rate": 2.761944338937733e-06,
      "loss": 0.3710179805755615,
      "memory(GiB)": 77.59,
      "step": 104300,
      "token_acc": 0.9280575539568345,
      "train_speed(iter/s)": 1.462061
    },
    {
      "epoch": 4.4687459834625765,
      "grad_norm": 4.518255233764648,
      "learning_rate": 2.7597390182456327e-06,
      "loss": 0.5511866092681885,
      "memory(GiB)": 77.59,
      "step": 104305,
      "token_acc": 0.8992805755395683,
      "train_speed(iter/s)": 1.46208
    },
    {
      "epoch": 4.468960198791826,
      "grad_norm": 3.0287868976593018,
      "learning_rate": 2.757534553355168e-06,
      "loss": 0.30171923637390136,
      "memory(GiB)": 77.59,
      "step": 104310,
      "token_acc": 0.9345454545454546,
      "train_speed(iter/s)": 1.462081
    },
    {
      "epoch": 4.469174414121074,
      "grad_norm": 4.694368839263916,
      "learning_rate": 2.755330944306289e-06,
      "loss": 0.16708019971847535,
      "memory(GiB)": 77.59,
      "step": 104315,
      "token_acc": 0.9475524475524476,
      "train_speed(iter/s)": 1.462083
    },
    {
      "epoch": 4.469388629450323,
      "grad_norm": 5.063000202178955,
      "learning_rate": 2.7531281911389094e-06,
      "loss": 0.46062164306640624,
      "memory(GiB)": 77.59,
      "step": 104320,
      "token_acc": 0.8819672131147541,
      "train_speed(iter/s)": 1.462093
    },
    {
      "epoch": 4.469602844779573,
      "grad_norm": 8.115987777709961,
      "learning_rate": 2.750926293892925e-06,
      "loss": 0.2606045246124268,
      "memory(GiB)": 77.59,
      "step": 104325,
      "token_acc": 0.9311594202898551,
      "train_speed(iter/s)": 1.462092
    },
    {
      "epoch": 4.469817060108822,
      "grad_norm": 2.72080659866333,
      "learning_rate": 2.748725252608242e-06,
      "loss": 0.118782377243042,
      "memory(GiB)": 77.59,
      "step": 104330,
      "token_acc": 0.9684542586750788,
      "train_speed(iter/s)": 1.462095
    },
    {
      "epoch": 4.47003127543807,
      "grad_norm": 3.953704833984375,
      "learning_rate": 2.746525067324729e-06,
      "loss": 0.38954098224639894,
      "memory(GiB)": 77.59,
      "step": 104335,
      "token_acc": 0.925,
      "train_speed(iter/s)": 1.462095
    },
    {
      "epoch": 4.4702454907673195,
      "grad_norm": 3.629615306854248,
      "learning_rate": 2.7443257380822318e-06,
      "loss": 0.34512326717376707,
      "memory(GiB)": 77.59,
      "step": 104340,
      "token_acc": 0.9222222222222223,
      "train_speed(iter/s)": 1.462097
    },
    {
      "epoch": 4.470459706096568,
      "grad_norm": 2.324547290802002,
      "learning_rate": 2.7421272649206077e-06,
      "loss": 0.27842040061950685,
      "memory(GiB)": 77.59,
      "step": 104345,
      "token_acc": 0.9258160237388724,
      "train_speed(iter/s)": 1.462099
    },
    {
      "epoch": 4.470673921425817,
      "grad_norm": 1.4305052757263184,
      "learning_rate": 2.7399296478796855e-06,
      "loss": 0.2247305393218994,
      "memory(GiB)": 77.59,
      "step": 104350,
      "token_acc": 0.9475524475524476,
      "train_speed(iter/s)": 1.4621
    },
    {
      "epoch": 4.470888136755066,
      "grad_norm": 3.4940414428710938,
      "learning_rate": 2.737732886999267e-06,
      "loss": 0.3040785551071167,
      "memory(GiB)": 77.59,
      "step": 104355,
      "token_acc": 0.9243027888446215,
      "train_speed(iter/s)": 1.4621
    },
    {
      "epoch": 4.471102352084316,
      "grad_norm": 1.8433101177215576,
      "learning_rate": 2.7355369823191536e-06,
      "loss": 0.22303056716918945,
      "memory(GiB)": 77.59,
      "step": 104360,
      "token_acc": 0.9340659340659341,
      "train_speed(iter/s)": 1.4621
    },
    {
      "epoch": 4.471316567413564,
      "grad_norm": 3.691006898880005,
      "learning_rate": 2.73334193387913e-06,
      "loss": 0.3218871593475342,
      "memory(GiB)": 77.59,
      "step": 104365,
      "token_acc": 0.9221311475409836,
      "train_speed(iter/s)": 1.46211
    },
    {
      "epoch": 4.471530782742813,
      "grad_norm": 5.14331579208374,
      "learning_rate": 2.7311477417189424e-06,
      "loss": 0.5045305728912354,
      "memory(GiB)": 77.59,
      "step": 104370,
      "token_acc": 0.9100346020761245,
      "train_speed(iter/s)": 1.462111
    },
    {
      "epoch": 4.471744998072062,
      "grad_norm": 2.6271374225616455,
      "learning_rate": 2.72895440587837e-06,
      "loss": 0.2138070583343506,
      "memory(GiB)": 77.59,
      "step": 104375,
      "token_acc": 0.9446366782006921,
      "train_speed(iter/s)": 1.462116
    },
    {
      "epoch": 4.471959213401311,
      "grad_norm": 5.151856899261475,
      "learning_rate": 2.7267619263971255e-06,
      "loss": 0.2834265470504761,
      "memory(GiB)": 77.59,
      "step": 104380,
      "token_acc": 0.931899641577061,
      "train_speed(iter/s)": 1.462114
    },
    {
      "epoch": 4.47217342873056,
      "grad_norm": 3.136428117752075,
      "learning_rate": 2.7245703033149384e-06,
      "loss": 0.4546207427978516,
      "memory(GiB)": 77.59,
      "step": 104385,
      "token_acc": 0.8834688346883469,
      "train_speed(iter/s)": 1.462111
    },
    {
      "epoch": 4.472387644059809,
      "grad_norm": 3.7679545879364014,
      "learning_rate": 2.7223795366715098e-06,
      "loss": 0.35036420822143555,
      "memory(GiB)": 77.59,
      "step": 104390,
      "token_acc": 0.9109195402298851,
      "train_speed(iter/s)": 1.462114
    },
    {
      "epoch": 4.472601859389058,
      "grad_norm": 5.448635101318359,
      "learning_rate": 2.720189626506514e-06,
      "loss": 0.33427183628082274,
      "memory(GiB)": 77.59,
      "step": 104395,
      "token_acc": 0.9254901960784314,
      "train_speed(iter/s)": 1.462116
    },
    {
      "epoch": 4.472816074718307,
      "grad_norm": 2.1271212100982666,
      "learning_rate": 2.718000572859636e-06,
      "loss": 0.41745333671569823,
      "memory(GiB)": 77.59,
      "step": 104400,
      "token_acc": 0.9100346020761245,
      "train_speed(iter/s)": 1.462119
    },
    {
      "epoch": 4.473030290047555,
      "grad_norm": 0.14517374336719513,
      "learning_rate": 2.7158123757705433e-06,
      "loss": 0.621551513671875,
      "memory(GiB)": 77.59,
      "step": 104405,
      "token_acc": 0.8901515151515151,
      "train_speed(iter/s)": 1.462121
    },
    {
      "epoch": 4.473244505376805,
      "grad_norm": 3.528852701187134,
      "learning_rate": 2.7136250352788606e-06,
      "loss": 0.4067336082458496,
      "memory(GiB)": 77.59,
      "step": 104410,
      "token_acc": 0.9210526315789473,
      "train_speed(iter/s)": 1.462129
    },
    {
      "epoch": 4.473458720706054,
      "grad_norm": 0.5702508091926575,
      "learning_rate": 2.7114385514242222e-06,
      "loss": 0.17033780813217164,
      "memory(GiB)": 77.59,
      "step": 104415,
      "token_acc": 0.9656357388316151,
      "train_speed(iter/s)": 1.462134
    },
    {
      "epoch": 4.473672936035303,
      "grad_norm": 4.690647602081299,
      "learning_rate": 2.7092529242462307e-06,
      "loss": 0.4608471870422363,
      "memory(GiB)": 77.59,
      "step": 104420,
      "token_acc": 0.8813559322033898,
      "train_speed(iter/s)": 1.462134
    },
    {
      "epoch": 4.4738871513645515,
      "grad_norm": 1.3680111169815063,
      "learning_rate": 2.707068153784481e-06,
      "loss": 0.21597895622253419,
      "memory(GiB)": 77.59,
      "step": 104425,
      "token_acc": 0.9597069597069597,
      "train_speed(iter/s)": 1.462135
    },
    {
      "epoch": 4.474101366693801,
      "grad_norm": 3.1835711002349854,
      "learning_rate": 2.704884240078559e-06,
      "loss": 0.4265460968017578,
      "memory(GiB)": 77.59,
      "step": 104430,
      "token_acc": 0.9057239057239057,
      "train_speed(iter/s)": 1.462146
    },
    {
      "epoch": 4.474315582023049,
      "grad_norm": 5.836519718170166,
      "learning_rate": 2.702701183168033e-06,
      "loss": 0.3601263761520386,
      "memory(GiB)": 77.59,
      "step": 104435,
      "token_acc": 0.924,
      "train_speed(iter/s)": 1.46215
    },
    {
      "epoch": 4.474529797352298,
      "grad_norm": 8.130420684814453,
      "learning_rate": 2.7005189830924373e-06,
      "loss": 0.6074734210968018,
      "memory(GiB)": 77.59,
      "step": 104440,
      "token_acc": 0.8731117824773413,
      "train_speed(iter/s)": 1.462153
    },
    {
      "epoch": 4.474744012681548,
      "grad_norm": 6.734340667724609,
      "learning_rate": 2.6983376398913128e-06,
      "loss": 0.4426288604736328,
      "memory(GiB)": 77.59,
      "step": 104445,
      "token_acc": 0.9084507042253521,
      "train_speed(iter/s)": 1.462157
    },
    {
      "epoch": 4.474958228010797,
      "grad_norm": 3.0957424640655518,
      "learning_rate": 2.696157153604173e-06,
      "loss": 0.3255736827850342,
      "memory(GiB)": 77.59,
      "step": 104450,
      "token_acc": 0.9239543726235742,
      "train_speed(iter/s)": 1.462169
    },
    {
      "epoch": 4.475172443340045,
      "grad_norm": 3.116875648498535,
      "learning_rate": 2.6939775242705133e-06,
      "loss": 0.3627466201782227,
      "memory(GiB)": 77.59,
      "step": 104455,
      "token_acc": 0.9163636363636364,
      "train_speed(iter/s)": 1.462174
    },
    {
      "epoch": 4.4753866586692945,
      "grad_norm": 3.29233980178833,
      "learning_rate": 2.6917987519298415e-06,
      "loss": 0.18958239555358886,
      "memory(GiB)": 77.59,
      "step": 104460,
      "token_acc": 0.9634146341463414,
      "train_speed(iter/s)": 1.462178
    },
    {
      "epoch": 4.475600873998543,
      "grad_norm": 2.448718547821045,
      "learning_rate": 2.6896208366216034e-06,
      "loss": 0.3165303707122803,
      "memory(GiB)": 77.59,
      "step": 104465,
      "token_acc": 0.9159891598915989,
      "train_speed(iter/s)": 1.462174
    },
    {
      "epoch": 4.475815089327792,
      "grad_norm": 6.8517584800720215,
      "learning_rate": 2.6874437783852734e-06,
      "loss": 0.3896085023880005,
      "memory(GiB)": 77.59,
      "step": 104470,
      "token_acc": 0.9161073825503355,
      "train_speed(iter/s)": 1.462174
    },
    {
      "epoch": 4.476029304657041,
      "grad_norm": 3.183243751525879,
      "learning_rate": 2.68526757726027e-06,
      "loss": 0.69489426612854,
      "memory(GiB)": 77.59,
      "step": 104475,
      "token_acc": 0.8461538461538461,
      "train_speed(iter/s)": 1.462179
    },
    {
      "epoch": 4.476243519986291,
      "grad_norm": 1.4630553722381592,
      "learning_rate": 2.6830922332860387e-06,
      "loss": 0.28382437229156493,
      "memory(GiB)": 77.59,
      "step": 104480,
      "token_acc": 0.9272727272727272,
      "train_speed(iter/s)": 1.46218
    },
    {
      "epoch": 4.476457735315539,
      "grad_norm": 4.48967981338501,
      "learning_rate": 2.6809177465019706e-06,
      "loss": 0.5157535552978516,
      "memory(GiB)": 77.59,
      "step": 104485,
      "token_acc": 0.87890625,
      "train_speed(iter/s)": 1.462183
    },
    {
      "epoch": 4.476671950644788,
      "grad_norm": 5.0270233154296875,
      "learning_rate": 2.6787441169474735e-06,
      "loss": 0.5557469367980957,
      "memory(GiB)": 77.59,
      "step": 104490,
      "token_acc": 0.872093023255814,
      "train_speed(iter/s)": 1.462198
    },
    {
      "epoch": 4.476886165974037,
      "grad_norm": 4.902878761291504,
      "learning_rate": 2.6765713446619157e-06,
      "loss": 0.4524225234985352,
      "memory(GiB)": 77.59,
      "step": 104495,
      "token_acc": 0.8858131487889274,
      "train_speed(iter/s)": 1.462208
    },
    {
      "epoch": 4.477100381303286,
      "grad_norm": 3.622185707092285,
      "learning_rate": 2.6743994296846653e-06,
      "loss": 0.2930592060089111,
      "memory(GiB)": 77.59,
      "step": 104500,
      "token_acc": 0.9270833333333334,
      "train_speed(iter/s)": 1.462217
    },
    {
      "epoch": 4.477100381303286,
      "eval_loss": 2.5453319549560547,
      "eval_runtime": 11.3188,
      "eval_samples_per_second": 8.835,
      "eval_steps_per_second": 8.835,
      "eval_token_acc": 0.43478260869565216,
      "step": 104500
    },
    {
      "epoch": 4.477314596632535,
      "grad_norm": 0.4037240445613861,
      "learning_rate": 2.6722283720550635e-06,
      "loss": 0.4509110927581787,
      "memory(GiB)": 77.59,
      "step": 104505,
      "token_acc": 0.5692007797270955,
      "train_speed(iter/s)": 1.461967
    },
    {
      "epoch": 4.477528811961784,
      "grad_norm": 4.867579460144043,
      "learning_rate": 2.6700581718124398e-06,
      "loss": 0.1601899027824402,
      "memory(GiB)": 77.59,
      "step": 104510,
      "token_acc": 0.9523809523809523,
      "train_speed(iter/s)": 1.461971
    },
    {
      "epoch": 4.477743027291033,
      "grad_norm": 5.898445129394531,
      "learning_rate": 2.6678888289961015e-06,
      "loss": 0.312380313873291,
      "memory(GiB)": 77.59,
      "step": 104515,
      "token_acc": 0.9509803921568627,
      "train_speed(iter/s)": 1.461982
    },
    {
      "epoch": 4.477957242620282,
      "grad_norm": 0.4780559837818146,
      "learning_rate": 2.665720343645367e-06,
      "loss": 0.3627758979797363,
      "memory(GiB)": 77.59,
      "step": 104520,
      "token_acc": 0.9258064516129032,
      "train_speed(iter/s)": 1.461989
    },
    {
      "epoch": 4.47817145794953,
      "grad_norm": 1.0337575674057007,
      "learning_rate": 2.6635527157995164e-06,
      "loss": 0.37789335250854494,
      "memory(GiB)": 77.59,
      "step": 104525,
      "token_acc": 0.9248554913294798,
      "train_speed(iter/s)": 1.46199
    },
    {
      "epoch": 4.47838567327878,
      "grad_norm": 1.9221382141113281,
      "learning_rate": 2.6613859454978074e-06,
      "loss": 0.3250014543533325,
      "memory(GiB)": 77.59,
      "step": 104530,
      "token_acc": 0.9444444444444444,
      "train_speed(iter/s)": 1.461993
    },
    {
      "epoch": 4.478599888608029,
      "grad_norm": 2.588247060775757,
      "learning_rate": 2.6592200327795025e-06,
      "loss": 0.6629988670349121,
      "memory(GiB)": 77.59,
      "step": 104535,
      "token_acc": 0.8942731277533039,
      "train_speed(iter/s)": 1.461999
    },
    {
      "epoch": 4.478814103937278,
      "grad_norm": 5.560445308685303,
      "learning_rate": 2.6570549776838317e-06,
      "loss": 0.44315176010131835,
      "memory(GiB)": 77.59,
      "step": 104540,
      "token_acc": 0.919093851132686,
      "train_speed(iter/s)": 1.462003
    },
    {
      "epoch": 4.479028319266527,
      "grad_norm": 3.2393672466278076,
      "learning_rate": 2.6548907802500244e-06,
      "loss": 0.19492902755737304,
      "memory(GiB)": 77.59,
      "step": 104545,
      "token_acc": 0.9572368421052632,
      "train_speed(iter/s)": 1.462006
    },
    {
      "epoch": 4.479242534595776,
      "grad_norm": 2.326303005218506,
      "learning_rate": 2.6527274405172776e-06,
      "loss": 0.2674574613571167,
      "memory(GiB)": 77.59,
      "step": 104550,
      "token_acc": 0.9358490566037736,
      "train_speed(iter/s)": 1.462013
    },
    {
      "epoch": 4.479456749925024,
      "grad_norm": 6.62896203994751,
      "learning_rate": 2.6505649585247926e-06,
      "loss": 0.2877995491027832,
      "memory(GiB)": 77.59,
      "step": 104555,
      "token_acc": 0.9377162629757786,
      "train_speed(iter/s)": 1.462017
    },
    {
      "epoch": 4.479670965254273,
      "grad_norm": 2.1637861728668213,
      "learning_rate": 2.648403334311744e-06,
      "loss": 0.20482144355773926,
      "memory(GiB)": 77.59,
      "step": 104560,
      "token_acc": 0.9506172839506173,
      "train_speed(iter/s)": 1.462018
    },
    {
      "epoch": 4.479885180583523,
      "grad_norm": 4.7797064781188965,
      "learning_rate": 2.6462425679172898e-06,
      "loss": 0.27253189086914065,
      "memory(GiB)": 77.59,
      "step": 104565,
      "token_acc": 0.93646408839779,
      "train_speed(iter/s)": 1.462019
    },
    {
      "epoch": 4.480099395912772,
      "grad_norm": 3.543604850769043,
      "learning_rate": 2.6440826593805644e-06,
      "loss": 0.3429630517959595,
      "memory(GiB)": 77.59,
      "step": 104570,
      "token_acc": 0.93359375,
      "train_speed(iter/s)": 1.462022
    },
    {
      "epoch": 4.48031361124202,
      "grad_norm": 2.4458677768707275,
      "learning_rate": 2.6419236087407097e-06,
      "loss": 0.27058844566345214,
      "memory(GiB)": 77.59,
      "step": 104575,
      "token_acc": 0.935064935064935,
      "train_speed(iter/s)": 1.46202
    },
    {
      "epoch": 4.48052782657127,
      "grad_norm": 1.6775965690612793,
      "learning_rate": 2.639765416036838e-06,
      "loss": 0.24362030029296874,
      "memory(GiB)": 77.59,
      "step": 104580,
      "token_acc": 0.9274809160305344,
      "train_speed(iter/s)": 1.462022
    },
    {
      "epoch": 4.480742041900518,
      "grad_norm": 0.6044834852218628,
      "learning_rate": 2.6376080813080404e-06,
      "loss": 0.20301527976989747,
      "memory(GiB)": 77.59,
      "step": 104585,
      "token_acc": 0.9548872180451128,
      "train_speed(iter/s)": 1.462022
    },
    {
      "epoch": 4.480956257229767,
      "grad_norm": 3.424661874771118,
      "learning_rate": 2.635451604593403e-06,
      "loss": 0.4279609203338623,
      "memory(GiB)": 77.59,
      "step": 104590,
      "token_acc": 0.9003322259136213,
      "train_speed(iter/s)": 1.462024
    },
    {
      "epoch": 4.4811704725590165,
      "grad_norm": 2.3886566162109375,
      "learning_rate": 2.6332959859319882e-06,
      "loss": 0.2540069341659546,
      "memory(GiB)": 77.59,
      "step": 104595,
      "token_acc": 0.9303135888501742,
      "train_speed(iter/s)": 1.462025
    },
    {
      "epoch": 4.481384687888266,
      "grad_norm": 1.6402649879455566,
      "learning_rate": 2.6311412253628486e-06,
      "loss": 0.3968193531036377,
      "memory(GiB)": 77.59,
      "step": 104600,
      "token_acc": 0.8974358974358975,
      "train_speed(iter/s)": 1.462026
    },
    {
      "epoch": 4.481598903217514,
      "grad_norm": 1.6401630640029907,
      "learning_rate": 2.628987322925025e-06,
      "loss": 0.3250824689865112,
      "memory(GiB)": 77.59,
      "step": 104605,
      "token_acc": 0.939297124600639,
      "train_speed(iter/s)": 1.462033
    },
    {
      "epoch": 4.481813118546763,
      "grad_norm": 8.30751895904541,
      "learning_rate": 2.626834278657536e-06,
      "loss": 0.2290559768676758,
      "memory(GiB)": 77.59,
      "step": 104610,
      "token_acc": 0.9540983606557377,
      "train_speed(iter/s)": 1.462037
    },
    {
      "epoch": 4.482027333876012,
      "grad_norm": 3.8581039905548096,
      "learning_rate": 2.624682092599384e-06,
      "loss": 0.43761777877807617,
      "memory(GiB)": 77.59,
      "step": 104615,
      "token_acc": 0.9198606271777003,
      "train_speed(iter/s)": 1.462044
    },
    {
      "epoch": 4.482241549205261,
      "grad_norm": 5.138589859008789,
      "learning_rate": 2.6225307647895547e-06,
      "loss": 0.33149290084838867,
      "memory(GiB)": 77.59,
      "step": 104620,
      "token_acc": 0.9283154121863799,
      "train_speed(iter/s)": 1.462051
    },
    {
      "epoch": 4.48245576453451,
      "grad_norm": 5.267580509185791,
      "learning_rate": 2.6203802952670163e-06,
      "loss": 0.5468525886535645,
      "memory(GiB)": 77.59,
      "step": 104625,
      "token_acc": 0.8996282527881041,
      "train_speed(iter/s)": 1.462053
    },
    {
      "epoch": 4.4826699798637595,
      "grad_norm": 4.4731550216674805,
      "learning_rate": 2.6182306840707384e-06,
      "loss": 0.4014463424682617,
      "memory(GiB)": 77.59,
      "step": 104630,
      "token_acc": 0.9057239057239057,
      "train_speed(iter/s)": 1.462055
    },
    {
      "epoch": 4.482884195193008,
      "grad_norm": 2.647324562072754,
      "learning_rate": 2.6160819312396612e-06,
      "loss": 0.18777674436569214,
      "memory(GiB)": 77.59,
      "step": 104635,
      "token_acc": 0.9496402877697842,
      "train_speed(iter/s)": 1.462061
    },
    {
      "epoch": 4.483098410522257,
      "grad_norm": 3.4485745429992676,
      "learning_rate": 2.6139340368127153e-06,
      "loss": 0.34331235885620115,
      "memory(GiB)": 77.59,
      "step": 104640,
      "token_acc": 0.9010989010989011,
      "train_speed(iter/s)": 1.462071
    },
    {
      "epoch": 4.4833126258515055,
      "grad_norm": 0.9505252838134766,
      "learning_rate": 2.6117870008288027e-06,
      "loss": 0.3303847074508667,
      "memory(GiB)": 77.59,
      "step": 104645,
      "token_acc": 0.9166666666666666,
      "train_speed(iter/s)": 1.462082
    },
    {
      "epoch": 4.483526841180755,
      "grad_norm": 4.752738952636719,
      "learning_rate": 2.6096408233268255e-06,
      "loss": 0.6066962718963623,
      "memory(GiB)": 77.59,
      "step": 104650,
      "token_acc": 0.8522727272727273,
      "train_speed(iter/s)": 1.462092
    },
    {
      "epoch": 4.483741056510004,
      "grad_norm": 1.338132619857788,
      "learning_rate": 2.6074955043456583e-06,
      "loss": 0.2690101623535156,
      "memory(GiB)": 77.59,
      "step": 104655,
      "token_acc": 0.9310344827586207,
      "train_speed(iter/s)": 1.462099
    },
    {
      "epoch": 4.483955271839253,
      "grad_norm": 5.078920364379883,
      "learning_rate": 2.605351043924159e-06,
      "loss": 0.3210531949996948,
      "memory(GiB)": 77.59,
      "step": 104660,
      "token_acc": 0.9266409266409267,
      "train_speed(iter/s)": 1.46211
    },
    {
      "epoch": 4.484169487168502,
      "grad_norm": 2.7474937438964844,
      "learning_rate": 2.6032074421011963e-06,
      "loss": 0.1937403917312622,
      "memory(GiB)": 77.59,
      "step": 104665,
      "token_acc": 0.9566563467492261,
      "train_speed(iter/s)": 1.46212
    },
    {
      "epoch": 4.484383702497751,
      "grad_norm": 0.5618628263473511,
      "learning_rate": 2.6010646989155897e-06,
      "loss": 0.20769202709197998,
      "memory(GiB)": 77.59,
      "step": 104670,
      "token_acc": 0.9444444444444444,
      "train_speed(iter/s)": 1.46213
    },
    {
      "epoch": 4.484597917826999,
      "grad_norm": 2.664790391921997,
      "learning_rate": 2.5989228144061626e-06,
      "loss": 0.1570068597793579,
      "memory(GiB)": 77.59,
      "step": 104675,
      "token_acc": 0.9627118644067797,
      "train_speed(iter/s)": 1.462135
    },
    {
      "epoch": 4.4848121331562485,
      "grad_norm": 1.4165313243865967,
      "learning_rate": 2.5967817886117076e-06,
      "loss": 0.34678354263305666,
      "memory(GiB)": 77.59,
      "step": 104680,
      "token_acc": 0.9228395061728395,
      "train_speed(iter/s)": 1.462136
    },
    {
      "epoch": 4.485026348485498,
      "grad_norm": 3.4819347858428955,
      "learning_rate": 2.5946416215710203e-06,
      "loss": 0.44358625411987307,
      "memory(GiB)": 77.59,
      "step": 104685,
      "token_acc": 0.9042553191489362,
      "train_speed(iter/s)": 1.462137
    },
    {
      "epoch": 4.485240563814747,
      "grad_norm": 1.2791210412979126,
      "learning_rate": 2.59250231332287e-06,
      "loss": 0.16553033590316774,
      "memory(GiB)": 77.59,
      "step": 104690,
      "token_acc": 0.9642857142857143,
      "train_speed(iter/s)": 1.462138
    },
    {
      "epoch": 4.485454779143995,
      "grad_norm": 3.5528600215911865,
      "learning_rate": 2.590363863906009e-06,
      "loss": 0.7120731353759766,
      "memory(GiB)": 77.59,
      "step": 104695,
      "token_acc": 0.8639240506329114,
      "train_speed(iter/s)": 1.462142
    },
    {
      "epoch": 4.485668994473245,
      "grad_norm": 2.4374892711639404,
      "learning_rate": 2.5882262733591843e-06,
      "loss": 0.37239530086517336,
      "memory(GiB)": 77.59,
      "step": 104700,
      "token_acc": 0.9144736842105263,
      "train_speed(iter/s)": 1.462149
    },
    {
      "epoch": 4.485883209802493,
      "grad_norm": 4.6604814529418945,
      "learning_rate": 2.5860895417211204e-06,
      "loss": 0.44893684387207033,
      "memory(GiB)": 77.59,
      "step": 104705,
      "token_acc": 0.9175627240143369,
      "train_speed(iter/s)": 1.462156
    },
    {
      "epoch": 4.486097425131742,
      "grad_norm": 1.7574204206466675,
      "learning_rate": 2.58395366903052e-06,
      "loss": 0.34003894329071044,
      "memory(GiB)": 77.59,
      "step": 104710,
      "token_acc": 0.9233333333333333,
      "train_speed(iter/s)": 1.46216
    },
    {
      "epoch": 4.4863116404609915,
      "grad_norm": 1.40464186668396,
      "learning_rate": 2.581818655326074e-06,
      "loss": 0.3592484951019287,
      "memory(GiB)": 77.59,
      "step": 104715,
      "token_acc": 0.9203821656050956,
      "train_speed(iter/s)": 1.462171
    },
    {
      "epoch": 4.486525855790241,
      "grad_norm": 3.664510726928711,
      "learning_rate": 2.5796845006464676e-06,
      "loss": 0.30114691257476806,
      "memory(GiB)": 77.59,
      "step": 104720,
      "token_acc": 0.9323308270676691,
      "train_speed(iter/s)": 1.46217
    },
    {
      "epoch": 4.486740071119489,
      "grad_norm": 1.4582439661026,
      "learning_rate": 2.5775512050303653e-06,
      "loss": 0.27582478523254395,
      "memory(GiB)": 77.59,
      "step": 104725,
      "token_acc": 0.9418181818181818,
      "train_speed(iter/s)": 1.462172
    },
    {
      "epoch": 4.486954286448738,
      "grad_norm": 2.3839848041534424,
      "learning_rate": 2.575418768516408e-06,
      "loss": 0.29588608741760253,
      "memory(GiB)": 77.59,
      "step": 104730,
      "token_acc": 0.9388646288209607,
      "train_speed(iter/s)": 1.462183
    },
    {
      "epoch": 4.487168501777987,
      "grad_norm": 5.160384654998779,
      "learning_rate": 2.5732871911432254e-06,
      "loss": 0.5423030376434326,
      "memory(GiB)": 77.59,
      "step": 104735,
      "token_acc": 0.8810408921933085,
      "train_speed(iter/s)": 1.462185
    },
    {
      "epoch": 4.487382717107236,
      "grad_norm": 2.0651729106903076,
      "learning_rate": 2.571156472949432e-06,
      "loss": 0.40363278388977053,
      "memory(GiB)": 77.59,
      "step": 104740,
      "token_acc": 0.9198717948717948,
      "train_speed(iter/s)": 1.462188
    },
    {
      "epoch": 4.487596932436485,
      "grad_norm": 2.5870184898376465,
      "learning_rate": 2.56902661397363e-06,
      "loss": 0.108272385597229,
      "memory(GiB)": 77.59,
      "step": 104745,
      "token_acc": 0.9823943661971831,
      "train_speed(iter/s)": 1.46219
    },
    {
      "epoch": 4.4878111477657345,
      "grad_norm": 5.766993522644043,
      "learning_rate": 2.5668976142544097e-06,
      "loss": 0.17481012344360353,
      "memory(GiB)": 77.59,
      "step": 104750,
      "token_acc": 0.952755905511811,
      "train_speed(iter/s)": 1.462195
    },
    {
      "epoch": 4.488025363094983,
      "grad_norm": 4.933694362640381,
      "learning_rate": 2.564769473830331e-06,
      "loss": 0.5537356376647949,
      "memory(GiB)": 77.59,
      "step": 104755,
      "token_acc": 0.8837209302325582,
      "train_speed(iter/s)": 1.462208
    },
    {
      "epoch": 4.488239578424232,
      "grad_norm": 2.9799304008483887,
      "learning_rate": 2.5626421927399557e-06,
      "loss": 0.7006792545318603,
      "memory(GiB)": 77.59,
      "step": 104760,
      "token_acc": 0.8432203389830508,
      "train_speed(iter/s)": 1.462218
    },
    {
      "epoch": 4.488453793753481,
      "grad_norm": 5.157886028289795,
      "learning_rate": 2.5605157710218154e-06,
      "loss": 0.23203129768371583,
      "memory(GiB)": 77.59,
      "step": 104765,
      "token_acc": 0.939799331103679,
      "train_speed(iter/s)": 1.462218
    },
    {
      "epoch": 4.48866800908273,
      "grad_norm": 3.867652416229248,
      "learning_rate": 2.5583902087144287e-06,
      "loss": 0.3028172492980957,
      "memory(GiB)": 77.59,
      "step": 104770,
      "token_acc": 0.9344262295081968,
      "train_speed(iter/s)": 1.462221
    },
    {
      "epoch": 4.488882224411979,
      "grad_norm": 1.314069390296936,
      "learning_rate": 2.556265505856309e-06,
      "loss": 0.22112681865692138,
      "memory(GiB)": 77.59,
      "step": 104775,
      "token_acc": 0.9562289562289562,
      "train_speed(iter/s)": 1.462222
    },
    {
      "epoch": 4.489096439741228,
      "grad_norm": 3.144914388656616,
      "learning_rate": 2.5541416624859483e-06,
      "loss": 0.39819185733795165,
      "memory(GiB)": 77.59,
      "step": 104780,
      "token_acc": 0.9060150375939849,
      "train_speed(iter/s)": 1.462225
    },
    {
      "epoch": 4.489310655070477,
      "grad_norm": 1.69915771484375,
      "learning_rate": 2.552018678641821e-06,
      "loss": 0.1493169903755188,
      "memory(GiB)": 77.59,
      "step": 104785,
      "token_acc": 0.9534883720930233,
      "train_speed(iter/s)": 1.462231
    },
    {
      "epoch": 4.489524870399726,
      "grad_norm": 0.7083025574684143,
      "learning_rate": 2.5498965543623797e-06,
      "loss": 0.5117555141448975,
      "memory(GiB)": 77.59,
      "step": 104790,
      "token_acc": 0.8782051282051282,
      "train_speed(iter/s)": 1.462243
    },
    {
      "epoch": 4.489739085728975,
      "grad_norm": 0.6776761412620544,
      "learning_rate": 2.5477752896860827e-06,
      "loss": 0.089849191904068,
      "memory(GiB)": 77.59,
      "step": 104795,
      "token_acc": 0.9739776951672863,
      "train_speed(iter/s)": 1.462244
    },
    {
      "epoch": 4.4899533010582235,
      "grad_norm": 2.829087972640991,
      "learning_rate": 2.545654884651344e-06,
      "loss": 0.4179716110229492,
      "memory(GiB)": 77.59,
      "step": 104800,
      "token_acc": 0.9072847682119205,
      "train_speed(iter/s)": 1.462246
    },
    {
      "epoch": 4.490167516387473,
      "grad_norm": 4.003014087677002,
      "learning_rate": 2.5435353392965766e-06,
      "loss": 0.3543220281600952,
      "memory(GiB)": 77.59,
      "step": 104805,
      "token_acc": 0.8951048951048951,
      "train_speed(iter/s)": 1.462255
    },
    {
      "epoch": 4.490381731716722,
      "grad_norm": 4.6902618408203125,
      "learning_rate": 2.5414166536601945e-06,
      "loss": 0.4155571937561035,
      "memory(GiB)": 77.59,
      "step": 104810,
      "token_acc": 0.9159420289855073,
      "train_speed(iter/s)": 1.462268
    },
    {
      "epoch": 4.49059594704597,
      "grad_norm": 0.23225389420986176,
      "learning_rate": 2.539298827780567e-06,
      "loss": 0.4748037815093994,
      "memory(GiB)": 77.59,
      "step": 104815,
      "token_acc": 0.9057239057239057,
      "train_speed(iter/s)": 1.462268
    },
    {
      "epoch": 4.49081016237522,
      "grad_norm": 3.6793179512023926,
      "learning_rate": 2.537181861696064e-06,
      "loss": 0.2890788078308105,
      "memory(GiB)": 77.59,
      "step": 104820,
      "token_acc": 0.9227467811158798,
      "train_speed(iter/s)": 1.462271
    },
    {
      "epoch": 4.491024377704469,
      "grad_norm": 1.844957947731018,
      "learning_rate": 2.5350657554450375e-06,
      "loss": 0.3167715072631836,
      "memory(GiB)": 77.59,
      "step": 104825,
      "token_acc": 0.9365079365079365,
      "train_speed(iter/s)": 1.462281
    },
    {
      "epoch": 4.491238593033717,
      "grad_norm": 7.125828266143799,
      "learning_rate": 2.532950509065807e-06,
      "loss": 0.3856193065643311,
      "memory(GiB)": 77.59,
      "step": 104830,
      "token_acc": 0.926829268292683,
      "train_speed(iter/s)": 1.462281
    },
    {
      "epoch": 4.491452808362967,
      "grad_norm": 3.4054388999938965,
      "learning_rate": 2.5308361225967194e-06,
      "loss": 0.39865286350250245,
      "memory(GiB)": 77.59,
      "step": 104835,
      "token_acc": 0.9122257053291536,
      "train_speed(iter/s)": 1.462281
    },
    {
      "epoch": 4.491667023692216,
      "grad_norm": 9.562030792236328,
      "learning_rate": 2.528722596076061e-06,
      "loss": 0.6527802467346191,
      "memory(GiB)": 77.59,
      "step": 104840,
      "token_acc": 0.8787878787878788,
      "train_speed(iter/s)": 1.46228
    },
    {
      "epoch": 4.491881239021464,
      "grad_norm": 2.4806160926818848,
      "learning_rate": 2.5266099295421176e-06,
      "loss": 0.45832152366638185,
      "memory(GiB)": 77.59,
      "step": 104845,
      "token_acc": 0.9006622516556292,
      "train_speed(iter/s)": 1.462292
    },
    {
      "epoch": 4.4920954543507134,
      "grad_norm": 3.5654544830322266,
      "learning_rate": 2.524498123033181e-06,
      "loss": 0.36927802562713624,
      "memory(GiB)": 77.59,
      "step": 104850,
      "token_acc": 0.9146341463414634,
      "train_speed(iter/s)": 1.462293
    },
    {
      "epoch": 4.492309669679963,
      "grad_norm": 3.3418381214141846,
      "learning_rate": 2.522387176587493e-06,
      "loss": 0.35835421085357666,
      "memory(GiB)": 77.59,
      "step": 104855,
      "token_acc": 0.9258064516129032,
      "train_speed(iter/s)": 1.462295
    },
    {
      "epoch": 4.492523885009211,
      "grad_norm": 7.528841495513916,
      "learning_rate": 2.5202770902432894e-06,
      "loss": 0.4169743537902832,
      "memory(GiB)": 77.59,
      "step": 104860,
      "token_acc": 0.8961937716262975,
      "train_speed(iter/s)": 1.462307
    },
    {
      "epoch": 4.49273810033846,
      "grad_norm": 3.3427395820617676,
      "learning_rate": 2.518167864038817e-06,
      "loss": 0.27575292587280276,
      "memory(GiB)": 77.59,
      "step": 104865,
      "token_acc": 0.9442231075697212,
      "train_speed(iter/s)": 1.462309
    },
    {
      "epoch": 4.49295231566771,
      "grad_norm": 0.29462310671806335,
      "learning_rate": 2.5160594980122686e-06,
      "loss": 0.2844125986099243,
      "memory(GiB)": 77.59,
      "step": 104870,
      "token_acc": 0.9379562043795621,
      "train_speed(iter/s)": 1.462307
    },
    {
      "epoch": 4.493166530996958,
      "grad_norm": 2.121760845184326,
      "learning_rate": 2.5139519922018517e-06,
      "loss": 0.42444615364074706,
      "memory(GiB)": 77.59,
      "step": 104875,
      "token_acc": 0.9104938271604939,
      "train_speed(iter/s)": 1.462308
    },
    {
      "epoch": 4.493380746326207,
      "grad_norm": 1.497458815574646,
      "learning_rate": 2.5118453466457413e-06,
      "loss": 0.5046183109283447,
      "memory(GiB)": 77.59,
      "step": 104880,
      "token_acc": 0.896551724137931,
      "train_speed(iter/s)": 1.46231
    },
    {
      "epoch": 4.4935949616554565,
      "grad_norm": 1.1618131399154663,
      "learning_rate": 2.5097395613820963e-06,
      "loss": 0.28025977611541747,
      "memory(GiB)": 77.59,
      "step": 104885,
      "token_acc": 0.9423076923076923,
      "train_speed(iter/s)": 1.462312
    },
    {
      "epoch": 4.493809176984705,
      "grad_norm": 5.009873867034912,
      "learning_rate": 2.507634636449063e-06,
      "loss": 0.47494802474975584,
      "memory(GiB)": 77.59,
      "step": 104890,
      "token_acc": 0.9063670411985019,
      "train_speed(iter/s)": 1.462318
    },
    {
      "epoch": 4.494023392313954,
      "grad_norm": 3.132240056991577,
      "learning_rate": 2.50553057188479e-06,
      "loss": 0.17101367712020873,
      "memory(GiB)": 77.59,
      "step": 104895,
      "token_acc": 0.9535714285714286,
      "train_speed(iter/s)": 1.462323
    },
    {
      "epoch": 4.494237607643203,
      "grad_norm": 2.861384391784668,
      "learning_rate": 2.503427367727379e-06,
      "loss": 0.38792421817779543,
      "memory(GiB)": 77.59,
      "step": 104900,
      "token_acc": 0.9260273972602739,
      "train_speed(iter/s)": 1.462326
    },
    {
      "epoch": 4.494451822972452,
      "grad_norm": 1.1836953163146973,
      "learning_rate": 2.501325024014939e-06,
      "loss": 0.28874051570892334,
      "memory(GiB)": 77.59,
      "step": 104905,
      "token_acc": 0.9377289377289377,
      "train_speed(iter/s)": 1.462326
    },
    {
      "epoch": 4.494666038301701,
      "grad_norm": 3.984290599822998,
      "learning_rate": 2.49922354078555e-06,
      "loss": 0.28478331565856935,
      "memory(GiB)": 77.59,
      "step": 104910,
      "token_acc": 0.9419795221843004,
      "train_speed(iter/s)": 1.462324
    },
    {
      "epoch": 4.49488025363095,
      "grad_norm": 7.0936784744262695,
      "learning_rate": 2.4971229180772826e-06,
      "loss": 0.3952314376831055,
      "memory(GiB)": 77.59,
      "step": 104915,
      "token_acc": 0.9321533923303835,
      "train_speed(iter/s)": 1.462324
    },
    {
      "epoch": 4.495094468960199,
      "grad_norm": 2.4497792720794678,
      "learning_rate": 2.4950231559281944e-06,
      "loss": 0.3059451341629028,
      "memory(GiB)": 77.59,
      "step": 104920,
      "token_acc": 0.9385113268608414,
      "train_speed(iter/s)": 1.462332
    },
    {
      "epoch": 4.495308684289448,
      "grad_norm": 2.1571309566497803,
      "learning_rate": 2.4929242543763333e-06,
      "loss": 0.3011560201644897,
      "memory(GiB)": 77.59,
      "step": 104925,
      "token_acc": 0.9388379204892966,
      "train_speed(iter/s)": 1.462334
    },
    {
      "epoch": 4.495522899618697,
      "grad_norm": 6.507726192474365,
      "learning_rate": 2.4908262134597128e-06,
      "loss": 0.3277434825897217,
      "memory(GiB)": 77.59,
      "step": 104930,
      "token_acc": 0.9222972972972973,
      "train_speed(iter/s)": 1.462341
    },
    {
      "epoch": 4.4957371149479455,
      "grad_norm": 2.832367420196533,
      "learning_rate": 2.4887290332163417e-06,
      "loss": 0.4149008274078369,
      "memory(GiB)": 77.59,
      "step": 104935,
      "token_acc": 0.9166666666666666,
      "train_speed(iter/s)": 1.462338
    },
    {
      "epoch": 4.495951330277195,
      "grad_norm": 2.3492918014526367,
      "learning_rate": 2.486632713684217e-06,
      "loss": 0.5532340049743653,
      "memory(GiB)": 77.59,
      "step": 104940,
      "token_acc": 0.8688524590163934,
      "train_speed(iter/s)": 1.462337
    },
    {
      "epoch": 4.496165545606444,
      "grad_norm": 1.3638993501663208,
      "learning_rate": 2.484537254901309e-06,
      "loss": 0.23478689193725585,
      "memory(GiB)": 77.59,
      "step": 104945,
      "token_acc": 0.9508771929824561,
      "train_speed(iter/s)": 1.462346
    },
    {
      "epoch": 4.496379760935692,
      "grad_norm": 3.669424295425415,
      "learning_rate": 2.482442656905576e-06,
      "loss": 0.4921121597290039,
      "memory(GiB)": 77.59,
      "step": 104950,
      "token_acc": 0.8919753086419753,
      "train_speed(iter/s)": 1.462351
    },
    {
      "epoch": 4.496593976264942,
      "grad_norm": 2.1831440925598145,
      "learning_rate": 2.4803489197349704e-06,
      "loss": 0.5344000816345215,
      "memory(GiB)": 77.59,
      "step": 104955,
      "token_acc": 0.9037267080745341,
      "train_speed(iter/s)": 1.462352
    },
    {
      "epoch": 4.496808191594191,
      "grad_norm": 3.1845033168792725,
      "learning_rate": 2.4782560434274293e-06,
      "loss": 0.6546217918395996,
      "memory(GiB)": 77.59,
      "step": 104960,
      "token_acc": 0.872852233676976,
      "train_speed(iter/s)": 1.462358
    },
    {
      "epoch": 4.497022406923439,
      "grad_norm": 4.434353351593018,
      "learning_rate": 2.4761640280208553e-06,
      "loss": 0.4660048484802246,
      "memory(GiB)": 77.59,
      "step": 104965,
      "token_acc": 0.8975903614457831,
      "train_speed(iter/s)": 1.462359
    },
    {
      "epoch": 4.4972366222526885,
      "grad_norm": 4.021943092346191,
      "learning_rate": 2.4740728735531514e-06,
      "loss": 0.45668849945068357,
      "memory(GiB)": 77.59,
      "step": 104970,
      "token_acc": 0.8913857677902621,
      "train_speed(iter/s)": 1.462368
    },
    {
      "epoch": 4.497450837581938,
      "grad_norm": 2.3068621158599854,
      "learning_rate": 2.471982580062193e-06,
      "loss": 0.16317453384399414,
      "memory(GiB)": 77.59,
      "step": 104975,
      "token_acc": 0.9608540925266904,
      "train_speed(iter/s)": 1.462373
    },
    {
      "epoch": 4.497665052911186,
      "grad_norm": 3.5629255771636963,
      "learning_rate": 2.469893147585861e-06,
      "loss": 0.21102843284606934,
      "memory(GiB)": 77.59,
      "step": 104980,
      "token_acc": 0.9550173010380623,
      "train_speed(iter/s)": 1.462373
    },
    {
      "epoch": 4.497879268240435,
      "grad_norm": 7.45986795425415,
      "learning_rate": 2.4678045761620027e-06,
      "loss": 0.37987265586853025,
      "memory(GiB)": 77.59,
      "step": 104985,
      "token_acc": 0.9182879377431906,
      "train_speed(iter/s)": 1.462382
    },
    {
      "epoch": 4.498093483569685,
      "grad_norm": 2.08439040184021,
      "learning_rate": 2.4657168658284546e-06,
      "loss": 0.43216261863708494,
      "memory(GiB)": 77.59,
      "step": 104990,
      "token_acc": 0.8961424332344213,
      "train_speed(iter/s)": 1.462381
    },
    {
      "epoch": 4.498307698898933,
      "grad_norm": 5.191148281097412,
      "learning_rate": 2.463630016623031e-06,
      "loss": 0.38461663722991946,
      "memory(GiB)": 77.59,
      "step": 104995,
      "token_acc": 0.9139072847682119,
      "train_speed(iter/s)": 1.462381
    },
    {
      "epoch": 4.498521914228182,
      "grad_norm": 4.614174842834473,
      "learning_rate": 2.4615440285835457e-06,
      "loss": 0.2816993236541748,
      "memory(GiB)": 77.59,
      "step": 105000,
      "token_acc": 0.9393939393939394,
      "train_speed(iter/s)": 1.462381
    },
    {
      "epoch": 4.498521914228182,
      "eval_loss": 2.202039957046509,
      "eval_runtime": 11.8644,
      "eval_samples_per_second": 8.429,
      "eval_steps_per_second": 8.429,
      "eval_token_acc": 0.4740834386852086,
      "step": 105000
    }
  ],
  "logging_steps": 5,
  "max_steps": 116705,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 5,
  "save_steps": 500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 3.4428799879420923e+18,
  "train_batch_size": 8,
  "trial_name": null,
  "trial_params": null
}